WEBVTT

00:00.630 --> 00:04.800
Bună ziua și bun venit înapoi la cursul de învățare profundă astăzi vorbim despre Max pooling

00:04.800 --> 00:07.380
și avem niște diapozitive foarte interesante care vin înainte.

00:07.500 --> 00:10.930
Și chiar o surpriză specială la sfârșitul tutorialului.

00:11.010 --> 00:12.440
Deci sa începem.

00:12.450 --> 00:15.860
Prima întrebare este ceea ce reprezintă punerea în comun și de ce avem nevoie de ea.

00:16.050 --> 00:19.650
Ei bine, pentru a răspunde la această întrebare, să aruncăm o privire asupra acestor imagini pe aceste imagini.

00:19.650 --> 00:20.780
Avem un ghepard.

00:20.790 --> 00:23.680
De fapt, este același ghepard exact pe prima imagine.

00:23.680 --> 00:29.640
Imaginea este poziționată corespunzător și că ea privește direct pe a doua imagine.

00:29.640 --> 00:30.660
Este puțin rotit.

00:30.660 --> 00:32.710
Iar cea de-a treia imagine a rămas un pic încurcată.

00:32.790 --> 00:40.020
Și lucrul aici este că vrem ca rețeaua neuronală să recunoască ghepardul în fiecare dintre

00:40.020 --> 00:41.450
aceste imagini.

00:41.460 --> 00:43.230
De fapt, acesta este doar un ghepard.

00:43.230 --> 00:45.070
Dacă avem multe împușcături diferite.

00:45.090 --> 00:46.120
Iată un ghepard.

00:46.180 --> 00:47.250
El este un ghepard.

00:47.400 --> 00:53.130
Iată un alt ghepard al lui Ashira, gheara lui Ishida și el un ghepard și dorim ca rețeaua neurală

00:53.130 --> 01:01.110
să recunoască toți acești împușcături ca pe un trișor și cum poate face asta dacă toți privesc în direcții diferite sunt toți în diferite părți ale

01:01.110 --> 01:06.300
imaginile sunt ca și cum fețele lor sunt poziționate în diferite părți ale imaginii cineva este pe

01:06.300 --> 01:10.080
partea dreaptă pe cineva din colțul din stânga sau pe cineva în

01:10.080 --> 01:10.700
mijloc.

01:11.010 --> 01:14.280
Toți sunt diferiți și textura este puțin diferită.

01:14.280 --> 01:16.200
Lumina este puțin diferită.

01:16.200 --> 01:21.600
Există o mulțime de diferențe mici și dacă rețeaua neuronală caută o anumită caracteristică, de

01:21.810 --> 01:29.700
exemplu, o trăsătură distinctivă a ghepardului este lacrimile care se află pe fața sa, mergând de la ochi sau de la umbra umbrelor

01:29.700 --> 01:35.310
umbrite care arată ca lacrimile texturii modelul care se îndreaptă de la ochii săi în jos este

01:35.310 --> 01:40.890
pe părțile laterale ale nasului și arată ca lacrimile care reprezintă o caracteristică distinctivă a ghepardului.

01:40.890 --> 01:48.660
Dar dacă caută acea caracteristică pe care a învățat-o din anumite ghepardi într-o locație exactă sau într-o formă sau

01:48.660 --> 01:53.370
formă exactă sau textura, nu va găsi niciodată acești ceilalți împușcători.

01:53.460 --> 02:01.410
Deci, trebuie să ne asigurăm că rețeaua noastră neuronală are o proprietate numită invarianță spațială, ceea ce înseamnă că nu-i pasă unde

02:01.440 --> 02:10.170
caracteristicile nu sunt din nou nu atât de mult ca o prăpastie care parte a imaginii pentru că suntem așa cum am luat-o în considerare

02:10.520 --> 02:16.460
cu hărțile noastre suntem săraci cu convoluția noastră acolo dar nu trebuie să ne pese dacă

02:16.800 --> 02:23.400
elementele sunt puțin înclinate în cazul în care caracteristicile sunt puțin diferite în textură în cazul în care

02:23.400 --> 02:30.210
caracteristicile sunt un pic mai aproape de caracteristici sau un pic mai departe relativ la unul față de celălalt.

02:30.210 --> 02:37.230
Deci, dacă caracteristica însăși este puțin distorsionată, rețeaua noastră neuronală trebuie să aibă un anumit nivel de flexibilitate pentru a

02:37.410 --> 02:39.930
putea găsi în continuare această caracteristică.

02:40.050 --> 02:42.690
Și asta este tot ceea ce reprezintă punerea în comun.

02:42.690 --> 02:45.140
Deci, haideți să aruncăm o privire la modul în care funcționează punerea în comun.

02:45.180 --> 02:51.090
Iată harta noastră de caracteristici, așa că am făcut deja convoluția noastră și am terminat acea parte și acum

02:51.090 --> 02:52.680
lucrăm cu convoluția acolo.

02:52.680 --> 02:53.880
Acum vom aplica punerea în comun.

02:53.880 --> 02:54.690
Deci, cum funcționează.

02:54.690 --> 02:56.420
Vom reveni la punerea în comun.

02:56.670 --> 03:01.640
Există mai multe tipuri diferite de jocuri care se conformează, adunându-se pe Max cumulând niște piscine și comentând

03:01.710 --> 03:03.440
pe cele spre finalul povestirii.

03:03.540 --> 03:11.040
Dar deocamdată aplicăm doar plictisirea Max, astfel că luăm o cutie de două cu doi pixeli de genul acesta și din nou nu trebuie să

03:11.040 --> 03:15.020
fie două până la două, puteți alege orice dimensiune a casetei și

03:15.030 --> 03:21.900
din nou o să comenteze acest lucru și este Tauriel și îl plasați în colțul din stânga sus și veți găsi valoarea

03:21.900 --> 03:26.310
maximă în cutia respectivă și apoi înregistrați numai acea valoare și ignorați celelalte trei.

03:26.310 --> 03:30.600
Deci, în caseta dvs. aveți patru valori pe care totuși le ignorați, trei păstrați doar un maxim care

03:30.600 --> 03:31.830
este unul în acest caz.

03:31.830 --> 03:36.210
Apoi, mutați caseta spre dreapta cu ajutorul căii pe care o selectați din nou.

03:36.210 --> 03:41.850
Deci, aici ne alunecăm la două și asta e ceea ce în mod normal ați psyched poți spune ca un pas pe

03:41.850 --> 03:42.880
care îl puteți selecta.

03:42.990 --> 03:47.940
Deci, există casete suprapuse, puteți selecta orice fel de grevă pe care doriți chiar și trei, dacă doriți, dar

03:48.770 --> 03:52.440
alegem un pas de două aici și asta este cel mai frecvent utilizat.

03:52.470 --> 03:57.660
Apoi repetați repetarea procesului pe care îl înregistrați aici, dacă treceți și nu contează că

03:57.660 --> 04:00.080
continuați să faceți ceea ce faceți.

04:00.090 --> 04:05.690
Deci inca tu inregistrezi maximul aici aici 0 maximul este de patru.

04:05.700 --> 04:11.380
Aici sunt maximele până aici maximul este 1 0 1 sau 2 și apoi 1.

04:11.400 --> 04:13.970
Deoarece puteți vedea câteva lucruri care s-au întâmplat.

04:13.980 --> 04:18.890
În primul rând am reușit în continuare să păstrăm caracteristicile corecte.

04:19.080 --> 04:23.730
Numerele maxime pe care le reprezintă, deoarece știm cum funcționează concluzia Lehre.

04:23.730 --> 04:28.650
Știm că numerele maxime sau mari din harta dvs. de caracteristici reprezintă acelea în care ați

04:28.650 --> 04:31.480
găsit cea mai apropiată similitudine cu o caracteristică.

04:31.650 --> 04:38.250
Dar, până acum, prin punerea în comun a acestor caracteristici, în primul rând, scăpăm de

04:38.250 --> 04:46.110
75% din informațiile care nu sunt caracteristicile care nu sunt lucrurile importante pe care le căutăm pentru că

04:46.220 --> 04:49.410
suntem doar trei pixeli din patru .

04:49.710 --> 04:51.510
Așa că nu mai avem decât 25%.

04:51.510 --> 05:00.260
Și apoi și pentru că luăm maximum de pixeli pe care noi sau valorile pe care

05:00.770 --> 05:04.160
le avem, noi contabilizăm orice distorsiune.

05:04.160 --> 05:12.810
Deci, de exemplu, două imagini în care, de exemplu, lacrimile pe ochi sunt în aceeași imagine acolo puțin în stânga sau

05:12.830 --> 05:16.550
puțin rotit în stânga și altul acolo puțin.

05:16.580 --> 05:22.100
Și trebuie să fie cum ar trebui să fie sau cum ne place dacă luați unul ca bazele și altul acolo

05:22.100 --> 05:23.800
sunt biți se rotesc în stânga.

05:24.060 --> 05:26.570
Caracteristica înclinată va fi exact aceeași.

05:26.570 --> 05:32.900
Deci, puteți vedea aici dacă vorbim de lacrimile peșitorului, să spunem că acesta este cel de-al patrulea și aici

05:32.900 --> 05:36.050
este locul unde era atunci dacă era puțin rotit.

05:36.050 --> 05:38.270
De exemplu, cele patru au ajuns aici.

05:38.390 --> 05:44.180
Atunci când facem piscina, vom obține în continuare aceeași hartă a caracteristicilor piscinei și acesta este un

05:44.180 --> 05:46.270
fel de principiu în spatele ei.

05:46.430 --> 05:52.340
Este o explicație foarte dificilă din nou o explicație intuitivă, dar acesta este scopul de

05:52.340 --> 06:00.290
a reuni că putem încă să păstrăm caracteristicile și, în plus, să ținem seama de posibilele lor distorsiuni spațiale, textuale

06:00.290 --> 06:02.330
sau de altă natură.

06:02.420 --> 06:07.370
Și în plus față de toate acestea reducem mărimea, astfel că există un alt beneficiu.

06:07.370 --> 06:13.520
Așa că am păstrat funcțiile pe care le introducem invarianților spațiali reducem mărimea cu 75%,

06:13.520 --> 06:19.700
ceea ce este foarte mare, ceea ce ne va ajuta într-adevăr în ceea ce privește procesarea.

06:19.870 --> 06:25.970
Și, de altfel, un alt avantaj al punerii în comun este reducerea numărului de parametri, astfel reducem din

06:26.690 --> 06:31.370
nou cu 75% sau reducând numărul de parametri care vor intra în ultimii noștri

06:31.370 --> 06:35.270
Lares ai rețelei neuronale și, prin urmare, împiedicăm echiparea excesivă.

06:35.300 --> 06:42.580
Este un beneficiu foarte important al punerii în comun că eliminăm informațiile și că este un lucru bun.

06:42.590 --> 06:50.660
Acesta este un lucru bun pentru ca in acest fel modelul nostru nu va mai putea sa se incadreze in acele informatii deoarece, mai ales pentru

06:50.690 --> 06:54.500
ca informatia nu este buna si nu ne amintim ca la inceput

06:54.950 --> 07:00.650
vorbim chiar si pentru om ca oameni este important sa vezi exact caracteristicile, mai degrabă decât întregul alt zgomot

07:00.650 --> 07:02.520
care vine în ochii noștri.

07:02.780 --> 07:09.070
Ei bine, același lucru pentru rețelele neuronale le ignoră formarea inutilă care nu

07:09.080 --> 07:12.470
este importantă, ajutăm la prevenirea suprapunerii.

07:12.500 --> 07:14.590
Deci, acolo mergem la asta este vorba despre punerea în comun.

07:14.600 --> 07:21.500
Și întrebarea aici este, bineînțeles, de ce WiMax piscina chiar acolo sunt o mulțime de diferite tipuri de piscina și un pas

07:21.710 --> 07:26.780
larg larg de o dimensiune prea mare de două câte două pixeli de toate aceste lucruri.

07:26.780 --> 07:33.980
Și în această notă aș vrea să vă prezint această lucrare minunată de cercetare numită evaluarea operațiunilor de

07:33.980 --> 07:40.250
pooling în arhitecturi convoluționale pentru recunoașterea obiectelor de către Dominic Scherrer de la Universitatea din

07:40.250 --> 07:41.100
Bonn.

07:41.180 --> 07:47.540
Există legătura și frumusețea despre această lucrare este că este foarte simplu foarte simplu Deci, dacă nu ați citit niciodată o

07:47.550 --> 07:51.530
lucrare de cercetare înainte de ceea ce ați dori să-i dați un du-te.

07:51.530 --> 07:54.440
Acesta este un loc minunat pentru a începe este foarte scurt.

07:54.440 --> 07:55.400
Doar 10 pagini.

07:55.400 --> 07:56.810
Foarte ușor de citit.

07:57.080 --> 08:03.170
Și plus beneficiul suplimentar este că acum că am discutat despre convoluție și punere în comun, veți fi total

08:03.170 --> 08:07.040
confortabil cu tot ceea ce vorbește în această lucrare din tine.

08:07.100 --> 08:11.880
Aceasta este o modalitate excelentă de a vă întări efectiv și, de asemenea, vă recomand să verificați această lucrare.

08:11.930 --> 08:18.050
Voi lua 20 de minute pentru a le citi și puteți trece chiar și la partea a 2-a, care se numește muncă asociată, dacă

08:18.050 --> 08:19.880
se simte un pic înfrânt sau înstrăinat.

08:19.880 --> 08:21.230
Nu citiți acea parte.

08:21.290 --> 08:23.950
Mergeți direct de la partea 1 la partea 3.

08:24.020 --> 08:29.600
Și un lucru pe care trebuie să-l cunoașteți despre această lucrare pe care îl vorbește despre un concept numit

08:30.360 --> 08:33.230
subsampling, care este subsampling, este, practic, o pondere medie.

08:33.230 --> 08:36.260
Așa că amintiți-vă cum luam aici.

08:36.280 --> 08:37.400
Luăm maximum.

08:37.400 --> 08:43.250
Așa că în pătrații noștri, luând valoarea maximă, există un concept numit "Mean pooling" sau unii trăgând unele trăgând,

08:43.250 --> 08:48.590
pe măsură ce doar câteva dintre aceste valori reprezintă o pondere medie sau o adunare medie înseamnă că

08:48.650 --> 08:53.890
veți lua valoarea medie din toate acestea, iar subsamplingul este un fel de generalizare din bărbați.

08:53.900 --> 09:00.840
Este vorba despre un fel de abordare generalizată de a lua în considerare valoarea medie a acestor valori.

09:00.860 --> 09:05.480
Și puteți citi ceva mai mult în hârtie, dar în caz contrar, gândiți-vă doar la aceasta ca o medie de piscină

09:05.480 --> 09:06.620
atunci când citiți o lucrare.

09:06.920 --> 09:11.180
Și de aici puteți obține câteva informații suplimentare despre acest subiect și acum putem să recapitulăm

09:11.210 --> 09:12.310
unde am ajuns.

09:12.320 --> 09:14.440
Deci, există imaginea noastră de intrare.

09:14.870 --> 09:18.960
Apoi am aplicat operația de convoluție și am ajuns la concluzia.

09:19.070 --> 09:24.230
Și acum la fiecare dintre aceste hărți de caracteristici pe care le obținem Am aplicat Pullinger.

09:24.260 --> 09:30.590
Așa că am făcut că am făcut aceste două etape de evoluție și de punere în comun și acum vom face

09:30.590 --> 09:32.160
ceva foarte distractiv ceva interesant.

09:32.220 --> 09:40.340
Vom experimenta acest lucru, deci aceasta este o captură de ecran pe care am luat-o de la un instrument creat de

09:40.340 --> 09:48.140
Adam Harley de când a fost la Universitatea Ryerson de Informatică și acum este la Carnegie Mellon Cred că

09:48.320 --> 09:49.750
își face pagina.

09:50.060 --> 09:53.150
Și un instrument grozav, așa că hai să ne deschidem să aruncăm o privire.

09:53.270 --> 09:55.780
Deci, puteți găsi că puteți găsi de fapt prin intermediul Google.

09:55.780 --> 09:57.500
Trebuie să cunoști rolul tău.

09:57.500 --> 10:03.790
Este la fel de greu să o găsiți prin Google, deoarece nu există text aici, așa cum am fost în acest an.

10:03.930 --> 10:08.350
Voi vedea dosarul Reierson și chestiile astea.

10:08.510 --> 10:14.820
Și, practic, asta este exact ceea ce facem, dar vizualizăm. Deci, aici trebuie să desenați

10:14.820 --> 10:21.330
un număr, deci spuneți că voi desena numărul patru și acest instrument va pune numărul patru aici.

10:21.340 --> 10:22.960
Aceasta este imaginea ta.

10:22.960 --> 10:26.620
În primul nostru pas, atunci acesta este pasul de convoluție.

10:26.800 --> 10:27.100
Dreapta.

10:27.100 --> 10:30.390
Și acesta este pasul de punere în comun și, de asemenea, punerea în comun de modul este, de asemenea, numit downsampling.

10:30.390 --> 10:33.770
Deci, trăgând și descrescătorul sunt aceleași lucruri.

10:33.930 --> 10:39.190
Deci puteți vedea că este aplicată convoluția, apoi este aplicată punerea în comun și puteți vedea cum funcționează exact.

10:39.190 --> 10:44.290
Puteți vedea ce fel de convoluții pe care le-a aplicat sau ce fel de filtre se aplică

10:44.290 --> 10:45.020
cum arată.

10:45.130 --> 10:47.630
Ce caracteristici se ocupă.

10:47.830 --> 10:53.340
Apoi este aplicată punerea în comun, astfel încât reduce dimensiunea și puteți vedea aici că acest lucru este important.

10:53.380 --> 11:01.090
Deci, puteți vedea că aceasta este imaginea convexă și aceasta este imaginea pușcă și puteți vedea totuși că aceleași caracteristici

11:01.090 --> 11:05.830
sunt doar mai puține informații, dar aceleași caracteristici se păstrează caracteristicile corecte.

11:05.830 --> 11:08.110
Aceasta este partea importantă.

11:08.350 --> 11:14.170
Și, în plus, dacă știți că toate cele patru au fost puțin cam atît de rotunjite, ar fi fost

11:14.170 --> 11:16.960
în stare să ridice piscina foarte asemănătoare Lares.

11:17.050 --> 11:19.810
Și după aceea au mai multe scrisori despre care nu am vorbit încă despre asta.

11:19.810 --> 11:26.840
Deci, el are un alt tip convoluțional într-o curbă convoluționară pe care nu o vom avea de fapt.

11:27.130 --> 11:30.730
Și apoi are o altă sursă de sărăcie, dar în principiu doar repetă același proces.

11:31.000 --> 11:34.880
Și apoi, după aceea, vom vorbi mai departe în curs.

11:34.910 --> 11:37.610
Are Lares pe deplin conectate și așa mai departe.

11:38.080 --> 11:39.880
Dar cu siguranță poți să te joci cu asta.

11:39.880 --> 11:47.890
Deci, dacă șterg că vă place dacă am desena un 7 veți vedea că într-adevăr vă spune că presupunerea este o presupunere este că

11:47.890 --> 11:49.410
acesta este un 7.

11:49.570 --> 11:52.850
Iar al doilea presupune că probabilitatea a doua este de trei.

11:53.050 --> 11:56.440
Deci, puteți trage unele lucruri provocatoare și puteți vedea dacă le poate ridica.

11:56.440 --> 12:02.680
Asa ca sa zicem daca trag ceva ce arata ca un 0, dar nu este un finalizat 0, o va ridica de data asta

12:02.770 --> 12:03.730
nu a luat-o.

12:03.730 --> 12:06.190
Pare a fi un 9 la asta pentru imagine.

12:06.190 --> 12:08.550
Și dacă o să termin așa.

12:08.560 --> 12:14.430
Deci, acum se crede că este un 0 sau un 9 și poți vedea acolo ce luminează 0.

12:14.460 --> 12:16.600
Dar vom vorbi despre această parte pentru îndoială.

12:16.720 --> 12:20.030
Mai spuneți încă o dată 8.

12:20.260 --> 12:23.780
Cred că este destul de greu pentru asta acum a luat un 8.

12:23.800 --> 12:29.590
Deci, puteți vedea că merge într-un 8 și apoi, după aceea, se oprește a fi recunoscut că

12:29.590 --> 12:31.570
opririle ne fac sens oamenilor.

12:31.570 --> 12:32.150
Dreapta.

12:32.170 --> 12:34.390
Aceste caracteristici cu care lucrează.

12:34.570 --> 12:38.710
Dar, în același timp, recunoaște corect că este un 8.

12:39.100 --> 12:42.540
Deci juca cu siguranta in jurul cu care poti desena o fata zambitoare.

12:42.550 --> 12:43.460
Ce se întâmplă apoi.

12:44.310 --> 12:50.070
Arată ca un instrument de trei la acest instrument, deoarece instrumentul este evident instruit doar pe cifre de la 0

12:50.070 --> 12:50.950
la nouă.

12:51.120 --> 12:58.530
Deci, trebuie să recunoască ceva acolo sunt și recunoaște un trei este ca în viața atunci când veți vedea ceva de genul unui tip

12:58.530 --> 13:05.700
de fructe pe care nu ați mai văzut-o înainte ca un mere de cremă sau ceva și credeți că este ca și

13:06.120 --> 13:12.570
cum ar fi un pentru că nu ați văzut-o niciodată înainte de a nu ști ce să-l clasificați ca același

13:12.570 --> 13:18.210
lucru aici, așa că nu sa antrenat de fapt pe fețele zâmbitoare și de aceea se crede că

13:18.210 --> 13:20.480
este un copac ca un copac.

13:20.490 --> 13:25.770
Deci, tu esti un instrument foarte puternic, va fi de ajutor sa te joci de fapt, atunci cand

13:26.130 --> 13:29.430
iti pui mouse-ul peste un pixel pixel care se va arata.

13:29.430 --> 13:36.930
Acesta vă arată unde detectorul de funcții a fost de a ridica acel pixel, astfel încât să puteți vedea de unde

13:36.930 --> 13:43.170
provin acești pixeli și, de asemenea, pentru a vedea cum a fost un fel de filtru ca

13:43.170 --> 13:47.910
trecând prin imagine exact cum am vorbit și bineînțeles și aici puteți

13:47.910 --> 13:58.140
vedea că puteți vedea piscina puteți vedea că tragerea se face cu tragerea se face cu o mărime mică pătrat de două câte două și puteți vedea că

13:58.200 --> 14:03.730
este un pas de doi, precum și așa cum am discutat în tutorialul de astăzi.

14:03.960 --> 14:09.240
Deci, du-te joacă sau au o joacă în jurul cu asta și sper că vă bucurați de sesiunea de astăzi.

14:09.240 --> 14:10.610
Aștept cu nerăbdare să vă văd data viitoare.

14:10.620 --> 14:12.470
Și până atunci se bucură de învățare profundă.
