WEBVTT

00:00.490 --> 00:02.980
Bună ziua și bun venit înapoi la cursul de învățare profundă.

00:02.980 --> 00:06.900
Astăzi am lansat rețele neuronale convoluționale va fi incitant.

00:06.910 --> 00:08.610
Să mergem direct în ea.

00:08.620 --> 00:10.840
Vom începe cu o imagine.

00:10.930 --> 00:13.210
Ce vezi când te uiți la această imagine.

00:13.580 --> 00:19.480
Vedeți o persoană care se uită la tine sau vedeți o persoană care caută spre dreapta

00:19.480 --> 00:25.860
puteți vedea că creierul dvs. se luptă se luptă să se adapteze dacă priviți spre partea dreaptă a imaginii.

00:25.870 --> 00:29.180
Uită-te la granița din dreapta unde vei vedea o persoană care privește în dreapta.

00:29.260 --> 00:33.320
Dacă vă uitați la marginea din stânga a imaginii, veți vedea o persoană care vă privește.

00:33.700 --> 00:42.760
Și acest lucru doar dovedește că ceea ce creierul nostru caută atunci când vedem lucrurile este caracteristică în funcție de caracteristicile pe care le vede

00:42.760 --> 00:46.140
în funcție de caracteristicile pe care le procesați.

00:46.180 --> 00:48.610
Clasificați lucrurile în anumite moduri.

00:48.730 --> 00:54.010
Deci, când priviți în partea dreaptă a imaginii, veți vedea anumite trăsături ale unei persoane care căută să

00:54.010 --> 01:00.190
călătorească, deoarece sunt mai aproape de centrul dvs. de concentrare și, prin urmare, creierul tău se clasifică ca o persoană care caută

01:00.190 --> 01:00.930
spre dreapta.

01:01.000 --> 01:06.790
Când priviți în partea stângă a imaginii, veți vedea mai multe caracteristici ale unei persoane care vă privește și,

01:06.790 --> 01:09.580
prin urmare, creierul dvs. o clasifică ca atare.

01:09.580 --> 01:11.150
Să aruncăm o privire la alta.

01:11.230 --> 01:12.840
Aceasta este o imagine foarte faimoasă.

01:12.910 --> 01:14.530
Probabil ați văzut-o deja.

01:14.680 --> 01:16.240
Dar ce vedeți aici.

01:16.820 --> 01:23.830
Deci, unii oameni vor spune că văd o tânără care poartă o rochie în depărtare.

01:23.830 --> 01:29.980
Unii oameni spun că văd o bătrână care poartă o eșarfă pe capul ei privindu-se în jos.

01:30.280 --> 01:36.250
Așa că voi îndrepta acest lucru și vei vedea că va deveni foarte evident, așa că aceasta este

01:36.250 --> 01:37.510
fața fetei tinere.

01:37.510 --> 01:40.450
Se uită la distanță ca haina ei.

01:40.440 --> 01:44.940
Acesta este părul ei care este penei ei mici în părul ei și pe de altă parte.

01:44.980 --> 01:53.530
Acesta este capul bătrânii care privește în jos pe nas gura ei pe bărbie, care e eșarfa pe capul ei și

01:53.560 --> 01:55.560
se uită în jos.

01:55.780 --> 02:01.960
Așa cum puteți vedea două în una și în funcție de caracteristicile pe care le ridică creierul

02:02.620 --> 02:06.710
dvs., va trece între clasificarea fiecărei imagini ca una sau cealaltă.

02:06.910 --> 02:13.930
Cel mai vechi dintre aceste iluzii înregistrate în lucrarea tipărită este acesta.

02:13.930 --> 02:15.220
E rața sau iepurele.

02:15.230 --> 02:17.020
Deci este o rață sau este un iepure.

02:17.020 --> 02:18.330
Alt exemplu.

02:18.430 --> 02:25.030
Și acum voi arăta o imagine care, pentru doar o secundă, o să se uite la ea și să vedem ce anume

02:25.030 --> 02:28.670
ce emoții sau ce fel de experiență experiență vizuală treci prin.

02:29.110 --> 02:36.610
Deci, ceea ce vedeți, vă simțiți ca un pic nu amețit, dar puțin uluit cum creierul dvs. încearcă să încerce să

02:36.610 --> 02:40.230
înțeleagă ce este ceea ce este ca și cum încearcă.

02:40.330 --> 02:49.240
O săritură între ochi în sus și în jos ochii și acesta este un exemplu clasic de când există anumite caracteristici în cazul în care ar putea fi

02:49.240 --> 02:53.850
acest lucru ar putea fi faptul că, dar creierul tău nu poate decide.

02:54.130 --> 02:58.230
Și pentru că ambele par plauzibile.

02:58.290 --> 03:04.360
Da, deci toate aceste exemple ne ilustrează cum funcționează creierul că procesează anumite trăsături pe

03:04.360 --> 03:10.970
o imagine sau pe ceea ce vedeți în viața reală și pe care o clasificați ca fiind.

03:10.980 --> 03:16.150
Probabil ai fost în situații când te uiți peste umărul tău repede și vezi ceva

03:16.150 --> 03:23.500
ce crezi că nu știu dacă e ca o minge, dar se pare că eo pisică sau crezi că este o

03:23.500 --> 03:24.030
mașină.

03:24.070 --> 03:28.030
Se pare că este o umbră sau lucruri de genul asta, deoarece nu ai timp suficient pentru a procesa

03:28.030 --> 03:31.030
aceste caracteristici sau nu ai suficiente funcții pentru a clasifica lucrurile ca atare.

03:31.240 --> 03:38.570
Și asta este pentru mine acest lucru este foarte interesant pentru că ceea ce vom face cu rețele neuronale cu rețele neuronale convoluționale

03:38.570 --> 03:43.630
este foarte asemănător și veți descoperi că modul în care computerele vor fi procesate imagini

03:43.630 --> 03:48.190
va fi extrem de asemănătoare cu modul în care procesăm imaginile, așa că

03:48.210 --> 03:53.580
este foarte valoros să înțelegem și să ne amintim mereu aceste lucruri că așa facem noi.

03:53.590 --> 03:58.450
Și o să-i iau pe doamnă de pe ecranele tale, pentru că probabil că deja fuge deja.

03:58.630 --> 04:00.940
Deci, iată ceva diferit.

04:00.940 --> 04:07.870
Iată un experiment pe care îl facem un experiment pe computerele pe o rețea neuronală convoluționară, așa că acum

04:07.870 --> 04:11.150
ne mișcăm încet de la oameni la computere.

04:11.350 --> 04:18.490
Și acest diapozitiv este dintr-o poveste scrisă de Geoffrey Hinton și aici descrieți în esență un experiment pe

04:18.490 --> 04:24.440
care el a făcut-o cu privire la rețelele neuronale convenționale pe care le-a pregătit.

04:24.460 --> 04:29.560
Deci, vedeți aici trei imagini și le vom trece de la stânga la dreapta și vom vedea cum le veți

04:29.560 --> 04:31.870
clasifica și apoi vom vedea cum pot fi reclasificate.

04:31.870 --> 04:35.440
Deci, în stânga, ce credeți că este vorba?

04:35.440 --> 04:37.710
Probabil a spus ghepard și vei avea dreptate.

04:37.710 --> 04:41.740
Și acesta este ceea ce a spus computerul așa și chiar imediat,

04:41.740 --> 04:48.400
chiar de pe liliac, vom învăța cum să citim aceste imagini, pentru că dacă vei merge adânc în rețelele neuronale convoluționale nu te

04:48.400 --> 04:54.050
gândești că vei începe să înveți din ce în ce mai mult și folosind-le veți vedea multe dintre acestea.

04:54.070 --> 05:01.050
Deci, de fapt, am văzut că oamenii le-au citit incorect, așa că aici, în partea de sus, Shida este ceea ce este de

05:01.050 --> 05:01.470
fapt.

05:01.470 --> 05:07.920
Deci, aceasta este eticheta corectă a imaginii, care este eticheta imaginilor, indiferent

05:07.920 --> 05:09.180
de prelucrare.

05:09.300 --> 05:16.770
Și viziunea computerului și apoi aici sunt presupunerile primele patru sau cinci, uneori, presupuneri ale algoritmului și li se dau

05:17.370 --> 05:24.520
probabilitățile astfel încât computerul a spus sau rețeaua neurală a spus că îmbrăcămintea personală Chitta sau pisica egipteană

05:24.810 --> 05:27.460
poate fi una dintre cele patru.

05:27.540 --> 05:29.120
Și ghepardul are cel mai mare vot.

05:29.130 --> 05:34.820
Și pe parcursul acestei părți a cursului înțelegeți ce înseamnă aceste voturi și cum derivă acestea.

05:34.830 --> 05:36.600
Dar pentru moment este destul de intuitiv corect.

05:36.600 --> 05:40.700
Deci, este un ghepard în realitate și rețeaua neuronală a ghicit bine.

05:40.710 --> 05:44.600
A spus cu o hiper-abilitate cam de 95% 99%.

05:45.900 --> 05:46.860
Apoi, al doilea.

05:46.860 --> 05:51.050
Ce credeți că este că este un tren de glonț.

05:51.300 --> 05:57.600
Și rețeaua neuronală a fost capabilă să distingă între locomotiva electrică de locomotivă pentru tren de

05:57.600 --> 05:58.020
pasageri.

05:58.020 --> 05:59.380
Acestea sunt alegerea de top, desigur.

05:59.400 --> 06:05.850
Avea mai multe opțiuni pentru aceste rețele neuronale să învețe să se distingă de la patru categorii, de la

06:06.000 --> 06:08.760
zeci de mii de categorii, în același timp.

06:08.760 --> 06:10.750
Deci, acestea sunt cele patru opțiuni pe care le-a ales.

06:10.920 --> 06:12.750
Și asta e trenul cu bullet și voința lui.

06:12.760 --> 06:17.210
Și ce credeți că ultimul este foarte.

06:17.350 --> 06:22.470
Există câteva opțiuni sau nu este foarte clar ce ar putea fi o tigaie de prăjire ar

06:22.470 --> 06:29.550
putea fi o lupă ar putea fi chiar o pereche de foarfece ar putea spune unii, în timp ce rețeaua neurală a spus că

06:29.550 --> 06:30.540
este o foarfecă.

06:30.750 --> 06:32.590
Dar puteți vedea cum puteți greși aici.

06:32.610 --> 06:35.440
În primul rând, nu este o imagine foarte clară.

06:35.520 --> 06:43.920
Și, de asemenea, puteți vedea că probabilitățile nu sunt la fel de clare aici, astfel încât rețeaua neuronală a fost puțin confuză un

06:43.920 --> 06:46.280
pic indecisă, așa cum suntem noi.

06:46.280 --> 06:51.710
Așa că am spus Foarfece cu mare probabilitate, dar apoi avea o geantă de mână pe care, de fapt, a fost

06:51.810 --> 06:55.760
cu nu nu atât de departe pe locul al doilea și stetoscop pan tigaie.

06:55.920 --> 07:01.620
Deci, practic, puteți vedea că foarfeca a fost prima lui ghicit, dar opțiunea corectă a fost numărul doi și de

07:01.620 --> 07:03.050
aceea este evidențiată în roșu.

07:03.300 --> 07:07.050
Deci, mergem acolo. Asta este ceea ce toate drogurile sunt deja capabile.

07:07.050 --> 07:08.880
Și acesta este, de fapt, un diapozitiv vechi.

07:08.880 --> 07:10.610
A fost acum câțiva ani.

07:10.650 --> 07:16.100
Acum sunt chiar mai buni și veți vedea că din aplicația practică pe care o veți codifica împreună au

07:16.170 --> 07:16.760
luat prânzul.

07:16.920 --> 07:18.430
Dar acum să încercăm puțin mai bine.

07:18.430 --> 07:23.770
Ce conectivitate sau rețele neuronale convoluționale sunt de fapt și de ce sunt câștigate atât de multă popularitate.

07:23.970 --> 07:31.380
De fapt, câștigă popularitate, astfel încât să puteți vedea aici o comparație Google Trends pe care am făcut-o chiar ieri.

07:31.770 --> 07:39.420
Aici puteți vedea că această convenție rețelele neuronale iluzorii iau chiar rețelele

07:39.420 --> 07:43.260
neuronale artificiale, deci o creștere masivă.

07:43.260 --> 07:49.530
Și acest lucru va continua în acest fel, deoarece este un domeniu foarte important că în cazul în care toate lucrurile se întâmplă,

07:50.130 --> 07:52.530
cum ar fi ca autovehicule de conducere auto.

07:52.530 --> 07:59.340
Cum recunosc oamenii pe drum cum să recunoască semnele de oprire și cum se face cum Facebook

07:59.340 --> 08:07.680
face Facebook să eticheteze imaginile sau oamenii în imagini și nu doar cum să ții minte în urmă cu câțiva ani în

08:07.980 --> 08:14.240
urmă, a trebuit să le spui oamenilor, recunoașteți chipurile pe care trebuia să le adăugați.

08:14.250 --> 08:18.420
Și acum doar recunoaște fețele și adaugă numele în același timp.

08:18.630 --> 08:26.070
Ei bine, asta este ceea ce rețelele neuronale convoluționale sunt capabile ca fiind pe Facebook.

08:26.160 --> 08:34.710
Dacă Jeffrey Hinton este nașul rețelelor neuronale artificiale și învățarea profundă, atunci Yalla Kuhn este

08:34.830 --> 08:43.650
bunicul rețelelor neuronale convoluționale. Lukken este student al lui Jeffrey Hinton și, de fapt, aici îi

08:43.650 --> 08:45.640
puteți vedea împreună.

08:45.720 --> 08:51.950
Și Jeffrey Hinton este acum un pionier de de-planificare la Google tineri.

08:52.020 --> 08:57.010
Este directorul Facebook al cercetării în domeniul inteligenței artificiale și, de asemenea, un profesor la NYU.

08:57.030 --> 09:02.650
Așadar, suntem conștienți de această parte a nucleului pe care îl construim încet.

09:02.670 --> 09:10.770
Aceste nume reprezintă o astfel de imagine a profilurilor persoanelor care conduc acest câmp, iar în următorii câțiva parți se vor afla mai multe

09:10.950 --> 09:16.680
și vom avea această întreagă mafie așa cum ei se vor numi sau dacă poți apela ei

09:16.680 --> 09:22.320
mafia sau conspirația de învățare profundă și veți învăța un pic mai mult despre modul în

09:22.320 --> 09:24.140
care acest domeniu dezvoltat.

09:24.480 --> 09:27.200
Da, doar ei sunt niște oameni minunați.

09:27.450 --> 09:35.370
Și astfel, RIKOON în anii 80 și 90 a adus contribuții semnificative la domeniul rețelelor neuronale

09:35.370 --> 09:36.300
convoluționale.

09:36.330 --> 09:44.310
Și după cum veți vedea pe parcursul acestui curs a fost capabil să dezvolte sau să ajute lumea să dezvolte ceva

09:44.340 --> 09:46.650
atât de extrem de puternic.

09:46.650 --> 09:51.390
Deci, treceți la modul în care funcționează rețelele neuronale iluzorii.

09:51.420 --> 09:56.150
Aveți o intrare este foarte simplu este foarte simplu, astfel încât acestea au o imagine de intrare.

09:56.160 --> 10:01.930
Se trece prin rețeaua neurală iluzorie și aveți o etichetă, astfel încât aceasta să fie clasificată ca

10:01.990 --> 10:06.630
ceva asemănător cu un Cheet sau un tren de glonte sau altceva.

10:06.790 --> 10:10.780
Acum, cumva mergeți într-un pic mai detaliat.

10:10.900 --> 10:19.540
De exemplu, poți ofițerul neroli să fi fost instruit pe anumite imagini pe anumite imagini clasificate sau imagini clasificate

10:19.780 --> 10:23.600
înainte de a fi fost mai mare înainte.

10:23.710 --> 10:29.510
După aceea puteți să-i dați să spunem că o rețea neuronală a fost pregătită pentru a recunoaște expresii și mișcări

10:29.510 --> 10:37.030
ale feței, pe care le puteți da o față a unei persoane zâmbitoare, nu doar o față ca un desen al unei fețe ca aceasta, ci

10:37.030 --> 10:39.330
chipul real al unei persoane zâmbind .

10:39.430 --> 10:44.910
Și vă spun că persoana respectivă este fericită și puteți obține o imagine a unei persoane care se încruntă.

10:44.910 --> 10:47.180
Îți spun că persoana este tristă.

10:47.280 --> 10:52.570
El poate recunoaște aceste emoții și, după cum puteți vedea, este deja foarte puternic în ceea ce

10:52.570 --> 10:59.740
privește atâtea implicații diferite, doar un exemplu pe care îl puteți gândi imediat și în ambele cazuri vă dau o operabilitate, astfel încât

10:59.740 --> 11:04.970
nu va spune că știți că " re 100 de procente persoana este fericită sau tristă.

11:04.970 --> 11:13.000
Va fi 99 sau 98 sau poate 80 la sută când nu este clar ce se întâmplă și așa cum am avut dreptate

11:13.000 --> 11:16.620
câteodată putem să eronăm lucrurile pentru ceea ce nu sunt.

11:16.660 --> 11:23.620
Sau, uneori, putem uneori nu este clar dacă persoana zâmbește sau se încruntă sau dacă este vorba de un câine sau

11:23.620 --> 11:27.910
o pisică sau dacă este un tren sau un tren de glonț.

11:28.110 --> 11:32.620
În regulă, uneori nu avem așa ceva, nu am văzut suficiente caracteristici în ceea

11:32.980 --> 11:38.600
ce privește caracteristicile, pentru că așa procesăm informațiile vizuale așa cum am văzut de la începutul acestui tutorial.

11:38.620 --> 11:44.140
Deci, dar cum o retea neuronala adapteaza o retea neuronala capabila sa recunoasca aceste caracteristici.

11:44.140 --> 11:48.770
Ei bine, totul începe de la nivelul foarte de bază.

11:48.790 --> 11:54.160
Să presupunem că aveți o imagine pe care aveți două imagini una este o imagine alb-negru

11:54.160 --> 12:01.270
de două cu doi pixeli și una este o imagine color de două cu doi pixeli, în timp ce rețelele neuronale

12:01.270 --> 12:04.690
mobilizeze faptul că imaginea alb-negru este o matrice bidimensională.

12:04.690 --> 12:09.610
Deci modul în care o vedem acum în stânga este doar reprezentarea vizuală.

12:09.630 --> 12:11.110
Presupun un fel de imagine.

12:11.250 --> 12:16.600
Și pentru simplitate este doar o modalitate de a imagina, dar din punct de vedere al calculatorului

12:16.600 --> 12:22.180
este de fapt o matrice bidimensională cu fiecare pixel care are o valoare cuprinsă între 0 și 55.

12:22.360 --> 12:27.670
Deci, asta e opt biți de informație celor doi la puterea celor opt este de 256.

12:27.670 --> 12:32.130
Deci, valorile de la 0 la 255 și acea intensitate a culorii.

12:32.260 --> 12:36.240
Și în acest caz, culoarea alb, deci 0, va fi un pixel complet negru.

12:36.370 --> 12:43.720
255 va fi un pixel complet alb și între ele veți avea gama de nuanțe de gri din posibilele opțiuni pentru

12:43.720 --> 12:44.490
acest pixel.

12:44.650 --> 12:50.740
Și bazându-se pe acele informații, computerele sunt capabile să lucreze apoi cu imaginea și asta este un fel

12:50.740 --> 12:56.510
de punct de plecare că orice imagine are de fapt o reprezentare digitală are o formă digitală.

12:56.620 --> 13:03.460
Și aceștia sunt doar niște esențiale și zerouri care formează un număr de la 0 la 255 pentru fiecare pixel și cu care

13:03.460 --> 13:04.340
lucrează calculatorul.

13:04.340 --> 13:08.410
În realitate nu funcționează cu tine, știți culori sau ceva ce funcționează cu cele și zerouri la sfârșitul

13:08.410 --> 13:08.790
zilei.

13:08.800 --> 13:12.820
Asta e la fel ca fundamentul tuturor.

13:13.360 --> 13:17.110
Și într-o imagine color este de fapt o matrice tridimensională.

13:17.230 --> 13:24.580
Ai albastru pixel albastru Larry Green și strălucirea și săgețile roșii și acel sens pentru RGV albastru

13:24.580 --> 13:25.130
roșu-verde.

13:25.420 --> 13:29.740
Și fiecare dintre aceste culori are propria intensitate.

13:29.740 --> 13:37.010
Deci, practic, un pixel are trei valori atribuite acestuia.

13:37.030 --> 13:41.090
Fiecare dintre ele este între 0 și 256 255.

13:41.380 --> 13:48.340
Și, prin urmare, puteți afla ce este această imagine ce culoare este exact acest pixel.

13:48.340 --> 13:53.520
Prin combinarea acestor trei valori și din nou computerele vor lucra cu asta.

13:53.530 --> 13:58.930
Deci asta este fundamentul întregului canal roșu, canalul verde, canalul albastru.

13:59.530 --> 14:08.590
Și, în sfârșit, să aruncăm o privire la un exemplu de exemplu foarte trivial al unei fețe zâmbitoare.

14:08.820 --> 14:09.610
În termeni de calculator.

14:09.610 --> 14:17.710
Dacă doar simplificăm cu adevărat lucrurile în loc să avem de la 0 la 255 și să avem acele valori doar pentru

14:17.710 --> 14:25.690
a înțelege lucrurile mai bine și pentru a înțelege cu adevărat conceptele pe care le vom spune zero este că albul

14:25.690 --> 14:26.590
este negru.

14:26.590 --> 14:26.800
Dreapta.

14:26.800 --> 14:33.900
Deci, vom simplifica lucrurile la extrem și veți vedea că imaginea poate fi reprezentată astfel.

14:34.000 --> 14:39.150
Deci, motivul pentru care am adus acest lucru este pentru că intrăm în toate intuițiile noastre.

14:39.160 --> 14:44.680
Stroh, ajungem să structurăm o imagine care este foarte simplă, dar în același timp toate acele concepte se

14:44.680 --> 14:50.530
pot traduce înapoi la 0 2 256 gamă de valori și tot ceea ce se aplică în același mod.

14:50.740 --> 14:54.900
Iar pașii vor fi trecuți dacă aceste imagini sunt o evoluție optimă.

14:54.910 --> 14:56.820
Numărul maxim de pauză pentru numărul doi.

14:56.830 --> 15:02.550
Pasul numărul trei aplatizare și pas numărul de o conexiune completă și îmi pot imagina

15:02.560 --> 15:09.880
că probabil toate aceste cuvinte înseamnă mult pentru tine în acest moment, dar la sfârșitul acestei secțiuni a cursului

15:10.000 --> 15:13.940
le veți înțelege în detaliu și exact ce sunt face.

15:13.960 --> 15:16.020
Așa că vom începe în următorul tutorial.

15:16.030 --> 15:24.400
Deocamdată, citirea suplimentară pe care ați putea dori să o analizați este o lucrare originală Lukens care

15:24.640 --> 15:28.200
a dat naștere unei rețele neuronale emoționale.

15:28.200 --> 15:31.590
Se numește învățare pe bază de gradient aplicată cunoașterii documentare.

15:31.660 --> 15:34.550
Este posibil să fi văzut această imagine înainte de a pluti în jurul Internetului.

15:34.630 --> 15:40.990
Este din acea hârtie, deci dacă doriți să vă întoarceți la începuturile modului în care sa întâmplat de unde a ieșit din toate

15:40.990 --> 15:46.420
acestea, este lucrarea pe care trebuie să o priviți și aștept cu nerăbdare să văd în următorul tutorial.

15:46.420 --> 15:48.280
Până atunci se bucură de învățare profundă.
