WEBVTT

00:00.490 --> 00:02.980
Ciao e bentornati al corso di deep learning.

00:02.980 --> 00:06.900
Oggi stiamo dando il via alle reti neurali convoluzionali sarà eccitante.

00:06.910 --> 00:08.610
Entriamo direttamente in esso.

00:08.620 --> 00:10.840
Iniziamo con un'immagine.

00:10.930 --> 00:13.210
Cosa vedi quando guardi questa immagine.

00:13.580 --> 00:19.480
Vedi una persona che ti guarda o vedi una persona che guarda a destra puoi

00:19.480 --> 00:25.860
vedere che il tuo cervello sta lottando sta lottando per adattarsi se guardi nella parte destra dell'immagine.

00:25.870 --> 00:29.180
Basta guardare il bordo destro lì che vedrai una persona che guarda a destra.

00:29.260 --> 00:33.320
Se guardi il bordo sinistro dell'immagine vedrai una persona che ti guarda.

00:33.700 --> 00:42.760
E ciò dimostra che ciò che il nostro cervello sta cercando quando vediamo le cose sono caratteristiche a seconda delle caratteristiche

00:42.760 --> 00:46.140
che vede a seconda delle caratteristiche che elaborate.

00:46.180 --> 00:48.610
Si categorizzano le cose in determinati modi.

00:48.730 --> 00:54.010
Quindi, quando guardi sul lato destro dell'immagine, vedi alcune caratteristiche di una persona che cerca di cavalcare

00:54.010 --> 01:00.190
perché sono più vicine al centro di messa a fuoco e quindi il tuo cervello classifica come una persona che

01:00.190 --> 01:00.930
guarda a destra.

01:01.000 --> 01:06.790
caratteristiche di una persona che ti guarda e quindi il tuo cervello la classifica come tale.

01:06.790 --> 01:09.580
Quando guardi sul lato sinistro dell'immagine vedi più

01:09.580 --> 01:11.150
Diamo un'occhiata a un altro.

01:11.230 --> 01:12.840
Questa è un'immagine molto famosa.

01:12.910 --> 01:14.530
Probabilmente l'hai già visto.

01:14.680 --> 01:16.240
Ma quello che vedi qui.

01:16.820 --> 01:23.830
Quindi alcune persone diranno che vedono una giovane donna che indossa un vestito che distoglie lo sguardo.

01:23.830 --> 01:29.980
Alcuni dicono di vedere una vecchia signora con una sciarpa in testa che guarda in basso.

01:30.280 --> 01:36.250
vedrai che diventerà molto ovvio quindi questo è il volto della giovane donna che distoglie lo sguardo.

01:36.250 --> 01:37.510
Quindi lo indicherò e

01:37.510 --> 01:40.450
Sta guardando in lontananza come il suo cappotto.

01:40.440 --> 01:44.940
Sono i suoi capelli che sono la sua piccola piuma tra i suoi capelli e d'altra parte.

01:44.980 --> 01:53.530
Questa è la testa della vecchia signora che osserva il suo naso, la sua bocca il suo mento che è la sciarpa sulla sua testa

01:53.560 --> 01:55.560
e lei sta guardando in giù.

01:55.780 --> 02:01.960
Quindi, come puoi vedere due in uno e in base a quali caratteristiche il tuo cervello

02:02.620 --> 02:06.710
capta, passerà dalla classificazione di ogni immagine all'uno o all'altro.

02:06.910 --> 02:13.930
La più antica di queste illusioni registrata nel lavoro stampato è questa.

02:13.930 --> 02:15.220
È l'anatra o il coniglio.

02:15.230 --> 02:17.020
Quindi questa è un'anatra o è un coniglio?

02:17.020 --> 02:18.330
Un altro esempio.

02:18.430 --> 02:25.030
E ora ho intenzione di mostrare un'immagine che sarà solo per un secondo solo a guardarlo e vedere cosa cosa emozioni

02:25.030 --> 02:28.670
o che tipo di esperienza visiva esperienza che si passa attraverso.

02:29.110 --> 02:36.610
Quindi, cosa vedi ti senti un po 'non vertiginoso ma un po' abbagliato come il tuo cervello sta cercando di

02:36.610 --> 02:40.230
provare a capire che cosa è come sta provando.

02:40.330 --> 02:49.240
questo è un classico esempio di quando ci sono certe caratteristiche in cui potrebbe essere questo, ma il tuo cervello non può decidere.

02:49.240 --> 02:53.850
Sta saltando tra gli occhi su e giù per gli occhi e

02:54.130 --> 02:58.230
E perché entrambi sembrano plausibili.

02:58.290 --> 03:04.360
Sì, in pratica tutti questi esempi ci illustrano come funziona il cervello che elabora determinate

03:04.360 --> 03:10.970
caratteristiche su un'immagine o su qualsiasi cosa tu veda nella vita reale e lo classifica come.

03:10.980 --> 03:16.150
Probabilmente ti sei trovato in situazioni in cui guardi velocemente le spalle e vedi qualcosa

03:16.150 --> 03:23.500
che pensi sia che non so se è come una palla ma si rivela essere un gatto o pensi che sia

03:23.500 --> 03:24.030
un'auto.

03:24.070 --> 03:28.030
tempo per elaborare quelle funzioni o non hai abbastanza funzioni per classificare le cose in quanto tali.

03:28.030 --> 03:31.030
Si rivela essere un'ombra o cose del genere perché non hai abbastanza

03:31.240 --> 03:38.570
E questo per me è molto interessante perché quello che faremo con le reti neurali con reti neurali convoluzionali è

03:38.570 --> 03:43.630
molto simile e scoprirai che il modo in cui i computer elaboreranno le immagini

03:43.630 --> 03:48.190
sarà estremamente simile al modo in cui stiamo elaborando le immagini, quindi

03:48.210 --> 03:53.500
è molto importante capire e solo ricordare queste cose che è così che lo

03:53.500 --> 03:53.580
facciamo.

03:53.590 --> 03:58.450
E toglierò questa signora dagli schermi perché probabilmente è già fuori di testa ormai.

03:58.630 --> 04:00.940
Quindi qui c'è qualcosa di diverso.

04:00.940 --> 04:07.870
Ecco un esperimento su un esperimento fatto su computer su rete neurale convoluzionale, quindi

04:07.870 --> 04:11.150
ci stiamo lentamente spostando dall'uomo al computer.

04:11.350 --> 04:18.490
E questa diapositiva è da un racconto di Geoffrey Hinton e qui hai sostanzialmente descritto

04:18.490 --> 04:24.440
un esperimento che aveva fatto su alcune reti neurali convenzionali che aveva addestrato.

04:24.460 --> 04:29.560
Quindi qui vedete tre immagini e le esamineremo da sinistra a destra per vedere come le classificherete

04:29.560 --> 04:31.870
e poi vedremo come possono essere riclassificate.

04:31.870 --> 04:35.440
Quindi a sinistra cosa pensi che sia.

04:35.440 --> 04:37.710
Probabilmente ha detto cheetah e avrai ragione.

04:37.710 --> 04:41.740
E questo è quello che il computer ha detto così e subito

04:41.740 --> 04:48.400
dopo abbiamo imparato a leggere queste immagini, perché se hai intenzione di andare in profondità nelle reti neuronali convoluzionali, nessun

04:48.400 --> 04:54.050
gioco di parole intende iniziare a imparare sempre più e usandoli li vedrai molti di questi.

04:54.070 --> 05:01.050
Quindi e ho visto le persone leggerle in modo errato, quindi qui in cima Shida è quello che è in

05:01.050 --> 05:01.470
realtà.

05:01.470 --> 05:07.920
Quindi questa è l'etichetta corretta effettiva dell'immagine che è l'etichetta delle immagini indipendentemente

05:07.920 --> 05:09.180
da qualsiasi elaborazione.

05:09.300 --> 05:16.770
ha detto o la rete neurale ha detto che l'abbigliamento personale di Chitta o gatto egiziano può essere uno dei quattro.

05:17.370 --> 05:24.520
E la visione del computer e poi qui sono le supposizioni delle quattro o cinque ipotesi a volte dell'algoritmo e vengono

05:24.810 --> 05:27.460
date le probabilità in modo che il computer

05:27.540 --> 05:29.120
E il ghepardo ha il voto più alto.

05:29.130 --> 05:34.820
E in questa parte del Corso capisci cosa significano questi voti e come sono derivati.

05:34.830 --> 05:36.600
Ma per ora è abbastanza intuitivo.

05:36.600 --> 05:40.700
Quindi è un ghepardo nella realtà e la rete neurale ha indovinato.

05:40.710 --> 05:44.600
Diceva con un'iperabilità del 95 99 percento circa.

05:45.900 --> 05:46.860
Quindi il secondo.

05:46.860 --> 05:51.050
Cosa ne pensi, è che è un treno proiettile.

05:51.300 --> 05:57.600
E la rete neurale è stata in grado di distinguere tra locomotiva elettrica treno treno passeggeri treno

05:57.600 --> 05:58.020
proiettile.

05:58.020 --> 05:59.380
Quelli sono la scelta migliore, naturalmente.

05:59.400 --> 06:05.850
Aveva molte più opzioni che queste reti neurali imparano a distinguere non solo da quattro categorie da dozzine

06:06.000 --> 06:08.760
di migliaia di categorie allo stesso tempo.

06:08.760 --> 06:10.750
Quindi quelle sono le quattro opzioni che ha scelto.

06:10.920 --> 06:12.750
E così questo è il treno proiettile e la sua volontà.

06:12.760 --> 06:17.210
E quindi, cosa ne pensi l'ultimo è davvero.

06:17.350 --> 06:22.470
Ci sono un paio di opzioni o non è molto chiaro cosa potrebbe essere una padella potrebbe

06:22.470 --> 06:29.550
essere una lente di ingrandimento potrebbe essere anche forse un paio di forbici alcuni potrebbero dire, mentre la rete neurale ha detto che era

06:29.550 --> 06:30.540
un paio di forbici.

06:30.750 --> 06:32.590
Ma puoi vedere come puoi sbagliare qui.

06:32.610 --> 06:35.440
Prima di tutto non è un'immagine molto chiara.

06:35.520 --> 06:43.920
E anche tu puoi vedere che le probabilità non sono così chiare qui così la rete neurale era un po 'confusa

06:43.920 --> 06:46.280
un po' indecisa proprio come noi.

06:46.280 --> 06:51.710
Così ho detto Scissors con l'alta probabilità ma poi aveva il vetro a mano che in realtà

06:51.810 --> 06:55.760
era con non poco lontano in seconda posizione e lo stetoscopio per padella.

06:55.920 --> 07:01.620
Quindi, in pratica, qui puoi vedere che le forbici erano la prima ipotesi, ma l'opzione corretta era la seconda e per

07:01.620 --> 07:03.050
questo è evidenziata in rosso.

07:03.300 --> 07:07.050
Quindi eccoci qui. Ecco di cosa sono già capaci tutti i farmaci.

07:07.050 --> 07:08.880
E questa è in realtà una vecchia diapositiva.

07:08.880 --> 07:10.610
Questo è stato diversi anni fa.

07:10.650 --> 07:16.100
sono ancora meglio e vedrai che dall'applicazione pratica che starai codificando insieme hai pranzato.

07:16.170 --> 07:16.760
Ora

07:16.920 --> 07:18.430
Ma ora proviamo un po 'meglio.

07:18.430 --> 07:23.770
Quali sono le reti neurali convenzionali o convoluzionali e perché hanno guadagnato così tanta popolarità.

07:23.970 --> 07:31.380
E stanno guadagnando popolarità, quindi puoi vedere qui un confronto su Google Trends che ho fatto solo ieri.

07:31.770 --> 07:39.420
Qui puoi vedere che le reti neurali illusorie della convenzione stanno prendendo il controllo anche

07:39.420 --> 07:43.260
delle reti neurali artificiali, quindi un enorme aumento.

07:43.260 --> 07:49.530
E continuerà così, perché è un campo molto importante quello in cui accadono tutte le cose come

07:50.130 --> 07:52.530
le auto che guidano da soli.

07:52.530 --> 07:59.340
Come riconoscono le persone sulla strada come riconoscere i segnali di stop e cose del genere come

07:59.340 --> 08:07.680
fa Facebook come Facebook in grado di taggare le immagini o le persone nelle immagini e non solo come ricorda anni

08:07.980 --> 08:14.240
fa che dovevi dirlo alle persone allora sarebbe riconoscere i volti che dovevi aggiungere i nomi.

08:14.250 --> 08:18.420
E ora riconosce solo i volti e aggiunge i nomi allo stesso tempo.

08:18.630 --> 08:26.070
Bene, questo è ciò che le reti neurali convoluzionali sono in grado di utilizzare su Facebook.

08:26.160 --> 08:34.710
Se Jeffrey Hinton è il padrino delle reti neurali artificiali e dell'apprendimento profondo, allora Yalla Kuhn

08:34.830 --> 08:43.650
è il nonno delle reti neurali convoluzionali Lukken è uno studente di Jeffrey Hinton e in effetti

08:43.650 --> 08:45.640
qui puoi vederle insieme.

08:45.720 --> 08:51.950
E Jeffrey Hinton ora è pioniere della depurazione di Google Young.

08:52.020 --> 08:57.010
È il direttore della ricerca sull'intelligenza artificiale di Facebook e anche un professore alla New York University.

08:57.030 --> 09:02.650
Quindi siamo lentamente consapevoli di questa parte del nucleo che lentamente stiamo costruendo in questo modo.

09:02.670 --> 09:10.770
Questi nomi sono questo tipo di foto dei profili delle persone che stanno guidando questo campo e il prossimo paio di pars

09:10.950 --> 09:16.680
ne conosceranno altre e avremo tutta questa Mafia come si chiamano o puoi chiamare loro

09:16.680 --> 09:22.320
mafia o cospirazione di apprendimento profondo e imparerai un po 'di più su come è

09:22.320 --> 09:24.140
stato sviluppato questo intero campo.

09:24.480 --> 09:27.200
Sì, sono solo delle grandi persone fantastiche.

09:27.450 --> 09:35.370
E così RIKOON negli anni '80 e '90 ha dato un contributo significativo al campo delle reti

09:35.370 --> 09:36.300
neurali convoluzionali.

09:36.330 --> 09:44.310
E come vedrai durante questo corso è stato in grado di sviluppare o aiutare il mondo a sviluppare

09:44.340 --> 09:46.650
qualcosa di così estremamente potente.

09:46.650 --> 09:51.390
Quindi passare a come funzionano le reti neurali illusorie.

09:51.420 --> 09:56.150
Hai un input è molto semplice è molto semplice quindi hanno un'immagine di input.

09:56.160 --> 10:01.930
Attraversa la rete neurale illusoria e si ha un'etichetta in modo da classificare quell'immagine

10:01.990 --> 10:06.630
come qualcosa che ha un Cheeto o un treno proiettile o qualcos'altro.

10:06.790 --> 10:10.780
Ora è come andare un po 'più in dettaglio.

10:10.900 --> 10:19.540
Ad esempio, è possibile che l'agente neroli sia stato istruito su determinate immagini su determinate immagini classificate

10:19.780 --> 10:23.600
o su immagini categorizzate prima che esistesse prima.

10:23.710 --> 10:29.510
Dopodiché puoi darlo diciamo che una rete neurale è stata addestrata a riconoscere le espressioni facciali e le mozioni

10:29.510 --> 10:37.030
che puoi dargli un volto di una persona sorridente, non solo una faccia come un disegno di una faccia come questa, ma il volto

10:37.030 --> 10:39.330
reale di una persona che sorride .

10:39.430 --> 10:44.910
E ti dirò che quella persona è felice e puoi avere una faccia da persona accigliata.

10:44.910 --> 10:47.180
Ti dirò che la persona è triste.

10:47.280 --> 10:52.570
Riesce a riconoscere queste emozioni e, come puoi vedere, è già molto potente in termini di così

10:52.570 --> 10:59.740
tante diverse implicazioni, solo un esempio a cui puoi pensare immediatamente e in entrambi i casi ti darò una operabilità, quindi non dirà

10:59.740 --> 11:04.970
che sai che siamo noi " re al 100 per cento la persona è felice o triste.

11:04.970 --> 11:13.000
Sarà 99 o 98 o forse 80 percento quando non è chiaro cosa sta succedendo e proprio come abbiamo ragione a

11:13.000 --> 11:16.620
volte possiamo scambiare le cose per quello che non sono.

11:16.660 --> 11:23.620
O a volte possiamo a volte non è chiaro se la persona sorride o aggrotta la fronte o se è un

11:23.620 --> 11:27.910
cane o un gatto o se è un treno o un treno proiettile.

11:28.110 --> 11:32.620
così che elaboriamo le informazioni visive come abbiamo visto dall'inizio di questo tutorial.

11:32.980 --> 11:38.600
D'accordo a volte non ce l'abbiamo, non abbiamo visto abbastanza caratteristiche in tutte le funzionalità, perché è

11:38.620 --> 11:44.140
Quindi, ma come fa una rete neurale che ospita una rete neurale in grado di riconoscere queste caratteristiche.

11:44.140 --> 11:48.770
Bene, tutto inizia al livello base che hai.

11:48.790 --> 11:54.160
Diciamo che hai un'immagine che hai due immagini una è un'immagine in bianco e nero di

11:54.160 --> 12:01.270
due per due pixel e una è un'immagine a colori di due per due pixel mentre le reti neurali sfruttano il

12:01.270 --> 12:04.690
fatto che l'immagine in bianco e nero è una matrice bidimensionale.

12:04.690 --> 12:09.610
Quindi il modo in cui lo vediamo ora a sinistra è solo la rappresentazione visiva.

12:09.630 --> 12:11.110
Suppongo un qualche tipo di foto.

12:11.250 --> 12:16.600
E per semplicità è solo un doppio modo per rappresentare, ma in termini informatici è in

12:16.600 --> 12:22.180
realtà una matrice bidimensionale con ognuno di quei pixel con un valore compreso tra 0 e 55.

12:22.360 --> 12:27.670
Quindi questo è otto bit di informazione per i due alla potenza di otto è 256.

12:27.670 --> 12:32.130
Quindi quindi i valori da 0 a 255 e quella è l'intensità del colore.

12:32.260 --> 12:36.240
E in questo caso il colore bianco così 0 sarà un pixel completamente nero.

12:36.370 --> 12:43.720
255 sarà un pixel completamente bianco e tra questi avrai la gamma in scala di grigi delle opzioni possibili per

12:43.720 --> 12:44.490
questo pixel.

12:44.650 --> 12:50.740
po 'come il punto di partenza in cui ogni immagine è in realtà una rappresentazione digitale ha una forma digitale.

12:50.740 --> 12:56.510
E sulla base di queste informazioni i computer sono in grado di lavorare con l'immagine e questo è un

12:56.620 --> 13:03.460
E quelli sono solo fondamentalmente uno e zero che formano un numero da 0 a 255 per ogni singolo pixel e questo è quello con cui

13:03.460 --> 13:04.340
lavora il computer.

13:04.340 --> 13:08.410
In realtà non funziona con te conosce i colori o qualsiasi cosa funzioni con gli uni e gli zeri alla fine

13:08.410 --> 13:08.790
della giornata.

13:08.800 --> 13:12.820
È un po 'come il fondamento di tutto ciò.

13:13.360 --> 13:17.110
E in un'immagine a colori è in realtà una matrice tridimensionale.

13:17.230 --> 13:24.580
blu pixel blu Larry Green e il bagliore rosso e le frecce e quel senso per RGV rosso verde blu.

13:24.580 --> 13:25.130
Hai

13:25.420 --> 13:29.740
E ognuno di quei colori ha la sua intensità.

13:29.740 --> 13:37.010
Quindi in pratica un pixel ha tre tre valori assegnati.

13:37.030 --> 13:41.090
Ognuno di essi è compreso tra 0 e 256 255.

13:41.380 --> 13:48.340
E quindi puoi scoprire che cos'è questa immagine di che colore è esattamente questo pixel.

13:48.340 --> 13:53.520
Combinando questi tre valori e di nuovo i computer lavoreranno con quello.

13:53.530 --> 13:58.930
Quindi questo è il fondamento di tutto ciò che è il canale rosso il canale verde il canale blu.

13:59.530 --> 14:08.590
E, infine, diamo un'occhiata ad esempio ad un esempio molto banale di una faccia sorridente.

14:08.820 --> 14:09.610
In termini informatici.

14:09.610 --> 14:17.710
Se semplicemente semplifichiamo le cose invece di avere da 0 a 255 e di avere questi valori solo per

14:17.710 --> 14:25.690
poter capire meglio le cose e davvero afferrare i concetti che stiamo per dire zero è bianco uno

14:25.690 --> 14:26.590
è nero.

14:26.590 --> 14:26.800
Destra.

14:26.800 --> 14:33.460
Quindi semplificheremo le cose all'estremo e vedrai che quell'immagine può essere rappresentata in questo

14:33.460 --> 14:33.900
modo.

14:34.000 --> 14:39.150
tradotti in 0 2 256 gamma di valori e tutto si applica allo stesso modo lì.

14:39.160 --> 14:44.680
Quindi il motivo per cui abbiamo sollevato questo problema è perché entriamo in tutte le nostre

14:44.680 --> 14:50.530
intuizioni. Stroh di strutturare un'immagine è così semplice, ma allo stesso tempo tutti quei concetti possono essere

14:50.740 --> 14:54.900
E i passi che stiamo attraversando se queste immagini sono ottimali un'evoluzione.

14:54.910 --> 14:56.820
Passo numero due massimo pooling.

14:56.830 --> 15:02.550
Passo numero tre appiattimento e numero di passaggio una connessione completa e posso immaginare che

15:02.560 --> 15:09.880
probabilmente tutte queste parole significano molto per voi al momento, ma entro la fine di questa sezione del corso

15:10.000 --> 15:13.940
li capirai in grande dettaglio e esattamente quello che sono facendo.

15:13.960 --> 15:16.020
Quindi inizieremo nel prossimo tutorial.

15:16.030 --> 15:24.400
Per ora la lettura aggiuntiva che potresti voler esaminare è una giovane carta originale di Lukens che ha

15:24.640 --> 15:28.200
dato vita a una rete neurale emotiva.

15:28.200 --> 15:31.590
Si chiama apprendimento basato su gradiente applicato alla conoscenza documentaria.

15:31.660 --> 15:34.550
Potresti aver visto questa immagine prima di navigare su Internet.

15:34.630 --> 15:40.990
È da quella carta, quindi se vuoi tornare agli inizi di come è successo tutto da dove è venuto

15:40.990 --> 15:46.420
tutto questo è il foglio da esaminare e non vedo l'ora di vederlo nel prossimo tutorial.

15:46.420 --> 15:48.280
Fino ad allora godere di un apprendimento profondo.