WEBVTT

00:00.690 --> 00:05.730
Ciao e bentornati al corso sull'apprendimento profondo sulla stampa, il Tauriel, abbiamo scoperto che cosa

00:05.810 --> 00:07.290
sono le reti neuronali convoluzionali.

00:07.350 --> 00:11.050
E oggi ci tufferemo nella convoluzione del primo passaggio.

00:11.100 --> 00:18.530
Quindi questa è la funzione di convoluzione e cerchiamo di stare alla larga dalla matematica e di mantenere le cose intuitive.

00:18.540 --> 00:25.110
non ho potuto fare a meno di condividere questa formula per te perché è così semplice che una convoluzione

00:25.110 --> 00:31.380
è fondamentalmente un'integrazione combinata delle due funzioni e ti mostra come una funzione modifica l'altra o modifica la

00:31.470 --> 00:36.520
forma dell'altro e se hai fatto qualsiasi elaborazione del segnale o ingegneria elettrica o una

00:36.520 --> 00:42.030
professione in cui è richiesta l'elaborazione del segnale si sarebbe inevitabilmente imbattersi in una funzione di conclusione.

00:42.030 --> 00:42.390
Ma

00:42.390 --> 00:44.090
È abbastanza popolare ora.

00:44.100 --> 00:49.490
Ancora una volta manterremo le luci matematiche o le terremo separate.

00:49.500 --> 00:56.190
E se vuoi entrare in matematica dietro le reti neurali convoluzionali, una grande

00:56.520 --> 01:05.010
lettura aggiuntiva è Introduzione alle reti neurali convoluzionali di Jensine Wu, che è professore all'Università di Nanjing

01:05.010 --> 01:05.820
in Cina.

01:05.820 --> 01:12.780
ed è orientato specificamente alle persone che stanno iniziando dai principianti che stanno conoscendo le reti neuronali convoluzionali,

01:12.780 --> 01:17.690
quindi la matematica dovrebbe essere accessibile in realtà tramite e-mail al Professor Johnson.

01:18.250 --> 01:23.700
Questo articolo è stato pubblicato letteralmente giorni fa come cinque o sei giorni fa

01:23.730 --> 01:32.040
E sì, ha detto che il suo obiettivo è quello di creare o distruggere le cose complesse in modo che le persone che sono nuove in

01:32.040 --> 01:33.360
questo campo possano capire.

01:33.360 --> 01:40.680
E ha anche detto che ha dei materiali disponibili sulla sua home page, quindi se tu stesso rimuovi le ultime due parti

01:40.680 --> 01:47.220
e vai semplicemente a Slash W. J. e sarai in grado di trovare altri

01:47.220 --> 01:52.380
tutorial e materiali aggiuntivi che non sono stati pubblicati come documenti ma che li usa

01:52.380 --> 01:59.120
nei suoi tutorial in modo che tu possa trovare quelli utili in modo da curiosare lì se tu " Mi

01:59.130 --> 02:05.130
piacerebbe avere un'introduzione alla matematica dietro le reti neurali coalizionali e creare una solida base intorno a quell'area.

02:05.130 --> 02:08.470
X a quella parte che è la sua home page

02:08.550 --> 02:12.570
Ma andremo avanti e parleremo della convoluzione.

02:12.570 --> 02:17.160
Quindi, qual è una buona soluzione in termini intuitivi qui a sinistra.

02:17.160 --> 02:21.690
Abbiamo un'immagine di input, come abbiamo discusso, è come guarderemo le immagini solo uno e zero

02:21.690 --> 02:22.750
per semplificare le cose.

02:22.950 --> 02:25.050
E puoi vedere la faccina lì.

02:25.090 --> 02:28.660
Quindi abbiamo un rilevatore di funzionalità in modo che i rilevatori di caratteristiche siano tre per tre Matrix.

02:28.740 --> 02:30.120
Deve essere tre per tre.

02:30.150 --> 02:31.920
No, non lo è.

02:31.920 --> 02:35.810
Credo che Alex net usi sette per sette.

02:35.850 --> 02:41.640
E poi un altro di quelli famosi usa cinque rivelatori di funzionalità cinque per cinque.

02:41.640 --> 02:48.270
Possono essere diversi ma di solito vedrai che sono tre per tre e sono noti motivi per renderli

02:48.270 --> 02:52.110
tre per tre, quindi continueremo a seguire la via convenzionale.

02:52.170 --> 02:57.510
Avendo un rilevatore di funzionalità tre per tre anche i rilevatori di funzioni chiamati questi sono termini

02:57.510 --> 02:58.710
importanti perché potresti incontrarli.

02:58.710 --> 03:04.080
di funzionalità o Eik potrebbe sentirsi chiamare kernel o si potrebbe sentire chiamato Filter.

03:04.110 --> 03:09.540
Esistono molti termini diversi per il rilevatore di funzionalità, ma quelli più comuni sono rilevatori

03:09.540 --> 03:14.760
Quindi, in questo corso, utilizzeremo sia il filtro che il rilevatore di funzionalità

03:14.760 --> 03:23.670
in modo intercambiabile, ma ricordiamo che ha quei nomi e un'operazione di coalizione è indicata da una X in un cerchio.

03:23.670 --> 03:31.230
Proprio come hai visto nelle formule precedenti e qui ciò che accade è a livello intuitivo o semplicemente pensarlo in termini di

03:31.230 --> 03:34.980
ciò che sta effettivamente accadendo in background piuttosto che in matematica.

03:35.010 --> 03:40.740
Bene, prendi questo rilevatore di funzioni o filtro e lo metti sulla tua immagine come vedi a sinistra.

03:40.740 --> 03:48.120
da rispettare il valore in modo che lo 0 superiore del valore in alto a sinistra del valore in alto a

03:48.450 --> 03:58.760
sinistra sia quindi sostanzialmente in posizione di 1 per posizione circa 1 1 numero di posizione o 0 1 0 1 0 2 per 0 2 e così via.

03:58.780 --> 04:04.980
Quindi in questo caso copri l'angolo in alto a sinistra i nove pixel nell'angolo in alto a

04:05.090 --> 04:08.670
sinistra e praticamente moltiplichi ciascun valore di valore in modo

04:08.670 --> 04:13.410
Quindi è la moltiplicazione degli elementi su queste matrici.

04:13.410 --> 04:14.460
E poi aggiungi il risultato.

04:14.460 --> 04:20.010
Quindi in questo caso nulla corrisponde, quindi è sempre 0 da 0 0 o da 1.

04:20.010 --> 04:21.280
Quindi il risultato è zero.

04:21.530 --> 04:26.610
E qui puoi vedere che uno di questi corrisponde a uno a sinistra abbinato.

04:26.610 --> 04:28.120
E quindi abbiamo un 1 qui.

04:28.120 --> 04:30.820
Niente di simile niente è stato abbinato a nulla di simile.

04:30.890 --> 04:38.100
Quindi passiamo al lancio successivo e quindi passo a cui stiamo muovendo l'intero filtro è chiamato il

04:38.100 --> 04:38.610
passo.

04:38.610 --> 04:40.570
Quindi qui abbiamo un passo di un pixel.

04:40.680 --> 04:45.820
Qui puoi vedere di nuovo qualcosa che corrisponde all'angolo in basso a destra abbinato al passo falso,

04:46.110 --> 04:50.850
ma uno in basso nel mezzo abbinato qui in alto a destra abbina la misura nulla.

04:50.970 --> 04:52.040
Il passo è uno.

04:52.170 --> 04:53.930
Puoi cambiare il passo.

04:54.330 --> 04:56.260
Puoi farne uno due.

04:56.340 --> 04:58.580
Otterrai tre qualunque cosa ti piaccia.

04:58.830 --> 05:02.770
Alla fine quello che funziona bene è di solito o due.

05:02.800 --> 05:04.280
Quindi è quello a cui la gente si attacca.

05:04.600 --> 05:09.480
E parleremo di quale sia il passo verso la fine di questo tutorial.

05:09.520 --> 05:14.170
Quindi, eccoci qui, quindi quando ci sentiamo si accoppiano in modo assoluto, possiamo vedere che ne abbiamo

05:14.170 --> 05:17.270
due perché due sono abbinati e così via e così via.

05:17.290 --> 05:24.830
Quindi là andiamo ce n'è un altro che corrisponde a quello che abbiamo e noi abbiamo finito.

05:24.830 --> 05:27.770
Quindi cosa è cosa abbiamo creato.

05:27.800 --> 05:28.600
Destra.

05:28.820 --> 05:31.860
Un paio di cose importanti qui.

05:31.970 --> 05:38.240
L'immagine a destra è chiamata una mappa caratteristica ha anche diversi termini che può anche essere chiamato

05:38.870 --> 05:40.530
a volte può funzione Vold.

05:41.000 --> 05:46.280
Quindi nel tuo blog e operatore di operazioni volute a qualcosa che non diventa complicato, diventa

05:46.280 --> 05:53.680
convoluto e a volte mi piace pensare a me stesso nel modo sbagliato ma è corretto il termine corretto è una sorta

05:53.700 --> 05:57.900
di vecchia funzionalità o può anche si chiama la mappa di attivazione.

05:58.040 --> 06:02.510
Ma stiamo andando a chiamarlo una mappa delle caratteristiche in questo corso in modo che possa essere

06:03.500 --> 06:06.300
chiamato una di quelle cose e cosa abbiamo fatto qui.

06:06.320 --> 06:09.910
Bene come puoi vedere abbiamo ridotto le dimensioni dell'immagine.

06:09.920 --> 06:15.500
Questo è il numero uno e questa è la cosa importante che volevo menzionare sulla tua immagine di input e il

06:15.500 --> 06:17.090
testo della feature e il passo.

06:17.240 --> 06:21.690
Se hai un passo da uno puoi vedere un po 'meno l'immagine, ma se hai

06:21.690 --> 06:25.410
il diritto all'immagine ne produrrai di più, la funzione sarà ancora più piccola.

06:25.610 --> 06:33.950
quello di rendere l'immagine più piccola, perché sarà sarà più facile da elaborare e sarà solo più veloce.

06:33.950 --> 06:42.100
E questa è una funzione molto importante del rilevatore di funzionalità di questo passo di convoluzione intero è

06:42.110 --> 06:51.830
Lo sarà e sarai solo in affido perché immagina come qui che abbiamo un'immagine sette per sette, ma

06:51.860 --> 06:55.310
immagina se hai una foto giusta.

06:55.700 --> 07:02.270
Oppure, se hai un'immagine di 256 ° su 56 pixel, è un numero enorme di pixel. CHONE se è

07:02.900 --> 07:06.940
x al quadrato o, ad esempio, hai 300 ma 300 pixel.

07:07.060 --> 07:13.400
Quindi non ci confondiamo con la R. G. B 256 ha da dire che abbiamo un'immagine 300 per

07:13.400 --> 07:14.720
300 in termini di dimensioni e pixel.

07:14.780 --> 07:22.640
enorme e quindi i rilevatori di funzionalità ridurranno la dimensione dell'immagine e quindi la velocità di due è effettivamente vantaggiosa.

07:23.360 --> 07:27.580
Quindi hai 300 numeri quadrati di pixel che sono un numero

07:27.740 --> 07:29.970
Ma poi la domanda è: perdiamo le informazioni.

07:29.990 --> 07:34.520
Stiamo perdendo informazioni quando applichiamo il rilevatore di funzionalità.

07:34.520 --> 07:40.580
Bene, alcune informazioni che stiamo perdendo, naturalmente, perché abbiamo meno valori e di matrice risultante.

07:40.700 --> 07:45.950
Ma allo stesso tempo lo scopo del rilevatore di funzionalità è quello di rilevare alcune caratteristiche

07:45.950 --> 07:48.170
certe parti dell'immagine che sono parte integrante.

07:48.620 --> 07:53.150
E così, ad esempio, se ci pensi in questo modo, come il rilevatore di funzioni, ha un certo

07:53.150 --> 07:54.080
schema su di esso.

07:54.080 --> 07:57.950
Il numero più alto nella mappa delle caratteristiche è quando quel modello si abbina.

07:57.950 --> 08:04.820
In effetti, il numero più alto che puoi ottenere è un esempio semplificato quando la caratteristica è che corrisponde

08:04.820 --> 08:10.550
esattamente e puoi vedere quel numero quattro che abbiamo nella nostra mappa delle caratteristiche esattamente.

08:10.550 --> 08:16.910
Quindi, se lo guardi qui, è esattamente dove si trova questo rilevatore di funzionalità perché ce ne

08:16.910 --> 08:21.460
sono solo quattro e corrisponde perfettamente, quindi puoi vedere questa parte qui.

08:21.470 --> 08:23.220
Quindi la funzionalità è stata rilevata qui.

08:23.450 --> 08:32.340
E come abbiamo discusso all'inizio di questa sezione, quello che mostra è come vediamo le cose come lo

08:32.430 --> 08:33.080
riconosciamo.

08:33.090 --> 08:40.410
Non guardiamo ogni singolo pixel per così dire in quello che vediamo su un'immagine o nella vita reale.

08:40.410 --> 08:46.440
Non guardiamo ogni singola immagine guardiamo le caratteristiche guardiamo il naso i cappelli la piuma

08:47.070 --> 08:55.110
gli occhi sotto i piccoli segni neri sotto gli occhi del ghepardo per distinguere tra un ghepardo e un leopardo

08:55.110 --> 08:57.470
o la forma del treno.

08:57.480 --> 09:02.610
Non distinguiamo tra un treno proiettile e un treno normale e così via, quindi non guardiamo a tutto ciò che

09:02.610 --> 09:08.110
guardiamo alle caratteristiche e questo è ciò che stiamo preservando ed è ciò che la mappa delle caratteristiche ci aiuta a preservare.

09:08.110 --> 09:15.480
In realtà questo è ciò che ci permette di portare avanti e sbarazzarci di tutte le cose inutili che anche

09:15.570 --> 09:22.740
come esseri umani non elaboriamo così tante informazioni nei tuoi occhi che in qualsiasi momento come gigabyte di informazioni

09:22.740 --> 09:28.680
se guardi ogni singolo punto se non terabyte di informazioni che passano nei tuoi occhi al

09:28.680 --> 09:35.640
secondo e ancora siamo in grado di procedere perché ci liberiamo di ciò che è inutile focalizziamoci solo sulle

09:35.640 --> 09:41.510
funzioni importanti caratteristiche che sono importanti per noi e che è esattamente ciò che fa la

09:41.640 --> 09:42.270
funzionalità.

09:42.270 --> 09:51.030
Quindi ora stiamo passando a questa immagine di input e creiamo una feature map in modo che quella frontale diciamo che quella anteriore è quella che abbiamo

09:51.030 --> 09:54.300
appena creato, ma poi come mai ce ne sono molti.

09:54.300 --> 10:00.300
Ma creiamo più mappe di caratteristiche perché utilizziamo filtri diversi.

10:00.300 --> 10:00.590
Destra.

10:00.630 --> 10:05.430
E questo è un altro modo in cui conserviamo molte informazioni, quindi non abbiamo

10:05.880 --> 10:12.600
solo una mappa delle caratteristiche, cerchiamo determinate funzionalità e quindi o fondamentalmente la rete decide attraverso la sua formazione e

10:12.600 --> 10:18.030
questo è qualcosa che discuteremo verso la fine della sezione attraverso la sua formazione decide quali

10:18.120 --> 10:23.670
caratteristiche sono importanti per determinati tipi o determinate categorie e le cerca e quindi avrà filtri

10:23.670 --> 10:26.070
diversi e parleremo dei filtri proprio ora.

10:26.160 --> 10:32.280
Ma in pratica non applicherò questi filtri così per ottenere questa funzione mapperà un filtro come quello che abbiamo visto ma poi

10:32.280 --> 10:36.270
per ottenere questa funzione Mabbett applicherà un filtro diverso per ottenere questa caratteristica applicando

10:36.270 --> 10:38.080
un filtro diverso e così via.

10:38.370 --> 10:43.430
E così fondamentalmente crea solo queste mappe di caratteristiche.

10:43.650 --> 10:49.700
Ed è per questo che personalmente penso che il termine rilevatore di funzioni sia migliore dei filtri.

10:49.710 --> 10:56.040
Ricorda che siamo qui abbiamo questo filtro che possiamo anche chiamare un rilevatore di funzionalità Beh, in realtà

10:56.040 --> 10:59.440
il rilevatore di funzioni di parole penso sia più adatto.

10:59.490 --> 11:03.390
E il motivo è quello che è lo scopo giusto.

11:03.390 --> 11:06.510
Non vogliamo semplicemente non vogliamo solo filtrare la nostra immagine.

11:06.510 --> 11:10.220
Ma anche se si tratta di un tutto uguale, è solo una questione di terminologia.

11:10.230 --> 11:11.990
Ma fondamentalmente vogliamo rilevare le caratteristiche.

11:12.000 --> 11:12.270
Tutto ok.

11:12.270 --> 11:19.680
In questa tana andremo da soli in questa mappa delle funzioni che abbiamo rilevato dove sono presenti determinate funzioni nell'immagine e

11:19.800 --> 11:24.240
questa mappa delle funzioni che abbiamo rilevato dove alcune altre funzionalità sono dove

11:24.240 --> 11:30.350
si trova una determinata funzione specifica e questa mappa delle funzioni verrà rilevato dove una certa altra caratteristica

11:30.350 --> 11:31.420
si trova sull'immagine.

11:31.440 --> 11:33.420
Ecco, questo è quello che stiamo facendo.

11:33.420 --> 11:40.470
E ascoltiamo che abbiamo un paio di esempi Quindi qui stiamo usando e questo è da Gip dot org.

11:40.610 --> 11:48.690
è un tipo di strumento gratuito come la vernice e puoi usarlo per regolare le tue immagini o lavorare con le tue immagini.

11:48.690 --> 11:49.550
La loro documentazione

11:49.560 --> 11:56.490
Ma in pratica hanno alcuni preziosi esempi nella loro documentazione e qui hanno una foto del Taj

11:56.490 --> 11:59.790
Mahal e puoi scegliere quale filtro vuoi applicare.

11:59.880 --> 12:06.150
Quindi, se scarichi questo programma e carichi una foto al suo interno, puoi effettivamente avviare una matrice di

12:06.150 --> 12:12.600
conversione e applicare i filtri e vedrai che queste cose sono effettivamente applicate alle matrici inglesi nell'elaborazione e

12:12.600 --> 12:15.240
nella progettazione delle immagini e così via.

12:15.240 --> 12:17.150
Diamo un'occhiata a cosa otteniamo ciò che otteniamo.

12:17.240 --> 12:21.520
Quindi se applichiamo questo filtro cinque nel mezzo meno uno uno è uno uno uno meno uno.

12:21.690 --> 12:23.780
Puoi vedere che affina l'immagine.

12:23.890 --> 12:29.010
E quindi è abbastanza intuitivo se ci pensate.

12:29.010 --> 12:36.300
Quindi 5 è il pixel del pixel principale come nel mezzo del filtro o del rilevatore di caratteristiche e quindi

12:36.600 --> 12:43.410
meno uno meno uno solo uno solo in un certo modo riduce i pixel attorno alla a in un

12:44.430 --> 12:45.000
senso intuitivo.

12:46.170 --> 12:47.020
Quindi sfocare.

12:47.040 --> 12:54.150
Quindi in pratica assume uguale uguale dà uguale significato a tutti i pixel sono tutti quelli al

12:54.150 --> 12:59.070
centro e quindi li combina insieme e si ottiene un miglioramento sfocato.

12:59.070 --> 13:03.860
Quindi qui puoi vedere che è meno uno e uno e poi ottieni zeri a destra.

13:03.870 --> 13:11.100
Così hai eliminato per rimuovere i pixel attorno al principale nel mezzo e tieni solo questo al meno uno e ti dà

13:11.100 --> 13:15.610
un vantaggio e questo è stato un po 'più difficile capire come funziona.

13:16.290 --> 13:20.700
Probabilmente è più difficile solo pensarlo intuitivamente.

13:20.700 --> 13:23.340
Giusto, quindi questo probabilmente ha più senso.

13:23.340 --> 13:25.860
Giusto li prendi uno di mezzo.

13:25.850 --> 13:28.880
Riduci quello medio.

13:29.050 --> 13:36.180
Probabilmente piace la forza del pixel centrale e poi cerchi quelli che cerchi.

13:36.420 --> 13:41.980
Quelli che vedi aumentano la forza di quelli che li circondano.

13:42.090 --> 13:43.910
Quindi hai quelli lì.

13:44.720 --> 13:45.610
Sì.

13:45.690 --> 13:50.700
Questo ti dà una marcia in più e puoi vedere quali arrivi e comandarne un altro.

13:50.700 --> 13:58.130
Quindi la chiave qui è che è simmetrica e puoi vedere che l'immagine diventa asimmetrica, così

13:58.140 --> 14:03.580
da avere quel tipo di sensazione che si staglia verso di te.

14:03.840 --> 14:08.910
è quello che ottieni quando ti piacciono gli svantaggi qui e in più qui di nuovo questo è un po

14:08.970 --> 14:13.860
'tecnico ora ma almeno possiamo ottenere un qualche tipo di intuitivo e Lissa ci passerà velocemente attraverso di nuovo.

14:13.860 --> 14:14.160
Ed

14:14.160 --> 14:21.480
Quindi c'è più nitidezza c'è sfocatura ci sono mani edgin c'è un edge detect c'è e boss così come

14:21.480 --> 14:27.350
puoi vedere questi sono ottimi esempi della stessa immagine ma stiamo ottenendo mappe di caratteristiche.

14:27.360 --> 14:32.430
Quindi usiamo diversi rivelatori di caratteristiche per ottenere mappe di caratteristiche diverse della stessa

14:32.430 --> 14:40.380
immagine e quindi ora abbiamo un sacco dell'ultima versione di questa immagine in cui in ciascuna di queste abbiamo provato a

14:40.440 --> 14:44.920
rilevare alcune cose in questi termini che non sono applicabili a noi.

14:44.940 --> 14:50.460
Il loro secondo capo probabilmente non è applicabile a noi in termini di reti neurali convoluzionali ma l'età

14:50.550 --> 14:51.630
rileva che è importante.

14:51.630 --> 14:58.590
Vogliamo rilevare il miglioramento del bordo dei bordi, probabilmente non l'effetto sfocato, per certe cose come il testo tagliente.

14:58.580 --> 15:02.450
Probabilmente il più importante per il nostro tipo di lavoro.

15:02.460 --> 15:07.560
E in termini di comprensione dei computer che decideranno da soli o reti neurali decideranno da

15:07.560 --> 15:12.900
soli cosa è importante cosa non lo è e probabilmente non sarà nemmeno riconoscibile all'occhio umano.

15:12.900 --> 15:14.910
Non sarai in grado di capire cosa significano queste caratteristiche.

15:14.910 --> 15:22.530
possono elaborare così tante cose diverse e capire senza nemmeno avere quell'intuizione o senza avere quella spiegazione perché capiranno

15:22.530 --> 15:28.950
quali caratteristiche sono importanti per loro se abbiamo un nome per loro o non che questo

15:28.950 --> 15:34.380
sia un insieme che è una domanda irrilevante per la rete neurale artificiale.

15:34.810 --> 15:39.830
Ma il computer deciderà e questa è la bellezza delle reti neurali che

15:39.990 --> 15:41.260
E il mio preferito.

15:41.280 --> 15:50.940
Ecco un'immagine di Geoffrey Hinton di Geoffrey Hinton trasmessa attraverso uno di questi filtri.

15:50.940 --> 15:53.070
Va bene così che ci porta alla fine di Teresa Tauriel.

15:53.070 --> 15:55.460
Spero ti sia piaciuto conoscere la convoluzione.

15:55.470 --> 16:02.490
scopo principale dell'evoluzione è quella di trovare caratteristiche nella tua immagine usando il rilevatore di caratteristiche mettendole in una

16:02.490 --> 16:08.280
mappa delle caratteristiche e avendo in una mappa futura conserva ancora le relazioni spaziali tra

16:08.340 --> 16:15.710
i pixel che è molto importante per noi lo sai perché se sono completamente confusi allora abbiamo perso il modello.

16:15.720 --> 16:19.280
La chiave di volta è che la convoluzione lo

16:19.350 --> 16:25.110
E allo stesso tempo è importante capire che la maggior parte delle volte le caratteristiche di una rete neurale

16:25.110 --> 16:32.430
sono in grado di rilevare e utilizzare per riconoscere determinate immagini e la volontà di Klaas non significa nulla per gli esseri umani, ma

16:32.460 --> 16:33.120
comunque funzionano.

16:33.120 --> 16:34.420
E questo è ciò che è la convoluzione.

16:34.440 --> 16:36.280
E non vedo l'ora di vederti prossimo Tauriel.

16:36.300 --> 16:37.980
Fino ad allora piace imparare.