WEBVTT

00:01.130 --> 00:06.810
Ciao e bentornati, quindi, ovviamente, per l'apprendimento approfondito oggi parliamo della discesa del gradiente Kostic.

00:07.220 --> 00:14.450
In precedenza abbiamo appreso la discesa del gradiente e abbiamo scoperto che si tratta di un metodo molto efficiente per risolvere il

00:14.450 --> 00:19.590
nostro problema di ottimizzazione in cui stiamo cercando di ridurre al minimo la funzione di costo.

00:19.640 --> 00:29.030
Fondamentalmente ci porta da 10 alla potenza di 57 anni per risolvere un problema in pochi minuti o ore o entro un giorno

00:29.480 --> 00:30.940
o giù di lì.

00:31.100 --> 00:37.490
E aiuta davvero a velocizzare le cose perché possiamo vedere da che parte è in discesa e possiamo semplicemente andare

00:37.490 --> 00:41.400
in quella direzione e prendere provvedimenti e arrivare al minimo più velocemente.

00:41.600 --> 00:50.030
cosa con il bastone con discesa del gradiente è che questo metodo richiede che la funzione di costo sia convessa.

00:50.030 --> 00:50.990
Ma la

00:51.140 --> 00:57.710
E come potete vedere qui, abbiamo scelto in modo specifico una funzione di costo convessa, fondamentalmente convessa,

00:58.160 --> 01:05.510
significa che la funzione assomiglia a quello che stiamo vedendo ora che è solo una specie di vext in

01:05.510 --> 01:09.220
una direzione e che in sostanza ha un minimo globale.

01:09.380 --> 01:11.560
E questo è quello che troveremo.

01:11.630 --> 01:14.060
Ma cosa succede se la nostra funzione non è convessa.

01:14.060 --> 01:16.250
Cosa succede se la nostra funzione di costo non è corretta.

01:16.370 --> 01:17.810
Cosa succede se sembra qualcosa del genere.

01:18.020 --> 01:19.660
Beh, prima di tutto come potrebbe accadere.

01:19.880 --> 01:27.950
Beh, questo potrebbe accadere perché se prima scegliessimo una funzione di costo che non è la differenza quadrata tra

01:28.010 --> 01:33.850
perché come e perché o se scegliamo la funzione di costo che è così.

01:33.860 --> 01:39.650
Ma poi in uno spazio multi-dimensionale può trasformarsi in qualcosa che non è convesso.

01:39.780 --> 01:45.410
E quindi cosa succederebbe in questo caso se avessimo appena provato ad applicare il nostro normale metodo gradiente decente, qualcosa

01:45.410 --> 01:46.390
come questo potrebbe accadere.

01:46.520 --> 01:51.230
Potremmo trovare un minimo locale della funzione di costo piuttosto che uno globale.

01:51.230 --> 01:57.730
Quindi questo era il migliore e abbiamo trovato quello sbagliato e quindi non abbiamo il peso corretto.

01:57.740 --> 01:59.940
Non abbiamo una rete neurale ottimizzata.

02:00.230 --> 02:02.480
Abbiamo una rete neurale parziale.

02:02.610 --> 02:04.470
E quindi cosa facciamo in questo caso.

02:04.670 --> 02:09.110
Bene, la risposta qui è stocastica.

02:09.110 --> 02:10.050
Discesa gradiente.

02:10.070 --> 02:15.260
E si scopre che la discesa del gradiente sarcastica non richiede che la funzione causa sia convessa.

02:15.380 --> 02:20.120
Diamo uno sguardo alle due differenze tra la discesa del gradiente normale di cui abbiamo

02:20.150 --> 02:21.600
parlato e l'intervallo stocastico.

02:21.860 --> 02:27.920
Quindi la normale discesa verde è quando prendiamo tutte le nostre file che colleghiamo alla nostra rete

02:27.920 --> 02:33.890
neurale e ancora una volta abbiamo la rete neurale copiata più volte ma le file vengono inserite

02:33.890 --> 02:36.050
nella stessa rete neurale ogni volta.

02:36.050 --> 02:39.200
Quindi c'è solo un trucco di un anno questo è solo per scopi di azione di Kissel.

02:39.350 --> 02:43.880
E una volta che li abbiamo collegati, abbiamo calcolato la nostra funzione di costo in

02:43.880 --> 02:49.400
base alla formula e guardando il grafico in basso e poi regoliamo i pesi, questo è chiamato il metodo

02:49.400 --> 02:54.480
di discesa del gradiente o è anche il termine corretto quel metodo di discesa del gradiente discontinuo.

02:54.470 --> 03:01.940
nostro campione, lo applichiamo e quindi eseguiamo che il metodo di discesa del gradiente stocastico sia un po 'diverso.

03:01.940 --> 03:03.730
Quindi prendiamo l'intero batch dal

03:03.800 --> 03:10.880
Qui prendiamo le righe una per una, quindi prendiamo questa riga, gestiamo la nostra rete neurale e quindi

03:10.880 --> 03:12.020
regoliamo i pesi.

03:12.020 --> 03:16.420
Poi passiamo alla seconda fila, prendiamo la seconda fila e gestiamo la nostra rete neurale.

03:16.580 --> 03:21.640
Guardiamo la funzione di costo e poi aggiustiamo di nuovo i pesi e poi prendiamo un altro Rohtak a tre

03:21.640 --> 03:25.430
rose, gestiamo la nostra rete neurale esamineremo la funzione di costo che regoliamo il peso.

03:25.430 --> 03:32.660
Quindi, in sostanza, stiamo osservando che stiamo aggiustando i pesi dopo ogni singola fila invece di fare tutto

03:32.660 --> 03:36.080
insieme e quindi testare pesi due approcci diversi.

03:36.230 --> 03:39.710
E ora andremo a confrontare i due fianco a fianco.

03:39.710 --> 03:42.920
Quindi eccoli qui è come visualizzarli visivamente.

03:42.920 --> 03:49.490
Quindi hai la migliore discesa del gradiente dove stai regolando i pesi dopo averli eseguiti dopo aver eseguito

03:49.490 --> 03:55.370
tutte le righe nella tua rete neurale e quindi fondamentalmente solo i pesi ed esegui di

03:55.370 --> 04:00.500
nuovo l'intera iterazione iterazione iterazione nella sesta elementare di dicembre e si corre una

04:00.500 --> 04:06.650
riga alla volta e si regolano i pesi proprio come sono solo i pesi e poi si

04:06.770 --> 04:10.040
fa tutto ancora e ancora e si parla di discussione.

04:10.080 --> 04:16.580
trovi le estremità locali oi minimi locali piuttosto che il minimo complessivo globale globale.

04:16.580 --> 04:27.470
E hai detto che le due principali differenze sono che il metodo di discesa gradiente sarcastica ti aiuta a evitare il problema

04:27.470 --> 04:28.620
in cui

04:29.030 --> 04:34.850
E la ragione di ciò in termini semplici è che il video del metodo di discesa del gradiente

04:35.150 --> 04:38.220
stocastico ha oscillazioni molto più elevate perché può permetterselo.

04:38.210 --> 04:43.650
Sta facendo una ripetizione o una riga alla volta e quindi le fluttuazioni sono molto più

04:43.650 --> 04:49.440
alte ed è molto più probabile che trovi il minimo globale piuttosto che il minimo locale.

04:49.460 --> 04:56.480
alla volta è più lento ma in realtà è più veloce perché è non deve caricare tutti i dati

04:56.480 --> 05:01.670
in memoria ed eseguire e attendere fino a quando tutte queste regole sono del tutto.

05:01.730 --> 05:09.050
E l'altra cosa riguardo la discesa del gradiente sarcastico penso sia un brutto gradiente è la sua promozione come la

05:09.080 --> 05:12.610
prima impressione che potresti avere è perché sta crescendo uno

05:12.710 --> 05:16.780
Puoi semplicemente arrotolarli uno per uno, quindi è un algoritmo molto più

05:16.790 --> 05:24.020
leggero in questo senso molto più veloce, anche se ha molto più senso in quanto ha più vantaggi rispetto al cattivo.

05:24.110 --> 05:25.320
Metodo di discesa gradiente.

05:25.430 --> 05:31.310
o il tipo di dominio di profer come il metodo di discesa gradiente cattivo è che si tratta

05:31.310 --> 05:37.250
di un algoritmo deterministico o diverso dal cast di una discesa del gradiente essendo un algoritmo sarcastico che

05:37.250 --> 05:44.570
significa che è casuale e con il miglior gradiente e metodo, purché tu abbia il stesso peso iniziale per la tua rete neurale.

05:44.570 --> 05:45.430
Il vantaggio principale

05:45.500 --> 05:52.300
Ogni volta che si esegue il metodo di discesa del gradiente batch, si otterranno le stesse iterazioni con gli stessi

05:52.300 --> 05:57.960
risultati per tutti i pesi che vengono aggiornati per consentirci di utilizzare il metodo del gradiente

05:57.980 --> 05:58.300
sarcastico.

05:58.310 --> 06:04.550
Non lo otterrai perché è un metodo stocastico che stai scegliendo i tuoi ruoli a caso

06:04.570 --> 06:10.940
e stai aggiornando la tua rete neurale in modo sarcastico e quindi stai andando in ogni

06:10.940 --> 06:15.380
momento in cui esegui la categoria un metodo decente anche se

06:15.380 --> 06:20.770
hai gli stessi pesi all'inizio avresti un processo diverso e diverse iterazioni per arrivarci.

06:20.780 --> 06:28.100
Quindi questo è in poche parole cosa c'è da castigare e dissentire c'è anche un metodo tra i due chiamato il metodo

06:28.100 --> 06:34.520
di discesa del gradiente batch Mini in cui si combinano i due e in pratica si esegue piuttosto che

06:34.520 --> 06:37.640
eseguire un intero batch di esecuzione uno alla volta.

06:37.640 --> 06:44.150
Esegui batch di righe, forse 5 10 100, ma molte righe decidi di impostare il numero di righe per volta,

06:44.150 --> 06:47.690
quindi aggiorni il tuo modo a cifre singole e così via.

06:47.900 --> 06:52.670
E questo è chiamato il metodo di discesa gradiente Mini Bache se vuoi saperne di

06:52.670 --> 06:56.630
più sulla discesa del gradiente, c'è un ottimo articolo che puoi dare un'occhiata.

06:56.660 --> 07:04.940
discende da Andrew Trask ei link sottostanti sono un buon articolo scritto molto semplice.

07:04.940 --> 07:12.840
Si chiama una rete neurale in 13 linee di Python parte alla grande e

07:12.920 --> 07:21.860
Ci sono alcuni interessanti pensieri filosofici o solo interessanti su come applicare l'acqua verde decente, conosci i vantaggi e gli

07:22.340 --> 07:28.460
svantaggi e come essere come fare le cose in determinate situazioni, così hai alcuni

07:28.460 --> 07:30.730
trucchi e hack molto interessanti.

07:31.370 --> 07:33.620
Leggere molto facilmente, quindi verificarlo.

07:33.800 --> 07:37.010
E un altro un po 'più pesante leggere.

07:37.010 --> 07:41.930
Per quelli di voi che sono in matematica che vogliono arrivare al fondo della matematica perché.

07:41.930 --> 07:45.180
La discesa dei gradienti è quella specifica.

07:45.260 --> 07:49.200
Quali sono le formule che guidano le valutazioni e come vengono calcolate e così via.

07:49.220 --> 07:51.610
Controlla l'articolo o in realtà il libro.

07:51.620 --> 07:57.160
È un libro online gratuito chiamato reti neurali e apprendimento profondo del libro di Michael Nielsen 2015.

07:57.160 --> 08:02.190
È praticamente tutto online che puoi andare avanti e dare un'occhiata.

08:02.450 --> 08:05.870
E ancora una volta introduzione molto morbida alla matematica.

08:05.870 --> 08:12.260
Ma poi per una madre la matematica, ma la matematica è piuttosto pesante mentre vai avanti mentre

08:12.530 --> 08:13.340
leggi l'articolo.

08:13.610 --> 08:20.240
in cui prima fai scaldare la matematica e poi salti in me sono così interessato alla matematica, quindi questo è l'articolo su cui andare.

08:20.240 --> 08:25.370
Ma allo stesso tempo ti coinvolge in quello stato d'animo, penso che tu voglia dire che è come un

08:25.370 --> 08:26.110
capitolo di riscaldamento

08:26.540 --> 08:32.780
Ed eccoci qui, ecco in poche parole la differenza tra il senso di Graney di

08:32.810 --> 08:36.360
lanciare la discesa del gradiente e come lavorare.

08:36.410 --> 08:39.830
E su quella nota stiamo per concludere oggi ha detto Tauriel.

08:39.840 --> 08:42.000
Non vedo l'ora di vederti sul prossimo.

08:42.020 --> 08:44.090
E fino ad allora godere di un apprendimento profondo.