WEBVTT

00:01.130 --> 00:06.810
Bună ziua și bine ai venit înapoi, așa că bineînțeles, în învățământul profund astăzi, vorbim despre declivitatea de la gradientul costic.

00:07.220 --> 00:14.450
Anterior am aflat despre coborârea înclinării și am aflat că este o metodă foarte eficientă de a rezolva problema

00:14.450 --> 00:19.590
noastră de optimizare în cazul în care încercăm să minimalizăm funcția de cost.

00:19.640 --> 00:29.030
În principiu ne duce de la 10 la puterea de 57 de ani pentru a rezolva o problemă în câteva minute sau ore sau într-o zi

00:29.480 --> 00:30.940
sau cam așa ceva.

00:31.100 --> 00:37.490
Și chiar ne ajută să grăbim lucrurile, pentru că putem vedea care este calea în jos și putem merge doar

00:37.490 --> 00:41.400
în acea direcție și facem pași și ajungem la minim mai repede.

00:41.600 --> 00:50.030
Dar lucrul cu bastonul cu coborâre de gradient este că această metodă necesită ca funcția de cost să

00:50.030 --> 00:50.990
fie convexă.

00:51.140 --> 00:57.710
Și, după cum puteți vedea aici, am ales în mod special o funcție convexă de cost convexă în

00:58.160 --> 01:05.510
esență, ceea ce înseamnă că funcția arată similar cu ceea ce vedem acum că este doar un fel de vext într-o

01:05.510 --> 01:09.220
direcție și care în esență are un minim global.

01:09.380 --> 01:11.560
Și asta e cea pe care o vom găsi.

01:11.630 --> 01:14.060
Dar dacă funcția noastră nu este convexă.

01:14.060 --> 01:16.250
Dacă funcția noastră de cost nu este corectă.

01:16.370 --> 01:17.810
Dacă ar părea așa.

01:18.020 --> 01:19.660
Ei bine, în primul rând cum s-ar putea întâmpla asta.

01:19.880 --> 01:27.950
Ei bine, acest lucru se poate întâmpla deoarece, în primul rând, alegem o funcție de cost care nu este diferența pătrată între

01:28.010 --> 01:33.850
cum de ce și de ce sau dacă alegem funcția de cost care este așa.

01:33.860 --> 01:39.650
Dar apoi într-un spațiu multidimensional se poate transforma de fapt în ceva care nu este convex.

01:39.780 --> 01:45.410
Și așa, ce s-ar întâmpla în cazul acesta, dacă am încercat doar să aplicăm metoda noastră decentă pentru un gradient decent, așa ceva

01:45.410 --> 01:46.390
se poate întâmpla.

01:46.520 --> 01:51.230
Am putut găsi un minim local al funcției de cost, mai degrabă decât cel global.

01:51.230 --> 01:57.730
Așa că acesta a fost cel mai bun și am găsit unul greșit și, prin urmare, nu avem greutatea corectă.

01:57.740 --> 01:59.940
Nu avem o rețea neuronală optimizată.

02:00.230 --> 02:02.480
Avem o rețea neurală sub.

02:02.610 --> 02:04.470
Și ce facem în acest caz.

02:04.670 --> 02:09.110
Răspunsul este aici stochastic.

02:09.110 --> 02:10.050
Gradient coborâre.

02:10.070 --> 02:15.260
Și se dovedește că coborârea gradientului sarcastic nu este necesară pentru ca funcția cauză să fie convexă.

02:15.380 --> 02:20.120
Deci, haideți să aruncăm o privire asupra celor două diferențe dintre coborârea normală a gradientului despre care

02:20.150 --> 02:21.600
am vorbit și gama stochastică.

02:21.860 --> 02:27.920
Coborârea verde normală este atunci când luăm toate rândurile pe care le conectăm în rețeaua noastră neuronală și

02:27.920 --> 02:33.890
încă o dată avem rețeaua neurală copiată de mai multe ori, dar rândurile sunt conectate de fiecare

02:33.890 --> 02:36.050
dată în aceeași rețea neurală.

02:36.050 --> 02:39.200
Deci, există doar un truc vechi de un an, aceasta este doar pentru scopurile lui Kissel.

02:39.350 --> 02:43.880
Apoi, după ce le-am conectat, am calculat funcția noastră de cost bazată pe formula

02:43.880 --> 02:49.400
corectă și uităm la graficul din partea de jos și apoi ajustăm greutățile, atunci se numește metoda de

02:49.400 --> 02:54.480
coborâre a gradientului sau este, de asemenea, termenul potrivit acea metodă de coborâre în gradient lot.

02:54.470 --> 03:01.940
Așadar, luăm întregul lot din mostra pe care o aplicăm și apoi executăm că metoda de coborâre a gradientului stochastic

03:01.940 --> 03:03.730
este un pic diferită.

03:03.800 --> 03:10.880
Aici luăm rândurile una câte una, astfel că luăm acest rând pe care ne conducem rețeaua neuronală și apoi

03:10.880 --> 03:12.020
ajustăm greutățile.

03:12.020 --> 03:16.420
Apoi vom trece pe al doilea rând pe care îl luăm pe al doilea rând pe care îl conducem rețeaua neurală.

03:16.580 --> 03:21.640
Ne uităm la funcția de cost și apoi ajustăm din nou greutățile și apoi luăm un alt trandafir Rohtak trei pe care

03:21.640 --> 03:25.430
ne conducem rețeaua neurală ne va uita la funcția de cost pe care o reglezăm greutatea.

03:25.430 --> 03:32.660
Deci, practic, ne uităm la adaptarea greutăților după fiecare rând, mai degrabă decât să facem totul împreună,

03:32.660 --> 03:36.080
apoi testarea greutăților în două abordări diferite.

03:36.230 --> 03:39.710
Și acum o să comparăm doar pe cele două.

03:39.710 --> 03:42.920
Deci, aici sunt acestea este modul în care pentru a le aminti vizual.

03:42.920 --> 03:49.490
Deci, aveți cea mai bună coborâre a gradientului în cazul în care ajustați greutățile după ce le executați după

03:49.490 --> 03:55.370
ce ați executat toate rândurile din rețeaua dvs. neuronală și apoi doar greutățile și rulați întregul lucru

03:55.370 --> 04:00.500
din nou iterație iterație iterație în clasa a șasea din decembrie și executați un

04:00.500 --> 04:06.650
rând la un moment dat și ajustați greutățile așa cum sunt doar greutățile și apoi faceți totul din

04:06.770 --> 04:10.040
nou și din nou și se numește discutarea.

04:10.080 --> 04:16.580
Și ați spus că principalele două diferențe sunt că metoda de coborâre

04:16.580 --> 04:27.470
gradient sarcastic vă ajută să evitați problema în care găsiți aceste extremități locale sau minime locale, mai degrabă decât minimul global

04:27.470 --> 04:28.620
general global.

04:29.030 --> 04:34.850
Iar motivul pentru care în termeni simpli este că există un videoclip cu metoda de coborâre a gradientului stochastic

04:35.150 --> 04:38.220
are fluctuații mult mai mari, deoarece le poate permite.

04:38.210 --> 04:43.650
Se face o iterație sau un rând la un moment dat și, prin urmare, fluctuațiile sunt

04:43.650 --> 04:49.440
mult mai mari și este mult mai probabil să se găsească mai degrabă minimul global, decât doar minimul local.

04:49.460 --> 04:56.480
Și celălalt lucru legat de coborârea gradientului sarcastic cred că este un gradient negativ este faptul că este stimulator ca prima impresie

04:56.480 --> 05:01.670
pe care ați putea-o avea este pentru că face să crească una câte una este mai lentă

05:01.730 --> 05:09.050
dar de fapt este de fapt mai rapidă pentru că este ea nu trebuie să încarce toate datele în memorie și să ruleze și

05:09.080 --> 05:12.610
să aștepte până când toate aceste reguli sunt pe deplin.

05:12.710 --> 05:16.780
Puteți doar să le rotiți unul câte unul astfel încât să fie un algoritm mult

05:16.790 --> 05:24.020
mai ușor este mult mai rapid în acest sens, așa că deși are un mod mai mult în acest sens, deoarece are mai multe avantaje față de cei răi.

05:24.110 --> 05:25.320
Metodă de coborâre în gradient.

05:25.430 --> 05:31.310
Principalul avantaj al sau tip de domeniu de a favoriza metoda de descrescăreală a gradului de rău este

05:31.310 --> 05:37.250
că este un algoritm determinist sau altceva decât a arunca o coborâre de gradient fiind un algoritm sarcastic

05:37.250 --> 05:44.570
care înseamnă că este aleator și cu cel mai bun gradient și metodă atât timp cât aveți aceleași greutăți inițiale pentru rețeaua

05:44.570 --> 05:45.430
dvs. neuronală.

05:45.500 --> 05:52.300
De fiecare dată când executați metoda descendentă a gradientului lotului veți obține aceleași iterații aceleași rezultate pentru dvs. în tot

05:52.300 --> 05:58.300
felul în care greutățile dvs. sunt actualizate pentru ca noi să avem pentru metoda gradient sarcastic decent.

05:58.310 --> 06:04.550
Nu veți obține asta deoarece este o metodă stocastică pe care o alegeți la întâmplare și

06:04.570 --> 06:10.940
dacă vă actualizați rețeaua neurală într-o manieră sarcastică și, prin urmare, veți merge la fiecare dată când

06:10.940 --> 06:15.380
executați categoria o metodă decentă chiar dacă aveți aceleași greutăți

06:15.380 --> 06:20.770
la început, veți avea un proces diferit și iterații diferite pentru a ajunge acolo.

06:20.780 --> 06:28.100
Deci, asta e pe scurt ce este de a câștiga și de a disagua este, de asemenea, există o metodă între cele două

06:28.100 --> 06:34.520
numite Metoda descendenței gradientului în cazul în care combinați cele două și în esență rulați, mai degrabă decât să

06:34.520 --> 06:37.640
rulați un întreg lot de alergare unul câte unul.

06:37.640 --> 06:44.150
Executați loturi de rânduri, poate 5 10 100 oricât de multe rânduri vă decideți să vă setați să executați acel număr de rânduri la

06:44.150 --> 06:47.690
un moment dat, apoi să vă actualizați singurele cifre și așa mai departe.

06:47.900 --> 06:52.670
Aceasta se numeste metoda de coborare a gradientului Mini Bache, daca doriti sa aflati mai multe despre

06:52.670 --> 06:56.630
coborarea gradientului, exista un articol foarte bun pe care sa il puteti uita.

06:56.660 --> 07:04.940
Se numește o rețea neuronală în 13 rânduri de la Python, la mare și descendentă de

07:04.940 --> 07:12.840
Andrew Trask, iar legăturile de dedesubt sunt un articol bun, foarte bine scris, foarte simplu.

07:12.920 --> 07:21.860
Are niște gânduri interesante filosofice sau interesante despre cum să aplici apă decentă pe care o cunoști avantajele și dezavantajele și

07:22.340 --> 07:28.460
cum să fii cum să faci lucrurile în anumite situații, așa că ai niște

07:28.460 --> 07:30.730
trucuri și hack-uri foarte interesante.

07:31.370 --> 07:33.620
Foarte ușor de citit atât de sigur verificați că afară.

07:33.800 --> 07:37.010
Și un altul mai citit mai greu.

07:37.010 --> 07:41.930
Pentru cei dintre voi care sunteți în matematică care doresc să ajungă la partea de jos a matematicii de ce.

07:41.930 --> 07:45.180
Gradientul de coborâre este specific.

07:45.260 --> 07:49.200
Care sunt formulele care conduc gradările și cum se calculează și așa mai departe.

07:49.220 --> 07:51.610
Consultați articolul sau, de fapt, cartea.

07:51.620 --> 07:57.160
Este o carte online gratuită numită rețele neuronale și învățare profundă de către cartea lui Michael Nielsen 2015.

07:57.160 --> 08:02.190
Este doar faptul că totul este pe linie puteți merge mai departe și verificați-l acolo.

08:02.450 --> 08:05.870
Și acolo din nou o introducere foarte moale la matematică.

08:05.870 --> 08:12.260
Dar, pentru o mamă, matematica, dar matematica sunt destul de grele pe măsură ce vă duceți în timp ce

08:12.530 --> 08:13.340
citiți articolul.

08:13.610 --> 08:20.240
Dar, în același timp, te implică în acea dispoziție pe care o crezi că vrei să spui că are un capitol cald în care mai întâi să încălzi

08:20.240 --> 08:25.370
matematica și apoi să sari în așa ceva Sunt atât de interesat de matematică atunci acesta este articolul spre care trebuie

08:25.370 --> 08:26.110
să mergi.

08:26.540 --> 08:32.780
Și acolo mergem așa că este în concluzie diferența dintre sensul Graney pentru

08:32.810 --> 08:36.360
a arunca coborârea și cum să lucreze.

08:36.410 --> 08:39.830
Și pe acea notă pe care o vom încheia astăzi, a spus Tauriel.

08:39.840 --> 08:42.000
Aștept cu nerăbdare să vă văd pe următoarea.

08:42.020 --> 08:44.090
Și până atunci se bucură de învățare profundă.