WEBVTT

00:00.680 --> 00:05.570
Bună ziua și binevenită înapoi la cursul de învățare profundă din tutorialul de astăzi vorbim

00:05.600 --> 00:06.600
despre coborârea înclinării.

00:06.890 --> 00:13.610
Ce am învățat anterior a fost că pentru ca o rețea neurală să afle

00:13.610 --> 00:21.140
ce trebuie să se întâmple este propagarea înapoi și atunci când eroarea diferența sau suma diferențelor pătrat

00:21.170 --> 00:28.300
între Y și Y este din nou propagată prin rețeaua neuronală și greutățile sunt ajustate corespunzător.

00:28.520 --> 00:34.220
Așa că am văzut asta și astăzi vom afla exact cum sunt ajustate aceste greutăți.

00:34.400 --> 00:35.930
Să aruncăm o privire.

00:36.080 --> 00:44.030
Aceasta este versiunea noastră foarte simplă a unei lucrări neuronale, o percepție Trauner, o rețea neuronală cu o singură

00:44.030 --> 00:52.280
literă și ceea ce vedem aici este întregul proces în acțiune în care avem niște valori de intrare, atunci

00:52.280 --> 00:57.000
trebuie să așteptăm apoi o funcție de activare este aplicat.

00:56.990 --> 01:01.850
Am obținut o pălărie și apoi o comparăm cu valoarea reală pe care o calculam funcția de cost.

01:01.850 --> 01:05.420
Deci, cum putem minimiza funcția de cost.

01:05.420 --> 01:07.370
Ce putem face despre asta?

01:07.370 --> 01:14.750
Ei bine, o abordare pentru ao face este o abordare a forței brute, unde luăm doar o mulțime de greutăți posibile și ne uităm la

01:14.750 --> 01:20.990
ele și vedem care dintre ele arată cel mai bine și ce facem este, de exemplu, am încerca să spunem,

01:21.080 --> 01:26.240
de exemplu, o mie de greutăți și le-am încerca să obțină ceva de genul acesta pentru funcția

01:26.810 --> 01:32.900
de cost și aceasta este o diagramă a axei Y a axei Y a axei verticale a axei orizontale a

01:32.900 --> 01:34.770
axei orizontale a axei orizontale.

01:34.860 --> 01:39.200
Și pentru că puteți vedea formulele pe care le-am avut minus Y pătrat.

01:39.230 --> 01:42.470
Așa ar arăta funcția de cost arătând așa ceva.

01:42.670 --> 01:47.830
Și, în principiu, veți găsi că cel mai bun este aici.

01:47.950 --> 01:50.980
Deci, foarte simplu abordare foarte intuitivă.

01:50.980 --> 01:53.200
De ce nu facem această metodă de forță brută.

01:53.200 --> 02:01.630
De ce nu încercați doar o mie de costuri diferite pentru o mie de parametri sau intrări diferite pentru greutăți și pentru a vedea care dintre ele

02:01.690 --> 02:03.030
funcționează cel mai bine.

02:03.030 --> 02:04.230
Veți găsi cel mai bun în acest fel.

02:04.420 --> 02:10.270
Ei bine, dacă aveți doar o modalitate de a optimiza acest lucru ar putea funcționa, dar pe măsură

02:10.480 --> 02:16.630
ce creșteți numărul de greutăți crește numărul de Synopsys din rețeaua dvs., trebuie să vă confruntați cu blestemul dimensionalității.

02:16.630 --> 02:19.370
Și deci care este cauza dimensionalității.

02:19.450 --> 02:24.510
Cea mai bună modalitate de a descrie acest lucru sau de a explica acest lucru este doar să analizăm un exemplu practic.

02:24.640 --> 02:30.610
Așadar, amintiți-vă acest exemplu pe care l-am avut atunci când am vorbit despre modul în care

02:30.610 --> 02:37.120
rețelele neuronale funcționează de fapt în cazul în care construim sau gestionăm o rețea neurală pentru evaluarea proprietății.

02:37.120 --> 02:43.030
Asa arata cum a fost atunci cand a fost pregatit deja bine cand nu este instruit inainte de a fi antrenat

02:43.030 --> 02:45.290
inainte de a afla care este greutatea.

02:45.550 --> 02:47.640
Rețeaua neurală reală arată astfel.

02:47.730 --> 02:54.860
Corect, pentru că avem toate aceste diferite sinopse posibile și trebuie să pregătim greutățile și aici avem un total

02:55.280 --> 03:01.190
de 25 de greutăți, de patru ori cinci la început și încă cinci de la loviturile

03:01.310 --> 03:03.430
de acolo 25 greutăți totale.

03:03.680 --> 03:09.060
Și să vedem cum puteam să forțăm forța în 25 de moduri.

03:09.070 --> 03:12.610
Aceasta este o rețea neuronală foarte simplă aici.

03:12.620 --> 03:20.630
Foarte simplu, doar o lovitură înăuntru și cum am putea să ne forțăm să ne forțăm printr-o rețea neuronală de această

03:20.630 --> 03:21.320
dimensiune.

03:21.320 --> 03:24.370
Ei bine, sunt niște calcule matematice simple.

03:24.410 --> 03:25.890
Avem 25 de greutăți.

03:25.910 --> 03:30.410
Asta înseamnă că dacă avem o mie de combinații pe care le vom rezolva

03:30.410 --> 03:37.790
pentru fiecare greutate, numărul total de combinații este de 1000 la puterea de 25 sau o mie sau 10 pentru a analiza cinci combinații diferite.

03:37.790 --> 03:48.260
Acum, să vedem cum soarele a reușit să lumineze supercomputerul mondial al lui Fosse din iunie 2016, cum ar aborda

03:48.260 --> 03:49.700
această problemă.

03:49.700 --> 03:52.390
Așa că, Sunway leagă cine luminează.

03:52.680 --> 04:00.980
Se pare că aceasta este o clădire uriașă destul de mare pentru acest supercomputer și a obținut recordul mondial

04:01.310 --> 04:04.940
Guinness pentru că a fost supercomputerul Fosses.

04:05.210 --> 04:12.620
Chiar acum este cel mai rapid supercomputer din lume și, într-o oarecare măsură, lumina de legătură poate funcționa la

04:12.620 --> 04:15.420
o viteză de 93 de flop-uri.

04:15.510 --> 04:19.900
Flop-ul reprezintă o operație plutitoare pe secundă.

04:19.970 --> 04:23.310
Deci poate face nouăzeci și trei la motorina.

04:23.340 --> 04:28.010
Timp de zece până la puterea a 15 operațiuni plutitoare pe secundă.

04:28.100 --> 04:32.340
Atât de rapid este în comparație.

04:32.450 --> 04:38.210
Calculatoare medii chiar acum le place doar peste mai multe gigaflops și așa mai departe.

04:38.210 --> 04:41.320
Deci, îmi plac genurile.

04:41.450 --> 04:44.290
Mai puțin decât luminile tip TEI Sunway.

04:44.390 --> 04:47.950
Deci, dintr-o dată este tot o minciună că este în fruntea tehnologiei.

04:48.360 --> 04:57.920
Și să presupunem ipotetic că se poate face o încercare de o combinație de patru pe propria rețea într-o singură dischetă și o operație

04:58.010 --> 05:04.220
plutitoare care nu este posibilă, care nu este practică deoarece aveți nevoie de mai multe

05:04.220 --> 05:09.470
operațiuni plutitoare pentru a testa o singură greutate în propria dvs. puțin.

05:09.480 --> 05:11.270
Dar chiar să-i dăm un start.

05:11.270 --> 05:17.990
Să presupunem că poate face acest lucru într-o lume ideală pe care o poate face într-o singură operație plutitoare, poate face un

05:18.290 --> 05:19.900
test pentru fiecare operație plutitoare.

05:20.120 --> 05:23.970
Asta înseamnă că Doddridge va mai necesita încă cinci.

05:24.080 --> 05:33.080
Împărțiți-vă cu nouăzeci de trei ori zece la aproximativ 15 secunde pentru a rula toate aceste teste pentru a forța brute prin

05:33.080 --> 05:34.120
acea rețea.

05:34.130 --> 05:39.860
Asta inseamna ca unul sau aproximativ tind sa aiba putere de 58 secunde si este acelasi

05:39.860 --> 05:42.120
cu cel de 50 de ani.

05:42.170 --> 05:49.910
Acesta este un număr uriaș care este mai lung decât universul a existat și cu siguranță nu va

05:49.910 --> 05:59.150
merge pur și simplu la acest număr este atât de mare, cu siguranță că nu va funcționa pentru noi deloc în optimizarea noastră.

05:59.150 --> 06:00.020
Așa că mergem.

06:00.140 --> 06:01.220
Acesta este un nu nu.

06:01.220 --> 06:05.450
Chiar și pe cel mai rapid supercomputer din lume Sunway tail light.

06:05.450 --> 06:10.140
Deci, trebuie să abordăm o abordare diferită cum vom găsi greutatea optimă.

06:10.310 --> 06:15.890
Prin modul în care această rețea neuronală a fost foarte simplă, ce ar fi dacă rețelele

06:15.890 --> 06:22.740
neuronale arata ca ceva de genul asta sau chiar mai mare decât atunci, da, nu se va întâmpla deloc vreodată.

06:22.760 --> 06:28.490
Deci, metoda pe care urma să o privești este numită coborâre de gradient și probabil că ați auzit de ea deja.

06:28.580 --> 06:30.770
Dacă nu, vom afla ce este acum.

06:30.840 --> 06:41.780
Așadar, funcționează costurile noastre și acum ne îndreptăm atenția asupra modului în care putem să promovăm o modalitate mai rapidă de a găsi cea mai

06:41.840 --> 06:43.190
bună opțiune.

06:43.190 --> 06:45.920
Așadar, permiteți-mi să spunem că începem undeva unde începeți undeva.

06:45.920 --> 06:47.390
Deci începem acolo.

06:47.390 --> 06:56.990
Și din acel punct din partea stângă sus, ceea ce vom face este că vom privi unghiul funcției noastre de cost în acel moment, așa că vom

06:56.990 --> 07:00.800
merge în esență la asta se numește gradient pentru că

07:00.800 --> 07:02.090
trebuie să diferențiezi.

07:02.150 --> 07:04.190
Nu ne vom uita la ecuațiile matematice.

07:04.250 --> 07:09.370
Vom oferi câteva sfaturi despre lectura suplimentară la sfârșitul următoarei prelegere.

07:09.740 --> 07:17.150
Dar, de fapt, trebuie doar să diferențieți ceea ce este panta în acel punct și să aflați dacă

07:17.150 --> 07:19.330
panta este pozitivă sau negativă.

07:19.450 --> 07:25.640
Dacă în cazul în care panta este negativ ca în acest caz înseamnă că te duci în jos astfel încât la dreapta este

07:25.640 --> 07:27.350
coborârea la stânga este în sus.

07:27.350 --> 07:29.780
Și de acolo înseamnă că trebuie să mergi bine.

07:29.780 --> 07:31.510
Practic, trebuie să mergi în jos.

07:31.670 --> 07:33.070
Și asta vom face.

07:33.090 --> 07:35.510
Boom face un pas în dreapta.

07:35.510 --> 07:37.450
Bilele se rostogolesc din nou.

07:37.460 --> 07:38.300
Același lucru.

07:38.390 --> 07:44.120
Puteți calcula panta și panta este pozitivă, însemnând că scriitorul este în sus, în stânga este în jos și trebuie să mergeți

07:44.120 --> 07:46.560
la stânga și sunteți pe minge în jos.

07:46.790 --> 07:54.900
Și din nou calculați panta și sunteți tot taurul chiar acolo mergeți așa că așa veți găsi

07:55.040 --> 08:04.520
în termeni simpli, așa veți găsi cele mai bune WAITES Cea mai bună situație care minimizează funcția dvs. de cost.

08:04.590 --> 08:08.970
Desigur, nu va fi ca o minge de rulare va fi un tip foarte zigzag de abordare,

08:09.210 --> 08:14.970
dar este mai ușor să vă amintiți sau un fel de este mai distractiv să se uite la ea ca o minge de rulare.

08:14.970 --> 08:19.980
Dar, în realitate, da, tocmai va fi ca o abordare pas cu pas va fi

08:19.980 --> 08:21.920
un tip de metoda zigzag.

08:22.050 --> 08:25.020
Da și de asemenea, există o mulțime de alte elemente.

08:25.050 --> 08:35.190
Există lucruri ca, de exemplu, de ce, cum ar fi de ce nu merge de ce nu merge prea mult peste linie, astfel încât ar fi putut sări de la asta mers

08:35.190 --> 08:40.740
în sus în loc de descendent și lucruri de genul asta, astfel încât există parametri pe care

08:40.740 --> 08:41.950
le puteți tweak.

08:41.970 --> 08:45.570
Și din nou vom menționa unde puteți afla mai multe despre asta.

08:45.580 --> 08:51.090
Și, în plus, vom avea acest lucru în aplicații practice, dar în cea mai simplă abordare intuitivă, acest lucru

08:51.090 --> 08:51.770
se întâmplă.

08:51.780 --> 08:56.670
Mergem la fund prin înțelegerea modului în care trebuie să mergem.

08:56.700 --> 09:01.890
În loc să forțeze brute prin mii și mii și milioane și miliarde și cvadrilioane

09:01.890 --> 09:02.920
de combinații.

09:03.030 --> 09:09.920
Putem pur și simplu de fiecare dată să aruncăm o privire la locul în care este înclinată atât de bine ca dvs. sau dacă vă

09:09.910 --> 09:11.690
imaginați că sunteți pe un deal.

09:11.700 --> 09:15.870
În ce fel se simte că merge în jos și în orice fel se îndreaptă și continuați să mergeți

09:15.870 --> 09:20.760
în felul acesta doriți să faceți 50 de pași și apoi evaluați din nou OK în ce direcție merge în jos în acest

09:21.090 --> 09:21.470
fel.

09:21.500 --> 09:24.620
OK și voi face 50 de pași sau mai puțin să iau 40 de pași în acest fel.

09:24.690 --> 09:28.160
Deci devine din ce în ce mai puțin și mai puțin când te apropii.

09:28.530 --> 09:32.720
Deci, iată un exemplu de coborâre de gradient aplicat într-un spațiu bidimensional.

09:32.720 --> 09:36.450
Deci, acesta a fost un exemplu unic.

09:36.570 --> 09:41.880
Aici avem un spațiu bidimensional pentru coborârea gradientului, după cum puteți vedea că se

09:41.970 --> 09:48.450
apropie de minim și este numit și coborâre de gradient, deoarece vă coborâți la minimul funcției de cost

09:48.480 --> 09:53.430
și aflați că el are o coborâre în gradient aplicată în trei dimensiuni.

09:53.430 --> 09:58.740
Așa se pare că, dacă ați proiectat pe două dimensiuni, puteți vedea zig-zagging-ul în drumul său

09:58.740 --> 09:59.600
la minim.

09:59.700 --> 10:03.810
Deci, tu ești un indice de descendență al lui Tauriel. Vorbim despre stochastic.

10:03.810 --> 10:06.850
Gradient coborârea este într-adevăr o continuare a acestui tutorial.

10:07.020 --> 10:08.720
Și aștept cu nerăbdare să te văd acolo.

10:08.740 --> 10:10.610
Și astfel data viitoare se bucură de învățare profundă.
