WEBVTT

00:00.660 --> 00:03.920
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:03.930 --> 00:09.440
Și, în sfârșit, suntem la chestiile amuzante pe care le avem în învățarea profundă.

00:09.450 --> 00:10.660
În regulă, haideți să aruncăm o privire.

00:10.720 --> 00:14.100
Bruce am vorbit despre câștigul ucigașului și despre ce este vorba.

00:14.140 --> 00:20.160
Și am aflat despre mediul Agent și modul în care agentul va privi statul.

00:20.210 --> 00:23.620
Sau ea este în a lua o acțiune obține o recompensă.

00:23.640 --> 00:28.610
Intrați într-o stare nouă și bazați pe această buclă de feedback ei vor continua să ia măsuri și vor

00:28.610 --> 00:29.460
învăța din asta.

00:29.460 --> 00:32.310
Înțelegeți care sunt cele mai bune acțiuni care trebuie luate.

00:32.310 --> 00:35.040
Și am analizat exemplul de bază al unui labirint.

00:35.040 --> 00:40.550
Am înțeles că, în timp ce mediul exploră din Asia, înțelege care sunt valorile statelor.

00:40.560 --> 00:45.150
Apoi ne-am mutat de la tratarea valorilor statelor cu valorile acțiunilor cu

00:45.150 --> 00:52.230
valorile și apoi cu A-Bazinul că am înțeles cum funcționează planurile într-un mediu non sarcastic și cum funcționează

00:52.560 --> 00:57.070
politicile în medii stochastice și care este exemplu de politică.

00:57.120 --> 01:01.340
Deci, este o recapitulare rapidă a tot ceea ce am discutat în învățarea de bază.

01:01.450 --> 01:07.230
Și acum, să aruncăm o privire asupra modului în care acest lucru poate fi dus la nivelul următor prin învățarea profundă prin adăugarea

01:07.230 --> 01:08.080
de învățare profundă.

01:08.260 --> 01:08.510
O.K.

01:08.520 --> 01:16.110
Deci, acesta este mediul nostru și ceea ce vom face acum este că vom adăuga în loc să facem doar calculele

01:16.110 --> 01:21.860
de bază în această matrice pe care le avem ceea ce este destul de simplu.

01:21.870 --> 01:26.970
Ceea ce vom face este să adăugăm două axe care adaugă o axă x și y sau le vom

01:27.090 --> 01:28.480
numi x1 și x2.

01:28.560 --> 01:30.430
Doar pentru a face lucrurile și mai generale.

01:30.480 --> 01:36.830
Și aici avem numărul real rândul coloanele 1 2 3 4 el va conduce numărul rândurile 1 la 3.

01:36.960 --> 01:44.730
Și astfel, fiecare stat poate fi descris de o pereche de două valori x1 și x2, astfel încât oricare

01:44.730 --> 01:50.940
dintre aceste pătrate în care agentul poate fi posibil să fie descris de x1 x2.

01:50.940 --> 01:58.280
De exemplu, chiar acum el este în pătrat cu X1 egal cu 1 și x 2 egal cu 2.

01:58.470 --> 02:03.430
Și, prin urmare, nu putem să fugim în pătratul tău, ceea ce putem descrie în statul tău.

02:03.480 --> 02:08.330
Apoi, desigur, aceasta este o versiune foarte simplificată a unui mediu de descriere a statelor.

02:08.340 --> 02:10.110
Dar, totuși, funcționează în acest caz.

02:10.290 --> 02:17.260
Și asta înseamnă că acum putem alimenta aceste state într-o rețea neuronală.

02:17.400 --> 02:21.830
Apropo, aș vrea să menționez că, la sfârșitul cursului unor anexe bune, avem

02:21.830 --> 02:26.880
un număr x și un antics și două pentru a continua cu succes această secțiune.

02:26.970 --> 02:32.280
Foarte recomandabil să verificați una inaccesibilă care se află pe o rețea neurală artificială, astfel

02:32.280 --> 02:37.470
încât să înțelegeți modul în care funcționează astfel încât să nu avem de a face

02:37.470 --> 02:43.800
cu acest lucru și putem folosi beneficiile cunoașterii modului în care funcționează rețelele neuronale artificiale și astfel vom alimenta

02:43.830 --> 02:51.870
această informație despre stat într-o rețea neuronală și apoi vom procesa această informație X1 și x2 în funcție de structura rețelei neuronale ar putea

02:51.870 --> 02:55.380
avea mai multe straturi ascunse și așa mai departe.

02:55.380 --> 03:00.900
Deci, este ceva pe care îl veți găsi în tutorialele practice, dar la final vom structura în

03:00.900 --> 03:06.570
așa fel încât să scape pentru valori și aceste patru valori vor fi de fapt valoarea noastră Q.

03:06.570 --> 03:11.790
Deci, valorile care dictează ce acțiune trebuie să luăm și ce nu facem în acest tutorial vor vedea exact

03:11.790 --> 03:15.220
cum sunt folosite aceste valori-cheie pentru a decide ce acțiune este adoptată.

03:15.240 --> 03:22.490
Dar principala idee aici este că noi nu mai privim doar acest labirint dintr-o perspectivă de învățare.

03:22.650 --> 03:29.760
Acum luăm stările labirintului și le alimentam într-o rețea neurală profundă pentru a obține

03:29.820 --> 03:31.360
aceste cabinete și.

03:31.410 --> 03:35.080
Și, la sfârșitul zilei, vom continua să găsim o acțiune pe care încă o

03:35.150 --> 03:39.900
să înțelegem ce măsuri trebuie să luăm și vom discuta toate acestea în detaliu, dar întrebarea chiar acum este

03:39.900 --> 03:42.990
motivul pentru care sunt facem toate astea de ce am numit-o.

03:43.200 --> 03:47.990
De ce fac lucrurile mult mai complicate atunci când această abordare inițială a învățării funcționa

03:48.280 --> 03:48.990
deja bine.

03:49.170 --> 03:54.980
Motivul pentru aceasta este că învățarea funcționa în acest mediu foarte simplist și continuăm să ne ocupăm

03:54.990 --> 03:59.830
de acum cu acest mediu foarte simplist pentru a înțelege mai bine conceptele.

04:00.000 --> 04:06.220
Dar, în același timp, învățarea simplă a lui Kial nu va mai funcționa în medii mai complexe

04:06.600 --> 04:12.780
și vorbim despre autovehiculele care vor crea sau vor juca Doom atunci când inteligența artificială joacă Doom

04:13.020 --> 04:19.200
sau alte jocuri Atari precum breakout sau chiar auto-conducerea mașinilor și consolidarea mai avansată a învățării

04:19.260 --> 04:26.400
lucruri, cum ar fi ca roboții de mers pe jos în jurul și efectuarea de acțiuni în toate aceste cazuri,

04:26.730 --> 04:32.400
de fapt, învățarea este insuficientă nu este puternică nu este suficient de puternic pentru a

04:32.400 --> 04:34.700
putea să stăpânească aceste provocări.

04:34.710 --> 04:41.250
Și așa cum am văzut în cursul profund de învățare dacă ați fost în disciplina noastră sau dacă ați făcut

04:41.250 --> 04:47.820
secțiunile anexă pe numărul x și X-2, veți afla acolo unde știți că învățarea profundă este mult superioară orice tip

04:47.820 --> 04:51.640
de mașină de învățare să nu mai vorbim de învățare simplă.

04:51.660 --> 04:55.770
Iată de ce profităm de puterea învățării profunde aici, astfel încât să fim hrăniți în

04:55.770 --> 04:58.580
informațiile despre mediul înconjurător ca un vector al valorilor.

04:58.590 --> 05:04.240
În acest caz, doar pentru a ne folosi într-o rețea neurală profundă și apoi o vom folosi pentru a efectua acțiunile pe care

05:04.240 --> 05:07.220
vrem să decidem care sunt acțiunile pe care le vor lua agenții.

05:07.420 --> 05:11.700
Deci, asta e ca o trecere în revistă la nivel înalt a motivului pentru care facem asta.

05:11.830 --> 05:17.920
Și acum, să aruncăm o privire mai detaliată la ceea ce se întâmplă cu conceptul

05:17.920 --> 05:24.100
de învățare rece când transferăm atunci când facem transformarea sau trecerea de la învățarea simplă la Killary.

05:24.130 --> 05:31.720
Așa cum ați văzut în tutorialele anterioare de intuiție, am avut un diapozitiv ca acesta, care este fundamentul

05:31.960 --> 05:33.550
învățării diferenței temporale.

05:33.700 --> 05:37.430
Aceasta este formula pentru diferența temporală și în esență Să trecem prin asta.

05:37.430 --> 05:44.640
Deci, practic, am avut un agent care era în această stare, care este indicat de săgeata albastră.

05:45.070 --> 05:51.760
Și am înțeles cum funcționează diferența temporală pentru această valoare, de exemplu, în creștere.

05:51.790 --> 05:57.250
Și ceea ce am văzut aici a fost înainte ca acest lucru să fie în Killary simplu, nu învățarea profundă este în ucigașul

05:57.250 --> 05:57.610
simplu.

05:57.640 --> 06:05.560
Ceea ce am văzut a fost înainte ca agentul să aibă o valoare ulterioară de nuanță pe care a învățat-o despre această acțiune de a merge

06:05.560 --> 06:06.260
în sus.

06:06.340 --> 06:08.700
Așa că sa hotărât să se ridice.

06:08.860 --> 06:14.830
Iar după ce își ia acțiunea, primește o recompensă pentru că a luat această acțiune în acest stat.

06:14.830 --> 06:21.070
Și aceasta este răsplata plus acum el poate evalua valoarea stării curente în care este în care este

06:21.070 --> 06:27.850
maximul tuturor valorilor q noi ale întregului cub al noilor acțiuni pe care le poate lua o primă în

06:27.850 --> 06:32.400
noua stare ca tipărirea și citiți înmulțit cu factorul DK al gammei.

06:32.440 --> 06:40.450
Deci, aceasta este în esență tinta noua valoare sau tip de cub ca valoarea cubului empiric pe care tocmai la

06:40.450 --> 06:43.200
primit pentru a lua acea actiune.

06:43.270 --> 06:45.640
Și în mod ideal, cele două două ar trebui să fie la fel.

06:45.640 --> 06:51.430
De fapt, valoarea Q pe care a avut-o în memoria sa despre această acțiune în această

06:51.430 --> 06:57.420
stare ar trebui să fie echivalentă cu recompensa reală Plus gamma ori valoarea statului în care a ajuns.

06:57.610 --> 07:01.870
Și, prin urmare, așa calculăm diferența temporală pe care o luăm după minus ceea ce

07:01.870 --> 07:05.200
a primit ceea ce avea în minte ceea ce aștepta.

07:05.200 --> 07:06.740
Ați scăpa unul de celălalt.

07:06.780 --> 07:07.690
Aceasta este o diferență temporală.

07:07.690 --> 07:14.890
Apoi, utilizați rata de învățare Alpha pentru a ajusta valoarea q a noii valori q de diferența temporală, dar

07:14.890 --> 07:16.940
cu un coeficient de Alpha.

07:17.110 --> 07:20.360
Deci, aceasta este esența învățării simple.

07:20.460 --> 07:25.990
Acum, să aruncăm o privire la modul în care se schimbă în Killary adânc și astfel vom continua

07:26.000 --> 07:29.440
să lucrăm cu diapozitivul, dar vom vedea exact ce se întâmplă.

07:29.620 --> 07:35.890
Deci, într-o învățare profundă, rețeaua neuronală va prezice pentru Valis așa cum am văzut în precedentul și cum vom

07:35.890 --> 07:36.320
vedea.

07:36.370 --> 07:42.340
Donna Citronelle rețeaua neuronală va prezice pentru valori sau ar putea prezice mai multe valori ale mai

07:42.340 --> 07:44.790
multor acțiuni posibile într-o anumită stare.

07:44.800 --> 07:48.500
Dar în acest caz știm că sunt doar patru acțiuni în stânga de făcut.

07:48.670 --> 07:56.160
Și astfel rețeaua neuronală va prezice patru dintre aceste valori, astfel încât nu va exista nici un sfârșit într-o situație profundă de învățare este important

07:56.170 --> 07:58.800
este că nu există nici înainte sau după.

07:58.960 --> 08:01.610
Și așa vom ajunge să cunoaștem mai bine acest lucru.

08:01.720 --> 08:08.080
Deci rețeaua neuronală va prezice patru dintre aceste valori și nu va compara ceea ce

08:08.140 --> 08:15.280
se va întâmpla după, dar rețeaua neuronală se va compara cu această valoare exactă, dar aceasta a fost

08:15.400 --> 08:17.740
valoarea calculată în etapa anterioară.

08:17.740 --> 08:22.950
Deci, în perioada anterioară în care agentul se afla în acest pătrat exact.

08:23.080 --> 08:30.850
Deci, să spunem că nu știu cu ceva timp în urmă că agentul a fost din nou și în acest

08:30.850 --> 08:34.420
pătrat exact și a calculat această valoare anterior.

08:34.420 --> 08:40.630
Deci, în trecut, cu mult timp în urmă, agentul a calculat această valoare, atunci agenții au stocat această

08:40.630 --> 08:43.720
valoare pentru viitor și acum a venit viitorul.

08:43.720 --> 08:48.640
Deci, acum este din nou în pătrat și acum are aceste valori cub care este prezis și unul dintre

08:48.640 --> 08:50.510
ele este pentru cei patru care merg.

08:50.680 --> 08:57.220
Deci, acum ceea ce el va face este de a compara valoarea estimată a Q la această valoare pe care el a înregistrat de

08:57.220 --> 09:02.520
la pasul anterior și va înțelege exact de ce acest lucru este important chiar acum atât de important

09:02.530 --> 09:03.440
să înțelegem aici.

09:03.520 --> 09:07.990
Nu există nici un ofițer în această piață specifică în momentul respectiv.

09:08.140 --> 09:14.650
Luăm valoarea Q pe care a prezis-o folosind rețeaua neurală de această dată și compară-o cu această valoare

09:14.710 --> 09:22.060
pe care a avut-o de la data precedentă de la data anterioară în care a fost în acest pătrat evaluând

09:22.110 --> 09:28.100
toată situația și știi cum ar fi precedentul timpul în care a efectuat această acțiune.

09:28.270 --> 09:29.290
Așa că mergem.

09:29.290 --> 09:33.360
Acum, să aruncăm o privire asupra modului în care toate acestea funcționează în rețeaua neuronală și de ce.

09:33.370 --> 09:38.740
De ce este ca și cum știu că sună puțin cam complicat acum, dar o vom rupe în termeni simpli doar

09:39.310 --> 09:39.990
într-o secundă.

09:40.000 --> 09:44.380
Deci, acest lucru pe propria dvs. rețea pe care o hrănim în stările mediului în

09:44.380 --> 09:48.880
rețeaua neurală trece prin straturile ascunse pe care le emite cu aceste ieșiri Q1 Q2 Q3 Q4.

09:48.880 --> 09:56.830
În acea stare specifică, acestea sunt valorile cubului pe care rețeaua neuronică le prezice pentru posibile

09:56.830 --> 09:57.380
acțiuni.

09:57.400 --> 09:58.420
Acestea sunt cumulul.

09:58.420 --> 10:04.270
Așadar, apare ținta și aceste ținte există exact așa că dacă ne întoarcem aici, aceasta este ținta,

10:04.270 --> 10:07.230
deci aceasta este valoarea care a fost prezisă.

10:07.300 --> 10:11.740
Și apoi, de asemenea, știm că avem o țintă din ultima oară când am fost în piață.

10:11.800 --> 10:16.660
Avem o țintă pentru aceeași acțiune, de exemplu.

10:16.660 --> 10:21.490
Deci, aici avem o țintă și vom compara că comparați Q1 față de ținta pe care

10:21.490 --> 10:28.390
o comparați cu Q2 față de obiectivul pe care l-am avut de la T3 anterior față de o țintă Q4 față de ținta.

10:28.420 --> 10:36.610
Și aceasta este partea în care rețeaua neuronală sau agentul învață acum prin învățare profundă cum să

10:36.610 --> 10:38.630
treacă mai bine.

10:38.650 --> 10:44.920
Iar punctul cheie aici este că aplicăm în continuare învățarea la rece, dar răspunsurile la concepte sunt simple pe care le învățați să le învățați

10:44.980 --> 10:48.940
prin diferențele temporale care sunt destul de simple pe care le-am discutat deja și știm

10:48.940 --> 10:50.720
destul de bine de ce nu.

10:50.920 --> 10:56.100
Dar, în același timp, în învățarea profundă despre modul în care rețelele neuronale învață rețele neuronale să învețe prin

10:56.100 --> 10:56.970
ajustarea greutăților noastre.

10:57.010 --> 11:07.120
Așa că trebuie să adaptăm conceptele de întărire a conceptelor de ucidere simplă la modul în care funcționează efectiv

11:07.120 --> 11:08.550
rețelele neuronale.

11:08.710 --> 11:10.950
Și asta este prin actualizarea greutăților lor.

11:10.960 --> 11:14.950
Și așa încercăm să aflăm aici cum putem adapta conceptul

11:15.400 --> 11:21.060
de diferență temporală la propria rețea, astfel încât să putem folosi puterea completă a rețelelor neuronale.

11:21.260 --> 11:27.790
Până acum am ajuns la aceasta, astfel încât să intrăm în starea noastră de mediu aici, pe măsură ce un vector trece printr-o

11:27.790 --> 11:33.240
rețea neuronală, obținem preziceri ale valorilor cheie și apoi din momentul anterior când agentul era în acea stare.

11:33.240 --> 11:39.480
Avem aceste obiective noi pentru a viza unul câte trei și patru pentru fiecare dintre aceste acțiuni.

11:39.490 --> 11:40.870
Și acum avem de gând să facem asta.

11:40.870 --> 11:43.360
OK să comparăm fiecare cu fiecare.

11:43.630 --> 11:50.500
Și de aici, devine destul de simplu dacă trebuie să accelerați cu rețele neuronale.

11:50.500 --> 11:52.500
Încă o dată, e pe Anax.

11:52.570 --> 12:00.070
Numarul unu vom calcula o pierdere care este aici si vom fi q vizati aceasta cu minus

12:00.070 --> 12:01.760
Q minus aceasta.

12:01.840 --> 12:06.160
Vom face asta pentru diferența pătrată a fiecăruia dintre acestea și le vom

12:06.160 --> 12:06.730
rezuma.

12:06.820 --> 12:12.310
Așadar, luăm suma diferențelor pătrat dintre aceste valori și țintele lor și le vom trimite și asta

12:12.310 --> 12:13.940
va fi o pierdere.

12:14.020 --> 12:19.030
Și așa mai bine, așa cum am avut în învățarea diferenței temporale, așa că dacă ne întoarcem

12:19.420 --> 12:25.180
pentru o secundă, am spus că în mod ideal vrem ca aceasta să fie egală cu aceasta, așa că

12:25.180 --> 12:31.750
vrem ca diferența temporală să fie zero, deci asta înseamnă, în esență, că agentul este prezicând exact corect ceea ce știi că

12:31.750 --> 12:37.900
valoarea Q este aceea pe care agentul o prezice este exact sau că are și memoria este exact descriptivă pentru

12:38.590 --> 12:42.940
mediul înconjurător și, prin urmare, agentul nu poate obține niciodată dreptul de mediu.

12:43.000 --> 12:48.880
Nu există surprize nu există nu există. o atâta timp cât o diferență temporală este un pilot extrem de pozitiv

12:48.880 --> 12:49.970
sau extrem de negativ.

12:50.040 --> 12:51.340
Apoi avem câteva surprize.

12:51.340 --> 12:55.690
Dar, dacă există diferențe generale între zero, atunci el știe atât de bine mediul înconjurător încât

12:55.690 --> 13:01.110
poate să prezică ceea ce se întâmplă și poate și, prin urmare, politica sa va fi foarte bună și va putea naviga.

13:01.350 --> 13:02.200
Deci aici.

13:02.200 --> 13:07.460
Același lucru, așa că vrem ca această lege să fie cât mai aproape de zero, presupun cât mai puțin posibil.

13:07.720 --> 13:14.680
Și de aceea acum mergem la aceasta este partea în care vom folosi puterea reală reală a rețelei neuronale, așa că

13:14.680 --> 13:19.910
vom lua această pierdere și vom folosi propagarea înapoi sau vom rămâne ca o coborâre de

13:19.970 --> 13:27.040
gradient pentru a lua această pierdere și a trece-o prin intermediul rețelei posit înapoi sau înapoi propagat printr-o rețea și prin

13:27.040 --> 13:31.120
intermediul pentru a arunca o mare și decent o dată greutăți.

13:31.120 --> 13:37.780
Toate aceste sinopse în rețea, astfel încât data viitoare să trecem prin această rețea așa cum este deja puțin mai

13:37.930 --> 13:41.050
descriptivă despre mediul înconjurător și exact asta suntem.

13:41.080 --> 13:48.090
Deci, aici aveți dacă reveniți acest lucru este calculat pierderi Kalka și ghici demonstreze propagator pentru rețea greutățile

13:48.100 --> 13:49.330
sunt actualizate.

13:49.330 --> 13:55.720
Apoi, data viitoare când ajungem aici se întâmplă din nou și din nou aici acest lucru se întâmplă din nou

13:55.780 --> 14:02.560
și așa mai departe și așa și continuă să se întâmple și așa se învață acest agent sau practic rețeaua neurală

14:02.560 --> 14:09.880
care este creierul agentului este învățarea devine din ce în ce mai mult și mai descriptivă despre mediu și, prin urmare, agentul este

14:09.880 --> 14:12.100
capabil să navigheze în mediul înconjurător.

14:12.130 --> 14:17.980
Atunci când spunem că un mediu descriptiv înseamnă că, atunci când punem în stările mediului în care

14:17.980 --> 14:25.510
se află acest agent, suntem mult mai probabil să ne apropiem de valorile reale și se întâmplă deoarece valorile cubului pe care vrem

14:25.510 --> 14:30.790
să le găsim corect acțiune și acest lucru se întâmplă deoarece aceste noi obiective sunt,

14:30.790 --> 14:36.940
de fapt, derivate din punct de vedere empiric, astfel încât el în fiecare zi cum găsește aceste ținte drăguțe.

14:37.090 --> 14:40.090
Acesta este de fapt acolo, așa că el observă de fapt.

14:40.100 --> 14:42.940
OK, odată ce fac acest pas, ce recompensă primesc.

14:43.060 --> 14:45.070
Și apoi care sunt valorile acestei stări.

14:45.070 --> 14:48.850
Deci, același lucru pe care l-am văzut anterior în învățarea Q și în simpla învățare a intuiției.

14:48.850 --> 14:54.550
Deci, el învață acest lucru prin încercare și eroare și apoi își construiește rețeaua sau așa

14:54.880 --> 14:59.260
este în așa fel încât valorile prezise să fie apropiate și apropiate.

14:59.380 --> 15:01.330
Consumând această țintă.

15:01.330 --> 15:07.360
Valorile Q sunt foarte asemănătoare cu conceptul pe care l-am discutat aici în învățarea diferenței temporale simple a

15:07.420 --> 15:09.870
algoritmului simplu de învățare a abilităților.

15:09.910 --> 15:10.460
Deci te duci acolo.

15:10.460 --> 15:12.540
Asta este modul în care agentul învață.

15:12.550 --> 15:13.930
Așa că suntem aici.

15:14.260 --> 15:15.490
Și asta este partea de învățare.