WEBVTT

00:00.600 --> 00:02.360
Bună ziua și bun venit la poveste.

00:02.520 --> 00:07.920
Acum vom face ca bucla pentru ca să calculeze pierderea de politică și pierderea de valoare și odată

00:07.920 --> 00:13.260
ce avem aceste două lecții, vom putea să folosim optimizatorul nostru pentru a plasa țigara în nisip

00:13.260 --> 00:14.820
pentru a reduce pierderile.

00:14.820 --> 00:15.990
Bine, deci mergem.

00:15.990 --> 00:22.740
Începem aici pe drumul din tutorialul anterior pe care l-am implementat în această secțiune și am uitat să scot indiciile

00:22.740 --> 00:24.280
de rău pentru asta.

00:24.420 --> 00:28.210
Așa că plecarea de aici nu este în toamnă.

00:28.530 --> 00:32.650
Și acum începem o nouă buclă completă, așa că încep cu patru.

00:32.840 --> 00:38.340
Și acum ceea ce vom face este să începem de la ultimul pas făcut în timpul explorării și

00:38.670 --> 00:40.420
vom pleca înapoi în timp.

00:40.470 --> 00:51.250
Deci, de aceea fac pentru că eu, în recompense, terenuri recompense cel mai mare recompense este cel mai mic.

00:51.260 --> 00:57.000
Și din moment ce fiecare pas al explorării este asociat cu locul unde lucrăm, deoarece la fiecare pas primim recompensă

00:57.230 --> 00:58.400
atunci când suntem cuvintele.

00:58.400 --> 01:05.090
Este acest număr de pași și această inversă aici este folosit pentru a ne putea muta înapoi în timp, astfel încât să mergem.

01:05.160 --> 01:10.890
Și acum ceea ce vom face este să actualizăm recompensa cumulativă care este departe și o să o actualizăm în

01:10.890 --> 01:11.570
acest fel.

01:11.640 --> 01:14.110
De fapt, este același lucru cu ceea ce am făcut pentru Doom.

01:14.170 --> 01:23.280
Ea este egală cu gama pe care o obținem de la parametrii noștri și luând din primele programe care nu de mult

01:24.060 --> 01:31.290
ori plus recompensa pe care o putem obține, luând cea mai mică răsplată și luând indicele.

01:31.500 --> 01:36.680
Deci, pentru noi aceasta va fi lucrarea ultimului și apoi va fi răsplata zilei precedente și etc.

01:37.080 --> 01:43.320
și de fiecare dată când ne actualizăm Înmulțind-o cu gamma și apoi adăugând această recompensă la set.

01:43.650 --> 01:47.090
Și astfel, făcând asta, amintiți-vă că vom ajunge în cele din urmă.

01:47.210 --> 01:53.070
Așa că am să o scriu pe măsură ce vor veni și vom primi recompensa noastră comunitară care va

01:53.070 --> 01:55.910
fi rece la sfârșitul bucla până la zero.

01:56.060 --> 02:02.100
Recompensa de la pasul zero plus orele gamma este una.

02:02.290 --> 02:09.040
Am fost primii care în plus față de cuvântul "gamma".

02:09.060 --> 02:21.960
Cel de-al doilea pas plus plus gamma la puterea și minus o dată răsplata atins la pas și minus 1 în cazul în care un număr

02:22.800 --> 02:30.690
de pași, dar apoi să fie atenți la sfârșitul vom avea gama la puterea de numărul

02:31.050 --> 02:32.250
de pași.

02:33.530 --> 02:40.110
Timpul devalorizează valoarea funcției aplicate ultimei stări.

02:40.150 --> 02:42.450
Trebuie să ajungem încă.

02:42.680 --> 02:49.130
Și asta vom obține asta deoarece amintim aici că avem această valoare și ultimul pas pentru că acest lucru a fost făcut

02:49.130 --> 02:50.840
la sfârșitul acestui ciclu aici.

02:51.200 --> 02:56.140
Așa că am obținut valoarea și am stabilit că suntem egali cu acea valoare.

02:56.420 --> 03:02.710
Așa că acum sunt la începutul celei de-a doua buclă completă aici va fi egală cu această valoare a ultimei

03:02.710 --> 03:03.310
date.

03:03.590 --> 03:10.300
Dar apoi, făcând asta, vom obține în cele din urmă egal sau zero procente sau un teren de tenis sau

03:10.520 --> 03:16.620
două plus putem adăuga puterea și minus de câte ori am fost la pas și minus un joc

03:16.620 --> 03:20.990
plus la puterea numărului de pași ori de această valoare a Exercițiilor.

03:21.020 --> 03:25.900
Deci, acesta este principalul lucru de înțeles și aceasta poate fi acțiunea recompensei cumulate.

03:26.090 --> 03:33.560
De aceea este important să porniți de la aceasta inițializându-vă sau făcând clic aici și făcând această buclă

03:33.820 --> 03:37.390
inversă pentru a obține perfect această ecuație finală.

03:37.400 --> 03:43.430
Și acum, acum că avem valoarea potrivită pentru recompensa cumulativă Ei bine, vom calcula avantajul

03:43.850 --> 03:49.110
și avantajul aici este doar avantajul obținerii acestei recompense în comparație cu ei.

03:49.160 --> 03:56.600
Așadar, am să introduc un avantaj evolutiv și, prin urmare, va fi egal cu această recompensă

03:57.020 --> 04:01.390
cumulată minus valoarea funcției V obținută în etapa respectivă.

04:01.610 --> 04:06.690
Așadar, acesta este valoarea noastră minus.

04:07.130 --> 04:07.740
Perfect.

04:07.760 --> 04:13.160
Și acum, că avem comunitatea pe care o desfășurăm și avantajul, atunci putem obține pierderea de valoare.

04:13.190 --> 04:15.170
Acesta este primul care putem obține acum.

04:15.200 --> 04:20.940
Așa că vom obține valoarea noastră foarte bine și aceasta va fi actualizată în felul următor.

04:20.960 --> 04:24.530
Amintiți-vă până acum că ne-a devalorizat inițial la zero.

04:24.800 --> 04:34.670
Și așa vom lua din nou pierderea de valoare și la 0. De 5 ori pătratul în avantaj, astfel încât să putem obține în acest

04:34.670 --> 04:35.480
fel.

04:35.490 --> 04:39.410
Avantajul sa gândit prea.

04:39.470 --> 04:46.460
Așa că înseamnă doar să pătrundem avantajul puterii și aceasta este exact valoarea

04:46.580 --> 04:52.830
plus pierderea generată de predicțiile valorii ieșirilor funcției de către pârâu.

04:53.120 --> 04:59.840
Și deci are sens că aceasta este devalorizată doar pentru că amintește de avantajul acțiunii în

04:59.840 --> 05:04.820
starea s este diferența dintre valoarea Q și valoarea funcției B.

05:04.880 --> 05:14.660
Și atunci când jucăm acțiunea optimă Ei bine, obținem starea staționară cu Q optimă a acțiunii optime, un jucător

05:14.660 --> 05:20.080
de stele în stare fiind egal cu valoarea optimă.

05:20.080 --> 05:22.000
Vistar al statului.

05:22.180 --> 05:28.390
Deci, este destul de intuitiv să înțelegem că atunci când avantajul nu este egal cu zero, atunci va exista o

05:28.390 --> 05:29.990
diferență între aceste două.

05:30.220 --> 05:32.930
Și, prin urmare, este măsurată ultima.

05:33.370 --> 05:34.120
O.K.

05:34.120 --> 05:37.410
Deci ultimul a calculat ultima dată în jos.

05:37.420 --> 05:39.000
Mai avem încă unul.

05:39.010 --> 05:44.560
Este pierderea de politică și asta este ceea ce vom calcula acum și pentru a calcula

05:44.560 --> 05:51.990
acest lucru, trebuie să luăm din nou în considerare estimarea avantajului generalizat, deoarece pentru a calcula pierderea politicii avem nevoie de o

05:52.000 --> 05:58.450
estimare a avantajului generalizat și de a obține avantajele generalizate asupra națiunii avem nevoie mai întâi de diferența temporală a

05:58.540 --> 05:59.760
supapelor de scenă.

05:59.830 --> 06:06.220
Deci avem mai multe lucruri de calculat aici și vom începe cu această diferență temporală odată ce vom

06:06.220 --> 06:07.710
obține diferența temporală.

06:07.780 --> 06:12.850
Vom primi estimarea generalizată a avantajului și, odată ce vom obține avantajele generalizate, vom menționa

06:13.180 --> 06:14.900
că vom obține peninsulele.

06:14.920 --> 06:15.460
In regula.

06:15.670 --> 06:28.100
Deci, să începem cu diferența temporală T. G. DD este egal cu recompensa pasului I,

06:28.700 --> 06:39.200
plus Ghana, pe care le primim lucrurile în lista noastră de programe, astfel încât Bromstad gamma ori valoarea acestei datorii

06:39.200 --> 06:50.260
plus unul și adăugăm acele date pentru a le accesa minus valoarea pasului I și aceleași lucruri pe care le adăugăm datele.

06:50.280 --> 06:50.610
In regula.

06:50.670 --> 06:53.900
Aceasta este formula diferenței temporale și a valorilor de stat.

06:54.180 --> 06:59.690
Și acum putem actualiza estimarea generalizată a avantajului și cum este datată.

06:59.880 --> 07:10.230
Ei bine, luăm R-GA și îl înmulțim cu gama de parametri gamma, așa că accesăm și cu parametrii

07:10.230 --> 07:10.940
noștri.

07:10.950 --> 07:18.410
Așa că luăm celula de programe și adăugăm această diferență temporală a valorilor de stat.

07:18.510 --> 07:19.890
Deci fii atent.

07:19.890 --> 07:21.280
Suntem în buclă.

07:21.450 --> 07:27.060
Și de fiecare dată când înmulțim cu și până și adăugăm o diferență temporală.

07:27.150 --> 07:33.720
Deci, este important să înțelegeți că la sfârșitul acestei bucla Ei bine, această estimare

07:34.170 --> 07:46.180
generalizată a avantajului va fi egală cu suma tuturor etapelor timpului gamma, astfel încât puterea de i ori a diferenței temporale la pasul să fie atât

07:46.480 --> 07:50.360
de importantă pentru a menține in minte.

07:50.700 --> 07:57.000
Și acum că avem estimarea generalizată a avantajului și diferența generală pe care o putem calcula în

07:57.000 --> 07:58.880
cele din urmă politica.

07:59.070 --> 08:00.210
Deci, să facem asta.

08:00.210 --> 08:10.020
Vom actualiza legile noastre de politică în următorul mod, luând vechea politică pentru noi și vom scădea probabilitățile

08:10.230 --> 08:20.280
LUGG obținute la pasul pe care îl multiplicăm prin această estimare a avantajului generalizat că trebuie să introducem o

08:20.280 --> 08:23.920
variabilă deoarece atunci vom calcula gradienti.

08:24.150 --> 08:33.170
Deci, trebuie să fie atașat la gradienți în grafic și apoi să adăugăm minus 0. De 1 ori entropia.

08:33.170 --> 08:36.660
Entropia obținută la pasul toamna.

08:37.200 --> 08:38.130
Și din nou.

08:38.220 --> 08:39.540
Acum fii atent.

08:39.540 --> 08:50.830
Aceasta este bucla din interior, ceea ce înseamnă că, la sfârșitul gripei, ceea ce veți obține este politica și

08:51.280 --> 09:03.110
este egală cu minus pe unele dintre pașii produsului luggin al politicii, în momentele de timp, până la estimarea avantajului

09:03.110 --> 09:04.090
generalizat.

09:04.160 --> 09:10.710
Plus asta 0. 01 de ori entropia face așa încât să ajungem.

09:10.720 --> 09:13.240
Și acum ce este politica lui I.

09:13.280 --> 09:19.100
Ei bine, aceasta este probabilitatea moale Max a acțiunilor și entropia acestui lucru, că voi știți ce este

09:19.100 --> 09:21.320
acolo unde am calculat mai devreme.

09:21.430 --> 09:22.870
Și ce am vrut să facem?

09:22.940 --> 09:24.130
Deci avem deja asta.

09:24.290 --> 09:29.950
Dar în acest an am auzit că este probabilitatea moale Max a acțiunilor.

09:30.170 --> 09:32.080
Și de ce punem aici un minus aici.

09:32.150 --> 09:37.220
Asta pentru că norocul probabilității și entropiei sunt valori negative.

09:37.220 --> 09:43.340
Și din moment ce vrem să minimalizăm valoarea lor absolută, trebuie să vedem ultimul ca probabilitatea LUGG, spre deosebire

09:43.340 --> 09:44.370
de o distanță.

09:44.370 --> 09:51.530
Nu vrem să maximizăm probabilitatea acțiunii care va maximiza avantajul.

09:51.530 --> 09:53.130
Aceasta este ideea din spatele ei.

09:53.210 --> 09:59.060
Vrem să maximizăm probabilitatea de a juca acțiunea care va maximiza avantajul și pentru cei dintre

09:59.060 --> 10:03.500
voi care s-ar putea întreba care este scopul acestei entropii eficiente.

10:03.650 --> 10:05.720
Există acest factor 0. 01 aici.

10:05.930 --> 10:13.430
Ei bine, scopul este acela de a preveni ca acesta să cadă prea repede într-o capcană în care avem o distribuție

10:13.430 --> 10:19.340
de probabilități cu zerouri pentru toate acțiunile, cu excepția celei care are probabilitatea unei singure.

10:19.550 --> 10:22.370
Și dacă se întâmplă asta, ar reduce entropia.

10:22.550 --> 10:29.060
De aceea adăugăm aceste mici revizii 0. 01 an care va face ca entropia să crească

10:29.060 --> 10:30.940
în Mare în sensul.

10:31.020 --> 10:35.460
Așa că acum vestea bună este că cea mai dificilă parte este făcută.

10:35.500 --> 10:41.050
Avem cele două pierderi și, prin urmare, ceea ce trebuie doar să facem acum și deja știm cum să facem este de a

10:41.050 --> 10:44.820
face doar pentru a obține o notă în sensul de a reduce aceste două clase.

10:45.190 --> 10:51.170
Și acum ceea ce vom face acum este să ieșiți din această buclă și o să luăm optimizatorul nostru.

10:51.390 --> 10:57.220
Cel pe care l-am făcut separat atunci ne amintim că primul lucru pe care trebuie să-l facem este

10:57.220 --> 11:04.810
să inițializăm toți parametrii de clasificare la zero și, pentru a face acest lucru, adăugăm că apoi la zero și se numește o metodă Grad.

11:04.810 --> 11:06.980
În regulă, așa că sa făcut.

11:07.000 --> 11:11.890
Acum o să facem o propagare înapoi, dar vom acorda o dublă importanță

11:11.890 --> 11:15.670
politicii, ultima decât valoarea pierdută, deoarece politica este mai mică.

11:15.970 --> 11:28.190
Deci, pentru a face acest lucru vom pune în politica de paranteză și scorul plus plus 0. 5 pierderea de valoare astfel 0. De 5 ori valoarea pentru noi și vom

11:28.970 --> 11:37.400
adăuga aici că vom aplica metoda înapoi pentru a efectua propagarea înapoi și datorită acestui truc aici, cu

11:37.400 --> 11:43.880
politica mai puțin plus jumătate din valoarea pe care o avem de două ori

11:43.880 --> 11:47.460
mai multă importanță pentru politică decât Vanessa.

11:47.480 --> 11:53.630
OK, atunci vom folosi un alt truc care va împiedica gradientul să ia valori extrem de

11:53.630 --> 11:56.890
mari și, prin urmare, să genereze algoritmul.

11:57.020 --> 12:03.530
Iar trucul de a face asta este de a obtine mai intai biblioteca tortei, apoi

12:04.220 --> 12:13.040
capatul si modulul din biblioteca tortei, apoi submodul util si acum vom folosi o functie CLEP subliniaza gradul pe norma de

12:13.530 --> 12:20.830
scor si vom introduce datele parametrii de model cu o intrare secundă care va fi de 40.

12:21.200 --> 12:26.560
Iar acel truc va asigura în principiu că gradienții nu vor lua valori extrem de mari și

12:26.560 --> 12:28.000
pentru a genera algoritmul.

12:28.220 --> 12:30.770
Și pentru aceia dintre voi care s-ar putea întreba dacă acești 40 de ani.

12:30.800 --> 12:31.640
Exact.

12:31.850 --> 12:37.130
Ei bine, asta înseamnă că folosim aceste valori, astfel încât norma gradientului se situează

12:37.130 --> 12:42.510
între 0 și 40 și, prin urmare, modul în care împiedicăm adunarea la valori mari.

12:43.000 --> 12:45.170
OK, acum aproape am terminat.

12:45.170 --> 12:52.550
Amintiți-vă că am făcut această funcție și ne-a împărtășit cu siguranță funcția Gretz la începutul toamnei, pentru a vă asigura că

12:52.670 --> 12:59.450
agentul și modelul partajat împărtășesc aceleași gradienți și că faceți acest lucru pentru a vă asigura că putem

12:59.450 --> 13:01.090
aplica această funcție aici.

13:01.220 --> 13:13.310
Și așa vom adăuga și împărtășim cu siguranță gradul pentru a ne asigura că modelul moral și cel partajat împărtășesc

13:13.310 --> 13:14.690
aceleași gradienți.

13:14.690 --> 13:16.670
Bine, deci e doar o precauție.

13:16.670 --> 13:21.620
Nu sunt sigur că este absolut necesar, dar știi că cel puțin nu vom avea probleme aici.

13:22.040 --> 13:22.550
Bine.

13:22.550 --> 13:29.900
Și, în sfârșit, ultima linie de cod, vom face, bineînțeles, pasul de optimizare pentru a

13:29.900 --> 13:38.900
reduce pierderile și știi cum să o facem, desigur, luăm optimizatorul nostru și adăugăm acel pas cu paranteze și

13:39.320 --> 13:43.300
apoi mergem la antrenamentul creierului nostru este peste.

13:43.550 --> 13:44.780
Deci, felicitări.

13:44.780 --> 13:47.030
Sper că nu a fost prea copleșitoare.

13:47.060 --> 13:49.620
Nu vă faceți griji voi furniza codul cu toate comentariile.

13:49.670 --> 13:53.330
Deci, dacă ați pierdut orice detaliu, puteți să consultați comentariile.

13:53.420 --> 13:57.260
Și nu vă faceți griji dacă nu ați înțeles nimic, acest lucru este foarte avansat.

13:57.410 --> 14:04.020
Dar fiți siguri că aceasta este și cea mai puternică vizită de amintire făcută de creatorul piesei pi.

14:04.100 --> 14:06.770
Deci, lucrăm cu cei mai buni aici.

14:06.850 --> 14:12.560
Stadiul tehnicii, astfel încât este absolut normal dacă nu ați primit totul pentru prima oară, dar dacă lucrați de ea

14:12.560 --> 14:16.520
de mai multe ori, veți avea cu siguranță mai mult și mai confortabil.

14:16.520 --> 14:19.150
Deci, acum am terminat cu antrenamentul.

14:19.220 --> 14:26.080
De fapt, am făcut toate cele mai importante lucruri pe care le știi că le-am făcut creierului

14:26.120 --> 14:30.610
construind arhitecturile rețelelor neuronale cu convoluțiile LCN și straturile complet conectate.

14:30.620 --> 14:34.360
Ne-am antrenat creierul făcând acest cod de tren aici.

14:34.520 --> 14:37.190
Deci, practic, inima algoritmului se face.

14:37.310 --> 14:39.800
Ai făcut A3 să vadă felicitări.

14:39.800 --> 14:43.940
Acum avem încă câteva lucruri de făcut, dar asta este doar pentru a obține parte distractivă.

14:43.940 --> 14:52.540
Știți că trebuie să facem acest test pe care l-am găsit, care va testa agenții și va furniza

14:52.550 --> 14:54.020
videoclipurile și avionul.

14:54.170 --> 15:00.860
Deci, va fi foarte distractiv să privim că nu vom codifica toate liniile acestui test că am căzut pentru că așa cum am spus că

15:00.860 --> 15:02.720
am făcut cel mai important lucru.

15:02.840 --> 15:10.310
Toate legate de 23C, dar voi explica, bineînțeles, codul și, în cele din urmă, am făcut acest lucru am găsit, care

15:10.310 --> 15:11.770
va executa codul.

15:11.890 --> 15:15.900
Și din momentul în care executăm acest cod, tot codul va fi generat.

15:16.040 --> 15:18.150
Deci creierul va fi făcut.

15:18.200 --> 15:24.080
Antrenamentul se va întâmpla și ochiul va juca noi jocuri de breakout și vom obține toate videoclipurile.

15:24.080 --> 15:26.480
Așa că nu pot să aștept să le urmăresc în cele din urmă.

15:26.550 --> 15:29.810
Vom vedea dacă el este suficient de inteligent pentru a prinde mingea.

15:29.990 --> 15:36.380
Deci, acum voi vedea în tutorialul următor pentru acest desktop UI, astfel încât să putem testa AI pe unele

15:36.380 --> 15:37.250
jocuri noi.

15:37.300 --> 15:38.980
Și până atunci să vă bucurați de AI.