WEBVTT

00:00.760 --> 00:02.520
Bună ziua și bun venit la Statoil.

00:02.830 --> 00:10.050
Deci, agentul a făcut explorarea, iar atunci când urmează să facă este să actualizeze rețeaua partajată.

00:10.240 --> 00:17.050
Primul lucru pe care îl vom face este să inițializăm cumulativ ceea ce o vom numi capitalul nostru R

00:17.070 --> 00:25.180
și îl vom inițializa ca tensor de torță, dar care va avea dimensiunile unul câte unul, deoarece este doar o valoare, dar

00:25.180 --> 00:27.710
ne-am dorit a fi un tensor.

00:27.940 --> 00:33.460
Și deci folosesc aici numai zerouri și apoi 1 1.

00:33.790 --> 00:37.230
Deci, în principiu, recompensa cumulativă este inițializată la 0.

00:37.610 --> 00:43.870
OK, atunci spunând dacă nu am terminat, asta e dacă jocul nu sa terminat.

00:43.870 --> 00:50.200
Ceea ce vrem acum este ca recompensa cumulativă să fie egală cu valoarea ultimului comerț atins

00:50.200 --> 00:51.750
de rețeaua partajată.

00:51.820 --> 00:54.400
Așa că vom obține valoarea de ieșire.

00:54.460 --> 01:00.870
Cunoasteti valoarea rezultatelor functiei modelului nostru si aceasta este valoarea pe care o vom da comunitatii pe care o

01:00.870 --> 01:01.490
desfasuram.

01:01.780 --> 01:05.500
Deci, să obținem mai întâi această valoare, putem să o obținem în acest fel.

01:05.560 --> 01:12.820
Valoare Apoi, știți că de vreme ce dorim doar valoarea adăugată aici să subliniem și apoi să subliniem din nou și apoi

01:13.240 --> 01:19.980
să luăm modelul nostru pentru că va scoate această valoare, dar numai prima ieșire a lucrurilor morale de făcut este dublă

01:19.980 --> 01:25.310
pe cursul său aici și aici putem copia doar pastele pe care le avem aici.

01:25.430 --> 01:33.050
Aceasta este intrarea modelului cu imaginile de intrare și tragerea stărilor și a statelor sudice.

01:33.220 --> 01:35.820
Deci, eu doar lipesc asta și acolo mergem.

01:35.860 --> 01:37.490
Vom obține valoarea.

01:37.810 --> 01:47.080
Și acum ceea ce vom face este să ne dăm valoare, astfel încât toți vor fi egali cu valoarea și pentru a avea acces la valoarea pe care

01:47.080 --> 01:49.350
o avem la acest început acolo.

01:49.750 --> 01:50.430
In regula.

01:50.440 --> 01:57.610
Acum, condiția dacă este făcută și acum ce vom face de când avem o nouă valoare de către noi știți

01:57.670 --> 02:04.090
că obținerea rezultatelor modelului este prima ieșire a modelului bine care deja adaugă această nouă valoare la

02:04.090 --> 02:05.330
lista de valori.

02:05.500 --> 02:16.340
Prin urmare, putem lua direct lista noastră de valori apoi spre un cort și le punem variabilele fiind pentru că noi.

02:16.530 --> 02:20.560
Această ultimă valoare este atât de mare încât se face acum.

02:20.850 --> 02:25.180
Vom inițializa pierderile și ne amintim de prelegerile de intuiție.

02:25.260 --> 02:26.320
Aveți două pierderi.

02:26.340 --> 02:31.780
Aveți ultima politică care este ultima legată de predicțiile agentului.

02:31.860 --> 02:36.070
Și apoi aveți ultima valoare care este mai puțin legată de predicțiile criticului.

02:36.180 --> 02:41.130
Așa că vom introduce aceste două variabile inițializate în zero și vor lua

02:41.250 --> 02:44.600
aici politică pentru pierderea oribilă a politicii noastre.

02:44.690 --> 02:52.680
Inițializați-l la zero și apoi valoarea a pierdut o mulțime de valoare și spuneți că a inițializat-o la zero, atunci să nu uităm să

02:52.680 --> 02:58.680
setăm recompensa cumulativă ca variabilă torch pentru că vom avea nevoie să fie o torță Roybal pentru

02:58.680 --> 03:03.990
că vom calcula un gradient cu respectul pentru aceasta, deoarece recompensa cumulativă va fi un

03:03.990 --> 03:05.850
termen al pierderii de valoare.

03:05.850 --> 03:10.050
Deci este viabilă acum, este atașat grafurilor dinamice cu un gradient.

03:10.530 --> 03:16.150
Și acum, în cele din urmă, ultimul lucru pe care trebuie să-l facem înainte de a începe buclele de tendințe mari pe care le

03:16.170 --> 03:20.580
cunoaștem atunci când aplicăm la gazele se degradează la soare pentru a reduce ultima dintre predicții și ținte.

03:20.850 --> 03:28.160
Ei bine, trebuie să inițializăm GAAP pentru estimarea avantajului generalizat și să nu îl obținem sau neacoperit.

03:28.260 --> 03:34.530
Aveți grijă cu acea GAAP variabila pe care urmează să o inițializăm acum este estimarea

03:34.590 --> 03:35.510
avantajului generalizat.

03:35.520 --> 03:42.480
Deci, ca o rememorare, estimarea avantajului generalizat este, prin definiție, avantajul de a juca

03:42.540 --> 03:45.170
acțiunea prin observarea stărilor.

03:45.210 --> 03:51.330
Deci, este o funcție a acțiunii și a stării și este egală cu diferența dintre valorile

03:51.450 --> 03:54.780
q Q A S și valoarea funcției V.

03:54.780 --> 03:57.120
Deci, de fapt, o pot scrie aici.

03:57.540 --> 04:05.130
Estimarea generalizată a avantajului este o funcție a acțiunii și a stării s și care este egală

04:05.580 --> 04:12.570
cu valorile q ale acțiunii A și a stării S minus valoarea funcției V aplicată stării

04:12.650 --> 04:13.440
s.

04:13.530 --> 04:19.000
Acestea sunt avantajele generalizate de menționat și asta este ceea ce vrem să inițializăm chiar acum.

04:19.200 --> 04:20.770
Și o vom inițializa la zero.

04:21.470 --> 04:27.320
Dar trebuie să fie față de dansatori care urmau să folosească același truc ca și ceea ce

04:27.730 --> 04:35.330
am făcut-o chiar aici, să luăm biblioteca tortei și să aplicăm funcției zebrei ca să o punem ca un tensor al unei singure

04:35.330 --> 04:36.730
valori care este zero.

04:37.160 --> 04:45.730
Și vom folosi această nouă variabilă g și care va fi egală cu acea torță pe care ni-o dăm un zeros ca

04:45.740 --> 04:46.540
una inițială.

04:46.550 --> 04:52.730
Deci, aceasta va fi inițializată la zero și, prin urmare, valorile q ale acțiunii, starea s va fi

04:52.730 --> 04:55.600
egală cu valoarea funcției V a stării s.

04:55.780 --> 04:56.290
In regula.

04:56.320 --> 04:58.810
Și acum suntem gata să pornim bucla pentru.

04:58.850 --> 05:00.470
Așa că o să avem o aventură aici.

05:00.500 --> 05:04.700
Deci, faceți o pauză bună și vă voi vedea în tutorialul următor pentru a ataca.

05:04.820 --> 05:06.170
Și atunci eu.
