WEBVTT

00:00.330 --> 00:02.170
Bună ziua și bun venit la Statoil.

00:02.400 --> 00:06.270
OK, așa că am calculat entropia și l-am adăugat la lista de entropii.

00:06.270 --> 00:11.640
Și acum ceea ce vom face este să luăm o scădere aleatorie a unei acțiuni în funcție de

00:11.700 --> 00:13.190
distribuția probabilităților din următoarea.

00:13.200 --> 00:14.540
Deci, să facem asta.

00:14.540 --> 00:15.780
Acesta este pasul următor.

00:15.870 --> 00:19.910
Suntem încă în buclă, deoarece încă mai fugim pe pașii de aici.

00:20.160 --> 00:22.550
Și acum știți cum să jucați acțiunea.

00:22.590 --> 00:28.740
Vom introduce mai întâi o variabilă pentru acțiunea numită acțiune și apoi vom

00:28.740 --> 00:37.350
lua distribuția probabilităților și vom folosi funcția neurală multiplă pentru a trage la întâmplare din această distribuție a

00:37.350 --> 00:41.390
probabilităților și apoi vom adăuga acele date.

00:41.500 --> 00:48.550
Deci, este important să rețineți că acțiunea va fi de fapt un tensor cu o singură valoare, dar nu ar trebui să

00:48.550 --> 00:51.010
vedeți acest lucru ca o valoare simplă.

00:51.010 --> 00:57.050
Ar trebui să vedeți acest lucru ca pe unul dintre tensori, care conține această valoare pentru acțiune.

00:57.190 --> 01:02.970
Și asta pentru că nu este stors încă în aceeași pentru buclă.

01:02.970 --> 01:09.880
Vom obține probabilitatea de logare asociată acțiunii care a fost jucată.

01:10.170 --> 01:16.750
Și atunci când mă întâlnesc cu probabilitatea mea de noroc aici, luând pe cea precedentă norocul precedent

01:16.810 --> 01:25.480
de la ceea ce am calculat aici și apoi am să utilizez cealaltă metodă la care voi introduce 1 și acțiunea care a

01:25.480 --> 01:31.510
fost doar jucând pentru că vrem să obținem probabilitatea de noroc asociată acestei acțiuni.

01:31.510 --> 01:38.230
Așa că cel de-al doilea argument aici o să-mi pun acțiunea, dar trebuie să fie o tortură oribilă așa

01:38.860 --> 01:44.530
cum este cerută de funcția adunată și funcția adunată doar indică cu un întreg tensor.

01:44.530 --> 01:48.910
În regulă, acum am obținut aspectul asociat acțiunii care a fost afișată.

01:49.030 --> 01:53.790
Și acum, următorul pas este să adăugăm ceea ce avem la lista de aici.

01:53.800 --> 01:55.570
Așa că am obținut valoarea.

01:55.750 --> 01:58.820
Asta am ajuns aici ca ieșire a modelului.

01:58.840 --> 02:00.880
Apoi am primit și problema de blocare.

02:00.910 --> 02:04.030
Așa că vom adăuga blocarea în lista de elemente de blocare.

02:04.180 --> 02:09.610
Adăugăm deja entropia la entropie și este mai puțin bună, iar recompensele vor fi obținute ulterior.

02:09.700 --> 02:15.250
Așa că vom deschide acum valoare și o privire la lista de valori și procesul de lege.

02:15.520 --> 02:16.180
Să o facem.

02:16.180 --> 02:23.800
Luăm lista de valori pe care o adăugăm că folosim funcția de cheltuieli și adăugăm valoarea care a fost

02:23.920 --> 02:32.700
returnată de modelul perfect, apoi Same pentru probele de blocare. Tocmai am primit noile noastre elemente de recuzită și o vom

02:32.710 --> 02:36.080
adăuga la lista de elemente de blocare.

02:36.180 --> 02:43.960
Și astfel, în această funcție de anexă putem pune un jurnal din norocul nostru probabil că a fost calculat doar aici.

02:43.960 --> 02:47.320
În regulă, listele noastre sunt acum actualizate.

02:47.350 --> 02:53.060
Acum, ceea ce vom face este să jucăm acțiunea, deoarece chiar de aici am selectat acțiunea

02:53.060 --> 02:56.570
luând o remiză aleatorie de la distribuirea probabilităților aici.

02:56.650 --> 03:03.040
Dar, de fapt, nu am jucat-o încă și o vom juca acum, ca să putem ajunge la noul stat și, prin

03:03.220 --> 03:06.150
urmare, să obținem noua tranziție și să o jucăm.

03:06.170 --> 03:10.960
Vom lua mediul înconjurător, deoarece vom juca acțiunea în mediul nostru, apoi

03:10.960 --> 03:12.990
vom folosi metoda pasului.

03:13.210 --> 03:20.650
Și în interiorul nostru specificăm acțiunea care a fost selectată pentru ao juca și pentru a face acest lucru luăm acțiunea noastră și noi adăugăm că

03:20.650 --> 03:25.280
nici unul nu pentru că asta este ceea ce se așteaptă ca aceasta să fie funcția.

03:25.750 --> 03:35.820
Ok, dar acest lucru întoarce de fapt noul stat și, de asemenea, noua recompensă, deoarece prin atingerea noului stat avem o nouă recompensă

03:36.000 --> 03:43.500
și, de asemenea, avem o nouă valoare pentru Dunn să știe dacă jocul este sau nu făcut.

03:43.500 --> 03:49.180
Bine, deci, cu aceasta jucam actiunea la care ajungem la un nou stat si primim o recompensa si stim daca

03:49.200 --> 03:50.510
am terminat cu jocul.

03:50.520 --> 03:52.740
Și vorbind despre terminarea jocului.

03:52.990 --> 03:58.590
Ei bine, vom adăuga ceva aici care se va asigura că un agent nu este stivuit în unele

03:58.590 --> 03:59.180
state.

03:59.280 --> 04:04.240
Și pentru a face asta vom actualiza ceea ce sa făcut foarte bine în felul următor.

04:04.860 --> 04:11.910
Ei bine, va fi egal cu a făcut sau vom adăuga o condiție spunând că episodul jocului nu

04:11.910 --> 04:19.200
ar dura prea mult timp și vom vedea în funcția principală că va exista un parametru de lungime maximă

04:19.200 --> 04:21.960
care va fi egal la 10000.

04:22.170 --> 04:25.750
Și nu vrem ca un episod să dureze mai mult de 10000 de unități.

04:25.860 --> 04:34.200
Așa că vom auzi lungimea episodului care este lungimea unui episod și vom scrie

04:34.830 --> 04:43.250
o condiție mai mare decât episodul Lex maxim că nu am spus în realitate acest lucru.

04:43.250 --> 04:49.210
Îl obținem de la parametrii noștri pentru a termina aici Paramjit, dar Ramstad.

04:49.210 --> 04:50.600
Max este lung.

04:50.600 --> 04:59.330
Deci, acest lucru înseamnă că dacă jocul este terminat sau durata episodului este mai mare decât lungimea maximă a setului de episoade

04:59.330 --> 05:02.110
care va fi egală cu 10000.

05:02.270 --> 05:05.410
Ei bine, jocul se va face și vom începe un nou joc.

05:05.960 --> 05:08.040
OK, asta e doar o măsură de precauție.

05:08.180 --> 05:14.360
Și vorbind de precauție, vom adăuga o altă măsură de precauție pentru a strânge recompensa între minus 1

05:14.360 --> 05:15.400
și plus 1.

05:15.470 --> 05:20.450
Am primit deja că suntem aici, dar vrem să ne asigurăm că recompensa se situează între minus 1 și plus

05:20.450 --> 05:20.960
1.

05:21.140 --> 05:27.740
Și pentru a face acest lucru, trebuie doar să actualizăm recompensa, făcând asta luând maximul, apoi luându-i

05:28.240 --> 05:31.060
pe cei cu recompensă și 1.

05:31.190 --> 05:37.790
Și aici luăm maximumul minimului de recompensă și 1 și minus 1 și care se va asigura că recompensa se

05:37.790 --> 05:40.040
situează între minus unul plus unu.

05:40.160 --> 05:40.910
In regula.

05:40.910 --> 05:42.180
Deci, o altă percuție.

05:42.380 --> 05:49.070
Și acum doar vrem să verificăm dacă jocul este terminat, caz în care vom reîncepe mediul.

05:49.220 --> 05:53.010
Și de ce trebuie să verificăm că acum e pentru că tocmai am ajuns la un nou stat.

05:53.090 --> 05:54.880
Tocmai am trecut o nouă tranziție.

05:54.890 --> 05:58.010
Așadar, trebuie să verificăm acest lucru după trecerea acestei noi tranziții.

05:58.130 --> 06:06.860
Ei bine, jocul nu se face astfel dacă se face din nou dacă se face, atunci

06:07.250 --> 06:14.180
în acest caz, vom restarta mediile prin setarea lungimii episodului la zero.

06:14.330 --> 06:21.800
Și, de asemenea, statul va fi re-inițializat pentru a reinițializa pe măsură ce luăm mediul înconjurător

06:21.800 --> 06:25.270
și vom folosi funcția de resetare OK.

06:25.310 --> 06:29.040
Acum ieșim din această condiție care tocmai verifica.

06:29.230 --> 06:34.640
Și acum ceea ce vom face este de când am ajuns la o nouă stare în timp ce această

06:34.640 --> 06:40.410
nouă stare este acum și apoi de Ray, deoarece amintesc că statele sunt imaginile de intrare care inițial sunt numite de matrice.

06:40.570 --> 06:44.430
Și acum ceea ce trebuie să facem este să transformăm noul stat într-un răspuns torturat.

06:44.600 --> 06:50.410
Deci vom actualiza starea noastră și vom folosi biblioteca tortei.

06:50.630 --> 07:00.880
Și, bineînțeles, de la funcția non-thailandeză pentru a converti această non-platitorii de stat imaginile de intrare într-un senzor de

07:00.890 --> 07:01.800
torta.

07:02.150 --> 07:03.150
Perfect.

07:03.260 --> 07:08.620
Și acum, ultimul lucru pe care trebuie să-l facem înainte de a ieși din asta pentru bucla care este bucla

07:08.810 --> 07:13.030
pe pașii noștri Ei bine, este, bineînțeles, să-și petreacă recompensa pe lista de urmărire.

07:13.040 --> 07:18.310
Acesta este ultimul lucru pe care trebuie să îl actualizăm, am actualizat lista cu excepția recompensei.

07:18.320 --> 07:24.830
Așa că o să facem acest lucru acum, când ne luăm recompensele și folosim funcția creierului pentru a

07:24.830 --> 07:28.110
adăuga ultimul cuvânt care a fost primit perfect.

07:28.220 --> 07:36.110
Și chiar înainte de a ieși din buclă, trebuie doar să facem un ultim verificare pentru a verifica dacă, dacă se face,

07:37.340 --> 07:39.490
atunci vrem să oprim expirarea.

07:39.530 --> 07:42.550
Și așa vom adăuga aici o pauză.

07:42.560 --> 07:48.590
Înseamnă că, dacă se termină, vom opri explorarea și vom trece imediat la următorul

07:48.590 --> 07:56.930
pas, care va fi actualizarea modelului comun și acum suntem gata să facem acest lucru pentru că agentul și-a

07:56.930 --> 07:57.980
făcut explorarea.

07:58.190 --> 08:04.910
Acesta va actualiza modelul partajat și vom avea grijă de acesta în următorul tutorial și așa mai departe I.