WEBVTT

00:00.300 --> 00:02.000
Bună ziua și bun venit la acest tutorial.

00:02.160 --> 00:05.090
Felicitări din nou că ați făcut-o cu ea.

00:05.150 --> 00:08.200
Vezi că am făcut-o că am făcut creierul și i-am antrenat.

00:08.400 --> 00:15.600
Dar acum trebuie să facem un agent de testare care nu va avea o întâlnire mâine deloc, dar va folosi

00:15.780 --> 00:19.430
doar modelul de partajare pentru a-și face propriile explorări.

00:19.530 --> 00:26.080
Și, bineînțeles, în acest cod vom înregistra câteva videoclipuri și aceștia vor fi agenții de testare

00:26.090 --> 00:28.750
a videoclipurilor cu un anumit punctaj.

00:28.810 --> 00:30.840
Să trecem prin acest cod.

00:30.850 --> 00:35.860
Cea mai importantă este făcută așa cum v-am spus că nu vom codifica linia de linie, dar cred

00:35.860 --> 00:38.580
că este important să înțelegeți ce se întâmplă aici.

00:38.800 --> 00:42.680
Deci, mergem cu acest cod în prima secțiune așa cum ați observat.

00:42.790 --> 00:49.480
Importem bibliotecile și apoi am găsit această funcție de testare, care va face ca acest agent de testare să

00:49.480 --> 00:52.390
facă propriile explorări și să joace jocul breakout.

00:52.600 --> 00:58.610
Deci avem această funcție de testare durează trei argumente, primul este clasament care este încă de a face sincronizarea

00:58.850 --> 01:02.060
agentului de testare ca și noi pentru agenții de formare.

01:02.230 --> 01:05.380
Atunci avem parametrii, desigur, pentru că aveți nevoie de ceva.

01:05.380 --> 01:12.220
Și, desigur, avem modelul partajat, deoarece acest agent de testare va folosi un model comun pentru a-și face

01:12.220 --> 01:13.360
propria explorare.

01:13.360 --> 01:18.790
În regulă atunci mergem în interiorul funcției și această linie de cod pe care o sincronizăm cu agentul de testare.

01:18.820 --> 01:23.120
Exact așa cum am făcut înainte, atunci importăm mediul înconjurător.

01:23.170 --> 01:27.070
Aș reamintesc că în codul principal care va fi în următorul tutorial.

01:27.250 --> 01:33.970
Păi și numele aici va fi înlocuit de pauză de zero, astfel încât să putem intra în mediul de pauză

01:34.060 --> 01:40.180
zero și să jucăm jocul și Crucea Roșie Trumani care va primi clipurile video ale serii noastre.

01:40.180 --> 01:46.680
Deci, practic, această linie de cod în total înseamnă că rulați un mediu cu video.

01:47.080 --> 01:54.520
Apoi, la următoarea linie de cod, sincronizăm acest mediu cu același principiu ca și funcția Trend.

01:54.700 --> 02:02.170
Atunci vom obține modelul nostru și pentru a face acest lucru vom crea un obiect al clasei de activitate și vom pune

02:02.170 --> 02:08.920
forma de intrare cu spațiul nostru de observare a mediului înconjurător, iar zerurile de formă sunt exact ca și funcția

02:09.190 --> 02:13.690
de tren și ieșirile noastre care sunt acțiunile cu un spațiu de acțiune.

02:13.900 --> 02:19.770
Asa ca si inainte ceva nou aici de cand am terminat cu antrenamentul.

02:19.870 --> 02:25.450
Nu vrem să punem modelul în modul de tren, pentru că pur și simplu nu vrem să

02:25.450 --> 02:26.880
ne pregătim să-l dezvoltăm.

02:27.160 --> 02:29.740
Și asta facem aici cu un model care a evoluat.

02:29.890 --> 02:36.940
Deci, este doar pentru a pune agentul de testare într-un mod care va testa în esență testat

02:37.030 --> 02:38.350
performanța evaluată.

02:38.720 --> 02:45.680
Apoi aici primim stările de intrare care sunt imaginile de intrare din joc care în acest moment sunt o

02:45.680 --> 02:46.790
cursă întreagă.

02:46.840 --> 02:49.360
Apoi îi transformăm în dansatori de torte.

02:49.480 --> 02:52.810
Aici inițiază câteva dintre cuvintele de aici.

02:52.840 --> 02:54.980
Inițializăm până la adevărat.

02:55.200 --> 03:03.430
Deci, tocmai ca și ultima oară, atunci ceva nou nou introducem această a treia viabilă cu o funcție de timp pentru

03:03.850 --> 03:05.990
a măsura timpul de calcul.

03:06.190 --> 03:08.680
Și asta pentru că doriți să obțineți punctul de plecare.

03:08.890 --> 03:15.160
Apoi aici acțiunile pe care le folosim un tip foarte practic de tac, care permite adăugarea unui element la tac de la

03:15.160 --> 03:16.550
dreapta sau din stânga.

03:16.600 --> 03:21.960
Deci, este foarte practic și vă voi da referința pe care o cred în versiunea decrementată a codului.

03:22.180 --> 03:27.320
Deci, veți avea o privire asupra a ceea ce este dequeue este și asta este ceea ce permite să facă acest lucru.

03:27.490 --> 03:33.370
Apoi inițializăm lungimea unui episod cu zero, desigur, și apoi vom mări dimensiunea în această

03:33.400 --> 03:34.690
bucla de bine.

03:34.870 --> 03:36.480
Deci folosim același șmecherie aici.

03:36.680 --> 03:42.290
În timp ce este adevărat și în buclă, incrementează lungimea episodului cu unul.

03:42.490 --> 03:49.700
Când jocul se termină la terminarea jocului, reîncărcați ultimul set al modelului partajat, modelul de partajare dat

03:49.730 --> 03:51.460
de celelalte modele.

03:51.460 --> 03:55.610
Rețineți că aici modelul partajat nu mai este datat atunci.

03:55.660 --> 04:04.030
Totuși, dacă jocul se termină dacă jocul este terminat, Reinette noi re-inițializăm stările celulare vezi X și

04:04.190 --> 04:13.840
apoi statele H x și altfel, dacă jocul nu se termină bine, păstrăm aceleași state de celule și în state.

04:13.840 --> 04:18.030
Dar pentru a vă asigura că sunt predate variabile astfel încât acestea să poată fi atașate la un gradient.

04:18.170 --> 04:25.240
OK, deci e ceva ce deja am murit în funcția de tendință și apoi în buclă în timp și după ce avem

04:25.240 --> 04:30.870
date care afirmă în stările ascunse calea cea dreaptă, în funcție de cele două cazuri aici.

04:31.060 --> 04:34.360
Ei bine ce facem noi primim previziunile de mâine.

04:34.450 --> 04:37.380
Exact asta facem aici cu această linie de cod.

04:37.750 --> 04:43.360
Deci, obținem valoarea care este rezultatul criticului, valoarea reală care este rezultatul actorului.

04:43.600 --> 04:49.750
Și atunci este vorba de toate stările ascunse H x și de statele de celule X, atunci vom genera o

04:49.750 --> 04:54.130
distribuție a probabilităților acțiunilor care se află la valoarea valorilor acțiunii Q aici.

04:54.270 --> 04:56.380
Și facem asta cu următoarea funcție.

04:56.470 --> 05:01.230
Și, bineînțeles, nu trebuie să luăm probele de noroc aici, pentru că asta este doar pentru pregătirea

05:01.480 --> 05:02.650
pentru agentul de testare.

05:02.650 --> 05:09.130
Acesta va juca doar acțiunile pe care le vom folosi doar tu stii ca doom o anumită activitate să-l joace, dar nu

05:09.190 --> 05:10.920
facem nici o formare aici.

05:10.960 --> 05:19.040
Deci, avem doar o propunere și de aici jucăm acțiunea luând direct la RMX aceste probabilități, ceea ce înseamnă că

05:19.040 --> 05:22.720
ia acțiunea care are cea mai mare probabilitate.

05:22.810 --> 05:26.860
Și motivul este că agentul de testare nu face nici o explorare.

05:26.860 --> 05:32.830
Amintiți-vă că vrem să avem o șansă să luăm câteva acțiuni care au probabilități scăzute atunci când

05:32.830 --> 05:38.170
doriți să explorați aceste alte acțiuni și nu știți să luați de fiecare dată acțiunea

05:38.170 --> 05:44.260
care are cea mai mare probabilitate, dar aici agentul de testare poate face orice explorare și prin urmare,

05:44.260 --> 05:50.800
de aceea luam direct acțiunea care are probabilitatea maximă din nou, atunci când vom juca acțiunea ajungem la următoarea

05:50.800 --> 05:53.340
stare și vom obține următorul cuvânt.

05:53.470 --> 05:56.920
Și este o zi datată dacă jocul sa încheiat sau nu.

05:57.160 --> 06:03.700
Așa că am obținut toate acestea cu această linie de cod, jucând acțiunea după ce am selectat-o ​​cu Max-ul

06:03.790 --> 06:04.630
nostru aici.

06:04.840 --> 06:13.000
Deci, jucăm acțiunea aici și ajungem la statul în care primim recompensa și o facem din nou și apoi din moment ce noi avem

06:13.090 --> 06:18.950
o nouă recompensă Vom actualiza o parte din recompensă adăugând pur și simplu acest nou cuvânt.

06:19.180 --> 06:21.480
Și în cele din urmă de fiecare dată când jocul este terminat.

06:21.490 --> 06:28.510
Deci, dacă acest lucru înseamnă că atunci când jocul este terminat când termin jocul bine, vom

06:28.510 --> 06:31.210
tipări rezultatele cu timpul opus.

06:31.230 --> 06:36.100
Am vrut ca lungimea episodului să dureze mult timp.

06:36.100 --> 06:42.890
Se joacă excelent și acesta este modul în care imprimam toate aceste variabile folosind aceste trucuri mici.

06:42.910 --> 06:46.280
Asta pentru timpul pe care îl dorim unii este doar o variabilă.

06:46.340 --> 06:51.960
Unele dintre cuvintele și ideile în timp sunt lungimea actualului OK.

06:52.160 --> 06:57.860
Și apoi, odată ce am tipărit toate rezultatele bine de la terminarea jocului și dorim să începem un

06:58.220 --> 06:59.930
nou joc, vom reinițializa totul.

06:59.930 --> 07:04.170
Aceasta este suma a două cuvinte zero, lungimea unui episod la zero.

07:04.230 --> 07:10.100
Vom reînființa toate acțiunile utilizând această funcție de resetare a imaginilor de intrare pe

07:10.100 --> 07:13.360
care le cunoașteți prin repetarea tuturor pauzelor.

07:13.610 --> 07:21.980
Și în cele din urmă vom folosi de această dată că dormi 60 de secunde pentru a face o pauză de un minut pentru a permite altor

07:21.980 --> 07:22.840
agenți practica.

07:22.850 --> 07:24.810
Și dacă jocul sa terminat.

07:25.210 --> 07:25.840
O.K.

07:25.940 --> 07:32.210
Și în final avem această ultimă linie de cod care ne va aduce noul stat și apoi putem merge mai departe.

07:32.240 --> 07:34.550
Putem continua în acest nou joc.

07:34.550 --> 07:35.840
Așa că mergem.

07:35.870 --> 07:37.430
Aceasta este funcția de testare.

07:37.430 --> 07:40.550
Lucruri la care veți vedea videoclipurile în unul sau două tutoriale.

07:40.550 --> 07:45.310
Sper că veți fi cu totul ca ultima dată să urmăriți rezultatele care sunt cu dvs.

07:45.350 --> 07:47.360
Curial și cu mine, care va fi distractiv.

07:47.480 --> 07:48.400
Și îți spun eu.

07:48.440 --> 07:50.330
Asteptati-va sa vedeti rezultate bune.

07:50.360 --> 07:55.130
Dar tineti minte ca acest joc de breakout a fost foarte provocator.

07:55.130 --> 07:58.430
Am crezut că a fost un simplu joc pentru a juca primul, dar nu deloc.

07:58.430 --> 08:01.480
De fapt, sa dovedit a fi mult mai dificilă decât o doom.

08:01.670 --> 08:03.890
De aceea am pus-o în ultimul modul.

08:04.190 --> 08:09.510
Dar, oricum, hai să facem această funcție principală în următorul tutorial.

08:09.590 --> 08:11.770
Același lucru nu este cel mai important aici.

08:11.780 --> 08:18.860
Acum, că A-380 este dement, nu vom codifica linia după linie, vom extinde codul și foarte repede

08:18.980 --> 08:20.570
vom obține rezultatele.

08:20.570 --> 08:22.130
Până atunci, bucurați-vă de AI.
