WEBVTT

00:00.450 --> 00:02.520
Bună ziua și bun venit la acest tutorial.

00:02.520 --> 00:06.140
Acum, avem AI-ul nostru gata să fim pregătiți.

00:06.330 --> 00:09.660
Și primul pas al antrenamentului este de a ne reda experiența.

00:09.900 --> 00:11.330
Așa că ajungem încet.

00:11.340 --> 00:16.690
Formarea și vestea bună este că avem o versiune implementată a reluării experienței.

00:16.830 --> 00:23.490
În afară de aceasta este adaptat la urmărirea eligibilității pe care o reamintesc este o tehnică care, în loc să

00:23.490 --> 00:27.160
învețe valorile q, fiecare tranziție o învață la fiecare 10 tranziții.

00:27.210 --> 00:29.460
Deci, practic este exact la fel ca înainte.

00:29.490 --> 00:35.190
Dar, în loc să avem o singură țintă un singur cuvânt pentru fiecare pas, vom avea o țintă cumulativă de

00:35.190 --> 00:40.770
zece pași și o recompensă cumulativă de 10 pași și vom învăța de fiecare dată câte 10 pași.

00:40.980 --> 00:44.960
Așadar, învățăm pe tranziții cu 10 pași în loc de unul ca înainte.

00:45.180 --> 00:50.440
Și cu asta voi face minuni și asta va face unele minuni pentru procesul de instruire.

00:50.440 --> 00:52.570
Știți că antrenamentul va dura mult mai puțin timp.

00:52.620 --> 00:58.850
Datorită acestei tehnici, trebuie să specificăm reluarea lipsa de experiență pe care o învățăm la fiecare 10 pași.

00:58.980 --> 01:04.230
De aceea, repetarea acestei experiențe nu este o implementare clasică a reluării experienței.

01:04.320 --> 01:06.160
Ca și pentru mașina de auto-conducere.

01:06.210 --> 01:12.540
Este o implementare a reluării experienței, luând în considerare aceste 10 pași de învățare și, prin urmare, veți găsi

01:12.540 --> 01:19.110
în această experiență fișierul de replay două clase de o clasă care face ca progresul dvs. AI să facă zece

01:19.110 --> 01:23.460
pași, astfel încât să rezume recompensele sunt observate pe acești 10 pași.

01:23.460 --> 01:28.430
Aceasta este prima clasă și avem nevoie de această clasă pentru că trebuie să includeți acești 10 pași

01:28.430 --> 01:33.570
în clasa de memorie replay, care este aplicația pentru sala de clasă pentru experiența pe care o jucăm, și

01:33.630 --> 01:38.020
astfel asigurăm că memoria ia în considerare și faptul că suntem învățare pe 10 pași.

01:38.040 --> 01:42.660
De aceea veți găsi două clase în această implementare a replay-ului de experiență, dar asta

01:42.660 --> 01:49.070
înseamnă doar să țineți cont de faptul că învățăm în 10 pași și care trebuie luați în considerare și în memorie.

01:49.410 --> 01:51.940
Deci, vorbind despre memoria noastră, să o creăm.

01:51.970 --> 02:00.150
Vom numi memoria noastră de memorie și memoria va fi un obiect al memoriului replay al memoriei, iar clasa de memorie

02:00.570 --> 02:04.900
replay este o clasă a acestei replay-uri de experiență chiar acum.

02:05.070 --> 02:14.430
Și așa că iau mai întâi această experiență repetată experiență experiență și asta este locul în care am lua clase de memorie

02:15.180 --> 02:15.880
relua.

02:15.960 --> 02:16.840
Perfect.

02:16.890 --> 02:23.460
Și acum puteți vedea că trebuie să punem două argumente, primul argument fiind și pașii care corespund

02:23.640 --> 02:27.540
exact numărului de pași pe care vom învăța valorile-cheie.

02:27.540 --> 02:32.090
Deci știi numărul de pași pe care acumulăm ținta și dorim.

02:32.180 --> 02:37.290
Vom avea o țintă cumulativă și o recompensă cumulativă, iar al doilea argument

02:37.290 --> 02:39.840
este capacitatea care este dimensiunea memoriei.

02:39.840 --> 02:42.650
De exemplu, aici putem vedea zece mii.

02:42.810 --> 02:48.270
Deci, dacă capacitatea este egală cu 10000, înseamnă că atunci vom avea o dimensiune de 10000

02:48.270 --> 02:54.210
și, prin urmare, asta înseamnă că vom obține o amintire a celor 10000 de pași făcuți de ochi.

02:54.390 --> 02:57.390
Dar din nou nu vom învăța fiecare tranziție.

02:57.390 --> 03:02.690
Vom învăța fiecare zece pași de-a lungul ultimilor 10000 pași ai memoriei și aceasta este exact noua

03:02.700 --> 03:06.100
caracteristică pe care o introducem aici în comparație cu înainte.

03:06.180 --> 03:12.480
Înainte să avem doar un truc de memorie reluată și aici avem acest truc de memorie reluată, plus acest truc pe care

03:12.570 --> 03:16.920
l-am învățat la fiecare zece pași și vom învăța fiecare zece pași și o vom

03:16.920 --> 03:20.000
face în memoria compusă din ultimii 10000 de pași.

03:20.190 --> 03:27.810
Și acest lucru este replay experiență combinate cu trăsături de neeligibilitate cu 10 pași va îmbunătăți considerabil

03:27.810 --> 03:29.240
performanța de formare.

03:29.490 --> 03:31.130
Deci, să terminăm cu aceste două argumente.

03:31.200 --> 03:35.900
Primul este și pași și va fi egal cu.

03:36.030 --> 03:43.180
Dar pentru moment să spunem și pașii vor specifica ce pas este imediat după ce va fi de fapt un abject al

03:43.360 --> 03:49.130
celeilalte clase ale acestui fișier de reluare a experienței, care este clasa progresului treptei pas și care

03:49.140 --> 03:52.170
permite să progreseze în timpul a zece pași.

03:52.170 --> 03:57.990
Și amintiți-vă în timpul celor 10 pași pe care le vom auzi cuvintele pe cele zece pași pentru a obține recompensele cumulate

03:58.050 --> 03:59.550
pe parcursul a 10 pași.

03:59.550 --> 04:02.250
Și acesta este exact testul de eligibilitate.

04:02.250 --> 04:09.350
Deci acum ceea ce trebuie să facem este să creăm acești pași aici și îl creăm cu cea de-a doua clasă pe care o avem

04:09.360 --> 04:13.040
în acest fișier de reluare a experienței, care este un progres pas.

04:13.160 --> 04:24.430
Deci, acum vom crea pași în acest sens și acesta va fi un obiect al clasei progresului pas pe

04:24.430 --> 04:30.650
care îl vom relua din experiența pe care o jucăm.

04:30.940 --> 04:31.720
Vom merge acolo.

04:31.840 --> 04:37.160
Deci, aceasta este clasa anti-progres și acum trebuie să punem trei argumente, după cum puteți vedea că

04:37.180 --> 04:41.010
trebuie să punem mediul care este mediul în care am importat.

04:41.230 --> 04:47.680
Apoi al doilea argument este AI-ul nostru și acesta va fi, desigur, AI pe care l-am

04:47.830 --> 04:55.550
construit chiar aici în U. S. iar ultimul argument este pasul în acest caz, unde vom specifica că vrem

04:55.570 --> 04:59.120
10 pași pe care știi să îi înveți la fiecare 10 pași care sunt la fiecare 10 tranziții.

04:59.200 --> 05:01.140
Deci, hai să ajutăm cu aceste argumente.

05:01.180 --> 05:06.920
Primul este mediul înconjurător și asta este o doom și totul potrivit.

05:06.940 --> 05:11.700
Apoi, al doilea este AI-ul nostru de AI și că am numărat ai ai.

05:11.830 --> 05:12.720
Acesta este cel de aici.

05:12.760 --> 05:17.590
Deci, acesta este doar numele argumentului clasei treptei de progres și asta ai ai.

05:17.590 --> 05:19.730
Iată-ne pe ai ai.

05:19.750 --> 05:27.150
Cel pe care l-am construit și apoi ultimul argument este și stivă și este egal cu 10.

05:27.160 --> 05:27.910
In regula.

05:27.910 --> 05:33.670
Deci chiar acum luăm în considerare în memorie faptul că există o învățare pe 10 pași și

05:33.670 --> 05:37.210
această învățare pe 10 pași se numește urmă de eligibilitate.

05:37.240 --> 05:39.520
Deci, lucrăm cu adevărat la lucrurile avansate aici.

05:39.640 --> 05:44.160
Dar amintiți-vă că pentru că încercăm să fim Dume, nu este nimic de a face o bucată de prăjitură.

05:44.290 --> 05:47.650
Deci, avem nevoie de aceste tehnici avansate pentru a face să funcționeze.

05:47.660 --> 05:48.880
Deci acum suntem aproape gata.

05:48.880 --> 05:55.450
Înainte de a trece la pasul următor care va fi de fapt despre implementarea tăvilor LGBT,

05:55.450 --> 06:03.730
singurul lucru pe care trebuie să-l includem este capacitatea cursului și adică 10000 de bărbați, vom avea dimensiunea de 10000,

06:03.730 --> 06:11.470
ceea ce înseamnă că memoria va conține ultima 10000 de pași efectuate de AI și care ne vor permite

06:11.500 --> 06:13.810
să generăm un număr mare.

06:13.930 --> 06:16.020
După cum îmi amintesc, era o funcție simplă.

06:16.180 --> 06:22.840
Știți că memoria conține 10000 de tranziții, dar pentru a instrui ochiul, vom încerca atât de multe loturi de

06:22.840 --> 06:28.360
zece tranziții, nu unul față de 10 tranziții de data aceasta și vom încerca aceste

06:28.360 --> 06:33.490
mini-loturi de 10 tranziții în memorie compuse din cele 10000 de pași .

06:33.490 --> 06:38.770
În regulă, acum cred că suntem gata să trecem la următorul pas, care vizează implementarea

06:38.770 --> 06:39.490
urmăririi eligibilității.

06:39.520 --> 06:41.680
Așa că o să avem o aventură aici.

06:41.680 --> 06:43.690
Aceasta nu va fi o implementare simplă.

06:43.720 --> 06:47.830
Așa că ai o pauză bună și când ești gata, putem ataca asta.

06:47.920 --> 06:49.120
Și apoi bucurați-vă.