WEBVTT

00:00.720 --> 00:03.210
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:03.210 --> 00:08.400
Astăzi vorbim despre prima parte a lui A-3, vezi rolul critic al actorului.

00:08.400 --> 00:10.540
Așa că avem un avantaj sincron.

00:10.550 --> 00:12.380
Actor algoritm critic.

00:12.420 --> 00:15.440
Și vom vorbi despre asta a subliniat Akrotiri.

00:15.570 --> 00:17.210
Acolo vom începe.

00:17.400 --> 00:21.960
Poți începe din punct de vedere tehnic oriunde, dar are mai mult sens pentru a

00:22.320 --> 00:29.640
porni de la un critic, pentru că așa vom avea ca o explicație foarte consecutivă a înțelegerii intuitive a ceea ce se întâmplă, ne

00:29.640 --> 00:30.470
va facilita.

00:30.480 --> 00:33.970
Dar dacă începem să surprindem încă la sfârșitul acestei aberații.

00:34.170 --> 00:41.840
În acest moment, în acest curs, am învățat o condiție profundă de învățare Kule, care este ilustrator aici, așa

00:41.880 --> 00:48.780
că avem calculatorul văzând pixelii, astfel încât imaginea și pixelii reali nu sunt doar un vector.

00:48.780 --> 00:53.610
Așa că nu este înșelător este de fapt să vedem exact ceea ce vede un om vede că

00:53.610 --> 01:00.540
monstrii vede sănătatea pe care o vede parametrii din partea de jos vede cardul sau vede arma este exact același lucru pe care un om îl

01:00.540 --> 01:03.080
va vedea atunci când joacă acest lucru joc.

01:03.090 --> 01:09.450
Apoi, această imagine este trecută printr-un șanț convoluțional și apoi este trecut printr-un lariat de tragere și

01:09.450 --> 01:16.380
se întinde într-o rețea neuronală și apoi la ieșire avem acțiuni cum ne amintim că avem acele valori de

01:16.380 --> 01:20.270
cub, atunci aplicăm o politică de selecție a acțiunii lor.

01:20.270 --> 01:24.540
De exemplu, aplicăm un soft Max și aflăm ce acțiune vrem să luăm.

01:24.540 --> 01:28.470
Și așa se întâmplă ceva explorări și exploatări.

01:28.470 --> 01:29.860
Există o combinație a celor două.

01:30.270 --> 01:33.480
Deci, funcționează cât de profundă învățare amuzantă.

01:33.640 --> 01:34.980
Dar acum să vedem ce vom face cu asta.

01:34.970 --> 01:39.510
Deci, din simplitate, doar pentru ca este mai usor sa ne operam este pentru ca noi vom incerca sa

01:39.510 --> 01:41.770
ajustam aceasta imagine si sa o mutam in jur.

01:41.790 --> 01:46.490
Vom înlocui cercurile cu pătrate cu aceste sau cu cutiile dreptunghiulare.

01:46.560 --> 01:53.190
De asemenea, vom scăpa de aceste linii și de a le schimba doar la săgeți, astfel încât acest lucru

01:53.190 --> 01:54.440
nu schimbă esența.

01:54.450 --> 01:56.590
Aceasta este doar reprezentarea pe această diagramă.

01:56.610 --> 02:01.620
Aceasta este încă chiar această reprezentare este încă profund convoluție Kule de învățare este doar pentru a fi

02:01.620 --> 02:05.520
mai ușor pentru noi să-l modifice și să arate exact ceea ce este.

02:05.520 --> 02:08.820
Deci așa vom reprezenta lucrurile de aici.

02:08.820 --> 02:13.070
Și ceea ce face sau această parte specifică începe astfel.

02:13.080 --> 02:16.680
Amintiți-vă că începem ca pas cu pas să începem cu partea critică activă.

02:16.680 --> 02:23.490
Așa că vom vedea cum mergem de la învățarea profundă a Kule de la A-3, a vedea pas cu pas și primul pas, vom

02:23.490 --> 02:27.520
introduce acest critic al actorului PARTOVI aici, așa că vom vorbi despre asta.

02:27.750 --> 02:32.490
Deci, primul lucru care se întâmplă este ultimul.

02:32.640 --> 02:36.990
Rezultatul este de fapt că o să redesemnăm așa, așa că este exact

02:36.990 --> 02:40.350
aceeași ieșire exact aceleași valori q sunt exact aceeași acțiune.

02:40.350 --> 02:45.810
Deci dacă el ar avea opt acțiuni posibile, aveți încă opt acțiuni posibile, care le vor pune în vârf, astfel încât

02:45.810 --> 02:50.280
acestea să ia mai puțin spațiu, așa că nimic până acum nu sa schimbat nimic până acum.

02:50.280 --> 02:52.080
Acest lucru este exact același lucru.

02:52.080 --> 02:55.080
Dar acum aici vine partea critică activă.

02:55.110 --> 02:56.580
Vom avea oa doua ieșire.

02:56.580 --> 03:02.460
Vom avea primul ca un set de rezultate și aici vom avea o producție individuală separată, astfel

03:02.460 --> 03:06.040
încât din punct de vedere tehnic vom folosi rețeaua neurală.

03:06.040 --> 03:08.310
Deci o dată pe oră.

03:08.340 --> 03:14.720
Sau imaginea și tot felul de valori trec prin rețea de la stânga la dreapta aici.

03:14.730 --> 03:17.910
Ei nu scuipă doar un set de valori care scuipă de fapt două seturi.

03:17.910 --> 03:23.910
Și astfel, partea de sus a spus că știm cu adevărat ce acțiuni este posibil, dar aici vom avea de fapt o

03:23.910 --> 03:26.970
altă valoare suplimentară, așa că să aruncăm o privire la asta.

03:27.000 --> 03:28.430
Care este acea valoare.

03:28.620 --> 03:31.260
Deci, aici mergem pe partea de sus.

03:31.380 --> 03:35.190
Așadar, am dori să reducem mărimea acestei ilustrații.

03:35.340 --> 03:41.210
Performanța de vârf este valorile cubului așa cum am discutat anterior pentru acțiuni.

03:41.220 --> 03:42.500
Deci sunt același lucru.

03:42.510 --> 03:43.240
Totul este același.

03:43.410 --> 03:47.640
Dar atunci această parte de jos și partea superioară sunt de fapt numite X sau îi

03:47.640 --> 03:53.400
vom da un nume care este actorul, deoarece aceasta este partea în care agentul alege ceea ce vrea să facă astfel încât

03:53.400 --> 03:59.160
să fie ca și cum ar acționa ca și cum interpretează pe scenă și va avea mai multă sens când vom avea

03:59.160 --> 04:00.730
al doilea nume pe ecran.

04:00.900 --> 04:08.120
Și apoi a doua ieșire este la fel ca o valoare și este V de S, deci este valoarea statului.

04:08.130 --> 04:16.800
Deci, dacă q din S este Q al lui A este valoarea q a unei anumite acțiuni și după cum puteți vedea de aceea există acțiunea o singură acțiune două acțiuni trei sunt

04:16.980 --> 04:21.450
la acțiune șase sau mai mult, ceea ce înseamnă că acțiunile care ar putea exista în

04:21.450 --> 04:22.030
acea stare.

04:22.030 --> 04:28.410
Deci într-o anumită stare s Care este valoarea q a acțiunii o acțiune la acțiune o acțiune și așa mai departe.

04:28.460 --> 04:34.900
Apoi aici, de asemenea, ne prezicem că folosim și rețeaua neuronală pentru a anticipa care

04:34.900 --> 04:40.620
este valoarea stadiului în care ne aflăm și această parte este numită critic.

04:40.820 --> 04:47.070
Și deci este intuitiv pentru un fel de intuitiv nici măcar intuitiv, care este la fel ca începutul intuiției

04:47.880 --> 04:53.260
din spatele actorului, care prezice că acum există două ieșiri din rețeaua neurală, nu doar una.

04:53.380 --> 04:56.470
P înainte să-l avem pe cel care a depășit ceea ce numim acum acțiunea.

04:56.470 --> 04:59.040
Dar acum avem două ieșiri Akshara și critic.

04:59.250 --> 05:02.320
Și va fi dinamică între ele pe care o vom explora mai departe.

05:02.370 --> 05:08.850
Dar, deocamdată, este important să înțelegem că nu prezicem doar valorile acțiunilor pe care agentul le poate lua de la starea

05:09.330 --> 05:14.100
actuală, ci și prezic valoarea valorii de a fi în acest tip de stat folosind

05:14.100 --> 05:15.750
aceeași rețea de același an.

05:15.750 --> 05:20.700
Deci, acesta este nucleul primului pas în criticul activ.

05:20.790 --> 05:24.990
Și acum va trebui să vorbim despre un sincron pe care îl vom face tutorialul

05:24.990 --> 05:30.900
următor pentru a înțelege exact ce se întâmplă între datorie și ultimul lucru pentru astăzi este că toate aceste valori-cheie, după cum

05:30.900 --> 05:32.640
știm, se numesc și Puls .

05:32.640 --> 05:39.720
Deci, într-o anumită literatură în unele bloguri și unele discuții pe care le-ați putea găsi în criticul activ pe

05:39.720 --> 05:47.400
care ați putea-o găsi autorul vorbind despre valori Cue pe partea actorului, în unele din alte articole de literatură și postări

05:47.400 --> 05:53.780
pe blog și discuții veți găsi agrah autorul vorbind despre această politică și, de obicei, utilizează utilizatorul ca

05:53.860 --> 05:59.810
o literă greacă P pentru a reprezenta politica sau doar a spune politica de stat.

05:59.970 --> 06:05.790
Deci, toate acestea sunt politica de stare a lui, deoarece, așa cum ne amintim, politica

06:05.790 --> 06:11.660
este că dacă puneți toate acțiunile împreună acțiunile posibile și apoi decideți ce acțiune să faceți.

06:11.660 --> 06:15.400
Deci, acestea vor fi ca probabilitatea de a lua fiecare acțiune, astfel că aceasta este politica.

06:15.540 --> 06:19.410
Deci, nu fi aruncată dacă vedeți una sau cealaltă.

06:19.410 --> 06:21.090
Înseamnă în esență același lucru.

06:21.090 --> 06:24.720
Deci, pe de o parte, aici aveți politica sau valorile q, pe de altă parte, aveți valoarea

06:24.720 --> 06:27.620
reală a statului și sunt anticipate din acel an în acel an.

06:27.750 --> 06:31.770
Deci, acesta este începutul criticului activ va continua acest lucru în următorul tutorial atunci când

06:31.770 --> 06:34.320
vorbim despre un sincron și căutați să vedeți acolo.

06:34.380 --> 06:35.910
Până atunci bucurați-vă de.