WEBVTT

00:00.730 --> 00:03.690
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:03.730 --> 00:07.440
În povestea de azi vorbim despre ultimul a într-un 3C.

00:07.450 --> 00:09.400
Vorbim despre avantaj.

00:09.550 --> 00:10.340
Așa că este.

00:10.360 --> 00:14.040
Am vorbit deja despre criticul actorului și despre un sincron anterior.

00:14.260 --> 00:20.500
Așa că a construit o cale către ceea ce vom privi astăzi și cu avantajul că vom pune

00:20.500 --> 00:21.560
totul împreună.

00:21.730 --> 00:28.750
Deci, așa am ajuns până în prezent, avem o rețea neuronală împărtășită între agenții agenți asincroni și apoi

00:28.840 --> 00:33.550
avem criticul care este de asemenea împărțit între vârstă și așa.

00:33.580 --> 00:36.490
Cum funcționează acest lucru și de ce este distribuit acest critic între agenți.

00:36.500 --> 00:37.390
Să aruncăm o privire la asta.

00:37.600 --> 00:42.250
Bine înțelege mai bine că vom examina un exemplu pe care îl vom examina de exemplu pentru acest agent și vom vedea ce

00:42.280 --> 00:46.730
se întâmplă atunci când este într-o anumită stare și trebuie să ia o decizie cu privire la ce acțiune să joace.

00:46.840 --> 00:53.890
Deci, acest agent este într-o stare în care vede această imagine și apoi ceea ce se întâmplă este că această informație intră

00:53.980 --> 00:59.200
în rețeaua neuronală pe care o duce la bara convoluționară, apoi merge în bara de piscină,

00:59.200 --> 01:04.330
apoi intră în bara de aplatizare și apoi de acolo intră în straturile ascunse ale

01:04.330 --> 01:09.870
rețelei neuronale și apoi, ca ieșire, devine toate aceste valori de politică pe care le valorificați politica.

01:09.970 --> 01:14.160
Și, de asemenea, primește valoarea criticului.

01:14.230 --> 01:21.640
Și așa cum știm rețelele neuronale pentru a funcționa, trebuie să propageze anumite erori sau pierderi

01:21.640 --> 01:22.720
prin rețea.

01:22.720 --> 01:29.020
Deci, în acest fel, pentru a actualiza greutățile, ceea ce așteaptă sau nu, cu ce pierderi vom avea de-a face cu

01:29.080 --> 01:29.520
aici.

01:29.590 --> 01:30.540
Ei bine, suntem două pierderi.

01:30.540 --> 01:32.970
Avem pierderea de valoare și postările.

01:32.980 --> 01:38.360
Deci pierderea de valoare este legată de pierderea parțială a valorii este legată de grupuri și este atât de valoroasă.

01:38.400 --> 01:41.080
Am rezolvat deja problema.

01:41.260 --> 01:48.850
Știm că avem recompense și știm că avem un factor de reducere, deci practic este foarte asemănător

01:48.850 --> 01:54.690
cu ceea ce am vorbit despre transformarea în tutoriale de învățare profundă.

01:54.730 --> 02:03.190
În principiu, rețeaua prezice o anumită valoare V și, în același timp, putem estima ce ar trebui să se bazeze pe ceea ce știm despre mediul

02:03.190 --> 02:09.160
înconjurător până în prezent putem să apreciem ce ar trebui să fie valoarea în stare și comparând cele

02:09.190 --> 02:13.350
două putem calcula valoarea pierderea și apoi înapoi rețeaua de propagator actualizează

02:13.360 --> 02:13.730
greutățile.

02:13.870 --> 02:17.670
Deci, asta e legătura cu noul lucru aici, este pierderea politicii.

02:17.770 --> 02:21.700
Și, deci, ce este această pierdere de politică și cum funcționează?

02:21.700 --> 02:28.960
Ei bine, aceasta este partea în care această situație în care criticul este împărțită între actori sau

02:28.960 --> 02:32.520
între agenți va apărea în cele din urmă.

02:32.590 --> 02:38.920
Deci, pentru a înțelege pierderea de palsu, trebuie să introducem o valoare numită Advantage, prin urmare numele acestei

02:39.340 --> 02:45.460
părți a povestii pe această parte a Salyut este avantajul și avantajul este calculat ca Q al

02:45.480 --> 02:47.900
unui A minus V din s.

02:47.920 --> 02:54.550
Deci, practic, valoarea Q sau că ați ales să jucați toată acțiunea pe care ați ales să o jucați în starea în care

02:54.550 --> 02:57.420
vă aflați în starea S minus valoarea acelei stări.

02:57.640 --> 03:00.670
Deci aceasta este diferența dintre cele două și se numește asta.

03:00.670 --> 03:04.950
Și avantajul este folosit la calculul impulsului.

03:04.990 --> 03:10.510
Acum nu vom intra în formula calculului fără puls, deoarece este destul de complexă pe care o folosește

03:10.710 --> 03:12.860
entropia sau dacă nu puteți folosi entropia.

03:12.990 --> 03:17.020
Nu vom diseca această formulă, dar vom înțelege acest lucru la un nivel intuitiv.

03:17.020 --> 03:21.470
De ce facem acest lucru de ce calculăm acest avantaj și cum ne va ajuta?

03:21.640 --> 03:24.190
Să aruncăm o privire la această premisă pentru o secundă.

03:24.190 --> 03:33.040
Valoarea Q vine de la ceea ce a prezis rețeaua neuronală pentru acest agent și astfel de predicție în această acțiune specifică în această

03:33.040 --> 03:37.840
stare specifică pentru acțiunea pe care o poate juca, astfel că are aceste

03:38.110 --> 03:45.790
acțiuni și poate glisa una dintre ele și o poate juca bine, în timp ce valoarea Wii este valoarea dictată de

03:45.790 --> 03:46.480
critic.

03:46.480 --> 03:52.320
Este valoarea pe care o avem aici în această parte comună și asta este cheia aici că această parte

03:52.330 --> 03:56.310
este împărtășită atât de pauză critică pentru că așa se face creditul.

03:56.470 --> 04:01.300
Pentru că avem o valoare pe care o alegem sau acțiunea pe care o alegem să o jucăm pentru acest agent în

04:01.300 --> 04:01.930
acea stare.

04:01.990 --> 04:09.340
Dar atunci criticul ne poate spune care este valoarea cunoscută a acelei stări, ceea ce este în general valoarea cunoscută

04:09.340 --> 04:15.790
pentru întregul grup de agenți care joacă împreună, deoarece împărtășirea lor nu răspunde deoarece originalul B pentru că

04:15.820 --> 04:21.280
împărtășește criticul toți aceștia contribuie la aceste valori v care sunt calculate pentru un set

04:21.280 --> 04:25.690
diferit, astfel încât întregul a. z algoritmul spune OK.

04:25.690 --> 04:34.060
Deci, criticul știe o valoare v cu cât valoare este mai bună valoarea q pe care o alegeți în comparație cu

04:34.060 --> 04:35.290
valoarea v cunoscută.

04:35.350 --> 04:36.480
Asta spune.

04:36.640 --> 04:37.930
Deci asta este în esență.

04:37.930 --> 04:45.430
Așa că voi selecta o valoare q aici, bazată pe politica mea bazată pe faptul dacă orice vom folosi ca o funcție de

04:45.700 --> 04:50.150
soft max sau pe o politică Epsilon Grealy sau ceva de genul asta.

04:50.170 --> 04:55.660
Și bineînțeles că vom ieși din explorare și exploatare combinate acolo, dar am selectat valoarea

04:55.660 --> 04:59.260
Q și acum întrebarea este ce este în plus.

04:59.290 --> 05:05.820
Ce înseamnă aceia care cer scuze care este avantajul pe care îl aduce acțiunea aleasă în comparație cu

05:05.820 --> 05:12.480
valoarea cunoscută a acelei stări și care este esența avantajului și în esență atunci este folosit pentru a calcula

05:12.480 --> 05:17.940
pierderea politicii și atunci pierderea politicii este apoi propagată înapoi prin reîntoarcerea la rețea.

05:17.940 --> 05:23.910
Deci, ambele sunt înapoi propagate printr-o rețea și greutățile sunt ajustate pentru ca rețeaua să reprezinte

05:23.910 --> 05:28.280
mai bine valoarea criticului și, de asemenea, este partea de sus.

05:28.410 --> 05:33.030
Dar, de asemenea, această parte a cheii aici este că valoarea greutăților sunt bakra.

05:33.120 --> 05:40.530
Atunci când aceste post-birouri înapoi uita că ratele sunt ajustate în așa fel încât acest avantaj să fie maximizat, ca

05:40.590 --> 05:46.200
și cum ar fi acea parte intuitivă a înțelegerii intuitive a faptului că suntem

05:46.350 --> 05:52.010
din nou această politică a trecut prin rețea pentru a ajuta la maximizarea acest avantaj.

05:52.050 --> 05:57.660
Și ceea ce înseamnă asta este în esență faptul că atunci când un agent întâlnește acțiuni rele ca acțiunile în

05:57.660 --> 06:00.930
care valoarea q este mai mică decât valoarea cunoscută pentru stat.

06:00.930 --> 06:07.110
Deci, practic, întregul algoritm ATC știe că valoarea pentru stat este ceva X și apoi dintr-o dată ai dat

06:07.110 --> 06:11.690
peste o acțiune foarte proastă și tu ai făcut-o și ai ales pentru acțiune.

06:11.700 --> 06:17.130
Și ceea ce înseamnă pentru entuziasm este că bine de ce am face ceva de genul asta atunci când este mai

06:17.130 --> 06:21.960
rău decât noi deja ceea ce știm deja despre acest mediu întreg și ce ar fi putut face.

06:22.080 --> 06:23.500
Deci nu ar trebui să facem mai mult din asta.

06:23.610 --> 06:27.670
Și, prin urmare, greutățile sunt doar într-un fel, astfel încât acest lucru se întâmplă este mai rar.

06:27.690 --> 06:29.900
Deci, acest lucru se întâmplă mai rar.

06:30.300 --> 06:33.430
Deci, este un eveniment mai puțin frecvent în care alegem acea acțiune rea.

06:33.510 --> 06:38.880
Pe de altă parte, dacă alegeți o acțiune foarte bună în cazul în care valoarea q este mai mare decât

06:39.050 --> 06:43.220
V sau mult mai mare decât atunci când în timpul acestei retransmiteri a pierderii poloneze

06:43.230 --> 06:50.780
prin rețea, greutățile vor fi actualizate și astfel într-adevăr să se consolideze încurajați-vă să vă asigurați că se va întâmpla din nou, astfel încât greutățile să fie ajustate

06:50.790 --> 06:55.140
astfel încât algoritmul de atrezie să se gândească bine, încât să se răcească într-adevăr că

06:55.140 --> 06:56.790
Wantage era foarte mare acolo.

06:56.880 --> 07:03.750
Ar trebui să fac mai mult din acest lucru și, prin urmare, veți actualiza greutățile într-un mod care va avea o probabilitate mai mare

07:03.750 --> 07:05.550
să apară în viitor acea acțiune.

07:05.560 --> 07:13.080
Deci, și de aceea știți că modul în care rețeaua încet încet se adaptează încet și încearcă să se

07:13.080 --> 07:19.770
construiască în ceva care, pe de o parte, calculează corect valoarea și apoi pe de altă parte

07:19.770 --> 07:21.990
sau cât mai corect posibil.

07:21.990 --> 07:28.330
Și, pe de altă parte, încurajează sau are acțiuni care au un mare avantaj.

07:28.380 --> 07:30.570
Așa că mergem, asta e partea asta.

07:30.570 --> 07:35.930
Și acum, să aruncăm o privire la altul doar pentru a consolida ceea ce am discutat doar în topul 1.

07:36.000 --> 07:37.210
Deci, același lucru aici.

07:37.350 --> 07:45.330
Agențiile de vârf o situație în care un stat se află într-un stat și apoi trebuie să decidă ce să facă, deoarece aceste informații

07:45.330 --> 07:50.100
către rețelele din această imagine utilizează internetul pentru a le convoluționa că le trag

07:50.100 --> 07:56.290
aplatizarea Lehre merge în straturile ascunse și apoi de aici vom obține o ieșire primim valorile acute ale politicii

07:56.310 --> 08:00.960
pe care le obținem din nou valorile V același lucru avem două pierderi.

08:00.960 --> 08:05.240
Avem pierderea de valoare, care este aici pierderea poloneză care este aici pierderea de valoare.

08:05.250 --> 08:06.830
Știm deja cum se calculează.

08:06.960 --> 08:10.950
Când am discutat acest lucru în învățarea profundă Q și discutăm doar chiar acum.

08:10.950 --> 08:17.340
Așa a fost calculată valoarea și apoi pierderea politicii din nou pentru a calcula ceea ce nu vom merge

08:17.340 --> 08:18.370
pentru el.

08:18.390 --> 08:25.530
Dar, la un nivel intuitiv, calculam acel avantaj care este bine, deci am luat o anumita actiune pe care am ales o anumita actiune

08:25.530 --> 08:31.140
bazata pe politica noastra de selectie, fie ca este vorba de soft Max, fie ca este lacomi lacomi

08:31.170 --> 08:34.470
sau ca orice alta politica sociala pe care o folosim.

08:34.620 --> 08:42.630
Și apoi care este acțiunea pe care am făcut-o Acum, să o comparăm cu cunoscuta și valoarea statului care vine de la criticii împărțiți, astfel încât

08:42.630 --> 08:47.670
acest critic este un fel de genul dacă credeți că este un fel de observare

08:47.670 --> 08:52.950
a tuturor acestor agenți în același timp caută la această singură privire la aceasta, toți aceștia contribuie

08:52.950 --> 08:58.140
la un critic pentru a determina criticul să se grăbească cu mediul înconjurător pentru a se

08:58.380 --> 09:03.600
asigura că criticul este reprezentativ pentru ceea ce se întâmplă în mediul actual, astfel încât greutățile.

09:03.660 --> 09:10.170
Aceasta este situația în care apare pierderea de valoare, astfel încât greutățile rețelei neuronale reale reflectă foarte

09:10.260 --> 09:17.700
bine situația actuală a lucrurilor din mediul înconjurător, astfel încât acestea să se poată baza pe această valoare și

09:17.700 --> 09:20.090
apoi să o folosească aici.

09:20.090 --> 09:21.550
Și așa mai departe.

09:21.720 --> 09:26.880
Deci, toți acești agenți toți acești agenți contribuie la acest critic.

09:26.880 --> 09:32.850
Dar, în același timp, prin intermediul acestui fără valoare, dar în același timp, criticul

09:32.850 --> 09:35.490
respectă deciziile sau politicile acestor agenții.

09:35.490 --> 09:39.960
Este ca si cum ar fi ca sa ma uit inapoi la asa cum incerc sa atrag ca o sageata pe stalpi o

09:39.960 --> 09:40.740
sageata si o sageata.

09:40.830 --> 09:45.780
Privind înapoi la ele la decizia pe care o fac sunt criticarea acestor decizii prin acel avantaj și

09:45.780 --> 09:50.210
spunând că ați făcut o decizie pe care ați ales-o pentru că ați ales această acțiune.

09:50.220 --> 09:51.240
Grozav.

09:51.240 --> 09:56.570
Acum, să calculăm avantajul sau dezavantajul fermei este egal cu faptul că știi că valoarea Q ar

09:56.590 --> 10:04.040
fi putut să ia decizia pe care am luat-o sau alegerea pe care am făcut-o pentru cea pe care am făcut-o să o ia minus

10:04.100 --> 10:05.100
valoarea cunoscută criticului.

10:05.110 --> 10:06.470
Nu despre critic.

10:06.470 --> 10:12.010
Deci Kalika diferența dacă este o diferență mică sunteți polonez atunci atunci când vă poloneză pierderile înapoi propagate prin rețea

10:12.020 --> 10:16.580
modul în care acesta va fi ajustat va încuraja greutățile care urmează să fie ajustate

10:16.580 --> 10:22.010
în așa fel încât acest lucru nu se întâmplă din nou că valoarea Q sau valoarea Q va fi

10:22.010 --> 10:28.910
mai mică, astfel că, deoarece politica noastră selectează acțiunile bazate pe valorile q, cu cât este mai mare valoarea Q, cu atât va fi

10:28.910 --> 10:30.560
mai probabil să fie selectată.

10:30.560 --> 10:35.210
Deci, dacă am fi folosit ca o politică arc Max, atunci vom selecta întotdeauna una dintre cele mai înalte pe măsură ce vă

10:35.360 --> 10:38.870
amintiți că am discutat acest lucru, atunci vom selecta întotdeauna cel cu cea mai mare valoare.

10:38.870 --> 10:43.790
Dar, de fapt, am folosit o abordare probabilistică pe care o foloseam ca un soft moale sau o

10:43.790 --> 10:44.420
politică lacomă.

10:44.540 --> 10:49.220
Și apoi selectam de fapt unde putem selecta oricare dintre ele, dar cu cât cubul este mai mare cu atât mai bine.

10:49.220 --> 10:55.310
Deci, dacă am selectat ceva și apoi avantajul a fost foarte scăzut, atunci bomba va fi adăugată

10:55.310 --> 11:01.970
în așa fel încât data viitoare valoarea acelei acțiuni va fi mai mică și poate că altceva va fi

11:01.970 --> 11:02.910
mai mult.

11:02.960 --> 11:09.770
Deci, așa este divizat și, pe de altă parte, dacă vom selecta ceva în care acest avantaj va fi

11:09.770 --> 11:15.050
ridicat, atunci acesta va merge în legile de politică și apoi în rețele și

11:15.060 --> 11:19.590
îl actualizăm astfel încât să fie mai frecvent observat eveniment scenariu.

11:19.640 --> 11:26.300
Și, de fapt, această întreagă pierdere poloneză ajută rețeaua să se adapteze sau să se transforme în așa fel încât să o facem.

11:26.300 --> 11:31.620
Morală a lucrurilor bune bune acțiuni bune și lucruri bune și face mai puține lucruri rele.

11:31.700 --> 11:35.040
Și așa intră în joc aceste două pierderi și așa se întîmplă.

11:35.120 --> 11:41.800
Așadar, sperăm că acest lucru se limpezește într-un mod foarte intuitiv, desigur că nu am intrat în formulele în

11:41.810 --> 11:46.930
matematica complexă din spatele tuturor acestor lucruri și ca în detaliile foarte complicate.

11:47.060 --> 11:50.940
Dar, în același timp, sperăm că în mod intuitiv într-un mod intuitiv.

11:50.990 --> 11:58.850
Toate acestea clarifică motivul pentru care avem actorul și criticul și modul în care interacționează împreună că

11:58.850 --> 12:03.780
știți că aveți acești agenți asincron sau sincron al lucrurilor.

12:03.790 --> 12:08.480
Atunci acesta este actorul și criticul dvs. și acesta este avantajul și modul în care toate acestea intră în joc.

12:08.480 --> 12:10.840
Deci aceștia sunt agenți sincroni.

12:10.850 --> 12:11.920
Ei merg.

12:12.040 --> 12:18.740
Ei joacă acest lucru sau exploră mediul înconjurător și lucrează în mediul înconjurător, iar toți

12:18.740 --> 12:26.720
contribuie cu totul la un critic care își respectă apoi politicile, respectând actorii, ceea ce se numește acest

12:26.720 --> 12:27.400
lucru.

12:27.560 --> 12:34.610
Și prin intermediul acestei avantaje și, prin urmare, vinerea, aceasta reprezintă o pierdere și apoi o pierdere de politică și valoare

12:34.610 --> 12:38.210
sau o propagare înapoi la rețeaua doar pentru a face.

12:38.240 --> 12:43.540
Pe de o parte, reprezintă adevăratul mod de lucruri în mediul înconjurător.

12:43.580 --> 12:47.630
O altă mână pentru a îmbunătăți performanțele actorilor.

12:47.930 --> 12:48.410
Așa că mergem.

12:48.410 --> 12:52.800
Asta e o recapitulare rapidă a intuiției pe care am discutat-o.

12:52.790 --> 12:58.550
Încă o dată, sperăm că totul se va reuni la un nivel intuitiv și, bineînțeles, în tutoriale

12:58.550 --> 13:04.880
practice. Vom vorbi mai multe despre cum funcționează toate acestea în Atlanta, vă vom trece prin acest proces de construire

13:04.880 --> 13:05.560
a proprietarilor.

13:05.570 --> 13:11.240
Dar având această imagine în mintea ta și acest fel de fel ca o foaie de parcurs a tot ceea ce

13:11.240 --> 13:17.240
vine împreună va fi bine ar trebui să fie Sper că va fi foarte util pentru tine de a naviga mai bine partea

13:17.240 --> 13:18.160
practica a lucrurilor.

13:18.290 --> 13:25.710
Iar în ceea ce privește lectura suplimentară pentru astăzi, avem două elemente, astfel că prima este în avantaj.

13:25.760 --> 13:32.480
Deci, aici avem controlul continuu demodal continuu folosind estimarea avantajului generalizat de John Shulman și aceasta este

13:32.480 --> 13:38.930
o imagine a unei figuri de tip stick ridicându-se ca și cum ar fi în picioare.

13:38.930 --> 13:44.030
Și aici puteți găsi mai multe avantaje și avantaje și veți găsi toate tipurile de

13:44.030 --> 13:44.960
avantaje diferite.

13:44.990 --> 13:50.870
Ai avantajul general în estimare și ai avantaje pe care le folosești de fapt

13:51.110 --> 13:56.360
în formularele din calcule, deci dacă vrei să afli mai multe despre

13:56.360 --> 14:05.330
avantaj și exact cum funcționează formulele din spatele ei și unele dintre elementele sau formulele superioare de sus și fără găuri în

14:05.330 --> 14:06.810
spațiul acestui avantaj.

14:06.830 --> 14:08.700
Am discutat despre ele.

14:08.720 --> 14:10.140
Acesta este articolul la care trebuie să mergem.

14:10.490 --> 14:19.880
Și încă un alt element sau lucrare pe care vrem să vă reamintim este blog-ul o serie de postări de blog de

14:19.990 --> 14:24.350
Arthur Giuliani despre care am menționat deja de câteva ori.

14:24.350 --> 14:28.010
Aceasta este o parte opt, care este în special despre A-3 mare.

14:28.280 --> 14:33.280
Deci, aici puteți obține o explicație mai mică.

14:33.650 --> 14:38.900
Deci, cu un pic mai mult matematică despre ceea ce se întâmplă și poate că puteți să ridicați câteva lucruri suplimentare

14:38.900 --> 14:39.420
de aici.

14:39.440 --> 14:45.470
Doar două lucruri pe care trebuie să le țineți minte, în primul rând, ca întotdeauna acest blog este urmăritorii intenți pe care le folosim

14:45.470 --> 14:46.130
cu torța.

14:46.130 --> 14:46.840
Așa că ține minte.

14:46.840 --> 14:53.330
Și al doilea lucru este că felul în care ne-am structurat abordarea este că am vorbit mai întâi despre critic activ, apoi

14:53.960 --> 14:55.730
am vorbit despre un sincron.

14:55.730 --> 15:03.040
Apoi am vorbit despre avantaj, în timp ce în logul primelor discuții ale lui Arthur despre un sincron, un critic al actorului este

15:03.050 --> 15:07.260
un avantaj, deci păstrați-l în minte, astfel încât, sperăm, să nu vă arunce.

15:07.340 --> 15:10.480
Dar, altfel decât este, desigur, este o mare bucată de conținut.

15:10.490 --> 15:14.510
Și vă recomandăm să o verificați pentru informații suplimentare.

15:14.780 --> 15:16.840
Deci, sperăm să ne bucurăm de tutorialul de astăzi.

15:16.880 --> 15:18.710
Și aștept cu nerăbdare să vă văd data viitoare.

15:18.710 --> 15:20.240
Până atunci, bucurați-vă.

15:20.260 --> 15:20.520
I.