WEBVTT

00:01.090 --> 00:04.270
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.290 --> 00:07.260
Astăzi vorbim despre pedeapsa vie.

00:07.600 --> 00:13.540
În regulă, aici avem toată ecuația lui Belman și, pe măsură ce treceam prin acest

00:13.540 --> 00:20.030
curs, am devenit din ce în ce mai complexe, astfel încât până acum am adăugat deja aceste probabilități.

00:20.200 --> 00:22.930
Și, de asemenea, am adăugat factorul de actualizare.

00:22.930 --> 00:28.440
Acum vom examina în detaliu această parte a întrebării, unde avem acum răsplata.

00:28.480 --> 00:34.660
Amintiți-vă mai devreme când am vorbit despre modul în care funcționează procesul de învățare a consolidării am spus că

00:34.660 --> 00:41.290
avem un agent și că acționează în mediul înconjurător și într-un schimb sau ca urmare a faptului că devine un

00:41.320 --> 00:45.600
nou stat și care este acum și o recompensă pentru această acțiune.

00:45.610 --> 00:52.210
Ei bine, până acum, în exemplul nostru, primim recompense doar la sfârșitul fie dacă ajungem la linia de

00:52.210 --> 00:58.640
sosire, fie dacă pentru agent ajungem în groapă de incendiu, primește o plus sau o răsplată minus.

00:58.960 --> 01:05.770
Dar aceasta este o abordare foarte simplistă a învățării de consolidare și în scenariile mai realiste, veți avea probabil recompense

01:05.800 --> 01:11.380
pe parcursul călătoriei, nu doar la sfârșitul căreia ați putea avea recompense pe parcursul călătoriei.

01:11.380 --> 01:20.680
De exemplu, dacă este un AI care joacă un joc și dacă, de exemplu, este ca și cum ar fi împușcat pe cineva în stare de dispreț,

01:20.680 --> 01:26.320
s-ar putea obține puncte pentru uciderea acelui inamic sau ar putea fi un alt joc diferit.

01:26.470 --> 01:32.260
Dacă depășește o altă mașină sau ceva de genul asta numai din cauza regulilor jocului, nu

01:32.260 --> 01:39.400
datorită modului său de a analiza jocul, dar de fapt jocul este structurat într-un mod care întărește punctele sale de dăruire

01:39.400 --> 01:43.230
pentru a face anumite acțiuni chiar înainte de joc peste.

01:43.540 --> 01:49.570
Astfel, Sinatras-urile sunt foarte frecvente și nu doar în jocuri și în viața reală și de aceea vom

01:49.570 --> 01:55.120
introduce ceva similar în exemplul nostru o versiune simplificată a acesteia, dar totuși o recompensă acordată

01:55.330 --> 02:01.180
în mod continuu agentului pe tot parcursul jocului nu doar la sfârșit și modul în care o

02:01.180 --> 02:04.450
să facem este să ne uităm la celelalte plăci.

02:04.450 --> 02:10.060
Deci, acum avem doar o recompensă plus unu la plăcile finale și o recompensă minus 1

02:10.060 --> 02:11.530
la celălalt tigla finală.

02:11.800 --> 02:14.310
Dar acum vom adăuga recompense în fiecare moment.

02:14.430 --> 02:17.770
Vom adăuga o recompensă foarte mică va fi minus 0. 04.

02:17.770 --> 02:23.440
Și după cum puteți vedea că este negativ, de fiecare dată când agentul se mișcă, va primi o recompensă negativă și asta

02:23.440 --> 02:28.300
se numește o pedeapsă vie, pentru că indiferent unde merge, va primi întotdeauna această recompensă negativă, cu excepția

02:28.450 --> 02:31.000
acestor plăci finale, pentru că acesta este sfârșitul jocul.

02:31.300 --> 02:35.120
Și astfel puteți vedea recompensa chiar și pe acest țiglă este nebunie sau un puzzle.

02:35.170 --> 02:37.960
Dar asta nu înseamnă că el începe cu această recompensă.

02:37.960 --> 02:39.470
El primește numai această răsplată.

02:39.760 --> 02:44.860
Și este important să-ți amintești că își primește răsplata doar când intră într-o țiglă, așa că ori de câte ori promite o

02:44.860 --> 02:51.110
acțiune pe care o duce aici, atunci va primi această recompensă minus 0. 04 și apoi se întoarce la acest stil va primi o

02:51.130 --> 02:53.650
altă minte și 0. 04 cuvânt.

02:53.770 --> 03:00.370
Și astfel, cu cât el merge mai mult în jurul valorii de mai mult își acumulează recompensa negativă și, prin urmare, este

03:00.370 --> 03:03.870
un stimulent pentru el să termine jocul cât mai repede posibil.

03:03.890 --> 03:10.390
Și acum, haideți să ne uităm la modul în care politica noastră sau modul în care politica agenților se va schimba

03:10.420 --> 03:14.150
în funcție de valoarea pe care am stabilit-o pentru această recompensă.

03:14.410 --> 03:18.730
Deci, aici sunt patru medii și în fiecare vom explora un altul.

03:18.770 --> 03:21.070
Nu vom face calculele.

03:21.130 --> 03:25.690
Vom proiecta doar rezultatele și veți vedea că intuitiv ei fac sens total.

03:25.690 --> 03:31.820
Deci, aici avem o recompensă pentru orice ofertă de pas pentru a intra în orice stat.

03:32.050 --> 03:32.830
Este egal cu zero.

03:32.830 --> 03:36.890
Așa cum am văzut înainte, răsplata va fi Mei. 0.

03:36.910 --> 03:43.150
Pentru ceea ce am făcut doar acum știi că recompensa va fi la minus 0. 5 sau nivelul de acordare a pedepsei va fi al meu

03:43.150 --> 03:47.690
este foc deschis atât de mult vă puteți vedea aici mai mult de 10 ori mai mare.

03:47.800 --> 03:50.170
Iată-l pe Penhall care trăiește, va fi minus doi.

03:50.170 --> 03:59.050
Deci, chiar mai mult decât recompensele pe care le obțineți pentru sărituri sau chiar mai puțin decât recompensa pe care sunteți agentul devine pentru a se termina

03:59.050 --> 04:00.700
în groapă de foc.

04:00.700 --> 04:07.660
Deci, haideți să aruncăm o privire asupra modului în care acțiunile sau politica optimă pentru trecerea acestui mediu se vor schimba în

04:07.660 --> 04:09.160
funcție de această recompensă.

04:09.170 --> 04:11.560
Deci aceasta este politica noastră inițială.

04:11.920 --> 04:18.280
Și, după cum vă amintiți, am avut aceste două decizii foarte interesante, chiar și puțin ciudate, ale

04:18.280 --> 04:23.950
agentului, dar care are sens dacă poate să trăiască atâta timp cât îi place.

04:23.950 --> 04:29.530
Dacă puteți doar să călătoriți pe tot parcursul timpului în care el dorește fără a fi penalizat pentru a rămâne în viață

04:29.530 --> 04:30.430
foarte mult timp.

04:30.670 --> 04:37.630
De ce nu de ce nu ar intra doar în colțul ăsta în perete și continuă să facă asta până se va

04:37.870 --> 04:38.470
întâmpla.

04:38.470 --> 04:41.300
Se întâmplă astfel să meargă așa și apoi să se plimbe.

04:41.500 --> 04:46.120
Și același lucru este mult mai sigur pentru el să sară în perete sperând că unul dintre acestea va

04:46.120 --> 04:51.970
veni în cele din urmă și apoi el va merge la linia de sosire oricum pentru că, prin alegerea acestor două acțiuni el nu

04:51.970 --> 04:53.680
riscă să intre în foc .

04:53.690 --> 04:59.950
Acum, să vedem ce se întâmplă dacă adăugăm o recompensă recompensă negativă pentru a fi doar o viață pentru a face un pas.

05:00.270 --> 05:04.960
Deplasați-vă aici puteți vedea că acești doi s-au schimbat instantaneu.

05:04.970 --> 05:07.940
Agentul nu vrea să sară în perete.

05:07.940 --> 05:13.490
Este mult mai probabil să riscă să ajungă la focul de foc având o șansă de 10% să sară înăuntru, dar el

05:13.490 --> 05:19.400
va merge înainte, pentru că de fiecare dată când vine aici să privească aici dacă o va face și aici de fiecare dată

05:19.850 --> 05:24.620
când sare în bine efectuează o acțiune pe care o termină în această stare cu o șansă de

05:24.620 --> 05:24.990
80%.

05:25.010 --> 05:31.180
Și asta înseamnă o șansă de 80%, veți obține un minus 0. 04 răsplată, ceea ce înseamnă că o mare parte

05:31.190 --> 05:34.940
din timp el va fi obtinerea acest acumulând această recompensă negativă.

05:34.940 --> 05:41.600
Același lucru, dacă sare în perete, așteptând acel moment, când va fi mutat în mod aleatoriu

05:41.600 --> 05:42.780
la dreapta.

05:42.980 --> 05:49.340
Dacă continuă să facă acest lucru, el va acumula această recompensă negativă și rezultatul că, dacă

05:49.340 --> 05:55.670
efectuați calculele, veți vedea că rezultatul că valoarea așteptată a acestei abordări sărituri pe

05:55.670 --> 06:02.840
perete este mai rău decât riscul de a merge mai departe și, de fapt, se termină în firepit.

06:02.840 --> 06:10.230
Deci, el își schimbă deciziile în aceste două blocuri, pentru a avansa în direcția stângă, chiar dacă știe că există riscul

06:10.230 --> 06:15.320
de incendiu, pentru că acum cu cât este mai în viață, cu atât mai

06:15.320 --> 06:18.830
mult va acumula această pedeapsă vie în următorul mediu.

06:18.830 --> 06:23.720
Acum crestem Pouncey-ul vieții până la un număr mai mare de puncte Meinzer cinci și să vedem

06:23.720 --> 06:24.590
ce schimbări aici.

06:24.860 --> 06:27.220
Deci acum puteți vedea că în comparație cu acest mediu.

06:27.260 --> 06:31.740
Singurul lucru care sa schimbat aici este faptul că această săgeată indică spre dreapta.

06:32.060 --> 06:38.360
Și ceea ce înseamnă asta este că acum nu mai este o opțiune bună pentru agent sau, de fapt, de asemenea,

06:38.360 --> 06:42.340
această săgeată arătând că arăta spre stânga și nasul duzei îndreptându-se în sus.

06:42.350 --> 06:48.740
Deci, acum nu mai este o idee bună ca agentul să meargă de aici sau să meargă până la capăt, pentru că dacă el merge prost în tot

06:49.100 --> 06:53.330
drumul da este în siguranță sau dacă există o șansă mai mică, nu există nici o șansă de a

06:53.340 --> 06:54.030
obține focul.

06:54.320 --> 06:57.640
Dar, în același timp, sau mai puține șanse se vor întâmpla.

06:57.710 --> 07:03.140
Dar, în același timp, el va acumula o recompensă destul de negativă în timp ce merge pe jos.

07:03.140 --> 07:05.540
Deci este doar că drumul este prea lung.

07:05.540 --> 07:12.350
Așa că îl forțează dacă este aici sau aici pentru a lua drumul mai scurt pentru a ajunge aici, chiar dacă are un risc

07:12.350 --> 07:17.330
mult mai mare de a intra în firepit, deoarece imediat ce ajunge în piață există o șansă de

07:17.330 --> 07:19.350
10% să ajungă la foc .

07:20.120 --> 07:21.760
Conform calculelor sale.

07:21.800 --> 07:27.980
Numai valoarea așteptată a acestei abordări este mai bună decât valoarea așteptată de a merge în jur doar pentru

07:27.980 --> 07:30.480
că am crescut această pedeapsă de viață.

07:30.710 --> 07:37.130
Și în final ajungem la exemplul cu pedeapsa vie de minus două puncte zero.

07:37.130 --> 07:43.010
Deci, aici vă încurajez să postați videoclipul acum că ați văzut cum sa schimbat politica în timp ce

07:43.010 --> 07:44.430
mărim pedeapsa de încărcare.

07:44.450 --> 07:49.850
Vă încurajez să întrerupeți videoclipul și să vă gândiți singur la ce se va întâmpla în acest scenariu.

07:49.850 --> 07:57.070
Ce credeți că va fi acordată politica optimă că pedeapsa vie este atât de ridicată, astfel încât toate aceste presupuse

07:57.090 --> 07:58.280
videoclipuri, dacă doriți.

07:58.490 --> 08:04.880
Și acum voi încerca să vă arăt soluția, așa că în acest caz, dacă

08:04.880 --> 08:13.460
măriți pedeapsa la minus 2. 0 este atât de mare amintiți-vă că pedeapsa aici este doar minus 1. 0 este atât de mare încât agentul vrea doar

08:13.680 --> 08:18.540
să iasă din joc în orice mod posibil, chiar dacă este doar sărind în groapa de foc.

08:18.560 --> 08:19.200
El o va face.

08:19.220 --> 08:25.460
El va fi ca de fiecare dată când fac un pas de fiecare dată când voi ajunge într-un nou în statul dvs.

08:25.460 --> 08:30.020
sau de fiecare dată când fac o acțiune ajung să obțin o minus două răsplată.

08:30.020 --> 08:36.280
Deci, care este scopul încercării de a ajunge la linia de sosire dacă, de aici, îmi vor lua doi pași suplimentari.

08:36.350 --> 08:41.060
Mă duc doar aici și apoi direct în firepit, pentru că în acest

08:41.060 --> 08:49.190
fel răsplata mea va fi mai mică decât recompensa negativă va fi la fel de rea ca și în cazul de a face

08:49.190 --> 08:56.770
doar pași suplimentari, astfel încât să puteți vedea că adăugarea acestui trai recompensa și în funcție de valoarea recompenselor vii pe care

08:56.780 --> 08:59.270
le adăugăm rezultatele vor fi diferite.

08:59.270 --> 09:06.290
Și agentul va selecta politici diferite și, în principiu, modul în care valoarea recompensării poate fi încorporată de ecuația Belmont,

09:06.440 --> 09:12.020
chiar dacă nu este doar la linia de sosire sau la sfârșitul jocului, ci chiar

09:12.020 --> 09:13.790
și în timpul jocului.

09:13.790 --> 09:19.250
Și încă o dată nu trebuie să fie pe fiecare în fiecare stat, în funcție de

09:19.250 --> 09:20.180
mediul însuși.

09:20.180 --> 09:26.540
Ar putea fi dat agentului la anumite stări specifice, nu la fiecare stat, dar în exemplul nostru

09:26.540 --> 09:29.880
simplist folosim doar recompense la fiecare stat dat.

09:30.050 --> 09:34.470
Pentru a ilustra acest concept, sper să vă bucurați de tutorialul de astăzi.

09:34.580 --> 09:40.550
Și după cum puteți vedea, deja am făcut ecuația Belman destul de sofisticată și acum ea poate fi aplicată la multe

09:40.550 --> 09:44.340
scenarii diferite și nu pot să aștept să o văd în următorul tutorial.

09:44.360 --> 09:46.200
Și până atunci bucurați-vă de un I.