WEBVTT

00:01.060 --> 00:04.460
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.460 --> 00:07.630
Astăzi vom vorbi despre ecuația lui Belman.

00:07.630 --> 00:12.580
Este un subiect destul de complex și o vom introduce într-o manieră pas cu pas în

00:12.580 --> 00:17.110
întreaga secțiune a cursului, așa că nu voi merge direct în cea mai complexă

00:17.110 --> 00:21.730
versiune a ecuației Belmont, dar în schimb am o să o introducem încet, pentru a

00:21.730 --> 00:23.250
înțelege treptat cum funcționează.

00:23.410 --> 00:28.480
Și sper că obiectivul tău cu această abordare dacă ești G. R. Să intrăm direct în ea.

00:28.690 --> 00:33.820
Deci vom avea câteva concepte-cheie cu care vom lucra și aceste concepte vor

00:33.820 --> 00:34.430
fi.

00:34.600 --> 00:41.110
S reprezintă stări, astfel încât starea în care este agentul nostru sau orice altă stare posibilă în care poate fi

00:41.740 --> 00:45.490
o reprezintă o acțiune pe care un agent o poate lua.

00:45.490 --> 00:50.680
Deci, un agent poate avea acces la o anumită listă de acțiuni și acțiuni sunt foarte

00:50.680 --> 00:53.610
importante atunci când sunt privite într-o combinație de stat.

00:53.620 --> 00:57.880
Deci, atunci când sunteți într-un stat swing și apoi vă uitați la acțiuni și începe

00:57.880 --> 01:01.870
să înțeleagă ce va fi rezultatul acestor acțiuni, deoarece veți arăta o acțiune de

01:01.870 --> 01:07.390
la sine sau un stat nu are sens cu adevărat pentru că tu nu știu unde ești și unde poți

01:07.390 --> 01:13.240
să ajungi și apoi vom avea pe noi ceea ce înseamnă recompensă și asta e prin secția pe care agentul devine

01:13.240 --> 01:16.980
pentru a intra într-o anumită stare și gamma este factorul de reducere.

01:16.990 --> 01:21.510
Și vom vorbi despre factorul de reducere într-o secundă, toate au sens doar acum, dar ei doar iau

01:21.510 --> 01:21.810
notițe.

01:21.820 --> 01:26.300
Faceți o notă mentală că vom avea această scrisoare Gamelin care va funcționa mai târziu.

01:26.620 --> 01:31.230
Deci, persoana din spatele ecuației bellman este Richard Ernest bellman.

01:31.360 --> 01:39.400
A fost un matematician de zbor și a venit cu noțiunile de programare dinamică pe care acum suntem acum pe care le

01:39.400 --> 01:43.790
numim învățare de întărire sau pe care le numim acum ecuația Belman.

01:44.110 --> 01:45.490
Ei bine, asta suntem numiți acum.

01:45.490 --> 01:52.350
Și în 1953 a venit cu acest concept și atunci ecuația lui Belmont Belman a venit la mine.

01:52.630 --> 01:56.530
Așadar, să vedem cum funcționează toate acestea.

01:56.540 --> 02:02.410
Există agentul nostru minunat în colțul din stânga jos și el este într-un labirint și acesta este un

02:02.500 --> 02:08.680
labirint destul de clasic unde ai niște blocuri blocurile mari sunt blocuri în care agentul poate intra în blocul gri

02:08.680 --> 02:13.800
este cel care este doar nu este accesibil spune ca un zid în acest labirint.

02:13.900 --> 02:20.150
Verde este locul în care agentul ar trebui să vizeze să ajungă acolo unde ne dorim ca agentul

02:20.150 --> 02:20.910
să meargă.

02:21.220 --> 02:25.050
Și roșu este firepits sau motorul cade în groapă de foc.

02:25.060 --> 02:26.660
El va pierde jocul.

02:26.950 --> 02:31.330
Astfel, în groapa de incendiu, răsplata care este R este minus 1.

02:31.330 --> 02:36.330
Deci asta e modul nostru de a spune agentului că nu este ceva ce vrem să faci.

02:36.430 --> 02:41.320
Așa cum am aminti în exemplul când antrenează câini vrem să le spunem ca un câine rău dacă nu face ce este bine și

02:41.320 --> 02:46.030
care a vrut să facă același lucru aici suntem să spunem agentului că nu este ceva ce ar trebui să fii a face

02:46.030 --> 02:49.480
tu nu ar trebui să se termine în pătrat, astfel încât de fiecare dată când

02:49.480 --> 02:53.300
nu se întâmplă veveriță obține un minus o recompensa astfel încât veți fi pedepsit cu minus o răsplată.

02:53.530 --> 02:57.610
Pe de altă parte, dacă se termină în Piața Verde, va primi o recompensă suplimentară, ceea ce

02:57.610 --> 02:59.330
înseamnă că asta am vrut să facem.

02:59.590 --> 03:02.470
Deci acestea sunt cele două recompense pe care agentul nu le poate obține.

03:02.470 --> 03:06.210
Și cum învață cum să opereze în acest labirint.

03:06.370 --> 03:10.750
La fel ca în exemplul ăsta de câini de robot care au învățat să meargă și care o vor da să știe, tocmai vor

03:10.750 --> 03:12.490
spune că aici acțiunea pe care o poți face.

03:12.490 --> 03:18.360
Puteți merge în sus spre stânga sau spre dreapta, cele patru acțiuni posibile pe care le puteți lua și asta este.

03:18.360 --> 03:21.430
Aveți o joacă în jur cu ceea ce vedeți cu ce puteți veni.

03:21.430 --> 03:26.320
Deci, agentul ar putea merge spre dreapta, apoi ar putea merge mai mult în dreapta, s-ar putea să se

03:26.320 --> 03:31.160
întoarcă la stânga doar apăsând butonul și încearcă să vadă ce se întâmplă și se întorc aici.

03:31.180 --> 03:34.660
Ei merg în sus merg în sus mergi du-te du-te merge dreapta.

03:34.660 --> 03:38.450
Deci, deocamdată nu au învățat nimic până acum nimic nu sa întâmplat.

03:38.470 --> 03:41.790
Ei merg bine și apoi ajung în Piața Verde.

03:41.830 --> 03:48.150
Așa că își dau seama că am doar un plus de awar. Deci, de îndată ce am intrat în Piața Verde, au

03:48.150 --> 03:49.040
primit o recompensă.

03:49.090 --> 03:53.560
Și asta declanșează algoritmul de a spune OK că este foarte cool.

03:53.830 --> 03:58.920
Sunt răsplătit pentru că se termină în piață, așa că vreau să ajung în piață.

03:58.930 --> 04:00.650
Deci ce înseamnă asta pentru agent.

04:00.910 --> 04:04.310
Aceasta înseamnă că începe să pună întrebarea cum am ajuns în acest pătrat.

04:04.300 --> 04:10.690
Care era starea precedentă în care eram și ce acțiune am luat pentru a ajunge la pătrat și apoi

04:10.690 --> 04:14.810
mă uit înapoi și spune OK, astfel încât statul precedent era acesta.

04:14.950 --> 04:17.400
Se pare că este valoroasă în acel stat.

04:17.410 --> 04:19.240
Cel care scânteia Arrow-ului Roșu.

04:19.270 --> 04:26.230
Deoarece din acel stadiu esti eu sunt la un pas de a obtine recompensa maxima pe care o

04:26.230 --> 04:33.210
pot visa, de exemplu, ca un biscuit pentru un caine de indata ce stiu daca sunt vreodata in acea stare.

04:33.250 --> 04:35.150
Pătrat marcat cu săgeata roșie.

04:35.200 --> 04:36.740
Tot ce trebuie să fac este să apăs pe dreapta.

04:37.030 --> 04:41.440
Deci, cum să-mi spun să-mi amintesc că acea stare este valoroasă.

04:41.440 --> 04:45.170
Ei bine, pentru mine nu există nici o diferență ca agent.

04:45.170 --> 04:50.380
Nu există nici o diferență în ceea ce privește dacă sunt în Piața Verde sau în piața albă din Piața

04:50.380 --> 04:51.610
Verde primesc răsplata unuia.

04:51.610 --> 04:58.810
Așa că am să-mi marchez că Piața Y are pentru mine o valoare de 1, deoarece duce exact la recompensa cât

04:58.810 --> 05:03.280
de curând sunt în pătratul alb, știu că voi mai lua o acțiune.

05:03.350 --> 05:08.180
Voi fi în Piața Verde și voi obține o recompensă sau una, de aceea am de gând să spun

05:08.180 --> 05:14.690
că valoarea acestui pătrat este egală cu una pentru că duce direct la dacă pe orice fel de scăderi cât mai curând Vreau să spun

05:14.690 --> 05:18.890
aici știu că recompensa mea va fi una, așa că voi marca acest pătrat drept chemarea

05:18.890 --> 05:22.430
la una care este valoarea care este valoarea percepută a fi în stat.

05:22.430 --> 05:24.740
Apoi agentul va fi bine.

05:24.800 --> 05:26.930
Deci, cum intru în acest pătrat.

05:27.050 --> 05:29.990
Și știi că s-ar putea să se plimbe din nou și așa mai departe.

05:29.990 --> 05:33.800
Și din nou în pătrat și să fie ca OK cum am ajuns în acest pătrat înainte de asta.

05:33.800 --> 05:36.860
Iar felul în care am ajuns în acest pătrat era din acest pătrat.

05:36.860 --> 05:37.530
Interesant.

05:37.550 --> 05:42.980
OK, de îndată ce intru în acest pătrat, știu că tot ce trebuie să fac este să merg bine.

05:42.980 --> 05:45.640
Și apoi de aici știu deja că voi câștiga.

05:45.650 --> 05:49.970
Știu exact cum totul se va desprinde de aici și știu că valoarea de a fi în această stare

05:49.970 --> 05:50.970
este egală cu una.

05:51.020 --> 05:58.340
Si din moment ce nu ma opreste nimic de a creste de aici, valoarea in aceasta se duce la o valoare perceputa. Sunt o

05:58.340 --> 06:03.920
mare valoare ca fiind aici ca un vehicul de dorit, de asemenea, pentru ca asta vreau sa spun

06:03.920 --> 06:04.640
aici stiu.

06:04.650 --> 06:06.660
Fii aici și voi fi aici destul de repede.

06:06.740 --> 06:07.980
Așa că voi câștiga.

06:08.180 --> 06:10.490
Și apoi cum intri în acest pătrat înainte de asta?

06:10.490 --> 06:12.940
Am intrat în acest pătrat din acest pătrat.

06:13.070 --> 06:19.670
Deci, valoarea este o abordare asemănătoare, valoarea fiind aici este de asemenea egală cu una și așa mai departe, astfel încât valoarea de a fi aici este

06:19.670 --> 06:23.690
egală cu o valoare de a fi aici este egală cu una deoarece fiecare dintre ele

06:23.690 --> 06:25.710
duce la următoarea și linia de sosire.

06:26.240 --> 06:29.850
Deci asta e destul de logic în acest stadiu.

06:29.960 --> 06:33.410
Acesta este proiectarea ecuației lui Belman acum.

06:33.410 --> 06:40.460
Deci, acest lucru este posibil să ne gândim la proiectarea unei ecuații care ajută un agent să treacă prin labirint.

06:40.490 --> 06:45.840
Deci, uita-te la recompensa, atunci statul precedent-i da o valoare egala cu recompensa procedurilor si asa ca acestea

06:45.840 --> 06:51.920
sunt un fel de ca creeaza o cale este tot mare si bine, dar problema aici este OK ce se intampla

06:52.010 --> 06:58.790
daca agentul nostru dintr-un motiv incepe in acest stat în loc de a începe aici și de a lua aceste acțiuni și de a

06:58.880 --> 07:00.480
începe de fapt în stat.

07:00.650 --> 07:06.980
Cum știe cum își amintește ce acțiune trebuie întreprinsă dacă ar merge bine sau ar trebui să meargă în jos sau ar trebui să meargă la stânga sau

07:06.980 --> 07:08.540
ar trebui să meargă în sus.

07:08.540 --> 07:13.220
Cum își amintește care este următoarea continuare de aici.

07:13.220 --> 07:18.660
Dacă singurele valori pe care le are aceste valori sunt egale, odată ce nu se poate vedea ce este mai departe.

07:18.660 --> 07:19.700
Se poate vedea numai.

07:19.700 --> 07:20.030
In regula.

07:20.030 --> 07:21.940
Ce am aici și ce am aici.

07:21.980 --> 07:23.530
Cum știe cum să mergem?

07:23.660 --> 07:27.920
Ei bine, în acest stadiu nu este la fel de identic pentru vârstă și în ce mod să mergem.

07:27.960 --> 07:30.770
Și de aceea această abordare nu funcționează.

07:30.790 --> 07:32.930
Este o explicație foarte simplistă.

07:32.930 --> 07:34.500
Desigur, sunt mult mai multe.

07:34.520 --> 07:40.550
Dar, într-un mod intuitiv, de aceea nu putem doar să dăm doar acea valoare înapoi așa.

07:40.790 --> 07:46.210
Pentru că unul dintre motive este odată ce Agentul se află între aceste două valori și unde va merge.

07:46.210 --> 07:48.560
Nu se poate confunda asa.

07:48.620 --> 07:52.350
Și așa cum rezolvăm această problemă ce vom face.

07:52.400 --> 07:57.860
Și aici vom începe să introducem încet pas cu pas ecuația Belman în forma

07:57.860 --> 07:58.640
sa actuală.

07:58.670 --> 08:01.510
Deci, ecuația lui Belman arată așa.

08:01.640 --> 08:07.100
Așa că am vorbit deja despre valoarea de a fi într-o anumită stare, cum este starea dvs. actuală

08:07.100 --> 08:10.250
sau orice alt stat dat și există și ea.

08:10.370 --> 08:17.270
Și, pe măsură ce Primul este statul, statul urmărește statul pe care îl veți încheia după stat

08:17.270 --> 08:18.990
și luând măsuri concertate.

08:19.000 --> 08:24.160
Dar știm că există multe acțiuni și un agent poate lua și de aceea l-am luat pe Max aici.

08:24.260 --> 08:30.020
Deci, luând o acțiune ce se va întâmpla cu un agent, să spunem că suntem în stare ca luând

08:30.050 --> 08:32.700
o acțiune în activele statului și luăm măsuri.

08:32.780 --> 08:36.690
Ce se va întâmpla este că va primi imediat o recompensă prin intrarea într-un nou stat.

08:36.770 --> 08:41.960
Și amintiți-vă că recompensa poate fi una sau plus una sau mai puțin una dacă este la sfârșitul jocului sau poate fi un

08:41.960 --> 08:46.240
zero dacă este pe tot parcursul jocului în acest caz recompensa noastră pe tot parcursul jocului este zero.

08:46.280 --> 08:55.160
Deci, asta este recompensa Plus, vom intra într-o stare nouă, care are valoare de prime.

08:55.160 --> 08:57.820
Deci asta este valoarea noului stat și gamma.

08:57.820 --> 08:58.820
Vom vorbi despre asta într-o secundă.

08:58.820 --> 09:03.560
Dar punctul pe care încerc să-l ridic aici sau punctul pe care îl ridic aici este că ai multe acțiuni diferite pe

09:03.560 --> 09:05.810
care le putem lua și de aceea avem maximum.

09:05.810 --> 09:09.630
Deci, prin luarea de măsuri primim recompensa Plus, ajungem într-un nou stat.

09:09.740 --> 09:14.660
Și astfel, pentru fiecare mișcare din cazul nostru, înainte de posibilele noastre acțiuni pentru fiecare dintre

09:14.660 --> 09:17.810
cele 4 acțiuni posibile, vom avea o ecuație ca aceasta.

09:17.810 --> 09:22.980
Deci, aceasta va avea o valoare pentru că acestea vor avea o valoare diferită pentru fiecare

09:23.480 --> 09:28.750
dintre cele patru acțiuni și vom privi doar la maximum, deoarece, desigur, agentul dorește să ia statul optim.

09:28.760 --> 09:33.860
Deci, dacă el se află în stare, el se va uita la aceste valori, el va găsi maximul bazat pe

09:33.860 --> 09:37.500
acțiune și va lua această acțiune care are nevoie de maximum de aceste valori.

09:37.640 --> 09:41.480
Deci, sperăm că acest lucru are sens pentru ce luăm maximum aici.

09:41.660 --> 09:45.400
Odată ce am primit recompensa și valoarea care a spus de ce avem acest parametru Gaba aici.

09:45.650 --> 09:52.220
Este exact acolo pentru a rezolva acea problemă de unde agentul nu știe ce cale să meargă pentru că nu

09:52.220 --> 09:52.850
poate.

09:52.950 --> 09:56.600
Compară valorile a două stări pe ambele părți și ele sunt aceleași.

09:56.810 --> 10:00.890
Acesta este motivul pentru care jucatorii au numit factorul de actualizare, astfel incat sa ne uitam la asta

10:00.890 --> 10:02.050
si sa intelegem mai bine.

10:02.060 --> 10:04.680
Deci, să luăm o formulă pe care o voi pune aici în partea dreaptă sus.

10:04.760 --> 10:09.100
Și acum vom analiza care sunt valorile diferitelor state.

10:09.140 --> 10:11.470
Și fiecare stat aici este un pătrat.

10:11.470 --> 10:11.820
Nu.

10:11.840 --> 10:16.610
Deci, unul dintre aceste oricare dintre aceste pătrate albe este un stat, vreau să spun că vom calcula valoarea

10:16.610 --> 10:18.290
de a fi în acea stare.

10:18.290 --> 10:19.770
Deci, să începem cu piața.

10:19.790 --> 10:21.610
Care este valoarea de a fi în această stare.

10:21.860 --> 10:25.830
Ei bine, trebuie să luăm maximum de această valoare în toate acțiunile.

10:26.120 --> 10:31.440
Și știm că această valoare reprezintă este maximizată pe măsură ce ne apropiem de linia de sosire

10:31.440 --> 10:36.440
și așa este construită și doar prin privirile pe care le puteți vedea, deoarece aici avem

10:36.590 --> 10:40.900
recompensa și aici avem un factor de actualizare înmulțit cu valoarea următorului stat.

10:41.060 --> 10:46.670
Și are sens doar că așa vom construi acea ecuație, astfel încât are sens că de aici

10:46.670 --> 10:50.350
maximul acestei valori va fi dacă ne mutăm spre dreapta.

10:50.360 --> 10:56.120
Deci, astfel calculam valorile pe care această valoare a acestei stări o numeste maxim sau egal

10:56.300 --> 10:57.470
cu această valoare.

10:57.500 --> 11:01.000
Dacă ne mutăm spre dreapta dacă luăm o acțiune de mișcare spre dreapta.

11:01.010 --> 11:02.330
Deci, ce va fi această valoare.

11:02.360 --> 11:04.850
Ei bine, răsplata de mișcare spre dreapta este egală cu 1.

11:05.090 --> 11:10.490
Și indiferent de ce gamă de culoare nu avem valoare în stare, pentru că suntem deja în cea

11:10.490 --> 11:11.720
mai bună stare posibilă.

11:11.720 --> 11:12.880
Deci, aceasta este etapa finală.

11:12.890 --> 11:16.280
Nu va avea nici o valoare, avem doar o recompensă aici și asta este sfârșitul jocului.

11:16.280 --> 11:20.300
Valoarea va fi de acest maxim va fi egală cu 1.

11:20.510 --> 11:23.870
Și de aceea valoarea de stat ca aici este egală cu 1.

11:23.870 --> 11:27.970
Acum, lucrurile devin interesante când ne mutăm la stânga când ne mișcăm înapoi.

11:28.010 --> 11:34.060
Deci acum se calculează valoarea acestui fapt de a fi în această stare și pentru asta vom avea nevoie de Gabaa.

11:34.070 --> 11:39.920
Deci, să spunem că factorul nostru de reducere este un punct zero la nouă și are sens ce este un factor de actualizare

11:39.920 --> 11:40.960
când calculam acest lucru.

11:40.960 --> 11:47.410
Deci, de aici, bazându-ne pe intuiția noastră și bazându-ne, pentru că știm cum funcționează acest lucru.

11:47.450 --> 11:51.340
Știm că cea mai bună acțiune posibilă este să mergem spre dreapta, pentru că de aici mergem aici.

11:51.530 --> 11:56.120
Asta inseamna ca maximul va fi atins in aceasta stare mergi spre dreapta.

11:56.270 --> 11:58.970
Și să vedem ce se întâmplă dacă îl conectăm aici.

11:58.970 --> 12:02.650
Deci, dacă te duci de aici până aici, nu vei primi recompensa ta va fi zero.

12:02.720 --> 12:07.440
Dar atunci veți obține camis care obține punctul zero de nouă ori valoarea noii state care este una.

12:07.640 --> 12:14.030
Deci, în acest caz, valoarea întregului rezultat al acestui lucru este de 1 ori un 0. De 9 ori unul este egal cu 2. 9.

12:14.030 --> 12:15.890
Deci toate acestea sunt valori per.

12:16.250 --> 12:18.570
Deci, dacă vom calcula acest lucru, veți vedea asta de aici.

12:18.620 --> 12:23.990
Știm doar dacă ne uităm la labirintul pe care îl știm pentru că noi, ca oameni, înțelegem cum

12:23.990 --> 12:28.450
funcționează această ecuație, desigur un agent AI ar trebui să experimenteze cu aceste lucruri.

12:28.460 --> 12:32.180
Dar pentru că avem ca o minge de cristal putem vedea acest labirint întreg.

12:32.180 --> 12:33.860
Avem cum ar fi punctul de vedere al păsărilor chiar acum.

12:33.860 --> 12:36.170
Știm că cea mai bună acțiune merge la dreapta.

12:36.320 --> 12:42.230
Deci, dacă vom conecta totul aici, va fi zero nici o recompensă Plus raportul de nouă ori

12:42.230 --> 12:45.530
valoarea în stare 0. 9 este zero punct optzeci și una și așa mai departe.

12:45.530 --> 12:50.420
Deci aici va fi 0. 23 și va fi 0. 66.

12:50.420 --> 12:57.590
Deci, puteți vedea că felul în care funcționează factorul actualizat este faptul că reducerea valorii statului, pe măsură ce vă aflați

12:57.590 --> 12:58.610
mai departe.

12:58.610 --> 13:05.810
Deci, dacă sunteți familiarizați cu teoria finanțelor, atunci este ceva similar cu valoarea de timp a banilor, cum ar fi ceea ce ați

13:05.810 --> 13:12.990
crede despre el în acest fel. Ce ați prefera să aveți 5 dolari astăzi sau 5 dolari în 10 zile de acum.

13:13.050 --> 13:17.840
Doar dacă cineva ți-ar oferi o alegere, îți voi da cinci dolari astăzi, tot ce ai 5 dolari 10 zile de la

13:17.840 --> 13:18.280
toate.

13:18.390 --> 13:20.300
Bineinteles ca ai ales 5 $ astazi.

13:20.300 --> 13:20.850
De ce este asta.

13:20.870 --> 13:26.750
Ei bine, pentru că puteți lua acel 5 $ și le puteți investi la o anumită rată a dobânzii, care este foarte asemănătoare cu cea

13:26.750 --> 13:27.470
a gammei.

13:27.680 --> 13:33.950
Iar suma de 5 dolari în 10 zile va crește de fapt în 5 dolari și 73 de cenți sau ceva de genul asta.

13:34.070 --> 13:36.410
Și așa funcționează valoarea banilor.

13:36.410 --> 13:38.310
Și un concept foarte asemănător aici.

13:38.330 --> 13:43.250
Și lucrurile importante pe care trebuie să le înțelegem aici este doar o teorie pe care învățarea de întărire o are.

13:43.260 --> 13:45.850
Așa că Richard Belman a venit cu această ecuație.

13:46.190 --> 13:48.880
Și de atunci acum așa îl folosim.

13:48.880 --> 13:51.430
Deci, puteți merge mai departe și puteți veni cu o altă ecuație.

13:51.430 --> 13:54.820
Nu trebuie să aibă Gamla ar putea avea și alt factor care să nu știe că are un factor.

13:54.950 --> 14:01.550
Dar această abordare funcționează și de aceea folosim și așa se pare că, cu atât mai puțin

14:01.550 --> 14:06.670
sunteți mai puțin valoros în stat și în termeni de timp și bani.

14:06.680 --> 14:09.850
Dacă aș putea să-ți spun unde ai prefera să fii mai degrabă aici.

14:09.950 --> 14:11.200
Mai bine ai fi aici.

14:11.350 --> 14:12.920
Ai spune că prefer să fiu aici.

14:12.920 --> 14:18.770
Așadar, creăm același fenomen ca și valoarea timpului pe care îl construim în mod artificial prin gamma,

14:18.770 --> 14:24.680
astfel încât, pentru a stimula agenții sau a inspira agenții să fie mai aproape de linia de sosire.

14:24.680 --> 14:29.720
Deci, dacă ar fi fost întrebat un agent, ați fi mai degrabă aici sau aici, din cauza felului în care funcționează această

14:29.930 --> 14:31.590
ecuație, ar alege să fie aici.

14:31.640 --> 14:33.380
Nu mai e nimic mai mult pentru asta.

14:33.380 --> 14:35.810
Nu este ceva ce lumea face astfel.

14:35.810 --> 14:42.630
Nu este doar un lucru pe care îl creăm în mod artificial pentru ca agenții noștri să înțeleagă că acest lucru este bun este bine

14:42.750 --> 14:48.140
că acesta este bun bun vechi dar acesta este mai bun decât acesta și acesta este mai bun decât acesta

14:48.140 --> 14:50.030
și acesta a fost în acest.

14:50.120 --> 14:54.790
Și astfel puteți vedea că tot agentul poate vedea în ce direcție trebuie să meargă.

14:54.800 --> 15:00.270
Deci, poate să văd că dacă stau aici, amintiți-vă acea problemă pe care am avut sau o stătea aici, așa că dacă stați

15:00.270 --> 15:05.130
aici, mă duc în jos sau dacă dintr-o dată mă duc să mă duc sau să mă duc jos.

15:05.250 --> 15:10.080
Ei bine, acum nu mai există nici o problemă, deoarece poate vedea că este mai bine să meargă în sus

15:10.080 --> 15:11.480
pentru că valorile sunt aici.

15:11.550 --> 15:14.490
Și apoi de aici trebuie să meargă drept pentru că valoarea este mai mare aici decât aici.

15:14.550 --> 15:17.480
Și apoi de aici, Bertschi merge bine, pentru că valoarea de aici este mai mare decât știi.

15:17.670 --> 15:22.620
Și de aici el știe deja că trebuie să meargă bine pentru că va primi o recompensă aici.

15:22.680 --> 15:24.960
Așa funcționează întreaga abordare.

15:24.960 --> 15:27.600
Acum, să aruncăm o privire rapidă asupra restului pieței.

15:27.600 --> 15:29.800
Deci, cum calculam valoarea din acest pătrat.

15:30.030 --> 15:32.450
Ei bine, aici lucrurile devin complicate.

15:32.460 --> 15:38.400
Deci, de aici, s-ar putea să nu mergeți chiar la stânga, chiar dacă ați putea merge corect, astfel încât să putem continua să mergem așa

15:38.400 --> 15:41.360
pentru că ar putea fi într-adevăr mai scurtă pentru a merge așa.

15:41.520 --> 15:44.720
Deci, ce vom face este că vom calcula mai întâi valoarea în pătrat.

15:45.000 --> 15:48.200
Și pentru că, evident, de aici cele mai bune modalități de a merge sunt sus.

15:48.240 --> 15:52.740
Din nou, pentru că vedem echipajul cu care avem mingea de cristal, putem vedea lucrurile și veți vedea

15:52.740 --> 15:57.060
mai jos în secțiune veți vedea cum agentul explorează de fapt acest lucru înțelege acest lucru pe propriile

15:57.060 --> 15:58.030
lor prin experimentare.

15:58.080 --> 16:02.580
Dar pentru noi știm că este mai bine să mergem în acest fel, astfel că vom calcula

16:02.580 --> 16:06.410
valoarea aici și de aceea vom calcula mai întâi valoarea din acest pătrat.

16:06.420 --> 16:09.230
Deci avem aici trei acțiuni posibile.

16:09.270 --> 16:11.590
În realitate avem de fapt patru, putem merge și la stânga.

16:11.610 --> 16:15.330
Agentul ar putea apăsa ipotetic stânga și se va bate în perete și va rămâne aici.

16:15.420 --> 16:21.030
Dar pentru un set de simplitate care va arăta acțiunile pe care le știm ce știm și având

16:21.030 --> 16:25.920
mingea de cristal, știm care sunt acțiunile care duc la altceva decât la același stat

16:25.920 --> 16:26.780
din nou.

16:26.850 --> 16:32.010
Și aici, de aici, știm că din nou doar pentru că avem o minge de cristal știm că cel mai bun mod de a merge

16:32.010 --> 16:36.840
este în acest fel un agent, desigur, va trebui să experimenteze și să găsească cea mai bună cale și veți vedea cum se

16:36.840 --> 16:37.500
întâmplă acest lucru.

16:37.560 --> 16:42.270
Mai jos, în secțiune, veți vedea cum merge un agent și cum veți încerca să încercați

16:42.360 --> 16:43.610
să găsiți aceste valori.

16:43.620 --> 16:45.190
Dar pentru noi știm că este așa.

16:45.360 --> 16:50.420
Deci, dacă conectăm totul într-unul astfel încât maximul să fie cel mai bun rezultat atunci când mergeți în sus.

16:50.510 --> 16:53.820
Și aici este un raport 9: 0.

16:53.820 --> 16:55.870
Ai zero punct zero.

16:56.220 --> 16:58.730
OK, așa că Kalika este cel care calculează asta.

16:58.770 --> 16:59.810
Aceeași abordare.

16:59.820 --> 17:02.070
Aceasta este că aveți trei moduri în care puteți merge.

17:02.070 --> 17:05.580
De fapt, patru pentru agent, dar pentru noi putem vedea că sunt doar trei.

17:05.880 --> 17:10.780
Deci, zero punct optzeci unul de aici ai punctul ZERO șaptezeci și trei.

17:11.130 --> 17:16.410
Și de fapt se leagă cu această valoare, pentru că în tine, dacă renunți din nou, ai pus

17:16.890 --> 17:20.120
66 și aici ai 0. 23 deoarece aceasta este calea optimă.

17:20.130 --> 17:21.190
Deci te duci acolo.

17:21.210 --> 17:23.750
Acestea sunt valorile tuturor acestor stări.

17:23.760 --> 17:29.700
Și acum puteți vedea că pentru că am creat această ecuație sau am creat sintetic întregul concept al

17:29.730 --> 17:37.890
apropierii față de linia de sosire, cu atât mai valoroasă este faptul că statul nu este pentru că ne este teamă că acum este

17:37.890 --> 17:41.840
destul de evident pentru agent în care ar trebui să meargă.

17:41.970 --> 17:44.230
Și vom vorbi mai multe despre asta în viitor.

17:44.910 --> 17:52.290
Sper că v-ați bucurat de sesiunea de astăzi și știu că este un pic cam s-ar putea să fie un pic foarte fundamental în această etapă,

17:52.320 --> 17:56.590
dar pe măsură ce trecem prin această secțiune vom adăuga ceva mai multă complexitate.

17:56.700 --> 18:01.500
În același timp, dacă nu puteți să așteptați dacă doriți să intrați în ea, atunci există o lucrare la care

18:01.500 --> 18:04.290
vă puteți uita și este lucrarea originală a lui Richard Belman.

18:04.290 --> 18:08.130
Se numește teoria programării dinamice din 1954.

18:08.370 --> 18:10.200
Și o puteți găsi la acest link.

18:10.320 --> 18:16.490
Și acolo te duci ca să poți sări în ea și să citești de la autorul ecuației lui Belman.

18:16.620 --> 18:20.860
Dar trebuie doar să aveți în minte că acest lucru este destul de greu matematic.

18:20.970 --> 18:22.820
Și pe acea notă o voi căuta pe următoarea ta.

18:22.850 --> 18:24.590
Și până atunci să vă bucurați de AI.
