WEBVTT

00:01.160 --> 00:04.720
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.740 --> 00:07.950
Astăzi vorbim despre diferența temporală.

00:08.100 --> 00:14.310
Acum este foarte important să se încerce, deoarece diferența temporală este inima și sufletul algoritmului Q de

00:14.340 --> 00:15.100
învățare.

00:15.120 --> 00:22.410
Acesta este de fapt modul în care tot ceea ce am învățat până acum se reuneste în joc în cadrul învățării cheie.

00:22.410 --> 00:23.880
Să aruncăm o privire.

00:23.910 --> 00:28.040
Amintiți-vă de timpul când am vorbit despre căutarea deterministă și nedeterministă.

00:28.410 --> 00:34.960
Și amintiți-vă cum am spus în acest caz că atunci când agentul dorește să se ridice, el urcă și când.

00:35.070 --> 00:38.740
În acest caz, el vrea să meargă sus acolo este o șansă de 10 la sută el va merge tamburi din stânga jos

00:38.730 --> 00:41.390
și șansă și mergeți la dreapta și o șansă de 80 la suta va merge bine.

00:41.400 --> 00:42.390
Du-te drept în sus.

00:42.450 --> 00:46.410
În timp ce aceste numere sunt, desigur, arbitrare și pot fi diferite.

00:46.410 --> 00:52.260
Și întregul concept este că ar putea fi diferite și diferite probleme, astfel încât nu trebuie să ne preocupe

00:52.320 --> 00:57.090
modul în care se mișcă doar că există ceva aleatoriu ceva care este în afara controlului

00:57.300 --> 00:59.930
agentului care se întâmplă în interiorul acestui mediu.

01:00.060 --> 01:07.470
Și ce efect a avut este cum vă amintiți a fost că în exemplul determinist a fost foarte ușor să se calculeze valorile

01:07.470 --> 01:11.030
Wii în timp ce nu este întotdeauna întotdeauna foarte ușor.

01:11.040 --> 01:16.530
Dar, în cazul nostru, am putea să le calculam pur și simplu folosind ecuația Belman și noi aveam valorile

01:16.530 --> 01:17.120
exacte.

01:17.370 --> 01:24.810
Și apoi, după cum vă amintiți, am menționat foarte atent că aceste valori pentru exemplul de căutare

01:24.810 --> 01:27.810
nedeterministă sunt în afara capului meu.

01:27.840 --> 01:29.220
Ei nu sunt Kalka știm.

01:29.270 --> 01:33.090
Ultima dată când am spus că nu trebuie să le calcăm pentru că e foarte complexă.

01:33.090 --> 01:39.600
Dar computerul o poate face și tocmai am mers împreună cu aceste valori care sunt doar valori pe care le-am făcut.

01:39.600 --> 01:41.310
Dar au făcut treaba.

01:41.310 --> 01:43.030
Ne-au ajutat să înțelegem conceptul.

01:43.290 --> 01:47.790
Ei bine, acum ne vom întoarce puțin și vom înțelege exact ce se întâmplă aici.

01:47.790 --> 01:55.420
De ce este atât de greu să calculați aceste valori în exemplul nedeterminist sau, în general, să vorbim în aceste

01:55.420 --> 01:59.570
probleme în aceste medii și agentul care trece prin ele.

01:59.580 --> 02:00.400
De ce este.

02:00.510 --> 02:03.030
De ce poate fi atât de greu să calculați aceste valori.

02:03.030 --> 02:09.010
Ei bine, când te gândești la asta pentru că atunci când agentul se mișcă de exemplu de aici

02:09.090 --> 02:15.270
spre dreapta, el nu se mișcă mereu în felul ăsta, uneori ca o șansă că va merge să câștige,

02:15.450 --> 02:22.290
în loc să meargă drept, așa că să numim aceste sud-vest nord-est așa că este un fel de a merge spre vest.

02:22.470 --> 02:27.360
Agentul ar putea merge uneori spre sud și, de exemplu, de aici merg cam spre nord.

02:27.360 --> 02:29.220
Poate merge uneori spre est.

02:29.460 --> 02:30.240
Îmi pare rău.

02:30.240 --> 02:34.680
Deci, în loc să meargă la est, s-ar putea să se ducă uneori la sud și să meargă spre nord.

02:34.710 --> 02:40.200
Poate merge uneori spre est sau spre vest, iar aici, în loc să meargă spre nord, ar putea merge uneori spre vest sau spre est sau spre vest

02:40.200 --> 02:41.160
și așa mai departe.

02:41.160 --> 02:47.010
Deci, deci, pentru a calcula această valoare, trebuie să știți ce este această valoare, dar este interesant faptul că

02:47.010 --> 02:51.110
pentru a calcula această valoare trebuie să știți ce este această valoare.

02:51.120 --> 02:56.790
Deci, se întâmplă o mulțime de recursiuni aici și, prin urmare, nu puteți decide doar să definiți aceste

02:56.790 --> 02:57.340
valori.

02:57.360 --> 03:01.140
Și, în plus, această recursiune nu este deterministă.

03:01.140 --> 03:06.000
Uneori se întâmplă astfel, uneori este destul de înclinat să meargă chiar în loc să te

03:06.000 --> 03:08.250
ridici și să mergi la stânga uneori.

03:08.730 --> 03:09.540
Când vrea să meargă în sus.

03:09.540 --> 03:10.520
El va merge în sus.

03:10.560 --> 03:17.460
Deci, este supusă la șansă și poate că de multe ori agentul va trece prin această cale și el va urca sus în

03:17.460 --> 03:22.050
sus și veți crede că de aici totdeauna mergeți într-un fel și valoarea statului

03:22.050 --> 03:27.370
va merge va fi bun și apoi dintr-o dată va cădea în groapă și această valoare va scădea.

03:27.620 --> 03:33.600
Și deci, puteți vedea cum există o anumită aleatorie stochastică la acest calcul pe aceste valori,

03:33.600 --> 03:35.370
deoarece toate sunt interconectate.

03:35.370 --> 03:40.920
Plus pe partea de sus ai acea întâmplare în acest mediu inerent, pentru că există un

03:40.920 --> 03:42.320
semn al procesului decizional.

03:42.540 --> 03:47.790
Deci, acolo toate acestea vin împreună și acolo vom introduce conceptul de

03:47.790 --> 03:52.370
diferență temporală care va permite agentului să calculeze aceste valori.

03:52.530 --> 03:55.560
Și aici avem de-a face cu valorile.

03:55.560 --> 03:59.390
Și de atunci am mutat deja pe valorile Q, deci asta vom lucra.

03:59.400 --> 04:01.980
Vom uita la valori uriașe.

04:02.010 --> 04:06.090
Așa cum îmi amintesc ecuația lui Belman pentru valorile q.

04:06.180 --> 04:15.090
Deci, valoarea AQ sau valoarea de a efectua un fel de acțiune A în starea s este egală cu recompensa

04:15.090 --> 04:22.770
pe care o obțineți după efectuarea acelor acțiuni imediat după efectuarea unei acțiuni plus obțineți maximul pe

04:22.770 --> 04:26.720
care îl obțineți gamma sumelor tuturor posibilelor .

04:26.910 --> 04:31.680
Deci, obțineți valoarea așteptată a statului în care veți ajunge.

04:31.680 --> 04:37.710
Așa cum vă amintiți că a existat o formulă pentru ecuația lui Beldon și acum doar pentru simplitate

04:37.710 --> 04:43.670
spunem că o vom rescrie în mod vechi și într-un fel în care am vorbit despre ecuația de

04:43.680 --> 04:45.850
bellmani înainte să știm despre sechestru.

04:45.880 --> 04:53.100
Așadar, amintiți-vă că aceasta a fost ecuația noastră Belman în sensul unui exemplu de căutare determinist, deoarece aici nu aveți acea

04:53.100 --> 04:57.600
valoare așteptată pe care nu o aveți la fel cu toate probabilitățile.

04:57.750 --> 05:03.110
Pur și simplu, ca și cum s-ar fi determinat că vei ajunge la ce stat vei ajunge și apoi

05:03.110 --> 05:05.450
îți vei spune Max în acel stat.

05:05.570 --> 05:12.170
Iar motivul pentru care îl rescriim este pur și simplu motivul numai pentru că este mai ușor să o scrieți și va fi

05:12.200 --> 05:14.550
mai ușor să cade împreună cu formula.

05:14.550 --> 05:19.340
Așa că vom aminti că am înlocuit această parte a acestui bar.

05:19.430 --> 05:25.400
Și, de asemenea, veți găsi această notație într-o mulțime de literatură, astfel că va fi mai ușor să

05:25.400 --> 05:28.310
urmăriți împreună cu alte surse dacă le studiați.

05:28.370 --> 05:35.390
Dar amintiți-vă că, în realitate, ceea ce înțelegem este această abordare probabilistică, în loc de această notație, este mai ușor

05:35.500 --> 05:39.130
să operăm acest lucru și să înțelegem ce se întâmplă.

05:39.140 --> 05:44.180
Mă simt ca și cum ar fi să privim ecuațiile, astfel încât să nu fie prea aglomerate, dar să ne

05:44.180 --> 05:48.050
amintim încă o dată că în realitate ceea ce înțelegem este această abordare probabilistică aici.

05:48.290 --> 05:52.130
Deci, de fapt, știm că Tom Silis are o privire asupra a ceea ce se întâmplă.

05:52.190 --> 06:00.350
Deci, aici este starea noastră blanară a labirintului în care nu avem valori q să vedem sau când putem, dar să nu lăsăm

06:00.500 --> 06:05.510
nimic acum, să ne uităm la una dintre stări sau una din celule.

06:05.570 --> 06:07.280
Acesta este în mod specific.

06:07.820 --> 06:11.240
Și aici avem răspunsuri pentru acțiunea de a merge.

06:11.240 --> 06:14.290
Avem o valoare q pe care o calculam.

06:14.290 --> 06:18.070
Deci nu este faptul că nu avem nici o valoare q încă avem noi facem.

06:18.080 --> 06:19.930
Dar nu ilustrăm nimic.

06:19.930 --> 06:22.520
Pur și simplu păstrăm un gol pentru simplitate.

06:22.610 --> 06:28.570
Dar avem vârsta care se plimba de ceva timp și să presupunem ipotetic că

06:28.580 --> 06:36.560
într-un fel a calculat valoarea cubului de a merge sau Norf din această stare din această celulă specifică și valorile.

06:36.560 --> 06:40.240
Q S și A și acum ceea ce avem.

06:40.240 --> 06:45.070
Deci el este în prezent cu săgeata sa albastră și agentul stă în această celulă.

06:45.590 --> 06:48.560
Și acum trebuie să-și aleagă unde va merge.

06:48.590 --> 06:57.290
Si el stie valoarea acestei actiuni mergand spre nord si asta este Senay si aici spun si inainte si motivul pentru asta este pentru ca

06:57.290 --> 07:01.940
el este inainte de a lua De fapt, el nu a actionat inca,

07:01.940 --> 07:10.760
asa ca este inca in celula si înainte de a lua acțiunea, valoarea de aici este q și SNH și acum el ia de fapt

07:10.760 --> 07:11.370
acțiunea.

07:11.390 --> 07:13.670
Deci, să spunem că decide că este cel mai bun.

07:13.670 --> 07:16.440
El ia acțiunea și se mișcă până la celulă.

07:16.730 --> 07:24.320
Ei bine, ceea ce se întâmplă acum vine după ce după ce a luat măsuri putem măsura ce este

07:24.350 --> 07:30.650
această valoare Să calculam doar această valoare valoarea recompensării pentru a lua acea acțiune plus gamma

07:30.650 --> 07:35.640
ori maximul acestei noi stări pe care tocmai a intrat prim.

07:35.640 --> 07:39.030
Și astfel, maxim în toate acțiunile posibile și aspirina.

07:39.080 --> 07:44.770
Așadar, ceea ce avem aici este valoarea de până acum a acelei acțiuni.

07:44.810 --> 07:47.650
Apoi am calculat ulterior această valoare.

07:47.660 --> 07:54.860
Dar cum vă puteți aminti din ultimele patru luni dacă ne întoarcem foarte repede din formula anterioară în care tocmai am calculat este într-adevăr valoarea

07:55.630 --> 08:02.180
care este modul în care Q este. A. a este calculat.

08:02.210 --> 08:07.930
Deci, această parte Arite a fost calculată separat, dar după ce am luat măsuri.

08:08.330 --> 08:15.470
Așa cum, înainte de a cunoaște un Q al unui S și o valoare pe care am calculat-o prin iterațiile noastre,

08:15.470 --> 08:16.860
Preuss este ceva.

08:17.000 --> 08:19.990
Deci, o valoare care este stocată în memoria noastră.

08:20.000 --> 08:26.990
Deci, la fel ca un număr pe care îl cunoaștem și acum după ce acțiunea se desfășoară, știm ce recompensă

08:27.050 --> 08:30.270
a obținut de fapt ce recompensă a primit agentul.

08:30.440 --> 08:33.320
Și putem calcula această nouă valoare.

08:33.320 --> 08:39.690
Deci, în esență, reusim să recalculăm această valoare, dar acum, cu noi informații, noua informație este răsplata pe

08:39.690 --> 08:41.120
care o avem.

08:41.600 --> 08:47.330
Și, în plus, ceea ce a rămas noi am ajuns și cât de mult se poate spune că

08:47.420 --> 08:50.540
această nouă valoare este valabilă pentru acele date specifice.

08:50.570 --> 08:54.480
Deci, care este valoarea acelei ființe în acel stat.

08:54.500 --> 09:02.060
De fapt, Cure Vanessa-Mae, dar a dat noi informații și acum diferența temporală este definită ca fiind

09:02.150 --> 09:07.700
tiddy a și s din aceste două diferențe dintre cele două.

09:07.700 --> 09:11.770
Deci, aici primul element este valoarea dvs. din afara Terra.

09:11.780 --> 09:16.250
Deci, felul lui Q de Esson, calculat după aceea.

09:16.550 --> 09:21.880
Și quvenzhané precedent A pe care le-ați stocat în memoria ta.

09:22.070 --> 09:24.170
Și astfel întrebarea este că sunt diferite.

09:24.290 --> 09:26.240
În mod ideal ar trebui să fie aceleași.

09:26.240 --> 09:31.750
În mod ideal, acest lucru ar trebui să fie același ca și acest lucru, deoarece aceasta este formula pentru calcularea acestui fapt.

09:31.790 --> 09:38.060
Dar lucrul este că nu este ceva ce noi Kalka este ceva ce avem de la dovezi empirice ceva ce avem de

09:38.060 --> 09:41.320
la trecerea prin labirint de mai multe ori și de calcul.

09:41.320 --> 09:44.330
Deci, acesta este un lucru pe care îl avem până acum.

09:44.360 --> 09:46.820
Nu este legată de actuala repetare.

09:46.820 --> 09:52.070
E ceva ce am venit cu mult timp în urmă, dar într-una din iterațiile anterioare care

09:52.070 --> 09:53.180
trec prin labirint.

09:53.510 --> 09:57.740
În timp ce acesta este un lucru pe care l-am calculat doar acum și nu

09:57.740 --> 10:04.720
există nici o garanție că ele vor fi aceleași sau din cauza aleatorie care există în labirint deoarece aceasta ar fi putut fi calculată și

10:04.750 --> 10:10.260
au văzut câteva evenimente randomizate CRN au fost declanșate și acest lucru pot fi chemați la evenimente diferite întâmplătoare întâmplătoare

10:10.300 --> 10:11.290
au fost declanșate.

10:11.740 --> 10:15.680
Și acum scriem eroii noștri doar să ne mișcăm acolo.

10:15.700 --> 10:16.900
Deci, cum folosim acest lucru.

10:16.900 --> 10:20.470
Întrebarea este OK, deci avem această diferență temporală.

10:20.470 --> 10:21.340
Cum folosim acest lucru.

10:21.400 --> 10:23.450
Și de ce se numește diferența temporală.

10:23.590 --> 10:28.960
Ei bine, motivul este numit diferența temporală este pentru că esti în esență calcularea aceluiași lucru pe

10:28.990 --> 10:33.460
care îl calculați Q din S și A, deci valoarea Q a acelei acțiuni.

10:33.640 --> 10:36.140
Calculatorul tău aici și tu îl calculezi aici.

10:36.340 --> 10:38.310
Dar diferența este timpul.

10:38.320 --> 10:44.140
Acesta este Q din S și anterior acesta este yo Q al lui S și A.

10:44.140 --> 10:49.090
Acum, vindecarea ta nouă este înnăscută și întrebarea este că a existat o diferență.

10:49.090 --> 10:51.700
Au trecut o schimbare în timp.

10:52.060 --> 10:56.830
Și cum putem folosi acest lucru în avantajul nostru dacă într-adevăr a fost o schimbare în timp.

10:57.040 --> 11:02.790
Un lucru pe care am putea să-l facem este să putem spune că bine știi că ne-am cunoscut. A. a nu.

11:02.830 --> 11:07.490
Această nouă valoare nu este egală cu cea veche, așa că vom scăpa de vechime sau vom uita de vechiul

11:07.510 --> 11:09.610
și vom folosi doar aceasta este o valoare nouă.

11:09.970 --> 11:11.920
Dar asta nu ar fi deștept.

11:11.950 --> 11:17.960
Iar motivul pentru asta este că în mediile noastre se întâmplă uneori evenimente aleatorii.

11:18.140 --> 11:25.500
Și dacă vechiul nostru QSA de s. A. a a fost ceva care se întâmplă în mod constant ca 80 la sută din timp.

11:25.780 --> 11:28.750
Și apoi a fost reprezentată de ceea ce se întâmplă în proporție de 80% din timp.

11:28.750 --> 11:33.280
Și apoi acest nou lucru ce sa întâmplat din cauza aleatoriei.

11:33.280 --> 11:39.610
În acest caz, vom renunța la cel care este responsabil pentru cea mai mare parte a situației și o vom

11:39.760 --> 11:43.900
înlocui cu ceva care se întâmplă doar 10 sau 20% din timp.

11:43.900 --> 11:50.650
Aceasta nu ar fi cea mai bună abordare și de aceea tocmai de aceea nu vrem să schimbăm

11:50.650 --> 11:51.990
complet valorile Opu.

11:52.060 --> 11:56.890
Vrem să le folosim ca și cum le schimbați pas cu pas puțin câte puțin.

11:56.890 --> 12:01.980
Și de aceea vom folosi această diferență temporală într-un mod specific, așa că vom spune că este

12:02.020 --> 12:05.080
o formulă pe care o vom lua de la SNH.

12:05.560 --> 12:07.120
Și o vom actualiza în așa fel.

12:07.120 --> 12:12.450
Vom lua vechea valoare a vindecării Senay și vom adăuga de cinci ori

12:12.460 --> 12:13.380
diferența temporală.

12:13.420 --> 12:15.730
Deci, Alpha va învăța totul corect.

12:15.730 --> 12:17.410
Acesta este un nou parametru pe care îl introducem.

12:17.410 --> 12:20.070
Asta este cât de repede este învățarea algoritmului.

12:20.080 --> 12:26.390
Deci, practic, luăm această diferență și indiferent de ce adăugăm la șarpele nostru KJo

12:26.480 --> 12:27.210
anterior.

12:27.220 --> 12:31.970
Acum, această formulă, probabil, nu are nici un sens sau ca doar că nu are sens dacă ai aici

12:31.970 --> 12:34.040
Covisint și ne dă un A aici.

12:34.060 --> 12:39.460
Este același lucru, probabil că ar trebui să ne negăm unii pe alții, dar a trebuit să rescriem acest lucru într-un

12:39.460 --> 12:40.090
mod diferit.

12:40.390 --> 12:44.080
Așa că am să vă arăt din nou, așa că am adăugat timp doar la aceste formule.

12:44.090 --> 12:48.070
Deci, aici este q t minus unul din anii precedenți.

12:48.070 --> 12:49.780
Q T minus 1 în anii precedenți.

12:49.780 --> 12:56.080
Q T Noua ar trebui să fie un cerc aici, în cerc aici, de asemenea, dar nu contează și aici obține diferența

12:56.080 --> 12:56.750
temporală alfa.

12:56.810 --> 12:58.750
Apoi, tu diferența temporală curentă.

12:58.750 --> 13:01.190
Așa că puteți vedea ce facem noi spunem.

13:01.220 --> 13:04.200
OK să ne luăm curentul.

13:04.240 --> 13:10.880
Q va fi egal cu toate cele precedente Q plus orice diferență temporală am găsit Times Alpha.

13:11.150 --> 13:16.330
Această formulă este inima și sufletul algoritmului de învățare cub.

13:16.330 --> 13:18.250
Acesta este modul în care este sau este actualizat cubul.

13:18.280 --> 13:24.460
Și este bine că am învățat deja ce valori q sunt ceea ce este ceea ce este gamma și ce sunt toate

13:24.460 --> 13:25.300
aceste lucruri.

13:25.420 --> 13:31.740
Și acum tot ce trebuie să vedem este că ai o valoare Q anterioară Da, asta e bine.

13:31.990 --> 13:37.870
Și apoi ce se poate întâmpla este că atunci când luați în considerare când faceți efectiv acțiunea atunci când

13:37.870 --> 13:42.530
agentul ia măsuri, veți ști că va primi o recompensă și va ajunge într-un stat.

13:42.610 --> 13:46.400
Și astfel bazat pe asta el poate calcula Aha.

13:46.420 --> 13:53.220
OK, deci ce ar fi ceea ce ar fi fost ceea ce ar fi trebuit să fie valoarea Q a acelei mișcări pe care am făcut-o.

13:53.530 --> 13:56.390
Și acum aceasta este partea din ecuație.

13:56.470 --> 14:02.870
Scăderea valorii Q vechi vă face o diferență temporală și acum trebuie să luați o diferență de eșantion de

14:02.920 --> 14:05.410
timp Alpher și așa ajungi să ajustați.

14:05.430 --> 14:06.370
Te-am înțeles.

14:06.370 --> 14:10.240
Cred că te duci și acum doar ca să termini asta.

14:10.240 --> 14:14.890
Acest lucru este un fel de acest lucru este suficient pentru a înțelege ce se întâmplă, ci doar pentru

14:14.890 --> 14:18.370
a clarifica lucrurile chiar mai mult sau, poate, poate confunda lucrurile chiar mai mult.

14:18.460 --> 14:23.320
Ce trebuie să facem pentru a lua această diferență temporală sau această diferență simplă sau aici o modalitate de a conecta-o

14:23.320 --> 14:24.180
în acest format.

14:24.190 --> 14:29.840
Așa că vom lua toată această parte și vom conecta la această formulă și vom ajunge cu o ecuație imensă.

14:29.920 --> 14:31.490
Deci, aici mergem.

14:31.660 --> 14:32.590
E ecuația noastră.

14:32.590 --> 14:38.470
Deci, aceasta este ecuația completă cu diferența temporală scrisă complet.

14:38.560 --> 14:43.690
Iar motivul pentru care l-am scris mai întâi de toate, probabil veți găsi acest lucru în

14:43.690 --> 14:45.560
altă literatură dacă îl studiați.

14:45.730 --> 14:50.810
Și al doilea lucru este că face unele lucruri un pic mai complexe cu formule mai lungi, dar fac

14:50.810 --> 14:52.300
și eu ceva mai clar.

14:52.300 --> 14:55.940
De exemplu, puteți vedea aici rolul Alpha.

14:55.960 --> 14:58.310
O poți vedea mai bine pentru că te uiți la asta.

14:58.320 --> 14:58.860
Aici.

14:58.900 --> 15:01.410
Q T minus una și aici te duci.

15:01.420 --> 15:03.760
Q T minus unul cu semnul negativ.

15:03.760 --> 15:12.170
Deci, dacă conectați Alpha egal la 1 dacă introduceți un 1 aici, acest lucru va nega acest lucru.

15:12.190 --> 15:16.170
Deci se vor distruge reciproc și tot ce ai lăsat este această parte.

15:16.480 --> 15:23.080
Și ce înseamnă asta este exact situația în care am spus bine, așa că ai o nouă valoare pe care ar

15:23.140 --> 15:24.750
fi trebuit să o faci.

15:24.850 --> 15:29.570
Să ne actualizăm valoarea Q cu noua valoare și să uităm de ceea ce am avut înainte.

15:29.710 --> 15:35.470
Și cum am discutat nu este cea mai bună abordare, deoarece aici sunt evenimente aleatorii și vrem să actualizăm

15:35.470 --> 15:36.820
pas cu pas lucrurile.

15:37.530 --> 15:43.590
Și pe de altă parte, dacă ai spus Alpher egal cu zero ceea ce se întâmplă atunci este că uiți complet

15:43.590 --> 15:48.960
de această parte întreagă și ești drăguț că cea nouă sau cea actuală va fi întotdeauna egală cu

15:48.960 --> 15:51.720
cea anterioară, așa că ești nu va învăța nimic.

15:51.720 --> 15:56.730
Și asta înseamnă că tot ceea ce se întâmplă în labirint nu contează pentru că v-ați decis cu privire la valoarea dvs. Kuchi

15:56.730 --> 15:58.940
cu mult timp în urmă și voi o veți păstra.

15:59.230 --> 16:03.200
De aceea, Alfas nu ar trebui să fie 0 sau ar trebui să fie una, ar trebui să fie undeva între ele.

16:03.240 --> 16:09.330
Și vă va permite să învățați încețișor pas cu pas vă va permite ca și dumneavoastră sau agentul pe

16:09.360 --> 16:12.720
măsură ce trece prin labirint va obține diferența temporală.

16:12.960 --> 16:19.530
Și, încet dar sigur, această valoare va fi actualizată și actualizată și ceea ce se va întâmpla în

16:19.680 --> 16:25.440
cele din urmă este că la un moment dat sperăm că algoritmul va converge.

16:25.710 --> 16:30.960
Și ceea ce înseamnă asta este că această diferență temporală va începe să devină din ce în ce

16:30.960 --> 16:37.860
mai aproape de zero și în cele din urmă va fi foarte bine foarte aproape de zero sau chiar de 0 0 0 0

16:37.860 --> 16:43.050
și ceea ce înseamnă că fiecare dată când noua dvs. valoare cutesie sau noua dvs. valoarea calculată.

16:43.350 --> 16:44.430
Ce ar fi trebuit să fie.

16:44.440 --> 16:49.950
Deci, nu aceasta, dar ceea ce ipotetic ar trebui să fie suficient pentru a face acest pas va fi doar egal cu

16:49.950 --> 16:51.030
valoarea dvs. precedentă Q2.

16:51.030 --> 16:55.650
Și apoi una care este zero și asta înseamnă că atunci când diferența dvs. de

16:56.070 --> 17:02.720
temperatură este zero înseamnă algoritmul dvs. sa converg și nu este cu adevărat necesar să continuați să actualizați ceea ce se întâmplă.

17:02.720 --> 17:06.270
Realizează această căutare pentru a continua să actualizeze valorile cubului.

17:06.270 --> 17:12.780
Caveat aici este că singura dată, probabil, una dintre singurele momente în care ați dori să continuați să

17:12.810 --> 17:19.140
realizați acest întreg, știți actualizarea valorilor coadă în cazul în care mediul se schimbă în mod constant.

17:19.170 --> 17:23.100
Dacă nu numai că nu este acolo, ea are doar câteva rânduri la evenimentele costice din ea.

17:23.220 --> 17:28.750
Dar mediul în sine se modifică, după cum morfingul se schimbă odată cu trecerea timpului.

17:29.040 --> 17:34.260
Deci, trebuie să învățați în mod continuu, deoarece nu este posibil să învățați totul și

17:34.260 --> 17:39.210
să găsiți politica optimă, deoarece politicile optime s-au schimbat totodată cu mediul înconjurător.

17:39.240 --> 17:44.730
În acest caz, va trebui să continuați CALKIN și diferența temporală și să calculați valorile Q.

17:44.730 --> 17:46.830
Dar altceva decât asta este o complicație suplimentară.

17:46.830 --> 17:53.370
Altfel decât acesta este modul în care actualizările valorilor Q sunt astfel încât aceasta este formula principală a algoritmului de învățare

17:54.090 --> 17:59.490
Q și acesta este un fel de versiune extinsă a acesteia și acum ar trebui să se

17:59.490 --> 18:05.250
întâlnească toate și să aibă sens de ce avem ecuația Belman și nu numai ceea ce reprezintă gewgaws,

18:05.250 --> 18:12.870
dar și modul în care agentul își dorește să-și actualizeze valorile și să găsească exact ceea ce se întâmplă în acel mediu, astfel încât să

18:12.870 --> 18:14.620
poată veni cu politica optimă.

18:14.640 --> 18:21.570
Asa ca stiu destul de multe de luat, dar speram ca ti-a placut acest tutorial si speram

18:21.570 --> 18:28.680
ca poti sa renunti la conceptele si intuitia care stau la baza valorilor tale si care este intreaga

18:28.680 --> 18:36.990
notiune de diferenta temporala si de ce este important de ce ne ajuta sa ne instruim treptat agenții și să-i facă să

18:37.050 --> 18:39.230
înțeleagă mediile în care operează.

18:39.270 --> 18:45.540
Și dacă doriți să aflați mai multe despre diferențele temporale, atunci o lucrare foarte

18:45.540 --> 18:52.470
populară învață să prezicăți prin metodele diferențelor temporale de Richard Sutton de la optsprezece optzeci și opt.

18:52.620 --> 18:57.060
Deja am avut o referință de Richard Sutton, dar acesta este un altul

18:57.060 --> 19:04.620
și de fapt are o carte, așa că, dacă intri în tine, știi stilul său de scriere și stilul său de comunicare, apoi verifică

19:04.620 --> 19:05.660
și cartea sa.

19:05.810 --> 19:08.630
Este un fel de versiune mai extinsă a tuturor acestor lucruri.

19:08.640 --> 19:12.820
Nu am citit cartea, dar asta îmi imaginez în același timp.

19:12.960 --> 19:19.530
Acest lucru va adăuga la lucrare și puteți învăța ceva mai mult sau, probabil, mult mai multe despre

19:19.530 --> 19:21.050
diferențele temporale de acolo.

19:21.300 --> 19:22.950
Și sper că ți-a plăcut și ea.

19:23.060 --> 19:24.270
Ne vedem data viitoare.

19:24.270 --> 19:26.250
Până atunci, bucurați-vă de AI.