WEBVTT

00:01.050 --> 00:04.450
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:04.650 --> 00:07.420
Vandaag hebben we het over het tijdsverschil.

00:07.980 --> 00:14.250
Nu is het een heel belangrijke wereld omdat tijdsverschil het hart en de ziel is van het

00:14.250 --> 00:14.790
cue-leeralgoritme.

00:15.000 --> 00:21.910
Dit is eigenlijk hoe alles wat we tot nu toe hebben geleerd samenkomt in het spel binnen het leren.

00:22.290 --> 00:23.140
Dus laten we eens kijken.

00:23.790 --> 00:29.070
Denk aan de tijd dat we spraken over deterministisch versus niet-deterministisch zoeken en onthoud hoe

00:29.070 --> 00:34.290
we in dit geval zeiden: wanneer de agent omhoog wil, gaat hij zeker omhoog.

00:34.290 --> 00:38.310
En als hij in dit geval omhoog wil, is er een kans van 10 procent dat hij die kans van 10 procent overschrijdt

00:38.310 --> 00:39.090
en naar rechts gaat.

00:39.090 --> 00:40.620
En 80 procent kans dat hij goed gaat.

00:41.340 --> 00:42.120
Ga recht omhoog.

00:42.360 --> 00:46.350
Welnu, deze getallen zijn natuurlijk willekeurig en kunnen verschillen.

00:46.350 --> 00:50.610
En dit hele concept is dat het bij verschillende problemen anders kan zijn.

00:50.620 --> 00:55.500
Hij hoeft zich dus geen zorgen te maken over welke kant hij opgaat, alleen dat er wat

00:55.500 --> 00:59.520
willekeur is, iets dat buiten de controle van de agent ligt in deze omgeving.

00:59.910 --> 01:06.930
En wat dat effect had, is, zoals je je herinnert, dat het in het deterministische voorbeeld heel gemakkelijk was

01:06.930 --> 01:08.820
om de waarden te berekenen.

01:09.120 --> 01:14.190
Nou, niet altijd even gemakkelijk, maar in ons geval kunnen we ze gewoon berekenen met behulp van

01:14.190 --> 01:15.060
de Bellman-vergelijking.

01:15.060 --> 01:16.800
En we hadden de exacte waarden.

01:17.220 --> 01:24.420
En dan, zoals je je herinnert, heel zorgvuldig vermeld, dat deze waarden voor het

01:24.420 --> 01:27.540
niet-deterministische zoekvoorbeeld uit mijn hoofd zijn.

01:27.720 --> 01:30.030
Het zijn geen calculus waarvan we weten dat ze op dat moment verloren waren.

01:30.030 --> 01:33.030
Ik zei dat we dat niet doen, we gaan ze gewoon niet berekenen omdat het erg complex is.

01:33.030 --> 01:33.990
Maar de computer zou het kunnen.

01:34.590 --> 01:39.540
En we gingen gewoon akkoord met deze waarden die gewoon waarden zijn die ik heb verzonnen.

01:39.540 --> 01:41.220
Maar ze hebben de klus wel geklaard.

01:41.220 --> 01:42.710
Ze hielpen ons het concept te begrijpen.

01:43.200 --> 01:47.760
Welnu, we komen daar een beetje op terug en begrijpen wat hier precies aan de hand is.

01:47.760 --> 01:55.320
Waarom is het zo veel moeilijker om deze waarden te berekenen in het niet-deterministische voorbeeld of in het algemeen, in deze

01:55.320 --> 01:59.520
problemen in deze omgevingen en de agent die er doorheen gaat?

01:59.520 --> 02:02.610
Waarom kan het zo moeilijk zijn om deze waarden te berekenen?

02:02.940 --> 02:08.070
Nou, als je erover nadenkt, want als de agent bijvoorbeeld van hier naar rechts beweegt,

02:08.070 --> 02:14.360
beweegt hij niet altijd die kant op, soms als een kans dat hij naar de to when gaat in

02:14.370 --> 02:18.600
plaats van rechtdoor te gaan of laten we deze NSW noemen.

02:18.600 --> 02:24.120
Dus in plaats van naar het westen te gaan, kan de agent soms naar het zuiden gaan.

02:24.600 --> 02:28.770
En bijvoorbeeld van hier, in plaats van naar het noorden te gaan, zou hij soms naar het oosten kunnen gaan.

02:29.340 --> 02:30.200
Zo jammer.

02:30.210 --> 02:35.010
Dus hier, in plaats van naar het oosten te gaan, zou hij soms naar het zuiden kunnen gaan en hier in plaats van naar het

02:35.010 --> 02:40.560
noorden, zou hij soms naar het oosten of westen kunnen gaan en hier in plaats van naar het noorden, zou hij soms naar het westen, oosten of westen kunnen

02:40.560 --> 02:40.950
gaan, enzovoort.

02:40.980 --> 02:46.110
Dus en dus zo om deze waarde te berekenen, zou je moeten weten wat deze waardes zijn.

02:46.620 --> 02:50.460
Maar het interessante is dat om deze waarde te berekenen, je moet weten wat deze waarde

02:50.460 --> 02:50.780
is.

02:51.000 --> 02:57.260
Er vindt hier dus veel recursie plaats en daarom kun je niet zomaar definiëren wat deze waarden zijn.

02:57.270 --> 03:01.080
Bovendien is deze recursie niet deterministisch.

03:01.080 --> 03:04.890
Soms gaat het zo, soms is het bergop of rechts.

03:04.890 --> 03:07.080
Soms gaat hij naar links in plaats van omhoog te gaan.

03:07.080 --> 03:10.220
Soms, als hij omhoog wil, gaat hij omhoog.

03:10.440 --> 03:12.810
Het is dus aan het toeval onderhevig.

03:12.810 --> 03:17.880
En misschien gaat het dan vaak via dit pad en gaat hij omhoog, omhoog, omhoog, omhoog, omhoog.

03:17.880 --> 03:20.760
En hij zal denken dat hij vanaf hier altijd een beetje omhoog gaat.

03:20.760 --> 03:22.920
En dus zal de waarde van de staat gaan, het zal goed zijn.

03:22.920 --> 03:27.050
En dan valt hij ineens in de put en daalt deze waarde.

03:27.480 --> 03:33.390
En daarom kun je zien dat er enige toxiciteit of willekeur is in deze hele berekening op deze waarden, omdat ze

03:33.390 --> 03:35.100
allemaal met elkaar verbonden zijn.

03:35.220 --> 03:40.740
Bovendien heb je die willekeur die inherent is aan de omgeving, omdat er een teken is van

03:40.740 --> 03:41.700
het besluitvormingsproces.

03:42.420 --> 03:45.180
Dus daar komt dit allemaal samen.

03:45.180 --> 03:49.560
En daar gaan we het concept van het tijdsverschil introduceren, waardoor de

03:49.770 --> 03:52.050
agent deze waarden kan berekenen.

03:52.350 --> 03:55.470
En hier hadden we te maken met de waarden.

03:55.470 --> 03:57.570
En sindsdien zijn we al overgegaan op kernwaarden.

03:57.570 --> 03:59.310
Daar gaan we dus mee aan de slag.

03:59.310 --> 04:01.500
We gaan kijken naar kernwaarden.

04:01.920 --> 04:05.700
Dus als ik me goed herinner, is dit onze Bellmon-vergelijking voor Kuis-waarden.

04:06.090 --> 04:14.940
Dus een sleutelwaarde of de waarde van het uitvoeren van een soort actie A in toestand s is gelijk aan de beloning die je krijgt

04:14.940 --> 04:17.160
na het uitvoeren van die actie.

04:17.160 --> 04:25.890
Dus direct na die actie, plus je krijgt het maximum, krijg je de gamer van de som van al het

04:25.890 --> 04:26.370
mogelijke.

04:26.850 --> 04:30.990
Dus je krijgt een beetje de verwachte waarde van de staat waarin je terechtkomt.

04:31.590 --> 04:34.530
Dus zoals je je herinnert, was er onze formule voor de bel in de vergelijking.

04:35.130 --> 04:41.580
En nu, voor de eenvoud, gaan we het op de ouderwetse manier herschrijven, op de manier waarop

04:41.580 --> 04:45.810
we over de portiersvergelijking spraken voordat we wisten van deze Tequesta-stad.

04:45.810 --> 04:52.860
Zoals u zich herinnert, was dit onze Belmond-vergelijking in de zin van een deterministisch voorbeeld, want hier heb

04:52.860 --> 04:55.160
je die verwachte waarde niet.

04:55.160 --> 04:57.360
Je hebt niet de som die over alle kansen gaat.

04:57.600 --> 05:00.270
Je hebt dat gewoon alsof het bepaald is.

05:00.340 --> 05:04.360
Waar ga je eindigen, in welke staat ga je eindigen en dan haal je het maximum

05:04.360 --> 05:11.470
in die ene staat en de reden dat we het herschrijven is gewoon de enige reden is omdat het gewoon gemakkelijker is om te schrijven het en het

05:11.470 --> 05:14.500
zal gemakkelijker zijn om gewoon mee te gaan met de formule.

05:14.510 --> 05:19.000
Dus we gaan onthouden dat we dit onderdeel hebben vervangen door deze balk.

05:19.270 --> 05:23.290
En je zult deze notatie ook in veel literatuur vinden.

05:23.290 --> 05:28.060
Het zal dus gemakkelijker voor je zijn om samen met andere bronnen te volgen als je die bestudeert.

05:28.270 --> 05:35.380
Maar onthoud dat we in feite deze probabilistische benadering hier bedoelen in plaats van deze notatie, het is gewoon gemakkelijker voor ons om

05:35.380 --> 05:40.030
dit te bedienen en te begrijpen wat er aan de hand is en gewoon naar

05:40.030 --> 05:42.240
de vergelijkingen te kijken zodat ze rommelig.

05:42.700 --> 05:47.230
Maar nogmaals, onthoud dat we in feite deze probabilistische benadering hier bedoelen.

05:48.100 --> 05:50.060
En dus zijn we eigenlijk bijna klaar.

05:50.080 --> 05:52.080
Dus laten we eens kijken wat er aan de hand is.

05:52.090 --> 05:56.370
Dus hier is onze lege staat van het doolhof.

05:56.380 --> 05:57.910
We hebben geen kernwaarden.

05:58.270 --> 05:58.870
Laten we eens kijken.

05:58.870 --> 06:01.450
Of misschien wel, maar laten we het voorlopig even blanco houden.

06:01.660 --> 06:06.490
Laten we eens kijken naar een van de toestanden, een van de cellen, deze specifiek.

06:07.660 --> 06:11.170
En hier hebben we bijvoorbeeld voor de actie van omhoog gaan.

06:11.170 --> 06:14.200
We hebben een nieuwe waarde die we hebben berekend.

06:14.220 --> 06:16.930
Het is dus niet dat we nog geen nieuwe waarden hebben.

06:16.930 --> 06:19.870
Dat doen we, maar we illustreren gewoon niets.

06:19.870 --> 06:22.330
We houden gewoon een blanco ter wille van de eenvoud.

06:22.510 --> 06:25.480
Maar het bureau loopt al een tijdje rond.

06:25.480 --> 06:33.850
En laten we hypothetisch zeggen dat hij op de een of andere manier deze waarde heeft berekend van omhoog of naar het noorden gaan

06:33.850 --> 06:40.150
vanuit deze staat, vanuit deze specifieke cel en de waardenvraag en a en nu wat we hebben.

06:40.150 --> 06:47.050
Dus hij staat momenteel met zijn blauwe pijlen naar de agent te wijzen die in deze cel zit en nu moet hij een

06:47.050 --> 06:47.710
keuze maken.

06:47.710 --> 06:48.460
Waar gaat hij heen?

06:48.460 --> 06:51.900
En hij kent de waarde hiervan van de actie die naar het noorden gaat.

06:51.910 --> 06:54.610
En dat is Kuseni.

06:54.610 --> 07:00.160
En hier zeg ik eerder en de reden daarvoor is dat hij die is voordat hij actie onderneemt.

07:00.160 --> 07:01.540
Hij heeft nog geen actie ondernomen.

07:01.540 --> 07:02.830
Hij zit dus nog in de cel.

07:03.220 --> 07:11.280
En voordat hij de actie ondernam, is de waarde hier een ESSANY en nu onderneemt hij daadwerkelijk de actie.

07:11.290 --> 07:13.590
Dus laten we zeggen dat hij beslist dat dit de beste is.

07:13.600 --> 07:16.100
Hij onderneemt de actie en gaat naar deze cel.

07:16.630 --> 07:20.710
Welnu, wat er nu gebeurt, komt erna.

07:20.710 --> 07:24.310
Dus nadat hij actie heeft ondernomen, kunnen we meten wat deze waarde doet.

07:24.310 --> 07:29.020
Laten we gewoon deze waarde berekenen, de waarde van de beloning voor het ondernemen van die actie.

07:29.020 --> 07:34.980
Plus gamma keer het maximum van deze nieuwe staat waar hij net in is gekomen als prime.

07:35.470 --> 07:38.360
En dus het maximale over alle mogelijke acties in Espero.

07:38.920 --> 07:44.680
En dus wat we hier hebben, is de waarde ervoor in al die actie.

07:44.680 --> 07:47.590
En dan hebben we deze statistiek achteraf berekend.

07:47.600 --> 07:50.790
Maar zoals u zich kunt herinneren uit de vorige formule.

07:50.800 --> 07:58.830
Dus als we heel snel teruggaan van de vorige formule waar we gewoon uitrekenen dat het inderdaad de waarde is,

07:58.840 --> 08:01.340
zo wordt Q van Santé berekend.

08:02.110 --> 08:03.720
Dus deze juiste pi?

08:03.730 --> 08:07.310
We hebben het zojuist apart berekend, maar nadat we actie hebben ondernomen.

08:08.230 --> 08:14.530
Dus zoals ik al eerder kenden we een Q van een geschatte waarde, iets dat we hebben berekend

08:14.530 --> 08:16.330
door onze iteraties produceert iets.

08:16.870 --> 08:19.890
Dus een waarde die in ons geheugen is opgeslagen.

08:19.900 --> 08:21.670
Dus net als een nummer dat we kennen.

08:22.030 --> 08:29.050
En nu, nadat de acties zijn uitgevoerd, weten we welke beloning hij daadwerkelijk heeft gekregen, welke beloning de agent

08:29.050 --> 08:33.250
daadwerkelijk heeft gekregen, en kunnen we deze nieuwe waarde berekenen.

08:33.280 --> 08:36.880
Dus in wezen herberekenen we deze waarde.

08:36.880 --> 08:43.060
Maar nu met nieuwe informatie, de nieuwe informatie is de beloning die we hebben gekregen en plus waar STADA in

08:43.060 --> 08:48.370
is beland en wat het maximum is in die staat, waar deze nieuwe waarde voor is.

08:48.580 --> 08:50.500
Dat is een specifieke datum waar we naar kijken.

08:50.530 --> 08:54.370
Dus wat is de waarde van dat wezen in die staat?

08:54.430 --> 09:02.050
Dus eigenlijk de Q van de NSA, maar gezien de nieuwe informatie en nu wordt het temporele verschil gedefinieerd als

09:02.050 --> 09:07.630
de tee'd van activa van deze twee van het verschil tussen deze twee.

09:07.660 --> 09:11.400
Dus hier is het eerste element dat je gaat waarderen.

09:11.650 --> 09:19.090
Dus het soort Q van S en A maar achteraf berekend en de vorige Q van An S en A die

09:19.090 --> 09:21.370
je in je geheugen had opgeslagen.

09:21.910 --> 09:23.980
En dus is de vraag, zijn ze anders.

09:24.160 --> 09:25.790
Dus idealiter zouden ze hetzelfde moeten zijn.

09:26.110 --> 09:31.650
Idealiter zou dit hetzelfde moeten zijn als dit, simpelweg omdat dit de formule is om dit te berekenen.

09:31.660 --> 09:34.950
Maar het punt is dat dit niet iets is dat we berekenen.

09:34.960 --> 09:39.760
Dit is iets dat we hebben van empirisch bewijs, iets dat we hebben door gewoon vaak door het doolhof

09:39.760 --> 09:41.240
te gaan en te berekenen.

09:41.260 --> 09:43.770
Dus dit is iets wat we tot nu toe hebben bedacht.

09:44.200 --> 09:46.750
Het is niet gerelateerd aan de huidige iteratie.

09:46.750 --> 09:50.050
Het is iets dat we eerder bedachten, lang, lang geleden.

09:50.050 --> 09:54.970
Maar in een van onze vorige iteraties gaan we door het doolhof, terwijl dit iets is dat we zojuist

09:54.970 --> 09:58.180
hebben berekend en er geen garantie is dat ze hetzelfde zullen zijn.

09:59.310 --> 10:05.970
Vanwege de willekeur die in het doolhof bestaat, omdat dit had kunnen worden berekend en sommige bepaalde

10:05.970 --> 10:10.830
willekeurige gebeurtenissen zijn geactiveerd en dit kan een andere willekeurige gebeurtenis zijn.

10:11.580 --> 10:13.980
En laten we dat nu hier herschrijven.

10:14.010 --> 10:15.120
Laten we het daarheen verplaatsen.

10:15.630 --> 10:16.800
Dus hoe gebruiken we dit?

10:16.830 --> 10:19.740
De vraag is, oké, dus we hebben dit temporele verschil.

10:20.400 --> 10:23.250
Hoe gebruiken we dit en waarom wordt het een tijdsverschil genoemd?

10:23.490 --> 10:28.920
Welnu, de reden dat het tijdsverschil wordt genoemd, is omdat je in feite hetzelfde berekent.

10:28.920 --> 10:30.750
Je berekent wachtrij van Essany.

10:30.750 --> 10:35.910
Dus de wachtrijwaarde van die actie bereken je hier en je berekent het hier.

10:36.270 --> 10:37.950
Maar het verschil is de tijd.

10:38.220 --> 10:41.330
Dit is uw wachtrij van santé voorheen.

10:41.760 --> 10:43.680
Dit is uw wachtrij van Essany.

10:43.980 --> 10:45.510
Nu ben je nucleair.

10:45.510 --> 10:46.040
Vicini.

10:46.050 --> 10:49.020
En de vraag is, is er een verschil geweest?

10:49.020 --> 10:54.960
Is dit de verschuiving tussen hen in de tijd en hoe kunnen we dit in ons voordeel gebruiken als er inderdaad een verschuiving

10:54.960 --> 10:56.520
in de tijd heeft plaatsgevonden?

10:56.940 --> 11:02.730
Wel, één ding zouden we kunnen doen, we kunnen zeggen, oké, wel, weet je, onze wachtrij van santé is niet dat deze

11:02.790 --> 11:04.770
nieuwe waarde niet gelijk is aan oud.

11:04.770 --> 11:09.350
Dus we gaan van het oude af, we zullen het oude vergeten en we gebruiken dit gewoon als onze nieuwe waarde.

11:09.870 --> 11:11.840
Maar dat zou niet slim zijn.

11:11.850 --> 11:17.610
En de reden daarvoor is dat er in onze omgeving soms willekeurige gebeurtenissen kunnen plaatsvinden.

11:17.970 --> 11:24.630
En wat als onze oude QSA van Essany iets was dat, weet je, consequent in 80 procent van de tijd gebeurt

11:24.630 --> 11:28.620
en dan wordt vertegenwoordigd door wat 80 procent van de tijd gebeurt?

11:28.620 --> 11:32.400
En dan deze nieuwe, precies wat er gebeurde door willekeur.

11:33.090 --> 11:39.630
In dat geval gooien we degene die verantwoordelijk is voor het grootste deel van de situatie weg.

11:39.630 --> 11:43.410
En we gaan het vervangen door iets dat maar 10 of 20 procent van de tijd gebeurt.

11:43.800 --> 11:46.900
Dat zou niet de beste manier zijn om te gaan.

11:46.920 --> 11:51.720
En dat is precies waarom we onze kernwaarden niet volledig willen veranderen.

11:51.930 --> 11:56.490
We willen gebruik maken van, zoals, stap voor stap veranderen, beetje bij beetje.

11:56.730 --> 12:00.750
En daarom gaan we dit temporele verschil op een specifieke manier gebruiken.

12:00.750 --> 12:06.480
Dus we gaan zeggen, hier is een formule, we gaan onze cue van Sané nemen en we gaan het op zo'n

12:06.480 --> 12:07.050
manier bijwerken.

12:07.050 --> 12:12.840
We nemen de oude waarde van Kuseni en we gaan alfa maal het tijdsverschil optellen.

12:13.320 --> 12:15.570
Dus Alpha wordt een leertempo.

12:15.600 --> 12:17.330
Dat is een nieuwe parameter die we introduceren.

12:17.340 --> 12:19.390
Zo snel leert algoritme.

12:19.980 --> 12:26.670
Dus eigenlijk nemen we dit verschil en wat het ook is, we voegen het toe aan onze vorige CUBICIN.

12:27.120 --> 12:31.710
Nu, deze formule slaat waarschijnlijk nergens op, of gewoon door te kijken, het slaat nergens op omdat

12:31.710 --> 12:33.930
je hier nieuwsgierig bent en Krsna hier.

12:33.930 --> 12:34.640
Het is hetzelfde.

12:34.650 --> 12:36.780
Dus waarschijnlijk moeten ze elkaar ontkennen.

12:36.780 --> 12:39.710
Maar we moeten dit op een iets andere manier herschrijven.

12:40.290 --> 12:44.070
Dus ik ga het je gewoon nog een keer laten zien, dus ik voeg gewoon tijd toe aan deze formules.

12:44.080 --> 12:50.280
Dus hier is Q T min één het voorgaande jaar, Q T min één het voorgaande jaar Kutty.

12:50.280 --> 12:53.790
Het nieuwe jaar zou hier een cirkel moeten zijn, een cirkel hier ook, maar dat geeft niet.

12:54.060 --> 12:58.230
En hier hebben we een alfa-temporeel verschil, het nieuwe het huidige temporele verschil.

12:58.650 --> 13:00.150
Zodat u kunt zien wat we aan het doen zijn.

13:00.480 --> 13:08.190
We zeggen OK, laten we aannemen dat onze huidige Q gelijk zal zijn aan onze vorige Q plus welk tijdsverschil we

13:08.190 --> 13:10.410
ook hebben gevonden maal alfa.

13:11.070 --> 13:15.960
Deze formule hier is het hart en de ziel van het Q-leeralgoritme.

13:16.200 --> 13:22.620
Dit is hoe de Q wordt bijgewerkt en het is goed dat we al hebben geleerd wat Q-waarden zijn, wat Gamma is, wat

13:22.620 --> 13:24.780
R is en wat dit allemaal is.

13:25.260 --> 13:29.930
En nu hoeven we alleen nog te zien dat je een eerdere Q-waarde hebt.

13:30.300 --> 13:31.380
Ja dat is goed.

13:31.800 --> 13:37.800
En wat er dan kan gebeuren, is dat wanneer je actie onderneemt terwijl je daadwerkelijk de actie onderneemt, wanneer de agent actie onderneemt,

13:37.800 --> 13:42.240
hij weet dat hij een beloning zal krijgen en dat hij in een staat zal eindigen.

13:42.450 --> 13:50.040
En op basis daarvan kan hij berekenen, aha, oké, dus wat zou de Q-waarde moeten zijn van die

13:50.040 --> 13:56.190
zet die ik deed en dat is nu dit deel van de vergelijking.

13:56.310 --> 14:02.850
Door de oude Q-waarde af te trekken, krijgt u uw tijdsverschil en nu moet u een centraal verschil van het alfatype

14:02.850 --> 14:05.790
nemen en zo wordt u aangepast aan de waarde.

14:05.790 --> 14:08.390
Dat is wat je nu gaat aanpassen aan de waarde.

14:08.430 --> 14:13.140
Om dit af te ronden, dit is een beetje zoals dit is voldoende om te begrijpen wat er

14:13.380 --> 14:19.050
aan de hand is, maar om de zaken nog meer te verduidelijken of misschien nog meer te verwarren, wat moeten we doen

14:19.050 --> 14:22.290
is dat we deze tijdelijke verschil of dit tijdelijke verschil hier.

14:22.410 --> 14:24.150
We gaan het in deze formule pluggen.

14:24.150 --> 14:29.700
Dus we nemen al dit deel en stoppen het in deze formule en eindigen met een enorme vergelijking.

14:29.820 --> 14:31.350
Hier gaan we.

14:31.530 --> 14:32.550
Daar is onze vergelijking.

14:32.550 --> 14:38.280
Dit is dus de volledige vergelijking met het tijdsverschil volledig uitgeschreven.

14:38.430 --> 14:43.500
En de reden dat ik dit heb opgeschreven is, ten eerste, je zult dit waarschijnlijk in andere literatuur

14:43.500 --> 14:45.030
vinden als je het bestudeert.

14:45.570 --> 14:48.540
En het tweede is dat het sommige dingen een beetje ingewikkelder maakt.

14:48.550 --> 14:51.910
Ja, de formule is langer, maar maakt ook het een en ander wat duidelijker.

14:52.200 --> 14:55.860
Zo zie je hier bijvoorbeeld de rol Alpha Place.

14:55.860 --> 14:58.200
Je kunt het beter zien, want kijk hier eens naar.

14:58.200 --> 14:58.650
Hier heb je.

14:58.820 --> 15:06.080
Q, t min één, en hier heb je Q, T min één met een negatief teken, dus als je Alpha

15:06.080 --> 15:12.110
invoegt gelijk aan één, als je hier een één plaatst, dan wordt dit hiermee teniet gedaan.

15:12.110 --> 15:13.400
Dus ze zullen elkaar vernietigen.

15:13.730 --> 15:15.710
En alles wat je nog hebt, is dit deel.

15:16.310 --> 15:22.790
En wat dat betekent is precies die situatie waarin we zeiden, oké, dus we hebben een nieuwe waarde, wat

15:22.790 --> 15:24.530
het ook had moeten zijn.

15:24.710 --> 15:29.150
Laten we onze Q-waarde van de nieuwe waarde bijwerken en vergeten wat we eerder hadden.

15:29.570 --> 15:35.420
En zoals we hebben besproken, is dit niet de beste aanpak omdat er hier willekeurige gebeurtenissen zijn en we de dingen stap

15:35.420 --> 15:36.590
voor stap willen bijwerken.

15:37.370 --> 15:43.280
En aan de andere kant, als je alfa gelijk aan nul zegt, wat er dan gebeurt, is dat je dit

15:43.280 --> 15:48.890
hele deel en je Q t volledig vergeet, de nieuwe of de huidige zal altijd gelijk zijn aan de

15:48.890 --> 15:49.430
vorige.

15:49.440 --> 15:51.250
Je gaat dus niets leren.

15:51.560 --> 15:56.690
En dat betekent dat wat er ook gebeurt in het doolhof er niet toe doet, want je hebt lang geleden je cuchi-waarde

15:56.690 --> 15:58.640
bepaald en je gaat het gewoon houden.

15:59.100 --> 16:01.490
En daarom zou Alpha niet nul moeten zijn of één moeten zijn.

16:01.850 --> 16:03.140
Het zou ergens tussenin moeten zitten.

16:03.140 --> 16:08.900
En het zal je in staat stellen om langzaam te leren, stap voor stap zal je toelaten om, als jouw of

16:08.900 --> 16:12.500
de agent, terwijl het door het doolhof gaat, dit temporele verschil te krijgen.

16:12.830 --> 16:17.500
En langzaam maar zeker wordt deze waarde bijgewerkt en bijgewerkt.

16:17.900 --> 16:25.190
En wat er uiteindelijk zal gebeuren, is dat op een gegeven moment, hopelijk, het algoritme zal convergeren.

16:25.550 --> 16:30.920
Dat betekent dat dit temporele verschil steeds dichter bij nul zal komen en uiteindelijk zullen

16:30.920 --> 16:35.180
we heel dicht bij nul komen, zelfs nul nul nul nul.

16:35.420 --> 16:42.620
En wat dat betekent is dat elke keer dat je je nieuwe Kutty-waarde of je nieuwe berekende waarde bent, wat het

16:43.310 --> 16:44.370
had moeten zijn.

16:44.390 --> 16:49.520
Dus niet deze, maar wat het hypothetisch had moeten zijn om de stap te zetten, zal net gelijk zijn aan

16:49.520 --> 16:52.290
je vorige Kutty-waarde en dan één, dan is het nul.

16:52.290 --> 16:58.130
En dat betekent dat wanneer uw temporele verschil nul is, uw algoritme is geconvergeerd en dat het niet echt nodig

16:58.130 --> 17:02.620
is om door te gaan met het bijwerken van wat er aan de hand is.

17:02.630 --> 17:05.510
Het is niet nodig om door te gaan met het bijwerken van uw Q-waarden.

17:06.200 --> 17:11.990
Het voorbehoud hier is dat de enige keer, ja, waarschijnlijk een van de weinige keren dat je nog steeds door zou

17:11.990 --> 17:16.910
willen gaan met het uitvoeren van dit hele, je weet wel, het bijwerken van je Q-waarden.

17:17.120 --> 17:22.370
Als de omgeving voortdurend verandert, is het niet alleen dat er wat

17:22.370 --> 17:28.400
willekeurige stochastische gebeurtenissen in zitten, maar de omgeving zelf verandert, verandert, verandert met de tijd.

17:29.000 --> 17:34.220
Je moet dus continu bijleren, want het lukt je niet om alles te leren en het optimale

17:34.220 --> 17:38.720
beleid te bedenken, want het optimale beleid verandert ook voortdurend met de omgeving.

17:39.110 --> 17:43.640
In dat geval moet u het tijdsverschil blijven berekenen en de Q-waarden berekenen.

17:44.630 --> 17:46.750
Maar afgezien daarvan is dat een soort extra complicatie.

17:46.760 --> 17:49.310
Anders dan dat, is dit hoe Kouvelis is bijgewerkt.

17:49.310 --> 17:56.180
Dit is dus de hoofdformule van het Q-leeralgoritme en dit lijkt een beetje op de uitgebreide versie daarvan.

17:56.180 --> 17:58.750
En nu zou het allemaal samen moeten komen.

17:58.750 --> 18:03.320
Het is logisch waarom we de Bellman-vergelijking hebben en niet alleen wat het vertegenwoordigt,

18:03.320 --> 18:11.600
de kernwaarden, maar ook hoe de agent zijn Q-waarden bijwerkt en precies vindt wat er in die omgeving aan de hand is, zodat het met

18:11.600 --> 18:13.910
het optimale beleid kan komen .

18:14.540 --> 18:20.330
Dus ik weet dat dit nogal wat is om in je op te nemen, maar hopelijk heb je genoten van

18:20.690 --> 18:25.790
de tutorial van vandaag en hopelijk heb je de onderliggende concepten en intuïtie achter de kernwaarden weggenomen.

18:25.790 --> 18:33.410
En wat is het hele idee van temporeel verschil en waarom het belangrijk is, waarom het ons helpt onze agenten

18:33.410 --> 18:38.630
langzaam te trainen en ze hun omgevingen waarin ze opereren te laten begrijpen.

18:39.140 --> 18:45.470
En als je wat meer wilt weten over temporele verschillen, dan is een zeer populair

18:45.470 --> 18:52.010
artikel over het leren voorspellen met de methoden van temporele verschillen door Richard Sutton van negentienentachtig achtenveertig.

18:52.580 --> 18:55.040
We hebben ook al een referentie van Richard Sutton gehad.

18:55.040 --> 18:57.470
Maar dit is er nog een die echt een boek heeft.

18:57.470 --> 19:04.190
Dus als je, als je ingaat op, je weet wel, zijn schrijfstijl, zijn manier van communiceren, kijk dan eens naar

19:04.190 --> 19:08.590
zijn boek, het is een soort uitgebreidere versie van al deze dingen.

19:08.600 --> 19:11.330
Ik heb het boek niet gelezen, maar dat is wat ik me inbeeld.

19:11.720 --> 19:18.170
Tegelijkertijd is dit de link naar de krant en kun je daar iets meer of waarschijnlijk

19:18.170 --> 19:20.660
veel meer leren over temporele verschillen.

19:21.140 --> 19:23.370
En ik hoop dat je geniet van vandaag kleermakerszit en ik zal citeren.

19:23.390 --> 19:24.120
Tot de volgende keer.

19:24.140 --> 19:26.210
Tot die tijd, geniet van I.