WEBVTT

00:00.910 --> 00:03.970
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:04.360 --> 00:06.850
Vandaag gaan we het hebben over de bellman-vergelijking.

00:07.480 --> 00:12.520
Het is een vrij complex onderwerp en we gaan het stap voor stap introduceren in dit hele

00:12.520 --> 00:13.930
gedeelte van de cursus.

00:13.930 --> 00:18.070
Dus we gaan niet meteen meteen naar de meest complexe versie van de Bellman-vergelijking.

00:18.070 --> 00:22.990
Maar in plaats daarvan gaan we het langzaam introduceren om geleidelijk te begrijpen hoe het werkt.

00:23.260 --> 00:25.360
En ik hoop dat je cool bent met die aanpak.

00:25.360 --> 00:28.200
Als dat zo is, laten we er dan meteen op ingaan.

00:28.570 --> 00:31.480
Dus we gaan een paar sleutelconcepten hebben.

00:31.480 --> 00:36.100
Gaan we ermee aan de slag en deze begrippen staan voor staat.

00:36.100 --> 00:43.000
Dus de staat waarin onze agent zich bevindt of elke andere mogelijke staat waarin hij een kan zijn, vertegenwoordigt een

00:43.000 --> 00:45.370
actie die een agent kan ondernemen.

00:45.370 --> 00:48.100
Een agent kan dus toegang hebben tot een bepaalde lijst met acties.

00:48.370 --> 00:53.550
En acties zijn erg belangrijk als ze in een toestandscombinatie worden bekeken.

00:53.560 --> 00:57.610
Dus als je in een bepaalde staat bent en je kijkt naar acties en het begint logisch te worden, wat zal

00:57.610 --> 00:59.020
dan het resultaat zijn van die acties?

00:59.020 --> 01:02.980
Want als je alleen naar een actie kijkt, heeft onze toestand eigenlijk geen zin omdat je niet weet waar

01:03.100 --> 01:05.290
je bent en waar je eventueel terecht kunt komen.

01:05.290 --> 01:08.890
En dan hebben we AAVE, wat staat voor beloning.

01:08.890 --> 01:13.600
En dat is de beloning die de agent krijgt voor het binnengaan van een bepaalde staat.

01:14.170 --> 01:16.930
En Gamma is de kortingsfactor.

01:16.930 --> 01:18.640
En we zullen het zo meteen hebben over de kortingsfactor.

01:18.640 --> 01:19.900
Allemaal logisch nu.

01:19.900 --> 01:25.390
Maar maak gewoon een aantekening, maak een mentale notitie dat we deze lettergamla zullen hebben waarmee we later zullen

01:25.390 --> 01:25.950
werken.

01:26.500 --> 01:30.820
Dus de persoon achter de portiersvergelijking is Richard Ernest Belmond.

01:31.270 --> 01:39.100
Hij was een toegepaste wiskundige en bedacht het concept van dynamisch programmeren, dat we nu zijn, dat we nu

01:39.100 --> 01:43.330
bekrachtigingsleren noemen, of dat we nu de Belmont-vergelijking noemen.

01:44.050 --> 01:45.400
Nou, zo noemen we het nu.

01:45.400 --> 01:52.040
En in 1953 kwam hij met dat concept, en toen kwam de Bell Beelman-vergelijking in me op.

01:52.540 --> 01:55.720
Dus laten we eens kijken hoe dit allemaal werkt.

01:56.380 --> 02:00.640
Er is een aardige agent in de linkerbenedenhoek en hij is in een doolhof.

02:00.850 --> 02:06.350
En dit is nogal een klassiek doolhof waar je een paar blokken van witte blokken hebt. Dit

02:06.350 --> 02:11.620
zijn blokken waarin een agent kan stappen in het grijze blok dat gewoon niet toegankelijk is.

02:11.620 --> 02:13.450
Dus dat is als een muur in dit doolhof.

02:13.780 --> 02:18.140
De green is waar de agent moet eindigen.

02:18.160 --> 02:19.870
Daar willen we de agent heen.

02:19.870 --> 02:20.650
Dat is de afwerking.

02:21.040 --> 02:24.670
En de rode is een vuurkorfzoekmachine voor vuurkorf.

02:24.970 --> 02:26.320
Hij zal het spel verliezen.

02:26.830 --> 02:31.240
Dus in de vuurplaats is de beloning, die ah is, min één.

02:31.250 --> 02:36.190
Dus dat is onze manier om de agent te vertellen dat we niet willen dat je dat doet.

02:36.310 --> 02:40.950
Zoals we ons het voorbeeld herinneren van wanneer we honden trainen, willen we ze vertellen, net als een slechte hond, als het

02:40.990 --> 02:42.020
niet het juiste doet.

02:42.060 --> 02:43.240
Ik wilde hier iets doen.

02:43.240 --> 02:46.940
We willen de agent vertellen dat dit niet iets is dat u zou moeten doen.

02:46.940 --> 02:48.220
Je zou niet op het plein moeten eindigen.

02:48.220 --> 02:51.100
Dus elke keer dat het niet op het plein staat, krijg je een min één beloning.

02:51.100 --> 02:53.050
Dus je wordt gestraft met een min één beloning.

02:53.380 --> 02:57.550
Aan de andere kant, als het op het Groene Plein terecht komt, krijgt het een plus één beloning, wat betekent

02:57.550 --> 02:59.040
dat dat is wat we wilden doen.

02:59.470 --> 03:01.930
Dat zijn dus de twee beloningen die de agent mogelijk kan krijgen.

03:02.290 --> 03:08.410
En hoe leert het te opereren in dit doolhof, net als in dat voorbeeld van de robothonden die leren

03:08.410 --> 03:10.450
lopen, die het gaat laten weten.

03:10.450 --> 03:12.430
Het zal het alleen vertellen dat dit de acties zijn die u kunt doen.

03:12.430 --> 03:14.560
Je kunt naar boven, naar rechts, naar links of naar beneden gaan.

03:14.560 --> 03:17.980
Die zijn voor mogelijke acties die je kunt ondernemen en dat is het dan.

03:18.220 --> 03:19.690
Hoe speel je daar mee.

03:19.690 --> 03:21.130
Kijk wat je kunt bedenken.

03:21.310 --> 03:26.140
Dus de agent zou naar rechts kunnen gaan, dan zouden ze naar meer naar rechts kunnen gaan, ze zouden terug naar links

03:26.140 --> 03:26.590
kunnen gaan.

03:26.590 --> 03:30.110
Ze drukken gewoon willekeurig op deze knop en ze proberen te zien wat er gebeurt.

03:30.110 --> 03:31.120
Dan gaan ze hier terug.

03:31.120 --> 03:34.560
Ze gaan omhoog, omhoog, omlaag, omhoog, naar rechts.

03:34.570 --> 03:36.100
Dus voorlopig hebben ze nog niets geleerd.

03:36.100 --> 03:37.930
Tot nu toe is er niets gebeurd.

03:38.320 --> 03:38.950
Ze gaan rechts.

03:38.950 --> 03:41.500
En dan, bam, belanden ze op het Groene Plein.

03:41.710 --> 03:45.460
Dus ze beseffen, wauw, ik heb net een plus één beloning gekregen.

03:45.460 --> 03:48.970
Dus zodra ik het Groene Plein binnenstapte, kregen ze een plus één beloning.

03:48.970 --> 03:53.050
En dat triggert het algoritme om te zeggen: OK, dat is echt cool.

03:53.680 --> 03:58.630
Ik word beloond voor het eindigen op het plein, dus ik wil op het plein eindigen.

03:58.810 --> 04:00.280
Wat betekent dat voor de makelaar?

04:00.760 --> 04:04.240
Dat betekent dat het de vraag begint te stellen, hoe ben ik op het plein gekomen?

04:04.240 --> 04:09.850
Wat was de voorgaande staat waarin ik me bevond en welke actie heb ik ondernomen om bij het kwadraat te komen?

04:09.850 --> 04:14.320
En dan kijkt het terug en zegt: OK, dus de vorige toestand was deze.

04:14.770 --> 04:19.930
Het blijkt waardevol te zijn in die staat, degene die deel uitmaakt van de Rode Pijl, want vanuit

04:19.930 --> 04:26.860
die staat ben jij ik ben Ik ben slechts één stap verwijderd van het krijgen van de maximale beloning waarvan ik kan dromen, van plus

04:27.100 --> 04:33.970
een als een koekje voor een hond van zodra ik weet of ik ooit in die staat ben, dat vierkant gemarkeerd met de Rode Pijl,

04:33.970 --> 04:36.130
hoeven we alleen maar op te drukken.

04:36.130 --> 04:36.370
Rechts.

04:36.940 --> 04:41.380
Dus hoe vertel ik mezelf hoe ik kan onthouden dat die staat waardevol is?

04:41.380 --> 04:43.390
Nou, voor mij is er geen verschil.

04:43.390 --> 04:49.300
Als agent maakt het eigenlijk geen verschil of ik op het Groene Plein zit of op het Witte Plein, precies

04:49.300 --> 04:50.530
op het Groene Plein.

04:50.530 --> 04:51.550
Ik krijg de beloning van één.

04:51.550 --> 04:57.970
Dus ik ga voor mezelf werken dat de manier waarop Square voor mij de waarde heeft van één, omdat

04:57.970 --> 04:59.290
het precies leidt.

04:59.290 --> 05:00.160
Om er een te belonen.

05:00.160 --> 05:00.280
Dus.

05:00.340 --> 05:04.300
Zodra ik op het Witte Plein ben, weet ik dat ik nog één actie zal ondernemen, ik ben op het Groene Plein en

05:04.300 --> 05:05.320
krijg een beloning van één.

05:05.340 --> 05:11.300
Dus daarom ga ik zeggen dat de waarde van dit vierkant gelijk is aan één, omdat het

05:11.300 --> 05:14.190
direct leidt zonder enige vorm van aftrekking.

05:14.200 --> 05:16.120
Zodra ik hier ben, weet ik dat mijn beloning er één zal zijn.

05:16.120 --> 05:18.490
Dus ik ga dit plein markeren als een voertuig voor een.

05:18.520 --> 05:19.330
Dat is de waarde.

05:19.330 --> 05:21.480
Dat is een waargenomen waarde van het zijn in deze staat.

05:22.270 --> 05:26.680
Vervolgens zal de agent zeggen: oké, dus hoe kom ik op dit plein?

05:26.860 --> 05:31.750
En, weet je, hij zou weer rond kunnen lopen enzovoort en weer op het plein en zeggen, oké, hoe

05:31.750 --> 05:33.340
kwam ik daarvoor op dit plein?

05:33.640 --> 05:36.400
En de manier waarop ik dit plein binnenkwam was vanaf dit plein.

05:36.700 --> 05:37.460
Interessant.

05:37.480 --> 05:42.800
Oké, dus zodra ik op dit plein kom, weet ik dat ik alleen maar naar rechts hoef te gaan.

05:42.820 --> 05:45.550
En vanaf hier weet ik al dat ik ga winnen.

05:45.550 --> 05:48.130
Ik weet precies hoe alles vanaf hier gaat ontrafelen.

05:48.250 --> 05:50.650
En ik weet dat de waarde van het zijn in deze staat gelijk is aan één.

05:50.890 --> 05:58.120
En aangezien niets me ervan weerhoudt om van hier naar hier te gaan, zal de waarde hierin de

05:58.120 --> 05:59.380
waargenomen waarde zijn.

05:59.410 --> 06:04.470
Ik ga het waarderen om hier te zijn als voertuig voor één, want zodra ik hier ben, weet ik dat ik hier

06:04.480 --> 06:06.610
zou zijn en ik zal hier vrij snel zijn.

06:06.610 --> 06:07.540
Dus ik ga winnen.

06:08.020 --> 06:10.330
En hoe kom ik daarvoor op dit plein?

06:10.360 --> 06:12.720
Nou, ik kwam op dit plein van dit plein.

06:12.970 --> 06:19.120
Dus de waarde, vergelijkbare benadering, de waarde van hier zijn is ook gelijk aan één enzovoort.

06:19.120 --> 06:23.320
Dus de waarde van hier zijn is gelijk aan één waarde van hier zijn is gelijk aan tijd, omdat elk van hen

06:23.320 --> 06:25.090
naar de volgende leidt en naar de finish leidt.

06:26.140 --> 06:29.610
Dus dat is allemaal vrij logisch in dit stadium.

06:29.920 --> 06:33.340
Dit zijn wij die op dit moment de Bellman-vergelijking aan het ontwerpen zijn.

06:33.350 --> 06:40.120
Dus dit is dat we zouden kunnen nadenken over het ontwerpen van een vergelijking die een agent helpt door het doolhof te gaan.

06:40.390 --> 06:41.560
Kijk dus naar de beloning.

06:41.710 --> 06:45.910
Dan geven de voorgaande toestanden het een waarde van gelijk om de voorgaande zin te belonen.

06:45.910 --> 06:49.210
Dus dat soort likes creëert dit pad is allemaal geweldig en goed.

06:49.210 --> 06:56.980
Maar het probleem hier is, OK, wat gebeurt er als onze agent om de een of andere reden in deze staat begint in plaats van hier te beginnen en

06:56.980 --> 07:00.280
deze acties te ondernemen en het daadwerkelijk in die staat begint?

07:00.520 --> 07:01.660
Hoe weet het?

07:02.020 --> 07:04.240
Hoe onthoudt het welke actie moet worden ondernomen?

07:04.240 --> 07:08.470
Moet het naar rechts of naar beneden of naar links of naar boven?

07:08.470 --> 07:16.000
Hoe herinnert het zich wat de volgende voortzetting van hier is als de enige waarden die het heeft deze waarden van gelijk aan één

07:16.000 --> 07:16.600
zijn?

07:16.600 --> 07:18.580
Je kunt dus niet zien wat verder weg is.

07:18.580 --> 07:19.330
Het kan alleen zien.

07:19.540 --> 07:19.960
Oke.

07:19.960 --> 07:23.360
Wat ik hier heb en wat ik hier heb, hoe weet het welke kant het op moet?

07:23.500 --> 07:24.790
Nou, in dit stadium niet.

07:24.790 --> 07:27.550
Het is net zo goed identiek voor de agent welke kant hij op moet.

07:27.850 --> 07:30.190
En daarom werkt deze aanpak niet echt.

07:30.700 --> 07:32.830
Het is een zeer is een zeer simplistische uitleg.

07:32.830 --> 07:38.230
Natuurlijk komt er veel meer bij kijken, maar op een intuïtieve manier, dat is waarom we een soort van gewoon toewijzen om

07:38.260 --> 07:40.270
deze waarde gewoon achterstevoren door te voeren.

07:40.660 --> 07:45.840
Omdat een van de redenen is dat als de agent eenmaal tussen deze twee waarden in zit, terwijl jij gaat,

07:45.850 --> 07:48.060
het niet zo in de war kan raken.

07:48.430 --> 07:51.010
En hoe lossen we dit probleem dan op?

07:51.010 --> 07:52.000
Wat gaan we hier doen?

07:52.270 --> 07:57.520
En dit is waar we beginnen met het introduceren van de Bellman-vergelijking in zijn werkelijke vorm, langzaam, stap

07:57.520 --> 07:58.200
voor stap.

07:58.540 --> 08:01.330
Dus de portiersvergelijking ziet er ongeveer zo uit.

08:01.510 --> 08:06.820
Dus we hebben het al gehad over de waarde van het zijn in een bepaalde staat, zoals je huidige staat of

08:06.820 --> 08:07.750
een bepaalde staat.

08:08.110 --> 08:10.210
En dat is er ook.

08:10.240 --> 08:16.390
En als priemgetal is de toestand, de volgende toestand, de toestand waarin je na deze toestand en

08:16.840 --> 08:18.520
door gezamenlijke actie terechtkomt.

08:18.820 --> 08:23.680
Maar we weten dat er veel acties zijn die een agent kan ondernemen, en daarom hebben we deze Max

08:23.680 --> 08:23.970
hier.

08:24.130 --> 08:27.160
Dus door een actie te ondernemen, wat gebeurt er met een agent?

08:27.160 --> 08:32.430
Dus laten we zeggen dat we in staat waren door een actie te ondernemen in staat s en we ondernemen actie.

08:32.440 --> 08:36.280
A, wat er zal gebeuren is dat het onmiddellijk een beloning krijgt door in een nieuwe staat te komen.

08:36.550 --> 08:41.770
En onthoud, die beloning kan één of plus één of min één zijn als het aan het einde van het spel is, of het kan een

08:41.770 --> 08:43.570
nul zijn als het tijdens het spel is.

08:43.570 --> 08:46.180
In dit geval is onze beloning gedurende het spel nul.

08:46.180 --> 08:47.500
Dus dat is de beloning.

08:47.830 --> 08:55.060
Bovendien komen we in een nieuwe staat die de waarde van als prime heeft.

08:55.060 --> 08:56.860
Dat is dus de waarde van de nieuwe staat.

08:57.250 --> 08:58.750
En Gammer, daar zullen we het zo over hebben.

08:58.750 --> 09:03.490
Maar het punt dat ik hier naar voren probeer te brengen, of het punt dat ik hier naar voren breng, is dat we veel verschillende acties

09:03.490 --> 09:05.730
hebben die we kunnen ondernemen en daarom hebben we het maximale.

09:05.740 --> 09:07.960
Dus door actie te ondernemen, krijgen we beloning.

09:07.960 --> 09:09.430
Bovendien komen we in een nieuwe staat terecht.

09:09.580 --> 09:14.770
En dus voor elk van de in ons geval, voor onze mogelijke actie, voor elk van de

09:14.770 --> 09:17.710
mogelijke vier acties, krijgen we een vergelijking als deze.

09:17.710 --> 09:22.960
Dit zal dus een waarde hebben, want ze zullen een andere waarde hebben voor al onze acties.

09:23.320 --> 09:28.720
En we gaan alleen naar het maximum kijken, want de agent wil natuurlijk de optimale toestand aannemen.

09:28.720 --> 09:32.050
Dus als hij in staat s is, gaat hij naar deze waarden kijken.

09:32.050 --> 09:36.460
Hij gaat het maximum vinden op basis van de actie en gaat die actie ondernemen die leidt tot het maximum van

09:36.460 --> 09:37.120
deze waarden.

09:37.510 --> 09:41.110
Dus hopelijk is dat logisch waarom we hier het maximale nemen.

09:41.530 --> 09:45.150
Als we de beloning en de waarde van de staat hebben, waarom hebben we dan deze gammaparameter hier?

09:45.520 --> 09:52.150
Nou, het is er precies om dat probleem op te lossen waarbij de agent niet weet welke kant hij op moet, omdat hij dat

09:52.150 --> 09:52.750
niet kan.

09:52.900 --> 09:56.340
Het vergelijkt de waarden van twee toestanden aan beide kanten en ze zijn hetzelfde.

09:56.770 --> 09:58.810
Daarom wordt het spel de verdisconteringsfactor genoemd.

09:58.810 --> 09:59.860
Dus daar gaan we eens naar kijken.

10:00.130 --> 10:01.270
Is nu beter te begrijpen.

10:01.930 --> 10:04.420
Dus laten we een formule nemen, we zullen het hier bovenaan plaatsen, rechts.

10:04.610 --> 10:09.040
En nu gaan we analyseren wat de waarden van de verschillende staten zijn.

10:09.040 --> 10:11.380
En elke staat hier is een vierkant.

10:11.380 --> 10:15.160
En dus is een van deze witte vierkanten een staat.

10:15.160 --> 10:17.410
En we gingen de waarde van het zijn in die staat berekenen.

10:18.160 --> 10:19.400
Dus laten we beginnen met dit vierkant.

10:19.690 --> 10:21.310
Wat is de waarde van het zijn in deze staat?

10:21.700 --> 10:25.480
Welnu, we moeten het maximum van deze waarde nemen bij verkiezingen.

10:25.990 --> 10:31.040
En we weten dat deze waarde vertegenwoordigt, wordt gemaximaliseerd naarmate we dichter bij de finish komen.

10:31.040 --> 10:35.800
En zo is het geconstrueerd door gewoon naar te kijken, je kunt het zien, want hier heeft

10:35.800 --> 10:40.450
de beloning en hier heeft een verdisconteringsfactor vermenigvuldigd met de waarde van de volgende staat.

10:40.870 --> 10:44.760
En het is gewoon logisch dat we die vergelijking zo zouden construeren.

10:44.770 --> 10:50.140
Het is dus logisch dat vanaf hier het maximum van deze waarde zal zijn als we naar rechts gaan.

10:50.260 --> 10:51.980
Dus zo berekenen we de waarde van staat.

10:52.060 --> 10:57.400
Deze waarde van deze toestand is gelijk aan het maximum of gelijk aan deze waarde.

10:57.400 --> 11:00.520
Als we naar rechts gaan, als we een actie ondernemen om naar rechts te gaan.

11:00.970 --> 11:02.240
Dus wat zal deze waarde zijn?

11:02.260 --> 11:04.570
Welnu, de beloning om naar rechts te gaan is gelijk aan één.

11:04.900 --> 11:10.810
En wat Gamma ook is, we hebben geen waarde in de staat omdat we al op de best mogelijke manier

11:10.810 --> 11:11.330
zijn.

11:11.650 --> 11:12.820
Dit is dus de eindstand.

11:12.820 --> 11:13.810
Het zal geen waarde hebben.

11:13.810 --> 11:16.160
We krijgen hier gewoon een beloning en dat is het einde van het spel.

11:16.180 --> 11:20.070
Dus de waarde zal van dit maximum gelijk zijn aan één.

11:20.350 --> 11:23.200
En daarom is de waarde van status hier gelijk aan één.

11:23.770 --> 11:27.590
Nu wordt het interessant als we naar links gaan, als we een beetje naar achteren gaan.

11:27.880 --> 11:32.200
Dus laten we nu de waarde hiervan berekenen, van het zijn in deze staat.

11:32.680 --> 11:33.990
En daarvoor hebben we dekking nodig.

11:34.000 --> 11:39.880
Dus laten we zeggen dat onze verdisconteringsfactor nul komma negen is en het zal logisch zijn wat een verdisconteringsfactor is als we dat

11:39.880 --> 11:40.870
eenmaal hebben berekend.

11:40.900 --> 11:46.780
Dus vanaf hier, gewoon gebaseerd op onze intuïtie en gebaseerd omdat we weten hoe dit doolhof werkt, hoe dit betekent werkt, weten we dat

11:46.780 --> 11:50.680
de best mogelijke actie is om naar rechts te gaan, want vanaf hier gaan we

11:50.680 --> 11:51.040
hier.

11:51.430 --> 11:55.740
Dat betekent dus dat er een maximum wordt bereikt als je in deze toestand naar rechts gaat.

11:56.110 --> 11:58.660
En laten we eens kijken wat er gebeurt als we het hier aansluiten.

11:58.840 --> 12:02.380
Dus als je van hier naar hier gaat, krijg je geen beloning of dit wordt een nul.

12:02.650 --> 12:07.210
Maar dan krijg je Gamma's die negen keer de waarde van de nieuwe staat krijgen, die één is.

12:07.510 --> 12:13.600
Dus in dit geval is de waarde van het hele resultaat hiervan één keer nulpunt negen keer één gelijk aan nulpunt

12:13.600 --> 12:13.970
negen.

12:13.990 --> 12:15.550
Dus dat is onze waarden rapport negen.

12:16.120 --> 12:18.490
Dus als we dit nu berekenen, zie je dat vanaf hier.

12:18.490 --> 12:23.660
We weten het alleen door naar het doolhof te kijken, we weten het omdat wij mensen, omdat we begrijpen

12:23.680 --> 12:25.300
hoe deze vergelijking werkt, natuurlijk.

12:25.300 --> 12:28.390
En een FBI-agent zou met deze dingen moeten experimenteren.

12:28.390 --> 12:31.630
Maar omdat we een glazen bol hebben, kunnen we dit hele doolhof zien.

12:32.020 --> 12:33.600
We hebben nu een vogelvluchtperspectief.

12:33.730 --> 12:35.940
We weten dat de beste actie naar rechts gaat.

12:36.190 --> 12:39.000
Dus als we alles hier aansluiten, is het nul.

12:39.010 --> 12:44.110
En de beloning plus nul komma negen keer de waarde van de staat, nul komma negen is

12:44.110 --> 12:45.460
nul komma eenentachtig enzovoort.

12:45.490 --> 12:49.710
Dus hier is het nul komma drieënzeventig en hier is nul komma zesenzestig.

12:50.320 --> 12:57.520
U kunt dus zien dat de manier waarop de verdisconteerde factor werkt, is dat deze de waarde van de staat verlaagt naarmate u

12:57.520 --> 12:58.520
verder weg bent.

12:58.540 --> 13:04.300
Dus als je bekend bent met de financiële theorie, dan is het iets dat lijkt op de tijdswaarde van geld.

13:04.870 --> 13:06.840
Wat zou je er op deze manier van denken?

13:06.850 --> 13:12.570
Wat heb je liever vandaag vijf dollar of over tien dagen vijf dollar?

13:13.150 --> 13:16.150
Als iemand je een keuze zou geven, geef ik je vandaag vijf dollar.

13:16.150 --> 13:17.920
Het hele jaar, vijf dollar over tien dagen.

13:18.250 --> 13:20.120
Nou, natuurlijk zou je vandaag voor vijf dollar kiezen.

13:20.170 --> 13:20.750
Waarom is dat?

13:20.800 --> 13:25.420
Nou, omdat je die vijf dollar kunt nemen en ze kunt beleggen tegen een bepaalde rente,

13:25.480 --> 13:27.220
die erg lijkt op Gamma.

13:27.520 --> 13:32.770
En je vijf dollar in tien dagen zal in feite uitgroeien tot misschien vijf dollar en drieënzeventig cent of

13:32.770 --> 13:33.550
iets dergelijks.

13:33.910 --> 13:36.340
En zo werkt de tijdswaarde van geld.

13:36.340 --> 13:38.200
En zeer vergelijkbaar concept hier.

13:38.200 --> 13:43.220
En het belangrijkste om te begrijpen is dat dit slechts een theorie is, een manier waarop versterkend leren werkt.

13:43.240 --> 13:45.610
Dus Richard, Belmond bedacht deze vergelijking.

13:46.030 --> 13:48.670
En vanaf dat moment gebruiken we het zo.

13:48.680 --> 13:51.350
Dus je zou door kunnen gaan en met een andere vergelijking komen.

13:51.370 --> 13:54.700
Het hoeft niet zo te zijn dat Gumede een andere factor heeft, misschien zelfs geen factor.

13:54.850 --> 13:57.400
Maar deze aanpak werkt en daarom gebruiken we hem.

13:57.700 --> 14:00.700
En dit is hoe het eruit ziet.

14:00.710 --> 14:06.100
Dus hoe verder je weg bent, hoe minder waarde het heeft in deze staat en in termen van tijd, waarde van

14:06.100 --> 14:06.430
geld.

14:06.550 --> 14:08.680
Als ik tegen je kon zeggen, waar zou je dan liever zijn?

14:08.680 --> 14:09.610
Ben je liever hier?

14:09.850 --> 14:10.870
Ben je liever hier?

14:11.170 --> 14:12.840
Je zou zeggen dat ik liever hier zou zijn.

14:12.850 --> 14:16.990
Dus we creëren hetzelfde fenomeen als elke tijdswaarde van geld.

14:16.990 --> 14:23.320
We creëren het kunstmatig via Gamma om agenten te stimuleren of agenten te inspireren om dichter bij de

14:23.320 --> 14:24.590
finish te komen.

14:24.610 --> 14:29.380
Dus als een agent zou worden gevraagd, zou je liever hier of hier zijn vanwege de manier waarop deze vergelijking werkt, dan

14:29.380 --> 14:31.150
zou hij ervoor kiezen om hier te zijn.

14:31.510 --> 14:33.310
Daar is niets meer aan, niets minder.

14:33.310 --> 14:35.750
Het is niet iets dat de wereld zo werkt.

14:35.770 --> 14:41.830
Nee, het is gewoon iets dat we kunstmatig hebben gecreëerd om onze agenten te laten

14:41.980 --> 14:44.050
begrijpen dat dit goed is.

14:44.050 --> 14:44.560
Dit is goed.

14:44.560 --> 14:44.980
Dit is goed.

14:44.980 --> 14:45.670
Ze zijn allemaal goed.

14:45.670 --> 14:47.470
Maar deze is beter dan deze.

14:47.470 --> 14:48.790
En deze is beter dan deze.

14:48.790 --> 14:49.810
En deze is beter deze.

14:49.960 --> 14:54.700
En zo zie je dat de oude makelaar ziet welke kant het op moet.

14:54.700 --> 14:59.530
Zodat het kan zien dat als ik hier sta, herinner je je dat probleem dat we hadden of stond hij hier?

15:00.060 --> 15:04.810
Dus als hij hier staat, ga ik dan naar beneden of als ik hier sta om naar boven te gaan of ga ik naar beneden?

15:05.100 --> 15:10.050
Nou, nu is er geen probleem meer omdat hij kan zien dat het eigenlijk beter is om omhoog te gaan omdat de waarde hier

15:10.050 --> 15:12.540
groter is en dan is het beter om vanaf hier te gaan.

15:12.540 --> 15:14.220
Juist, want de waarde is hier groter dan hier.

15:14.430 --> 15:15.690
En vanaf hier is het beter om naar rechts te gaan.

15:15.690 --> 15:18.270
Omdat de waarde hier groter is dan hier, dan hier en van hier.

15:18.480 --> 15:20.040
Hij weet al dat hij moet gaan.

15:20.040 --> 15:21.990
Juist, want hij krijgt hier een beloning van één.

15:22.560 --> 15:24.880
Dus zo werkt deze hele aanpak.

15:24.900 --> 15:26.970
Laten we nu snel naar de rest van het plein kijken.

15:27.480 --> 15:29.520
Dus hoe berekenen we de waarde in dit vierkant?

15:29.910 --> 15:32.400
Nou, hier wordt het een beetje lastig.

15:32.430 --> 15:36.280
Dus vanaf hier ga je misschien niet echt naar links, toch?

15:36.300 --> 15:37.290
Misschien ga je wel naar rechts.

15:37.310 --> 15:41.160
Dus we kunnen niet gewoon zo doorgaan, want het kan eigenlijk korter zijn om deze kant op te gaan.

15:41.400 --> 15:44.280
Dus wat we gaan doen, is dat we eerst de waarde in dit vierkant gaan berekenen.

15:44.850 --> 15:48.440
En omdat het duidelijk is dat vanaf hier de beste manieren om te gaan weer omhoog zijn.

15:48.450 --> 15:52.680
Dat komt omdat we de bemanning zien, we hebben de kristallen bol, we kunnen dingen zien en

15:52.680 --> 15:56.490
je zult verderop in de sectie zien hoe de agent dit daadwerkelijk onderzoekt, dit begrijpt,

15:56.780 --> 15:57.950
zoals door te experimenteren.

15:57.960 --> 16:00.090
Maar voor ons weten we dat het beter is om deze kant op te gaan.

16:00.100 --> 16:05.370
Dus we gaan hier de waarde berekenen en daarom gaan we eerst de waarde in dit vierkant

16:05.370 --> 16:05.870
berekenen.

16:06.300 --> 16:09.110
Dus hier hebben we drie mogelijke acties.

16:09.120 --> 16:10.470
In werkelijkheid hebben we er zelfs vier.

16:10.470 --> 16:11.550
We kunnen ook linksaf.

16:11.550 --> 16:15.030
De agent zou hypothetisch naar links kunnen drukken en tegen de muur stoten en hier blijven.

16:15.330 --> 16:20.880
Maar omwille van de eenvoud gaan we gewoon de acties laten zien dat we weten wat we weten

16:20.880 --> 16:25.620
en met de kristallen bol weten we welke acties daadwerkelijk leiden tot iets anders dan dezelfde

16:25.620 --> 16:26.190
toestand.

16:26.720 --> 16:31.470
En dus vanaf hier weten we dat weer, alleen omdat we een glazen bol hebben, weten we dat de beste manier om

16:31.470 --> 16:32.940
te gaan deze kant op is.

16:33.210 --> 16:35.880
Een agent zou natuurlijk moeten experimenteren en de beste manier vinden.

16:35.880 --> 16:38.460
En hoe dat gebeurt, ziet u verderop in de paragraaf.

16:38.460 --> 16:43.560
U zult zien hoe een agent rondloopt en hoe u zou experimenteren om deze waarden te vinden.

16:43.560 --> 16:44.950
Maar voor ons weten we dat het zo is.

16:45.240 --> 16:51.270
Dus hier, als we alles één keer aansluiten, is het maximum de beste output als je hier omhoog gaat, een nul

16:51.270 --> 16:52.260
komma negen nul.

16:52.260 --> 16:55.470
Dus als je dat zo invult, krijg je het nulpunt negen.

16:56.100 --> 16:59.730
OK, dus we berekenen die ene, deze berekenen dezelfde benadering.

16:59.760 --> 17:04.450
Dit is dat je drie kanten op kunt, eigenlijk vier voor de agent, maar voor ons zijn het er

17:04.470 --> 17:05.150
maar drie.

17:05.760 --> 17:10.500
Dus nul komma eenentachtig vanaf hier heb je nul komma drieënzeventig.

17:10.950 --> 17:16.050
En het sluit eigenlijk mooi aan bij deze waarde, want als je dan gewoon opnieuw telt, krijg je 066 en

17:16.050 --> 17:19.400
hier heb je nul komma nul drie omdat dit de optimale snelheid is.

17:20.010 --> 17:21.110
Daar ga je dan.

17:21.150 --> 17:23.700
Dat zijn de waarden van alle staten.

17:23.700 --> 17:29.640
En nu kun je zien dat, omdat we deze vergelijking hebben gemaakt, we synthetisch dit hele concept

17:29.640 --> 17:37.530
hebben gecreëerd: hoe dichter je bij de finish bent, hoe waardevoller die staat nu is, omdat we dat nu hebben gecreëerd, het

17:37.530 --> 17:41.670
is mooi voor de makelaar duidelijk welke kant het op moet.

17:41.800 --> 17:43.920
En daar zullen we het de komende tijd meer over hebben.

17:43.940 --> 17:47.460
Charles, ik hoop dat je genoten hebt van de sessie van vandaag.

17:47.460 --> 17:53.820
En ik weet dat het een beetje klinkt, het klinkt in dit stadium misschien een beetje erg basaal, maar terwijl we deze sectie

17:53.820 --> 17:56.310
doornemen, zullen we er wat meer complexiteit aan toevoegen.

17:56.550 --> 18:01.260
Tegelijkertijd, als je niet kunt wachten, als je erin wilt springen, dan is er een paper waar

18:01.260 --> 18:06.150
je naar kunt kijken, en het is het originele paper van Richard Bellmen genaamd The Theory of

18:06.450 --> 18:07.910
Dynamic Programming uit 1954.

18:08.190 --> 18:09.690
En die vind je via deze link.

18:10.020 --> 18:11.220
En daar ga je.

18:11.220 --> 18:16.320
Dus je kunt er meteen in springen en lezen van de auteur van The Bellmon Equation.

18:16.500 --> 18:20.490
Maar houd er rekening mee dat dit nogal een wiskundig zwaar papier is.

18:20.850 --> 18:22.720
En wat dat betreft kijk ik uit naar je volgende dia.

18:22.740 --> 18:24.540
En tot die tijd, geniet van I.