WEBVTT

00:00.930 --> 00:03.630
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:03.660 --> 00:07.710
En vandaag hebben we het over Markov-beslissingsprocessen of MDP.

00:08.610 --> 00:10.750
Laten we eens kijken wat we vandaag hebben.

00:11.280 --> 00:13.980
Dus de vorige keer stopten we bij het concept van een kaart.

00:13.980 --> 00:19.380
Dus omdat we de waarden hebben berekend op basis van de Bellman-vergelijking, kunnen we deze kaart afleiden voor onze

00:19.380 --> 00:20.760
agent van dit doolhof.

00:21.060 --> 00:26.960
En wat dat in feite betekent, is waar de change agent begint, laten we zeggen dat hij daar begint, hij weet

00:27.420 --> 00:30.810
precies welke stappen hij moet nemen om bij de finish te komen.

00:30.820 --> 00:34.550
Dus het gaat gewoon omhoog, omhoog, goed, goed en klaar.

00:34.920 --> 00:39.690
En dus is de vraag hier, is het echt zo eenvoudig?

00:39.690 --> 00:44.610
Is versterkingsleren echt zo, weet je, bij gebrek aan een beter woord, saai?

00:44.610 --> 00:46.290
Het is het is ja.

00:46.380 --> 00:47.400
Zodra je de kaart hebt, is dat het.

00:47.400 --> 00:49.080
Het enige wat je hoeft te doen is dat je klaar bent.

00:49.600 --> 00:50.460
Je volgt ze gewoon op.

00:50.940 --> 00:55.410
Nou, de realiteit is dat het eigenlijk niet zo eenvoudig is.

00:55.410 --> 01:00.960
En dat is maar goed ook, want het maakt deze cursus interessanter voor ons en we kunnen eigenlijk

01:00.960 --> 01:02.270
veel complexere problemen oplossen.

01:02.490 --> 01:05.380
Dit is dus waar een teken van een proces komt.

01:05.400 --> 01:07.670
Maar eerst gaan we het over twee dingen hebben.

01:07.670 --> 01:11.120
We gaan het hebben over deterministisch zoeken versus niet-deterministisch zoeken.

01:11.580 --> 01:14.130
Laten we het dus hebben over het concept van deterministisch zoeken.

01:14.700 --> 01:16.260
Dit is onze agent in het doolhof.

01:16.500 --> 01:23.880
En deterministisch zoeken betekent dat als de agent besluit omhoog te gaan, wat er met 100 procent waarschijnlijkheid

01:23.880 --> 01:26.470
zal gebeuren, het zal stijgen.

01:26.880 --> 01:28.600
Dat is precies wat er zal gebeuren.

01:28.620 --> 01:33.570
Er zijn geen andere opties als het eenmaal zegt omhoog gaan of CLECs de pijl omhoog, het omhoog gaat.

01:33.580 --> 01:34.500
Er zijn geen andere opties.

01:35.100 --> 01:41.250
Nu, aan de andere kant, is niet-deterministisch zoeken wanneer onze agent zegt dat het omhoog wil gaan.

01:41.980 --> 01:44.040
Het zijn eigenlijk een paar opties.

01:44.340 --> 01:46.320
Er kunnen bijvoorbeeld drie opties zijn.

01:46.590 --> 01:49.950
En we gaan kijken naar een voorbeeld waar er drie opties zijn, maar het hoeft niet beperkt te zijn tot drie,

01:49.950 --> 01:50.940
het kunnen er vier zijn.

01:50.940 --> 01:53.970
Het kan verschillen, afhankelijk van het probleem.

01:54.330 --> 01:56.070
De willekeur kan anders zijn.

01:56.070 --> 02:00.990
Maar in ons geval zijn er drie opties met een kans van 80 procent dat hij omhoog gaat.

02:01.740 --> 02:07.440
Maar met een kans van 10 procent dat hij omhoog wil, gaat hij eigenlijk naar links, gewoon

02:07.440 --> 02:09.270
omdat de omgeving zo werkt.

02:09.270 --> 02:10.650
Dat is de wereld waarin hij leeft.

02:11.280 --> 02:14.490
En met nog eens 10 procent kans, gaat hij echt goed.

02:14.670 --> 02:16.880
En in dit geval valt hij in de vuurplaats.

02:17.760 --> 02:20.420
Zo werkt het dus allemaal.

02:20.700 --> 02:24.840
Dat is een voorbeeld van een niet-deterministische zoektocht, een stochastisch proces.

02:24.840 --> 02:33.320
En wat het punt hiervan is, is om een realistischer model te maken van wat er werkelijk zou kunnen gebeuren in een echte wereld, in een probleem

02:33.360 --> 02:38.940
van het echte wereldtype, want zeer zelden krijg je situaties als deze als je iets doet en

02:38.940 --> 02:41.160
het gebeurt precies op die manier.

02:41.370 --> 02:47.160
En zelfs als je erover nadenkt in termen van games die zeggen dat je een agent hebt die Pacman speelt, nou,

02:47.520 --> 02:52.680
het is niet altijd zo dat als hij op het plein staat, hij omhoog gaat, hij krijgt elke keer

02:52.680 --> 02:54.570
exact hetzelfde resultaat tijd zal hij.

02:54.600 --> 02:55.800
Hij gaat inderdaad omhoog.

02:55.800 --> 02:59.100
Maar het kan zijn dat hij in één geval niet wordt opgegeten door een geest.

02:59.100 --> 03:01.230
In een ander geval wordt hij opgegeten door een geest.

03:01.470 --> 03:05.910
Dus zoals je kunt zien, zit er wat willekeur in omdat het afhangt van hoe de geesten bewegen en ze

03:05.910 --> 03:07.290
bewegen niet altijd op dezelfde manier.

03:07.290 --> 03:09.150
Ze beginnen niet altijd op dezelfde locaties.

03:09.390 --> 03:14.280
Dus het is heel logisch, het is heel eerlijk dat er enige willekeur is.

03:14.280 --> 03:17.400
Er is iets dat niet onder de controle van de agent valt.

03:17.610 --> 03:22.890
En dat is gewoon een manier voor ons om dat weer te geven, zodat we kunnen leren hoe we

03:22.890 --> 03:27.900
ermee kunnen omgaan en hoe dat de belman-vergelijking beïnvloedt, hoe het het hele leerproces van versterking beïnvloedt.

03:29.010 --> 03:33.480
Maar tegelijkertijd is de willekeur natuurlijk niet beperkt tot als je omhoog gaat, er een kans van 10 procent is dat je naar rechts

03:33.480 --> 03:35.400
gaat of een kans probeert om naar links te gaan.

03:35.640 --> 03:39.090
Of als je naar beneden gaat, is er een kans van 10 procent dat je naar rechts of links gaat, of als je naar rechts gaat, is er een

03:39.090 --> 03:40.440
kans van 10 procent om omhoog of omlaag te gaan.

03:40.590 --> 03:42.900
Het is niet beperkt tot waar je gaat eindigen.

03:42.900 --> 03:44.430
Soms heb je een probleem.

03:44.430 --> 03:45.360
Dat is precies.

03:45.540 --> 03:47.040
Soms zijn de kansen anders.

03:47.310 --> 03:51.060
Soms kan de willekeur op iets anders neerkomen.

03:51.060 --> 03:55.470
Het kan worden samengevat zoals dat voorbeeld van Pakman, van de geesten die je opeten, eten je niet op.

03:55.680 --> 03:58.650
Of het kan op iets anders neerkomen.

03:58.830 --> 04:05.520
Bijvoorbeeld, alsof de agent doem speelt en er is zoiets als een monster dat hem in

04:05.520 --> 04:11.190
het ene geval gaat neerschieten, is er een kans waarmee het wordt neergeschoten en

04:11.190 --> 04:14.850
waarmee het niet zal gebeuren neergeschoten worden enzovoort.

04:14.850 --> 04:19.200
Dus iets dat buiten de controle ligt, iets dat ik niet kan voorspellen.

04:19.650 --> 04:22.590
Dat is wat we hier modelleren in niet-deterministisch zoeken.

04:22.980 --> 04:29.880
En dit is waar we direct twee nieuwe concepten van Markov-processen en of een kenmerk van proces

04:29.880 --> 04:32.760
en een Mark Markov-beslissingsproces hebben benaderd.

04:32.760 --> 04:34.050
Laten we deze dus eens bekijken.

04:34.050 --> 04:39.630
En je weet hoe graag ik definities en veel tekst ernaast zet, maar in

04:39.630 --> 04:42.240
dit geval moeten we ze doornemen.

04:42.240 --> 04:43.220
Dus laten we eens kijken.

04:43.260 --> 04:46.080
Een stochastisch proces heeft een kenmerk van eigendom.

04:46.110 --> 04:51.720
Als de voorwaardelijke kansverdeling van de toekomstige status van het proces, afhankelijk van zowel de huidige

04:51.720 --> 04:57.840
als de huidige status, alleen afhangt van de huidige status, niet van de reeks gebeurtenissen die eraan voorafgingen.

04:58.050 --> 05:00.340
Een proces van deze eigenschap wordt een proces genoemd.

05:00.920 --> 05:06.410
Zeer complexe definitie, en het is een beetje alsof je een klein beetje geeft, niet dat spreekt zichzelf tegen, maar het

05:06.410 --> 05:07.850
voelt alsof het zichzelf tegenspreekt.

05:07.880 --> 05:11.960
Dus hier is dit voorwaardelijk, want zowel de vroegere als de huidige staat hangt alleen af van, maar

05:11.960 --> 05:14.030
tegelijkertijd hangt het alleen af van de huidige staat.

05:14.420 --> 05:17.270
Laat je daar dus niet te veel in vastpinnen.

05:17.630 --> 05:19.280
Ik zal het in eenvoudige bewoordingen opsplitsen.

05:19.290 --> 05:22.970
Dus een kenmerk van eigendom is wanneer uw toekomst aangeeft.

05:22.970 --> 05:26.720
Dus niet alleen uw keuze, maar het geheel, uw keuze en het milieu.

05:27.140 --> 05:32.930
Het zal alleen de resultaten van de actie die je onderneemt leuk vinden, in die omgeving zal alleen afhangen van waar

05:32.930 --> 05:33.860
je nu bent.

05:33.860 --> 05:35.480
Het hangt er niet vanaf hoe je daar bent gekomen.

05:35.930 --> 05:36.490
En dat is het.

05:36.500 --> 05:40.370
Dat is dus een kwestie van eigendom en een proces dat deze eigenschap heeft, wordt een marktproces genoemd.

05:40.760 --> 05:42.890
Dus om het in een voorbeeld te zetten.

05:42.900 --> 05:47.950
Dus als uw agent hier is en als hij gaat, als hij besluit naar boven te gaan, gaat hij misschien.

05:47.960 --> 05:53.190
In ons geval, in ons niet-deterministische zoekvoorbeeld, zou hij eigenlijk links en rechts of rechts kunnen

05:53.210 --> 05:53.560
gaan.

05:53.600 --> 05:57.530
Dat komt omdat we die stickermaatschappij in onze omgeving hebben.

05:57.530 --> 05:59.480
We hebben die willekeur in onze omgeving.

05:59.690 --> 06:01.520
Dus elk van deze dingen kan gebeuren.

06:01.730 --> 06:06.950
Maar de sleutel hier is dat dit een teken van proces is, omdat het ons niet kan schelen hoe hij hier is gekomen.

06:07.160 --> 06:08.950
Hij had van de top kunnen komen en hier terecht kunnen komen.

06:08.960 --> 06:11.730
Je had van links kunnen komen en dat je hier van de onderkant had kunnen komen.

06:11.730 --> 06:16.250
En hierboven had hij hier wel 100000 keer kunnen rondlopen en dan hier zijn.

06:16.550 --> 06:18.560
Het maakt niet uit wat er eerder is gebeurd.

06:18.710 --> 06:21.920
Het enige wat er toe doet, is in welke staat hij zich nu bevindt?

06:22.340 --> 06:30.800
Dus de kansen om naar links of rechts of omhoog te gaan, zullen altijd hetzelfde zijn als hij nu in deze

06:30.800 --> 06:31.820
staat is.

06:32.510 --> 06:37.250
En dat is dus eigenlijk gewoon zeggen, het maakt niet uit wat er eerder is gebeurd, we zijn hier nu.

06:37.670 --> 06:39.050
Dit is de staat waarin u zich bevindt.

06:39.080 --> 06:42.260
En vergeet niet dat die staat niet alleen betekent waar hij staat.

06:42.260 --> 06:46.580
De toestand is de toestand van het geheel van het geheel van de agent in de omgeving.

06:46.580 --> 06:51.680
Dus is dat zoals monsters aan de rechterkant of de monsters aan de linkerkant of, weet je, het is de geest die van

06:51.680 --> 06:54.200
de top komt van welke staat je nu ook bent.

06:54.450 --> 06:55.520
Het maakt niet uit hoe je daar bent gekomen.

06:55.520 --> 06:58.730
Het maakt niet uit hoe het allemaal is gekomen dat je daar in die staat bent.

06:58.730 --> 07:03.770
Wat er in de toekomst zal gebeuren, wordt alleen bepaald door de staat waarin je je nu bevindt, plus de acties

07:03.770 --> 07:06.920
die je dan zult ondernemen, plus natuurlijk de willekeur die daar bovenop komt.

07:07.340 --> 07:14.120
Dus dat is een kenmerk van een proces en een marktbeslissingsproces of een lege stoel of van beslissingsprocessen

07:14.300 --> 07:19.670
die een wiskundig kader bieden voor modelmodellering, besluitvorming in situaties waarin de uitkomsten deels

07:19.670 --> 07:23.240
willekeurig zijn en deels onder controle van een besluitvormer.

07:23.450 --> 07:28.130
Het is zo belangrijk om te begrijpen dat de marker van besluitvormingsprocesprocessen anders is.

07:28.180 --> 07:31.700
Een ander heel concept om een proces te markeren, om een proces te markeren.

07:32.210 --> 07:34.220
Ze zijn een soort wiskundig raamwerk.

07:34.220 --> 07:38.780
Maar tegelijkertijd dacht ik dat het belangrijk voor ons was om te begrijpen wat een kenmerk van een proces is, omdat

07:38.780 --> 07:43.070
ik denk dat het nog steeds helpt bij het begrijpen van een kenmerk en een kenmerk van een beslissingsproces.

07:43.070 --> 07:45.940
Dus een teken van het besluitvormingsproces is er.

07:46.020 --> 07:48.230
En dit is precies wat we tot nu toe hebben besproken.

07:48.230 --> 07:53.840
Zodat de agent in deze omgeving leeft waar hij controle heeft, zoals voorheen de volledige controle had over wat

07:53.840 --> 07:57.170
er gaande was, maar nu heeft hij iets minder controle.

07:57.440 --> 08:00.200
Het kan besluiten omhoog te gaan, maar het weet het eigenlijk wel.

08:00.200 --> 08:03.470
Oké, dus als ik omhoog ga, is er 80 procent kans dat ik omhoog ga.

08:03.470 --> 08:05.900
Er is 10 procent kans op links, tien procent kans dat ik rechts ga.

08:06.050 --> 08:08.870
Dus niet alles is volledig onder controle.

08:08.870 --> 08:13.210
Er is wat willekeur in deze omgeving, en dat is precies wat een marktbeslissingsproces en

08:13.220 --> 08:18.680
een kenmerk van een beslissingsproces is, het raamwerk dat de agent zal gebruiken om te begrijpen wat te doen in

08:18.680 --> 08:19.340
deze omgeving.

08:19.340 --> 08:22.160
Dus we hebben een omgeving met wat toxiciteit, wat willekeur.

08:22.400 --> 08:27.950
En nu moet de agent kiezen, bijvoorbeeld omhoog, omlaag, links of rechts, moet die beslissing

08:27.950 --> 08:28.460
nemen.

08:28.460 --> 08:29.510
Het weet niet wat te doen.

08:29.960 --> 08:32.870
En om de beslissing te nemen gaat gelden.

08:32.870 --> 08:38.600
Een raamwerk gaat een Markov-beslissingsproces gebruiken om die beslissing te nemen, wat er gaat gebeuren,

08:38.600 --> 08:40.520
waar het naartoe gaat.

08:40.730 --> 08:47.540
En dus eigenlijk wordt deze omgeving die dit probleem vormt, het kenmerk van het besluitvormingsproces genoemd.

08:47.540 --> 08:49.910
Het is dus het raamwerk dat de agent gebruikt.

08:49.910 --> 08:54.410
Tegelijkertijd wordt verwezen naar de omgeving, dat de agent opereert in een omgeving met een

08:54.410 --> 08:55.310
duidelijk beslissingsproces.

08:56.150 --> 08:57.950
En dus hebben we hier eigenlijk twee concepten.

08:57.950 --> 09:03.830
We hebben het Markov-proces, de manier waarop deze omgeving is ontworpen, dat het het werk doet.

09:03.830 --> 09:06.590
Wat er gebeurt vanaf waar je nu bent, hangt niet af van het verleden.

09:07.010 --> 09:11.090
En tegelijkertijd hebben we het Markov-beslissingsproces, het raamwerk dat de agent gaat gebruiken

09:11.090 --> 09:13.370
om deze omgeving op te lossen.

09:13.820 --> 09:18.770
En het goede nieuws is dat het Markov-beslissingsproces of dat raamwerk waar we het

09:18.770 --> 09:24.680
over hebben eigenlijk slechts een toevoeging is aan onze Bellmon-vergelijking, de Bellman-vergelijking, maar dan net iets geavanceerder.

09:24.680 --> 09:26.330
Dus laten we daar eens naar kijken.

09:26.960 --> 09:28.190
Dit is onze Belmond-vergelijking.

09:28.190 --> 09:30.980
Tot nu toe is dit het maximum van alle mogelijke acties.

09:30.980 --> 09:35.090
Dus de waarde van een wezen in een staat is het maximum van alle mogelijke acties die je vanuit die staat kunt

09:35.090 --> 09:35.480
ondernemen.

09:36.170 --> 09:40.700
Het maximum wordt genomen van de beloning die je zou krijgen door die actie in die staat uit te voeren.

09:41.060 --> 09:45.070
Plus, een kortingsfactor maal de waarde van de volgende staat, die als priemgetal is.

09:45.320 --> 09:46.610
Dus dat is wat we tot nu toe hebben gehad.

09:47.180 --> 09:52.190
En omdat we nu wat willekeur in ons hele proces hebben, zal dit deel veranderen omdat we eigenlijk niet

09:52.190 --> 09:56.060
weten welke toestand zal eindigen en we weten niet wat als priemgetal zal zijn.

09:56.060 --> 09:59.810
Zal het zijn als we omhoog gaan, zal het zijn of zal het links zijn of zal het goed zijn?

09:59.810 --> 09:59.990
Dus.

10:00.050 --> 10:06.310
We moeten dit eigenlijk plaatsen bij de verwachte waarde van de volgende staat, dus hier gaan we dit vervangen.

10:06.320 --> 10:08.170
Er zijn dus drie mogelijke toestanden waarin we terecht kunnen komen.

10:08.630 --> 10:15.100
En dus gaan we dat vervangen door een waarde die een waarde heeft van één priemgetal.

10:15.350 --> 10:17.960
Dat is het heeft een weergave van subprime tot subprime.

10:18.300 --> 10:21.990
En deze toestand heeft een waarde van drie priemgetallen.

10:22.550 --> 10:28.700
Dus nu gaan we de staat waar we naartoe willen gaan vermenigvuldigen met 80 procent, want dat is onze kans om in

10:28.700 --> 10:33.500
die staat te komen, plus de kans om in deze staat te komen, 10 procent plus om

10:33.500 --> 10:35.270
in die staat te komen.

10:35.300 --> 10:37.940
Dit is dus slechts onze verwachte waarde.

10:37.950 --> 10:45.050
Dus als we uit de statistieken halen, als we de verwachte waarde nemen om in de staat te komen, dat zal erin komen, een beetje zoals

10:45.890 --> 10:50.840
het gemiddelde wat is wat is het gemiddelde van wat zal krijgen en dan vervangen we dat

10:50.840 --> 10:51.230
hier.

10:51.860 --> 10:52.900
Dan krijgen we deze vergelijking.

10:52.910 --> 10:55.590
Nu springt het heel snel omdat deze vergelijking groter is.

10:55.590 --> 10:57.860
Maar als je er goed naar kijkt, zie je precies hetzelfde.

10:57.900 --> 10:58.790
Dus we hebben Max hier.

10:59.150 --> 10:59.350
Mooi zo.

10:59.390 --> 10:59.830
Maximaal hier.

10:59.830 --> 11:04.580
En dan heb je R van S en A, je hebt hier R van Essany.

11:04.580 --> 11:06.140
Je hebt Gammer, je hebt Gammer.

11:06.260 --> 11:08.460
En dan heb je hier eindelijk de.

11:08.570 --> 11:11.600
Dus je wist precies dat het een deterministische zoektocht was.

11:11.600 --> 11:13.210
Je wist in welke staat je terecht zou komen.

11:13.520 --> 11:15.020
Nu weet je niet in welke staat je terechtkomt.

11:15.020 --> 11:20.540
Dus in plaats van Veha te nemen, neem je de verwachte waarde van de toestand waarin je terechtkomt of van

11:20.540 --> 11:25.680
de toekomstige toestand, of gewoon in eenvoudige bewoordingen, je neemt gewoon het gemiddelde van waar je in terechtkomt.

11:25.940 --> 11:30.560
Dus weet je, als het een in een in een vier was, dan was er een kans van drieëndertig procent dat het zo zou

11:30.590 --> 11:30.830
zijn.

11:30.830 --> 11:32.830
Plus bedrijven delen door drie in principe.

11:32.840 --> 11:37.040
Maar in dit geval is het dat niet, het is niet precies hetzelfde gemiddelde.

11:37.040 --> 11:39.900
Het is een gewogen gemiddelde vanwege je kansen hier.

11:40.310 --> 11:45.950
Dus hier heb je de kans dat wanneer je in dit stadium bent, je deze actie onderneemt om als prime time in

11:45.950 --> 11:50.570
staat te komen, de waarde van een priemgetal en wat van al deze priemgetallen waar je hier mogelijk

11:50.570 --> 11:51.750
in zou kunnen komen.

11:51.770 --> 11:53.600
Dus precies wat we hier drie hadden.

11:53.600 --> 11:54.440
Een twee drie.

11:54.710 --> 11:57.020
Tel ze op, vermenigvuldig met kansen, tel ze op.

11:57.230 --> 11:57.680
Hier ook.

11:57.890 --> 11:58.720
Een twee drie.

11:58.730 --> 12:01.370
Vermenigvuldig dat met kansen en tel ze op.

12:01.940 --> 12:04.690
En dat is je nieuwe Bellmon-vergelijking.

12:05.060 --> 12:06.080
Gefeliciteerd.

12:06.350 --> 12:12.290
Dit is waar we in de toekomst mee gaan werken, en dat is het raamwerk dat wordt

12:12.290 --> 12:13.520
gebruikt in marktbeslissingsprocessen.

12:13.530 --> 12:20.690
Dus dat is het raamwerk dat dit oplost, dat agenten gebruikten om dit hele stochastische, niet-deterministische opslagprobleem op te

12:20.690 --> 12:25.300
lossen waarbij er willekeurige gebeurtenissen plaatsvinden die ze niet kunnen beheersen.

12:25.340 --> 12:26.870
Het is dus veel complexer.

12:26.870 --> 12:32.330
Maar zoals je kunt zien, omdat we er langzaam naartoe zijn gebouwd, weten we dit nu al.

12:32.330 --> 12:33.410
We lezen hierover.

12:33.410 --> 12:34.490
Maak je hier zorgen over.

12:35.030 --> 12:36.080
We weten hiervan.

12:36.080 --> 12:36.710
We weten hiervan.

12:36.710 --> 12:42.440
Dus alles wat we deden is dat we dit deel hier hebben geïntroduceerd omdat er waarschijnlijkheden zijn bij de

12:42.860 --> 12:45.350
actie of de gevolgen van jouw actie.

12:45.910 --> 12:48.350
En op niet-deterministisch zijn ze gebaseerd op bepaalde kansen.

12:49.040 --> 12:50.500
En daar gaan we dan.

12:50.510 --> 12:54.770
Zo werkt een marktbeslissingsproces.

12:54.770 --> 13:01.970
En de onderliggende vergelijking erachter, nogmaals, het is iets dat meer lijkt op

13:01.970 --> 13:08.000
echte wereldproblemen, echte wereldscenario's of zelfs spelscenario's, omdat niet alles eenvoudig

13:08.000 --> 13:08.630
is.

13:08.660 --> 13:14.090
Er is een zekere willekeur van alle betrokkenen en dat zal niet altijd zo zijn.

13:14.090 --> 13:18.460
Het ondernemen van een actie in een bepaalde staat zal altijd niet, zal niet, altijd tot hetzelfde resultaat leiden.

13:18.740 --> 13:23.060
En dit is waar we in de toekomst mee te maken gaan krijgen, en dat zal de zaken

13:23.060 --> 13:23.920
veel interessanter maken.

13:24.260 --> 13:29.030
Dus hopelijk ben je daar enthousiast over en opgewonden om te zien wat er gaat komen.

13:29.510 --> 13:35.810
En in de tussentijd heb ik een heel cool papier gevonden waar je deze keer naar kunt kijken.

13:35.810 --> 13:37.370
Het is een zeer toegepast papier.

13:37.370 --> 13:39.680
Dus deze is eigenlijk heel interessant om door te lezen.

13:40.040 --> 13:45.770
Het heet een overzicht van toepassingen van Markov-beslissingsprocessen en het is in 1993

13:46.160 --> 13:47.900
geschreven door White.

13:47.930 --> 13:55.910
Er is een link en ik zal je voorbeelden laten zien van waar Markov-beslissingsprocessen daadwerkelijk worden gebruikt om scenario's uit het echte leven

13:55.910 --> 13:56.960
te modelleren.

13:56.960 --> 13:59.510
Ik denk dat ik hier erg enthousiast over was.

13:59.510 --> 14:03.230
Ik was bijvoorbeeld onder de indruk van enkele voorbeelden van populatie oogsten.

14:03.740 --> 14:08.000
Dus laten we zeggen dat je wat vissen hebt en je weet wat de populatie vissen is.

14:08.000 --> 14:13.150
U moet beslissen hoeveel vissen we dit jaar mogen uitvissen en wat.

14:13.190 --> 14:14.270
Dus dat is je huidige staat.

14:14.270 --> 14:15.560
Dat is de actie die je onderneemt.

14:15.560 --> 14:16.880
Hoeveel kunnen we er dit jaar hebben?

14:17.060 --> 14:19.790
Dus wat zijn de mogelijke uitkomsten daarvan?

14:20.480 --> 14:22.010
Hoeveel vissen zullen we volgend jaar hebben?

14:22.040 --> 14:24.710
Hoeveel vissen zullen we het jaar daarna en het jaar erna hebben, enzovoort?

14:24.950 --> 14:30.230
En het is niet deterministisch, want het is niet zo dat als je het volgende jaar 90 procent van

14:30.230 --> 14:32.840
de bevolking uitschakelt, je weer 100 procent hebt.

14:32.840 --> 14:34.580
Het is niet bepaald deterministisch.

14:34.580 --> 14:37.430
Er zijn bepaalde willekeurige factoren bij betrokken die buiten onze controle liggen.

14:37.640 --> 14:41.240
En daarom moeten we begrijpen wat er gaat gebeuren.

14:41.240 --> 14:42.590
We moeten modelleren wat er gaat gebeuren.

14:42.590 --> 14:44.360
Dat is waar een marktbeslissingsproces wordt gebruikt.

14:44.810 --> 14:48.200
Landbouw, er is een voorbeeld van hetzelfde als het oogsten van gewassen.

14:48.200 --> 14:49.340
Hoeveel gewassen oogsten we?

14:49.340 --> 14:50.990
Hoeveel hoeveel oogsten we niet?

14:51.320 --> 14:57.920
Een andere, waarbij ik naar financiën en investeringen keek zoals een verzekeringsmaatschappij nodig heeft om te beslissen hoeveel van haar geld het

14:57.920 --> 14:59.870
in een bepaald bedrag zal investeren.

15:00.100 --> 15:06.380
Ik denk dat de dag of het jaar of een bepaalde tijdsperiode, en er zijn bepaalde factoren die hij in de hand heeft.

15:06.400 --> 15:09.090
Bijvoorbeeld, je weet wel, de marktbewegingen, het weet niet wat er kan gebeuren.

15:09.190 --> 15:11.920
Dus het moet dat op de een of andere manier echt modelleren.

15:11.920 --> 15:13.930
En daarvoor wordt een marktbesluitvormingsproces gebruikt.

15:14.260 --> 15:16.810
Dus hier ga je, zie heel veel voorbeelden.

15:16.810 --> 15:22.360
En dit is het aantal voorbeelden dat wordt gegeven, denk ik, voor elk en zelfs voor sport.

15:22.360 --> 15:29.230
Twee voorbeelden voor sport en epidemieën en autoverzekeringsclaims, inspecties en onderhoud en reparatie.

15:29.240 --> 15:31.840
Het is ook heel interessant om daar eens naar te kijken.

15:31.840 --> 15:39.760
Om je een idee te geven van, hé, dit is niet alleen maar verzonnen dingen, hypothetisch, het

15:39.760 --> 15:40.980
soort Matrix.

15:41.020 --> 15:42.540
Dit is eigenlijk een real-world scenario.

15:42.550 --> 15:44.710
Zo krijg je een beter begrip.

15:44.710 --> 15:47.890
En dit is waar we het over hadden in de promotievideo voor de SCHAUS.

15:47.890 --> 15:53.320
Dat of de beschrijving, natuurlijk, dat we jou en je intuïtie gaan inspireren om je ideeën te geven voor het

15:53.320 --> 15:55.810
gebruik van A. L. in het echte leven.

15:55.820 --> 15:57.310
Dit is uw kans.

15:57.790 --> 15:59.560
Kijk naar dit papier om het te begrijpen.

15:59.750 --> 16:02.560
Oké, dus we gaan in de toekomst te maken krijgen met de besluitvormingsprocessen van Markov.

16:02.770 --> 16:03.610
Dat is echt cool.

16:03.880 --> 16:05.190
Hoe zien ze er in het echt uit?

16:05.200 --> 16:10.030
En dit zou mogelijk tot ideeën voor u kunnen leiden, hoe u A. L. in de toekomst om van de wereld een

16:10.030 --> 16:10.930
betere plek te maken.

16:11.560 --> 16:13.570
En daar zouden we super blij mee zijn.

16:13.600 --> 16:18.220
We zouden super blij zijn als je wat je in deze cursus leert, zou kunnen gebruiken om de wereld een betere plek

16:18.220 --> 16:19.710
te maken, hoe fantastisch zou dat zijn.

16:20.290 --> 16:23.020
Dus wat dat betreft, ik hoop dat je de tutorial van vandaag leuk vond.

16:23.050 --> 16:24.480
Ik kijk ernaar uit om je de volgende keer te zien.

16:24.490 --> 16:26.350
En tot die tijd, geniet van I.