WEBVTT

00:00.960 --> 00:04.140
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:04.180 --> 00:06.890
Vandaag hebben we het over de levende straf.

00:07.470 --> 00:07.800
Oke.

00:07.800 --> 00:09.660
Dus hier hebben we een Bellmon-vergelijking.

00:09.660 --> 00:15.900
En terwijl we deze cursus doorliepen, werden we langzaamaan steeds complexer.

00:15.900 --> 00:22.500
Tot dusver hebben we deze kansen hier al toegevoegd en ook de verdisconteringsfactor.

00:22.800 --> 00:27.560
Nu gaan we in meer detail kijken naar deze kant van de vergelijking waar we de beloning hebben.

00:28.080 --> 00:33.810
Onthoud dat we het eerder hadden over hoe bekrachtigingsleren werkt, we zeiden dat we een agent hebben

00:33.810 --> 00:39.840
en het voert acties uit in de omgeving en in een uitwisseling of als gevolg daarvan krijgt het

00:39.840 --> 00:44.850
een nieuwe staat waarin het zich nu bevindt en een beloning voor die actie.

00:45.510 --> 00:51.630
Nou, tot nu toe hebben we in ons voorbeeld alleen beloningen gekregen aan het einde, of als we de

00:51.630 --> 00:58.410
finish halen of als we voor de agent in de vuurplaats belanden, krijgt hij een plus één of een min één beloning.

00:58.830 --> 01:02.640
Maar dat is een zeer simplistische benadering van versterkend leren.

01:02.640 --> 01:09.090
En in meer realistische scenario's zul je waarschijnlijk gedurende de hele reis beloningen hebben, niet alleen aan het

01:09.090 --> 01:09.660
einde.

01:09.780 --> 01:11.290
U kunt gedurende de hele reis beloningen krijgen.

01:11.310 --> 01:19.920
Als het bijvoorbeeld een A is. L. een spel spelen en als het bijvoorbeeld is

01:19.920 --> 01:28.530
alsof je iemand neerschiet en onheil, kan het punten opleveren voor het doden van die vijand of het kan in een ander ander spel zijn als het

01:28.530 --> 01:34.590
een andere auto inhaalt of iets dergelijks alleen vanwege de spelregels , niet vanwege de manier waarop het spel

01:34.590 --> 01:35.310
wordt geanalyseerd.

01:35.310 --> 01:41.070
Maar eigenlijk is het spel zo gestructureerd dat het zijn punten voor het uitvoeren van bepaalde acties versterkt, zelfs

01:41.070 --> 01:42.900
voordat het spel afgelopen is.

01:43.440 --> 01:47.970
Dergelijke scenario's komen dus heel vaak voor, niet alleen in games en ook in het echte leven.

01:48.420 --> 01:54.090
En daarom gaan we iets soortgelijks in ons voorbeeld introduceren, een vereenvoudigde versie daarvan, maar

01:54.090 --> 02:00.060
niettemin een beloning die continu aan de agent wordt gegeven gedurende het spel, niet alleen aan het

02:00.060 --> 02:00.450
einde.

02:00.780 --> 02:04.330
En de manier waarop we dat gaan doen, is door naar de andere titels te kijken.

02:04.350 --> 02:09.660
Dus op dit moment hebben we alleen beloning plus één bij de uiteindelijke titel en beloning minus één bij de andere.

02:09.660 --> 02:11.130
Laatste titel, de vuurplaats.

02:11.700 --> 02:15.870
Maar nu gaan we beloningen toevoegen in elke keer dat we een heel kleine beloning toevoegen.

02:15.870 --> 02:17.690
Het zal min nul komma nul vier zijn.

02:17.700 --> 02:18.870
En zoals je kunt zien, is het negatief.

02:18.870 --> 02:23.100
Dus elke keer dat de agent beweegt, krijgt hij een negatieve beloning.

02:23.100 --> 02:27.570
En daarom wordt het een levende straf genoemd, want waar hij ook heen gaat, hij zal altijd deze negatieve

02:27.570 --> 02:30.590
beloning krijgen, behalve deze laatste resultaten, want dan is het spel afgelopen.

02:31.140 --> 02:35.100
En hier kun je zien dat de beloning zelfs op deze staart min nul komma nul vier is.

02:35.100 --> 02:37.860
Maar dat betekent niet dat hij met die beloning begint.

02:37.890 --> 02:39.240
Hij krijgt alleen deze beloning.

02:39.600 --> 02:43.680
En dit is belangrijk om te onthouden, hij krijgt deze beloning alleen als hij een titel invoert.

02:43.680 --> 02:45.870
Dus wanneer hij een actie uitvoert, gaat hij hierheen.

02:46.410 --> 02:49.770
Dan krijgt hij deze beloning minus nul komma nul vier.

02:49.770 --> 02:53.250
En als hij dan terugkomt bij deze staart, krijgt hij nog een min nul komma nul vier beloning.

02:53.610 --> 02:57.900
En dus hoe langer hij rondloopt, hoe meer hij deze negatieve beloning verzamelt.

02:58.200 --> 03:03.410
En daarom is het voor hem een stimulans om het spel zo snel mogelijk eerder af te ronden.

03:03.740 --> 03:10.350
Laten we nu eens kijken hoe ons beleid of het agentenbeleid gaat veranderen, afhankelijk van de

03:10.350 --> 03:13.830
waarde die we voor deze beloning stellen.

03:14.280 --> 03:16.050
Dus hier zijn vier omgevingen.

03:16.230 --> 03:18.700
En in elk daarvan gaan we een ander probleem onderzoeken.

03:18.710 --> 03:20.610
Of nu gaan we de berekeningen niet doen.

03:21.090 --> 03:23.160
We gaan gewoon de resultaten projecteren.

03:23.160 --> 03:25.630
En je zult zien dat ze intuïtief volkomen logisch zijn.

03:25.650 --> 03:29.010
Dus hier hebben we een beloning voor elke stap.

03:29.010 --> 03:32.760
Het aanbieden van jou om in een staat te komen is gelijk aan nul.

03:32.760 --> 03:34.610
Net zoals we hier eerder hebben gezien.

03:34.620 --> 03:38.250
De beloning zal min nul komma nul zijn voor wat we zojuist hebben geïntroduceerd.

03:38.280 --> 03:44.100
Hier, de beloning is min nul komma vijf of de boete voor leven is min nul komma vijf.

03:44.100 --> 03:47.480
Zoveel hoger, je kunt zien dan hier meer dan 10 keer groter.

03:47.640 --> 03:50.100
En hier is de levende straf min twee.

03:50.100 --> 03:58.980
Dus zelfs meer dan de beloning die je krijgt voor het springen of zelfs minder dan de beloning die jij of de agent krijgt voor het

03:58.980 --> 04:00.620
belanden in de vuurkorf.

04:00.630 --> 04:07.020
Laten we dus eens kijken hoe de acties of het optimale beleid voor het passeren van deze omgeving zullen

04:07.020 --> 04:09.090
veranderen, afhankelijk van deze beloning.

04:09.120 --> 04:11.010
Dit is dus ons oorspronkelijke beleid.

04:11.640 --> 04:18.240
En zoals je je kunt herinneren, hadden we deze twee zeer interessante en zelfs een beetje rare beslissingen van de

04:18.240 --> 04:24.660
agent, maar dat is volkomen logisch als hij zo lang kan leven als hij wil, als je gewoon kunt

04:24.660 --> 04:29.850
rondreizen zolang hij wil zonder gestraft te worden voor het lang in leven blijven.

04:30.630 --> 04:32.090
Hij waarom niet?

04:32.100 --> 04:38.410
Waarom zou hij niet gewoon de hoek hier de muur in gaan en dat gewoon blijven doen tot het gebeurt?

04:38.410 --> 04:42.120
Toevallig gaat hij deze kant op en dan zal hij rondlopen en hetzelfde hier.

04:42.120 --> 04:47.100
Het is veel veiliger voor hem om tegen de muur te springen, in de hoop dat een van deze uiteindelijk naar boven

04:47.100 --> 04:51.930
komt en dan toch naar de finish gaat, want door deze twee acties te kiezen, loopt hij niet het risico in

04:51.930 --> 04:53.100
het vuur te komen pit.

04:53.550 --> 04:59.310
Laten we nu eens kijken wat er gebeurt als we een beloning toevoegen, een negatieve beloning voor gewoon leven, voor het zetten van een

04:59.310 --> 04:59.730
stap.

05:00.090 --> 05:06.780
Je beweegt, dus hier kun je zien dat deze twee direct veranderden, nu wil de agent niet tegen de

05:06.780 --> 05:07.540
muur springen.

05:07.830 --> 05:12.750
Hij heeft meer kans om naar de vuurplaats te gaan, met een kans van 10 procent om hier in te springen.

05:13.080 --> 05:18.870
Maar hij zal vooruit gaan, want elke keer dat hij hier over de muur springt, als hij het hier ook zou doen, elke

05:18.870 --> 05:24.330
keer dat hij in alles springt, voert hij een actie uit waar hij in deze toestand terechtkomt met een kans van

05:24.330 --> 05:24.930
80 procent.

05:24.930 --> 05:29.550
En dat betekent dat hij met een kans van 80 procent een min nul punt nul krijgt als

05:29.550 --> 05:34.080
beloning, wat betekent dat hij dit vaak zal krijgen door deze negatieve beloning op te bouwen.

05:34.890 --> 05:35.490
Hetzelfde hier.

05:35.490 --> 05:42.510
Als hij tegen de muur springt in afwachting van het moment waarop hij daadwerkelijk willekeurig naar rechts wordt verplaatst, als hij dat

05:42.870 --> 05:45.690
blijft doen, zal hij deze negatieve beloning accumuleren.

05:45.870 --> 05:51.990
En dat het resultaat daarvan, als je de berekeningen uitvoert, je zult zien dat het resultaat daarvan,

05:52.530 --> 05:59.550
de verwachte waarde van die benadering, tegen de muur springen erger is dan het risico nemen om vooruit te gaan

05:59.550 --> 06:02.610
en daadwerkelijk in het vuur te belanden pit.

06:02.760 --> 06:10.170
Dus hij verandert zijn beslissingen in deze twee blokken om in plaats daarvan vooruit te gaan en naar links te gaan, ook al is er

06:10.170 --> 06:15.000
een risico om in de vuurplaats te springen, simpelweg omdat hoe langer hij leeft, hoe langer

06:15.000 --> 06:18.750
hij deze levende straf zal verzamelen in de volgende omgeving .

06:18.780 --> 06:22.270
Nu verhogen we de levende pouncy tot een nog groter aantal.

06:22.290 --> 06:23.250
Mainzer punt vijf.

06:23.250 --> 06:24.270
En laten we eens kijken wat hier verandert.

06:24.780 --> 06:29.490
Dus nu kun je zien dat in vergelijking met deze omgeving, het enige dat hier verandert, is

06:29.490 --> 06:31.190
dat deze pijl naar rechts wijst.

06:31.890 --> 06:38.190
En wat dat betekent is dat het nu geen goede optie meer is voor de agent of eigenlijk ook

06:38.190 --> 06:41.950
deze pijl wijst naar links en wijst nu naar boven.

06:42.240 --> 06:48.660
Dus nu is het niet langer een goed idee voor de agent om vanaf hier rond te gaan, helemaal rond te gaan, want als

06:48.960 --> 06:51.090
hij helemaal rondgaat, ja, hij is veiliger.

06:51.090 --> 06:53.720
Er is een kleinere kans, er is geen kans om bij de vuurplaats te komen.

06:54.240 --> 06:57.410
Maar tegelijk of er minder kans is tegen de vuurkorf.

06:57.600 --> 07:03.060
Maar tegelijkertijd zal hij een behoorlijk substantiële negatieve beloning verzamelen terwijl hij rondloopt.

07:03.070 --> 07:05.210
Dus het is gewoon dat het pad te lang is.

07:05.430 --> 07:11.430
Dus dat dwingt hem, of hij nu hier of hier is, om de kortere route te nemen om hier te komen, ook

07:11.670 --> 07:16.650
al heeft hij een veel groter risico om in de vuurplaats te komen, want zodra hij op het

07:16.980 --> 07:21.690
plein belandt, is er een 10 procent kans om bij de vuurplaats te komen, volgens zijn berekeningen.

07:21.690 --> 07:27.930
Is alleen de verwachte waarde van deze aanpak beter dan de verwachte waarde van rondgaan, simpelweg omdat

07:27.930 --> 07:30.130
we deze woonboete hebben verhoogd.

07:30.570 --> 07:36.660
En tot slot komen we bij het voorbeeld met de levende straf van min twee komma nul.

07:37.050 --> 07:42.570
Dus hier zou ik je willen aanmoedigen om de video te pauzeren nu je hebt gezien hoe het beleid is veranderd naarmate we

07:42.570 --> 07:44.020
de boete voor levensonderhoud verhogen.

07:44.310 --> 07:49.790
Ik moedig je aan om de video te pauzeren en voor jezelf te bedenken wat er in dit scenario zal gebeuren.

07:49.800 --> 07:55.530
Wat denk je dat het optimale beleid zal worden gegeven dat de woonboete zo hoog is?

07:55.890 --> 07:58.020
Dus ik zal je de video laten plaatsen als je dat wilt.

07:58.320 --> 08:02.330
En nu ga ik je de oplossing laten zien.

08:02.340 --> 08:07.740
Dus in dit geval, als je de straf verhoogt tot min twee komma nul, is het zo hoog.

08:07.750 --> 08:10.820
Onthoud dat de straf hier slechts min één punt is.

08:10.830 --> 08:16.770
Het is zo hoog dat de agent gewoon op elke mogelijke manier uit het spel wil komen, al is het maar door

08:16.770 --> 08:18.150
in de vuurplaats te springen.

08:18.450 --> 08:19.140
Hij zal het doen.

08:19.140 --> 08:25.770
Hij zal zijn zoals elke keer dat ik een steek doe, elke keer dat ik in een staat New York beland of elke

08:25.770 --> 08:29.950
keer dat ik een actie doe, ik uiteindelijk een min twee beloning krijg.

08:29.970 --> 08:35.940
Dus wat heeft het voor zin om vanaf hier de finish te bereiken of mij twee extra stappen te nemen?

08:36.210 --> 08:41.010
Ik ga gewoon hier en dan recht de vuurplaats in, want op die manier

08:41.010 --> 08:48.450
zal mijn beloning minder zijn, de negatieve beloning zal niet zo erg zijn als in het geval van alleen maar een extra stap zetten.

08:48.960 --> 08:56.730
Dus je kunt zien dat het toevoegen van deze levende beloning en afhankelijk van de waarde van de levende beloning die

08:56.730 --> 09:02.250
we toevoegen, de resultaten anders zullen zijn en de agent ander beleid zal selecteren.

09:02.520 --> 09:09.870
En dat is eigenlijk hoe de beloningswaarde kan worden opgenomen door de portiersvergelijking, zelfs als het niet alleen bij de finish of aan

09:09.870 --> 09:13.710
het einde van het spel is, maar zelfs tijdens het spel.

09:13.710 --> 09:18.630
En nogmaals, nogmaals, het hoeft niet op elke single in elke afzonderlijke staat te zijn, afhankelijk van

09:18.630 --> 09:19.650
de omgeving zelf.

09:20.040 --> 09:26.070
Het kan in bepaalde specifieke toestanden aan de agent worden gegeven, niet in elke fase, maar

09:26.070 --> 09:32.330
in ons simplistische voorbeeld gebruiken we alleen beloningen in elke bepaalde toestand om dit concept te illustreren.

09:32.790 --> 09:34.400
Dus ik hoop dat je geniet van vandaag, Statoil.

09:34.410 --> 09:40.500
En zoals je kunt zien, hebben we onze Bellmon-vergelijking al behoorlijk geavanceerd gemaakt en nu kan deze op veel

09:40.500 --> 09:42.060
verschillende scenario's worden toegepast.

09:42.150 --> 09:44.250
En ik kan niet wachten om je te zien in de volgende tutorial.

09:44.250 --> 09:46.140
En tot die tijd, geniet van EHI.