WEBVTT

00:00.810 --> 00:03.660
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:03.870 --> 00:07.950
Dus we hebben gesproken over de portiersvergelijking en we hebben ons kleine doolhof geanalyseerd.

00:08.400 --> 00:10.530
Laten we eens kijken naar het plan.

00:10.980 --> 00:11.970
Wat is het plan?

00:12.600 --> 00:14.580
Nou, hier is onze doolhofanalyse.

00:14.580 --> 00:19.440
En we weten dat we de staten kunnen zien, de waarden van elke staat.

00:19.440 --> 00:26.880
We kunnen zien wat de waarde is om in elke afzonderlijke staat te zijn en daarom kan de EC of de agent door dit doolhof

00:26.880 --> 00:27.360
navigeren.

00:27.720 --> 00:28.710
Dus wat is het plan?

00:28.740 --> 00:33.630
Welnu, het plan is gewoon een schatkaart voor kunstmatige intelligentie.

00:34.230 --> 00:40.410
In plaats van naar deze waarden te kijken die ze gewoon vervangen door pijlen, die aangeven in welke richting de

00:40.410 --> 00:43.290
agent daardoor moet gaan, omdat hij die waarde kent.

00:43.330 --> 00:49.080
Dus een ideaal scenario, nadat het deze omgeving heeft verkend, kent het de waarden van het zijn in elke staat.

00:49.080 --> 00:50.810
En daarom kun je deze kaart bedenken.

00:50.820 --> 00:52.250
Dus laten we nog eens kijken.

00:52.260 --> 00:57.240
We weten dat uw waarden een keer of als u hier bent van de twee, hoe beter.

00:57.240 --> 00:57.630
Een daarvan is dit.

00:57.630 --> 01:00.900
Als je vanaf hier naar rechts gaat, van de twee, is deze een betere.

01:00.900 --> 01:01.680
Deze is een betere.

01:01.890 --> 01:02.700
Deze is een betere.

01:02.700 --> 01:04.530
Of eigenlijk vanaf hier heb je twee opties.

01:04.530 --> 01:04.700
Rechts?

01:04.710 --> 01:06.860
Dus hier is een soort stropdas.

01:06.870 --> 01:08.640
Dus je kiest er gewoon willekeurig een uit.

01:08.640 --> 01:13.650
Het maakt niet uit welke, omdat de waarde in beide gevallen hetzelfde is en meer.

01:13.650 --> 01:18.150
Zelfs als we er doorheen kijken, kost het hetzelfde aantal stappen, hetzelfde aantal stappen om het einde te bereiken.

01:18.570 --> 01:22.450
Vanaf hier heb je drie opties, maar deze is de betere waarde vanaf hier.

01:22.470 --> 01:23.970
Deze is een betere waarde vanaf hier.

01:24.210 --> 01:28.410
Het is duidelijk dat deze een betere waarde heeft, want hier, weet je, krijg

01:28.410 --> 01:30.360
je meteen een min één beloning.

01:30.360 --> 01:31.890
Je hebt er eigenlijk drie.

01:31.910 --> 01:34.950
Dus deze is de beste of de beste waarde van de staat.

01:35.220 --> 01:40.860
En dus, als we ze vervangen door pijlen, is het logisch dat de agent zo zou gaan als hij hier begint of als

01:40.860 --> 01:45.870
hij om de een of andere reden op dit plein terechtkomt, hij weet hoe hij hier weg moet komen.

01:45.880 --> 01:48.920
Het begint op dit plein en weet hier weg te komen enzovoort.

01:48.930 --> 01:51.360
Dus dat is wat een plan is.

01:51.360 --> 01:56.700
En verwar plan niet met beleid, want we gaan het hebben over beleid, want het eigen beleid lijkt erg

01:56.700 --> 02:01.410
op plannen, maar ze hebben een klein trucje omdat de omgeving er een beetje anders uit

02:01.410 --> 02:02.070
gaat zien.

02:02.280 --> 02:07.250
Het wordt stochastisch en daar gaan we het in de volgende tutorial over hebben.

02:07.830 --> 02:09.930
Dus ik kan niet wachten om je bij de volgende te zien.

02:09.930 --> 02:12.000
En tot die tijd, geniet van I.
