WEBVTT

00:00.540 --> 00:06.960
Hallo en welkom terug bij de cursus over kunstmatige intelligentie, en tot slot, we zijn bezig met de leuke dingen, we

00:06.960 --> 00:08.850
zijn bezig met diep leren.

00:09.300 --> 00:09.660
Oke.

00:09.660 --> 00:10.380
Dus laten we eens kijken.

00:10.590 --> 00:14.040
Eerder spraken we over het leren van kinderen en waar het allemaal om draait.

00:14.040 --> 00:20.820
En we leerden over de leeftijd en de omgeving en hoe de agent zal kijken naar de staat waarin hij of zij

00:20.820 --> 00:21.480
zich bevindt.

00:21.780 --> 00:24.660
Onderneem een actie, ontvang een beloning, ga een nieuwe staat binnen.

00:24.660 --> 00:29.970
En op basis van die feedbacklus zullen ze acties blijven ondernemen en daarvan leren, begrijpen wat de betere acties

00:30.570 --> 00:31.860
zijn om te ondernemen.

00:32.100 --> 00:34.770
En dus keken we naar dit basisvoorbeeld van een doolhof.

00:34.950 --> 00:40.020
We begrepen dat naarmate het tijdperk de omgeving verkent en begrijpt wat de waarden van de staten zijn, we

00:40.020 --> 00:44.610
verder gingen van het omgaan met de waarden van de staten naar het omgaan met de waarden

00:44.610 --> 00:46.230
van de acties of de kernwaarden.

00:46.440 --> 00:53.460
En op basis daarvan begrepen we hoe plannen in een niet-sarcastische omgeving werken en hoe beleid werkt

00:53.460 --> 00:55.200
in stochastische omgevingen.

00:55.200 --> 00:56.550
En dit is een voorbeeld van beleid.

00:57.000 --> 01:01.020
Dus dat is een korte samenvatting van alles wat we hebben besproken in de basiscursus.

01:01.320 --> 01:06.840
En laten we nu eens kijken hoe dit naar een hoger niveau kan worden getild door middel van deep learning, door deep learning

01:06.840 --> 01:07.840
toe te voegen.

01:08.100 --> 01:10.320
Oké, dit is dus onze omgeving.

01:10.500 --> 01:18.900
En wat we nu gaan doen, is dat we gaan toevoegen, in plaats van alleen basisberekeningen te doen in deze matrix die we hebben, wat vrij

01:18.900 --> 01:23.880
eenvoudig is, wat we gaan doen is dat we twee assen gaan toevoegen, die een

01:24.180 --> 01:30.050
X- en Y-as toevoegt, of we noemen ze X1 en X2 om de zaken nog algemener te maken.

01:30.360 --> 01:34.290
En hier hebben we een testamentnummer, de kolommen, één, twee, drie, vier.

01:34.290 --> 01:36.510
Hillshire regelnummer van de rijen, één, twee, drie.

01:36.840 --> 01:43.720
En dus kan nu elke afzonderlijke toestand worden beschreven door een paar van twee waarden, X1 en extra.

01:43.740 --> 01:50.880
Dus elk van deze vierkanten waarin de agent zich mogelijk kan bevinden, kan worden beschreven door x1 x2.

01:50.890 --> 01:59.520
Dus op dit moment staat hij bijvoorbeeld in het vierkant met x1 gelijk aan één en x2 gelijk aan twee, en daarom kunnen we ergens elk

01:59.550 --> 02:03.320
vierkant doen, wat betekent dat we elke toestand kunnen beschrijven.

02:03.360 --> 02:08.880
Dan is dit natuurlijk een sterk vereenvoudigde versie van een omgeving waarin toestanden worden beschreven, maar in dit geval

02:08.880 --> 02:09.870
werkt het toch.

02:10.110 --> 02:17.130
En dat betekent dat we deze toestanden nu in een neuraal netwerk kunnen voeden.

02:17.280 --> 02:21.660
En tussen haakjes, hier wil ik even vermelden dat we aan het eind van de cursus bijlagen hebben,

02:21.660 --> 02:22.890
we hebben Anex, nummer één.

02:22.890 --> 02:27.810
En nummer twee, om met succes verder te gaan met de sectie, is het ten zeerste aan te raden

02:27.810 --> 02:31.620
om Anex nummer één te bekijken, dat zich op een kunstmatig neuraal netwerk bevindt.

02:31.630 --> 02:35.850
Dus je begrijpt hoe ze werken, zodat we dat hier niet hoeven uit te zoeken.

02:35.850 --> 02:40.350
En we kunnen gewoon gebruik maken van de voordelen van de kennis van hoe kunstmatige neurale netwerken werken.

02:40.650 --> 02:48.990
En dus voeren we deze informatie over de toestand in een neuraal netwerk in en dan zal het deze informatie

02:49.200 --> 02:49.680
verwerken.

02:49.680 --> 02:54.990
Dus x1 x2, afhankelijk van de structuur van het neurale netwerk, kan het meerdere verborgen lagen hebben,

02:54.990 --> 02:55.310
enzovoort.

02:55.320 --> 02:58.590
Daar kom je dus achter in de praktische tutorials.

02:58.830 --> 03:04.770
Maar aan het einde zullen we zo structureren dat het vier waarden uitspuugt en deze vier

03:04.770 --> 03:06.540
waarden worden eigenlijk ArcView-waarden.

03:06.540 --> 03:09.840
Dus de waarden die bepalen welke actie we moeten ondernemen.

03:09.840 --> 03:14.130
Verderop in deze zelfstudie zullen we precies zien hoe deze sleutelwaarden worden gebruikt om te beslissen welke actie

03:14.130 --> 03:14.850
wordt ondernomen.

03:15.150 --> 03:22.310
Maar het belangrijkste punt hier is dat we niet langer alleen naar dit doolhof kijken vanuit een lerend perspectief.

03:22.560 --> 03:29.670
We nemen nu de toestand van het doolhof en we voeren ze in een diep neuraal netwerk om deze

03:29.700 --> 03:30.840
sleutelwaarden te krijgen.

03:30.840 --> 03:33.900
En aan het eind van de dag komen we nog met een actie.

03:33.900 --> 03:38.910
We gaan nog begrijpen welke actie we moeten ondernemen en we zullen dit alles in meer detail bespreken.

03:38.910 --> 03:40.320
Maar de vraag is nu waarom?

03:40.320 --> 03:41.880
Waarom doen we dit allemaal?

03:41.880 --> 03:47.190
Waarom voltooien we, waarom maken we de dingen zo veel ingewikkelder terwijl die initiële benadering van leren

03:47.190 --> 03:48.010
al werkte?

03:48.500 --> 03:53.940
Welnu, de reden daarvoor is dat het belangrijkste leerproces in deze zeer simplistische omgeving was.

03:54.060 --> 03:59.070
En we gaan voorlopig door met deze zeer simplistische omgeving om de concepten beter te

03:59.070 --> 03:59.670
begrijpen.

03:59.910 --> 04:05.940
Maar tegelijkertijd zal dat eenvoudige sleutelleren niet langer werken in complexere omgevingen.

04:05.940 --> 04:11.820
En we hebben het bijvoorbeeld over de zelfrijdende auto's, die doom zullen

04:12.330 --> 04:18.600
creëren of spelen wanneer de andere kunstmatige intelligentie doom speelt of andere Atari-games zoals

04:18.600 --> 04:26.370
Breakout of zelfs zelfrijdende auto's en meer geavanceerde versterkingsleren, dingen zoals robots die rondlopen en acties uitvoeren.

04:26.580 --> 04:32.010
In al die gevallen is leren in principe onvoldoende, niet sterk, niet krachtig genoeg

04:32.010 --> 04:34.650
om die uitdagingen aan te kunnen.

04:34.650 --> 04:40.350
En net zoals we hebben gezien in de deep learning-cursus, als je in onze diepe denkers bent geweest

04:40.890 --> 04:47.190
of als je de bijlage-secties hebt gedaan en niemand je heeft aangekondigd dat zal doen, waar je weet dat deep learning

04:47.190 --> 04:51.520
veruit superieur is aan elke vorm van machine learning, laat staan eenvoudig leren.

04:51.540 --> 04:54.140
En daarom maken we hier gebruik van de kracht van deep learning.

04:54.150 --> 04:58.440
Dus we voeren de informatie over de omgeving in als een vector van waarden.

04:58.460 --> 04:59.400
Dus in dit geval gewoon naar.

04:59.440 --> 05:01.280
Waarden in een diep neuraal netwerk.

05:01.300 --> 05:06.430
En dan gebruiken we dat om de acties uit te voeren die we willen om te beslissen welke acties de agenten

05:06.430 --> 05:06.970
gaan ondernemen.

05:07.330 --> 05:11.350
Dus dat is een soort overzicht op hoog niveau van waarom we dit doen.

05:11.680 --> 05:18.430
En laten we nu eens in wat meer detail bekijken wat er gebeurt met de concepten van leren wanneer we

05:18.430 --> 05:23.650
overstappen, wanneer we de transformatie maken van of overgaan van eenvoudig leren naar diep leren.

05:24.010 --> 05:31.690
Zoals je in de presentatiehandleidingen hebt gezien, hadden we een dia als deze, die de basis vormt voor het leren

05:31.900 --> 05:33.280
van temporele verschillen.

05:33.670 --> 05:35.410
Dit is de formule voor tijdsverschil.

05:35.650 --> 05:36.700
En in principe.

05:36.700 --> 05:37.300
Dus laten we doornemen.

05:37.360 --> 05:44.290
Dus eigenlijk hadden we een agent die hier in deze staat was, wat wordt aangegeven door Blue

05:44.980 --> 05:51.160
Arrow, en we begrepen hoe tijdsverschil werkt voor deze sleutelwaarde van bijvoorbeeld omhoog gaan.

05:51.640 --> 05:56.440
En dus wat we hier zagen, was voordat dit in de eenvoudige kry zit, niet in het typische leren.

05:56.440 --> 05:57.530
Dit in het eenvoudige leren.

05:57.580 --> 06:05.980
Wat we zagen was voordat de agent een bepaalde waarde had dat hij had geleerd over deze actie om naar boven te gaan.

06:06.190 --> 06:08.560
En dus besluit hij om deze actie te ondernemen om naar boven te gaan.

06:08.710 --> 06:14.410
En direct nadat hij deze actie heeft ondernomen, krijgt hij een beloning voor het uitvoeren van deze actie in deze staat.

06:14.650 --> 06:16.420
En dat is die beloning.

06:16.420 --> 06:22.690
Bovendien kan hij nu de waarde evalueren van de huidige staat waarin hij zich bevindt, wat het maximum is van

06:22.690 --> 06:25.780
alle Nuku-waarden, van alle doelen van de nieuwe acties.

06:25.780 --> 06:32.040
Hij kan een probleem in de nieuwe toestand als priemgetal nemen en we vermenigvuldigen met de vervalfactor van gamma.

06:32.350 --> 06:40.570
Dus dat is in wezen de cue, de nieuwe cue-waarde, of zoiets als de empirische waarde die hij zojuist heeft ontvangen voor

06:40.570 --> 06:42.900
het ondernemen van die actie.

06:43.120 --> 06:45.550
En idealiter zouden deze twee hetzelfde moeten zijn.

06:45.580 --> 06:51.370
Zodat eigenlijk de sleutelwaarde die hij in zijn geheugen had over deze actie in deze staat gelijk zou

06:51.370 --> 06:57.160
moeten zijn aan de werkelijke beloning, plus de gammatijden, de waarde van de staat waarin hij belandde.

06:57.440 --> 06:59.820
En daarom berekenen we zo het tijdsverschil.

06:59.830 --> 07:05.350
We nemen wat hij kreeg na min wat hij kreeg, wat hij in gedachten had, wat hij verwachtte, je zou de een

07:05.350 --> 07:06.430
van de ander aftrekken.

07:06.610 --> 07:07.630
En dat is een tijdsverschil.

07:07.630 --> 07:14.830
En dan gebruik je je leersnelheid alfa om je Q-waarde aan te passen, je unieke waarde door het temporele

07:14.830 --> 07:16.770
verschil, maar met een alfa-coëfficiënt.

07:17.020 --> 07:20.140
Dat is dus de essentie van het simpele Q Learning.

07:20.350 --> 07:24.120
Laten we nu eens kijken hoe het verandert in verkleuring.

07:24.430 --> 07:29.240
En dus gaan we nog steeds met de dia werken, maar we gaan gewoon zien wat er precies gebeurt.

07:29.500 --> 07:35.710
Dus in deep Q Learning zal het neurale netwerk vier valleien voorspellen, zoals we in de vorige eigenaren

07:35.710 --> 07:41.710
zagen voor Abdulnasser, het neurale netwerk zal vier waarden voorspellen of het kan meer waarden voorspellen als er

07:41.710 --> 07:44.710
meer mogelijke acties zijn in een bepaalde staat.

07:44.720 --> 07:49.000
Maar in dit geval, als we weten dat er maar vier acties zijn: omhoog, rechts,

07:49.000 --> 07:52.960
links, omlaag, en dus zal het neurale netwerk vier van deze waarden voorspellen.

07:53.170 --> 07:57.460
Er zal dus geen sprake zijn van een diepgaande leersituatie die belangrijk is om te begrijpen.

07:57.460 --> 07:58.660
Er is geen voor of na.

07:58.780 --> 08:01.420
En zo leren we dit wat beter kennen.

08:01.630 --> 08:08.050
Dus het neurale netwerk zal vier van deze waarden voorspellen en het zal niet vergelijken met wat er daarna zal gebeuren,

08:08.050 --> 08:11.740
maar het neurale netwerk zal zich vergelijken met deze exacte waarde.

08:11.740 --> 08:17.420
Maar het was deze waarde die in de vorige stap werd berekend.

08:17.620 --> 08:25.230
Dus in de vorige keer dat de agent in dit exacte vierkant stond, dus laten we zeggen, ik weet het niet, enige tijd

08:25.300 --> 08:29.470
geleden was de agent weer, het was ook in dit exacte vierkant.

08:29.590 --> 08:34.140
En het heeft deze waarde eerder berekend.

08:34.270 --> 08:38.370
Dus in de vorige keer, lang geleden, heeft de agent deze waarde berekend.

08:38.590 --> 08:43.420
Vervolgens heeft de agent deze waarde opgeslagen voor de toekomst en nu is de toekomst aangebroken.

08:43.600 --> 08:48.400
Dus nu staat hij weer op het plein, en nu heeft hij deze nieuwe waarden, die is voorspeld, en een

08:48.400 --> 08:50.240
ervan is dat de vier omhoog gaan.

08:50.560 --> 08:57.160
Dus wat hij nu gaat doen, is de voorspelde waarde van Q vergelijken met deze waarde, die hij van de

08:57.160 --> 08:58.510
vorige tien had genoteerd.

08:59.020 --> 09:01.840
En we zullen precies begrijpen waarom dit nu belangrijk is.

09:01.870 --> 09:07.360
Het is dus belangrijk om te begrijpen dat er geen voor en na in dit specifieke vierkant

09:07.360 --> 09:13.560
is, de specifieke tijd dat we de sleutelwaarde nemen die hij deze keer heeft voorspeld met behulp van het neurale netwerk.

09:13.570 --> 09:20.170
En we vergelijken het met deze waarde die hij had van de vorige keer, van de vorige keer dat hij op

09:20.170 --> 09:26.050
dit plein was om de hele situatie te beoordelen en, weet je, net als de vorige keer dat

09:26.050 --> 09:27.860
hij deze actie daadwerkelijk uitvoerde.

09:28.150 --> 09:29.220
Dus daar gaan we.

09:29.230 --> 09:35.270
Laten we nu eens kijken hoe dit allemaal werkt in het neurale netwerk en waarom is het alsof ik weet dat

09:35.290 --> 09:39.910
het nu een beetje ingewikkeld klinkt, maar we zullen het zo meteen opsplitsen in eenvoudige termen.

09:39.940 --> 09:44.260
Dus dit op je eigen netwerk, we passen in de toestanden van de omgeving in het neurale netwerk dat

09:44.260 --> 09:45.400
door de verborgen lagen gaat.

09:45.670 --> 09:50.670
Dan komt het uit met deze uitgangen, Q1 tot Q2, tot Q3, Q4 in die specifieke staat.

09:50.710 --> 09:57.290
Dit zijn de belangrijkste waarden die het neurale netwerk voorspelt voor de mogelijke acties.

09:57.340 --> 09:58.150
Dat zijn de kernwaarden.

09:58.300 --> 09:59.260
Dus dan zijn we.

09:59.390 --> 10:04.630
Voorbereiden om te richten en deze doelen is precies zo als we hier teruggaan, dit is het doelwit.

10:04.660 --> 10:07.150
Dit is dus de waarde die werd voorspeld.

10:07.150 --> 10:11.520
En dan, maar we weten ook dat we een doelwit hebben van de laatste keer dat we op het plein waren.

10:11.680 --> 10:16.310
We hebben een doel voor dezelfde actie, die bijvoorbeeld omhoog is.

10:16.540 --> 10:20.550
Dus hier hebben we een doel en we gaan dit vergelijken met Q1 vergelijken met dat doel.

10:20.920 --> 10:26.500
We vergelijken het tweede kwartaal met dat doel, het doel dat we eerder hadden, het derde kwartaal met het doel, het

10:26.500 --> 10:27.910
vierde kwartaal met het doel.

10:28.300 --> 10:36.550
En dit is dus het deel waar het neurale netwerk of de agent nu door middel van diepgaand leren leert om beter

10:36.550 --> 10:38.580
door de ruimte te gaan.

10:38.590 --> 10:42.460
En het belangrijkste punt hier is dat we nog steeds aan het solliciteren zijn en leren.

10:42.460 --> 10:47.290
Maar de concepten in het leren van eenvoudige sleutels leer je door temporele verschillen, die vrij eenvoudig zijn, die

10:47.290 --> 10:50.490
we al hebben besproken en die we nu vrij goed kennen.

10:50.830 --> 10:54.530
Maar hoe leren neurale netwerken tegelijkertijd bij deep learning?

10:54.550 --> 10:56.920
Nou, neurale netwerken leren door hun gewicht aan te passen.

10:56.920 --> 11:07.630
Dus we moeten de concepten van versterken van de concepten van eenvoudig leren aanpassen aan de manier waarop neurale netwerken echt werken, en dat

11:07.630 --> 11:10.810
is door hun gewichten bij te werken.

11:10.850 --> 11:12.520
En dit is wat we hier proberen uit te zoeken.

11:12.520 --> 11:19.120
Hoe passen we dat concept van tijdsverschil aan aan een neuraal netwerk, zodat we de volledige kracht van

11:19.120 --> 11:20.710
neurale netwerken kunnen benutten?

11:21.220 --> 11:22.150
Tot nu toe hebben we dit gekregen.

11:22.150 --> 11:28.630
Dus we gaan hier onze omgevingstoestand binnen terwijl een vector door een neuraal netwerk gaat, we krijgen voorspellingen van

11:28.630 --> 11:29.320
nieuwe waarden.

11:29.440 --> 11:35.770
En vanaf de vorige keer dat de agent in die staat was, hebben we dit nieuwe doelwit om een, twee, drie

11:35.770 --> 11:39.010
en vier te targeten voor elk van deze respectieve acties.

11:39.310 --> 11:42.910
En dus zijn we nu aan het, oké, laten we ze eens met elkaar vergelijken.

11:43.420 --> 11:50.400
En vanaf hier wordt het vrij eenvoudig als je op de hoogte bent van neurale netwerken.

11:50.410 --> 11:52.180
Nogmaals, dat is een bijlage.

11:52.420 --> 11:52.990
Nummer een.

11:53.170 --> 12:00.340
We gaan een verlies berekenen, dat is Al hier, en we gaan dit mikken minus Kuis, minus

12:00.340 --> 12:01.210
dit.

12:01.780 --> 12:05.440
We gaan dat soort vierkante verschil van elk van deze kwadrateren.

12:05.440 --> 12:10.750
En we gaan ze optellen, zodat we de som van de kwadratische verschillen van deze sleutelwaarden en hun doelen

12:10.750 --> 12:11.560
kunnen nemen.

12:11.560 --> 12:13.540
En we gaan ze opzetten en dat wordt een verlies.

12:13.840 --> 12:17.850
En dus idealiter, net zoals we hadden bij het leren van temporele verschillen.

12:17.860 --> 12:22.920
Dus als we even teruggaan, bedenk dan dat we idealiter zeiden dat dit gelijk zou zijn aan dit.

12:22.930 --> 12:25.120
Dus we willen dat het tijdsverschil nul is.

12:25.120 --> 12:31.690
Dus dat betekent dat de agent in feite precies goed voorspelt wat jij weet, de waarde is dat

12:31.690 --> 12:37.840
de agent precies voorspelt of dat hij een geheugen heeft, precies de omgeving beschrijft, en daarom

12:38.500 --> 12:42.670
kan de agent vrij goed door de omgeving navigeren .

12:42.670 --> 12:42.930
Rechts.

12:42.940 --> 12:43.960
Er zijn geen verrassingen.

12:43.960 --> 12:45.710
Er is geen er is geen antwoord.

12:45.760 --> 12:51.280
Zolang dit temporele verschil zeer positief of negatief is, hebben we enkele verrassingen.

12:51.280 --> 12:55.420
Maar als het temporele verschil nul is, dan kent hij de omgeving zo goed dat hij kan voorspellen wat er aan de hand is

12:55.420 --> 12:56.380
en dat kan hij ook.

12:56.500 --> 13:00.910
En daarom zal zijn beleid erg goed zijn en hij zal erin kunnen navigeren.

13:01.240 --> 13:02.650
Dus hier hetzelfde.

13:02.650 --> 13:07.210
Dus we willen dat dit verlies zo klein mogelijk is.

13:07.570 --> 13:14.620
En daarom gaan we nu naar dit deel waar we de echte kracht van neurale netwerken gaan gebruiken, zodat

13:14.620 --> 13:20.350
we dit verlies kunnen opvangen en we gaan terugpropagatie of stochastische gradiëntafdaling gebruiken om dit

13:20.350 --> 13:26.980
verlies op te vangen en passeer het door het netwerk, geef het terug of terug gepropageerd door een

13:26.980 --> 13:29.320
netwerk en via stochastische gradiëntafdaling.

13:29.320 --> 13:36.970
Werk de gewichten van deze synapsen in het netwerk bij, zodat de volgende keer dat we door dit netwerk gaan, de manier waarop het al

13:36.970 --> 13:41.020
een beetje beter de omgeving beschrijft, en dat is precies hoe het werkt.

13:41.050 --> 13:48.040
Dus hier heb je, als we teruggaan, dit zijn berekende verliezen, Kalka, en het wordt gepropageerd voor het netwerk.

13:48.040 --> 13:48.940
De gewichten zijn bijgewerkt.

13:49.180 --> 13:52.990
De volgende keer dat we hier zijn, gebeurt dit hier keer op keer.

13:52.990 --> 13:56.590
Dit gebeurt opnieuw en zo verder en zo en het blijft gebeuren.

13:56.590 --> 13:59.890
En zo leert deze agent.

13:59.890 --> 14:06.100
Of eigenlijk is het nu het neurale netwerk, dat het brein is van de agent die aan het

14:06.550 --> 14:09.310
leren is, dat steeds meer de omgeving beschrijft.

14:09.310 --> 14:11.980
En daarom kan de agent door de omgeving navigeren.

14:12.280 --> 14:17.920
Wanneer we beschrijvende omgeving zeggen, betekent dit in feite dat wanneer we de toestanden van de

14:17.920 --> 14:24.870
omgeving waarin de agent zich bevindt, plaatsen, we meer kans hebben om steeds dichter bij de werkelijke Jiyu-waarden te komen.

14:24.880 --> 14:30.370
En dat gebeurt omdat de waarden die we willen vinden de juiste actie zijn, en dat

14:30.400 --> 14:33.550
gebeurt omdat deze nieuwe doelen eigenlijk empirisch zijn afgeleid.

14:33.560 --> 14:36.580
Dus hoe vindt hij deze nieuwe doelen?

14:36.760 --> 14:38.350
Dat is dat er eigenlijk is.

14:38.380 --> 14:43.540
Dus hij observeert eigenlijk, oké, dus als ik deze stap eenmaal heb gezet, wat is dan de beloning die ik krijg en wat is

14:43.540 --> 14:44.850
dan de waarde van deze staat?

14:44.950 --> 14:48.570
Dus hetzelfde als we eerder zagen in Q Learning in de eenvoudige leerintuïtie.

14:48.730 --> 14:54.510
Dus hij leert dit met vallen en opstaan en bouwt dan zijn netwerk of werkt de weg

14:54.520 --> 14:59.200
naar zijn netwerk zo bij dat de voorspelde Q-waarden steeds dichterbij komen.

14:59.230 --> 15:06.040
Benadering van het doel, sleutelwaarden, dus zeer vergelijkbaar met het concept dat we hier hebben besproken in het eenvoudige

15:06.040 --> 15:09.170
temporele verschil, het leren van het eenvoudige sleutelleeralgoritme.

15:09.790 --> 15:10.380
Dus daar gaan we.

15:10.390 --> 15:12.320
Zo leert de agent.

15:12.430 --> 15:13.420
Dus we zijn tot hier.

15:14.260 --> 15:15.220
Dat is het leergedeelte.
