WEBVTT

00:00.300 --> 00:02.040
Hallo en welkom bij deze tutorial.

00:02.340 --> 00:07.860
Oké, dus nu hebben we ons oog, het is klaar om te worden getraind en de eerste stap van de training is om ervaring

00:07.860 --> 00:09.410
op te zetten om te spelen.

00:09.750 --> 00:11.130
Dus we komen er langzaam aan.

00:11.250 --> 00:16.390
De training en het goede nieuws is dat we een geïmplementeerde versie van experience replay hebben.

00:16.650 --> 00:23.430
Trouwens, dat is aangepast aan geschiktheidssporen, wat ik eraan herinner, is een techniek die in plaats van de

00:23.430 --> 00:27.060
waarden te leren, elke overgang leert, elke bocht verandert.

00:27.090 --> 00:29.340
Dus eigenlijk is dat precies hetzelfde als voorheen.

00:29.370 --> 00:34.740
Maar in plaats van een enkel doel, een enkele beloning voor elke stap, gaan we een cumulatief doel hebben

00:34.740 --> 00:37.700
voor 10 stappen en een cumulatieve beloning voor tien stappen.

00:37.980 --> 00:40.480
En we leren elke keer over de tien stappen.

00:40.830 --> 00:44.690
Dus we leren op 10 overgangen, 10 stappen in plaats van één zoals voorheen.

00:45.000 --> 00:50.240
En met dit uur zal ik wonderen verrichten en dat zal wonderen doen voor het trainingsproces.

00:50.250 --> 00:53.580
Weet je, de training zal dankzij deze techniek veel minder tijd in beslag nemen.

00:53.850 --> 00:58.620
Maar we moeten in de ervaringsherhaling aangeven dat we elke 10 stappen leren.

00:58.830 --> 01:03.540
Daarom is deze experience replay geen klassieke implementatie van experience.

01:03.540 --> 01:05.810
We spelen zoals die voor de zelfrijdende auto.

01:06.030 --> 01:12.390
Het is een ervaringsherhalingsimplementatie, rekening houdend met deze 10 stappen leren, en daarom zul je in deze ervaring

01:12.390 --> 01:18.420
herhalingsspel voor twee klassen vinden, één klasse die je oog vooruitgang maakt gedurende tien stappen, zodat

01:18.420 --> 01:23.060
het de beloningen kan optellen die op deze 10 zijn waargenomen stappen.

01:23.310 --> 01:24.330
Dat is de eerste klas.

01:24.450 --> 01:29.490
En we hebben deze klasse nodig omdat we deze 10 stappen moeten opnemen in de replay-geheugenklasse, de klasse die we

01:29.490 --> 01:31.380
implementeren voor het opnieuw afspelen van ervaringen.

01:31.650 --> 01:36.960
En zo zorgen we ervoor dat het geheugen ook rekening houdt met het feit dat we op 10

01:36.960 --> 01:37.560
stappen leren.

01:37.920 --> 01:41.450
Daarom vind je in deze implementatie van experience replay twee klassen.

01:41.730 --> 01:47.520
Maar dat is alleen om er rekening mee te houden dat we op 10 stappen leren en daar moet ook rekening mee worden gehouden

01:47.670 --> 01:48.660
in het geheugen.

01:49.260 --> 01:51.780
Dus over ons geheugen gesproken, laten we het creëren.

01:51.780 --> 01:54.360
We gaan ons geheugen geheugen noemen.

01:55.230 --> 02:02.310
En dus wordt geheugen een object van de replay-geheugenklasse en de replay-geheugenklasse is een klasse van

02:02.310 --> 02:03.400
deze ervaring.

02:03.400 --> 02:04.530
Pauw opnieuw spelen.

02:04.890 --> 02:08.700
En dus neem ik eerst deze foute ervaringsherhaling.

02:10.070 --> 02:18.380
Dan dat, en dat is waar ik de replay memory-klasse perfect neem, en nu, zoals je kunt zien, moeten we twee

02:18.380 --> 02:19.580
argumenten aanvoeren.

02:19.730 --> 02:25.580
Het eerste argument is wreef, wat precies overeenkomt met het aantal stappen waarop we de

02:25.580 --> 02:27.320
belangrijkste waarden gaan leren.

02:27.380 --> 02:31.790
Dus, je weet wel, het aantal stappen waarop we het doel en de beloning verzamelen.

02:31.950 --> 02:35.410
Dus we krijgen een cumulatief doel en de cumulatieve beloning.

02:35.750 --> 02:39.440
En dan is het tweede argument de capaciteit die gelijk is aan de grootte van het geheugen.

02:39.680 --> 02:42.400
Hier kunnen we bijvoorbeeld tienduizend zien.

02:42.680 --> 02:47.510
Dus als de capaciteit gelijk is aan tienduizend, betekent dat dat het geheugen de grootte van tienduizend zal hebben.

02:47.630 --> 02:54.830
En daarom betekent dat dat we een geheugen krijgen na 10000 stappen uitgevoerd door de A. L. Maar nogmaals, we gaan niet

02:54.950 --> 02:57.050
elke overgang leren.

02:57.260 --> 03:01.570
We gaan elke 10 stappen leren van deze laatste 10000 stappen van het geheugen.

03:01.700 --> 03:05.780
En dat is precies deze nieuwe functie die we hier introduceren in vergelijking met voorheen.

03:06.020 --> 03:08.860
Vroeger hadden we alleen deze geheugentruc.

03:08.990 --> 03:13.790
En hier hebben we deze herhalings-geheugentruc, plus deze truc om elke 10 stappen te leren.

03:14.030 --> 03:15.740
En we gaan elke 10 stappen leren.

03:15.860 --> 03:19.670
En we gaan het doen in het geheugen dat is samengesteld uit de laatste 10000 stappen.

03:20.030 --> 03:27.260
En dit is ervaringsherhaling gecombineerd met ongeschiktheidskenmerken met tien stappen, zal de trainingsprestaties

03:27.260 --> 03:28.830
aanzienlijk verbeteren.

03:29.360 --> 03:30.890
Dus laten we deze twee argumenten gebruiken.

03:31.070 --> 03:39.410
De eerste is en stappen en dat zal gelijk zijn aan goed, laten we zeggen, en stappen zullen specificeren welke

03:39.410 --> 03:41.180
stap direct daarna is.

03:41.510 --> 03:47.360
Het zal in feite een object zijn van de andere klasse van dit ervaringsreplay-bestand, dat de voortgangsklasse van de eindstap

03:47.360 --> 03:52.030
is, en die ons in staat stelt om de voortgang in tien stappen te maken.

03:52.040 --> 03:57.500
En onthoud, tijdens de tien stappen zullen we enkele beloningen op de tien stappen geven om de cumulatieve beloningen over

03:57.500 --> 03:58.820
tien stappen te krijgen.

03:59.360 --> 04:01.710
En dat is precies het geschiktheidsspoor.

04:02.150 --> 04:05.780
Dus wat we nu moeten doen, is dit maken en hier stappen.

04:06.020 --> 04:12.080
En we hebben gemaakt met de tweede klasse die we hebben in deze ervaring, replay-bestand, dat is en stap

04:12.080 --> 04:12.620
vooruitgang.

04:13.040 --> 04:14.780
Dus nu gaan we wreef maken.

04:16.110 --> 04:27.950
Op deze manier, en dit zal een object zijn van de voortgangsklasse van de wreef die we opnieuw uit onze ervaring halen,

04:28.650 --> 04:30.300
spelen we fout.

04:30.780 --> 04:31.390
Daar gaan we.

04:31.710 --> 04:33.360
Dus dat is de voortgangsklasse van de eindstap.

04:33.510 --> 04:35.310
En dan moeten we drie argumenten aanvoeren.

04:35.610 --> 04:40.620
Zoals je kunt zien, moeten we de omgeving verbeteren, de doemomgeving die we hier hebben geïmporteerd.

04:41.070 --> 04:47.310
Dan is het tweede argument onze EHI en dit zal natuurlijk de EHI zijn die we hier in de

04:47.310 --> 04:51.240
VS hebben gebouwd. S. En het laatste argument is in stap.

04:51.240 --> 04:57.300
En dit is waar we zullen specificeren dat we tien stappen willen, weet je, om elke tien stappen te leren, dat wil

04:57.300 --> 04:58.530
zeggen elke tien overgangen.

04:59.070 --> 05:00.900
Dus laten we deze argumenten.

05:01.050 --> 05:04.020
De eerste is de omgeving en dat is Dhoom.

05:04.740 --> 05:12.590
En goed, dan is de tweede onze EHI en dat tellen we mee, dat is die hier.

05:12.600 --> 05:16.530
Dus dit is gewoon de naam van het argument in de klas van de stiefbroer aan het einde.

05:16.530 --> 05:20.640
En dit gebied hier is, ben ik degene die we hebben gebouwd.

05:21.150 --> 05:26.370
En dan is het laatste argument en stap en dat is gelijk aan tien.

05:27.000 --> 05:27.540
Oke.

05:27.750 --> 05:33.600
Dus op dit moment hielden we er in de herinnering gewoon rekening mee dat er een leerproces op tien stappen

05:33.600 --> 05:36.570
is en dit leren op tien stappen wordt geschiktheidstracering genoemd.

05:37.110 --> 05:39.330
Dus we werken hier echt aan de geavanceerde dingen.

05:39.510 --> 05:43.970
Maar onthoud dat omdat we Dhume proberen te zijn, dat niets is als een fluitje van een cent.

05:44.130 --> 05:47.110
We hebben deze geavanceerde technieken dus nodig om het te laten werken.

05:47.520 --> 05:53.370
Dus nu zijn we bijna klaar voordat we verder gaan met de volgende stap, die feitelijk gaat over het

05:53.370 --> 05:54.410
implementeren van geschiktheidstracering.

05:54.690 --> 06:01.380
Het enige dat we moeten meenemen is natuurlijk de capaciteit, en dat is, laten we zeggen tienduizend.

06:02.010 --> 06:08.070
Het geheugen zal een grootte hebben van tienduizend, wat betekent dat het geheugen de laatste tienduizend stappen zal bevatten

06:08.070 --> 06:14.940
die door de A zijn uitgevoerd. L. en dat stelt ons in staat om zoveel batches te genereren, zoals u zich

06:14.940 --> 06:15.810
herinnert, was een eenvoudige functie.

06:15.990 --> 06:21.690
Weet je, het geheugen bevat tienduizend overgangen, maar om de A te trainen. L. , we gaan een aantal

06:21.870 --> 06:26.910
batches van tien overgangen testen, deze keer niet één vergeleken met de vorige tien overgangen.

06:27.030 --> 06:32.560
En we zullen deze mini-batches van tien overgangen in het geheugen bemonsteren, samengesteld uit de 10000 stappen.

06:33.300 --> 06:33.720
Oke.

06:33.720 --> 06:39.210
Dus nu denk ik dat we klaar zijn om door te gaan naar de volgende stap, namelijk het implementeren van geschiktheidstracering.

06:39.360 --> 06:41.280
Dus we gaan hier wat avontuur beleven.

06:41.520 --> 06:43.590
Dit zal geen eenvoudige implementatie zijn.

06:43.590 --> 06:45.090
Even lekker uitrusten dus.

06:45.090 --> 06:47.370
En als je er klaar voor bent, kunnen we dit aanvallen.

06:47.760 --> 06:49.010
En dan genieten.