WEBVTT

00:00.210 --> 00:05.400
Hallo en welkom bij deze tutorial in de tutorial van vandaag, we gaan synchroniseren met het gedeelde

00:05.400 --> 00:05.730
model.

00:06.000 --> 00:12.390
Dus wat we gaan doen is natuurlijk nog steeds de functie zeggen en dan de lengte van

00:12.390 --> 00:13.750
één aflevering initialiseren.

00:14.070 --> 00:22.170
Dus we gaan de lengte van een episode-afleveringsonderstrepingslengte noemen die we gaan en we gaan het op

00:22.170 --> 00:23.600
nul initialiseren.

00:23.730 --> 00:29.640
Maar dan zal de lengte van deze aflevering worden verhoogd en spreken van incrementeel en dat is precies wat we zullen

00:29.640 --> 00:30.120
doen.

00:30.510 --> 00:36.780
Dus we gaan een while-lus gebruiken en deze truc gebruiken om while te zeggen.

00:36.780 --> 00:37.320
Waar.

00:38.440 --> 00:43.190
Colin, om te herhalen wat er nu gaat gebeuren, wat gaat er in deze wereld gebeuren?

00:44.020 --> 00:49.120
En dus is het eerste dat in deze lus gaat gebeuren dit incrementele deel van de lengte van

00:49.120 --> 00:49.800
een aflevering.

00:50.110 --> 00:53.460
Dus het eerste dat we gaan doen, is met één verhogen.

00:53.710 --> 00:58.630
En om dit te doen, kunnen we gewoon uitgebreid en.

00:59.650 --> 01:07.060
Voeg hier plus is gelijk aan één, en nu gaan we synchroniseren met het gedeelde model, dat betekent dat

01:07.060 --> 01:14.260
de agent nu het gedeelde model zal gebruiken om zijn kleine verkenning op een bepaald aantal stappen uit

01:14.260 --> 01:15.100
te voeren.

01:15.370 --> 01:18.490
En hoe gaat het model dit gedeelde model krijgen?

01:18.700 --> 01:27.640
Welnu, we moeten ons model dan DOT nemen en dan de load state DECT-methode gebruiken, omdat we

01:27.640 --> 01:34.140
het gaan gebruiken om het toestandswoordenboek van ons gedeelde model te krijgen.

01:34.150 --> 01:41.240
We moeten dus eerst het gedeelde model plaatsen en vervolgens de statische methode toepassen om de parameters van dit gedeelde model te

01:41.240 --> 01:41.770
krijgen.

01:41.780 --> 01:46.780
En zo zal ons model hier het gedeelde model naar zijn kleine verkenning brengen.

01:48.020 --> 01:54.530
OK, en zodra het model dit gedeelde model krijgt, moeten we nu twee gevallen onderscheiden,

01:54.650 --> 02:02.930
de eerste is als het spel klaar is, dus als het spel klaar is, wat gebeurt er dan in dat geval?

02:03.380 --> 02:09.400
We moeten de verborgen toestanden en de celtoestanden van de Endemol opnieuw initialiseren.

02:09.770 --> 02:16.580
En daarom neem ik nu SCIEX, de celstaten, en ook de loonstrookjes de verborgen staat en ik ga

02:16.820 --> 02:18.770
ze allebei opnieuw initialiseren.

02:19.040 --> 02:20.760
En hoe gaan we ze opnieuw initialiseren?

02:20.990 --> 02:27.200
Welnu, met al deze nullen, zal er een vector zijn van tweehonderdzesenvijftig nullen, want onthoud,

02:27.200 --> 02:31.430
de uitvoer van de storm heeft afmetingen, één en tweehonderdzesenvijftig.

02:31.700 --> 02:38.690
We gaan ze initialiseren door de toortsbibliotheek te gebruiken en vervolgens de nullenfunctie.

02:38.990 --> 02:44.450
En aangezien we een vector van tweehonderdzesenvijftig nullen willen, gaan we de dimensies horen,

02:44.480 --> 02:50.870
één voor de vector en tweehonderdzesenvijftig voor het aantal elementen dat nullen zullen zijn en daar gaan

02:50.870 --> 02:51.340
we.

02:51.650 --> 02:58.480
Maar dan zullen we dat omzetten in een fakkelvariabele omdat dan enkele hellingen worden berekend.

02:58.490 --> 03:01.190
We moeten dit dus integreren met het verloop.

03:01.850 --> 03:02.420
Oke.

03:02.420 --> 03:10.040
En we gaan hetzelfde doen voor de verborgen toestanden net eronder en ze opnieuw initialiseren op dezelfde manier als wij

03:10.040 --> 03:10.440
gaan.

03:10.640 --> 03:19.310
Dus als het spel klaar is en nu de andere zaak waar we toegang toe hebben, wat dan nog meer?

03:19.310 --> 03:20.510
Wat gebeurt er in dat geval?

03:20.840 --> 03:27.020
Welnu, we gaan de oude celstatussen en verborgen statussen behouden en dus heel gemakkelijk kunnen

03:27.020 --> 03:33.980
we de oude op deze manier behouden door SCIEX is gelijk aan variabele X die gegevens te typen.

03:34.310 --> 03:36.470
En hetzelfde voor de staten.

03:36.650 --> 03:44.210
We kunnen hier eenvoudig h x gelijk aan variabele h x theta-gegevens toevoegen.

03:44.900 --> 03:46.310
Oké, goed gedaan.

03:46.460 --> 03:53.240
Nu kunnen we uit de LS stappen omdat we eigenlijk klaar waren met deze twee gevallen waarin het spel voorbij is of

03:53.240 --> 03:53.660
niet.

03:54.050 --> 03:59.540
Maar we blijven op de hoogte, want nu gaan we wat meer dingen doen die eigenlijk het hele trainingsproces

03:59.540 --> 04:00.080
zijn.

04:00.350 --> 04:05.900
Dus wat we nu gaan doen, is verschillende variabelen initialiseren die de kern zullen vormen van

04:05.900 --> 04:07.720
de berekeningen in de training.

04:08.030 --> 04:08.840
Dus laten we dit doen.

04:08.840 --> 04:13.540
We hebben de waarden nodig die onthouden de output van de criticus is.

04:13.560 --> 04:14.810
Dus dat is de V-functie.

04:14.990 --> 04:18.410
En we zullen ze op deze manier als een lege lijst initialiseren.

04:19.040 --> 04:22.190
Dan hebben we de logwaarschijnlijkheden nodig.

04:22.790 --> 04:26.780
Dus log probs en we zullen het ook initialiseren als een lege lijst.

04:27.410 --> 04:30.320
Dan zullen we dat natuurlijk nodig hebben of belonen.

04:30.320 --> 04:32.930
We zullen ook initialiseren als een lege lijst.

04:33.450 --> 04:38.510
En tot slot hebben we de entropieën iets nieuws nodig.

04:38.780 --> 04:42.890
Maar dit is inderdaad de kern van de trainingsberekeningen.

04:43.130 --> 04:44.550
Dus ook lege lijst.

04:45.020 --> 04:50.600
Dus nu we deze vier variabelen initialiseren, kunnen we een nieuwe vier-lus starten en dan zullen we de

04:50.600 --> 04:52.880
waarden van deze vier variabelen bijwerken.

04:53.240 --> 04:59.250
En dus wordt deze nieuwe volledige lus een volledige lus over de expiratiestappen en daarom wordt

04:59.270 --> 05:01.100
de lusvariabele onze stappen.

05:01.400 --> 05:12.080
Dus we stappen binnen bereik en binnen kunnen we programma's dat aantal stappen direct invoeren, omdat parameterstappen precies het aantal stappen

05:12.080 --> 05:14.470
van de expiratie is.

05:15.050 --> 05:18.860
Dus voor alle stappen in de expiratie, wat doen we?

05:19.220 --> 05:24.290
Welnu, we gaan de voorspellingen van het modelnummer krijgen, wat door het model wordt geretourneerd.

05:24.530 --> 05:30.620
En om deze voorspellingen te krijgen, kunnen we eenvoudig het model nemen en het toepassen op de invoer, zodat het

05:30.620 --> 05:35.210
invoersignaal door de hersenen in het model gaat en dat ons de uitvoer zal opleveren.

05:35.490 --> 05:36.860
Het zal ons verschillende outputs opleveren.

05:36.860 --> 05:41.660
Weet je, het geeft ons de waarden van de V-functie, wat de output is van de criticus.

05:42.050 --> 05:45.590
Vervolgens waardeert de wachtrij QSA, wat de uitvoer is van de actor.

05:46.040 --> 05:51.200
Maar vergeet ook niet dat het ook de top van de staten zal produceren en staten zal verkopen.

05:51.500 --> 05:57.860
Want onthoud, als we teruggaan naar ons model, nou ja, in de forward-functie, kunnen we zien dat het inderdaad

05:57.860 --> 06:00.020
de output van de criticus retourneert.

06:00.170 --> 06:08.060
Dat is de waarde van de functie vts dan de output van de actor, dat zijn de sleutelwaarden QSA en

06:08.060 --> 06:14.210
ook de outputs Adlerstein, dat is dit dubbelcheckt in zes verschillende staten in de celstaten.

06:14.780 --> 06:16.780
Daar moeten we dus voorzichtig mee zijn.

06:16.790 --> 06:22.250
Dit is heel anders dan wat er eerder gebeurde en daarom gaan we het model nu toepassen op de

06:22.250 --> 06:24.020
invoer die de toestand is.

06:24.410 --> 06:27.960
Maar nu zijn er verschillende dingen die met marteling te maken hebben.

06:27.960 --> 06:30.380
Maar dat geeft natuurlijk kracht aan wat we doen.

06:31.070 --> 06:33.920
Het eerste wat we moeten doen is knijpen.

06:35.600 --> 06:42.080
De status om deze nepdimensie toe te voegen die de index nul moet hebben, komt omdat het model alleen een

06:42.080 --> 06:46.770
batch invoer kan accepteren en geen invoer op zichzelf in een vector of sensor.

06:47.060 --> 06:49.280
Dus dat is het eerste wat we moeten doen, knijpen.

06:49.520 --> 06:54.370
Maar dat is niet alles wat we nodig hebben om onze invoerstatussen om te zetten in een fakkel.

06:54.380 --> 06:58.170
VALVO Dus ik voeg hier de variabele toe.

06:59.060 --> 07:01.610
Dus nu werken we met de staat, de invoerstaat.

07:01.730 --> 07:06.820
Maar onthoud dat de invoer van de vier functies eigenlijk het invoerbeeld is.

07:06.850 --> 07:12.980
Daar hebben we net voor gezorgd, maar ook de spullen van H X, de verborgen verzamelingen en de celtoestanden.

07:13.610 --> 07:21.800
En daarom moeten we hier dit tweede deel toevoegen, de invoer met de steun van H, X en C X.

07:23.010 --> 07:28.110
Oké, en we moeten de haakjes nemen die we gaan, we hebben onze twee ingangen.

07:28.380 --> 07:34.770
De eerste is de invoerstatus, dat wil zeggen invoerafbeeldingen die allemaal worden omgezet in een opslagvariabele en worden geperst om deze dimensie

07:34.770 --> 07:36.690
van de batch toe te voegen.

07:37.020 --> 07:40.010
En dit aan alle staten en de zuidelijke staten.

07:40.290 --> 07:41.470
Dus we zijn allemaal klaar om te gaan.

07:41.520 --> 07:43.470
We zijn klaar om onze voorspellingen te krijgen.

07:43.920 --> 07:49.800
En nu, sinds deze terugkeer, nou ja, onze drie voorspellingen, de output van de criticus, de output van de

07:49.800 --> 07:54.150
acteur en de top van alle staten in het zuiden, stelt de NCM.

07:54.450 --> 07:59.640
Welnu, we gaan nu een drietal nieuwe variabelen introduceren, wat deze drie outputs zullen zijn.

07:59.770 --> 08:05.190
Dus dan krijgen we de eerste output is de waarde van de functie, wat de output is van de criticus.

08:05.400 --> 08:07.310
Dus we gaan het waarde noemen.

08:08.340 --> 08:08.840
Dus daar gaan we.

08:08.910 --> 08:09.900
Dat is de eerste uitvoer.

08:10.200 --> 08:14.370
Dan wordt de tweede output de output van de acteur.

08:14.550 --> 08:16.580
En dat zijn de kernwaarden, QSA.

08:17.010 --> 08:23.520
Maar omdat de kernwaarden aan de acties zijn gekoppeld, kunnen we ze ook de actiewaarden noemen.

08:24.560 --> 08:28.520
Oké, en dan keert de uiteindelijke output morgen terug.

08:28.760 --> 08:33.710
Dat zijn de verborgen staatssalarissen en de zes van de staat.

08:34.010 --> 08:38.720
En dan gaan we, we hebben onze drie outputretouren door het model.

08:39.080 --> 08:39.640
Perfect.

08:40.040 --> 08:45.160
Dus nu we de voorspellingen hebben, moeten we een softmax gebruiken om de juiste actie te spelen.

08:45.560 --> 08:48.230
En dus zal dat nu precies hetzelfde zijn als wat we eerder deden.

08:48.470 --> 08:53.510
De volgende stap is om onze kansen te krijgen, zodat we ze FROB kunnen noemen.

08:54.710 --> 09:01.430
En dat is waar we de softmax-methode gebruiken, die we halen uit de functionele module

09:01.430 --> 09:09.950
met een snelkoppeling F zo f die softmax, en die een waarschijnlijkheidsverdeling zal genereren van de invoer die we

09:09.950 --> 09:14.060
nu gaan invoeren en die natuurlijk , de actiewaarden.

09:14.060 --> 09:18.620
Dat zijn de kernwaarden, dat is de output van de actor in het model.

09:19.040 --> 09:24.710
OK, dus nu hebben we onze kansen, maar zoals je hebt opgemerkt, gaan we werken met de entropie en de

09:24.710 --> 09:25.510
entropie krijgen.

09:25.520 --> 09:32.090
We hebben niet alleen de kansen nodig, maar ook de log-kansen omdat de entropie de som van het product

09:32.090 --> 09:32.770
is.

09:32.800 --> 09:36.890
Laprade-tijden waarschijnlijk dit alles vermenigvuldigd met min één.

09:37.220 --> 09:46.070
En dus moeten we ook ons logboek ophalen waaruit hetzelfde wordt gegenereerd vanuit log softmax.

09:46.320 --> 09:51.500
Dus in plaats van een verdeling van de kansen te nemen, nemen we een verdeling van de

09:51.650 --> 09:54.050
log-kansen en dat doen we met log.

09:55.030 --> 10:01.150
Soft max, de sloten bij Max werken hetzelfde, passen we toe op de kernwaarden.

10:02.320 --> 10:03.940
Die we de actiewaarden noemen.

10:04.330 --> 10:10.360
Oké, dus nu hebben we de sonde en de sonde, en dus zijn we klaar om de entropie en de entropie

10:10.360 --> 10:10.950
te krijgen.

10:12.100 --> 10:13.450
Wat is daar de formule voor?

10:13.630 --> 10:19.540
Zoals ik net al zei, we nemen de sonde, we vermenigvuldigen het met de sonde.

10:20.050 --> 10:22.090
Dan nemen we de som van dit alles.

10:22.870 --> 10:25.810
En om dat te doen, kunnen we hier wat toevoegen.

10:26.780 --> 10:33.230
Ten eerste gebruiken we de straat nu vaak, en zoals we al zeiden, we vermenigvuldigen dit alles

10:33.590 --> 10:38.150
met min één, dus het is de min van een aantal productvertragingen.

10:38.990 --> 10:39.560
Perfect.

10:39.680 --> 10:45.740
En nu gaan we deze entropie opslaan die zojuist is berekend in onze lijst met entropieën, want daar gaan

10:45.740 --> 10:46.070
we.

10:46.070 --> 10:48.400
We hebben de laatste berekening van de entropie.

10:48.410 --> 10:51.110
En dus moeten we het opslaan in de entropielijst.

10:51.530 --> 10:53.150
En om dit te doen, niets eenvoudiger.

10:53.150 --> 10:57.040
We gaan natuurlijk de app-functie gebruiken, omdat entropie een lijst is.

10:57.380 --> 11:04.850
Dus we nemen onze entropielijst en dan DOT en we gebruiken de append-functie om de entropie toe te voegen die zojuist is

11:04.850 --> 11:05.330
berekend.

11:06.380 --> 11:06.800
Oke.

11:06.810 --> 11:08.290
Dus we gaan nu even pauzeren.

11:08.330 --> 11:10.910
We gaan dit stap voor stap doen in het volgende verhaal.

11:10.910 --> 11:16.460
We zullen de actie spelen door hier een willekeurige trekking van te maken en een kansverdeling te genereren.

11:16.850 --> 11:22.250
En nadat we de actie hebben gespeeld, krijgen we de waarde van de staat en zullen we uiteindelijk onze nieuwe

11:22.250 --> 11:25.220
beloning voor de overgangsstatus opslaan en dat hebben we gedaan.

11:25.220 --> 11:26.600
Dat zal geen nieuwe grote stap zijn.

11:26.750 --> 11:29.170
En dat zullen we in de volgende Atauro afronden.

11:29.360 --> 11:30.980
Tot die tijd, geniet van een.