WEBVTT

00:00.600 --> 00:02.280
Hallo en welkom bij deze tutorial.

00:02.700 --> 00:09.770
Dus nu heeft het bureau zijn verkenning gedaan en wat hij dan gaat doen, is het gedeelde netwerk bijwerken.

00:10.080 --> 00:14.540
Dus het eerste wat we gaan doen is de cumulatieve beloning initialiseren.

00:14.880 --> 00:21.240
We gaan het R hoofdletter R noemen en we zullen het initialiseren als een fakkel.

00:21.600 --> 00:25.830
Tenzer, maar dat zal één voor één afmetingen hebben omdat het slechts een waarde is.

00:25.920 --> 00:27.380
Maar we willen dat het een Tenzer wordt.

00:27.750 --> 00:33.100
En dus gebruik ik hier nullen en dan één.

00:33.660 --> 00:36.810
Dus in feite wordt de cumulatieve beloning geïnitialiseerd op nul.

00:37.410 --> 00:41.700
Oké, dan hetzelfde als we nog niet klaar zijn.

00:41.820 --> 00:43.310
Dat is als het spel nog niet voorbij is.

00:43.710 --> 00:50.130
Wat we nu willen, is dat de cumulatieve beloning gelijk is aan de waarde van de laatste datum die is bereikt door

00:50.130 --> 00:51.020
het gedeelde netwerk.

00:51.690 --> 00:57.480
Dus we gaan de waarde-uitvoer krijgen, je weet wel, de waarde van de functie-uitvoer van ons model.

00:57.720 --> 01:01.150
En dit is de waarde die we aan de cumulatieve beloning zullen geven.

01:01.620 --> 01:03.600
Dus laten we eerst deze waarde krijgen.

01:04.170 --> 01:11.400
We kunnen het op deze manier waarde krijgen, weet je, omdat we alleen de waarde willen die we hier kunnen toevoegen, onderstrepen en

01:11.400 --> 01:18.150
dan weer onderstrepen, en dan krijgen we ons model omdat het deze waarde zal uitvoeren, maar alleen de eerste uitvoer van

01:18.150 --> 01:24.060
de model dankzij deze dubbel op deze cursus hier en hier, kunnen we gewoon kopiëren en plakken wat we

01:24.060 --> 01:24.990
hier hebben.

01:25.290 --> 01:32.750
Dat is de invoer van het model met de invoerafbeeldingen en alle staten en de zuidelijke staten.

01:33.090 --> 01:34.530
Dus dat plak ik gewoon.

01:34.800 --> 01:37.100
En dan gaan we, we krijgen de waarde.

01:37.650 --> 01:46.890
Wat we nu gaan doen, is deze waarde aan onze waarde geven, zodat alles gelijk is aan waarde en toegang heeft tot de waarde die

01:46.890 --> 01:49.140
we hier aan de gegevens toevoegen.

01:49.590 --> 01:50.070
Oke.

01:50.280 --> 01:57.270
Nu, de if-voorwaarde is voltooid en nu wat we gaan doen, omdat we net een nieuwe waarde hebben gekregen door, je weet wel, de

01:57.270 --> 02:02.760
uitvoer van het model te krijgen, de eerste uitvoer van het model, nou, laten we deze nieuwe waarde al

02:03.120 --> 02:05.000
toevoegen naar de lijst met waarden.

02:05.370 --> 02:13.200
Daarom kunnen we direct onze waardenlijst nemen, dan gewoon toevoegen en we voeren de variabele in.

02:14.490 --> 02:22.080
Ah, omdat ah deze laatste waarde zo groot bevat, dat is nu gedaan, gaan we de

02:22.080 --> 02:25.080
verliezen initialiseren en de intuïtie-lezingen onthouden.

02:25.080 --> 02:28.050
Je hebt twee verliezen, je hebt het verlies van de polis.

02:28.230 --> 02:31.650
Dat is het verlies gerelateerd aan de voorspellingen van de agent.

02:31.650 --> 02:35.880
En dan heb je het verlies van de waarde, dat is het verlies gerelateerd aan de voorspellingen van de criticus.

02:36.060 --> 02:39.480
We gaan deze twee variabelen dus introduceren en initialiseren op nul.

02:39.690 --> 02:45.450
En daarom ga ik hier zeggen, beleid, allereerst over polisverlies, initialiseer het op nul en

02:45.450 --> 02:50.990
dan waardeverlies, het verlies van de waarde en hetzelfde, initialiseer het op nul.

02:51.780 --> 02:57.690
Laten we dan niet vergeten om de cumulatieve beloning in te stellen als een fakkelvariabele, omdat we het een

02:57.690 --> 03:02.760
fakkelvariabele nodig zullen hebben omdat we er een gradiënt mee gaan berekenen, omdat de cumulatieve beloning

03:02.760 --> 03:05.530
een term zal zijn van het waardeverlies .

03:05.700 --> 03:09.450
Dus deze variabele is nu gekoppeld aan de dynamische grafiek met de gradiënt.

03:10.380 --> 03:15.030
En nu eindelijk, het laatste wat we moeten doen voordat we aan de overwinningslus beginnen.

03:15.030 --> 03:19.680
Weet je, als we stochastische gradiëntafdaling toepassen om deze laatste tussen

03:19.680 --> 03:27.150
de voorspellingen en het doel te verminderen, moeten we de G-8 initialiseren, de algemene voordeelschatting, en deze niet uit de

03:27.150 --> 03:28.000
encoder halen.

03:28.140 --> 03:30.010
Wees voorzichtig met die jehadi.

03:30.210 --> 03:35.190
De variabele die we nu gaan initialiseren is gegeneraliseerde voordeelschatting.

03:35.370 --> 03:42.450
Dus ter herinnering: een algemene schatting van het voordeel is per definitie het voordeel van het spelen van de actie, eh,

03:42.450 --> 03:44.460
door de toestand te observeren.

03:44.460 --> 03:50.660
S dus het is een functie van de actie A en de toestand s en het is gelijk aan

03:50.730 --> 03:54.480
het verschil tussen de kernwaarden en de waarde van de V-functie.

03:54.630 --> 03:56.460
Dus eigenlijk kan ik het hier schrijven.

03:57.390 --> 04:04.680
De gegeneraliseerde voordeelschatting is een functie a van de actie in de toestand s en die gelijk is

04:04.680 --> 04:12.540
aan de kernwaarden van de actie a en de toestand s minus de waarde van de V-functie gelden voor de toestand.

04:12.540 --> 04:12.930
S.

04:13.350 --> 04:15.690
Dat is de algemene schatting van het voordeel.

04:15.690 --> 04:18.810
En dat is wat we nu willen initialiseren.

04:19.020 --> 04:20.610
En we zullen het op nul initialiseren.

04:21.350 --> 04:27.190
Maar het moet richting Tenzer zijn, dus we gaan dezelfde truc gebruiken als wat we hier net

04:27.560 --> 04:35.270
hebben gedaan, we gaan de fakkelbibliotheek nemen en de Xeros-functie toepassen om het in te stellen als een Tenzer met slechts één waarde,

04:35.270 --> 04:36.440
die hier is.

04:36.980 --> 04:44.750
En we gaan deze nieuwe variabele introduceren en die zal gelijk zijn aan die toorts die één één op nul zet,

04:44.750 --> 04:46.480
zoals geïnitialiseerd op nul.

04:46.490 --> 04:48.440
Dit wordt dus op nul geïnitialiseerd.

04:48.620 --> 04:54.020
En daarom zullen de kernwaarden van het handelen in de staten gelijk zijn aan de waarde van de functie van

04:54.020 --> 04:54.590
de staat.

04:54.600 --> 04:54.910
S.

04:55.640 --> 04:56.170
Oke.

04:56.180 --> 04:58.490
En nu zijn we klaar om de volledige lus te starten.

04:58.700 --> 05:00.340
Dus we gaan hier wat avontuur beleven.

05:00.350 --> 05:04.310
Dus neem een goede pauze en ik zie je in de volgende tutorial om dat aan te vallen.

05:04.610 --> 05:05.940
Tot dan, geniet ervan.