WEBVTT

00:01.400 --> 00:02.990
Hallo en welkom terug.

00:03.320 --> 00:08.930
In de laatste lezing hebben we uiteindelijk de feitelijke definitie van onze omgeving, de representatie van onze

00:08.930 --> 00:14.090
waarden, onze straf in beloningen en onze acties in de omgeving afgemaakt of afgerond.

00:14.450 --> 00:20.510
In deze lezing wil ik de training introduceren, het idee achter het trainen van het model

00:20.510 --> 00:22.730
en u op weg helpen.

00:22.910 --> 00:28.340
En geef dan in de volgende lezing de oplossing en meer een uitsplitsing voor de betrokken stappen.

00:28.610 --> 00:32.660
We moeten het model dus trainen wat nodig is voor training.

00:33.620 --> 00:38.750
Dit is een benadering die we kunnen gebruiken voor de volgende stappen voor het trainen van het model.

00:38.750 --> 00:44.180
We willen een willekeurige niet-terminale staat kiezen, wat het witte vierkant van onze agent zou zijn, en dat is hoe

00:44.180 --> 00:46.880
we willen beginnen in onze aflevering voor de training.

00:47.330 --> 00:50.300
We willen dan natuurlijk een actie kiezen voor de huidige stand.

00:50.300 --> 00:53.030
We moeten ervoor zorgen dat onze agent zich door de omgeving kan verplaatsen.

00:53.210 --> 00:59.150
Dus acties voor ons en onze agent in deze uitdaging zullen worden gekozen met behulp van Epsilon Grieks.

00:59.780 --> 01:04.730
Dit algoritme kiest meestal de meest veelbelovende actie voor de agent, maar kiest af en toe voor een

01:04.730 --> 01:05.810
minder veelbelovende optie.

01:05.810 --> 01:10.580
Om de makelaar te stimuleren de omgeving te verkennen, willen we echt het optimale beleid vinden.

01:11.300 --> 01:14.960
Vervolgens willen we de gekozen actie uitvoeren en overgaan naar de volgende toestand.

01:15.200 --> 01:16.340
Ga naar de volgende locatie.

01:16.550 --> 01:21.200
En waarom ik dit zeg, is dat ik wil dat jullie nadenken over hoe je dit kunt opsplitsen in functies

01:21.200 --> 01:22.760
om dit probleem op te lossen.

01:23.540 --> 01:29.390
Vervolgens moeten we een beloning ontvangen voor het naar een nieuwe staat gaan en dan het tijdsverschil berekenen.

01:29.750 --> 01:35.480
We moeten de Q-waarde voor het vorige staat- en actiepaar bijwerken, en als de nieuwe valuta een eindstatus

01:35.480 --> 01:37.280
is, gaan we naar een.

01:37.610 --> 01:39.200
Anders zouden we naar stap twee gaan.

01:39.470 --> 01:43.400
Dus het hele proces, we gaan ernaar streven om duizend afleveringen te trainen om te trainen.

01:43.670 --> 01:50.750
Dit geeft ons voldoende gelegenheid of onze agent voldoende gelegenheid om dat kortste pad tussen

01:50.750 --> 01:55.520
het artikelverpakkingsgebied en andere locaties in onze voorbeeldstad te berekenen.

01:56.540 --> 01:57.020
Geweldig.

01:57.530 --> 02:02.840
Dus denk alsjeblieft na over hoe je dit aanpakt en ik wil je helpen een idee te geven om dit op te lossen.

02:03.050 --> 02:07.970
Dus we zouden in onze oplossing kijken, we gaan de volgende functies gebruiken.

02:08.540 --> 02:11.540
Ik kan hier echt commentaar op geven, omdat het een code is, dus mijn excuses.

02:11.960 --> 02:13.070
We willen geen dollarteken.

02:13.310 --> 02:17.990
We willen deze becommentariëren en ik zal je helpen om met de eerste te beginnen.

02:18.990 --> 02:25.650
Over het algemeen zullen deze functies onze stappen definiëren voor het trainen van het model en om u op weg

02:25.650 --> 02:26.470
te helpen.

02:26.490 --> 02:31.140
Laten we eens kijken hoe we de terminale toestand zouden benaderen bij het maken van een functie binnen python

02:31.140 --> 02:31.440
hiervoor.

02:31.800 --> 02:36.150
Allereerst willen we natuurlijk onze functie definiëren zoals deze is.

02:37.640 --> 02:39.230
Eindstatus.

02:40.670 --> 02:44.630
En dit zijn de namen van de functies die je zult zien om je een idee te geven dat je kan helpen het op

02:44.630 --> 02:45.050
te splitsen.

02:45.500 --> 02:50.870
Wat we willen doen is de huidige rij-index en de huidige kolomindex nemen.

02:52.980 --> 03:01.440
Dit zal ons helpen de positie van onze agent te krijgen, en we kunnen hier voor onze beloningen een waar of onwaar

03:01.440 --> 03:02.000
toevoegen.

03:02.010 --> 03:02.610
Dus we hebben het nodig.

03:03.150 --> 03:05.490
Dus laten we onze als onze beloningen instellen.

03:07.430 --> 03:08.300
Van onze stroom.

03:09.410 --> 03:11.270
Rij-index.

03:12.510 --> 03:13.260
En actueel.

03:14.040 --> 03:19.890
Kolomindex gelijk aan negatief als ze zich in die staat bevinden.

03:24.330 --> 03:28.200
We zouden valse of anderszins of anders retourneren.

03:29.880 --> 03:30.690
We zouden terugkeren.

03:31.500 --> 03:31.830
WAAR.

03:33.620 --> 03:34.670
Vrij eenvoudig genoeg.

03:35.450 --> 03:41.360
En dit is hoe we ons idee krijgen van onze terminale staat, nadat we hebben, als deze in de terminale

03:41.360 --> 03:44.090
staat bestaat, we dan de startlocatie willen krijgen.

03:44.270 --> 03:50.660
Als hint kun je kijken naar het gebruik van de huidige rij-index in de huidige kolomindex en

03:50.660 --> 03:52.730
numpy instellen met een willekeurig.

03:52.730 --> 03:56.960
We willen dat willekeurig initialiseren in de kolommen van de omgevingsrijen.

03:57.290 --> 04:00.590
Maar in de volgende lezing zie je een inzinking.

04:00.590 --> 04:04.520
U ziet de rest van de functies met enkele opmerkingen om u een idee te geven.

04:04.880 --> 04:08.960
Ik hoop echt dat jullie de kans grijpen om hiermee te experimenteren, want het is gewoon een geweldige manier om te leren

04:08.960 --> 04:12.050
om je een idee te geven en dit is om je op weg te helpen.

04:12.260 --> 04:15.080
Dus maak je geen zorgen, je krijgt de oplossing in de volgende lezing.

04:15.320 --> 04:21.730
En dan gaan we de zaken afronden door daadwerkelijk een uitstekende kortingsfactor toe te kennen aan leren, dat soort dingen voor

04:21.800 --> 04:25.490
training, het uitvoeren van de training en het bekijken van de resultaten.

04:26.030 --> 04:26.660
Geweldig.

04:27.380 --> 04:29.360
Laten we hier weer stoppen.

04:29.750 --> 04:30.830
Probeer dit op te lossen.

04:30.830 --> 04:35.360
Maar zo niet, als je gewoon verder wilt gaan, ga dan naar de volgende lezing en je krijgt de

04:35.360 --> 04:37.910
oplossing voor de training voor het definiëren van deze functies.

04:38.450 --> 04:40.130
Oké, ik zie jullie bij de volgende lezing.