WEBVTT

00:00.560 --> 00:06.020
Hallo en welkom terug bij de cursus. In het vorige deel hebben we het gehad over de diep

00:06.260 --> 00:06.920
lerende killer-intuïtie.

00:06.920 --> 00:14.210
We zijn daar begonnen en in feite kwamen we helemaal bij dit deel en waar we het hadden over leren

00:14.360 --> 00:17.990
en nu gaan we verder met het eigenlijke acteergedeelte.

00:18.140 --> 00:22.190
Er zijn dus twee delen, twee verschillende delen die we moeten onthouden.

00:22.190 --> 00:23.480
Dus dat is het leergedeelte.

00:23.480 --> 00:25.390
Maar nu heeft hij dit allemaal gedaan.

00:25.400 --> 00:26.130
Dat is mooi.

00:26.270 --> 00:27.830
Nu moet hij echt in actie komen.

00:27.830 --> 00:31.530
Hij moet beslissen wat hij gaat doen: actie één, twee, drie of vier.

00:31.580 --> 00:32.610
En hoe doet hij dat dan?

00:32.930 --> 00:37.100
Welnu, de manier waarop hij het doet, krijgt nu dezelfde waarden.

00:37.100 --> 00:41.460
Dus de sleutelwaarden veranderen niet nadat we deze sleutelwaarden hebben, of vergelijk ze met de wetten met

00:41.570 --> 00:42.380
een geprojecteerde fout.

00:42.400 --> 00:45.680
We hebben de gewichten bijgewerkt, maar de belangrijkste waarden veranderen niet in dat hele proces.

00:45.680 --> 00:47.960
Dus nadat we de belangrijkste waarden daar hebben, zijn ze opgelost.

00:48.260 --> 00:49.580
We weten wat ze verkopen.

00:49.600 --> 00:50.180
Dit gebeurt.

00:50.190 --> 00:51.340
De netwerken bijgewerkt.

00:51.500 --> 00:55.460
En nu we dezelfde sleutelwaarden gebruiken die we hadden, wat gaan we

00:55.460 --> 00:58.280
doen, we gaan ze door een softmax-functie geven.

00:58.460 --> 01:01.760
En nogmaals, Softmax wordt beschreven in denk ik in bijlage twee.

01:02.030 --> 01:09.020
En we zullen wat meer over Softmax praten verderop in of we zullen praten over dit actieselectiebeleid verderop

01:09.320 --> 01:12.000
in de rest van deze sectie.

01:12.050 --> 01:16.880
Dus slechts in een paar tutorials, maar voor nu gaan we gewoon zeggen dat we het door de softmax-functie laten

01:16.880 --> 01:17.190
gaan.

01:17.230 --> 01:20.090
Wat het eigenlijk doet, is dat het helpt bij het selecteren van de beste.

01:20.090 --> 01:21.920
Het selecteert de best mogelijke actie.

01:22.130 --> 01:23.600
En daar past een kleine kanttekening bij.

01:23.600 --> 01:25.540
Het is niet alleen de best mogelijke.

01:26.090 --> 01:28.880
We zullen daarover praten in de zelfstudie over actieselectiebeleid.

01:28.880 --> 01:31.700
Maar laten we voor nu zeggen dat het hier de beste actie selecteert.

01:31.700 --> 01:37.760
Er staat: OK, dus Q1, je weet wel, de waarschijnlijkheid, weet je, eigenlijk kennen we de kernwaarden, dus voorspelden we

01:37.850 --> 01:43.400
de waarde zodat het ernaar kan kijken en zeggen, OK, dus de hoogste waarde hiervan, net zoals wij deed

01:43.400 --> 01:48.410
in het eenvoudige leeralgoritme, kijk je naar al deze voor, laten we zeggen, de hoogste waarden,

01:48.410 --> 01:48.890
deze.

01:48.890 --> 01:50.090
En ik ga die actie selecteren.

01:50.090 --> 01:50.780
Die gaan we nemen.

01:50.780 --> 01:51.770
En dat is het zo'n beetje.

01:52.100 --> 01:55.070
Dat is hoe het kiest welke actie onderneemt, de actie onderneemt.

01:55.250 --> 02:00.740
En dan gebeurt dit hele proces opnieuw voor de volgende toestand waarin de agent terechtkomt, in ons geval, in het volgende

02:00.740 --> 02:02.060
vakje van de zaak.

02:02.060 --> 02:04.060
Maar over het algemeen is het de volgende staat.

02:04.520 --> 02:05.330
Dus daar gaan we.

02:05.330 --> 02:14.600
Dat is hoe we een leerprobleem met versterking invoeren in een neuraal netwerk via een vector die de toestand beschrijft waarin we

02:14.600 --> 02:15.710
ons bevinden.

02:16.050 --> 02:19.900
En als we het eenmaal hebben ingevoerd, zijn er twee delen van het proces die plaatsvinden.

02:20.510 --> 02:21.950
Deel één is het leren.

02:22.310 --> 02:26.780
Dus onthoud dat deel waar we elk van de kernwaarden vergelijken met de doelen en dan

02:26.780 --> 02:32.300
verspreiden we het verlies via het netwerk om de gewichten bij te werken, zodat ons netwerk leert terwijl we door

02:32.300 --> 02:34.580
dit doolhof of door deze omgeving gaan.

02:35.030 --> 02:37.670
En ook het tweede deel is, natuurlijk, we moeten handelen.

02:37.670 --> 02:38.930
We moeten een actie selecteren.

02:39.230 --> 02:46.130
En dat is waar we de belangrijkste waarden doorgeven via de softmax-functie en of eigenlijk een actieselectiebeleid,

02:46.130 --> 02:48.170
waarover we verderop zullen praten.

02:48.320 --> 02:52.790
En dan selecteren we gewoon de actie die we willen ondernemen en voeren we die actie uit.

02:52.790 --> 02:54.410
En dan begint dit hele proces opnieuw.

02:54.620 --> 02:59.590
En dan krijgt de agent misschien het spel niet door.

02:59.590 --> 03:04.760
In ieder geval eindigt het spel en dan herhaalt het hele proces zich opnieuw.

03:04.760 --> 03:08.210
De agent speelt het hele spel nog een keer en dan houdt dat op.

03:08.210 --> 03:10.190
Dus eigenlijk is dat een ander tijdperk.

03:10.190 --> 03:15.710
Elke keer dat de agent, weet je, elke keer dat het spel eindigt, of het nu gunstig is in februari, is dat het einde

03:15.710 --> 03:16.610
van een tijdperk.

03:16.610 --> 03:20.330
En dan begint hij opnieuw en dan begint hij opnieuw en dan begint hij opnieuw enzovoort.

03:20.330 --> 03:21.530
Dat gebeurt dus.

03:21.530 --> 03:24.680
En dit proces gebeurt voor elke keer.

03:24.680 --> 03:26.510
De agent is een nieuw in een nieuwe staat.

03:26.510 --> 03:28.310
Dus de staat is hier gecodeerd.

03:28.310 --> 03:29.330
Dus dat is belangrijk.

03:29.330 --> 03:32.960
Dus niet alleen voor elke game die hij speelt, maar voor elke staat.

03:32.960 --> 03:34.010
Dus hij is in een staat.

03:34.010 --> 03:37.850
Het doorloopt de procesupdates enzovoort en gebeurt elke keer weer.

03:37.970 --> 03:41.090
En zo gebeurt het leren en dan gebeurt het acteren ook.

03:41.660 --> 03:46.940
Dat is dus deep learning in de intuïtie achter deep Q learning.

03:46.940 --> 03:49.310
We hebben nog veel meer te verbergen.

03:49.580 --> 03:51.020
En dan hebben we natuurlijk nog de praktijk.

03:51.380 --> 03:57.380
En als je in de tussentijd wat aanvullende informatie over diep leren wilt, hebben we

03:58.070 --> 03:59.540
een aanbevolen lectuur.

03:59.540 --> 04:05.030
We hebben het dus al gehad over de serie blogposts van Arthur Giuliani.

04:05.030 --> 04:12.170
Als je kijkt naar eenvoudig versterkend leren met teststroom, deel vier, zul je het deel vinden dat relevant is voor wat

04:12.170 --> 04:13.660
we vandaag hebben besproken.

04:14.210 --> 04:17.960
Merk op dat hij het hier heeft over windingen.

04:18.230 --> 04:20.900
We hebben het niet over revoluties in deze sectie.

04:20.900 --> 04:23.380
We gaan het hebben over hen in het volgende deel van de cursus.

04:23.600 --> 04:28.820
Dus het verschil hier is dat je het deel van de windingen voor nu een beetje overslaat en we zullen er in het

04:28.820 --> 04:30.560
volgende deel van de cursus over praten.

04:30.560 --> 04:37.000
Maar het verschil zit 'm in revoluties, je kijkt alsof je agent naar het beeld kijkt en daarom moet

04:37.150 --> 04:41.810
hij een beeld verwerken, een extra complicatie voor nu, waar we langzaam, geleidelijk aan

04:41.810 --> 04:43.280
aan het opbouwen zijn.

04:43.460 --> 04:47.500
Voorlopig coderen we onze omgeving door.

04:47.510 --> 04:53.180
Dus als je kijkt naar het coderen van onze omgeving of misschien naar deze, die waarschijnlijk onze

04:53.180 --> 04:58.670
omgeving codeert als een of inclusief een toestand waarin de agent zich bevindt als een vector.

04:58.670 --> 04:59.870
Dus in ons geval was het heel eenvoudig.

04:59.930 --> 05:01.080
Mengsel van twee waarden.

05:01.460 --> 05:06.560
Soms kunnen mensen zelfs in dat simpele, soms of zoals je zult zien in deze blogpost, soms mensen de

05:06.560 --> 05:10.100
voorkeur geven aan die ene hete en gecoate versie van die staat.

05:10.130 --> 05:15.590
Dus eigenlijk waar elke doos van het doolhof een heeft, zodat je een vector van vier hebt, zou in ons geval

05:15.590 --> 05:17.270
12 waarden zijn, drie bij vier.

05:17.600 --> 05:22.730
Dit is één of nul, afhankelijk van in welke elementen in welke doos je je bevindt, in de omgeving.

05:22.940 --> 05:29.660
Dus op welke manier je ook besluit om je omgeving en de toestand van je omgeving te coderen, zo zegt

05:29.660 --> 05:31.400
codering in feite een vector.

05:31.460 --> 05:36.330
De sleutel hier is dat het geen convolutie is, dus het is niet zoals een afbeelding en er is geen convolutiestemming.

05:36.350 --> 05:38.110
Dus dit deel komt later voor ons.

05:38.120 --> 05:39.200
Het begint hier.

05:39.440 --> 05:43.190
En dat vereenvoudigt gewoon het proces voor ons om geleidelijk beter te begrijpen.

05:43.430 --> 05:49.100
En vergeet natuurlijk niet dat deze blogpost een intense stroom is en we gebruiken PI torch in onze

05:49.100 --> 05:49.600
tutorials.

05:49.970 --> 05:57.560
Dus hopelijk geniet je van deze snelle introductie in een diep, convolutief, dieper, niet convolutief, maar

05:57.800 --> 05:58.850
dieper leren.

05:59.180 --> 06:02.830
En wat dat betreft, ik kijk ernaar uit om je de volgende keer te zien.

06:02.840 --> 06:05.390
En geniet tot die tijd van kunstmatige intelligentie.