WEBVTT

00:00.590 --> 00:05.420
Hallo en welkom terug bij de cursus over kunstmatige intelligentie van vandaag, we hebben het

00:05.420 --> 00:08.060
over het eerste deel van het acteur-criticusgedeelte.

00:08.270 --> 00:12.290
Dus hier hebben we een synchroon voordeel, acteur, criticus-algoritme.

00:12.290 --> 00:15.050
En we gaan het hebben over die onderstreepte acteur.

00:15.510 --> 00:16.930
Daar gaan we beginnen.

00:17.270 --> 00:21.470
Je zou technisch overal kunnen beginnen, maar het is gewoon veel logischer

00:21.470 --> 00:29.210
om te beginnen met acteur-criticus, omdat we op die manier een zeer opeenvolgende uitleg of intuïtief begrip hebben van wat er aan de hand

00:29.210 --> 00:29.570
is.

00:29.570 --> 00:33.740
Het zal ons beter vergemakkelijken als we aan het einde van deze operatie toch beginnen te verrassen.

00:34.010 --> 00:34.430
Oke.

00:34.430 --> 00:42.200
Tot dusver hebben we in deze cursus diep, convolutief leren bedacht, wat hier illustratief is.

00:42.210 --> 00:46.190
Dus we hebben de computer die de pixels ziet.

00:46.190 --> 00:48.770
Dus de eigenlijke afbeelding en pixels, niet alleen de vectoren.

00:48.770 --> 00:49.580
Het is dus geen bedrog.

00:49.580 --> 00:52.040
Het is eigenlijk precies zien wat een mens ziet.

00:52.040 --> 00:58.550
Het ziet de monsters, het ziet de gezondheid, het ziet de parameters onderaan en ziet de gang.

00:58.550 --> 01:02.990
Het ziet het pistool als precies hetzelfde als een mens zou zien bij het spelen van dit spel.

01:02.990 --> 01:09.230
Dan gaat dat beeld door een convolutionele laag en dan is het voorbij een trekkende laag en wordt

01:09.230 --> 01:12.620
het afgeplat en gaat het in een neuraal netwerk.

01:12.980 --> 01:17.330
En aan de uitgang hebben we acties, zoals je je herinnert, we hebben die kernwaarden.

01:17.570 --> 01:20.140
Dan hanteren wij voor hen een selectiebeleid.

01:20.150 --> 01:24.170
Zo passen we bijvoorbeeld een softmax toe en zoeken we uit welke actie we willen ondernemen.

01:24.350 --> 01:28.370
En dus is er wat exploratie en exploitatie gaande.

01:28.400 --> 01:29.480
Er is een combinatie van de twee.

01:30.230 --> 01:32.990
Dus zo werkt het diepe convolutionele Q-leren.

01:33.560 --> 01:34.880
Maar laten we nu eens kijken wat we ermee gaan doen.

01:34.910 --> 01:38.720
Dus omwille van de eenvoud, zodat het voor ons gemakkelijker is om

01:38.720 --> 01:44.240
hiermee te werken, omdat we dit beeld gaan aanpassen en verplaatsen, gaan we de cirkels vervangen door

01:44.240 --> 01:46.310
vierkanten met deze rechthoekige dozen.

01:46.400 --> 01:53.120
En we gaan ook die lijnen ertussen verwijderen, verander ze gewoon in pijlen zodat dit de essentie

01:53.120 --> 01:54.110
niet verandert.

01:54.350 --> 01:56.220
Dit is slechts de weergave op deze grafiek.

01:56.480 --> 01:59.600
Dit is nog steeds, zelfs deze weergave is nog steeds diep convolutie.

01:59.600 --> 02:05.020
Q Leren wordt voor ons gewoon gemakkelijker om het aan te passen en precies te laten zien wat het werkelijk is.

02:05.420 --> 02:11.870
Dus dat is precies hoe we de dingen van hier gaan weergeven en wat H3C doet of dit specifieke onderdeel.

02:11.890 --> 02:15.050
Dus we beginnen te onthouden, we beginnen zoals stap voor stap.

02:15.050 --> 02:16.610
We beginnen met het acteur-criticusgedeelte.

02:16.610 --> 02:19.790
Dus we gaan kijken hoe we van diep convolutie gaan.

02:19.790 --> 02:25.790
Q Door stap voor stap en eerste stap H3C te leren, gaan we dit acteur-criticus-gedeelte ervan hier

02:25.790 --> 02:26.170
introduceren.

02:26.180 --> 02:27.210
Daar gaan we het dus over hebben.

02:27.650 --> 02:34.730
Dus het eerste wat er gebeurt is dit laatste stukje, de output is eigenlijk dat we het gewoon zo opnieuw gaan

02:34.730 --> 02:35.120
tekenen.

02:35.120 --> 02:40.270
Het is dus precies dezelfde output, exact dezelfde cue-waarden of exact dezelfde actie.

02:40.280 --> 02:44.900
Dus als je acht mogelijke acties had, heb je nog steeds acht mogelijke acties, waardoor ze bovenaan komen te

02:44.900 --> 02:47.180
staan, zodat ze minder ruimte in beslag nemen.

02:47.180 --> 02:49.130
Dus tot nu toe niets, er is niets veranderd.

02:49.130 --> 02:51.700
Tot nu toe zijn dit en dit precies hetzelfde.

02:51.950 --> 02:54.710
Maar nu komt het actieve criticusgedeelte om de hoek kijken.

02:55.010 --> 02:56.510
We krijgen een tweede uitgang.

02:56.510 --> 02:59.870
We gaan hebben, dus de eerste is een set uitgangen.

02:59.870 --> 03:02.720
En hier hebben we een aparte individuele output.

03:02.720 --> 03:05.960
Dus technisch gezien gaan we ons neurale netwerk gebruiken.

03:05.960 --> 03:13.910
Dus eens en nu of het beeld en alles zoals de waarden gaan door een netwerk van links naar rechts

03:13.910 --> 03:14.450
hier.

03:14.600 --> 03:16.490
Ze spugen niet zomaar een reeks waarden uit.

03:16.490 --> 03:17.810
Dit leverde eigenlijk twee sets op.

03:17.810 --> 03:20.570
En dus zei de top, we weten al wat het is.

03:20.570 --> 03:22.730
Het zijn de mogelijke acties.

03:22.820 --> 03:25.280
Maar hier gaan we eigenlijk nog een extra waarde hebben.

03:25.280 --> 03:26.270
Dus laten we daar eens naar kijken.

03:26.930 --> 03:28.160
Wat is die waarde?

03:28.520 --> 03:29.780
Hier gaan we.

03:29.780 --> 03:30.980
Dat is de bovenkant.

03:31.250 --> 03:34.760
Dus we houden er gewoon van om de grootte van deze illustratie te verkleinen.

03:35.240 --> 03:41.150
De bovenste output zijn de Q-waarden, zoals we eerder hebben besproken, voor de acties.

03:41.150 --> 03:43.020
Dus ze assembleren alles hetzelfde.

03:43.340 --> 03:47.050
Maar nu wordt dit onderste deel O en het bovenste deel eigenlijk de actie genoemd.

03:47.060 --> 03:47.810
We gaan het een naam geven.

03:47.810 --> 03:53.360
Dat is de acteur, want dat is het deel waarin de agent kiest wat hij wil doen, zodat het lijkt

03:53.360 --> 03:54.380
alsof hij acteert.

03:54.380 --> 03:59.780
Het is alsof het op het podium optreedt en het zal logischer zijn als we ook de tweede naam op het

03:59.780 --> 04:00.410
scherm hebben.

04:00.770 --> 04:07.280
En dan is de tweede output net één waarde, en dat is V van S, dus dat is de waarde van de

04:07.280 --> 04:07.790
toestand.

04:08.060 --> 04:16.340
Dus als Q van S de Q van S is en A de Q-waarde van een bepaalde actie, en zoals je kunt zien, daarom is

04:16.340 --> 04:17.240
er actie.

04:17.240 --> 04:21.910
Eén actie, twee actie drie tot actie zes of hoeveel acties er ook zijn in die staat.

04:21.920 --> 04:23.030
Dus in een bepaalde staat.

04:23.030 --> 04:27.920
S wat is de kernwaarde van het ondernemen van actie, van actie tot actie één, actie twee enzovoort.

04:28.310 --> 04:34.820
Dan voorspellen we hier ook dat we ook een neuraal netwerk gebruiken om te voorspellen wat de waarde is van de staat

04:34.820 --> 04:36.110
waarin we ons bevinden.

04:36.500 --> 04:40.250
En dit deel wordt de criticus genoemd.

04:40.700 --> 04:45.740
En dat is dus het intuïtieve of het soort dat niet eens volledig intuïtief is.

04:45.740 --> 04:51.290
Dat is net als de ster van de intuïtie achter acteur-criticus dat er nu twee uitgangen zijn van het neurale

04:51.290 --> 04:52.640
netwerk, niet slechts één.

04:53.510 --> 04:58.220
Vroeger hadden we alleen die ene output, die we nu de actie noemen, maar nu hebben we twee outputs, acteur

04:58.220 --> 04:58.760
en criticus.

04:59.090 --> 04:59.840
En er komt een.

04:59.990 --> 05:02.100
Dynamisch tussen hen, die verder zal worden onderzocht.

05:02.270 --> 05:08.450
Maar voor nu is het belangrijk om te begrijpen dat we niet alleen de kernwaarden voorspellen van de acties die de Aziaten

05:08.480 --> 05:13.970
van de staat kunnen nemen, maar ook de waarde voorspellen van het zijn in dit soort staat, met behulp

05:13.970 --> 05:15.650
van datzelfde neurale netwerk .

05:15.680 --> 05:20.420
Dus dat is een kern van de eerste stap naar de eigenlijke criticus.

05:20.660 --> 05:24.950
En nu moeten we het hebben over asynchroon, wat de volgende keer eeuwig zal zijn om precies te begrijpen wat

05:24.950 --> 05:26.510
er gaande is tussen de secretaresse.

05:26.870 --> 05:32.550
En het laatste voor vandaag is dat al deze kernwaarden, zoals we weten, ook wel beleid worden genoemd.

05:32.570 --> 05:39.680
Dus in sommige literatuur en sommige blogs en sommige discussies die je zou kunnen vinden in de A-criticus,

05:39.680 --> 05:47.090
zou je de auteur kunnen aantreffen over sleutelwaarden aan deze kant van de acteur en in andere literatuur en

05:47.090 --> 05:48.740
blogposts en discussies.

05:48.740 --> 05:55.430
U zult zien dat de auteur het zo over het beleid heeft en de gebruiker meestal gebruikt als een Griekse

05:55.430 --> 05:59.540
letter P om het beleid of een vast staatsbeleid weer te geven.

05:59.690 --> 06:05.000
Onze SO al met al, dit zijn het beleid of de strategieën, omdat, zoals we ons herinneren,

06:05.210 --> 06:11.570
het beleid is dat je alle acties samenvoegt, de mogelijke acties, en dan is het beslissen welke actie moet worden ondernomen.

06:11.600 --> 06:14.210
Dus deze zullen zijn als de kansen om elke actie te ondernemen.

06:14.240 --> 06:15.180
Dat is dus het beleid.

06:15.440 --> 06:17.360
Laat je dus niet van de wijs brengen.

06:17.360 --> 06:20.510
Als je de een of de ander ziet, bedoelen ze in feite hetzelfde.

06:21.020 --> 06:23.300
Dus aan de ene kant heb je hier het beleid of de kernwaarden.

06:23.300 --> 06:27.170
Aan de andere kant heb je de werkelijke waarde van de staat en ze worden voorspeld vanuit het neurale

06:27.170 --> 06:27.450
netwerk.

06:27.650 --> 06:28.670
Dus dat is het begin van de act.

06:28.670 --> 06:32.770
Een criticus zal hier in de volgende eeuwigheid op voortborduren als we het hebben over een synchroon.

06:33.050 --> 06:34.220
En ik kijk ernaar uit je daar te zien.

06:34.250 --> 06:35.720
Tot dan, geniet ervan.
