WEBVTT

00:00.490 --> 00:05.200
Hallo en welkom terug bij de cursus over kunstmatige intelligentie in de Turrill van vandaag, we gaan

00:05.200 --> 00:05.830
plezier hebben.

00:05.860 --> 00:06.970
We gaan kijken.

00:07.300 --> 00:13.120
En een kunstmatige intelligentie die door dat doolhof gaat waar we het al zo lang over hebben en die

00:13.540 --> 00:18.340
leren gaat gebruiken om zijn weg te vinden en de weg naar buiten te vinden.

00:18.340 --> 00:24.270
En we zullen zien wat er met de kernwaarden gebeurt, wat er met het beleid gaat gebeuren, enzovoort.

00:24.280 --> 00:25.620
Dus laten we eens kijken.

00:26.200 --> 00:31.780
We gaan materiaal gebruiken dat door de Berkeley University is verstrekt.

00:31.810 --> 00:41.140
Dus als je naar IDOT Berkeley gaat, de Arcady bredere edu, als je gewoon naar die link Kanjar gaat, zie je

00:41.140 --> 00:47.540
deze website en hoor je waar we naar gaan kijken. om naar Pakman-projecten te

00:47.560 --> 00:49.510
gaan denk ik.

00:50.470 --> 00:57.970
Ja, Pakman-projecten en hier, als je naar beneden scrolt en je kijkt naar versterkingsleren, dan is dit waar we

00:57.970 --> 00:58.850
mee werken.

00:59.050 --> 01:01.630
Dus hier kunt u het ZIP-archief downloaden.

01:01.630 --> 01:03.310
Dus dat is als je dat wilt.

01:03.430 --> 01:04.930
Dus dat hoeft niet.

01:04.960 --> 01:08.080
Dit is dat we de oplossing niet samen doornemen in deze tutorial.

01:08.080 --> 01:13.240
Ik wil je even laten weten waar dit allemaal vandaan komt, want we willen heel graag

01:13.240 --> 01:16.120
dat UC Berkeley deze materialen beschikbaar heeft gesteld.

01:16.120 --> 01:21.280
Maar als je hier zelf mee wilt experimenteren, houd er dan rekening mee dat dit geen deel uitmaakt van onze

01:21.280 --> 01:22.980
cursussen als onderdeel van de Berkeley-cursus.

01:23.170 --> 01:26.080
Ik ga je gewoon laten zien hoe het werkt ter illustratie.

01:26.080 --> 01:30.460
Maar mocht je hier toch mee willen experimenteren, dan kun je het hier vinden, het ZIP-archief en ook alle

01:30.460 --> 01:30.880
instructies.

01:31.240 --> 01:34.560
En we gaan meteen naar Python.

01:34.900 --> 01:41.050
En het eerste dat ik je wil laten zien, is dat we hier de licentie-informatie hebben.

01:41.060 --> 01:42.700
Dit is dus wat ik bedoel.

01:42.730 --> 01:47.680
We hebben veel geluk dat ze zeiden dat we vrij zijn om deze projecten te gebruiken of uit te breiden voor educatieve

01:47.680 --> 01:50.710
doeleinden, mits, je weet wel, distributieve oplossingen, wat we niet gaan doen.

01:51.040 --> 01:56.440
U behoudt deze verklaring die we hebben en u geeft een duidelijke toeschrijving aan UC Berkeley, inclusief een link

01:56.440 --> 01:57.780
waarnaar we ook hebben.

01:57.790 --> 02:00.700
Dus nogmaals, als je meer wilt weten, er is een link.

02:00.700 --> 02:01.660
U kunt een kijkje nemen.

02:01.660 --> 02:05.380
En heel erg bedankt aan al deze mensen die aan dit project hebben gewerkt.

02:05.390 --> 02:08.110
Dus hier is de rasterwereld waarmee we gaan werken.

02:08.110 --> 02:12.490
Als daar een oplossing is, zou je moeten om het te laten werken, je zou jezelf moeten

02:12.490 --> 02:14.530
isoleren of mogelijk een oplossing moeten vinden.

02:14.920 --> 02:18.550
Misschien kunnen sommige van uw mensen, iemand die u kent, u daar uit helpen.

02:19.000 --> 02:23.260
Als, nogmaals, waar u wilt, hoeft u dat niet te doen, want we gaan het nu

02:23.260 --> 02:24.640
op dit scherm bekijken.

02:25.030 --> 02:29.250
Dus nadat we al die bestanden hebben gemaakt, kunnen we het hier gewoon starten.

02:29.590 --> 02:37.540
Er zijn dus enkele parameters die bij deze hele wereld betrokken zijn en niet alleen om je te laten zien hoe het eruit ziet

02:37.540 --> 02:39.010
als we het lanceren.

02:39.020 --> 02:41.470
Dus laten we proberen het in de handmatige modus te starten.

02:41.480 --> 02:47.000
Dus als ik min M een van deze programma's hier handmatig ga gebruiken, zodat ik de agent kan besturen.

02:47.020 --> 02:53.320
Dus hier kun je zien dat onze geweldige ik omhoog kan gaan, zodat je kunt zien dat het actie onderneemt en begon

02:53.320 --> 02:54.790
in staten waar ik was.

02:54.940 --> 03:00.190
En toen zag je, je zag dat ik doordrukte, actie ondernam naar het noorden en de eerste keer dat ik in nul belandde toen ik eenmaal

03:00.200 --> 03:00.790
omhoog ging.

03:01.330 --> 03:04.930
Maar de tweede keer dat ik naar het noorden ging en in dezelfde set eindigde, bewoog ik niet.

03:04.940 --> 03:06.190
Er is dus iets gebeurd.

03:06.190 --> 03:07.180
Weet je, de willekeur is gebeurd.

03:07.180 --> 03:10.840
Ik ging naar links of naar rechts en standaard zijn de parameters ingesteld.

03:10.840 --> 03:16.870
Je kunt hier standaard zien dat ze precies zijn ingesteld op wat we hebben besproken, namelijk hoe vaak actie resulteert in een onbedoelde

03:16.870 --> 03:20.650
richting, 20 procent van de tijd tot 10 procent, 11 procent naar rechts.

03:21.100 --> 03:25.540
Dus als ik naar boven ga, zie je, ik ging naar boven, ik ga naar rechts, ik ging nu meteen.

03:25.540 --> 03:29.080
Het is weer niet goed gegaan.

03:29.080 --> 03:29.710
En ik ben klaar.

03:29.710 --> 03:35.340
Maar in deze implementatie moet je opnieuw klikken om uit deze laatste outputs te komen.

03:35.540 --> 03:36.820
Klik nog een keer en je bent klaar.

03:37.000 --> 03:38.050
Dat is een terminale toestand.

03:38.500 --> 03:40.600
Zodat we onze handleiding kunnen gebruiken.

03:40.660 --> 03:45.400
Dat kun je zien als ik rechts, rechts, rechts, links, omhoog ga.

03:45.610 --> 03:49.690
Dus hier wat we eerder zagen dat de agent niet recht omhoog zou gaan.

03:49.690 --> 03:49.990
Rechts.

03:49.990 --> 03:53.230
Wat heeft het voor zin om naar boven te gaan als er een kans is om de put in te gaan?

03:53.230 --> 03:54.360
Eens kijken, wat zou de agent doen?

03:54.520 --> 03:55.210
Je zou naar links gaan.

03:55.210 --> 03:56.080
Je zou hier naar het westen gaan.

03:56.080 --> 03:56.710
Dus ga naar het westen.

03:56.710 --> 04:00.760
En je ziet dat ik links klik, maar het ging omhoog en hier zou ik rechts klikken.

04:00.760 --> 04:04.660
En ik belandde in de laatste exit-fase en je kon zien dat het een beloning kreeg die gelijk was aan één.

04:05.260 --> 04:06.700
Dus zo ziet het er handmatig uit.

04:07.060 --> 04:12.450
Laten we nu een A aansluiten. L. hieraan toe en laat het erdoor gaan.

04:12.470 --> 04:16.740
Dus laten we hier een H doen en een parameter toevoegen.

04:16.750 --> 04:19.000
Dus laat me eens kijken wat ik hier heb getypt.

04:19.000 --> 04:27.400
Dus hopelijk kun je Python, GreenWorld, IPY zien dan hier minus R betekent dat dit de beloning voor het leven

04:27.400 --> 04:27.910
is.

04:27.910 --> 04:31.480
Ik heb er dus twee, dus deze moet ik waarschijnlijk verwijderen.

04:32.050 --> 04:34.290
Dus min K is hoeveel iteraties.

04:34.900 --> 04:36.610
Dat zijn veel te veel herhalingen.

04:36.610 --> 04:39.850
Laten we minder doen, laten we doen als tien iteraties.

04:39.850 --> 04:40.510
Dat zou genoeg moeten zijn.

04:41.050 --> 04:48.310
Min AI is agent wat voor soort agent ik wil doen op een willekeurige agent, wat validatie of een Q

04:48.310 --> 04:54.850
Q Dus ik wil een Q Q Learning-agent die dit doet minus S is wat de snelheid is.

04:54.850 --> 04:56.530
Dus dat is veel te ver, te snel.

04:56.530 --> 04:58.660
Ze gebruiken voorlopig gewoon de standaardsnelheid.

04:58.930 --> 05:04.700
Min R is een levende boete, dus standaard nul.

05:04.720 --> 05:10.390
Dus onthoud helemaal aan het begin wat nul boetes voor leven zijn, dus laten we het ook

05:10.390 --> 05:15.580
nul nul noemen, we kunnen deze parameter gewoon verwijderen en D is wat D-korting is.

05:15.880 --> 05:16.990
Dus ik kan er gewoon geen rekening mee houden.

05:16.990 --> 05:18.310
Dus laten we het op nul punt negen houden.

05:18.340 --> 05:21.550
Dus zeer vergelijkbaar met wat we begonnen in dit deel van de kern.

05:21.560 --> 05:25.180
Dus laten we weer die kant op rennen.

05:26.220 --> 05:29.100
Ik denk dat ik Priok echt heb gezien, dus je kunt zien hoe hij aan het verkennen is.

05:30.370 --> 05:35.320
En tot nu toe heeft hij de negatieve drie keer geraakt en je kunt zien hoe de kernwaarden zijn bijgewerkt

05:35.320 --> 05:36.240
in deze vierkanten.

05:36.550 --> 05:40.650
Dit zijn dus het soort nul dat je nu kunt zien, de wachtrijwaarden.

05:40.650 --> 05:44.620
Dus hij heeft geleerd dat, nogmaals, deze een beetje anders is geïmplementeerd, want als je eenmaal in de laatste fase bent,

05:44.620 --> 05:46.000
moet je eruit zien te komen.

05:46.510 --> 05:48.900
U hoeft slechts op nog een knop te klikken om af te sluiten.

05:48.910 --> 05:51.190
En dus is het heel dicht bij één, maar niet precies één.

05:51.640 --> 05:57.370
Maar tegelijkertijd zie je dat hier, weet je, de waarde langzaam uitkristalliseert in

05:57.370 --> 06:00.100
nulpunt acht, zonder ergens te komen.

06:00.100 --> 06:03.820
Maar de rest tot nu toe, het zijn een soort nullen omdat hij niet genoeg informatie heeft om te begrijpen wat er aan

06:03.820 --> 06:04.330
de hand is.

06:05.380 --> 06:08.430
Oké, laten we eens kijken, laten we eens kijken wat hier gebeurt.

06:10.000 --> 06:16.150
Verkennen, verkennen, onderzoeken wat er gaat gebeuren of is al een tijdje geleden en vergeet niet, er is

06:16.150 --> 06:22.420
hier wat willekeur bij betrokken, dus er zijn nog een paar keer die goede, hij krijgt maar 10 iteraties.

06:22.420 --> 06:23.890
Dus hij moet snel leren.

06:25.110 --> 06:26.400
Oké, ik heb je daar nodig.

06:27.090 --> 06:28.440
Laten we kijken wat er aan de hand is.

06:29.190 --> 06:31.590
Kom op, ga al uit dat doolhof.

06:32.650 --> 06:40.070
En ja, 10 afleveringen, dus gemiddeld rendement dat we daar niet echt in geïnteresseerd zijn.

06:40.330 --> 06:42.560
Dus hier, eens kijken, ik heb ze nog nooit eerder gezien.

06:42.580 --> 06:43.390
Ik klik rechts.

06:43.390 --> 06:43.780
Daar ga je.

06:43.780 --> 06:49.530
Dus je kunt zien dat dit het beleid is dat hij bedacht, zelfs door slechts 10 afleveringen.

06:49.540 --> 06:50.590
Hij heeft al een beleid.

06:50.620 --> 06:54.070
OK, ik ga naar boven en hier ga ik naar beneden.

06:54.070 --> 06:55.450
Ik ga hier naar beneden.

06:55.450 --> 06:58.040
Ik ga de muur in en dan spring ik hierheen.

06:58.390 --> 06:59.110
Dat is best wel cool.

06:59.830 --> 07:01.890
Oké, laten we nu de snelheid verhogen.

07:02.500 --> 07:10.330
Wat was de parameter is er en het is als het verdubbelen of verviervoudigen van de snelheid en laten we het aantal

07:10.330 --> 07:11.250
iteraties verhogen.

07:11.250 --> 07:13.330
Dus laten we zeggen 20 iteraties deze keer.

07:13.830 --> 07:15.710
Eens kijken of we er nu wat meer doorheen kunnen komen.

07:16.660 --> 07:18.430
Je ziet dus dat hij wat sneller gaat.

07:19.380 --> 07:25.650
En hij leert, hij leert dat het niet echt, weet je, uit deze staat, er zijn niet veel

07:25.650 --> 07:29.820
goede acties of, weet je, deze acties zijn niet zo goed.

07:30.150 --> 07:30.540
Zeker.

07:30.540 --> 07:31.740
Deze is zeker niet goed.

07:32.310 --> 07:33.360
Dat moet hij nog leren.

07:33.370 --> 07:34.610
Dus vanaf hier is het ook goed.

07:34.630 --> 07:36.120
Je kunt zien dat deze actie best goed is.

07:36.660 --> 07:37.220
Oke.

07:37.230 --> 07:38.130
Wat heeft hij gekregen?

07:38.340 --> 07:40.350
OK, zo interessant beleid hier.

07:40.680 --> 07:43.200
Hij besloot naar boven te gaan, maar niet genoeg informatie.

07:43.200 --> 07:45.360
Laten we dat dus opnieuw doen.

07:46.670 --> 07:52.730
En laten we de snelheid verhogen tot honderd, dus supersnel, en het aantal iteraties geeft ze

07:52.730 --> 07:57.710
deze keer 100 honderd iteraties om die syntheses waanzinnig snel uit te voeren.

07:57.980 --> 08:03.380
En je kunt zien dat, omdat er zoveel meer iteraties zijn, hij meer informatie heeft, meer gelegenheid

08:03.380 --> 08:09.710
om te experimenteren en om deze matrix of matrix daadwerkelijk uit te bouwen, deze sleutelwaarden voor elke afzonderlijke staat die

08:09.710 --> 08:12.920
hij nu kent, zoals je dat nulpunt kunt zien negenentachtig.

08:13.100 --> 08:14.220
Wat zeiden we in ons voorbeeld?

08:14.260 --> 08:15.530
Nulpunt zesentachtig.

08:15.950 --> 08:22.250
Een ander ding om dit te onthouden, dat de waarde van een bepaalde staat onthoud dat de formule die we hadden

08:22.250 --> 08:24.140
het maximum van de Q-waarden is.

08:24.150 --> 08:25.850
Weet je nog dat ding dat we bedachten?

08:26.010 --> 08:26.880
Sneltoets formule.

08:27.020 --> 08:29.270
Dus wat is de waarde in deze staat?

08:29.390 --> 08:30.520
De V van deze staat?

08:30.770 --> 08:35.180
Het zou nul komma negenentachtig zijn, want dat is het hoogste van de vier hier.

08:35.180 --> 08:37.010
De waarde van deze toestand is nul komma eenenzeventig.

08:37.040 --> 08:40.050
De waarde van deze toestand is nul komma eenenzestig enzovoort.

08:40.250 --> 08:41.350
Dus dat is iets om te onthouden.

08:41.430 --> 08:42.290
Ik herinner me een voorbeeld.

08:42.290 --> 08:44.960
Ik denk dat we een nulpunt zesentachtig hadden of zoiets, dus redelijk dichtbij.

08:45.590 --> 08:54.050
En dus als we volgend jaar gaan, dat is verdwenen of ze verdwijnen daar weer en laten we

08:54.050 --> 08:55.560
het terugkomen, oké.

08:55.680 --> 08:56.120
OKE.

08:56.150 --> 08:57.260
Langzaam, langzaam, langzaam.

08:57.260 --> 09:00.110
Het opvullen van enkele ruimtes.

09:00.980 --> 09:01.420
Ik snap het.

09:01.430 --> 09:06.140
En het is ook vrij willekeurig omdat niet alleen de omgeving willekeurig is, maar ook de

09:06.140 --> 09:12.030
manier waarop hij de Star verkent wanneer hij niet weet dat het beleid is dat hij willekeurig onderzoekt, blijft maar verdwijnen.

09:12.050 --> 09:13.020
Ik begrijp niet waarom.

09:13.490 --> 09:18.590
Hoe dan ook, laten we eens kijken wat er gebeurt als we het aantal hier verhogen en hier ongeveer evenveel tijd

09:18.590 --> 09:19.490
in beslag nemen.

09:20.670 --> 09:22.600
Als er geen dop op de snelheid zit.

09:23.340 --> 09:30.390
Oké, dus omdat hij het gevoel heeft dat hij meer mogelijkheden heeft om dingen te ontdekken, oké, laten we eens kijken hoe het allemaal gaat.

09:31.050 --> 09:32.510
En je kunt zien dat de waarden convergeren.

09:32.520 --> 09:35.430
Ze gaan op en neer afhankelijk, weet je, want er is wat willekeur.

09:35.430 --> 09:38.130
En hij zou kunnen eindigen als in de put, ook al gaat hij deze kant op.

09:38.490 --> 09:43.950
Maar tegelijkertijd beginnen ze langzaam te convergeren naar een soort van waarden en sleutelwaarden.

09:44.780 --> 09:48.460
OK, waarschijnlijk is duizend een beetje te veel in termen van tijd.

09:48.480 --> 09:52.900
Het ziet er niet naar uit dat de snelheid ook evenredig toeneemt.

09:53.460 --> 09:54.900
Dus het kan dat deel afsnijden.

09:55.470 --> 09:56.880
Ik bedoel, zoals de snelheid verminderen.

09:57.430 --> 09:58.920
Ja, nou, dit is erg lang.

09:59.910 --> 10:03.630
Je hoeft niet tot het einde van deze tutorial te kijken, ik wil gewoon een

10:04.050 --> 10:09.570
beetje experimenteren, dus om je wat voorbeelden te geven van waar we doorheen hebben gewerkt, maar je begrijpt dat het dit allemaal

10:09.570 --> 10:10.280
doorloopt .

10:10.770 --> 10:14.560
Het heeft wat willekeur zoals willekeur ingebouwd in zijn gedrag.

10:14.700 --> 10:18.570
Dus zelfs als het een beleid heeft, zal het nog steeds blijven verkennen.

10:18.570 --> 10:23.130
Het zal dus niet zo zijn dat het basisbeleid gewoon zijn beleid blijft volgen.

10:23.310 --> 10:28.770
Ze zal af en toe nog experimenteren met andere varianten om haar beleid aan te scherpen.

10:28.770 --> 10:31.290
Misschien heeft het niet meteen het beste beleid gevonden.

10:31.290 --> 10:33.180
Misschien kan het het beleid verbeteren.

10:33.180 --> 10:38.730
En dat is de reden waarom je zelfs na zoveel iteraties nog steeds enkele willekeurige effecten kunt zien.

10:38.740 --> 10:43.650
Het springt soms in willekeurige toestanden, niet alleen vanwege de willekeur en de omgeving, maar ook omdat

10:43.650 --> 10:49.050
er een bepaald niveau is, zoals een parameter die je zou kunnen controleren, die je zou kunnen instellen voor je

10:49.050 --> 10:54.480
agent, zeggende dat, weet je, de meeste van de tijd, 80 procent van de tijd, doe wat uw beleid u

10:54.480 --> 10:55.430
zegt te doen.

10:55.440 --> 11:00.090
Maar 20 procent van de tijd, weet je, doe gewoon een leuk experiment en kijk wat er gebeurt en gebruik

11:00.090 --> 11:02.910
die informatie die je verzamelt om je beleid bij te werken.

11:03.210 --> 11:05.090
Oké, dit duurt veel te lang.

11:05.160 --> 11:06.050
Laten we dat nog eens proberen.

11:06.390 --> 11:06.690
Ja.

11:06.690 --> 11:11.580
Dus zo leert de agent in verschillende staten.

11:11.580 --> 11:11.790
Kan zijn.

11:11.790 --> 11:13.830
Laten we er gewoon nog een uitvoeren, gewoon uit nieuwsgierigheid.

11:14.160 --> 11:16.350
Is er dan nog iets dat we eraan kunnen veranderen?

11:18.270 --> 11:19.530
iteraties.

11:21.550 --> 11:22.340
OKE.

11:22.350 --> 11:23.730
Oké, laten we eens kijken.

11:24.390 --> 11:26.610
Ja, nou, we kunnen de discussie bijvoorbeeld veranderen.

11:26.620 --> 11:29.100
Dus in dit geval zouden we kunnen zeggen.

11:30.610 --> 11:42.130
Oké, min honderd min een Q, min twee min is OK duizend, dus beloning, we willen het houden, misschien laten we het op nul punt

11:42.130 --> 11:43.630
nul vier houden.

11:43.630 --> 11:49.210
Maar laten we het nogmaals zeggen, laten we de beloning voor elke keer op min nul punt nul houden.

11:49.210 --> 11:53.230
En dan gaan we hier zeggen dat D.

11:54.260 --> 12:00.380
De korting is niet nul punt negen, maar het is zoiets als nul punt nul punt vijf, dus het wordt behoorlijk verdisconteerd terwijl

12:00.380 --> 12:01.950
je door het spel gaat.

12:02.450 --> 12:07.640
Dus het zal nu worden gestimuleerd om dichter bij de finish te zijn in plaats van verder.

12:08.300 --> 12:10.340
De staten die bijna klaar zijn, krijgen een hoge waarde.

12:10.350 --> 12:12.800
Je ziet dus dat de waarde snel daalt.

12:12.800 --> 12:15.190
Het is niet meer zo groen als voorheen.

12:16.260 --> 12:22.710
Dus hier kun je zien dat dit nu het beleid is, dus het gaat zo, zo, zo, zo, erg

12:22.710 --> 12:27.600
vergelijkbaar met wat we eerder zagen, alleen de waarschijnlijkheidsverschillen van hier springen hier rechtstreeks

12:27.600 --> 12:28.250
in.

12:28.710 --> 12:29.850
Dus dat is er niet een.

12:29.850 --> 12:32.430
En oké, laten we er nog één uitvoeren.

12:32.460 --> 12:33.210
Dit is zo leuk.

12:33.420 --> 12:34.410
Laten we er nog maar één draaien.

12:34.410 --> 12:41.730
Dus K min honderd een Q korting, houd het zoals het origineel was.

12:41.730 --> 12:45.390
Dus voer gewoon deze basis vanille-installatie uit.

12:46.700 --> 12:51.560
OK, OK, OK, het gaat met verschillende shows het beleid en.

12:53.350 --> 12:55.720
Ja, we hebben het beleid, ja, goede afwerking.

12:56.260 --> 12:59.750
Dus hier hebben we het beleid, weet je, dit is bekend.

12:59.770 --> 13:04.870
Weet je nog die keer dat we zagen dat de mens te slim af was, tegen de muur ging om daarheen te

13:04.870 --> 13:08.500
gaan en tegen de muur om zo te gaan, om de kans te vergroten?

13:08.530 --> 13:09.180
Dus daar gaan we.

13:09.190 --> 13:13.750
Dat is een voorbeeld van kunstmatige intelligentie in actie.

13:13.750 --> 13:16.230
Heel, heel basaal, eenvoudig, belangrijk leren.

13:16.240 --> 13:17.890
Dus geen deep learning in dit stadium.

13:18.490 --> 13:22.840
Maar tegelijkertijd is het een hele slimme en ik hoop dat je er vandaag van geniet.

13:22.840 --> 13:28.180
Statoil en nogmaals bedankt aan UC Berkeley en ik hoop dat je genoten hebt van de tutorial van vandaag.

13:28.180 --> 13:29.500
En ik kijk ernaar uit om je de volgende keer te zien.

13:29.530 --> 13:30.990
Tot dan, geniet ervan.
