WEBVTT

00:00.240 --> 00:04.830
Hallo en welkom bij de leuke tutorial van deze eerste module, zelfrijdende auto.

00:04.980 --> 00:06.180
Het wordt episch.

00:06.210 --> 00:11.430
We gaan ons oog op het milieu testen en we gaan het testen op vier verschillende niveaus.

00:11.700 --> 00:13.160
Dat wil zeggen, we gaan een spel spelen.

00:13.260 --> 00:17.960
Het spel heeft vier moeilijkheidsgraden en de A. L. zal deze vier niveaus moeten halen.

00:18.270 --> 00:20.250
Dus we gaan deze vier niveaus zijn.

00:20.460 --> 00:27.090
Ten eerste, niveau één, het eerste niveau zal zijn om de luchthaven te bereiken en dan wat rondreizen te maken tussen de

00:27.090 --> 00:28.900
luchthaven en naar het centrum.

00:29.190 --> 00:34.350
Dus zodra we de auto deze rondritten zien maken, komen we langs niveau één en dan niveau twee.

00:34.530 --> 00:40.740
Niveau twee zal zijn om deze rondreizen nog steeds te doen, maar op een specifieke weg die we zelf hebben gereden.

00:41.040 --> 00:43.590
Maar het wordt een gemakkelijke weg omdat het niveau twee is.

00:43.800 --> 00:48.840
En natuurlijk zal de auto zelf moeten rijden door op die weg te blijven.

00:49.030 --> 00:53.000
Het wordt dus een weg die van het vliegveld naar het centrum gaat en dan de andere kant op.

00:53.250 --> 00:56.820
En dus zal de auto deze rondritten moeten doen door op die weg te blijven.

00:57.030 --> 01:00.570
Als dat het geval is, passeren we niveau twee en dan niveau drie.

01:00.870 --> 01:06.900
Niveau drie zal zijn om enkele obstakels op de kaart te tekenen om te zien of de auto erin slaagt de obstakels te ontwijken en

01:07.080 --> 01:08.380
toch zijn doel te bereiken.

01:08.760 --> 01:13.710
Dus geen zorgen, we zullen een aantal moeilijke obstakels tekenen die de auto zal moeten vermijden en we zullen

01:13.710 --> 01:16.440
zien of het de luchthaven en het centrum heeft bereikt.

01:16.920 --> 01:23.850
En ten slotte zal het niveau voor het meest uitdagende niveau voor de auto zijn om een zeer moeilijke weg te tekenen om het

01:23.850 --> 01:24.940
centrum te bereiken.

01:25.290 --> 01:27.900
Dus ik weet het niet, weet je, het zal een weg zijn als een zigzag.

01:27.990 --> 01:31.350
Ik ben geen briljante architect, maar ik zal proberen een uitdagende weg te maken.

01:31.800 --> 01:35.210
Dus laten we hopen dat we in ieder geval het eerste niveau halen.

01:35.220 --> 01:36.060
Dat zou geweldig zijn.

01:36.180 --> 01:38.910
Laten we dan hopen dat we ook level twee en drie kunnen halen.

01:39.210 --> 01:41.620
En als we niveau vier halen, zou dat geweldig zijn.

01:42.060 --> 01:43.070
Dus laten we dit doen.

01:43.080 --> 01:44.450
Laten we de uitdaging aangaan.

01:44.460 --> 01:49.290
Nou, eigenlijk gaat de zelfrijdende auto de uitdaging aan, maar wij zijn het brein hierachter, dus

01:49.290 --> 01:51.370
laten we hopen dat dat werkt.

01:51.930 --> 01:52.410
Oke.

01:52.410 --> 01:56.820
Dus het eerste wat ik ga doen, is je een snelle herinnering geven over de kaart.

01:57.210 --> 01:58.800
Dus dat is de kaart.

01:59.010 --> 02:00.900
En eerst gaan we naar de kaart kijken.

02:00.900 --> 02:06.540
We gaan kijken naar de zelfrijdende auto zonder de A. L. Het zal dus gewoon een auto zijn met

02:06.540 --> 02:09.040
die willekeurige acties die je aan het begin van deze module zag.

02:09.480 --> 02:10.770
Dus hoe kunnen we daar naar kijken?

02:10.890 --> 02:14.650
We moeten de lucht deactiveren en activeren.

02:14.710 --> 02:19.180
Ja, we moeten gewoon een temperatuur gelijk aan nul stellen.

02:19.500 --> 02:24.050
Onthoud dat die parameter hier de temperatuur is, en op dit moment is deze gelijk aan zeven.

02:24.060 --> 02:25.370
Dat is dus een lage temperatuur.

02:25.680 --> 02:27.030
We zullen dat er naar toe verhogen.

02:27.390 --> 02:32.490
Maar als we niet willen dat de auto hersens heeft, dan willen we de A niet activeren. L. , we hoeven alleen

02:32.490 --> 02:35.820
maar de temperatuur in te stellen op nul nul nul.

02:36.000 --> 02:39.430
En hetzelfde hier natuurlijk, dat is de echte temperatuur in de code.

02:39.720 --> 02:40.380
Dus daar gaan we.

02:40.380 --> 02:45.180
En dan moeten we niet vergeten op te slaan want anders zit de wijziging er niet in.

02:45.660 --> 02:48.900
OK, dus nu hebben we geen idee om het te activeren.

02:49.140 --> 02:54.690
Laten we dus eens naar de kaart kijken om ons een snelle opfrisbeurt te geven, een snelle herinnering aan hoe het eruit

02:54.690 --> 02:54.980
ziet.

02:55.380 --> 02:59.850
Dus ik ga alles selecteren en op enter drukken.

03:00.910 --> 03:06.610
Oké, en er is een kaart en daar is onze auto, dus zoals je kunt zien, heeft de auto totaal willekeurige acties, je weet wel,

03:06.610 --> 03:09.810
om naar links te gaan, om rechtdoor of om naar rechts te gaan.

03:10.120 --> 03:16.420
En daarom bereikt het de luchthaven niet, dat wil zeggen, ik herinner me linksboven op de kaart en bereik

03:16.720 --> 03:17.320
niet.

03:17.460 --> 03:19.390
Nou, het deed het gewoon, maar dat is volkomen willekeurig.

03:19.720 --> 03:26.470
Uh, je ziet nu dat het op het vliegveld is en het andere doel niet bereikt, het centrum rechtsonder

03:26.470 --> 03:27.960
op de kaart.

03:28.330 --> 03:29.680
Dus we waren net als hier.

03:29.680 --> 03:33.840
Maar we kunnen nu duidelijk zien dat de acties totaal willekeurig zijn.

03:33.850 --> 03:38.950
Het gaat nergens heen en er is zeker geen kunstmatige intelligentie.

03:39.370 --> 03:40.180
Maar geen zorgen.

03:40.180 --> 03:41.640
We zullen het nu activeren.

03:42.190 --> 03:44.230
Ik ga de kaart sluiten.

03:45.080 --> 03:51.470
En dan ga ik de kernel herstarten, herstart de kernel, je klikt hier en dan op deze knop.

03:51.470 --> 03:54.320
Ja, en nu tijd voor de show.

03:54.590 --> 04:02.900
We gaan eindelijk dit brein dat we gemaakt hebben in de auto stoppen en de A. L. Ik ben super enthousiast om te zien wat

04:02.900 --> 04:03.960
er gaat gebeuren.

04:03.980 --> 04:06.050
We gaan de lucht nu activeren.

04:06.170 --> 04:08.750
En om dit te doen, moeten we de temperatuur verhogen.

04:09.380 --> 04:15.650
Dus om de temperatuur te veranderen, moeten we die nul vervangen door bron, laten we beginnen met zeven, zoals

04:16.010 --> 04:17.020
we eerder hadden.

04:17.300 --> 04:19.230
Dus laten we hier zeven specificeren.

04:19.490 --> 04:20.060
Oke.

04:20.060 --> 04:21.410
Laten we niet vergeten te sparen.

04:21.410 --> 04:23.180
En laten we nu teruggaan naar onze kaart.

04:23.510 --> 04:27.260
En nu kunnen we dit gewoon opnieuw uitvoeren omdat we de kernel opnieuw hebben opgestart.

04:27.740 --> 04:29.270
Dus laten we uitvoeren.

04:29.810 --> 04:30.680
En daar gaan we.

04:30.680 --> 04:31.600
We hebben de auto.

04:31.640 --> 04:33.210
En wat doet het?

04:33.750 --> 04:36.530
Nou, het probeert zijn weg te vinden.

04:36.530 --> 04:39.470
Het onderzoekt zijn begrip van wat het moet doen.

04:39.830 --> 04:41.960
En het staat op het punt de luchthaven te bereiken.

04:41.960 --> 04:42.950
En daar gaan we.

04:43.100 --> 04:44.570
Eerste doel bereikt.

04:44.570 --> 04:45.200
Prachtig.

04:45.530 --> 04:47.870
En nu is het volgende doel om het centrum te bereiken.

04:47.960 --> 04:54.110
En daar bereikte het net het centrum en nu probeert het het vliegveld terug te vinden, naar het vliegveld en

04:54.110 --> 04:55.490
ze zijn er weer.

04:55.790 --> 04:56.390
Prachtig.

04:56.390 --> 04:57.170
Dus dat werkt.

04:57.290 --> 05:01.190
Het kostte eigenlijk geen tijd om te verkennen, van de fouten te leren.

05:01.190 --> 05:04.130
Weet je, de fout hier is om verder van het doel af te komen.

05:04.370 --> 05:08.690
Daar straffen we de auto door hem een licht negatieve beloning te geven.

05:08.690 --> 05:10.010
Weet je, het is min 0. 01.

05:10.400 --> 05:12.260
Dus het heeft geleerd van die fout.

05:12.470 --> 05:18.740
En door van die fout te leren, slaagde het erin om de positieve beloningen te krijgen door dichter bij het doel te komen.

05:19.130 --> 05:21.620
En nu begreep het eindelijk wat het moest doen.

05:21.770 --> 05:27.560
Het is absoluut het vliegveld bereiken en dan het centrum bereiken en dan deze takken doen.

05:28.490 --> 05:29.390
Dat is perfect.

05:29.840 --> 05:35.570
We hebben een zelfrijdende auto, maar het valt me op dat hij op een insect lijkt.

05:35.990 --> 05:38.210
De auto lijkt niet echt zeker van zichzelf.

05:38.330 --> 05:40.460
Weet je, het heeft geen erg zelfverzekerde beweging.

05:40.460 --> 05:42.290
Het is alsof je links en rechts gaat.

05:42.620 --> 05:44.480
Dat ziet er niet uit als een autobeweging.

05:44.480 --> 05:45.710
Het lijkt meer op een bug.

05:46.370 --> 05:47.600
Dus dat gaan we oplossen.

05:47.720 --> 05:54.080
En zoals je misschien al geraden hebt, is de manier om dit op te lossen de temperatuur te verhogen, want onthoud,

05:54.080 --> 05:59.240
de temperatuur is de parameter in de softmax-functie die we kunnen verhogen, zodat de actie met

05:59.240 --> 06:00.230
meer zekerheid terugkeert.

06:00.680 --> 06:05.510
Dus dat is logisch dat als we de temperatuur goed verhogen, we misschien een auto krijgen die zekerder van

06:05.510 --> 06:09.380
zichzelf is omdat de A. L. zal meer zeker zijn van welke actie het moet spelen.

06:10.040 --> 06:14.870
En dat, onthoud, is omdat de actie met een hogere waarschijnlijkheid zal worden gespeeld.

06:15.200 --> 06:20.600
Het enige probleem met deze temperatuurstijging is dat, onthoud, de A. L. is minder het verkennen van

06:20.600 --> 06:25.820
de andere acties, omdat door de temperatuur te verhogen, de andere acties een lage kans hebben.

06:26.270 --> 06:31.550
Maar op dit moment lijkt dat geen probleem te zijn, want de auto lijkt geen probleem te hebben om

06:31.550 --> 06:38.150
zijn doelen te bereiken, de luchthaven naar het centrum, zodat we de temperatuur kunnen verhogen als we dit ding willen dat tot nu toe

06:38.150 --> 06:40.760
op een insect lijkt, kijk als een auto.

06:41.270 --> 06:42.230
Dus laten we dit doen.

06:42.440 --> 06:44.620
Ik ga dit nu afsluiten.

06:45.380 --> 06:46.040
Daar gaan we.

06:46.190 --> 06:48.080
Start de kernel opnieuw.

06:49.250 --> 06:53.940
En ja, en nu gaan we de temperatuur verhogen, dus laten we dit doen.

06:53.960 --> 06:59.720
Ik ga terug naar mijn dossier en verving de Steagles zeven door honderd.

07:01.250 --> 07:01.930
Daar gaan we.

07:02.180 --> 07:06.770
Dan sparen we en nu hebben we zeker een zelfrijdende auto.

07:06.770 --> 07:07.330
Van zichzelf.

07:07.760 --> 07:11.630
Dus misschien krijgen we betere resultaten en krijgen we misschien iets dat meer op een auto lijkt.

07:12.080 --> 07:15.460
Dus laten we een kaart pakken en laten we die dan opnieuw uitvoeren.

07:16.460 --> 07:18.840
Oké, wat is er gebeurd?

07:18.860 --> 07:21.210
Oké, het heeft een soort van burn-out veroorzaakt.

07:21.230 --> 07:25.760
Ik weet niet zeker waarom, maar hoe dan ook, nu hebben we iets dat meer op een auto lijkt.

07:25.880 --> 07:28.120
Je ziet dat het meer rechtdoor gaat.

07:28.130 --> 07:30.780
Het doet deze snelle bewegingen naar links en rechts niet.

07:31.040 --> 07:34.780
Dat komt omdat de auto nu zekerder weet welke kant hij op moet.

07:34.790 --> 07:40.380
En elke keer, weet je, wil het de beste richting nemen om naar het vliegveld te gaan en dan naar het centrum.

07:40.910 --> 07:44.000
Het is dus duidelijk dat we nu kunnen zeggen dat we niveau één hebben gehaald.

07:44.360 --> 07:47.590
De auto maakt deze rondritten tussen de luchthaven en de binnenstad.

07:47.870 --> 07:49.120
Dat gaan we dus redden.

07:49.680 --> 07:52.210
Ik ga je laten zien hoe je de hersenen kunt redden.

07:52.460 --> 07:54.560
We hoeven alleen maar op deze knop voor opslaan te klikken.

07:54.980 --> 07:56.570
En als wij.

07:58.320 --> 07:59.460
Kijk wat hier gebeurt.

07:59.490 --> 08:02.310
Welnu, we hebben in het begin de curve van de beloning.

08:02.340 --> 08:04.440
We kunnen enkele fouten waarnemen die het heeft gemaakt.

08:04.620 --> 08:06.680
Dus daar is de beloning negatief.

08:07.020 --> 08:14.190
Maar toen leerde het van zijn fouten en de beloning nam beetje bij beetje toe tot het bereiken van een constante positieve beloning

08:14.190 --> 08:16.610
gelijk staat aan het openen van een.

08:16.620 --> 08:21.190
Maar dat is de maximale beloning die we hebben ingesteld, en dat komt omdat het uiteindelijk is gaan verkennen.

08:21.720 --> 08:23.250
Dat is de verkenningsfase.

08:23.490 --> 08:25.730
En toen wist het gewoon wat het moest doen.

08:25.980 --> 08:31.770
En dat is waar het deze rondreizen tussen de luchthavens en de binnenstad zonder enige fout deed.

08:32.520 --> 08:33.330
Dus daar gaan we.

08:33.330 --> 08:34.410
We zijn geslaagd voor niveau één.

08:34.410 --> 08:35.430
Gefeliciteerd.

08:35.730 --> 08:37.830
Laten we het nu wat uitdagender maken.

08:38.010 --> 08:39.660
Laten we de zaken naar een hoger niveau tillen.

08:39.990 --> 08:45.660
Laten we proberen om niveau twee te halen, wat ik eraan herinner dat we deze rondritten op een specifieke weg moeten doen.

08:45.670 --> 08:46.800
We gaan zelf tekenen.

08:47.060 --> 08:48.990
Dus laten we dat de komende tijd eens bekijken.

08:49.020 --> 08:50.700
En tot die tijd, geniet van I.
