WEBVTT

00:00.500 --> 00:05.720
Hallo en welkom terug bij de cursus over kunstmatige intelligentie in de tutorial van vandaag, we

00:05.720 --> 00:09.020
beginnen met het gedeelte over een diep, convolutief Q-leren.

00:09.290 --> 00:10.680
Dus laten we eens kijken waar het allemaal om draait.

00:10.880 --> 00:18.890
Eerder hadden we het over Deep Q-leren, dus we hadden een omgeving met een agent en we hadden een vector die die

00:18.890 --> 00:23.030
omgeving beschreef en die in een neuraal netwerk werd ingevoerd.

00:23.030 --> 00:28.760
En aan het einde kregen we de Q-waarden als onze output en toen kwamen we er natuurlijk achter hoe het netwerk

00:28.760 --> 00:29.870
het leergedeelte beperkte.

00:29.900 --> 00:32.890
We ontdekten hoe acties worden beslist op basis van die kernwaarden.

00:32.900 --> 00:34.250
Dat is een actiegedeelte.

00:34.520 --> 00:41.900
En we spraken over het actieselectiebeleid en verschillende dingen over hoe deep learning werkt.

00:42.350 --> 00:51.200
Maar hier is het sleutelconcept voor dit alles: hoe komen we hiervan uit de werkelijke omgeving en

00:51.200 --> 00:54.380
de toestanden naar het neurale netwerk?

00:54.410 --> 00:57.800
Nou, de overgang is hier, de invoervector.

00:57.800 --> 01:02.210
Dus de invoerlaag van ons neurale netwerk en het is een vector.

01:02.220 --> 01:07.400
Dus waar we naar kijken is, OK, dus we zijn eigenlijk niet dat is niet de juiste term.

01:07.400 --> 01:08.600
We kijken nergens naar.

01:08.780 --> 01:12.260
De agent heeft in principe deze informatie.

01:12.260 --> 01:17.600
Dus de omgeving geeft deze informatie door en zegt: OK, jij de agent, je bevindt je momenteel in

01:17.900 --> 01:20.210
deze toestand, wordt beschreven door deze vector.

01:20.360 --> 01:26.690
In dit vereenvoudigde voorbeeld wordt het beschreven door deze vector x1 van één, x2 van twee.

01:26.690 --> 01:30.000
Dus je coördinaten zijn één twee en dat is je hele staat.

01:30.140 --> 01:36.020
In een complexere omgeving kan de staat andere dingen met zich meebrengen die de agent kan waarnemen.

01:36.020 --> 01:38.920
Maar het punt hier is dat het wordt doorgegeven als een vector.

01:39.110 --> 01:45.740
En het punt is dat dat in het echte leven niet gebeurt, in het echte leven, behalve voor systemen en

01:45.740 --> 01:46.340
dergelijke.

01:46.400 --> 01:48.350
Maar wat gebruiken we in het echte leven?

01:48.350 --> 01:49.970
Meestal gebruiken we onze zintuigen.

01:49.970 --> 01:50.840
We gebruiken onze ogen.

01:50.840 --> 01:53.600
Zelfs in GPS is het niet ingebouwd in onze hersenen.

01:53.600 --> 01:55.820
Het vertelt ons niet de coördinaten via onze hersenen.

01:56.180 --> 02:02.390
En dus gebruiken we nog steeds onze ogen om naar de GPS te kijken en te begrijpen wat daar gebeurt.

02:02.720 --> 02:09.170
En dit is dus een soort van bedrog voor A. L. om soortgelijke informatie over de omgeving als vector te

02:09.170 --> 02:09.560
krijgen.

02:09.560 --> 02:10.550
Het is te simpel.

02:10.550 --> 02:11.960
Het is niet hoe het in het echte leven werkt.

02:11.960 --> 02:17.000
Dat is niet hoe wij als mensen werken en uiteindelijk kunstmatige intelligentie willen creëren

02:17.180 --> 02:23.240
die op een vergelijkbare manier als mensen kan werken, omdat het dezelfde uitdagingen kan aangaan als mensen.

02:23.240 --> 02:25.730
En in de mensenwereld hebben we dat dus niet.

02:25.730 --> 02:26.390
Wij hebben dat niet.

02:26.390 --> 02:32.150
We hebben deze coördinaten of andere soorten vectoren niet die aan ons worden doorgegeven die de toestand verklaren waarin we ons

02:32.150 --> 02:33.440
in die omgeving bevinden.

02:33.740 --> 02:37.280
Dus we zullen dat moeten verwijderen om het realistischer te maken.

02:37.280 --> 02:38.780
En waar kunnen we het dan mee vervangen?

02:38.810 --> 02:42.080
Wat zien we of wat doen we als mens om aan informatie te komen?

02:42.110 --> 02:46.220
Nou, meestal zien we natuurlijk met al onze sensoren, maar de meeste

02:46.220 --> 02:50.990
informatie die we krijgen over de wereld om ons heen komt via onze site.

02:51.290 --> 02:59.800
En daarom gaan we dat pijltje dat we hadden veranderen in een heel convolutief neuraal netwerk.

02:59.960 --> 03:02.630
Dit komt dus uit onze bijlage.

03:02.630 --> 03:05.270
Nummer twee, we hebben de convolutionele daar.

03:05.270 --> 03:10.490
En daarom is het belangrijk om redelijk vertrouwd te zijn met convolutionele convolutionele neurale netwerken en hoe ze

03:10.490 --> 03:11.020
werken.

03:11.030 --> 03:14.870
Dus als je een deep learning-cursus hebt gevolgd, moet je je daar prettig bij voelen.

03:14.870 --> 03:16.900
Of u kunt gewoon een kijkje nemen in de bijlage.

03:16.910 --> 03:20.230
Nummer twee, we hebben daar een aantal zeer goede intuïtie-tutorials.

03:20.540 --> 03:24.260
Dus hier hebben we de convolutionele operatie, die gebeurt.

03:24.260 --> 03:27.200
Dus we gaan dit eigenlijk als een afbeelding bekijken.

03:27.200 --> 03:31.280
Dit is dus een afbeelding van de omgeving.

03:31.280 --> 03:33.920
En dus kijkt de agent eigenlijk naar de omgeving.

03:33.920 --> 03:38.330
Dus in dit geval niet dat hij van binnenuit kijkt.

03:38.330 --> 03:43.550
Hij ziet eruit alsof, laten we zeggen dat hij dit op een computer speelt en hij deze omgeving kan zien

03:43.550 --> 03:48.700
en daarom kan hij zien waar deze figuur die de agent vertegenwoordigt, in werkelijkheid is, je kunt zijn hele omgeving

03:48.700 --> 03:53.510
zien of wat een mens zou zien als het echte Meiwes en de mens zou het doolhof van

03:53.510 --> 03:54.180
binnenuit zien.

03:54.200 --> 03:56.200
En dus moeten de agenten precies hetzelfde kunnen zien.

03:56.570 --> 03:58.570
Dus alles wat hij ziet, is gedaan.

03:58.580 --> 04:02.960
Het gaat door een convolutielaag en het gaat door een volledige poollaag, gaat weer door

04:02.960 --> 04:03.290
afvlakking.

04:03.290 --> 04:10.070
Je kunt meer te weten komen over deze verschillende delen van het convolutionele neurale netwerk in de bijlage

04:10.070 --> 04:16.730
en dan nadat het is afgeplat, dan hebben we inputs die naar het neurale netwerk gaan.

04:16.730 --> 04:24.560
En dit is veel realistischer omdat de agent zijn sites moet gebruiken en of afbeeldingen moet verwerken

04:24.560 --> 04:31.190
die de omgeving aan de agent levert, net zoals een mens afbeeldingen zou verwerken.

04:31.430 --> 04:37.430
En het mooie hiervan is niet alleen dat het realistischer is en het is meer als een hier de agenten

04:37.440 --> 04:42.980
eigenlijk meer als een mens, maar het stelt ons in staat om veel complexere omgevingen te verwerken.

04:43.250 --> 04:48.860
Dit is bijvoorbeeld hoe we doom of andere dergelijke spellen kunnen spelen, want in plaats van

04:48.860 --> 04:56.000
alleen een vector van informatie te krijgen die zoals iemand voor ons in deze omgeving zou hebben gecreëerd, kunnen we kunstmatige

04:56.000 --> 05:00.020
intelligentie gewoon aansluiten op elke omgeving die als mens .

05:00.080 --> 05:04.910
We zouden hier een visioen van hebben in Rome, dus wij als mens, wanneer je

05:04.910 --> 05:11.810
dit spel speelt, kun je precies dit beeld zien en dat is precies wat het kunstmatige neurale netwerk of de agent nu zou

05:11.810 --> 05:12.260
zien.

05:12.410 --> 05:17.120
Dus in dit deel van de cursus, wanneer je de praktijkproeven gaat programmeren, zal de agent

05:17.120 --> 05:18.620
dit exacte beeld zien.

05:18.620 --> 05:19.730
Je ziet de pixels.

05:19.730 --> 05:25.340
Het zal dit exacte beeld krijgen van alle pixels van deze persoon met dit met dit pistool, met dit

05:25.340 --> 05:27.460
gezicht, met dit percentage, met alles.

05:27.470 --> 05:28.600
Precies wat we hier zien.

05:28.610 --> 05:30.190
Dat is precies wat de agent zal zien.

05:30.710 --> 05:33.980
Dan zal het dat via convolutie moeten ontleden.

05:33.980 --> 05:37.030
Ze trekken aan hun afplatting en dan gaat het in een neuraal net.

05:37.490 --> 05:42.080
En het is onnodig om te zeggen dat het neurale netwerk eigenlijk veel complexer is en dat laten we het daarom vervangen door

05:42.080 --> 05:42.710
zoiets als dit.

05:42.740 --> 05:44.240
Dit is niet veel ingewikkelder.

05:44.420 --> 05:46.430
Dit ziet er wat ingewikkelder uit.

05:46.430 --> 05:51.050
Maar in werkelijkheid zullen de neurale netwerken waarmee wordt gewerkt en het creëren met

05:51.050 --> 05:54.080
Adlen behoorlijk interessant zijn, veel complexer zijn dan dit.

05:54.080 --> 05:59.870
Maar zoals je hier al kunt zien, zelfs als we maar vijf ingangen hebben in plaats van twee, worden de

05:59.870 --> 06:00.770
dingen veel complexer.

06:00.780 --> 06:04.290
En hier kunt u zien dat we nog veel meer acties hebben die de agent kan ondernemen.

06:04.310 --> 06:11.390
Dus in het doomspel en draai links en rechts, kijk naar beneden, kijk omhoog, rennen, schieten, herladen, of, je weet wel,

06:11.390 --> 06:16.220
al die verschillende acties die mogelijk zijn in first person shooter zoals doen.

06:16.220 --> 06:23.020
En bovendien hoeft het niet zo te zijn dat je deze agent kunt koppelen aan een ander type spel.

06:23.060 --> 06:29.870
Dat is het mooie ervan, dat het zich dan realiseert dat het nu elke soort omgeving kan bedienen waaraan je het

06:29.870 --> 06:34.220
koppelt, want zolang er een visuele representatie van de omgeving van die omgeving

06:34.520 --> 06:36.950
is, heeft het al de hele infrastructuur.

06:36.950 --> 06:39.600
De hele structuur is klaar om dat te verwerken.

06:39.860 --> 06:43.910
Dus dat is waar diep, convolutief leren over gaat.

06:43.940 --> 06:46.160
Dus we gaan zelfs naar de volgende stap.

06:46.160 --> 06:52.970
We voegen nu convoluties toe aan of de convolutionele lagen in ons agentenbrein.

06:53.600 --> 06:55.610
En we maken het nog complexer.

06:55.610 --> 07:01.050
En daarom kunnen we worden beloond met het kunnen oplossen van nog complexere uitdagingen.

07:01.280 --> 07:06.830
Dus ik hoop dat je erg enthousiast bent dat dit een episch gedeelte gaat worden en dat we een aantal geweldige dingen

07:06.830 --> 07:07.610
gaan maken.

07:07.820 --> 07:10.300
En ik kan niet wachten om je te zien op de volgende Atauro.

07:10.340 --> 07:12.080
En tot die tijd, geniet van Ehi.