WEBVTT

00:00.240 --> 00:06.110
Hallo en welkom om deel te nemen aan het trainen van de lucht met diepe convolutionele kirani, dat klopt.

00:06.120 --> 00:11.490
Nu we de lucht hebben gebouwd met de architectuur van het neurale netwerk, het lichaam, de manier waarop de acties worden gespeeld en alles, is

00:11.490 --> 00:16.760
het tijd om deze A te trainen. L. met diep, convolutioneel leren.

00:17.190 --> 00:22.410
Dus dat is vanaf nu dat we Freeplay zullen implementeren, weet je, werken met de

00:22.410 --> 00:27.690
kernwaarden, werken met de beloningen, en er zal zelfs een bonus zijn die veel zal verbeteren.

00:27.700 --> 00:33.780
Het trainingsproces, dat geschiktheidskenmerken wordt genoemd, is een krachtige techniek die bestaat

00:33.960 --> 00:38.790
uit het verzamelen van beloningen in verschillende stappen.

00:38.970 --> 00:44.730
En de kernwaarden worden geleerd op deze accumulatie van beloningen, in tegenstelling tot voorheen, waar de kernwaarden

00:44.730 --> 00:46.550
na elke overgang werden geleerd.

00:46.710 --> 00:52.200
Daarom zullen we, nadat we deze keer elke beloning hebben ontvangen, de belangrijkste waarden leren nadat we verschillende beloningen hebben ontvangen

00:52.200 --> 00:54.200
in plaats van alleen wanneer we werken.

00:54.510 --> 01:00.240
Dus in plaats van de ene overgang na de andere te hebben en, weet je, de sleutelwaarde

01:00.480 --> 01:07.050
elke keer bij te werken, nou, de sleutelwaarden zullen elke stap worden bijgewerkt omdat het geschiktheidskenmerk nogal koud is en

01:07.050 --> 01:12.330
stappen, geschiktheidskenmerken en einde is dit nummer na waarin de belangrijkste waarden worden bijgewerkt.

01:12.660 --> 01:15.300
En in ons model hier hebben we een is gelijk aan 10.

01:15.480 --> 01:18.240
Dus dat betekent dat het een geschiktheidsspoor van 10 stappen zal zijn.

01:18.420 --> 01:24.300
En daarom zullen we de belangrijkste waarden elke 10 stappen bijwerken en leren nadat we de beloningen op deze 10

01:24.300 --> 01:25.250
stappen hebben verzameld.

01:25.620 --> 01:29.340
Dus dat is een bonus die ons model nog krachtiger zal maken.

01:29.550 --> 01:32.850
En u zult zien dat we uiteindelijk uitstekende resultaten behalen.

01:33.000 --> 01:35.670
Ik was echt verbaasd toen ik het eindresultaat zag.

01:35.850 --> 01:40.020
Vroeger werkte ik aan modellen die veel tijd in beslag namen om uit te voeren.

01:40.200 --> 01:44.130
Weet je, het kostte me veel tijd om te trainen, maar dat zul je bij deze zien.

01:44.340 --> 01:50.370
Plus het neurale netwerk dat we hebben gemaakt, dat is ons brein en ons lichaam hier met spullen, Max, we krijgen een zeer krachtig

01:50.370 --> 01:56.390
model en daarom een zeer krachtige A. L. want je zult zien dat het zal radicaliseren.

01:56.490 --> 01:58.700
Begrijp je waar ik het over heb?

01:59.250 --> 02:04.200
Dus zoals je in dit deel twee kunt zien, beginnen we met het maken van milieu.

02:04.380 --> 02:06.390
En ik heb eigenlijk de regels code voor je voorbereid.

02:06.600 --> 02:12.530
We gebruiken alleen het externe bestand voor voorverwerking van afbeeldingen uit onze werkmapmap.

02:12.810 --> 02:19.470
Dus eigenlijk is de volgorde eerder om eerst deze regel code te nemen, Jim, die de verpakkingscode nul

02:19.470 --> 02:19.920
maakt.

02:20.070 --> 02:24.200
Dus Dhume, Code of Zero is de naam van de omgeving van het spel dat we spelen.

02:24.300 --> 02:31.020
Dus eerst importeren we de omgeving met dit juweeltje, dat is wat je kunt vinden in de open

02:31.050 --> 02:31.680
item-tutorials.

02:32.070 --> 02:40.200
Maar dan gebruiken we deze pre-process beeldklasse, een klasse van beeldverwerking tot het voorbewerken van de beelden die

02:40.200 --> 02:43.020
in het neurale netwerk komen.

02:43.350 --> 02:48.630
En we hebben ze voorbewerkt zodat ze een vierkant formaat hebben met de afmetingen 80 bij 80.

02:48.990 --> 02:55.620
En dat, onthoud, is omdat we in ons neurale netwerk onze invoerbeelden instellen op twee dimensies,

02:55.620 --> 03:00.210
één bij acht bij acht, onthoud, één is het aantal kanalen.

03:00.360 --> 03:03.120
En dus betekent één dat we met zwart-witbeelden werken.

03:03.510 --> 03:05.910
Dus dat is de grijsschaal hier.

03:06.690 --> 03:12.540
En acht bij acht betekent dat de afmetingen van onze invoerbeelden ongeveer 80 zullen zijn.

03:12.870 --> 03:14.670
En dat is wat we in het neurale netwerk hebben gezet.

03:14.670 --> 03:20.460
Maar dan moeten we dit natuurlijk specificeren bij het invoeren van de afbeeldingen, wat precies is wat we

03:20.460 --> 03:22.730
hier doen met deze pre-process afbeeldingsklasse.

03:23.460 --> 03:29.400
En nadat we de omgeving hebben geïmporteerd met het juiste formaat van de invoerafbeeldingen, wel, we importeren het hele

03:29.400 --> 03:32.070
spel met de video's, met deze regel code.

03:32.370 --> 03:37.530
En onthoud, het leuke hiervan is dat we uiteindelijk de video's van onze vliegtuigzoom zullen zien.

03:37.710 --> 03:42.720
Dus we zullen zien hoe het de monsters zal doden, proberen de beste te bereiken en alles wat super spannend

03:42.720 --> 03:43.320
zal zijn.

03:43.320 --> 03:47.720
En onthoud dat deze video's in deze videomap terechtkomen.

03:48.480 --> 03:49.040
Oke.

03:49.050 --> 03:50.550
En de laatste regel hier.

03:50.550 --> 03:52.980
Maar ik wil het je laten zien, want dat is belangrijk.

03:52.980 --> 03:56.390
Dat is nu meer gerelateerd aan de A. L. dat we aan het bouwen zijn.

03:56.760 --> 04:02.420
Onthoud dat ons neurale netwerk als invoer geen acties onderneemt.

04:02.760 --> 04:07.890
Dat komt omdat, weet je, we een API willen maken die we gemakkelijk kunnen testen op verschillende

04:07.890 --> 04:09.150
omgevingen en verschillende omgevingen.

04:09.510 --> 04:14.670
En aangezien de verschillende Dhoom-omgevingen een verschillend aantal acties hebben, hebben we deze variabele voor

04:14.670 --> 04:18.870
aantal acties gespecificeerd als de invoer van de CNN, de hersenen.

04:19.200 --> 04:26.160
En daarom gaan we nu deze variabele aantal acties ophalen met behulp van de doom-omgeving die we zojuist hebben

04:26.160 --> 04:28.860
geïmporteerd en gemaakt in deze variabele.

04:29.160 --> 04:34.200
En later zal deze variabele voor het aantal acties die we gaan maken de input van de hersenen zijn.

04:34.770 --> 04:35.670
Dus laten we dit doen.

04:35.820 --> 04:39.120
Ik introduceer deze real now variabele.

04:39.120 --> 04:45.630
Geen acties, geen acties staat gelijk aan nu gaan we onze Dhume-omgeving innemen.

04:45.630 --> 04:47.460
Dat is de variabele die we hebben gemaakt.

04:48.000 --> 04:49.110
Dus ook het milieu.

04:49.320 --> 04:51.900
Dan voegen we hier dat en dan toe.

04:51.900 --> 04:52.620
Nou, daar gaan we.

04:52.620 --> 04:54.540
We nemen hier het eerste actieveld.

04:54.810 --> 04:56.850
Dat is de set van je acties.

04:57.030 --> 04:59.910
Ik nodig u van harte uit om een kijkje te nemen bij de opening van.

04:59.980 --> 05:05.270
Turrell's om te zien hoe het werkt, weet je, om te begrijpen hoe het openen van gym-omgevingen

05:05.540 --> 05:11.240
werkt, maar eigenlijk is dit de reeks acties en uit deze reeks acties hebben we toegang tot het aantal

05:11.240 --> 05:12.590
acties in de omgeving.

05:12.770 --> 05:20.660
En om dit te doen, hebben we toegevoegd dat hier en en het aantal acties is en daarom zullen Dhoom en dat

05:20.660 --> 05:23.540
acties op basis van RN zeven opleveren.

05:23.750 --> 05:26.360
Het zal er zeven teruggeven, want er zijn zeven acties.

05:26.570 --> 05:32.000
Ik weet dat we zes acties kunnen zien in de doom-omgevingen op de openingsagentpagina, maar ik denk dat we

05:32.000 --> 05:32.960
ook kunnen rennen.

05:33.320 --> 05:38.800
En dus, weet je, we kunnen vooruit, naar links, naar rechts, naar links, naar rechts en schieten.

05:38.810 --> 05:39.860
En bovendien kunnen we rennen.

05:40.040 --> 05:41.180
Dus dat maakt zeven acties.

05:42.120 --> 05:46.740
Oké, en dat is het om het milieu te krijgen, we moeten het milieu doen.

05:46.890 --> 05:48.240
We hebben een aantal acties.

05:48.480 --> 05:52.380
Dus we hebben tot nu toe alles wat we nodig hebben voor onze hersenen.

05:52.690 --> 05:58.020
We zullen dan gewoon een object maken, een hersenobject, dat we CNN en minimale letters zullen noemen.

05:58.290 --> 06:03.870
En aangezien de init-functie een aantal acties als argument onderneemt, zullen we het aantal acties

06:03.870 --> 06:09.560
in de CNN invoeren, een object dat we zullen creëren, en dan zullen we natuurlijk het

06:09.570 --> 06:11.480
lichaam creëren en uiteindelijk sterven.

06:11.640 --> 06:17.370
En dat is waar het volgende gedeelte dat ik het gebouw ga noemen en A. L. , omdat we nu zoveel ogen kunnen

06:17.370 --> 06:18.780
bouwen als we willen.

06:19.050 --> 06:21.980
Dat is het geweldige aan objectgeoriënteerd programmeren.

06:21.990 --> 06:24.160
We kunnen alles bouwen zoals we willen.

06:24.180 --> 06:28.170
En dus gaan we onze A bouwen. L. die het geavanceerde brein heeft.

06:28.290 --> 06:31.160
En dat is precies wat we zullen doen in de volgende tutorial.

06:31.680 --> 06:33.270
Tot die tijd, geniet van I.