WEBVTT

00:00.360 --> 00:02.640
Hallo en welkom bij deze Python-tutorial.

00:03.060 --> 00:08.250
Oké, dus nu gaan we de voorwaartse functie maken die de uitgangssignalen van onze hersenen naar het

00:08.250 --> 00:13.310
ooglichaam zal verspreiden, zodat het de juiste actie zal uitvoeren om het Westen te bereiken.

00:13.650 --> 00:17.100
Maar er is nog geen actie omdat er nog niet getraind wordt.

00:17.220 --> 00:19.470
We hebben de lucht nog niet getraind.

00:19.620 --> 00:25.110
Maar dit is precies wat we gedeeltelijk zullen doen om deep convolutioneel leren te implementeren,

00:25.110 --> 00:29.390
wat ik trouwens de AI-training zal hernoemen met diep convolutioneel leren.

00:29.820 --> 00:35.250
Maar nu moeten we het signaal van de uitgangslaag van de hersenen naar het lichaam doorsturen.

00:35.250 --> 00:39.990
En dat is precies wat we gaan doen met deze voorwaartse functie, de laatste functie van ons

00:39.990 --> 00:40.410
lichaam.

00:41.300 --> 00:42.200
Dus laten we dit doen.

00:42.710 --> 00:49.820
We beginnen met Jeff Ford en volgens u, welk argument gaat het kosten?

00:50.180 --> 00:54.740
Wel, er is eerst een kracht voor nodig, en dan is er nog een?

00:55.070 --> 00:56.570
Nou ja, die is er.

00:56.690 --> 00:57.800
En wat gaat het worden?

00:58.160 --> 01:04.490
Nou, heel natuurlijk willen we het uitgangssignaal van de hersenen naar het lichaam sturen en daarom zal de

01:04.490 --> 01:07.040
ingang het uitgangssignaal van de hersenen zijn.

01:07.670 --> 01:10.250
En dus moeten we deze uitgangssignalen nu een naam geven.

01:10.430 --> 01:14.000
En dus ga ik hier het argument toevoegen.

01:14.390 --> 01:14.990
Oke.

01:15.020 --> 01:21.590
Dat komt overeen met de uitgangssignalen van de hersenen nadat de invoerbeelden door alle hersenen zijn gepropageerd om de uitgangslaag

01:21.590 --> 01:26.880
te bereiken, wat X hier is, keert terug door de voorwaartse functie van de hersenen.

01:27.200 --> 01:32.420
En nu zal dit uitgangssignaal van de hersenen naar het lichaam worden doorgestuurd met deze nieuwe voorwaartse functie

01:32.420 --> 01:34.540
die we in de volgende les maken.

01:35.360 --> 01:36.260
Dus laten we dit doen.

01:36.560 --> 01:38.330
Laten we hier wat kleur aan toevoegen.

01:38.660 --> 01:43.870
En nu, zoals je hebt begrepen, gaan we een softmax-methode gebruiken om de actie te spelen.

01:43.880 --> 01:49.430
Dat betekent dat het lichaam van onze A. L. , zal na ontvangst van de uitgangssignalen van de

01:49.430 --> 01:51.080
hersenen de acties spelen met de softmax-techniek.

01:51.290 --> 01:56.140
Dus eigenlijk moeten we nu precies hetzelfde doen als wat we deden voor de zelfrijdende auto.

01:56.450 --> 01:59.130
We krijgen onze kansverdeling.

01:59.390 --> 02:00.380
Dat is de eerste stap.

02:00.620 --> 02:05.570
En dan gaan we een actie bemonsteren volgens deze kansverdeling.

02:05.810 --> 02:11.480
Dus wat we nu eigenlijk zouden kunnen doen, is ons bestand met zelfrijdende auto's ophalen en kopiëren en plakken wat we hebben

02:11.480 --> 02:14.330
geïmplementeerd voor de functie Select Action in de zelfrijdende auto.

02:14.690 --> 02:15.610
Maar laten we het nog een keer doen.

02:15.620 --> 02:19.190
Het zal een goede oefening zijn en eigenlijk kun je proberen het voor mij te typen.

02:20.000 --> 02:23.330
Oké, dus eerst, wat we gaan doen is onze kansen krijgen.

02:23.750 --> 02:29.480
Dus ik stel me voor dat dit een verdeling van kansen is voor elk van de kernwaarden die afhankelijk zijn van

02:29.480 --> 02:31.690
de invoer, het beeld en elke actie.

02:31.700 --> 02:38.060
We hebben dus één sleutelwaarde voor elk van de zes of zeven mogelijke acties en daarom krijgen we de

02:38.060 --> 02:39.530
verdeling van zeven kansen.

02:39.710 --> 02:44.900
Ik zeg zeven omdat ik denk dat er zeven acties zijn in plaats van zes, want

02:44.900 --> 02:48.110
naast links, rechts of schieten kunnen we ook rennen.

02:48.150 --> 02:53.840
Dat maakt zeven mogelijke acties en daarom krijgen we een verdeling van zeven kansen, één voor elke

02:53.840 --> 02:56.470
waarde die aan elke actie is gekoppeld.

02:57.140 --> 02:58.670
Dus rekwisieten zijn gelijk aan.

02:58.850 --> 03:00.380
En onthoud nu wat we moeten doen.

03:00.680 --> 03:06.200
Nou, eigenlijk moeten we de softmax-functie van de functionele module gebruiken.

03:06.480 --> 03:07.310
Dus dat is heel eenvoudig.

03:07.310 --> 03:13.630
We nemen eerst onze functionele module, dan DOUT, en dan onze softmax-functie.

03:13.640 --> 03:14.210
Hier is het.

03:14.450 --> 03:22.070
We drukken op enter en nu voeren we de argumenten van de softmax-functie in, waarvan ik eraan herinner dat het de

03:22.070 --> 03:25.040
elementen zijn waarvoor je een kansverdeling wilt maken.

03:25.340 --> 03:31.520
En dat zijn natuurlijk de kernwaarden, dat zijn de uitgangen van het neurale netwerk, dat zijn de

03:31.520 --> 03:35.630
uitgangen van het neurale netwerk waarvoor je een kansverdeling wilt maken.

03:35.810 --> 03:41.210
En ik herinner eraan dat we deze kansverdeling willen creëren om de verschillende acties te kunnen onderzoeken

03:41.210 --> 03:45.530
in plaats van direct degene te kiezen die de maximale waarde heeft.

03:45.830 --> 03:50.990
Als we direct degene kiezen die de maximale waarde heeft waar we niet veel onderzoeken, de

03:51.200 --> 03:57.230
andere acties en we misschien iets missen, maar met de softmax-methode, kunnen we wat meer verkennen en daarom misschien

03:57.230 --> 04:01.100
wat verborgen oplossingen in de patronen vinden dat kan veel beter.

04:01.730 --> 04:08.000
Dus nogmaals, ik raad softmax ten zeerste aan en daarom moeten we nu de waarden invoeren die hier

04:08.000 --> 04:10.940
onze output zijn, de output van onze hersenen.

04:11.300 --> 04:13.580
Dus uitgangen die we gaan.

04:13.820 --> 04:20.570
Maar dan hebben we deze temperatuurparameter die we kunnen gebruiken, die we kunnen configureren om de verkenning aan

04:20.570 --> 04:21.340
te passen.

04:21.560 --> 04:27.170
Onthoud dat hoe hoger we de temperatuur instellen, hoe minder verkenning van de andere acties die we

04:27.170 --> 04:32.870
zullen doen, omdat de beste actie met een hogere waarschijnlijkheid zal worden geselecteerd in tegenstelling tot de andere

04:32.870 --> 04:35.540
acties die met lagere waarschijnlijkheden zullen worden geselecteerd.

04:35.850 --> 04:41.780
Dat is precies hetzelfde als voor de zelfrijdende auto en daarom moeten we de output hier

04:41.780 --> 04:43.520
vermenigvuldigen met onze temperatuurparameter.

04:43.670 --> 04:44.630
Salvati.

04:45.540 --> 04:46.140
Dan gaan we.

04:47.110 --> 04:47.680
Perfect.

04:47.810 --> 04:52.930
Nu krijgen we een kleine waarschuwing omdat we nog geen rekwisieten hebben gebruikt, maar we staan op het punt het nu te gebruiken.

04:53.080 --> 04:55.260
En dat brengt ons bij het volgende dat we moeten doen.

04:55.390 --> 04:57.490
Hoe gaan we deze kansen gebruiken?

04:57.760 --> 05:03.250
Welnu, we gaan een voorbeeld nemen van de laatste actie die moet worden gespeeld uit deze kansverdeling.

05:03.580 --> 05:10.030
En daarom moeten we nu de multinomiale functie gebruiken om de actie te bemonsteren

05:10.030 --> 05:11.740
volgens deze kansverdeling.

05:12.220 --> 05:14.490
Dus nu zijn we klaar om onze acties te ondernemen.

05:15.040 --> 05:20.110
Dus ik maak hier een nieuwe variabele omdat dat de acties worden die door de body van onze A worden

05:20.110 --> 05:21.080
gespeeld. L..

05:21.340 --> 05:29.290
En dus nemen we nu onze verdeling van kansen, probs waaraan we punten toevoegen en dan

05:29.530 --> 05:31.310
de multi Gnomeo-methode.

05:32.080 --> 05:32.680
Oke.

05:32.680 --> 05:34.870
En nu krijgen we onze laatste acties om te spelen.

05:34.870 --> 05:37.630
Ze zijn samengesteld uit onze rekwisietendistributie.

05:38.200 --> 05:39.410
Oke perfect.

05:39.430 --> 05:42.200
Dus nu zijn we klaar om terug te geven wat we willen.

05:42.220 --> 05:44.150
Dat zijn de acties om te spelen.

05:44.500 --> 05:46.680
En dat zijn natuurlijk acties.

05:46.930 --> 05:48.460
En nu zou de waarschuwing moeten verdwijnen.

05:48.670 --> 05:50.050
We gebruiken alles wat we willen.

05:50.290 --> 05:50.940
Daar gaan we.

05:51.130 --> 05:51.670
Perfect.

05:52.090 --> 05:55.480
Dus nu is de voorwaartse functie klaar en gefeliciteerd.

05:55.660 --> 05:57.010
Het lichaam is er ook klaar voor.

05:57.400 --> 06:03.250
Dus nu hebben we onze hersenen, we hebben ons lichaam, en daarom zijn we klaar om ze te assembleren om de toekomstige A

06:03.250 --> 06:05.160
te maken. L. onze toekomst.

06:05.170 --> 06:08.560
Ik zal uit niets anders bestaan dan een brein, wie dan ook.

06:08.770 --> 06:14.080
En dus zal het intelligentie en een lichaam hebben om de acties uit te voeren, wat de juiste acties zullen

06:14.080 --> 06:16.240
zijn om te spelen dankzij zijn intelligentie.

06:16.510 --> 06:22.010
Maar onthoud, voordat we zijn intelligentie moeten trainen en dat is wat we gedeeltelijk zullen doen om de AI

06:22.030 --> 06:24.190
te trainen met diep, convolutief en lerend.

06:25.000 --> 06:25.420
Oke.

06:25.420 --> 06:31.600
Dus laten we in de volgende tutorials maken dat het weer een klasse van twee functies wordt, denk ik.

06:31.720 --> 06:34.240
En dus vereist deze twee of drie tutorials.

06:34.540 --> 06:35.450
Dus ik kan niet wachten.

06:35.560 --> 06:36.630
Dit wordt spannend.

06:36.640 --> 06:38.230
En tot die tijd, geniet van I.
