WEBVTT

00:00.210 --> 00:07.770
Hallo en welkom bij de derde module van het discours, de H3C, asynchrone actieve agenten, en dus kan ik

00:07.770 --> 00:11.520
nu echt welkom zijn bij de ultramoderne machine learning.

00:12.030 --> 00:16.500
Op dit moment zeg ik dit omdat misschien sommigen van jullie de cursus over een of twee jaar zullen volgen.

00:16.500 --> 00:19.740
Maar op dit moment zeg ik dit in zeventienentwintig.

00:20.010 --> 00:25.230
Nou, je staat op het punt om te werken aan een van de krachtigste modellen in kunstmatige intelligentie, maar er

00:25.230 --> 00:28.380
is meer dat niet het enige speciale is aan deze module.

00:28.680 --> 00:35.190
We gaan niet alleen met het krachtigste model werken, maar we gaan ook de krachtigste versie van

00:35.190 --> 00:43.110
dit algoritme implementeren, dat is de meest geoptimaliseerde versie, geïmplementeerde versie van het model, omdat je je kunt voorstellen dat er

00:43.110 --> 00:46.830
het hart van de een weg door het algoritme.

00:47.070 --> 00:50.540
Maar dan zijn er nog een heleboel tools die we kunnen gebruiken om het hele model te optimaliseren.

00:50.790 --> 00:55.680
En dus ga je niet alleen het hart van het algoritme hebben, maar we gaan ook

00:55.680 --> 00:59.120
al deze tools eromheen implementeren om het model superkrachtig te maken.

00:59.490 --> 01:01.240
En waarom wilde ik dat doen?

01:01.410 --> 01:02.720
Nou, dat heeft twee redenen.

01:02.970 --> 01:06.000
De eerste reden is dat we het einde van het discours naderen.

01:06.150 --> 01:10.140
Discourse is de cursus van het hoogste niveau tussen de drie cursussen van Emelle.

01:10.230 --> 01:14.060
En dat is het, dus nu denk ik dat je klaar bent om het naar een hoger niveau te tillen.

01:14.190 --> 01:18.700
En de tweede reden is dat het oplossen van een uitbraak eigenlijk een enorme uitdaging is.

01:19.080 --> 01:24.210
Onthoud dat we in de promovideo breakouts als de eerste module wilden plaatsen omdat we dachten dat dit de

01:24.210 --> 01:26.340
gemakkelijkste uitdaging zou zijn, maar helemaal niet.

01:26.490 --> 01:28.430
Het was eigenlijk de moeilijkste uitdaging.

01:28.710 --> 01:34.800
Een gemakkelijke manier om dit uit te leggen is dat, nou ja, in Doom, de monsters groot zijn en daarom gemakkelijker te

01:34.800 --> 01:37.380
detecteren en daarom gemakkelijker te doden of te stemmen.

01:37.680 --> 01:44.100
Maar bij een uitbraak hebben we deze kleine bal die de lucht ook moet detecteren, omdat de lucht hier nog steeds

01:44.100 --> 01:44.870
ogen heeft.

01:44.880 --> 01:47.420
We gaan nog steeds diepgaand leren.

01:47.790 --> 01:49.530
Het is dus eigenlijk super uitdagend.

01:49.710 --> 01:55.480
En daarom hebben we niet echt een keuze om de krachtigste versie van de actrice te implementeren.

01:55.950 --> 01:58.890
Waarom zeg ik dat dit de krachtigste versie is?

01:59.010 --> 02:00.260
Dat is om een bepaalde reden.

02:00.270 --> 02:04.680
Het is niet zo dat ik zeg dat ik de krachtigste versie van de aarde ga implementeren.

02:05.310 --> 02:06.180
Nu, dit is het niet.

02:06.360 --> 02:11.490
De reden dat ik dit zeg, is dat de versie die we op het punt stonden te implementeren

02:11.490 --> 02:17.940
en dit is iets heel speciaals dat we gaan doen, eigenlijk een versie van de 3C is die door iemand is geïmplementeerd, maar

02:18.060 --> 02:23.850
is gecorrigeerd door een van de meest invloedrijke mensen in machine learning vandaag, die toevallig de maker is van PI

02:23.850 --> 02:24.290
Torch.

02:24.630 --> 02:26.580
Zijn naam is Adam Pascha.

02:27.480 --> 02:31.820
Dus nu gaan we doen, we gaan op GitHub op de hoofdpagina van PI torch.

02:32.100 --> 02:38.790
En als je naar het einde scrolt, naar beneden, zie je het team, het team van

02:38.790 --> 02:40.440
fakkelmakers en bijdragers.

02:40.650 --> 02:45.240
En je kunt hier zien dat PI torch momenteel wordt onderhouden door Adam Pascha.

02:45.570 --> 02:51.370
Dat is de persoon voor wie we echt dankbaar moeten zijn, want er zijn maar heel weinig versies van de theorie die goed

02:51.420 --> 02:52.960
werken om uit te breken.

02:53.040 --> 02:57.790
En hij corrigeerde een van de codes voor het ABC om breakout perfect te laten werken.

02:58.320 --> 03:03.390
Dus Adam Pascha onderhoudt niet alleen PI torch, maar hij is ook een van de creatieve PI torch.

03:03.510 --> 03:07.820
En zoals ik vandaag al zei, hij staat in de top 10 van meest invloedrijke mensen in machines.

03:08.070 --> 03:13.440
We kunnen er dus zeker van zijn dat de versie die we op het punt stonden te implementeren waarschijnlijk de krachtigste versie van de aarde is

03:13.440 --> 03:14.460
die we vandaag zien.

03:15.060 --> 03:17.280
En wat is deze implementatie dan?

03:17.610 --> 03:22.670
Nou, oorspronkelijk komt het van een ontwikkelaar genaamd EYLEA Kusturica.

03:23.010 --> 03:28.830
En dus, zoals je kunt zien, volgde hij een pad naar implementatie van de actrice, die oorspronkelijk niet goed

03:28.830 --> 03:29.940
werkte voor Breakout.

03:30.240 --> 03:32.780
Maar toen deed iemand een slecht verzoek.

03:32.790 --> 03:37.860
Als we hier naar het zwembadverzoek gaan, kunnen we in de nabije zien dat we daar gaan.

03:37.860 --> 03:40.790
We hebben deze, een schonere oplossing voor het probleem van Gretchen.

03:41.010 --> 03:43.380
En raad eens van wie dit arme verzoek werd gedaan?

03:43.800 --> 03:47.040
Het is gemaakt van Adam Pascha, gemaakt door Torch.

03:47.370 --> 03:53.460
En dat loste het probleem op waardoor de aarde echt heel goed werkte bij uitbraak zonder dagen en dagen

03:53.460 --> 03:54.270
te wachten.

03:55.020 --> 04:01.500
En daarom, als we teruggaan naar deze implementatie, kunnen we de vier bijdragers van deze meest krachtige

04:01.500 --> 04:04.410
implementatie zien en hier zijn de bijdragers.

04:04.440 --> 04:06.330
Dus heel erg bedankt aan hen allemaal.

04:06.480 --> 04:12.370
En we kunnen Adam Bashkim enorm en speciaal bedanken voor het oplossen van het probleem met het netwerk en het delen.

04:12.690 --> 04:18.030
Hij begon met het maken van een fork, een subtak van de code, en deed vervolgens een pull-verzoek

04:18.030 --> 04:20.910
aan de ontwikkelaar om dit probleem op te lossen.

04:20.910 --> 04:26.730
Er zat in de code, wat een groot probleem is om te delen, en zo werd hij een belangrijke

04:26.730 --> 04:30.000
bijdrage aan deze implementatie, waardoor het hele ding perfect werkte.

04:30.450 --> 04:36.240
En geloof me, ik heb veel geëxperimenteerd met het model, ik heb zelfs vijf modellen geïmplementeerd.

04:36.240 --> 04:38.160
Ik was zelfs wanhopig dat het niet goed werkte.

04:38.160 --> 04:43.380
Dus maakte ik mijn eigen breakouts op Cavey om een grotere bal te hebben en dus een gemakkelijkere verwerking van de

04:43.380 --> 04:43.890
afbeeldingen.

04:44.170 --> 04:51.150
Toen ging ik terug om de bon te openen en maakte mijn eigen implementatie van de bon, maar dat duurde eeuwen om op een behoorlijk krachtige

04:51.150 --> 04:53.010
computer te rennen en te trainen.

04:53.310 --> 04:54.960
Dus ik wilde een betere manier vinden.

04:55.200 --> 04:56.720
En zo is het.

04:56.730 --> 04:59.340
Deze zeer krachtige uitvoering van de A3.

04:59.340 --> 04:59.630
Eenvoudig.

04:59.700 --> 05:03.850
Een van de belangrijkste bijdragers is de maker van door Torch.

05:04.470 --> 05:10.920
Dus wat we in deze module gaan doen, ik denk dat je daar klaar voor bent, is deze code op het hoogste

05:10.920 --> 05:13.550
niveau implementeren voor de implementatie van het ABC.

05:13.920 --> 05:19.740
Dus we gaan eigenlijk al deze bestanden implementeren en we zullen vooral aandringen op de bestanden die direct gerelateerd

05:19.740 --> 05:25.500
zijn aan de ATC voor alle delen die direct gerelateerd zijn aan het ABC, we zullen de code regel

05:25.500 --> 05:27.670
voor regel implementeren voor de anderen.

05:27.690 --> 05:33.240
Ik zal alleen de code uitleggen, zodat we dit moeten kunnen aanpakken zonder het te overweldigend te vinden,

05:33.720 --> 05:36.030
zodat we een nogal speciale module gaan.

05:36.030 --> 05:41.640
Niet alleen werken we aan het state of the art model van A. L. , maar ook op het moment dat ik

05:41.640 --> 05:45.360
spreek, heb ik er alle vertrouwen in dat we de krachtigste versie van de actrice implementeren.

05:45.930 --> 05:46.930
Dus laten we het doen.

05:46.950 --> 05:53.280
Laten we teruggaan naar Python en laten we met dit alles beginnen voordat we beginnen, we gaan het meest eenvoudige doen wat

05:53.280 --> 05:56.550
we in deze module gaan doen, het instellen van de werkmapmap.

05:56.860 --> 06:02.430
Dus laten we naar onze A gaan. L. is een sjabloonmap, module drie, breek de meest uitdagende uit.

06:02.760 --> 06:04.880
En dan gaan we, dat zijn al onze bestanden.

06:05.130 --> 06:08.820
Dus laten we eens kijken welke direct gerelateerd zijn aan ATC.

06:08.970 --> 06:14.090
Laten we dus eens kijken welke we regel voor regel gaan implementeren en onze energie daarop richten.

06:14.700 --> 06:16.050
Er zijn dus eigenlijk twee bestanden.

06:16.320 --> 06:19.410
De eerste is in de war, en dat is deze.

06:19.410 --> 06:22.860
Dus we zullen regel voor regel opnieuw implementeren, want dat is het belangrijkste.

06:22.860 --> 06:25.200
Daar maken we de H3C-hersenen.

06:25.350 --> 06:30.510
En het belangrijkste om hier te begrijpen is dat we een gedeeld model zullen hebben met

06:30.510 --> 06:34.100
dezelfde update van de gewichten voor de acteur en de criticus.

06:34.140 --> 06:39.000
Dat is dus een onderdeel van de speciale versie van de H3C, het gedeelde model met de gedeelde update van de

06:39.000 --> 06:39.350
gewichten.

06:39.930 --> 06:46.920
En dan is het andere belangrijkste bestand dat we regel voor regel zullen implementeren de getrainde die is gevonden, natuurlijk

06:47.130 --> 06:50.970
direct nadat we de hersenen van de C hebben gemaakt.

06:51.360 --> 06:55.680
We moeten ze trainen en we trainen ze in deze trein die we hebben gevonden.

06:56.040 --> 06:57.420
Dit is dus een behoorlijk lange code.

06:57.690 --> 07:04.440
Maar dit is wat het hart van het ATC-model bevat, dat twee verliezen zal hebben om het waardeverlies

07:04.440 --> 07:11.010
te verminderen, namelijk het verlies gerelateerd aan de voorspellingen van de criticus en het beleidsverlies, dat is het

07:11.010 --> 07:14.380
verlies gerelateerd aan de voorspellingen van een ramp.

07:14.700 --> 07:15.690
Dit is dus vrij nieuw.

07:15.690 --> 07:21.140
Maar, weet je, dat komt omdat we in de jaren 80 eigenlijk met verschillende agenten werkten, elk met hun

07:21.150 --> 07:22.920
eigen kopie van de omgeving.

07:23.040 --> 07:28.530
Maar we hebben ook deze volledig verbonden laag die een waarde van de V-functie uitvoert, en dat is in feite een

07:28.530 --> 07:31.020
algemene visie op wat er in het spel gebeurt.

07:31.440 --> 07:33.920
Dit zal dus een behoorlijke uitdaging zijn.

07:34.080 --> 07:35.520
Zorg dus voor een goede conditie.

07:36.300 --> 07:42.420
En voor de rest van de bestanden, nou, ik zal ze gewoon in detail uitleggen, maar niet door er te veel tijd aan

07:42.420 --> 07:43.200
te besteden.

07:43.210 --> 07:45.550
Geloof me, hier wil je je energie voor houden.

07:45.690 --> 07:47.020
Dit zal al veel zijn.

07:47.040 --> 07:55.200
Deze bestanden zijn dus goedkoop, wat een verbetering is van de sportschoolomgeving dankzij Univers.

07:55.380 --> 07:59.850
Dus eigenlijk verbeteren Phalangisten gewoon de sportschoolomgeving met het universum en dat stelt

07:59.850 --> 08:05.880
ons in staat om een optimale voorbewerking van de beelden te hebben en ook om alle waarden

08:06.000 --> 08:10.110
van de omgeving te normaliseren, zoals de kleurintensiteiten of de beloningsintensiteiten.

08:10.110 --> 08:11.820
Nou ja, alle waarden van het milieu.

08:12.150 --> 08:17.670
Dit bestand normaliseert al deze waarden en zorgt ook voor een optimale voorbewerking van de afbeeldingen.

08:18.000 --> 08:24.480
En zoals je kunt zien, is dit afkomstig van deze open GitHub-pagina waar de universum-Storrar-agent.

08:24.690 --> 08:27.360
We zullen hier dus niet al te veel tijd aan besteden.

08:27.360 --> 08:28.560
We zullen hier echt stoppen.

08:28.740 --> 08:35.160
Je hoeft alleen maar te begrijpen dat we met Univers de sportschoolomgeving verbeteren om een optimale voorbewerking van de beelden

08:35.160 --> 08:36.030
te krijgen.

08:36.300 --> 08:39.380
De rest is niet zo belangrijk, zeker niet voor het ABC.

08:40.170 --> 08:44.910
Dan hebben we main die pivo, de code die het hele ding zal uitvoeren.

08:45.060 --> 08:49.600
Dus, weet je, de code die het hele ding regelt, de hersenen creëert, de hersenen traint en de

08:49.600 --> 08:50.160
video's uitvoert.

08:50.160 --> 08:53.490
En dat komt omdat het al deze codes hier zal uitvoeren.

08:54.210 --> 08:56.700
Dus model, we zagen wat het toen was.

08:56.700 --> 08:59.910
Mijn upturned API is een speciale optimizer.

09:00.210 --> 09:06.000
Dat is eigenlijk de atom-optimizer, maar aangepast aan dit gedeelde model dat we implementeren.

09:06.120 --> 09:08.640
Dus we zullen al deze code in één tutorial uitleggen.

09:09.150 --> 09:16.290
Dan hebben we de test die eigenlijk de laatste is om te testen API is in feite het bestand dat een testagent

09:16.290 --> 09:17.220
zal implementeren.

09:17.370 --> 09:22.170
Dat is dus een agent die doorbraak speelt zonder het model bij te werken.

09:22.350 --> 09:24.510
Dat staat dus volledig los van de opleiding.

09:24.660 --> 09:27.210
En we zullen deze code ook in detail uitleggen.

09:27.390 --> 09:33.570
Trouwens, het goede nieuws is dat je twee codes zult hebben, één code, de code die we implementeren

09:33.570 --> 09:35.820
en de tutorials, maar zonder commentaar.

09:36.090 --> 09:40.450
En een van de code die een van de codemap is met alle codes, beveelt het.

09:40.560 --> 09:47.070
Dus met al deze zes bestanden, zal ik het verwelkomen, zodat als je iets mist in een tutorial, je in staat zult zijn om naar

09:47.070 --> 09:50.750
de opdrachtcode te kijken om te begrijpen wat er aan de hand is.

09:51.060 --> 09:51.950
Dus daar gaan we.

09:51.990 --> 09:54.360
Ik hoop dat je enthousiast bent om dit te implementeren.

09:54.360 --> 09:58.980
Je bent nu echt op de top van de berg of net onder de top omdat je dit eerst moet

09:58.980 --> 09:59.220
begrijpen.

09:59.580 --> 10:05.140
Maar je komt er om een goede adem van zuurstof te nemen en daar gaan we voor deze super spannende reis.

10:05.520 --> 10:07.230
Tot die tijd, geniet van I.
