WEBVTT

00:00.990 --> 00:03.850
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:03.940 --> 00:10.680
Vandaag vervolgen we onze reis naar de wereld van E3 en we hebben het over de asynchrone kant van

00:10.680 --> 00:11.190
Athersys.

00:11.190 --> 00:14.100
Dus ze hebben een afkorting, een synchroon voordeel, acteur, criticus.

00:14.250 --> 00:18.780
En vandaag gaan we uitzoeken waar een Synchronoss hier voor staat, wat het betekent.

00:18.960 --> 00:20.930
En laten we een stap teruggaan.

00:20.940 --> 00:23.760
Laten we eens kijken waar we deze hele cursus mee zijn begonnen.

00:23.760 --> 00:28.680
We zijn begonnen met versterkend leren en waar het allemaal om gaat dat de Aziaat zich in een bepaalde staat bevindt.

00:29.280 --> 00:30.660
Ze observeren de staat.

00:30.660 --> 00:32.550
Ze nemen bepaalde beslissingen.

00:32.550 --> 00:36.670
Ze ondernemen acties in die staat, en dan wordt de staat veranderd.

00:36.670 --> 00:37.620
Zo komen ze in een nieuwe staat.

00:37.620 --> 00:38.820
Bovendien krijgen ze een beloning.

00:39.030 --> 00:45.420
Dus ze krijgen een beloning voor het ondernemen van die actie of een soort beloning, wat ook een straf kan zijn.

00:45.900 --> 00:47.730
En ze komen in een nieuwe staat terecht.

00:47.730 --> 00:50.190
En op basis daarvan ondernemen ze nu weer een andere actie.

00:50.190 --> 00:53.760
Ze krijgen een beloning en komen in een nieuwe staat terecht en doen verkiezingen en ga zo maar door.

00:54.360 --> 00:59.580
En dat is dus de basis achter al het versterkende leren.

00:59.580 --> 01:05.820
En dat is wat we hebben gebruikt bij het leren, bij diep leren, bij diep, convolutief Q-leren.

01:05.820 --> 01:10.500
En dat heeft onze agenten in staat gesteld om geleidelijk complexere en complexere omgevingen te verslaan.

01:10.650 --> 01:17.880
Maar nu gaan we een nog beter concept introduceren en dit nog verder naar een hoger niveau tillen.

01:18.660 --> 01:26.100
Wat H3C via dit en Synchronoss-element introduceert, is dat in plaats van dat één agent de omgeving aanvalt,

01:26.640 --> 01:33.960
ze drie agenten hebben of een willekeurig aantal agenten of meerdere agenten die dezelfde omgeving aanvallen.

01:34.140 --> 01:39.300
En de sleutel hier is waarom het een synchronisatie wordt genoemd, omdat ze anders worden geïnitialiseerd.

01:39.300 --> 01:40.830
Hun uitgangspunten zijn dus verschillend.

01:40.840 --> 01:46.500
Dus, zoals u in de praktijk zult zien, stelt u bijvoorbeeld een willekeurige seed in en stelt u deze voor elk van

01:46.500 --> 01:47.700
de agenten anders in.

01:47.880 --> 01:53.130
En op die manier, omdat hun uitgangspunten anders zijn, gaan ze eerst op verschillende manieren door omgevingen

01:53.130 --> 01:55.710
en dan gaan ze op verschillende manieren verkennen.

01:55.710 --> 01:58.530
En in de volgende iteratie gaan ze ook op verschillende manieren verkennen.

01:58.530 --> 02:00.120
En zo hebben we bijvoorbeeld drie agenten.

02:01.080 --> 02:06.330
Je krijgt ineens drie keer zoveel ervaring in plaats van dat er slechts één agent

02:06.330 --> 02:12.120
doorheen gaat en de omgeving verkent en probeert te begrijpen hoe je in die omgeving moet werken, je

02:12.450 --> 02:17.700
hebt nu drie of hoeveel van hen die daar doorheen gaan , deze ervaring opdoen.

02:17.700 --> 02:23.640
En dus zijn ze zo dat elk van hen leert van deze grotere ervaring, behalve dat ze gewoon

02:23.640 --> 02:25.740
een breder scala aan ervaring geven.

02:25.740 --> 02:31.260
Het verkleint ook de kans dat een agent vast komt te zitten in een lokaal maximum.

02:31.290 --> 02:37.380
Dus, bijvoorbeeld, als een agent een manier vindt om de omgeving te verslaan, wat niet de meest optimale is,

02:37.530 --> 02:42.510
want als hij van de gevonden oplossing naar links naar rechts wijkt, wordt hij altijd

02:42.510 --> 02:43.410
meer gestraft.

02:43.410 --> 02:45.300
Het kan vastlopen in dat lokale maximum.

02:45.480 --> 02:49.320
Het kan dat gewoon blijven doen, denkend dat dat de optimale oplossing is, waar het dat eigenlijk niet is.

02:49.560 --> 02:58.770
Welnu, de kans dat meerdere agenten vast komen te zitten in datzelfde lokale maximum, neemt af of toe met het aantal

02:58.770 --> 02:59.670
agenten.

02:59.670 --> 03:05.250
De kans dat een agent vast komt te zitten in een bepaald lokaal maximum kan dus groot zijn.

03:05.310 --> 03:07.830
Maar of het misschien een bepaalde waarde is.

03:08.040 --> 03:11.670
Maar de kans als je er drie hebt, dat ze alle drie vast komen te zitten in dat lokale

03:11.670 --> 03:12.450
maximum is veel kleiner.

03:12.870 --> 03:17.940
En zolang ze ervaringen met elkaar delen, kunnen ze elkaar helpen.

03:17.980 --> 03:22.590
Als een van hen vastloopt, bijvoorbeeld, zit vast in een lokaal maximum, zou gewoon denken dat dat de

03:22.590 --> 03:23.190
beste is.

03:23.190 --> 03:27.210
Dat is het beste, dat is altijd de beste oplossing en blijft dat goed doen zolang het samenwerkt met

03:27.210 --> 03:28.050
de andere agenten.

03:28.050 --> 03:33.000
Dus laten we zeggen dat deze man vast komt te zitten in een local en zolang het met andere

03:33.000 --> 03:37.560
agenten door de weg sleept, bouwen we ons hele algoritme door en zij zullen hem helpen.

03:37.560 --> 03:42.030
Ze zullen hem kennis geven die eigenlijk, weet je, hey, je zou dit moeten onderzoeken, anders

03:42.180 --> 03:44.430
is de kans groter dat hij eruit komt.

03:44.610 --> 03:49.770
En ook, over het algemeen, zal de omgeving weten dat, hey, ook al is dit een geweldig maximum, deze andere

03:49.770 --> 03:53.700
agenten hebben betere opties gezien en we moeten blijven verkennen omdat ze er zijn.

03:53.700 --> 03:54.930
Het lijkt erop dat het betere opties zijn.

03:55.110 --> 04:00.690
Dus in een heel kort, soort ruw, intuïtief begrip, dat zijn enkele van de voordelen van het

04:00.690 --> 04:02.460
hebben van deze asynchrone agenten.

04:02.460 --> 04:05.730
Allereerst heb je meer ervaring om uit te kiezen en van te leren.

04:06.090 --> 04:07.890
Je zou sneller tot de oplossing kunnen komen.

04:08.310 --> 04:16.260
En over het algemeen is de kans kleiner dat je vast komt te zitten in een bepaald lokaal maximum.

04:16.620 --> 04:20.670
Dus laten we eens kijken hoe dit allemaal uitpakt in dit model dat we tot nu toe hebben gebouwd.

04:20.670 --> 04:24.720
Dus zoals ik me herinner, is dit wat we tot nu toe hebben gekregen door de extra criticus.

04:25.050 --> 04:26.700
En dit is alsof we allemaal tisane zijn.

04:26.700 --> 04:29.160
Dit is voor zover u zich herinnert uit de procedure.

04:29.400 --> 04:30.630
Dit hebben we wel geïntroduceerd.

04:30.630 --> 04:32.950
Weet je, we hadden dit al in diepe staat.

04:32.950 --> 04:33.660
V Leren.

04:33.660 --> 04:38.700
Dus we noemden nu actie, maar nu hebben we criticus geïntroduceerd, maar tot nu toe is het niet echt logisch.

04:38.700 --> 04:43.800
Wat heeft het voor zin om deze criticus te hebben en de waarde van de staat te meten

04:43.800 --> 04:47.850
of de waarde van een podium te voorspellen met dezelfde neurale netwerken, dezelfde benadering.

04:48.450 --> 04:51.690
Maar dit is nu het deel waar het logischer begint te worden.

04:52.350 --> 04:56.820
Wat we gaan doen is dit repliceren omdat we nu meerdere agenten hebben.

04:56.820 --> 04:59.310
Dus als er meerdere agenten zijn, is dit hoe het eruit zag.

04:59.310 --> 04:59.700
Dus.

05:00.720 --> 05:05.100
De eerste manier om je het voor te stellen is dat we nu deze drie dingen hebben.

05:05.130 --> 05:09.160
Nou, onthoud wat we zeiden over het delen van de ervaring met elkaar.

05:09.180 --> 05:12.190
Dus dit is nu eigenlijk, ze zijn allemaal onafhankelijk.

05:12.210 --> 05:15.350
Je hebt een die het spel speelt, een andere die het spel speelt, een andere speler in het spel.

05:15.400 --> 05:19.440
Het is alsof je je agent op drie verschillende computers start.

05:19.440 --> 05:21.630
Je zet drie verschillende computers naast elkaar en je start ze op.

05:21.780 --> 05:22.980
En weet je, dat is geweldig.

05:22.980 --> 05:27.260
Zoals, inderdaad, als je het leuk vindt, krijg je meer ervaring.

05:27.300 --> 05:29.740
Je krijgt meer variatie, vooral als ze eerder zijn geïnitialiseerd.

05:29.760 --> 05:31.880
Dus vanaf hier gaan we ervan uit dat ze allemaal initieel zijn.

05:31.890 --> 05:36.300
Ik heb altijd anders geïnitialiseerd, ook al hebben we hier dezelfde afbeelding, we zullen weten dat

05:36.330 --> 05:37.830
ze eigenlijk anders zijn geïnitialiseerd.

05:37.830 --> 05:43.020
Dus het zal niet hetzelfde zijn als identieke training, identiek leren van dit spel.

05:43.800 --> 05:47.100
Dus zelfs als je wilt, zet je drie computers naast elkaar en start je ze op.

05:47.100 --> 05:54.210
Ja, je zult meer ervaring hebben omdat er drie agenten spelen en je zult

05:54.210 --> 05:58.520
ook een grotere verscheidenheid aan mogelijke oplossingen hebben.

05:58.530 --> 06:00.030
Dus dat is waar.

06:00.040 --> 06:03.780
Maar het probleem is dat ze die ervaring niet met elkaar delen, dus leren ze niet van

06:03.780 --> 06:04.050
elkaar.

06:04.050 --> 06:06.770
Die synergie hebben ze dus niet.

06:06.780 --> 06:11.400
Ze hebben niet het voordeel of de extra macht die ze zouden krijgen als ze zouden samenwerken.

06:11.400 --> 06:16.980
Weet je, als je een team van mensen hebt, werken ze beter samen dan

06:16.980 --> 06:17.830
elk afzonderlijk.

06:17.850 --> 06:20.490
Dus zoals in een team hier, heb je één plus één plus één.

06:20.490 --> 06:21.150
Het is drie.

06:21.150 --> 06:25.950
Maar in een team is één plus één plus één niet drie zoals 33, omdat ze gebruik maken van

06:25.950 --> 06:28.050
elkaars sterke punten en elkaars zwakke punten verminderen.

06:28.290 --> 06:29.180
En hier hetzelfde.

06:29.190 --> 06:31.200
Dus als je dit naast elkaar door de computer zet.

06:31.200 --> 06:31.500
Ja.

06:31.500 --> 06:35.470
Je zult meer ervaring hebben, meer mooradian mogelijk met iemand om tot een betere oplossing te komen.

06:35.490 --> 06:36.000
Nog een.

06:36.150 --> 06:39.320
Dat is geweldig, maar het wordt nog beter als ze die ervaring gaan delen.

06:39.600 --> 06:41.040
En hoe doen ze dat?

06:41.050 --> 06:43.890
Wel, door deze film hebben we het berekend.

06:43.900 --> 06:49.130
Dus deze V-waarde, dat is onze output van ons netwerk, is eigenlijk zo.

06:49.470 --> 06:57.990
Dus ze hebben dezelfde V, dus elke keer dat al deze agenten bijdragen aan dezelfde criticus, hebben ze

06:57.990 --> 06:59.880
geen aparte critici.

06:59.880 --> 07:01.200
Ze hebben een gemeenschappelijke kritiek.

07:01.200 --> 07:05.820
En dat is de sleutel tot hoe de acteurscriticus aansluit bij hun Synchronoss.

07:06.180 --> 07:09.570
Er is dus één criticus die naar ons kijkt terwijl ze ervaring opdoen.

07:09.750 --> 07:15.840
Dus hoe berekenen we de V, we noemen het de V, zoals je je herinnert, we berekenen V door de waarden

07:16.380 --> 07:17.520
die we krijgen.

07:17.520 --> 07:20.670
Dus de beloningen die we krijgen via de omgeving.

07:20.670 --> 07:28.590
En terwijl de agenten hun omgeving verkennen, rekenen ze, voorspellen ze de V en hebben ze de V

07:28.590 --> 07:30.620
die ze kunnen berekenen.

07:30.660 --> 07:35.280
Dit is dit alles sluit weer aan bij wat we al hebben besproken in de vorige secties van de partituren.

07:35.730 --> 07:43.080
Dus ze hebben al een V die ze kunnen voorspellen zoals ze verwachten door de beloningen waarvan ze weten dat ze

07:43.080 --> 07:47.100
in dit doolhof bestaan en die ze al hebben verkend.

07:47.100 --> 07:49.590
En als ze ze onderzoeken, kan die waarde natuurlijk veranderen.

07:49.800 --> 07:53.390
Maar ze hebben ook de V dat deze V de output is van het neurale netwerk.

07:53.400 --> 08:00.210
Dus terwijl ze dit doormaken, gaan ze hun neurale netwerken aanpassen om beter overeen te komen met

08:00.210 --> 08:01.470
wat verwacht wordt.

08:01.500 --> 08:10.020
Dus eigenlijk is dit het delen van het kritieke deel dat wordt gedeeld tussen de agenten, en dat is hoe ze de informatie met

08:10.020 --> 08:11.130
elkaar delen.

08:11.130 --> 08:16.170
Op die manier kunnen ze een beetje zien wat er in de omgeving gebeurt, met elkaar delen

08:16.170 --> 08:23.700
en dat vervolgens gebruiken, zoals we in het volgende deel zullen zien, in hun voordeel om dat te gebruiken om te optimaliseren hoe ze zich

08:23.700 --> 08:25.130
gedragen in die omgeving.

08:25.560 --> 08:29.460
En het andere om op te merken is dat dit een Thrissur was.

08:29.460 --> 08:32.480
Dit is tot hier de kern van H3C.

08:33.030 --> 08:40.860
Dit is een type a-versie van A13, maar er is een nog betere implementatie van deze H3C, waarover je Adlen echt zult

08:40.860 --> 08:46.470
horen praten in een van de eerste materialen in de praktische kant van de dingen.

08:46.770 --> 08:54.030
En waar hij het over zal hebben, is hoe de maker van PI talk een aanpassing heeft gemaakt aan een van de

08:54.060 --> 08:58.320
codes die op GitHub werd gedeeld, waar hij deze allemaal heeft meegenomen.

08:58.320 --> 09:03.120
Zoals je nu kunt zien, hebben ze afzonderlijke neurale netwerken en vroeger zijn ze de V die de aanpassing

09:03.120 --> 09:08.670
was die eigenlijk was om al deze neurale netwerken te nemen en ze in één te stoppen, ze te nemen en ze samen

09:08.670 --> 09:09.260
te voegen.

09:09.270 --> 09:15.030
Dus uiteindelijk is er hier maar één neuraal netwerk dat wordt gedeeld door de agenten.

09:15.030 --> 09:21.120
Dus voordat ze hadden, had elk van hen één neuraal netwerk dat werd gedeeld voor de acteur en voor de

09:21.120 --> 09:21.570
criticus.

09:21.600 --> 09:22.700
Eén neuraal netwerk gedeeld.

09:22.710 --> 09:25.330
Voor de acteur, voor de criticus, één neurale netwerkshow voor elektriciteit.

09:25.680 --> 09:30.810
Nu hebben ze allemaal één neuraal netwerk dat wordt gedeeld voor de acteur, criticus,

09:30.810 --> 09:34.890
werkelijke criticus, acteur, criticus, en dan is de criticus hier gemeenschappelijk.

09:35.190 --> 09:36.180
Dus laten we eens kijken.

09:36.180 --> 09:38.370
Laten we deze foto's hier naar links verplaatsen.

09:38.370 --> 09:39.180
Dus maak wat ruimte.

09:39.870 --> 09:47.370
En dit is eigenlijk de architectuur of de structuur die we gaan gebruiken in de praktische

09:47.370 --> 09:47.880
tutorials.

09:48.150 --> 09:53.580
Ik weet dat dit in dit stadium misschien wat overweldigend klinkt, maar we hebben nog een achttal om

09:53.580 --> 09:55.740
over te praten, wat het voordeel is.

09:55.740 --> 10:00.270
En daar zal het wat beter in actie te zien zijn, hoe dit gaat.

10:00.270 --> 10:00.420
Dus.

10:00.490 --> 10:05.470
We zullen het daar hebben over de intuïtie in actie, maar over het algemeen is dit wat het is.

10:05.650 --> 10:11.380
Dit is dat er één netwerk is dat elk van de agenten gebruikt, dus ze delen eigenlijk alles wat betekent

10:11.380 --> 10:13.030
dat ze de gewichten delen.

10:13.030 --> 10:16.120
De gewichten van het netwerk worden gedeeld tussen agenten.

10:16.120 --> 10:19.440
En toen ze de update updaten, het hele netwerk, niet alleen hun eigen netwerk.

10:20.290 --> 10:21.610
En dan hebben ze uitgangen.

10:21.610 --> 10:27.040
Ze hebben dergelijke acties voor elke agent en dan hebben ze de kritiek die wordt gedeeld, die zal worden

10:27.040 --> 10:27.630
gecontroleerd.

10:27.640 --> 10:34.210
Dus ik weet dat dit allemaal een beetje is alsof er veel dingen zijn op dit moment, maar hopelijk komt het

10:34.810 --> 10:35.470
langzaam samen.

10:35.470 --> 10:42.010
De belangrijkste conclusie van hier is dat de criticus, omdat het wordt gedeeld, de agenten er

10:42.010 --> 10:48.370
zo voor kunnen zorgen dat ze samenwerken om veel sneller tot het resultaat te komen.

10:48.700 --> 10:52.570
En dan in het volgende jaar, zullen we nog verder zien hoe dit alles optelt.

10:52.600 --> 10:53.440
Dit komt allemaal samen.

10:53.710 --> 11:01.130
En voor nu is er iets dat ik zou willen aanbevelen of we willen u een extra lezing aanbevelen.

11:01.150 --> 11:06.430
Dit is dus een blog van Jaromir Janosch.

11:06.700 --> 11:08.050
Het heet Laten we een 830 maken.

11:08.050 --> 11:11.070
Implantaties is eigenlijk twee delen implementatie en theorie.

11:11.740 --> 11:12.430
Daar is de link.

11:12.430 --> 11:19.330
En het lijkt erg op wat Adlen zal implementeren in de praktische kant van de tutorial.

11:19.330 --> 11:25.810
Het is dus niet specifiek voor deze tutorial, alleen niet specifiek alleen voor de, maar het is

11:25.810 --> 11:27.880
voor deze hele sectie aanmoediging.

11:27.880 --> 11:30.730
Er is wat extra informatie, wat extra inzichten.

11:30.880 --> 11:33.030
En daarom brengen we het hier naar voren.

11:33.220 --> 11:37.980
Maar niettemin, in het volgende materiaal, gaan we dit allemaal samenbrengen.

11:37.990 --> 11:40.440
Alles wat we hebben besproken en ik kijk ernaar uit om je de volgende keer te zien.

11:40.450 --> 11:42.090
En tot die tijd, geniet ervan.