WEBVTT

00:00.490 --> 00:05.080
Hallo en welkom terug bij de cursus over kunstmatige intelligentie, ik hoop dat je de cursus tot nu toe leuk

00:05.080 --> 00:05.350
vindt.

00:05.350 --> 00:08.320
En vandaag hebben we het over actie, het selectiebeleid.

00:08.890 --> 00:10.370
Oké, laten we er meteen in duiken.

00:10.900 --> 00:15.940
Eerder hadden we het over het toevoegen van een neuraal netwerk aan ons eenvoudige leren.

00:15.940 --> 00:20.850
En tot nu toe zijn we behoorlijk bezig met diep leren.

00:21.100 --> 00:26.560
We hebben het al vaak gehad over het leergedeelte, inclusief het toevoegen van enkele elementen.

00:26.560 --> 00:28.750
En vandaag hebben we het over dit deel.

00:28.750 --> 00:29.900
We hebben het over het acteerwerk.

00:29.920 --> 00:30.730
Dus laten we eens kijken.

00:31.210 --> 00:38.410
Dus hier hebben we wat we hebben besproken over het acteren dat als je eenmaal de waarden, de parameters of de vector hebt ingevoerd voor

00:38.410 --> 00:44.200
het beschrijven van de staat waarin de agent zich momenteel bevindt, in die omgeving, dat wil zeggen, nadat al het leren

00:44.200 --> 00:47.080
is gedaan of zelfs voordat het leren is voltooid.

00:47.410 --> 00:49.450
Kortom, we krijgen alle kernwaarden.

00:49.480 --> 00:51.060
Dus we zijn nu niet geïnteresseerd in het leren.

00:51.070 --> 00:51.940
We zijn geïnteresseerd in acteren.

00:51.940 --> 00:56.860
Dus als we deze kernwaarden eenmaal hebben, hoe begrijpen we dan welke we moeten gebruiken?

00:57.250 --> 01:01.870
Welnu, als je erover nadenkt, zijn sleutelwaarden gewoon dit zijn de voorspellingen voor de sleutelwaarden.

01:01.870 --> 01:05.940
Dus wat hebben we gedaan, zoals we deden in het eenvoudige Q-leeralgoritme?

01:05.950 --> 01:10.330
We hebben zojuist degene met de beste van de hoogste Q-waarde geselecteerd.

01:10.330 --> 01:15.310
Zodra we degene met de hoogste waarde hebben, ondernemen we die actie omdat het ons gewoon de hoogste

01:15.310 --> 01:20.290
waarde oplevert en we weten dat waarden worden berekend als onmiddellijke beloning die we verwachten te ontvangen.

01:20.290 --> 01:23.040
Plus de vervalfactor maal de waarde van de volgende toestand.

01:23.050 --> 01:24.720
En het is een recursieve berekening.

01:24.730 --> 01:25.390
Dus waarom niet?

01:25.390 --> 01:28.300
Waarom zou je niet de beste Q-waarde nemen?

01:28.300 --> 01:30.310
En dat is een beetje het einde.

01:30.700 --> 01:33.070
Maar zoals je hier kunt zien, is het hier niet zo eenvoudig.

01:33.070 --> 01:37.530
We gebruiken een softmax-functie en hier gaan we het hebben over actieselectiebeleid.

01:37.810 --> 01:41.020
Dus hier in werkelijkheid hoeven we niet alleen een softmax-functie te hebben.

01:41.200 --> 01:44.110
We kunnen verschillende beleidsmaatregelen voor actieselectie hebben.

01:44.710 --> 01:50.560
We hebben bijvoorbeeld Epsilon greedy, epsilon soft en we hebben de softmax.

01:50.680 --> 01:54.900
En dat zijn een beetje zoals het meest gebruikte actieselectiebeleid.

01:54.910 --> 01:56.230
Natuurlijk zijn er anderen.

01:56.230 --> 02:00.490
De meest elementaire is bijvoorbeeld een heel eenvoudig actieselectiebeleid.

02:00.490 --> 02:03.580
Selecteer gewoon de beste, die met de hoogste Q-waarde.

02:03.880 --> 02:09.430
Maar waarom vliegt dat actiebeleid niet en waarom hebben we verschillende soorten actie, beleid, actie,

02:09.430 --> 02:10.120
selectiebeleid?

02:10.420 --> 02:19.000
Nou, het komt allemaal neer op exploratie versus exploitatie, en dat is de kern van versterkend leren, omdat we hier al een

02:19.000 --> 02:24.280
beetje over hebben gesproken, dat je agent, wanneer hij in een omgeving opereert,

02:24.280 --> 02:30.220
bepaalde sleutelwaarden kan voorspellen die zou goed kunnen zijn, en het zou geweldig kunnen en

02:30.550 --> 02:31.800
kunnen worden.

02:31.800 --> 02:34.900
Het kan zijn dat die waarden slecht zijn en zullen worden gedwongen om te verkennen.

02:34.900 --> 02:40.180
Dus als we, bijvoorbeeld, in dit geval voorspellen dat Q2 de beste is en dan

02:40.240 --> 02:46.630
moet je actie twee ondernemen, en vanaf hier onderneemt het actie en dan krijgt het een zeer negatieve beloning.

02:46.810 --> 02:51.730
Dan dwingt hun omgeving de agent om te gaan verkennen, want nu gaat het dat leren, oh

02:51.730 --> 02:56.080
eigenlijk dacht ik dat Q2 heel goed zou worden, maar het bleek erg slecht.

02:56.710 --> 02:58.300
Dus de resultaten zijn niet erg slecht.

02:58.300 --> 02:59.830
Dus het netwerk gaat zichzelf updaten.

02:59.830 --> 03:04.510
Dus de volgende keer dat hij in de staat is, zal hij er waarschijnlijk nog steeds voor kiezen als het,

03:04.510 --> 03:06.760
weet je, alsof het een heel, heel gunstig was.

03:06.760 --> 03:11.620
Dus je zou kunnen denken dat dat zoiets is als, weet je, je hebt misschien een paar keer een paar

03:11.920 --> 03:14.710
straffen of straffen nodig om een toekomst over actie te leren.

03:14.890 --> 03:19.990
Maar misschien zal hij dat al snel leren, oké, ik ga een andere actie ondernemen en de actie ondernemen omdat

03:19.990 --> 03:21.820
het nu de beste Q-waarde heeft.

03:22.060 --> 03:28.810
Dus soms dwingt de omgeving de agent om verschillende acties te ondernemen om verschillende acties te onderzoeken, maar soms kan

03:29.050 --> 03:33.190
de agent het krijgen, vast komen te zitten in een lokaal maximum.

03:33.430 --> 03:37.870
Het zou kunnen vinden dat het door zijn eerste verkenning valt.

03:37.870 --> 03:41.830
Het ontdekte dat, oh, dit is een behoorlijk coole actie, alsof ik hierheen ga.

03:42.070 --> 03:43.690
En dat is best coole actie.

03:43.870 --> 03:49.510
Maar het probleem is dat het denkt dat het de beste actie is, simpelweg omdat het nog niet verkend is verkend, omhoog

03:49.510 --> 03:55.120
gaan wordt verkend, naar links gaan zoals verkend, naar rechts gaan, maar het heeft niet onderzocht om af te dalen vanuit

03:55.120 --> 03:57.220
die specifieke staat waarin het zich bevindt.

03:57.430 --> 04:01.870
En nu het een beetje bevooroordeeld is ten opzichte van deze actie en denkt dat het een goed is

04:01.870 --> 04:05.380
om te blijven nemen, zal blijven krijgen, zal blijven nemen, zal deze actie een goede

04:05.380 --> 04:06.190
beloning blijven krijgen.

04:06.490 --> 04:12.850
Maar wat als deze actie nog beter zou zijn geweest als deze actie zo veel beter zou zijn geweest, dat als het van

04:13.630 --> 04:17.260
deze actie op de hoogte was, het daadwerkelijk naar deze actie zou overschakelen.

04:17.260 --> 04:22.510
Maar omdat het vast kwam te zitten in een lokaal maximum en deze goede beloningen krijgt, wordt het

04:22.510 --> 04:23.410
alleen maar versterkt.

04:23.530 --> 04:25.300
Dit zal zichzelf blijven versterken.

04:25.300 --> 04:28.960
Dat of de manier waarop ik het wilde versterken, dat dit een goede actie is om te ondernemen, blijf dat doen.

04:29.410 --> 04:35.140
Maar echt, de realiteit is dat er een andere actie is die het nog niet heeft gevonden of die zelfs niet is onderzocht en die

04:35.440 --> 04:36.730
veel beter zou zijn geweest.

04:36.970 --> 04:43.150
En dus willen we een actieselectiebeleid bedenken waarmee onze agent niet vast komt te

04:43.150 --> 04:45.750
zitten in een lokaal maximum.

04:45.760 --> 04:48.430
Ja, het is belangrijk om, weet je, de goede dingen te blijven doen.

04:48.430 --> 04:49.930
Dat is het exploitatiegedeelte.

04:50.050 --> 04:51.850
We willen uitbuiten wat we hebben gevonden.

04:52.000 --> 04:53.830
Maar tegelijkertijd willen we nog steeds verkennen.

04:53.830 --> 04:56.350
We willen nooit stoppen met ontdekken zoals in het leven.

04:56.350 --> 04:57.490
Je wilt nooit stoppen met leren.

04:57.850 --> 04:58.930
Als je stopt met leren, ga je dood.

04:58.930 --> 04:59.290
Dat is.

04:59.600 --> 05:03.950
Er is een gezegde dat zegt dat als je niet groeit, je doodgaat of iets dergelijks,

05:03.950 --> 05:09.590
dus je wilt blijven leren en je agent wil blijven leren, en dat is waar deze acties en dit beleid van pas

05:09.590 --> 05:09.940
komen.

05:10.280 --> 05:12.240
Dus we hebben er drie die u hier vermeldt.

05:12.260 --> 05:14.080
Dus de eerste is Epsilon Greedy.

05:14.220 --> 05:15.530
Het is een heel eenvoudige.

05:15.530 --> 05:21.070
Het klinkt behoorlijk complex in die zin dat het een coole naam heeft en meestal zijn dingen met

05:21.430 --> 05:22.080
namen complex.

05:22.310 --> 05:22.960
Het is eigenlijk niet.

05:23.150 --> 05:31.370
Dus wat het eigenlijk doet, is dat het degene selecteert met de beste Q-waarde en absoluut zoals Epsilon Gry.

05:31.370 --> 05:32.690
Misschien hoor je het op andere plaatsen.

05:32.690 --> 05:34.710
Het is net een selectiebeleid.

05:35.120 --> 05:39.890
Dus in dit geval gebruiken we het om uit onze Q-waarden zijn actie te selecteren.

05:39.890 --> 05:45.640
U selecteert dus altijd degene met de hoogste Q-waarde, behalve voor Epsilon procent van de tijd.

05:45.890 --> 05:53.060
Dus als je bijvoorbeeld Epsilon tot tien procent zei, dan ga je naar of nulpunt één, dan zal 10 procent

05:53.060 --> 05:56.320
van de tijd de actie willekeurig worden geselecteerd.

05:56.630 --> 06:01.820
Dus 90 procent van de tijd selecteert u nog steeds de beste actie op basis van de hoogste waarde.

06:02.000 --> 06:07.640
Maar 10 procent van de tijd zal een willekeurig actie-uniform selecteren, dat absoluut willekeurig

06:07.640 --> 06:09.290
een actie zal ondernemen.

06:09.440 --> 06:13.150
Of heb je absoluut nul punt vijf vier nul punt nul vijf ingesteld.

06:13.160 --> 06:19.130
Dat betekent dat de agent 95 procent van de tijd de actie met de hoogste waarde zal ondernemen.

06:19.130 --> 06:22.250
Maar vijf procent van de tijd is het nog steeds selecteren en een willekeurige actie.

06:22.340 --> 06:25.280
Dus het wordt eropuit gaan en verkennen.

06:25.670 --> 06:28.670
Dus Epsilon Soft is een zeer vergelijkbare manier.

06:28.670 --> 06:34.790
De manier waarop dat een beetje lijkt op waarom het epsilon hebzuchtig wordt genoemd, omdat je dan

06:34.940 --> 06:40.240
gretig de actie selecteert, de goede actie, behalve die kleine subset van de tijd.

06:40.250 --> 06:48.200
Dus hoe lager hoe lager de epsilon, hoe gretiger je dat soort actie selecteert dat de

06:48.200 --> 06:50.300
optimale actie is.

06:50.300 --> 06:54.440
En hoe minder je weggaat, hoe kleiner de kans dat je vertrekt voor verkenning.

06:54.590 --> 06:55.910
Epsilon Soft is het tegenovergestelde.

06:55.920 --> 07:01.940
Dus eigenlijk selecteer je willekeurig, je selecteert één minus Epsilon procent van de tijd.

07:01.950 --> 07:06.890
Dus als je epsilon zo is als nul komma één tot 10 procent, dan onderneem je slechts 10 procent van de

07:07.100 --> 07:07.940
tijd deze actie.

07:08.090 --> 07:11.960
En een tijdje en 90 procent van de tijd selecteer je een willekeurige actie.

07:12.290 --> 07:18.710
Dus heel, heel eenvoudige, alleen omgekeerde algoritmen en een softmax is een soort van de volgende stap van of het is een

07:18.710 --> 07:23.840
meer geavanceerde versie, zou ik zeggen, van Epsilon van het Epsilon hebzuchtige algoritme, hoewel ze allebei verdienste

07:23.840 --> 07:29.600
hebben en ze allebei plaats hebben , we gaan softmax gebruiken in onze codering en onze praktische kant van

07:29.960 --> 07:30.800
de dingen.

07:30.800 --> 07:34.760
Daarom gaan we wat dieper in op Softmax.

07:35.210 --> 07:36.290
Dus laten we eens kijken.

07:36.290 --> 07:37.760
Dus laten we verder gaan met Softmax.

07:37.760 --> 07:40.480
Hopelijk is het vrij duidelijk over Epsilon hebzuchtig.

07:40.490 --> 07:42.710
Het is dus een vrij eenvoudig algoritme.

07:42.710 --> 07:47.660
Selecteer deze meestal, behalve dat je soms gaat verkennen.

07:47.660 --> 07:53.750
En nu zien we ook waarom het belangrijk is om die verkenning te doen, zodat we in ons optimalisatieproces

07:53.750 --> 07:55.940
niet in lokale maxima terecht komen.

07:55.940 --> 07:57.800
Dus nu zouden we wat meer over Softmax kunnen praten.

07:58.760 --> 08:06.200
Er is een tutorial over softmax aan het einde van de cursus in Ik denk dat het een bijlagenummer is waar we het

08:06.200 --> 08:08.360
hebben over het concept achter Softmax.

08:08.360 --> 08:09.890
Ik ga me hier even een beetje opfrissen.

08:09.890 --> 08:12.800
Dus daar hebben we het over convolutionele neurale netwerken.

08:12.800 --> 08:15.110
En trouwens, we gaan allemaal convolutioneel behandelen.

08:15.260 --> 08:18.590
We hebben het niet over neurale netwerken van coalities in dit gedeelte van de cursus.

08:18.920 --> 08:21.200
In deze sectie gebruiken we nog steeds een vector.

08:21.740 --> 08:27.500
Maar in het volgende gedeelte van de cursus, wanneer we een acht maken om Dhume te spelen, gaan we

08:27.500 --> 08:29.300
een convolutief neuraal netwerk gebruiken.

08:29.310 --> 08:36.260
Het kan dus nuttig voor je zijn om naar convolutionele neurale netwerken te kijken en dan de softmax-functie te nemen.

08:36.260 --> 08:41.840
Of je kunt wat meer leren over softmax nadat je de convolutionele neurale netwerken hebt gevolgd, die later bij

08:41.840 --> 08:42.860
de cursus hoort.

08:43.190 --> 08:45.080
Maar hier is een snelle opfrissing.

08:45.080 --> 08:48.860
Dus hier hebben we een convolutief neuraal netwerk dat beslist of het een hond of een kat is.

08:48.870 --> 08:55.940
Dus hier hebben we het stemproces tussen deze neuronen en deze die zegt dat het de kenmerken

08:55.940 --> 09:01.790
heeft, je weet wel, de pluizige oren, wat is dat puntige, puntige gezicht.

09:02.060 --> 09:08.840
En ze zijn een beetje zoals de kenmerken die de soorten ogen zijn zoals de ogen eruit zien, al deze kenmerken

09:08.840 --> 09:09.890
zijn van honden.

09:09.890 --> 09:13.490
Dus de kans van 95 procent dat het een hond is en de kans van vijf procent dat het een kat is.

09:13.820 --> 09:17.930
Maar de vraag is, hoe zijn we in die Taurel gekomen waar we het over hebben?

09:17.930 --> 09:20.110
Hoe hebben we deze waarden opgeteld tot één?

09:20.750 --> 09:27.260
Welnu, wat de convolutionele of onze hele neurale netwerken van het convolutionele neurale netwerk ook zijn, plus de volledig

09:27.260 --> 09:32.960
verbonden Lares, wat het Baroud ook is, wat de waarden ook zijn die we hier toepassen

09:32.960 --> 09:37.370
op de Softmax-functie, hier hebben we de formule voor de softmax-functie geïntroduceerd.

09:37.670 --> 09:38.510
Dit is hoe het eruit ziet.

09:38.600 --> 09:39.950
En toen kregen we deze waarden.

09:40.430 --> 09:43.400
En dus eigenlijk is dat een snelle opfriscursus.

09:43.400 --> 09:45.560
Dit is de formule voor de softmax.

09:45.950 --> 09:50.180
Het is wat het doet, er zijn echter veel outputs nodig die er niet toe doen.

09:50.870 --> 09:57.920
Het zal ze nemen en het zal ze allemaal verpletteren in waarden tussen nul en één, ongeacht hoe groot ze

09:57.920 --> 09:58.310
zijn.

09:58.460 --> 09:58.760
Zojuist.

09:59.250 --> 10:03.740
Als je ernaar kijkt, kun je zien dat er onderaan een totaalbedrag is, dus deze waarden worden nul omdat

10:03.740 --> 10:04.790
ze in één zijn.

10:04.790 --> 10:08.010
En ook al deze waarden zullen altijd optellen tot één.

10:08.540 --> 10:16.760
En dat is dus erg gunstig voor ons, want als we de softmax-functie gebruiken, krijgen we

10:16.760 --> 10:21.320
deze nieuwe waarden, we selecteren deze beste waarde.

10:21.320 --> 10:26.480
Maar in werkelijkheid, wat er gebeurt, zijn deze kernwaarden die we daar krijgen, hun werkelijke aantallen.

10:26.480 --> 10:26.660
Rechts.

10:26.690 --> 10:28.330
Dit zijn dus een soort cijfers.

10:28.850 --> 10:30.350
Ze hoeven niet allemaal op te tellen tot één.

10:30.350 --> 10:32.390
En ik moet antwoorden in één, slechts enkele cijfers.

10:33.110 --> 10:36.040
Maar als we softmax toepassen, selecteren we niet zomaar de beste.

10:36.050 --> 10:38.150
Zulke cijfers krijgen we eigenlijk.

10:38.150 --> 10:41.240
Dus we krijgen onze getallen in het bereik tussen nul en één.

10:41.550 --> 10:44.220
En dat zijn ook die optellen tot één.

10:44.240 --> 10:47.060
En wat weten we nog meer dat opgeteld één is?

10:47.210 --> 10:50.090
Welnu, waarschijnlijkheden, we weten dat kansen altijd moeten optellen tot één.

10:50.120 --> 10:56.390
Daarom kunnen we hier zeggen dat we sleutelwaarden hebben, maar hier hebben we ineens

10:56.390 --> 10:57.950
software of waarschijnlijkheden.

10:57.950 --> 11:02.390
We kunnen dus zeggen dat de kans dat dit de beste actie is 90 procent is.

11:02.840 --> 11:05.780
Dit op basis van hun beste acties, vijf procent, twee procent, drie procent.

11:05.780 --> 11:09.140
Omdat we weten hoe hoger de yoku-waarde, hoe beter de actie.

11:09.260 --> 11:14.060
En als we ze dus platdrukken tot nul op één, dan worden dit waarschijnlijkheden en kunnen we er als zodanig mee

11:14.060 --> 11:14.510
omgaan.

11:14.990 --> 11:20.060
En daarom is nu de actie geselecteerd.

11:20.330 --> 11:22.390
En zo komen we op Q2.

11:22.790 --> 11:28.180
Maar als je het goed bekijkt, is dit geen strikte 100 procent en dit is geen strikte nul procent.

11:28.460 --> 11:30.470
Dus dit is vijf procent, twee procent, drie procent.

11:30.710 --> 11:41.720
Dus de meest natuurlijke manier om de softmax toe te passen om verkenning in het algoritme te behouden, is door deze

11:41.720 --> 11:48.520
exacte kansen te gebruiken voor hoe vaak we die actie gaan ondernemen.

11:48.530 --> 11:54.410
Dus deze kansen vertegenwoordigen eigenlijk de verdeling van deze acties die we ondernemen.

11:54.440 --> 12:01.670
Dus eigenlijk maakt Softmax het ons heel gemakkelijk om een manier te bedenken om exploitatie en exploratie te combineren.

12:01.670 --> 12:06.380
Dus de beste actie heeft altijd de grootste kans omdat het middelbare schoolwaarde heeft.

12:06.590 --> 12:10.500
En daarom gaan we deze hier gewoon gebruiken als onze distributie.

12:10.520 --> 12:14.000
We gaan zeggen: oké, we nemen je mee naar 90 procent van de tijd.

12:14.210 --> 12:17.540
Maar vijf procent van de tijd nemen we nog steeds Q Een en twee procent van

12:17.540 --> 12:20.830
de tijd krijgen we drie en drie procent van de tijd dat we Q4 doen.

12:21.260 --> 12:27.050
En het mooie hier is ook dat naarmate deze waarden updaten, naarmate de agent

12:27.050 --> 12:35.180
door het netwerk gaat, meer en meer en meer, hij meer en meer vertrouwd raakt met de omgeving en dus deze updates.

12:35.180 --> 12:41.180
Dus deze waarde zou bijvoorbeeld kunnen worden alsof ze zou kunnen vaststellen dat deze waarde eigenlijk lager is of dat

12:41.180 --> 12:42.620
deze juist hoger is.

12:42.620 --> 12:46.790
En dus zullen deze kansen ook veranderen als een agent er doorheen gaat.

12:47.000 --> 12:52.790
Dus ook al hebben we je hier voor dat niemand zegt dat soms vijf procent van de

12:52.790 --> 12:59.570
tijd, om precies te zijn, Q1 zal selecteren als de te nemen actie en soms of actie die men zal ondernemen.

12:59.570 --> 13:01.360
Men zal wel eens in actie komen.

13:01.370 --> 13:06.280
Er zijn twee acties, drie, twee procent van de tijd en actie vier duurt ongeveer drie procent.

13:06.350 --> 13:10.910
Dus elke actie heeft een kans om in dit proces te spelen.

13:10.910 --> 13:16.850
Zolang we genoeg herhalingen hebben, doorloopt een agent heel vaak deze toestanden waarin ze

13:16.850 --> 13:17.870
zich bevinden.

13:17.870 --> 13:23.840
En zo werkt elk soort deep learning-algoritme, dat je dit vele, vele, vele keren

13:23.840 --> 13:27.110
wilt doen, zodat je uit ervaring leert.

13:27.110 --> 13:33.050
En daarom, zoals je hier kunt zien, is het een heel natuurlijke overgang naar we zijn niet zomaar willekeurig een

13:33.050 --> 13:34.160
absoluut grijs algoritme.

13:34.160 --> 13:37.370
We selecteren de acties niet zomaar willekeurig.

13:37.370 --> 13:44.000
We selecteren ze op basis van hun softmax-waarden, waardoor het lijkt alsof er enige logica achter zit, niet alleen niet alleen een willekeurige 10 procent

13:44.000 --> 13:48.530
van de tijd dat we een willekeurige actie selecteren, maar er is enige logica achter hoe

13:48.530 --> 13:52.520
we' opnieuw doen en op basis daarvan de belangrijkste waarden die we hebben onderzocht.

13:53.120 --> 13:58.520
En dat is dus het actieselectiebeleid dat we in deze cursus gaan gebruiken.

13:58.520 --> 14:04.370
Je bent van harte welkom om ABSOL Greedy Action Selection Policy te bekijken, als je wilt, maar

14:04.370 --> 14:08.300
we gaan voornamelijk het sociale beleid van softmax action gebruiken.

14:08.630 --> 14:11.090
En ik heb een interessante lezing voor je.

14:11.420 --> 14:14.000
Dit wordt dus Adaptive Epsilon genoemd.

14:14.000 --> 14:17.390
Geweldige verkenning van versterkend leren op basis van waardeverschillen.

14:17.390 --> 14:18.620
Het is een artikel uit 2010.

14:18.770 --> 14:24.020
En het is interessant, want Mike Michel, ik weet niet zeker hoe ik het moet uitspreken.

14:24.020 --> 14:29.090
Michelle en Toxic introduceren een ander type algoritme.

14:29.090 --> 14:38.600
Dus een aangepast epsilon greedy algoritme en genaamd het video Whedbee algoritme of Epsilon greedy igby algoritme dat je hier

14:38.630 --> 14:39.740
kunt zien.

14:40.250 --> 14:44.120
En hij vergelijkt het eigenlijk met de ingrediënten softmax.

14:44.120 --> 14:53.150
En het is een absoluut hebzuchtig algoritme, waarvan het belangrijkste idee erachter is om de waarde van Epsilon aan te passen, afhankelijk

14:53.150 --> 14:56.480
van de staat waarin de agent zich bevindt.

14:56.480 --> 14:59.090
Dus als de agent zich grote zorgen maakt over de staat.

14:59.160 --> 15:03.810
Daarbinnen zou die van Epsilon kleiner moeten zijn, dus er zou minder exploratie moeten zijn als de agent onzeker is, de afwezigheid

15:03.960 --> 15:06.050
zou hoger moeten zijn, zou meer exploratie moeten zijn.

15:06.240 --> 15:07.920
Het is dus een artikel uit 2010.

15:09.090 --> 15:17.910
Ik weet niet zeker of dit nieuwe voorgestelde algoritme veel wordt gebruikt of is geaccepteerd in de gemeenschap

15:17.920 --> 15:23.040
of dat kunstmatige intelligentie enigszins is afgeweken van deze suggestie.

15:23.040 --> 15:29.370
Maar desalniettemin zal het u zeker helpen uw kennis over het actieselectiebeleid, dat we hebben besproken, te

15:29.370 --> 15:30.060
vergroten.

15:30.090 --> 15:32.060
Absol groet de softmax zal je helpen.

15:32.070 --> 15:36.570
Het geeft je de mogelijkheid om ze naast elkaar te vergelijken en ook te zien in welke

15:36.570 --> 15:39.250
richting mensen daadwerkelijk denken als ze kunstmatige intelligentie willen verbeteren.

15:39.270 --> 15:47.370
Dus als je ooit van plan bent om echt interessante algoritmen te maken die de grens van kunstmatige intelligentie verleggen en de

15:47.370 --> 15:54.470
grenzen verleggen in deze ruimte, dan zou dit een goede manier voor je kunnen zijn om te zien in welke

15:54.570 --> 16:01.260
richting mensen soms denken als ze proberen om de normen van kunstmatige intelligentie of de normen die toen

16:01.260 --> 16:03.340
in 2010 bestonden te verbeteren.

16:03.960 --> 16:04.610
Dus daar gaan we.

16:04.740 --> 16:09.660
Hopelijk heb je genoten van de tutorial van vandaag over het actieselectiebeleid.

16:10.050 --> 16:16.260
We leerden over Epsilon greedy, Epsilon soft en de softmax, en nu ben je nog beter voorbereid op de praktische

16:16.290 --> 16:17.880
kant van de dingen.

16:18.150 --> 16:20.710
En wat dat betreft, ik kijk ernaar uit om je de volgende keer te zien.

16:20.730 --> 16:22.530
En tot die tijd, geniet ervan, ik.
