WEBVTT

00:00.980 --> 00:04.370
Hallo en welkom terug bij de cursus over kunstmatige intelligentie.

00:04.670 --> 00:09.860
Vandaag gaan we het aanvalsplan voor de V.S. bespreken. S. We hebben het over het leren van doden en

00:09.980 --> 00:11.120
we hebben nogal wat tutorials.

00:11.120 --> 00:19.460
Dus ik denk dat het een goed idee is om ze snel door te nemen om te begrijpen wat we kunnen verwachten in de komende

00:19.460 --> 00:19.940
video's.

00:20.480 --> 00:21.080
Hier gaan we.

00:21.980 --> 00:22.490
Oke.

00:22.490 --> 00:28.130
Wat we in deze sectie zullen leren, allereerst, we zullen het hebben over wat

00:28.130 --> 00:35.330
bekrachtigingsleren eigenlijk is en wat de filosofie achter bekrachtigingsleren is en hoe bekrachtigingsleren in het echte leven kan

00:35.330 --> 00:42.170
worden gezien en hoe het zich verhoudt tot dingen die we waarnemen in het echte leven, waar eigenlijk

00:42.170 --> 00:47.690
dingen die we zelf doen, ze niet praten over de portiersvergelijking, een heel

00:47.690 --> 00:55.010
fundamenteel concept dat alles ondersteunt, of er gebeuren veel dingen in versterkend leren, vooral op het gebied van leren

00:55.010 --> 01:00.560
en wat we' gaan bespreken in dit gedeelte van de cursus en in de

01:00.560 --> 01:01.550
volgende paragrafen.

01:01.670 --> 01:09.380
Dan zullen we praten over het plan en het plan dat en roarin kunstmatige intelligentie bedenkt om binnen

01:09.380 --> 01:11.550
de omgeving te navigeren.

01:11.600 --> 01:14.520
We zullen zien hoe dat komt.

01:14.520 --> 01:17.060
Een zeer snelle maar best interessante tutorial.

01:17.600 --> 01:21.110
Dan hebben we het over marktbeslissingsprocessen, een nieuw concept.

01:21.110 --> 01:28.940
We gaan een heel nieuw concept introduceren dat langzaamaan zelfs een extra laag verfijning zal toevoegen

01:29.120 --> 01:34.830
aan onze Bellmon-vergelijking, aan ons hele versterkende leren, aan onze kernleerconcepten.

01:34.830 --> 01:39.680
Dus dat is de manier waarop deze sectie is gestructureerd, dat we de Bellman-vergelijking introduceren, een

01:39.680 --> 01:42.770
zeer simplistische vorm, en dan langzaam de tutorials weggooien.

01:42.770 --> 01:51.740
We voegen er lagen van verfijning aan toe om bij de definitieve versie te komen die onze bestemming is in termen van

01:51.740 --> 01:52.580
Hillary.

01:52.580 --> 01:57.950
Maar we zullen er langzaam komen, zodat we genoeg tijd hebben om alle informatie te verwerken en te

01:57.950 --> 01:58.760
laten bezinken.

01:58.760 --> 02:04.670
En Mark, het besluitvormingsproces is een extra laag verfijning bovenop wat we al hebben besproken of wat we

02:04.850 --> 02:07.250
tegen die tijd al hebben besproken.

02:08.360 --> 02:10.530
Dan hebben we het over beleid versus plannen.

02:11.060 --> 02:13.750
Nog een interessante tutorial en ze zijn allemaal interessant.

02:13.760 --> 02:19.520
Gewoon weer een korte tutorial over hoe beleid verschilt van plannen en wat de verschillen zijn.

02:19.520 --> 02:25.910
En dit zijn termen die je waarschijnlijk in andere literatuur zult horen of lezen als je je erin gaat

02:25.910 --> 02:29.270
verdiepen om aanvullende informatie te krijgen over versterkend leren.

02:29.810 --> 02:34.280
Ze praten allemaal over het toevoegen van een levende straf aan onze omgevingen.

02:34.610 --> 02:41.810
En dat is een andere manier om complexiteit toe te voegen aan de omgevingen waarin onze agenten

02:41.810 --> 02:42.770
gaan opereren.

02:43.220 --> 02:46.160
Dan zullen we het hebben over de intuïtie achter sleutelleren.

02:46.170 --> 02:50.540
Dus tot die tutorial hebben we het over de waarden van staten.

02:50.630 --> 02:57.170
En tot slot gaan we over op het praten over waarden van acties of kaew-waarden, en

02:57.170 --> 02:59.690
dan gaan we een tijdsverschil introduceren.

02:59.700 --> 03:05.780
Dus dit is de tutorial waarin alles wat we hebben geleerd samenkomt om

03:05.780 --> 03:11.120
uit te leggen hoe agenten of kunstmatige kunstmatige intelligentie precies leert?

03:11.120 --> 03:16.030
Hoe werkt het zijn waarden bij tijdens het hele iteratieve proces dat het doormaakt?

03:16.670 --> 03:21.470
En tot slot gaan we kijken naar een visualisatie van sleutelleren.

03:21.470 --> 03:23.440
Dus we gaan alles nemen wat we zullen leren.

03:23.510 --> 03:30.320
We gaan kijken hoe het voor onze ogen gebeurt en kijken hoe een kunstmatige intelligentie het sleutelleren daadwerkelijk

03:30.470 --> 03:36.110
uitvoert en alle dingen doen die we op een intuïtief niveau gaan bespreken, ook in

03:36.110 --> 03:37.880
de praktijk zullen doen.

03:37.880 --> 03:44.040
En dat zal ons helpen die kennis die we in de sectie gaan behandelen nog beter te begrijpen.

03:44.450 --> 03:47.380
Dus hopelijk ben je erg enthousiast over deze aankomende tutorials.

03:47.390 --> 03:48.710
Dat ben ik zeker.

03:48.710 --> 03:51.830
En er komen een aantal zeer interessante dia's aan.

03:51.830 --> 03:55.910
En nog belangrijker, de concepten zelf zijn heel, heel interessant.

03:55.910 --> 03:59.270
En ik weet zeker dat je er heel veel van zult genieten.

03:59.600 --> 04:01.250
En ik kijk ernaar uit om je de volgende keer te zien.

04:01.280 --> 04:03.020
Tot die tijd, geniet van Ehi.