WEBVTT

00:00.090 --> 00:00.923
Instructeur: Hallo,

00:00.923 --> 00:03.870
mijn vrienden, en welkom bij deze nieuwe data science use case

00:03.870 --> 00:07.560
met ChatGPT, die deze keer zal gaan over reinforcement learning.

00:07.560 --> 00:09.420
Dus we gaan ChatGPT nu vertellen

00:09.420 --> 00:13.260
dat we een virtuele zelfrijdende auto hebben geprogrammeerd

00:13.260 --> 00:14.730
zonder enige AI.

00:14.730 --> 00:19.020
Dus we hebben net de mogelijkheid ingevoerd om vooruit te gaan, linksaf te slaan,

00:19.020 --> 00:21.300
rechtsaf te slaan en te stoppen.

00:21.300 --> 00:25.050
En we gaan zeggen dat deze zelfrijdende auto wordt beloond als hij

00:25.050 --> 00:27.540
erin slaagt een bepaalde bestemming te bereiken,

00:27.540 --> 00:30.420
en wordt bestraft als hij van deze bestemming afwijkt,

00:30.420 --> 00:33.360
of als hij obstakels tegenkomt.

00:33.360 --> 00:35.460
Oké, en dan gaan we ChatGPT vragen welk

00:35.460 --> 00:37.680
AI-model geïmplementeerd moet worden

00:37.680 --> 00:40.020
voor de zelfrijdende auto en hoe.

00:40.020 --> 00:40.853
Oké?

00:40.853 --> 00:41.686
Dus laten we dit doen.

00:41.686 --> 00:43.530
Ik ga hier een nieuwe chat openen.

00:43.530 --> 00:45.637
En binnenin gaan we

00:45.637 --> 00:49.110
precies zeggen: "Hé, ik heb een

00:49.110 --> 00:53.550
virtuele zelfrijdende auto geprogrammeerd

00:53.550 --> 00:57.000
met als acties vooruitrijden,

00:57.000 --> 01:04.710
linksaf slaan, rechtsaf slaan en stoppen.

01:04.710 --> 01:08.370
En dan wordt deze auto beloond

01:08.370 --> 01:13.370
als hij een bepaalde bestemming bereikt,

01:13.890 --> 01:16.080
en gestraft als

01:16.080 --> 01:19.980
hij verder weg gaat van deze

01:19.980 --> 01:23.070
bestemming, of als hij

01:23.070 --> 01:28.070
op obstakels stuit. Oké, nu, laten we gulziger zijn.

01:28.650 --> 01:29.760
Ik wilde alleen wat aanbevelingen

01:29.760 --> 01:31.530
vragen over hoe je een reinforcement

01:31.530 --> 01:35.490
learning model bouwt voor de zelfrijdende auto.

01:35.490 --> 01:38.700
Waarom niet?

01:38.700 --> 01:39.533
Laten we eens kijken waartoe ChatGPT in staat is.

01:39.533 --> 01:41.730
Dus ik ga vragen: "Kun

01:41.730 --> 01:44.650
je alsjeblieft een Python-code

01:45.750 --> 01:49.230
voor me schrijven met de beste bibliotheken

01:49.230 --> 01:53.580
om een model voor leren van versterking te

01:53.580 --> 02:01.770
bouwen dat de AI in die zelfrijdende auto implementeert?

02:01.770 --> 02:01.770
Oké,

02:01.770 --> 02:06.750
het is een beetje inhalig om dit te vragen, maar we weten maar nooit.

02:08.010 --> 02:09.870
ChatGPT geeft ons misschien precies wat we willen.

02:09.870 --> 02:11.160
Dus laten we het proberen

02:11.160 --> 02:14.010
en als hij in de problemen komt, zullen we hem helpen.

02:14.010 --> 02:16.500
Oké, dus laten we op Enter drukken en daar gaan we.

02:16.500 --> 02:17.340
Tuurlijk, oké, dat is weer een mooi begin.

02:17.340 --> 02:20.670
"Ik kan je op weg helpen met het implementeren van een reinforcement

02:20.670 --> 02:22.477
learning model voor je zelfrijdende

02:22.477 --> 02:24.180
auto in Python. Verbazingwekkend.

02:24.180 --> 02:25.230
"Hier is wat code die demonstreert

02:25.230 --> 02:26.700
hoe je, OpenAI Gym library kunt gebruiken. Geweldig.

02:26.700 --> 02:27.533
"Om een reinforcement

02:27.533 --> 02:29.730
learning model te trainen voor je zelfrijdende auto. Oké, dus dat is geweldig eigenlijk, ik had het niet verwacht, ChatGPT om het

02:29.730 --> 02:30.960
zo gemakkelijk te doen, en het is allemaal

02:30.960 --> 02:31.793
logisch wat het nu doet.

02:31.793 --> 02:33.180
Het initialiseert de Q-tabel, het aantal

02:33.180 --> 02:34.920
toestanden, het aantal acties, een leersnelheid

02:34.920 --> 02:36.330
geïnitialiseerd op 0. 1, een discontofactor

02:36.330 --> 02:40.050
van 0. 95.

02:40.050 --> 02:43.230
Dit is echt geweldig, ik heb ontzag.

02:43.230 --> 02:45.600
De verkenningskoers naar 0. 5, het maximale aantal afleveringen tot 1.000,

02:45.600 --> 02:47.670
het maximale aantal stappen per aflevering

02:47.670 --> 02:49.920
tot 100.

02:49.920 --> 02:51.660
Dan traint het het Q-learning model, verbazingwekkend.

02:51.660 --> 02:54.270
Ik ga hem dan uitdagen om een meer geavanceerd model te implementeren,

02:54.270 --> 02:55.743
zoals het diepe Q-learning

02:56.610 --> 02:58.950
model, of het A3C, maar laten we eens kijken.

02:58.950 --> 03:01.950
Het implementeert alles vanaf nul met de For Loop.

03:01.950 --> 03:04.770
Het begint met het kiezen van een actie, dan implementeert

03:04.770 --> 03:07.140
het de stap waarin de AI de actie uitvoert,

03:07.140 --> 03:09.810
dan werkt het de Q-tabel bij en dan zet het de

03:09.810 --> 03:12.720
toestand op de volgende dag.

03:12.720 --> 03:16.380
Dit is echt het reinforcement learning proces, het Q-learning proces,

03:16.380 --> 03:18.030
dit is verbazingwekkend.

03:18.030 --> 03:21.690
Dan implementeert het zelfs hoe het Q-learning model moet

03:21.690 --> 03:25.410
worden getest, en tenslotte sluit het de omgeving.

03:25.410 --> 03:26.243
Wow, dat was echt geweldig.

03:26.243 --> 03:28.260
Oké, zoveel had ik niet verwacht.

03:28.260 --> 03:30.510
Dus omdat het zo makkelijk ging, laten

03:30.510 --> 03:33.450
we het nog meer uitdagen, nog harder.

03:33.450 --> 03:36.960
Dus laten we eerst zeggen, natuurlijk,

03:36.960 --> 03:39.780
"Bedankt, dat was echt nuttig.

03:39.780 --> 03:41.430
Maar ik weet al

03:41.430 --> 03:43.080
wel hoe ik Q-learning

03:43.080 --> 03:46.470
moet toepassen.

03:46.470 --> 03:48.247
Dus zou u hetzelfde

03:48.247 --> 03:52.593
kunnen doen met een meer geavanceerd

03:54.690 --> 03:56.040
model van versterkingsleren,

03:56.040 --> 04:04.260
zoals bijvoorbeeld diepe Q-leren.

04:04.260 --> 04:04.260
Of nog beter, laten we super inhalig zijn.

04:04.260 --> 04:06.210
"Een state of the art reinforcement learning model. Oké, klaar voor dit?

04:06.210 --> 04:09.030
Daar gaan we.

04:09.030 --> 04:11.280
En, "Zeker. Hij zegt altijd: "Zeker. Dat is verbazingwekkend.

04:11.280 --> 04:16.280
"Hier is wat code die laat zien hoe je de OpenAI baselines

04:18.720 --> 04:21.990
library kunt gebruiken om een deep

04:21.990 --> 04:25.297
Q-learning model, DQN, te trainen

04:25.297 --> 04:30.297
voor je zelfrijdende auto. En daar gaan we weer.

04:32.340 --> 04:33.420
Het geeft ons de code.

04:33.420 --> 04:34.980
Dat is echt verbazingwekkend.

04:34.980 --> 04:36.420
Oké, dus ja, het gebruikt nu de Wrap DeepMind-bibliotheek van

04:36.420 --> 04:37.800
de gemeenschappelijke Atari-bibliotheek van de basislijn,

04:37.800 --> 04:38.633
en het implementeert de AI opnieuw

04:38.633 --> 04:39.870
met het diepe Q-learning model deze keer.

04:39.870 --> 04:42.180
Dat is echt, echt verbazingwekkend.

04:42.180 --> 04:44.760
"Deze code gebruikt het DQN algoritme om een diep Q-learning model te trainen

04:44.760 --> 04:45.900
voor je zelfrijdende auto.

04:45.900 --> 04:47.310
Het model zal leren om in elke toestand de beste

04:47.310 --> 04:49.140
actie te ondernemen om de beloning te maximaliseren.

04:49.140 --> 04:50.820
Als je een meer geavanceerd

04:50.820 --> 04:55.820
model van reinforcement learning wilt gebruiken, kun je de OpenAI Spinning

04:57.300 --> 05:01.260
Up bibliotheek gebruiken, die implementaties biedt van geavanceerde

05:01.260 --> 05:03.270
algoritmen voor reinforcement

05:03.270 --> 05:05.040
learning.

05:05.040 --> 05:07.117
Hier is wat code die laat zien hoe je de Spinning

05:07.117 --> 05:09.450
Up bibliotheek kunt gebruiken om een proximaal

05:09.450 --> 05:12.120
beleidsoptimalisatie, PPO model, te trainen. Inderdaad, dat is een geweldig model.

05:12.120 --> 05:15.450
"Voor je zelfrijdende auto. En daar ga je, het geeft je het model weer

05:15.450 --> 05:17.430
met de hele code.

05:17.430 --> 05:20.460
Wow, wat een revolutie, deze ChatGPT.

05:20.460 --> 05:21.930
Serieus, ik ben echt onder de indruk.

05:21.930 --> 05:24.450
Juist, en daar heb je de code.

05:24.450 --> 05:26.790
"Deze code gebruikt het PPO algoritme om een

05:26.790 --> 05:28.380
reinforcement learning model

05:28.380 --> 05:30.960
te trainen voor je zelfrijdende auto.

05:30.960 --> 05:32.250
Het model zal leren acties te ondernemen

05:32.250 --> 05:34.950
om de verwachte som van verdisconteerde beloningen te maximaliseren.

05:34.950 --> 05:36.097
Ik hoop dat dit helpt.

05:36.097 --> 05:37.290
Laat het me weten als je

05:37.290 --> 05:39.690
vragen hebt, of als je verdere hulp wilt. Nou, zelfs ik had niet zoveel

05:39.690 --> 05:40.950
verwacht, dus ik

05:40.950 --> 05:44.430
ben gewoon onder de indruk net als jij.

05:44.430 --> 05:47.220
Dus we gaan zeggen, "Hartelijk dank, dat was geweldig. En klaar.

05:47.220 --> 05:49.357
Nogmaals bedankt voor het bekijken van deze

05:49.357 --> 05:51.210
data science use case met ChatGPT.

05:51.210 --> 05:52.530
Laten we nu naar de volgende gaan.

05:52.530 --> 05:53.940
En tot dan, veel plezier met machinaal leren.