WEBVTT

00:00.090 --> 00:00.923
Eğitmen: Merhaba

00:00.923 --> 00:03.870
arkadaşlar ve ChatGPT ile bu kez pekiştirmeli öğrenme üzerine

00:03.870 --> 00:07.560
olacak olan bu yeni veri bilimi kullanım örneğine hoş geldiniz.

00:07.560 --> 00:09.420
Şimdi ChatGPT'ye henüz yapay

00:09.420 --> 00:13.260
zekası olmayan sanal bir sürücüsüz araba programladığımızı

00:13.260 --> 00:14.730
söyleyeceğiz.

00:14.730 --> 00:19.020
Bu yüzden ileri gitme, sola dönme, sağa dönme ve durma yeteneklerini

00:19.020 --> 00:21.300
yeni uyguladık.

00:21.300 --> 00:25.050
Ve bu sürücüsüz aracın belirli bir hedefe ulaşmayı başarırsa

00:25.050 --> 00:27.540
ödüllendirileceğini ve bu hedeften uzaklaşırsa

00:27.540 --> 00:30.420
veya bazı engellerle karşılaşırsa cezalandırılacağını

00:30.420 --> 00:33.360
söyleyeceğiz.

00:33.360 --> 00:35.460
Tamam, şimdi de ChatGPT'ye sürücüsüz otomobil

00:35.460 --> 00:37.680
için hangi yapay zeka modelinin nasıl uygulanması

00:37.680 --> 00:40.020
gerektiğini soracağız.

00:40.020 --> 00:40.853
Tamam mı?

00:40.853 --> 00:41.686
O zaman şöyle yapalım.

00:41.686 --> 00:43.530
Burada yeni bir sohbet açacağım.

00:43.530 --> 00:45.637
Ve içeride tam olarak

00:45.637 --> 00:49.110
şöyle diyeceğiz: "Hey, ilerlemek,

00:49.110 --> 00:53.550
sola dönmek, sağa dönmek ve durmak

00:53.550 --> 00:57.000
gibi eylemleri olan sanal

00:57.000 --> 01:04.710
bir sürücüsüz araba programladım.

01:04.710 --> 01:08.370
Ve sonra bu araba belirli

01:08.370 --> 01:13.370
bir hedefe ulaştığında ödüllendirilir

01:13.890 --> 01:16.080
ve bu hedeften

01:16.080 --> 01:19.980
uzaklaşırsa veya bazı engellerle

01:19.980 --> 01:28.070
karşılaşırsa cezalandırılır.

01:28.070 --> 01:28.070
Tamam, şimdi daha açgözlü olalım.

01:28.650 --> 01:29.760
Sadece sürücüsüz araç için bir

01:29.760 --> 01:31.530
takviye öğrenme modelinin nasıl oluşturulacağına

01:31.530 --> 01:34.110
dair bazı tavsiyeler istemek istedim, ama aslında bunu doğrudan oluşturmayı

01:34.110 --> 01:35.490
isteyelim.

01:35.490 --> 01:38.700
Neden olmasın?

01:38.700 --> 01:39.533
ChatGPT'nin neler yapabildiğini görelim.

01:39.533 --> 01:41.730
Şimdi soruyorum, "Lütfen

01:41.730 --> 01:44.650
bana sürücüsüz arabanın içinde

01:45.750 --> 01:49.230
yapay zekayı uygulayan bir takviyeli

01:49.230 --> 01:53.580
öğrenme modeli oluşturmak için en iyi kütüphaneleri

01:53.580 --> 02:01.770
kullanarak bir Python kodu yazabilir misiniz?

02:01.770 --> 02:01.770
Pekala,

02:01.770 --> 02:06.750
bunu sormak biraz açgözlülük olur ama asla bilemeyiz.

02:08.010 --> 02:09.870
ChatGPT bize tam olarak istediğimizi verebilir.

02:09.870 --> 02:11.160
Bu yüzden deneyelim ve herhangi

02:11.160 --> 02:14.010
bir sorunla karşılaşırsa ona yardım edeceğiz.

02:14.010 --> 02:16.500
Tamam, Enter'a basalım ve işte başlıyoruz.

02:16.500 --> 02:17.340
Tabii, tamam, yine harika bir başlangıç.

02:17.340 --> 02:20.670
"Python'da sürücüsüz aracınız için bir takviyeli öğrenme

02:20.670 --> 02:22.477
modeli uygulamaya başlamanıza

02:22.477 --> 02:24.180
yardımcı olabilirim. İnanılmaz.

02:24.180 --> 02:25.230
"İşte OpenAI Gym kütüphanesini nasıl

02:25.230 --> 02:26.700
kullanabileceğinizi gösteren bazı kodlar. Harika.

02:26.700 --> 02:27.533
"Sürücüsüz aracınız

02:27.533 --> 02:29.730
için bir takviyeli öğrenme modeli eğitmek. Tamam, bu gerçekten şaşırtıcı, ChatGPT'nin bunu bu kadar kolay yapmasını

02:29.730 --> 02:30.960
beklemiyordum ve şu anda yaptığı şey

02:30.960 --> 02:31.793
çok mantıklı.

02:31.793 --> 02:33.180
Q-tablosunu, durum sayısını, eylem

02:33.180 --> 02:34.920
sayısını ve 0 olarak başlatılan bir öğrenme

02:34.920 --> 02:36.330
oranını başlatıyor. 1, iskonto

02:36.330 --> 02:40.050
faktörü 0. 95.

02:40.050 --> 02:43.230
Bu gerçekten inanılmaz, hayranlık içindeyim.

02:43.230 --> 02:45.600
Keşif oranı 0'a. 5, maksimum bölüm sayısı 1.000, bölüm

02:45.600 --> 02:47.670
başına maksimum adım sayısı

02:47.670 --> 02:49.920
100'dür.

02:49.920 --> 02:51.660
Sonra Q-öğrenme modelini eğitiyor, inanılmaz.

02:51.660 --> 02:54.270
O zaman derin Q-öğrenme modeli veya A3C gibi daha gelişmiş

02:54.270 --> 02:55.743
bir model uygulaması

02:56.610 --> 02:58.950
için onu zorlayacağım ama bakalım.

02:58.950 --> 03:01.950
For Döngüsü ile her şeyi sıfırdan uygular.

03:01.950 --> 03:04.770
Bir eylem seçerek başlar, ardından yapay zekanın

03:04.770 --> 03:07.140
eylemi gerçekleştirdiği adımı uygular,

03:07.140 --> 03:09.810
ardından Q-tablosunu günceller ve ardından

03:09.810 --> 03:12.720
durumu bir sonraki güne ayarlar.

03:12.720 --> 03:16.380
Bu gerçekten takviyeli öğrenme süreci, Q-öğrenme

03:16.380 --> 03:18.030
süreci, bu inanılmaz.

03:18.030 --> 03:21.690
Daha sonra Q-öğrenme modelinin nasıl test edileceğini

03:21.690 --> 03:25.410
bile uygular ve son olarak ortamı kapatır.

03:25.410 --> 03:26.243
Vay canına, bu gerçekten inanılmazdı.

03:26.243 --> 03:28.260
Tamam, bu kadarını beklemiyordum.

03:28.260 --> 03:30.510
Madem bu kadar kolay başardı,

03:30.510 --> 03:33.450
o zaman daha da zorlayalım.

03:33.450 --> 03:36.960
İlk olarak, tabii ki, "Çok teşekkürler,

03:36.960 --> 03:39.780
bu gerçekten çok yardımcı oldu.

03:39.780 --> 03:41.430
Ancak, Q-öğrenmenin

03:41.430 --> 03:43.080
nasıl uygulanacağını

03:43.080 --> 03:46.470
zaten biliyorum.

03:46.470 --> 03:48.247
Lütfen aynı şeyi,

03:48.247 --> 03:52.593
örneğin derin Q-öğrenme gibi daha

03:54.690 --> 03:56.040
gelişmiş bir

03:56.040 --> 03:59.700
takviyeli öğrenme modeliyle

03:59.700 --> 04:04.260
yapabilir misiniz? Ya da daha iyisi, süper açgözlü olalım.

04:04.260 --> 04:06.210
"Son teknoloji ürünü bir takviyeli öğrenme modeli. Tamam, hazır mısın?

04:06.210 --> 04:09.030
İşte başlıyoruz.

04:09.030 --> 04:11.280
Ve, "Kesinlikle. Her zaman "Elbette. Bu inanılmaz.

04:11.280 --> 04:16.280
"Burada, sürücüsüz aracınız için derin bir Q-öğrenme modeli

04:18.720 --> 04:21.990
olan DQN'yi eğitmek için OpenAI baselines

04:21.990 --> 04:25.297
kütüphanesini nasıl kullanabileceğinizi

04:25.297 --> 04:30.297
gösteren bazı kodlar bulunmaktadır. Ve işte yine başlıyoruz.

04:32.340 --> 04:33.420
Bize kodu veriyor.

04:33.420 --> 04:34.980
Bu gerçekten inanılmaz.

04:34.980 --> 04:36.420
Pekala, evet, şimdi temelin ortak Atari kütüphanesinden

04:36.420 --> 04:37.800
Wrap DeepMind kütüphanesini kullanıyor ve yapay

04:37.800 --> 04:38.633
zekayı bu sefer derin Q-öğrenme

04:38.633 --> 04:39.870
modeliyle tekrar uyguluyor.

04:39.870 --> 04:42.180
Bu gerçekten çok şaşırtıcı.

04:42.180 --> 04:44.760
"Bu kod, sürücüsüz aracınız için derin bir Q-öğrenme modeli eğitmek üzere

04:44.760 --> 04:45.900
DQN algoritmasını kullanır.

04:45.900 --> 04:47.310
Model, ödülü en üst düzeye çıkarmak için her

04:47.310 --> 04:49.140
durumda en iyi eylemi gerçekleştirmeyi öğrenecektir.

04:49.140 --> 04:50.820
Alternatif olarak, daha gelişmiş

04:50.820 --> 04:55.820
bir takviye öğrenme modeli kullanmak isterseniz, son teknoloji takviye öğrenme

04:57.300 --> 05:01.260
algoritmalarının uygulamalarını sağlayan OpenAI Spinning

05:01.260 --> 05:05.040
Up kütüphanesini kullanabilirsiniz.

05:05.040 --> 05:07.117
Burada, Spinning Up kütüphanesini bir proksimal

05:07.117 --> 05:09.450
politika optimizasyonu, PPO modeli eğitmek için nasıl

05:09.450 --> 05:12.120
kullanabileceğinizi gösteren bazı kodlar bulunmaktadır. Gerçekten de, bu harika bir model.

05:12.120 --> 05:15.450
"Sürücüsüz arabanız için. Ve işte, size modeli tüm koduyla birlikte

05:15.450 --> 05:17.430
tekrar veriyor.

05:17.430 --> 05:20.460
Vay canına, bu ChatGPT ne büyük bir devrim.

05:20.460 --> 05:21.930
Cidden, çok etkilendim.

05:21.930 --> 05:24.450
Tamam, işte kod elinizde.

05:24.450 --> 05:26.790
"Bu kod, sürücüsüz aracınız için bir takviyeli

05:26.790 --> 05:28.380
öğrenme modeli eğitmek üzere

05:28.380 --> 05:30.960
PPO algoritmasını kullanır.

05:30.960 --> 05:32.250
Model, indirgenmiş ödüllerin beklenen

05:32.250 --> 05:34.950
toplamını en üst düzeye çıkarmak için eylemlerde bulunmayı öğrenecektir.

05:34.950 --> 05:36.097
Umarım bu yardımcı olur.

05:36.097 --> 05:37.290
Herhangi bir sorunuz olursa

05:37.290 --> 05:39.690
veya daha fazla yardım isterseniz bana bildirin. Ben bile bu kadarını beklemiyordum, bu

05:39.690 --> 05:40.950
yüzden ben de sizin gibi

05:40.950 --> 05:44.430
etkilendim, aynı zamanda tüm bunları yapıyorum.

05:44.430 --> 05:47.220
Biz de diyeceğiz ki, "Çok teşekkür ederim, harikaydı. Ve bitti.

05:47.220 --> 05:49.357
ChatGPT ile bu veri bilimi kullanım örneğini izlediğiniz

05:49.357 --> 05:51.210
için tekrar teşekkürler.

05:51.210 --> 05:52.530
Şimdi bir sonrakine geçelim.

05:52.530 --> 05:53.940
O zamana kadar makine öğreniminin keyfini çıkarın.