WEBVTT

00:02.520 --> 00:04.620
Eğitmen: Herkese merhaba ve tekrar hoş geldiniz.

00:04.620 --> 00:07.920
Bu videoda, A3C'yi uygulamak için ChatGPT'yi

00:07.920 --> 00:11.640
kullanarak "Breakout "u çözmek için ChatGPT'yi

00:11.640 --> 00:15.540
nasıl kullanacağımız hakkında konuşacağız.

00:15.540 --> 00:19.470
Bu yüzden zaten bir sürü çılgın ipucu verdim, harika

00:19.470 --> 00:23.010
sonuçlar aldık, onları birazdan göreceğiz.

00:23.010 --> 00:25.170
Bu yüzden bu video temel olarak sonuçları

00:25.170 --> 00:26.640
nasıl elde ettiğime dair

00:26.640 --> 00:28.740
düşünce sürecimi ve A3C algoritması

00:28.740 --> 00:31.470
oluşturmak için ChatGPT'yi nasıl kullanabileceğinizi

00:31.470 --> 00:34.890
gösterecek.

00:34.890 --> 00:39.360
Tamam, "DOOM" için yaptığımıza benzer şekilde başladım, tamam,

00:39.360 --> 00:41.340
temelde robotik alanında yılların

00:41.340 --> 00:42.930
deneyimine sahip bir makine

00:42.930 --> 00:46.110
öğrenimi uzmanısınız dedim.

00:46.110 --> 00:50.490
Seni "Breakout" için A3C algoritması yapman için tutuyorum. Amaç, "Breakout" oyununu oynayabilen tamamen

00:50.490 --> 00:52.110
işlevsel bir SOTA,

00:52.110 --> 00:56.100
A3C algoritmasına sahip olmaktır.

00:56.100 --> 00:58.401
Sınıfları, test kodu ortamını ve

00:58.401 --> 01:00.150
A3C modeli için paylaşılan

01:00.150 --> 01:02.520
ağırlıklar optimize edicisi olarak

01:02.520 --> 01:05.040
kullanılan Adam optimize edicisinin

01:05.040 --> 01:07.590
özel sürümlerini uyguladım.

01:07.590 --> 01:09.361
Yani bu daha fazla bağlam sağlıyor,

01:09.361 --> 01:13.076
yaptığım şey, size bu üç şeyi sağlayacağım.

01:13.076 --> 01:18.000
Kodun geri kalanını oluşturmadan önce atıfta bulunduğum gibi,

01:18.000 --> 01:20.160
amacınız Python, Torch kullanarak,

01:20.160 --> 01:21.900
sahip olduğumuza benzer

01:21.900 --> 01:23.250
şekilde tam çözümü

01:23.250 --> 01:25.650
uygulamak ve kodu daha önce olduğu

01:25.650 --> 01:27.690
gibi Google Colab'da yürütülecek

01:27.690 --> 01:31.680
şekilde optimize etmektir.

01:31.680 --> 01:33.540
Ayrıca, öğrencilerin kodda

01:33.540 --> 01:35.850
ne yaptığınızı anlayabilmeleri için

01:35.850 --> 01:38.590
kodun her bir satırını yorumlayın.

01:40.710 --> 01:42.990
Gerekirse açıklayıcı sorular sorun, anladım.

01:42.990 --> 01:46.500
Dolayısıyla, "DOOM" için Deep Q ile yaptığımız

01:46.500 --> 01:48.360
konuşmalarla örtüşen

01:48.360 --> 01:53.130
bazı şeyler var, ancak ben zaten uyguladığım ve kullanılmasını

01:53.130 --> 01:54.600
istediğim birçok

01:54.600 --> 01:57.390
bağlam ekledim.

01:57.390 --> 02:00.210
Ben de öyle başladım ve onaylandı.

02:00.210 --> 02:03.030
Evet, anlıyorum ve her türlü soruyu soracağım,

02:03.030 --> 02:06.840
lütfen kodun geri kalanını sağlayın.

02:06.840 --> 02:09.510
Sonra bu Adam optimizer dedim, Adam optimizer

02:09.510 --> 02:11.753
için kodu yapıştırdım, elimizdeki

02:11.753 --> 02:15.180
kaynaklar için ve bu talimatı verdim, uygulamadan

02:15.180 --> 02:16.920
önce kodun geri kalanını

02:16.920 --> 02:18.870
bekleyin dedim, sadece, iyi

02:18.870 --> 02:21.963
sonuçlar almadan önce, aslında sadece yapıştırdım

02:23.130 --> 02:30.510
ve geri kalanını beklemeden hemen A3C'yi uygulamaya atladı.

02:30.510 --> 02:32.310
Bu yüzden bunu bir tür

02:32.310 --> 02:33.750
sistemik kod, sistemik

02:33.750 --> 02:38.750
istem olarak ekledim ve tamam, lütfen ortamı sağlayın ve

02:39.060 --> 02:41.820
kodu test edin dedi.

02:41.820 --> 02:42.653
Yani aslında ilk istemde verdiğimiz

02:42.653 --> 02:43.650
şeye atıfta bulunuyor.

02:43.650 --> 02:46.323
Dedim ki, harika, işte

02:47.160 --> 02:51.030
Gym ortamının uygulanması.

02:51.030 --> 02:52.173
Bu ana kodu yapıştırdım,

02:53.760 --> 02:56.010
buraya bağlam ekledim, eğer bakarsanız,

02:56.010 --> 02:57.128
ve bu her şeyi çalıştıran

02:57.128 --> 02:59.040
ana dosya.

02:59.040 --> 03:01.383
Sonra dedim ki, tamam, güzel,

03:03.690 --> 03:05.267
test kodunu bekle.

03:05.267 --> 03:06.813
Ve dedi ki, evet, ancak A3C'yi

03:07.830 --> 03:08.766
uygulamadan önce

03:08.766 --> 03:11.880
hala test kodunu görmem gerekiyor, dedim ki, harika,

03:11.880 --> 03:13.410
işte bir test kodu.

03:13.410 --> 03:15.813
Ve daha büyük, daha büyük bir projeniz

03:16.920 --> 03:19.170
varsa, bunu bir kod parçasını

03:19.170 --> 03:21.480
veya bir referans olarak, stilde

03:21.480 --> 03:23.230
kullanmak için nasıl

03:24.330 --> 03:27.810
kullanabileceğinizi görürsünüz, böylece

03:27.810 --> 03:33.630
aslında kod stilinizde bir şey üretebilirsiniz.

03:33.630 --> 03:34.983
Harika ve bunu yaptığımda,

03:36.360 --> 03:38.370
harika, devam et dedi.

03:38.370 --> 03:41.190
Ve temel olarak bu ana kodu kullanacağımı,

03:41.190 --> 03:45.840
test edeceğimi ve bunu uygulayacağımı söyledi.

03:45.840 --> 03:49.200
Sonra da modelin yaratıldığı yazıyordu. py, ki aslında biz de kursta

03:49.200 --> 03:52.800
bunu yaptık.

03:52.800 --> 03:55.830
Ve dedi ki, işte ActorCritic modeli ve ben

03:55.830 --> 03:58.620
bizimkiyle karşılaştırıyorum.

03:58.620 --> 04:00.630
Bu python'un daha yeni bir sürümüdür, bu nedenle

04:00.630 --> 04:02.310
ağırlıkların başlatılması ve bunun

04:02.310 --> 04:05.640
gibi şeylerin çoğu daha zarif bir şekilde yapılabilir.

04:05.640 --> 04:09.060
Yani bunu yaptı ve aslında oldukça iyi

04:09.060 --> 04:13.680
kullanıyor, sonra tren kodu oluşturdu ve temelde

04:13.680 --> 04:15.663
ActorCritic.

04:16.500 --> 04:19.860
Bir göz atarsanız, oldukça basit olduğunu görürsünüz,

04:19.860 --> 04:22.020
bu yüzden kesinlikle geliştirilmesi

04:22.020 --> 04:23.039
gerekiyor.

04:23.039 --> 04:25.980
Yani yapabileceğiniz şey, tamam, devam

04:25.980 --> 04:27.423
et dedim diyebilirsiniz

04:28.500 --> 04:31.560
ve o da yazmaya devam eder.

04:31.560 --> 04:35.373
Bunu bir tür kayıp olarak yarattı,

04:37.920 --> 04:41.040
ancak evet, temelde ihtiyacımız

04:41.040 --> 04:45.030
olan her şey var, her şeyi optimize

04:45.030 --> 04:47.910
etti ve bu optimize ediciyi

04:47.910 --> 04:51.333
görebilirsiniz. Sonunda dur.

04:53.160 --> 04:56.550
Yani temelde şimdiye kadar

04:56.550 --> 04:58.080
tanımladığımız her şeyi

04:58.080 --> 04:59.220
ve uygun kaybı ve evet,

04:59.220 --> 05:02.490
optimize ediciyi, her şeyi kullandı.

05:02.490 --> 05:05.730
İşte bu kadar.

05:05.730 --> 05:07.591
Birkaç basit adımda,

05:07.591 --> 05:10.530
2017, 2018'in en iyilerinden biri

05:10.530 --> 05:13.170
gibi olan son teknoloji modellerden

05:13.170 --> 05:15.270
biri için tüm kodu uygulamayı

05:15.270 --> 05:18.450
başardık.

05:18.450 --> 05:21.060
Bugüne kadar, aslında "Breakout"

05:21.060 --> 05:24.900
gibi karmaşık ortamları çözmek için çok fazla

05:24.900 --> 05:27.240
kapasiteye sahipti. Gördüğünüz gibi, örneğin ChatGPT'ye sahip

05:27.240 --> 05:28.710
olduğumuza göre, kodun belirli

05:28.710 --> 05:32.490
kısımlarını uygulamak için onu yönlendirebilirsiniz.

05:32.490 --> 05:35.250
Ve kodun belirli bölümlerinin

05:35.250 --> 05:36.990
gerçekte ne yaptığını

05:36.990 --> 05:39.450
bilmiyorsanız, gidip ona sorabilirsiniz,

05:39.450 --> 05:42.450
örneğin, havalı, eğitim bölümünü

05:42.450 --> 05:44.853
açıklayabilir misiniz ve Adam'ın

05:47.310 --> 05:51.840
geleneği nerede?

05:51.840 --> 05:56.200
Bu yüzden onu aslında kendini açıklamaya yönlendiriyorum, bu da temelde

05:58.320 --> 05:59.223
size üretiminin

06:04.740 --> 06:08.430
arkasında daha fazla mantık sunması için onu yönlendirmenin

06:08.430 --> 06:10.290
başka bir yolu.

06:10.290 --> 06:12.570
Ve aslında adım adım

06:12.570 --> 06:16.803
açıklayacağını görebilirsiniz.

06:17.730 --> 06:18.563
Evet, bunu bekleyebiliriz,

06:18.563 --> 06:21.213
aynı komutları verebilirsiniz ve benimkine

06:22.920 --> 06:27.510
gerçekten benzer sonuçlar elde edersiniz, ancak genel olarak şimdi

06:27.510 --> 06:31.950
yapacağı şey, tam burada en üstte tanımladığı tren işlevini almak

06:31.950 --> 06:34.050
ve temelde her bir adımdan geçip

06:34.050 --> 06:38.010
onu uygulamak olacaktır.

06:38.010 --> 06:40.890
Yani evet, bu olabilir.

06:40.890 --> 06:43.803
Bu kodu Google Colab'da denemenizi kesinlikle

06:44.700 --> 06:48.600
tavsiye ederim, yapılabilir,

06:48.600 --> 06:54.780
Goggle Colab ortamının görselleştirmesi ve sınırlamaları nedeniyle çalışması

06:54.780 --> 06:58.380
biraz zor olacaktır.

06:58.380 --> 06:59.760
Ancak, kesinlikle gidip

06:59.760 --> 07:02.430
hataları buraya yapıştırabilir ve süreci

07:02.430 --> 07:03.840
ayıklamak için oldukça

07:03.840 --> 07:07.083
iyi sonuçlar elde edebilirsiniz.

07:08.580 --> 07:11.310
Ve evet, bununla birlikte sizi rahat bırakacağım ve

07:11.310 --> 07:13.890
artık A3C için nasıl değer elde edeceğiniz konusunda

07:13.890 --> 07:16.860
ChatGPT'yi kullanmanın yolunu biliyorsunuz.

07:16.860 --> 07:20.400
Ve evet, umarım şu ana kadar kursu

07:20.400 --> 07:24.960
beğenmişsinizdir, hoşça kalın.
