WEBVTT

00:00.490 --> 00:01.990
Herkese merhaba ve tekrar hoş geldiniz.

00:02.020 --> 00:05.350
Son derste ortamımızı oluşturmaya başladık.

00:05.350 --> 00:13.330
Burada postacımızın zorluğumuzu çözmek için yinelemesini istediğimiz 11'e 11'lik bir ızgaramız var.

00:13.960 --> 00:18.490
Artık şebekeye sahip olduktan sonra düşünmeye başlamak istiyoruz.

00:18.490 --> 00:23.890
Temsilcimiz için de eylemlere ihtiyacımız var ve bunları gerçekten hızlı bir şekilde sileceğim.

00:23.890 --> 00:24.970
Bu hücrelere ihtiyacımız yok.

00:24.970 --> 00:27.790
Sadece biraz boşluk olsun istedim.

00:27.790 --> 00:29.490
Sadece görüntülemeyi kolaylaştırıyor.

00:29.500 --> 00:35.530
Bana 1/2 verin, bunları sileyim ve bunu burada bırakalım.

00:35.890 --> 00:36.520
Evet.

00:37.420 --> 00:43.330
Elimizdeki bir metni bıraktım ve eylemlerimizi dik aşağı ve sol olarak ayarlamak istiyoruz.

00:43.570 --> 00:45.580
Python ile bu oldukça basittir.

00:45.580 --> 00:48.270
Listeyi oluşturabilir ve eylemlerimizi belirleyebiliriz.

00:48.280 --> 00:51.400
Eylemlerimiz eşit olacak.

00:52.140 --> 00:55.310
Sağdan yukarı, soldan aşağı iki tane var.

00:55.320 --> 01:01.310
Sağa ve sola doğru ayarlayalım.

01:01.320 --> 01:07.290
Temsilcimize bu eylemlerle labirentte manevra yapabilmesi için biraz yetenek vermemiz gerekiyor.

01:08.270 --> 01:12.000
Buna ek olarak, ödüller de belirlemeye başlamalıyız.

01:12.020 --> 01:18.050
Şimdi, işin biraz daha zorlaşmaya başlayacağı yer burasıdır çünkü ortamımızın

01:18.050 --> 01:25.010
farklı durumlarını, bu -100 ve negatif bir adımları veya bu durum değerlerini ızgaradaki

01:25.010 --> 01:31.930
her kareye atayabilmek istediğimiz anlamda farklı durumları ayarlamamız gerekir.

01:31.940 --> 01:39.320
Dolayısıyla, temsilcimizin şehrimizdeki her bir eyaleti veya konumu öğrenmesine yardımcı olmak için bir ödül değerine sahip olmak istiyoruz.

01:39.320 --> 01:40.910
Ajanımız böyle öğrenecek.

01:40.910 --> 01:45.290
Yani ajan herhangi bir beyaz kareden başlayabilir, ancak hedefi her zaman aynıdır.

01:45.290 --> 01:49.460
Q Learning Native Rewards kapsamında toplam ödüllerini en üst düzeye çıkarmak istiyorum.

01:49.460 --> 01:51.980
Bunların ceza olarak adlandırıldığını biliyoruz.

01:51.980 --> 01:54.110
Bunlar hedef dışındaki tüm durumlar için kullanılır.

01:54.110 --> 01:59.870
Gözü, cezaları en aza indirerek hedefe giden en kısa yolu belirlemeye teşvik eden bu optimal

01:59.870 --> 02:02.780
politikayı bu şekilde oluşturacağız.

02:03.200 --> 02:03.860
Tamam.

02:04.460 --> 02:09.830
Ayrıca, kümülatif ödülleri en üst düzeye çıkarmak için, yapay zeka ajanının ürün paketleme alanı, Yeşil Meydanımız

02:09.830 --> 02:14.060
ve postacının seyahat edebileceği şehrin diğer yerleri arasındaki en kısa yolu bulması

02:14.060 --> 02:15.590
gerekecektir.

02:15.590 --> 02:20.480
Beyaz Kareler ajanları, şehir sınırlarından herhangi birine çarpmaktan kaçınmayı öğrenecekler.

02:20.480 --> 02:23.180
Bunlar -100'de gördüğümüz gibi siyah karelerdir.

02:23.180 --> 02:24.440
Onlardan uzak durmak istiyoruz.

02:24.440 --> 02:26.720
Daha fazla cezaları var.

02:26.810 --> 02:33.050
Bunu yapmak için, yukarıda satırlarımızla oluşturduğumuz ortam olan ızgaramız var,

02:33.050 --> 02:36.290
ancak bu değerleri de ona atamak istiyoruz.

02:36.290 --> 02:42.050
Bunu yapmak için, NumPy kullanabileceğimizi ve ayrıca ortam satırları ve ortam sütunları için Native 100 olarak

02:42.050 --> 02:47.060
ayarlamaya başlayabileceğimizi nasıl belirleyebileceğimizi düşünmeye çalışalım.

02:47.060 --> 02:49.490
Böylece ortam satırlarımız ve ortam sütunlarımız olur.

02:49.490 --> 03:04.280
Öyleyse bu ödülleri num pi full'a eşit olarak adlandıralım ve ortam satırlarımızı ortam sütunlarımızı geçirelim ve değerlerimizi

03:04.280 --> 03:10.370
ayarlamak için -100 ile başlayabiliriz.

03:11.890 --> 03:18.610
Buna ek olarak, ödül penceremizi de şu şekilde ayarlamak istiyoruz.

03:20.150 --> 03:23.780
Sıfır ve beş indekslerini kullanın.

03:24.290 --> 03:25.880
100'e eşittir.

03:26.620 --> 03:28.530
Ve bu birazdan anlam kazanacak.

03:28.540 --> 03:30.190
Bu yüzden Yeşil Meydanımıza bir göz atıyoruz.

03:30.190 --> 03:31.330
Sıfır ve beşimiz var.

03:31.330 --> 03:37.330
Yeşil Karemizi 100 olarak ayarladık ve değeri ayarlamak için bunları veya bu konumu aldık.

03:37.420 --> 03:41.680
Şimdi, üzerinden geçebilmemiz için bir sonraki kod parçasını yapıştıracağım.

03:41.680 --> 03:44.770
Bu yüzden her adımı yazarken beni izlemek zorunda değilsiniz çünkü biraz tekrarlayıcı oluyor.

03:44.770 --> 03:47.690
Ve şimdi beyaz alanlarımız var.

03:47.710 --> 03:51.820
Ödül puanlarımız için notumuzu belirleyelim.

03:52.030 --> 03:57.490
Ve bu kod parçasında, bir sözlük kullanıyoruz ve değerlerimizin her birini sözlüklerimiz içinde ayarlıyoruz.

03:57.490 --> 03:58.480
Yani bizim koridorlarımız var.

03:58.480 --> 04:06.550
Bunu her bir satır olarak düşünüyoruz ve dilimleme ile indeksimizi birden dokuza kadar ayarlayabiliyoruz.

04:06.550 --> 04:11.470
Ve bu değerleri ayarlamak için for döngümüzle birlikte bir yineleme kullanmak istiyoruz.

04:11.860 --> 04:17.650
Bunu yaparken, birden ona kadar, bir, yedi ve dokuza bakarsak ve bunu kullanarak, ortamımızda çalıştığımız

04:17.650 --> 04:23.320
birden ona kadar olan aralığımızdaki satır dizinini ayarlayabileceğimizi göreceksiniz.

04:23.410 --> 04:25.570
Sütun indeksini ayarlayabiliriz.

04:26.530 --> 04:33.310
Sözlüğümüzle satır indeksimizin koridorlarında, ödül satır indeksimiz ve sütun indeksimiz, negatif bir olarak

04:33.310 --> 04:34.720
ayarlayabiliriz.

04:34.720 --> 04:41.650
Yani bunun yaptığı şey, esasen her bir spesifik ürüne bakarsak, burada bir aralık alırsak, örneğin, aralığımızdaki

04:41.650 --> 04:48.160
I için dokuzuncu koridor, tüm ortam boyunca veya ortamımızdaki her bir durumda negatif bir setimiz

04:48.160 --> 04:49.300
var.

04:49.450 --> 04:52.450
Sekiz için üç ve yedi var.

04:52.450 --> 04:57.700
Yukarı kaydırabilirsek, üç ve yedide, hepsi negatif olacağı için negatif bir ayarladığımızı,

04:57.700 --> 05:03.340
100'ün negatif yüze ayarlandığını ve bu yinelemeyle bu ödülleri ayarlayabileceğimizi veya koridorlarımızda

05:03.340 --> 05:08.830
tanımladığımız her durumu negatif bir olarak ayarlayabileceğimizi görebiliriz.

05:08.830 --> 05:10.420
Bu işi çok kolaylaştırıyor.

05:10.420 --> 05:17.260
Daha fazla mantık veya belki daha ayrıntılı fonksiyonlar veya deyimler yazmak zorunda kalmak yerine, bu değerleri yineleyebilir

05:17.260 --> 05:18.880
ve ayarlayabiliriz.

05:18.880 --> 05:24.310
Daha sonra ortamı değiştirmek isterseniz, deneyleri keşfetmek için bir dakikanızı ayırmanızı şiddetle tavsiye ederim.

05:24.310 --> 05:29.440
Bu çözümü çalıştırdıktan sonra, bu politikaları öğrenmeye ve pekiştirmeye yardımcı olmak için harika bir yoldur.

05:29.440 --> 05:35.050
Ancak bu şekillenmeye başlıyor ve yapabileceğimiz harika bir şey de bunu gerçekten görselleştirebilmemiz.

05:35.050 --> 05:38.680
Ödül olarak dört sıra yapalım.

05:39.990 --> 05:46.650
Satırı yazdırın ve bunu yazdıralım ve hücreleri gerçekten yeniden çalıştırmam gerekebileceğini görebiliriz.

05:46.650 --> 05:47.640
Özür dilerim.

05:47.640 --> 05:50.190
Burada çalışan not defterine bağlı değildim.

05:50.220 --> 05:51.270
Yarım ver.

05:51.270 --> 05:52.520
Hata verecek.

05:52.530 --> 05:55.290
Geri dönüp hücreleri yeniden çalıştırmam gerekiyor.

05:55.290 --> 05:57.240
Şunu hızlıca bir gözden geçireyim.

05:57.240 --> 05:58.770
NumPy'yi içe aktarmak istiyorum.

05:58.770 --> 06:00.300
Aslında sadece.

06:00.420 --> 06:01.710
Oh, özür dilerim.

06:02.130 --> 06:04.890
Şunu bir gözden geçireyim ve aşağıya inelim.

06:04.890 --> 06:07.080
Çevremizi yönetmek istiyoruz.

06:07.080 --> 06:08.580
Eylemlerimizi yürütmek istiyoruz.

06:08.580 --> 06:10.710
Diğerleri sadece metin olduğu için onlara ihtiyacımız yok.

06:10.710 --> 06:14.670
Ama sizlerin referans alabilmeniz için bunu da eklemek istiyorum.

06:14.700 --> 06:18.750
Ödül puanlarımızı istiyoruz ve nihayet bunu görselleştirmek istiyoruz.

06:18.810 --> 06:25.920
Görselleştirmeyi, ortamımızın numpy'deki gerçek sayısal temsilini görebiliriz.

06:25.920 --> 06:26.970
Gerçekten harika.

06:26.970 --> 06:29.160
Böylece ortamımızı kurmuş olduk.

06:29.190 --> 06:30.210
Harika iş.

06:30.240 --> 06:31.740
Umarım bunu faydalı buluyorsunuzdur.

06:31.740 --> 06:36.750
Şimdi bu konuyu burada kapatacağız çünkü bir sonraki derste modeli eğitmeye başlayacağız.

06:36.750 --> 06:42.840
Yani bu, temsilcilerimizin eylemlerini, çevremizi, ödüllerimizi ve cezalarımızı belirlemek içindi.

06:42.840 --> 06:46.650
Bu, temsilcinin Q öğrenimi içinde en uygun politikayı oluşturmasına yardımcı olacaktır.

06:46.650 --> 06:53.340
Genel olarak, bu görsel temsili veya bu görüntüyü oluşturduk ve satırımızın çıktısını alırsak

06:53.340 --> 06:54.960
burada görebiliriz.

06:56.060 --> 06:56.840
İnanılmaz.

06:56.930 --> 06:57.560
Tamam.

06:57.710 --> 06:59.000
Saçmalamaya devam etmeyeceğim.

06:59.000 --> 07:00.680
Bir sonraki derste bu konuyu burada kapatalım.

07:00.710 --> 07:02.300
Modeli eğitmeye başlayalım.

07:02.600 --> 07:04.070
Bir sonraki derste görüşürüz.