WEBVTT

00:01.400 --> 00:03.230
Merhaba ve tekrar hoş geldiniz.

00:03.260 --> 00:08.990
Son derste, çevremizin gerçek tanımını, değerlerimizin temsilini, ceza ve ödüllerimizi

00:08.990 --> 00:14.330
ve çevredeki eylemlerimizi bitirdik veya sonlandırdık.

00:14.360 --> 00:20.600
Bu derste yapmak istediğim şey, eğitimi, modelin nasıl eğitileceğinin arkasındaki fikri tanıtmak

00:20.600 --> 00:22.880
ve başlamanıza yardımcı olmaktır.

00:22.880 --> 00:28.520
Ve bir sonraki derste çözümü ve ilgili adımların daha ayrıntılı bir dökümünü sunun.

00:28.520 --> 00:32.960
Bu yüzden eğitim için gerekli olan modeli eğitmemiz gerekiyor.

00:33.620 --> 00:38.840
Bu, modeli eğitmek için sonraki adımlarda kullanabileceğimiz bir yaklaşımdır.

00:38.840 --> 00:44.240
Ajanımızın beyaz karesi olacak rastgele bir terminal olmayan durum seçmek istiyoruz ve eğitim

00:44.240 --> 00:47.210
bölümümüze bu şekilde başlamak istiyoruz.

00:47.210 --> 00:50.360
Daha sonra elbette mevcut durum için bir eylem seçmek istiyoruz.

00:50.360 --> 00:53.120
Temsilcimizin çevrede hareket edebilmesini sağlamamız gerekiyor.

00:53.120 --> 00:59.450
Dolayısıyla, bu mücadelede bizim ve temsilcimiz için eylemler Epsilon Greedy kullanılarak seçilecektir.

00:59.660 --> 01:04.790
Bu algoritma genellikle temsilci için en umut verici eylemi seçecek, ancak bazen daha az umut verici bir

01:04.790 --> 01:05.870
seçenek seçecektir.

01:05.870 --> 01:10.850
Temsilciyi çevreyi keşfetmeye teşvik etmek için gerçekten en uygun politikayı bulmak istiyoruz.

01:11.210 --> 01:15.140
Daha sonra seçilen eylemi gerçekleştirmek ve bir sonraki duruma geçmek istiyoruz.

01:15.140 --> 01:16.490
Bir sonraki konuma geçin.

01:16.490 --> 01:21.200
Bunu söylememin nedeni, sizlerden bu sorunu çözmek için bunu nasıl işlevlere ayırabileceğinizi

01:21.200 --> 01:23.060
düşünmenizi istiyorum.

01:23.480 --> 01:29.660
Daha sonra, yeni bir duruma geçmek için bir ödül almamız ve ardından zamansal farkı hesaplamamız gerekir.

01:29.660 --> 01:34.940
Eylem çiftindeki önceki durum için Q değerini güncellememiz gerekir ve eğer yeni veya mevcut durum bir

01:34.970 --> 01:37.550
terminal durum ise, o zaman bir tanesine gideriz.

01:37.550 --> 01:39.380
Aksi takdirde ikinci adıma geçeriz.

01:39.380 --> 01:43.610
Yani tüm süreç boyunca 1000 bölüm boyunca koşmayı hedefleyeceğiz.

01:43.610 --> 01:50.810
Bu bize ya da temsilcimize, ürün paketleme alanı ile örnek şehrimizdeki diğer konumlar arasındaki

01:50.810 --> 01:55.790
en kısa yolu hesaplamak için yeterli fırsatı verecektir.

01:56.570 --> 01:57.260
Harika.

01:57.440 --> 02:02.990
Bu yüzden lütfen bu konuya nasıl yaklaşacağınızı düşünün ve ben de size bu konuyu çözmeniz için bir fikir vermek istiyorum.

02:02.990 --> 02:08.240
Bu yüzden çözümümüzde aşağıdaki fonksiyonları kullanacağız.

02:08.540 --> 02:10.700
Aslında bir kod hücresi olduğu için bunu yorumlayabilirim.

02:10.730 --> 02:11.840
Özür dilerim.

02:11.840 --> 02:13.250
Dolar işareti istemiyoruz.

02:13.250 --> 02:18.230
Bunları yorumlamak istiyoruz ve ilkine başlamanıza yardımcı olacağım.

02:19.020 --> 02:24.600
Genel olarak, modeli eğitmek için adımlarımızı tanımlayan bu fonksiyonlara sahip olacağız.

02:24.900 --> 02:29.910
Ve başlamanıza yardımcı olmak için, python'da bir fonksiyon oluştururken terminal durumuna

02:29.910 --> 02:35.370
nasıl yaklaşacağımıza bir göz atalım, bunun için ilk önce elbette fonksiyonumuzu olduğu gibi tanımlamak

02:35.370 --> 02:36.450
isteyeceğiz.

02:37.610 --> 02:39.530
Terminal durumu.

02:40.640 --> 02:45.320
Ve bunlar, size bir fikir vermek için göreceğiniz işlevlerin adlarıdır.

02:45.350 --> 02:51.170
Yapmak istediğimiz şey, geçerli satır indeksini ve geçerli sütun indeksini almaktır.

02:52.980 --> 03:02.010
Bu bize temsilcimizin konumunu vermemize yardımcı olacak ve ödüllerimiz için buraya doğru veya yanlış ekleyebiliriz.

03:02.010 --> 03:03.210
Bu yüzden if ifadesine ihtiyacımız var.

03:03.210 --> 03:05.790
Öyleyse ödüllerimizi belirleyelim.

03:07.490 --> 03:08.630
Şu anki.

03:09.410 --> 03:11.600
Sıra indeksi.

03:12.480 --> 03:20.190
Ve eğer bu durumdaysalar mevcut sütun indeksi negatif bire eşittir.

03:24.300 --> 03:28.500
Yanlış veya başka türlü ya da başka türlü döndürürüz.

03:29.850 --> 03:30.990
Tekrar geleceğiz.

03:31.470 --> 03:32.100
Doğru.

03:33.590 --> 03:35.030
Yeterince açık.

03:35.360 --> 03:41.390
Ve bu şekilde, terminal durumda mevcutsa, başlangıç konumunu elde etmek istedikten sonra terminal

03:41.390 --> 03:44.240
durumumuz hakkında fikir edineceğiz.

03:44.240 --> 03:50.750
İpucu olarak, mevcut satır indeksini ve mevcut sütun indeksini kullanarak ve numpy'yi rastgele bir şekilde ayarlayarak

03:50.750 --> 03:52.820
bir göz atabilirsiniz.

03:52.820 --> 03:57.200
Bunu çevre satırları çevre sütunlarına rastgele bir şekilde başlatmak istiyoruz.

03:57.200 --> 04:00.620
Ancak bir sonraki derste bir döküm göreceksiniz.

04:00.620 --> 04:04.790
Size bir fikir vermesi için bazı notlarla birlikte işlevlerin geri kalanını göreceksiniz.

04:04.790 --> 04:09.020
Umarım siz de bunu deneme şansını yakalarsınız çünkü bu, öğrenmenin ve size fikir

04:09.020 --> 04:10.700
vermenin harika bir yoludur.

04:10.700 --> 04:12.200
Bu da başlamanız için.

04:12.200 --> 04:15.260
Merak etmeyin, çözümü bir sonraki derste öğreneceksiniz.

04:15.260 --> 04:21.860
Daha sonra bir Epsilon indirim faktörü, öğrenme oranı ve eğitim için bu tür şeyler atayarak, eğitimi çalıştırarak

04:21.860 --> 04:25.760
ve sonuçları görüntüleyerek işleri tamamlayacağız.

04:26.060 --> 04:26.900
Harika.

04:27.260 --> 04:29.660
Burada tekrar duralım.

04:29.660 --> 04:30.890
Bunu çözmeye çalış.

04:30.890 --> 04:35.390
Ama değilse, sadece ilerlemek istiyorsanız, bir sonraki derse gidin ve bu işlevlerin

04:35.390 --> 04:38.180
tanımlanması için eğitim çözümünü alacaksınız.

04:38.420 --> 04:40.340
Pekâlâ, bir sonraki derste görüşmek üzere.