WEBVTT

00:01.340 --> 00:03.110
Herkese merhaba ve tekrar hoş geldiniz.

00:03.140 --> 00:10.070
Son derste, modellerimizi eğitmek üzere işlevselliğimizin çekirdeğini gerçekten kurmak için yardımcı işlevlerimizi nasıl kullandığımızı

00:10.070 --> 00:11.300
gördünüz.

00:11.300 --> 00:16.430
Böylece terminal durumumuz, başlangıç konumumuz, bir sonraki eylemimiz, bir sonraki konumumuz

00:16.430 --> 00:21.460
ve en kısa yolumuz, aracımızın veya çevrenin nasıl çalışacağının çoğunu gerçekten tanımlar.

00:21.470 --> 00:25.520
Yapmamız gereken son şey, eğitimimizi kullanmak için eğitimimizi kullanmaktır.

00:25.520 --> 00:31.340
Neleri dahil etmemiz gerektiği konusunda oldukça basit bir konu ancak bunu nasıl yapacağımız farklı bir

00:31.340 --> 00:31.940
hikaye.

00:32.180 --> 00:36.830
Bununla birlikte, farklı bir yaklaşım kullanıyorsanız veya bunu özelleştirmek ve denemek istiyorsanız,

00:36.830 --> 00:38.510
şiddetle tavsiye edilir.

00:38.510 --> 00:42.470
Buna ek olarak, farklı bir yaklaşım kullanıyorsanız ve bunu tartışmak istiyorsanız, lütfen bunu Soru-Cevap bölümünde

00:42.470 --> 00:43.670
paylaşmaktan çekinmeyin.

00:43.700 --> 00:45.470
Bunu sizinle tartışmaktan mutluluk duyarım.

00:45.470 --> 00:50.510
Bu harika bir fikir çünkü bunu çözmenin pek çok yolu var ve çok daha iyi, daha avantajlı

00:50.510 --> 00:52.220
bir yol bulabilirsiniz.

00:52.220 --> 00:55.670
Artıları ve eksileri tekrar gözden geçirebiliriz, bunu tartışmaktan mutluluk duyarız.

00:55.670 --> 00:56.090
Tamam.

00:56.090 --> 00:57.290
Peki ne yapmamız gerekiyor?

00:57.320 --> 00:59.090
Eğitimimizi başlatmak zorundayız.

00:59.090 --> 01:00.050
Eğitimimiz için.

01:00.050 --> 01:01.520
Epsilon'u kullanmak istiyoruz.

01:01.520 --> 01:08.960
Yani temelde rastgele bir eylem yerine bizim için en iyi eylem için alacağımız yüzde.

01:08.960 --> 01:15.710
Şimdi epsilonumuzu ayarlayalım ve 0 olarak belirleyelim. 9 ve iskonto faktörümüz ve öğrenme oranımız için değerlerimizle

01:15.710 --> 01:18.080
benzer bir şey yapacağız.

01:18.080 --> 01:23.300
Öyleyse iskonto faktörünü 0'a eşit yapalım. 9.

01:23.660 --> 01:29.780
Ayrıca öğrenme oranımızı alalım ve 0'a eşit olacak şekilde ayarlayalım. 9.

01:29.810 --> 01:33.860
Temsilcimizin öğreneceği ya da öğrenmesi gereken oran bu olacaktır.

01:33.860 --> 01:39.320
Ayrıca eğitim bölümlerinin sayısını da almak istiyoruz, buna n eğitim bölümü diyelim.

01:39.320 --> 01:41.330
Bu yüzden bir dizi eğitim bölümümüz var.

01:41.330 --> 01:42.560
1000'e ayarlayalım.

01:42.560 --> 01:46.640
Kaç kez eğitilecek ya da kaç bölümde eğitilecek?

01:48.140 --> 01:48.800
Harika.

01:49.010 --> 01:52.910
Şimdi, esasen yapmak istediğimiz şey her bölüm boyunca yinelemek.

01:52.910 --> 02:00.100
Eğitim bölümü sayımızın aralığını almak ve temel olarak epsilonumuzu ayarlamak istiyoruz.

02:00.110 --> 02:01.820
Zamansal farkımızı öğrenmek istiyoruz.

02:01.820 --> 02:04.640
Bunu ayarlamak için önceki bazı Q değerlerine bakmamız gerekir.

02:04.640 --> 02:08.510
Eylem dizinimizdeki başlangıç konumumuzu hesaplamamız gerekir.

02:08.510 --> 02:10.790
Öyleyse başlayalım.

02:11.000 --> 02:12.500
Büyük bir for döngüsü alalım.

02:12.500 --> 02:14.750
Dört bölümümüz var.

02:16.840 --> 02:20.080
Eğitim bölümlerimizin sayısı aralığında.

02:22.120 --> 02:22.730
İşte başlıyoruz.

02:22.750 --> 02:31.420
Herhangi bir sözdizimi hatası yapmadığım sürece, maize sütun indeksimiz için ızgaramızın satır indeksini ve sütun

02:31.420 --> 02:33.970
indeksini almak istiyoruz.

02:36.110 --> 02:39.950
Ve hedef başlangıç konumuna ayarlayın.

02:39.950 --> 02:44.480
Bir başlangıç yerine ihtiyacımız var, bu yüzden her bölümde bu dökümü yapalım.

02:45.040 --> 02:49.600
Şimdi terminal durumumuzu ayarlayabiliriz.

02:51.210 --> 02:51.990
Hayır.

02:52.880 --> 02:56.330
Terminal durumudur.

02:56.360 --> 03:01.580
Satır indeksine ve sütun indeksine bakmak istiyoruz.

03:03.020 --> 03:07.340
Ardından, bir sonraki eylemimiz için eylem indeksimizi ayarlayalım.

03:07.340 --> 03:09.050
Dolayısıyla bir sonraki eylemimize ihtiyacımız var.

03:09.050 --> 03:16.790
Bu ajan eylem indeksimiz için labirentte yineleme yaparken, get next eylemimizi kullanabiliriz.

03:17.740 --> 03:24.760
Ve satır indeksimizi sütun indeksimizi kullanabiliriz ve epsilonumuzu çağıralım.

03:24.760 --> 03:29.860
Rastgele eylemimiz yerine bunu yapmak istiyoruz, sütun dizini kullanalım.

03:32.020 --> 03:33.880
Ve Epsilon'a ihtiyacımız var.

03:34.300 --> 03:34.910
Harika.

03:35.350 --> 03:37.510
Eğer doğru heceleyebilseydim, işte biz.

03:37.510 --> 03:39.220
Epsilon'u mu istiyorsun?

03:39.910 --> 03:42.330
Pekâlâ, şu OC'yi sileyim.

03:42.370 --> 03:48.280
Kodun geri kalanını alayım ve üzerinden geçelim, böylece her satırı yazarken beni izlemek zorunda kalmayız.

03:48.280 --> 03:54.190
Ancak, eski satırı ayarlama konusuna nasıl yaklaşmak istediğimizi aklınızda bulundurun, bir eski satır indeksine ihtiyacımız

03:54.190 --> 03:55.120
olacaktır.

03:55.120 --> 04:00.310
Ayrıca sütunlarımız ve satırlarımız için de ödüllere sahip olmak isteriz.

04:00.310 --> 04:05.890
Kuyruk değerlerine ve eski kuyruk değerlerine bakmamız ve zamansal farkımızı hesaplamamız gerekiyor.

04:06.220 --> 04:10.000
OC Böylece koddaki değişikliği veya koddaki güncellemeyi görüyorsunuz.

04:10.000 --> 04:16.450
Satır indeksimize ve sütun indeksimize bakmak için eski satır indeksimizi ve eski sütun indeksimizi alıyoruz.

04:16.450 --> 04:22.300
Satır dizinimiz sütun dizinimiz bir sonraki konumumuza eşittir ve bir sonraki konumumuz satır dizini, sütun,

04:22.300 --> 04:24.280
dizin ve eyleme ihtiyaç duyacaktır.

04:25.250 --> 04:27.410
Son olarak, bir ödülle karşı karşıyayız.

04:27.680 --> 04:34.640
Eski Q değerlerimiz, eski satır indeksi, eski sütun indeksi ve yine eylem indeksimize ve ödülümüz

04:34.640 --> 04:40.700
olan zamansal farkımızın hesaplanmasına atıfta bulunan Q değerleri, artı indirim faktörü

04:40.700 --> 04:48.440
çarpı satır indeksi ve sütun indeksi ile Q değerleri eksi önceki Q değerinden eski Q değeri olacaktır.

04:50.040 --> 04:56.040
Eski Q değerimiz artı öğrenme oranı, zamanlar, zamansal fark ve eski sütun indeksimizdeki

04:56.040 --> 05:03.420
eski satır indeksi ile yeni Q değerine eşit olan Q değerlerimiz olan yeni Q değerimize ihtiyaç duyduğumuz yerde neredeyse

05:03.420 --> 05:04.560
bitti.

05:05.770 --> 05:09.940
Eğer bu konuyu tekrar tartışmak isterseniz, Soru-Cevap bölümünü şiddetle tavsiye ederim.

05:09.940 --> 05:11.270
Lütfen yazdırmaktan çekinmeyin.

05:11.290 --> 05:13.660
Burada kullanılan tüm değişkenleri denemeye çalışın.

05:13.660 --> 05:17.380
Şekilleri görmek istiyorsanız, nasıl kullanılabileceklerini, neye referans verdiklerini görün.

05:17.380 --> 05:20.620
Şiddetle tavsiye ediyorum ve daha fazla tartışmaktan mutluluk duyarım.

05:21.040 --> 05:24.640
Yapabileceğimiz son bir şey daha var, böylece küçük bir bildirim alabiliriz.

05:24.640 --> 05:30.040
Bir print deyimi ekleyelim, böylece 1000 satırımız için eğitimin ne zaman tamamlandığını bilelim.

05:30.040 --> 05:30.880
Tamam.

05:30.910 --> 05:34.660
Benim açımdan sözdizimi hatası yoksa, gitmeye hazır olmalıyız.

05:34.690 --> 05:36.730
Collab not defteri başlatılır.

05:36.730 --> 05:37.770
Her şeyi yeniden yaptım.

05:37.820 --> 05:38.710
Şunu çalıştırayım.

05:38.710 --> 05:41.560
Sadece numpy kullandığımız için çok hızlı olması gerekir.

05:41.590 --> 05:44.050
Bir anlamda çok optimize edilmiş bir model.

05:44.080 --> 05:47.080
Buna tıklayayım ve ardından en kısa yolu arayalım.

05:48.400 --> 05:48.790
Tamam.

05:48.790 --> 05:50.320
Eğitimimiz tamamlandı.

05:50.530 --> 05:54.820
Bazı başlangıç seçenekleri için en kısa yolu da yazdıralım.

05:54.820 --> 05:59.920
Bu yüzden üçüncü satır, dokuzuncu sütunda en kısa yol seçeneğiyle en kısa yolumuzla başlıyoruz.

06:00.010 --> 06:06.940
Beşinci satıra ve sıfıra bakmak istiyoruz ve dokuzuncu satırdan ve beş numaralı sütundan başlıyoruz.

06:07.030 --> 06:08.320
Şunların çıktısını alalım.

06:08.920 --> 06:09.430
Harika.

06:09.430 --> 06:12.430
En kısa yolu bulduk ama işimiz bitmedi.

06:12.430 --> 06:13.630
Neredeyse geldik.

06:13.870 --> 06:20.680
Postacımızın, şehrimizden konum olarak kabul edebileceğimiz yasal bir yerden ürün paketleme alanına giden en kısa yolu otomatik

06:20.680 --> 06:22.840
olarak aldığını görebiliriz.

06:22.840 --> 06:25.540
Peki ya tersi ya da tam tersi senaryo ne olacak?

06:25.540 --> 06:31.300
Temel olarak postacımız bir ürünü şehrin herhangi bir yerinden paketleme alanına teslim edebilir mi?

06:31.300 --> 06:37.570
Ancak üründen sonra o bölgeden, paketleme alanından şehirdeki başka bir yere gitmesi gerekecektir,

06:37.570 --> 06:40.470
çünkü bir sonraki ürünü alması gerekecektir.

06:40.480 --> 06:43.840
Peki bunu çözmek için ne yapabiliriz?

06:43.840 --> 06:45.370
Ve aslında oldukça basit.

06:45.370 --> 06:48.100
En kısa yolun sırasını gözden geçirebilirsiniz.

06:48.700 --> 06:52.270
Bunu bir an için düşünmeye çalışın ve sonra çözüm bu olacaktır.

06:53.290 --> 06:55.150
En kısa yolu kullanabiliriz.

06:55.150 --> 07:00.580
Beşinci satırı ve ikinci sütunu ele alalım ve sonra tek yapmanız gereken ters seçeneğini kullanmak olsun.

07:00.580 --> 07:04.450
Python ile path reverse kullanırız ve yolu yazdırabiliriz.

07:04.450 --> 07:06.250
Yani beş ve ikiye bakıyoruz.

07:07.080 --> 07:07.860
Ve işte başlıyoruz.

07:07.860 --> 07:13.020
En kısa yola sahibiz ve hücredeki görüntüyü alıp karşılaştırmak ve bu yollara bakmak için aşağı getirmek istiyorsanız

07:13.020 --> 07:14.940
gerçekten yardımcı olur.

07:14.940 --> 07:20.370
Ancak ekstrenin çıktısını alır, sıradaki sütuna bakar ve bu satıcıların nasıl seyahat ettiğini

07:20.370 --> 07:23.250
görürseniz aslında yolları görebilirsiniz.

07:23.250 --> 07:25.770
Kullandığınız iş çok harika.

07:25.770 --> 07:26.820
Q Learning.

07:26.820 --> 07:32.640
Bu kurstan öğrendiklerimiz, gezgin satıcı türünden bir problemi çözmek için biraz bonus ve eğlenceli

07:32.640 --> 07:35.100
bir senaryo ve bölüm içeriyor.

07:35.100 --> 07:40.830
Bu en kısa seçenekleri ve en kısa yolları bulmak için şehirdeki paketleri ve eşyaları teslim eden postacıya

07:40.830 --> 07:41.880
bakıyoruz.

07:41.880 --> 07:47.460
Özelleştirmenizi, diğer seçenekleri test etmenizi, hiper parametreleri değiştirmenizi ve daha iyi bir şey keşfederseniz,

07:47.460 --> 07:53.700
herhangi bir optimize veya kullanılacak en iyi parametreleri keşfederseniz, lütfen bunları Soru-Cevap bölümünde paylaşmaktan

07:53.700 --> 07:55.200
çekinmeyin.

07:55.680 --> 07:56.340
İnanılmaz.

07:56.340 --> 07:58.260
Umarım bunu gerçekten beğenmişsinizdir.

07:58.260 --> 08:01.470
Lütfen özelleştirin, deneyin ve öğrenmeye devam edin.

08:01.470 --> 08:02.820
Onunla çalışmak çok eğlenceli.

08:02.830 --> 08:03.030
Q.

08:03.030 --> 08:04.980
Öğrenmek ve eğlenmek i.
