WEBVTT

00:00.480 --> 00:03.160
Merhaba ve bu Python öğreticisine hoş geldiniz.

00:03.180 --> 00:03.520
Tamam.

00:03.520 --> 00:08.810
Bu yağda, doğru hareketi ve her seferinde onu seçecek işlevi yapacağız.

00:08.810 --> 00:13.650
Yani temelde arabayı doğru hareket haline getirecek olan kısmı uygulayacağız.

00:13.740 --> 00:18.780
Ve her seferinde düz gitmeye ya da hedefe ulaşmak için doğru gidişe

00:18.780 --> 00:20.640
ve engellerin önüne geçilmeye bırakılıyor.

00:21.000 --> 00:22.350
O halde şimdi bunu yapalım.

00:22.370 --> 00:28.320
bir parola koyacağız ve bu seçme eylemi işlevi iki argüman alacaktır.

00:28.320 --> 00:36.370
Bir işlevi tanımlamak için her zamanki gibi sağırlarla başlayacağız ve ardından bazı eylemden seçme eylemi

00:36.550 --> 00:37.410
diyeceğimiz fonksiyona

00:37.450 --> 00:43.960
Birincisi, nesneye atıfta bulunmak için büyüyorsun kendine özgüdür ve kendinize göre hangisine ait

00:43.960 --> 00:46.150
olacak ikinci argüman vardır.

00:46.390 --> 00:47.860
Peki ne olabilirdi.

00:47.860 --> 00:54.220
ya da üç olası eylemin her biri için q değerleri ve bu

00:54.220 --> 00:59.890
nedenle, çıktı olacağı eylemi gerçekleştiren eylem. sinir ağı giriş durumuna bağlıdır

00:59.890 --> 01:05.980
ve girdi durumları tam olarak, seçme eylemi işleviyle ihtiyacımız olan ikinci argümandır.

01:05.980 --> 01:11.610
Düşünerseniz, seçtiğimiz eylem, sinir ağının çıktısından gelir; çünkü sinir ağı çıktısı

01:11.680 --> 01:16.310
Çünkü tam anlamıyla sinir ağı çıktısını alacağız.

01:16.510 --> 01:22.180
Ve tabii ki sinir ağı çıktısı doğrudan sinir ağı girdisine bağlıdır.

01:22.360 --> 01:24.010
Bu yüzden bizim argümanımız olacak.

01:24.280 --> 01:31.720
Ve şimdi bunu devlet olarak adlandıracağımız herhangi bir ad verebiliriz çünkü sinir ağlarının girişi, beş boyuttan

01:31.960 --> 01:38.280
üç sinyale yönlendirme ve eksi yönlendirme olmak üzere beş boyutlu bir vektör tarafından

01:38.480 --> 01:39.920
kodlanan girdi durumlarıdır.

01:40.120 --> 01:42.120
Ve şimdi şeyler kolay olacak.

01:42.160 --> 01:47.860
Giriş durumunu sinir ağına besleyeceğiz, sağdaki sınıfı bir sonraki sınıfla inşa

01:47.860 --> 01:54.520
ediyoruz ve daha sonra üç olası eylemin her biri için anahtar değerler olan

01:54.520 --> 01:59.530
çıktıları alacağız ve sonra Bu öğreticide açıklayacağımız yumuşak Max yöntemini

01:59.530 --> 02:00.360
kullanarak.

02:00.400 --> 02:03.140
Son olarak oynamak için harekete geçeceğiz.

02:03.280 --> 02:08.460
Bu işin içine girelim ve bunları uygulayalım.

02:08.470 --> 02:14.980
Başlamamız gereken ilk şey, az önce bahsettiğim şeyle ilgili, Max'in yumuşak

02:14.980 --> 02:20.590
Max fikri her seferinde en iyi oyunu almaya çalışacağımız yönünde.

02:20.740 --> 02:25.000
Ancak aynı zamanda farklı eylemleri de keşfedeceğiz.

02:25.000 --> 02:25.950
Ve bunu nasıl yapacağız.

02:25.960 --> 02:31.080
Diğer eylemleri araştırmaya devam ederken nasıl oynamak için en iyi işlemi alabiliriz?

02:31.270 --> 02:39.250
Her bir q değeri için bir olasılık dağılımı üreten bu madde

02:39.250 --> 02:40.370
fikrini kullandık.

02:40.420 --> 02:42.100
Q Devlet eylemi.

02:42.160 --> 02:46.600
Artık her hareket için bir Q değeri var, oradan da sağdan sola gidiyoruz.

02:46.850 --> 02:49.680
Ancak bu q değeri giriş durumuna da bağlıdır.

02:49.690 --> 02:52.720
Tam olarak Q işlevinin sezgi derslerinde kullandığı şey budur.

02:52.870 --> 02:56.280
Bu Q işlevi, devletin ve eylemin bir fonksiyonudur.

02:56.320 --> 03:02.540
Burada burada devlet olan bir giriş durumu ve üç olası eylem,

03:02.540 --> 03:09.070
çünkü üç yeni değerimiz var Q. Durum eylemi 1 Q devlet eylemi 2 ve iki durum

03:09.070 --> 03:13.760
eylemi 3 ve biz bu üç anahtar değere göre olasılık dağılımı üretmek için gidiyoruz.

03:13.930 --> 03:19.420
Yani birinci Q değeri için ikinci Q değeri için olasılıklardan biri ve üçüncü Q

03:19.420 --> 03:25.490
için bir üçüncü olasılık için bir ihtimal bulacağız ve üç olasılık da toplamı 1 olacak.

03:25.670 --> 03:31.840
bütün bunları sızarmış Max ile yapacağız ve souged Max, etrafındaki en yüksek Q olasılığına sahip olacak.

03:32.170 --> 03:33.530
Ve bu yüzden

03:33.820 --> 03:41.050
Bu nedenle yumuşak Max'e bir alternatif, doğrudan q değerlerinin maksimumunu almayan basit bir RMX

03:41.530 --> 03:44.860
ancak bu durumda diğer işlemleri keşfetmiyoruz.

03:44.920 --> 03:50.500
Bu olasılıklar sayesinde, çok hızlı bir şekilde göreceğimiz bir sıcaklık parametresi kullanarak başka

03:50.500 --> 03:51.900
bir yerde keşfedebiliriz.

03:52.210 --> 03:55.990
Bu sıcaklık parametresini yapılandırarak onları hala keşfedebiliriz.

03:56.020 --> 04:03.380
Bu nedenle genel olarak güvenlik açısından basit bir RMX yerine yumuşak x kullanmanızı şiddetle tavsiye ederim.

04:03.460 --> 04:06.990
Pekâlâ, bu yüzden X uygulamalarını yapalım ve bu nedenle anladığınız gibi.

04:07.060 --> 04:12.990
Sümüklü Max, mümkün olan üç eylem için üç Q değerinden her birinin olasılıklarını döndürür.

04:13.180 --> 04:20.120
Peki, yaratacağımız ilk değişken muhtemelen bu olasılıklara atıfta bulunuyor.

04:20.450 --> 04:26.680
Dolayısıyla eşyalar eşit ve şimdi sızarmış bir sonraki işlevi alacağız ve sana göre nereden

04:26.680 --> 04:28.070
alacağız ona göre.

04:28.330 --> 04:31.600
Elbette ki ithal ettiğimizi hatırlıyor musun?

04:31.700 --> 04:38.130
Ve hatırlattığım işlevsel alt modül, bir sinir ağı uygulamak için eylemlerin

04:38.140 --> 04:39.790
çoğunu içeren modüldür.

04:39.820 --> 04:44.980
bu aslında bu fonksiyonel alt modülden, kendi sonraki fonksiyonumuzu alacağımız anlamına geliyor.

04:44.980 --> 04:46.990
F kısayolunu verdik ve

04:47.290 --> 04:53.830
Fakat ona bir kısayol verdikten sonra, burada bir sonraki fonksiyonumuzu aldığımız fonksiyonu temsil eden

04:54.040 --> 04:56.080
bir Neph ile başlıyoruz.

04:56.080 --> 04:56.920
İşte burada.

04:56.980 --> 04:59.540
İlk ve parantez bu.

04:59.770 --> 05:00.160
Tamam.

05:00.200 --> 05:03.920
Şimdi bir sonraki işleve girmek için neye ihtiyacımız var.

05:04.150 --> 05:10.020
Tabii ki bunun için olasılık dağılımı oluşturmak istediğimiz varlıklardır.

05:10.190 --> 05:11.430
Ve bu varlıklar nelerdir.

05:11.550 --> 05:13.870
Elbette bunlar anahtar değerlerdir.

05:13.870 --> 05:16.790
Şimdi soru şu ki q değerlerini nasıl elde edebiliriz.

05:16.960 --> 05:22.720
Elbette q değerleri, sinir ağı çıktısıdır ve sinir ağının bu çıktılarını elde etmek

05:22.720 --> 05:23.410
için kullanılır.

05:23.590 --> 05:24.560
İşte geldik

05:24.610 --> 05:26.830
Yeni ağımızı almamız gerekiyor.

05:27.100 --> 05:33.520
Ama aslında biz zaten sahibiz çünkü sonunda işlev başlatıldı.

05:33.530 --> 05:39.980
İşe yaramayacak başka bir şey olmayan kendi kendine öğretilen bir modeli yarattığımızı biliyoruz, çünkü ağ sınıfının

05:40.290 --> 05:41.540
yeni bir nesnesidir.

05:41.600 --> 05:42.820
Ve bu yüzden bu mükemmel.

05:42.830 --> 05:49.040
Burada modelimizi alabilir ve daha sonra bu modeli, burada argüman olan girdi

05:49.040 --> 05:52.950
durumuna uygulayabilir ve aradığımız çıktıları geri alabiliriz.

05:53.090 --> 05:54.440
Anahtar değerler budur.

05:54.560 --> 06:00.260
Ve şimdi modeli işte tanıtmak için neden buraya getirmek zorunda olduğumuz sezgileriniz daha da iyi

06:00.260 --> 06:00.840
olabilir.

06:00.920 --> 06:06.410
Nesneye yönelik programlamayla başlayanlar, bundan sonra tüm bunların doğal bir

06:07.100 --> 06:08.780
hal alacağını göreceksiniz.

06:08.870 --> 06:16.840
Dolayısıyla modellerimizi kendi modelleriyiz, çünkü burası, burada oluşturduğumuz nesnenin modeli olmalı.

06:17.180 --> 06:24.350
Ancak, sinir ağı modelimizin çıktısını elde etmemiz gerekiyor ve bu nedenle

06:24.350 --> 06:30.400
burada, state adlı girdi durumunu gireceğimiz bazı parantezler duyacağız.

06:30.620 --> 06:39.350
Bu yüzden öncelikle yapmak istediğimiz şey devlete girmek ama şimdi bir şeyin devlete basit bir set gibi görünmesine

06:39.350 --> 06:40.560
dikkat etmemiz gerekiyor.

06:40.790 --> 06:46.850
hücrenin seçim işlem fonksiyonunun argümanı olarak daha küçük bir devlette kullanılacağına karar verdik.

06:46.920 --> 06:52.190
Ancak o devletin aslında meşale sensörü olacağını hatırlayın; daha sonra, bu

06:52.190 --> 06:57.430
Burada bulunan devletin argümanı aslında kendi kendine öğretilen daha az devlet haline gelecektir.

06:57.680 --> 07:01.680
Ve işkenceye maruz kalan bir cevap dünyası olduğu için model onu kabul edecektir.

07:01.760 --> 07:02.690
Bu kadar iyi.

07:02.810 --> 07:05.000
Ama şimdi algoritmayı iyileştirebiliriz.

07:05.180 --> 07:12.490
Devlet bir meşale algılayıcısı olduğu anda ve daha önce söylediğimiz gibi, algılayıcıların çoğu voivode'a

07:12.500 --> 07:13.260
sarılır.

07:13.320 --> 07:15.640
Bu ayrıca bir degrade içerecektir.

07:15.650 --> 07:22.110
Bu yüzden şimdi ilk önce bir tensör olan bu girdi durumunu bir meşale

07:22.110 --> 07:27.990
haline getiriyoruz, fakat bu giriş durumları olduğu için bazı farklılaşma olmayacak.

07:28.160 --> 07:34.700
Bu devlet meşalesi Voivode degradesini kullanmayacağız ve istasyonlar da olabilir

07:34.880 --> 07:45.530
ve bu nedenle şimdi yapmamız gereken şey bu meşale sensör durumunu böyle bir meşale değişkenine dönüştürmek.

07:45.780 --> 07:51.400
Ancak daha sonra grafiğin tüm gradyanların Mudgal'in sonundaki kuraklıkların yapılmasını

07:51.400 --> 07:52.380
istemediğimizi belirtmek.

07:52.570 --> 07:57.800
Peki burada, uçucu olanın gerçek olduğuna eşit çıkacağız.

07:58.150 --> 08:06.160
devlet ateşli sensörümüzü meşale haline getirdik ama bu Votel'in gerçek barometresi sayesinde.

08:06.160 --> 08:07.200
Böylece şimdi

08:07.390 --> 08:14.950
Bu modelin sonundaki tüm koşulların grafiğine, bu giriş durumlarıyla ilişkilendirilmiş degradeleri

08:15.100 --> 08:16.530
dahil edeceğiz.

08:16.840 --> 08:18.530
Bu başka bir teknik numara.

08:18.550 --> 08:23.130
Bu bize biraz bellek kazandıracak ve bu nedenle bu performansı artıracaktır.

08:23.170 --> 08:27.850
Bu yüzden bunu yapmamızı kesinlikle öneririm ve şimdi daha eğlenceli bir şeyler ekleyeceğiz.

08:27.910 --> 08:30.640
Bahsettiğim bu sıcaklık parametresi ile ilgili.

08:30.850 --> 08:36.190
karar vermesi gereken eylemden nasıl emin olacağınızı modüle etmemizi sağlayacak parametredir.

08:36.190 --> 08:40.040
Bu yüzden bu sıcaklık parametresi, sinir ağının oynamaya

08:40.210 --> 08:47.290
Bu yüzden bu sıcaklık parametresi pozitif bir sayı olacak ve sinir ağının hareket halindeyken ne

08:47.290 --> 08:53.200
kadar az emin olursanız ve sıcaklık parametresi ne kadar yüksek olursa sinir ağı

08:53.410 --> 08:56.540
oynamaya karar verdiğinden daha emin olursunuz .

08:56.890 --> 09:04.480
Ve bu parametreyi eklemek için Kugan'ın bu sıcaklık parametresi tarafından kullanılan çıktıları

09:04.480 --> 09:05.250
çarpacağım.

09:05.500 --> 09:13.440
Örneğin 7 ile başlayalım ve burada küçük T eşittir 7'yi belirtmeye gidiyorum.

09:13.460 --> 09:15.610
Bu sıcaklık parametresi.

09:15.690 --> 09:17.210
Üzgünüm 7'ye gidiyorum.

09:17.260 --> 09:21.010
Başka bazılarını deneyeceğiz, ancak sadece küçük bir taneyle başlamak istiyorum çünkü bunu

09:21.010 --> 09:22.470
küçük bir tanesiyle göreceksin.

09:22.510 --> 09:28.150
Otomobilimiz yine de bir çeşit böcek gibi davranır, ancak sıcaklık parametresini arttırarak kodumuz

09:28.510 --> 09:34.340
daha çok bir araba gibi görünür ve sürüşe karar vermeniz çok daha iyi olur.

09:34.480 --> 09:40.450
Ve bu yüzden mantıklı geliyor çünkü bu sıcaklık parametresi ne kadar yüksek

09:40.450 --> 09:48.010
olursa, Juval'ın kazanılma ihtimali o kadar yüksek olacak, örneğin q değerlerinin yumuşak max değerine sahip olsaydık.

09:48.190 --> 09:54.850
Birden üç eşitliğe kadar doldurulursa, bir iki üç tane basit rakam alalım.

09:54.850 --> 10:01.150
Örneğin 0. 04 0. 11 ve açık seksen beş.

10:01.270 --> 10:05.650
Sonra daha yüksek sıcaklık alarak sıcaklığı arttırarak.

10:05.680 --> 10:13.360
Şu anda sıcaklık, örneğin Tussaud çıkarır ve bunu kopyalayalım ve örneğin iki veya

10:13.360 --> 10:22.210
üç çarpıp aynı değerlere sahip olmakla birlikte üçlü sıcaklık parametresi ile çarpılıncaya kadar yüksek sıcaklık

10:22.210 --> 10:24.110
alarak bir sıcaklığa eşittir.

10:24.370 --> 10:31.390
İlk Q değeri için sıfır gibi bir şey elde edeceğiz, çünkü bu sıfırın etrafındaki

10:31.530 --> 10:38.020
bir şey ikinci ihtimal için çok küçük bir olasılık vardı, çünkü bu hala

10:38.020 --> 10:39.260
düşük ihtimaldi.

10:39.410 --> 10:42.910
Öyleyse örneğin 0 2 noktasını diyelim.

10:43.320 --> 10:49.910
Ama o zaman bu üçüncü olasılık en büyük ve oldukça yüksek bir ihtimaldi.

10:50.140 --> 10:55.180
Sıcaklığı arttırarak bu olasılık daha da artacaktır, çünkü bunun oynamamız

10:55.180 --> 11:02.230
gereken eyleme karşılık gelen doğru Q değeri olduğundan daha emin olacağız ve bu

11:02.230 --> 11:05.630
nedenle 0'a benzemektedir. 98.

11:05.980 --> 11:11.800
Şimdi Sıcaklık parametresini de arttırarak, burada üçüncü eylemin oynamak için harekete geçeceğinden

11:11.800 --> 11:17.530
daha emindik. Çünkü bu eylemin q değeri için olasılık sadece en büyük

11:17.530 --> 11:19.590
değil, aynı zamanda çok yüksek.

11:19.840 --> 11:22.600
Bu yüzden bu sıcaklık parametresi de bu kadar.

11:22.660 --> 11:27.340
Bu, hangi yönde oynamaya karar vermemiz gerektiğinin kesinliği ile ilgilidir.

11:27.340 --> 11:27.610
Tamam.

11:27.610 --> 11:29.450
Bu yüzden bu yorumu kaldıracağım.

11:29.470 --> 11:31.000
Bu sadece açıklamaktı.

11:31.200 --> 11:33.490
Ve şimdi de harekete geçelim.

11:33.490 --> 11:35.370
Peki bunu nasıl yapacaksın.

11:35.560 --> 11:41.440
bir olasılık dağılımı oluşturmak değil aynı zamanda yumuşak sonraki yöntemin ikinci basamağıdır.

11:41.440 --> 11:46.390
Bir sonraki yöntemin ilkesi, yalnızca anahtar değerlerin her biri için

11:46.480 --> 11:51.820
Son dağıtımımızı yapmak için bu dağıtımdan rastgele bir çizim yapıyoruz.

11:52.010 --> 11:57.310
Ve tabii ki en yüksek olasılıkla Q değerine karşılık gelen eylemi almak için yüksek

11:57.310 --> 12:01.660
bir şansa sahip olacağız, çünkü dağıtım bunun tam olarak nasıl yapıldığı.

12:01.660 --> 12:02.550
İşte gidiyoruz.

12:02.560 --> 12:04.040
Harekete geçelim.

12:04.060 --> 12:11.380
Bu yüzden, yeni bir Voivode tanıtacağız. Eylem çağrısı yapacağız ve bu eylem, daha

12:11.380 --> 12:17.460
önce bu saatte oluşturduğumuz olasılık dağılımının rastgele bir çizimi olacak.

12:17.510 --> 12:20.100
Öyleyse nasıl böyle rasgele bir beraberlik alacağız.

12:20.200 --> 12:26.410
Pabucumuzun sahiplik aldığı ve ardından dart yaptığımız her önemli değer için pervanemizin

12:26.650 --> 12:34.120
olasılıklarını alacağız ve daha sonra çok Gnomeo işlevini kullanacağız ve bu da bu dağıtım sürecinden

12:34.120 --> 12:36.030
rastgele bir çizim yapacak.

12:36.160 --> 12:38.420
Bu yüzden onun tepkisini alacak tek şey bu.

12:38.470 --> 12:39.280
Mükemmel.

12:39.490 --> 12:42.790
Ve şimdi elbette eylemi geri getireceğiz.

12:42.790 --> 12:44.730
Burada küçük bir numara var.

12:44.810 --> 12:51.460
Bu Propst'in bu çok terimli maddenin sahte bir rozetle uygulanabilir hale getirdiği gerçeği nedir?

12:51.490 --> 12:57.210
Bu sahte elmasları biliyorsunuz ve partiye tekabül ediyor ve bu nedenle istediğimiz doğru sonucu elde

12:57.220 --> 13:00.540
etmek için 0 1 veya 2'deki eylem var.

13:00.820 --> 13:08.200
Burada sadece veri ve daha sonra bazı parantezler eklemeliyiz ve burada eylemler, aradığımız

13:08.230 --> 13:13.100
bir veya iki, içerik ve indeks 0 ve 0'dır.

13:13.570 --> 13:14.000
Tamam.

13:14.000 --> 13:14.730
Ve işte gidiyoruz.

13:14.740 --> 13:21.420
Şimdi, Aİ'nin hangi eylemi yapacağını bildiği bu seçme eylemi işlevi sayesinde eyleme geçiyoruz.

13:21.490 --> 13:22.440
Ve her seferinde.

13:22.810 --> 13:23.460
Müthiş.

13:23.500 --> 13:27.430
Şimdi, öğrenme işlevi olacak bir sonraki işleve geçebiliriz.

13:27.520 --> 13:32.410
Ve bildiğiniz tüm sinir ağını tüm ileriye yayılımla eğiteceğimiz yer burası

13:32.410 --> 13:35.790
ve daha sonra geri yayılım anlamda kategorize etmektir.

13:35.950 --> 13:41.500
Temel olarak, yapay zekanın kalbinde yer alan derin öğrenme modelinin

13:41.560 --> 13:43.340
tüm eğitimini uygulayacağız.

13:43.480 --> 13:44.680
Bu yüzden bunu yapmak için sabırsızlanıyorum.

13:44.680 --> 13:49.290
Bu heyecan verici bir ders olacak ve bu yüzden sizi bir sonraki Statoil'de göreceğim.

13:49.510 --> 13:50.670
O zamana kadar tadını çıkarın.

13:50.720 --> 13:51.000
BEN.