WEBVTT

00:00.600 --> 00:02.360
Merhaba ve hikayeye hoş geldiniz.

00:02.520 --> 00:07.920
Şimdi, politika kayıplarını ve değer kaybını hesaplamak için for döngüsünü yapacağız ve

00:07.920 --> 00:13.260
bu iki dersi aldıktan sonra, optimize edicimizi kumları kayıpları azaltmak için kum

00:13.260 --> 00:14.820
almak için kullanabileceğiz.

00:14.820 --> 00:15.990
Pekala, işte gidiyoruz.

00:15.990 --> 00:22.740
Bu arada, bu bölümü uyguladığımız önceki ders içerisine başladık ve bunun için üzgün olan

00:22.740 --> 00:24.280
girintileri kaldırmayı unuttum.

00:24.420 --> 00:28.210
Dolayısıyla buradan başlamak sonbaharda değil.

00:28.530 --> 00:32.650
Ve şimdi yeni bir döngüye başlıyoruz, bu yüzden dört ile başlayacağız.

00:32.840 --> 00:38.340
Ve şimdi yapacağımız şey, keşif sırasında yapılan son adımdan başlayacağımız ve

00:38.670 --> 00:40.420
zamanda geriye doğru ilerleyeceğiz.

00:40.470 --> 00:51.250
Bu yüzden i için ters aralıklı arazi ödüllerinde en büyük ödülleri en az olanı yapıyorum.

00:51.260 --> 00:57.000
Ve araştırmanın her bir basamağı, nerede çalıştıklarımıza bağlı olduğu için, her adımda

00:57.230 --> 00:58.400
sözlerimiz olduğunda ödüllendiriliyoruz.

00:58.400 --> 01:05.090
Bu adımlar sayısı ve bu tersi burada kullanılıyor, böylece gitmeye devam edebilmek için geri adım atabiliyoruz.

01:05.160 --> 01:10.890
şimdi yapacağımız, bugüne kadarki kümülatif ödülü güncellemek ve bunu bu şekilde güncelleyeceğiz.

01:10.890 --> 01:11.570
Ve

01:11.640 --> 01:14.110
Aslında Doom için yaptığımız şeyle aynı.

01:14.170 --> 01:23.280
Parametrelerimizden elde ettiğimiz gama eşittir ve en az ödül alarak ve dizini alarak

01:24.060 --> 01:31.290
elde edebileceğimiz bu ödülün çok da artı olmayan ilk programlarından yararlanıyoruz.

01:31.500 --> 01:36.680
Dolayısıyla bizim için sonuncusu bu olacak ve daha sonra bir önceki günün ödülü ve benzeri olacaktır.

01:37.080 --> 01:43.320
ve her gün gama ile çarpılarak ve ardından bu ödülü kümeye ekleyerek güncelliyoruz.

01:43.650 --> 01:47.090
Ve bunu yaparak hatırlayacağımızı sonuna kadar alacağız.

01:47.210 --> 01:53.070
ve döngü sonunda sıfır olacak kadar serin olacak topluluğumuzun ödülünü alacağız.

01:53.070 --> 01:55.910
Bu yüzden onlar geldikçe onu yazacağım

01:56.060 --> 02:02.100
Adım sıfır artı gama zamanlarının ödülü birdir.

02:02.290 --> 02:09.040
Biz artı gama kare kez sözcük olduğunu ilk edildi.

02:09.060 --> 02:21.960
İkinci aşamada artı gama gücünde ve eksi bir kere adım ve eksi 1'de elde edilen ödülün herhangi bir

02:22.800 --> 02:30.690
adımı attığında ancak daha sonra dikkatli olursak, adım sayısının gücünde gamma

02:31.050 --> 02:32.250
bulacağız.

02:33.530 --> 02:40.110
Zamanlar, son duruma uygulanan işlevin değerini devalüasyona çevirir.

02:40.150 --> 02:42.450
Henüz gelmeliyiz.

02:42.680 --> 02:49.130
Ve bunu alacağız, çünkü hatırlayın burada bu değeri ve son adımı hatırlıyoruz, bu, bu döngü

02:49.130 --> 02:50.840
için buraya bitince yapıldı.

02:51.200 --> 02:56.140
Ve biz de değeri elde ettik ve bizim değerimizi o değere eşit olarak ayarladık.

02:56.420 --> 03:02.710
Dolayısıyla şu an ikinci tam döngü başlangıcındadır burada bu son tarihin değerine eşit

03:02.710 --> 03:03.310
olacaktır.

03:03.590 --> 03:10.300
Fakat bunu yaparak sonunda elde edeceğimiz şey eşit veya sıfır yüzde veya bir tenis kortu

03:10.520 --> 03:16.620
veya iki artı güç eksi bir kat art arda eksiltebiliriz ve eksi bir artı

03:16.620 --> 03:20.990
oyun sayısının gücüne ekleyebiliriz Adımların bu Değerlerin Bu Kez Değerleri.

03:21.020 --> 03:25.900
Bu anlamak için ana şey bu ve bu birikimli ödül eylemi olabilir.

03:26.090 --> 03:33.560
Bu nedenle, başlatma veya buradan başlamak ve bu son denklemi mükemmel

03:33.820 --> 03:37.390
kılacak ters çevrim yapmak önemlidir.

03:37.400 --> 03:43.430
Ve şimdi, birikimli ödül için doğru değeri elimizde bulunduruyoruz. Avantajı hesaplayacağız

03:43.850 --> 03:49.110
ve avantaj bu avantajı onlara kıyasla elde etmenin bir avantajı.

03:49.160 --> 03:56.600
Bu yüzden, evrimlenebilir avantaj getireceğim ve bu nedenle, bu kümülatif ödülün aşamada elde

03:57.020 --> 04:01.390
edilen V fonksiyonunun değerinin eksi değerine eşit olacağım.

04:01.610 --> 04:06.690
Dolayısıyla bu eksi değerlerimizdir.

04:07.130 --> 04:07.740
Mükemmel.

04:07.760 --> 04:13.160
Ve şimdi biz çalıştık topluluğa sahibiz ve o zaman avantaj kaybı elde edebiliyoruz.

04:13.190 --> 04:15.170
Bu, ilk elde edebileceğimiz şey.

04:15.200 --> 04:20.940
Bu yüzden değerimizin çok iyi olmasını sağlayacağız ve bu şu şekilde güncellenecektir.

04:20.960 --> 04:24.530
Unutmayın ki devalüasyonumuz sıfıra başlatılmıştır.

04:24.800 --> 04:34.670
Ve böylece değer kaybını tekrar 0 olarak alacağız. Meydana 5 kat daha avantaj sağladığımız için bunu bu

04:34.670 --> 04:35.480
şekilde alabiliriz.

04:35.490 --> 04:39.410
Avantaj da düşündü.

04:39.470 --> 04:46.460
Dolayısıyla bu sadece gücün avantajını kareye oturtmak demektir ve tam olarak bunun yanı

04:46.580 --> 04:52.830
sıra dere tarafından işlev çıkışlarının değerinin tahminiyle oluşturulan kayıp da budur.

04:53.120 --> 04:59.840
Ve bu nedenle bu devalüe edilmek mantıklıdır, çünkü devletin eyleminin avantajını

04:59.840 --> 05:04.820
hatırlamak Q değeri ile B işlevi değeri arasındaki farktır.

05:04.880 --> 05:14.660
Ve böylece en uygun eylemi oynadığımızda Durağan durumu en uygun eylemin Q optimal ile elde

05:14.660 --> 05:20.080
ederiz. Bir yıldız oyuncusu en iyi değeri eşittir.

05:20.080 --> 05:22.000
Devletin Vistarları.

05:22.180 --> 05:28.390
sıfıra eşit olmadığında, bu ikisi arasında bir fark olacağını anlamak oldukça sezgisel.

05:28.390 --> 05:29.990
Bu yüzden, avantaj

05:30.220 --> 05:32.930
Ve bu yüzden son ölçülür.

05:33.370 --> 05:34.120
TAMAM.

05:34.120 --> 05:37.410
Sonuncusu çok son hesaplandı.

05:37.420 --> 05:39.000
Artık gitmesi gereken bir tane daha var.

05:39.010 --> 05:44.560
kaybı ve şu anda hesaplayacağımız şey ve bunu hesaplamak için genelleştirilmiş

05:44.560 --> 05:51.990
avantaj tahminini tekrar düşünmemiz gerektiği için, genelleştirilmiş avantaj tahminine ihtiyaç duyduğumuz politika kaybını hesaplamak ve

05:52.000 --> 05:58.450
ulusun genel avantajlarını elde etmek için öncelikle sahne valflerinin zamansal farkına ihtiyacımız var.

05:58.540 --> 05:59.760
Bu politika

05:59.830 --> 06:06.220
Dolayısıyla, burada hesaplamamız gereken çok şey var ve zamansal farkı bulduktan sonra bu

06:06.220 --> 06:07.710
zamansal farkla başlayacağız.

06:07.780 --> 06:12.850
Genelleştirilmiş avantaj tahminini alacağız ve sözü edilen genelleştirilmiş avantajları aldıktan

06:13.180 --> 06:14.900
sonra, yarımadayı alacağız.

06:14.920 --> 06:15.460
Tamam.

06:15.670 --> 06:28.100
Şimdi zamansal fark T ile başlayalım. G. bu borcun artı bir değerinin çarpımı

06:28.700 --> 06:39.200
ile eklenir ve buna erişmek için bu veriyi, adım I'in ve eklediğimizin eksi değeri ekleriz. veri.

06:39.200 --> 06:50.260
DD, program listemize bir şeyler olsun diye Adım I artı Gana'nın ödülüne eşittir, böylece Bromstad gamma

06:50.280 --> 06:50.610
Tamam.

06:50.670 --> 06:53.900
Zamansal farkın ve devlet değerlerinin formülüdür.

06:54.180 --> 06:59.690
Şimdi genelleştirilmiş avantaj tahminini güncelledik ve tarih nasıl çıktı.

06:59.880 --> 07:10.230
Peki R-GA'yı alırız ve onu parametrelerimizle de erişebilmek için gama parametresi gama çarpı ile

07:10.230 --> 07:10.940
çarparız.

07:10.950 --> 07:18.410
Böylece program hücresi alıyor ve bu durum değerlerinin zamansal farkını ekliyoruz.

07:18.510 --> 07:19.890
Yani dikkatli ol.

07:19.890 --> 07:21.280
Biz döngüdeyiz.

07:21.450 --> 07:27.060
Ve her seferinde by ve by çarparsak zamansal bir fark katarız.

07:27.150 --> 07:33.720
Dolayısıyla, bu döngü sonunda bu genelleştirilmiş avantaj tahmininin, gama

07:34.170 --> 07:46.180
zamanlarının tüm basamakları üzerindeki toplama eşit olacağını anlamak önemlidir, böylece adımdaki zamansal farkın i katının gücü, bunu

07:46.480 --> 07:50.360
korumak için çok önemlidir akılda.

07:50.700 --> 07:57.000
Şimdi, genelleştirilmiş avantaj tahminine ve genel farka sahip olduğumuza göre nihai

07:57.000 --> 07:58.880
olarak poliçeyi hesaplayabiliriz.

07:59.070 --> 08:00.210
O halde bunu yapalım.

08:00.210 --> 08:10.020
Politika yasalarımızı eski politikamızı alarak aşağıdaki şekilde güncelleyeceğiz ve katladığımız adımda

08:10.230 --> 08:20.280
elde edilen LKGG olasılıklarını bir değişkene koyacağımız genelleştirilmiş avantaj tahminiyle çarpıttık; çünkü

08:20.280 --> 08:23.920
o zaman hesaplayacağız Degradeler.

08:24.150 --> 08:33.170
Dolayısıyla, grafikteki degradelere bağlı olmalı ve ardından eksi 0 ekleyelim. 1 kat daha fazla entropi.

08:33.170 --> 08:36.660
Sonbahar basamağında elde edilen entropi.

08:37.200 --> 08:38.130
Ve yeniden.

08:38.220 --> 08:39.540
Şimdi dikkatli ol.

08:39.540 --> 08:50.830
avantaj tahminine geçiş aşamasındaki politikanın ürün luggin'inin aşamalarını aşması anlamına gelir.

08:51.280 --> 09:03.110
Bu döngü içersinde gribin sonunda, elde edeceğiniz şey, politika artı eksi,

09:03.110 --> 09:04.090
genelleştirilmiş

09:04.160 --> 09:10.710
Artı bu 0. 01 katına gelen entropi bunu alıyor.

09:10.720 --> 09:13.240
Ve şimdi I. politikası nedir?

09:13.280 --> 09:19.100
Bu, eylemlerin yumuşak Max olasılıkları ve bunu entropi, işte daha önce hesapladığımız

09:19.100 --> 09:21.320
yerin ne olduğunu bildireceğim.

09:21.430 --> 09:22.870
Ve ne yapmak istediğimiz liste.

09:22.940 --> 09:24.130
Yani elimizde zaten var.

09:24.290 --> 09:29.950
Ancak, bu yılki eylemlerin yumuşak Max olasılığı olduğunu duydum.

09:30.170 --> 09:32.080
Ve neden buraya eksi koyacağız.

09:32.150 --> 09:37.220
Çünkü olasılığın şansı ve entropisi negatif değerlerdir.

09:37.220 --> 09:43.340
Ve mutlak değerini en aza indirgemek istediğimizden, bu değeri sonuna LUGG olasılığı

09:43.340 --> 09:44.370
olarak görmeliyiz.

09:44.370 --> 09:51.530
Hayır, avantajı en üst düzeye çıkaracak olan eylemin olasılığını en üst düzeye çıkarmak istemiyoruz.

09:51.530 --> 09:53.130
Arkasındaki tüm fikir de budur.

09:53.210 --> 09:59.060
düzeye çıkarmak istiyoruz ve bu entropinin neden ne kadar etkili olduğunu merak ediyor olanlarınız için.

09:59.060 --> 10:03.500
Avantajı en üst düzeye çıkaracak olan oyunun oynanma olasılığını en üst

10:03.650 --> 10:05.720
Bu faktör 0 var. 01 burada.

10:05.930 --> 10:13.430
Bunun amacı, sadece bir ihtimal olanın haricindeki tüm eylemlerde sıfırlarla

10:13.430 --> 10:19.340
dağılma olasılığının olduğu bir tuzağa düşmesini engellemektir.

10:19.550 --> 10:22.370
Ve eğer bu gerçekleşirse, entropiyi en aza indirir.

10:22.550 --> 10:29.060
İşte bu yüzden bu küçük revizyonları 0 ekliyoruz. 01 yılında büyük anlamda

10:29.060 --> 10:30.940
entropi artışını sağlayacaktır.

10:31.020 --> 10:35.460
Tamam şimdi iyi haber şu ki en zor kısım bitti.

10:35.500 --> 10:41.050
İki kayıpımız var ve bu nedenle şimdi yapmamız gereken tek şey ve bunu nasıl yapacağımızı zaten biliyoruz,

10:41.050 --> 10:44.820
sadece bu iki sınıftan küçültmek için bir not almak için gerçekleştirmektir.

10:45.190 --> 10:51.170
Ve şimdi ne yapacağız bu döngüden kurtulmak ve biz bizim optimizer almaya gidiyoruz.

10:51.390 --> 10:57.220
Ayrı ayrı yaptığımız şey, o zaman yapmamız gereken ilk şeyin tüm derecelendirme parametrelerini

10:57.220 --> 11:04.810
sıfıra ayarlamak olduğunu ve bunu yapmak için sıfıra eklediğimizin ve buna bir grad yöntemi denildiğini hatırladığımız.

11:04.810 --> 11:06.980
Pekala, o zaman bitti.

11:07.000 --> 11:11.890
Şimdi geriye doğru yayılım yapacağız, ancak politika daha küçük olduğu için

11:11.890 --> 11:15.670
kayıp değerden iki kat daha fazla önem vereceğiz.

11:15.970 --> 11:28.190
Bunu yapmak için parantez politikası koymalı ve puan artı 0 artı ekleyelim. 5 değer kaybı öyle 0. 5 kat daha fazla değer veriyoruz ve

11:28.970 --> 11:37.400
geriye doğru yayılımı gerçekleştirmek için geriye dönük yöntemi uyguladığımızı burada ekleyeceğiz ve burada bu hile

11:37.400 --> 11:43.880
ile politikaya daha az artı, politika için iki kat fazla öneme

11:43.880 --> 11:47.460
sahip olduğumuz değerin yarıya yakını ekleyeceğiz. Vaness.

11:47.480 --> 11:53.630
Tamam o zaman gradyanın son derece büyük değerler almasını ve bu nedenle

11:53.630 --> 11:56.890
algoritmayı üretmesini önleyen başka bir numara kullanacağız.

11:57.020 --> 12:03.530
ve modülünü, daha sonra utils alt modülünü elde etmek ve şimdi skor normunda

12:04.220 --> 12:13.040
bir CLEP altını çizen grad'ın bir fonksiyonunu kullanacağız ve biz, 40 olacak ikinci bir girdi ile model parametreleri.

12:13.530 --> 12:20.830
Bunu yapmak için yapmamız gereken şey, ilk önce meşale kütüphanemizi, daha sonra meşale kitaplığımızın sonunu

12:21.200 --> 12:26.560
Ve bu hüner temelde gradyanlarda son derece büyük değerler almaz ve algoritma üretmek

12:26.560 --> 12:28.000
için emin olacaktır.

12:28.220 --> 12:30.770
Ve 40 senenin bu olup olmadığını merak eden sizler için.

12:30.800 --> 12:31.640
Kesinlikle.

12:31.850 --> 12:37.130
Bu sadece, bu değerleri kullandığımız yani 0 ile 40 arasındaki degradenin kaldığı

12:37.130 --> 12:42.510
anlamına gelir ve bu nedenle gradyanın büyük değerlere geçmesini önlediğimiz anlamına gelir.

12:43.000 --> 12:45.170
Tamam şimdi bittik.

12:45.170 --> 12:52.550
Unutmayın bunu yaptığımız ve Gretz'in paylaşıldığı modelin düşen başlangıcında olduğunu ve bunun da aracın

12:52.670 --> 12:59.450
ve paylaşılan modelin aynı eğilimleri paylaştığından ve bunu bu işlevi burada uygulayabileceğimizden emin

12:59.450 --> 13:01.090
olmak için yaptığımızı unutmayın.

13:01.220 --> 13:13.310
Ve bu yüzden, ahlaki ve paylaşılan modelin aynı eğimleri paylaştığından emin olmak için grad'ları ekleyecek

13:13.310 --> 13:14.690
ve paylaşacağız.

13:14.690 --> 13:16.670
Pekâlâ, bu sadece bir önlem.

13:16.670 --> 13:21.620
Bunun tamamen gerekliliğinden emin değilim ama en azından burada bir sorun yaşamayacağımızı biliyorsun.

13:22.040 --> 13:22.550
Tamam.

13:22.550 --> 13:29.900
Ve nihayet kodun son satırında elbette kayıpları azaltmak için optimizasyon adımını gerçekleştirmek

13:29.900 --> 13:38.900
için gidiyoruz ve bunu nasıl yapacağınızı biliyorsunuz elbette eniyileştiricimizi alıyoruz ve bu adımı parantezle

13:39.320 --> 13:43.300
ekledikten sonra beyin eğitimimize gidiyoruz; bitti.

13:43.550 --> 13:44.780
Öyleyse tebrikler.

13:44.780 --> 13:47.030
Umarım bu çok da ezici değildir.

13:47.060 --> 13:49.620
Endişelenmeyin, kodu tüm yorumlarıyla birlikte vereceğim.

13:49.670 --> 13:53.330
Herhangi bir ayrıntıyı kaçırdıysanız, yorumları inceleyebilirsiniz.

13:53.420 --> 13:57.260
Ve eğer bu kadar gelişmiş bir şey anlamadıysanız endişelenmeyin.

13:57.410 --> 14:04.020
Ancak bunun, aynı zamanda pi yaratıcısı tarafından yapılan en güçlü hatırlama ziyareti olduğundan da emin olabilirsiniz.

14:04.100 --> 14:06.770
Bu yüzden burada en iyilerle çalışıyoruz.

14:06.850 --> 14:12.560
En son teknoloji, bu nedenle herşeyi ilk kez elde etmediyseniz tamamen normal

14:12.560 --> 14:16.520
ancak birçok kez üzerinde çalışarak kesinlikle daha rahat edeceksiniz.

14:16.520 --> 14:19.150
Artık eğitim bitti.

14:19.220 --> 14:26.080
Temel olarak, sinir ağlarının mimarilerini konvolüsyonlarla LCN ve tamamen bağlı tabakalar

14:26.120 --> 14:30.610
oluşturarak beyin yaptığımızı bildiğiniz en önemli şeyleri yaptık.

14:30.620 --> 14:34.360
Beyni burada eğiterek eğittik.

14:34.520 --> 14:37.190
Temelde algoritmanın kalbi yapılır.

14:37.310 --> 14:39.800
A3'ü tebrik etmek için yaptın.

14:39.800 --> 14:43.940
Şimdi yapmamız gereken birkaç şey var ama bu sadece eğlenceyi almak.

14:43.940 --> 14:52.540
Ajanların test edeceğini ve videoların ve uçakta patlamanın sağlayacağını bulduğumuz bu testi yapmamız

14:52.550 --> 14:54.020
gerektiğini biliyorsun.

14:54.170 --> 15:00.860
Dolayısıyla, bu testin tüm satırlarını ben düşürdüğümüzü kodlamayacağımızı izlemek çok eğlenceli olacak çünkü en

15:00.860 --> 15:02.720
önemli şeyi yaptığımızı söyledik.

15:02.840 --> 15:10.310
23C ama elbette kodu açıklayacağım ve nihayetinde bunu hazırladım, hangi kodu yürütecek buldum.

15:10.310 --> 15:11.770
Tüm ilgili

15:11.890 --> 15:15.900
Ve bu kodu yürüttüğümüz andan itibaren tüm kodlar oluşturulacak.

15:16.040 --> 15:18.150
Böylece beyinler yapılacak.

15:18.200 --> 15:24.080
Eğitim gerçekleşecek ve göz yeni oyun oynamış olacak ve tüm videoları alacağız.

15:24.080 --> 15:26.480
Bu yüzden sonunda onları izlemek için sabırsızlanıyorum.

15:26.550 --> 15:29.810
Topu yakalayacak kadar akıllı olup olmadığını göreceğiz.

15:29.990 --> 15:36.380
Şimdi bu masaüstü arayüzünün bir sonraki dersinde göreceğiz, böylece AI'yı yeni oyunlar üzerinde

15:36.380 --> 15:37.250
test edebileceksiniz.

15:37.300 --> 15:38.980
Ve o zamana kadar AI zevk.