WEBVTT

00:01.090 --> 00:04.270
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.290 --> 00:07.260
Bugün, yaşayan bir cezadan bahsediyoruz.

00:07.600 --> 00:13.540
Pekala, burada tüm Belman denklemine sahibiz ve bu dersi devam ettirdikçe yavaş

00:13.540 --> 00:20.030
yavaş giderek daha karmaşık hale geldik, şu ana kadar bu olasılıkları burada ekledik.

00:20.200 --> 00:22.930
Ayrıca indirgeyen faktörü de ekledik.

00:22.930 --> 00:28.440
Şimdi şimdi ödülümüzün bulunduğu sorunun bu tarafında daha ayrıntılı bir şekilde duracağız.

00:28.480 --> 00:34.660
olduğunu ve bunun ortamda ve borsada eylemleri gerçekleştirdiğini ya da bunun sonucunda yeni

00:34.660 --> 00:41.290
bir devlet kazandığını ve bu eylemin içinde bulunduğu ve ödül olduğunu söylediğini hatırlayın.

00:41.320 --> 00:45.600
Unutmayın, takviye öğrenmenin nasıl yürüdüğü hakkında konuştuğumuzda, bir temsilcimizin

00:45.610 --> 00:52.210
Şu ana kadar, örneğimizde, bitiş çizgisine ulaşırsak ya da ajan ateş çukuruna girerse, bir

00:52.210 --> 00:58.640
artı bir ya da bir ek ödül alırsak, en sonunda ödüller kazanmış oluyoruz.

00:58.960 --> 01:05.770
Fakat bu, takviye öğrenmeyle ilgili çok basit bir yaklaşımdır ve daha gerçekçi senaryolarda, yolculuğunuz

01:05.800 --> 01:11.050
boyunca ödülleri büyük olasılıkla ödeyeceksiniz, en sonunda sadece yolculuğunuz boyunca ödüller

01:11.050 --> 01:11.380
kazanabilirsiniz.

01:11.380 --> 01:20.680
Örneğin bir AI oyun oynamakta ve örneğin birisini felakete uğrattıysa, düşmanı öldürmek

01:20.680 --> 01:26.320
için puan alabilir veya başka bir oyun olabilir.

01:26.470 --> 01:32.260
Oyunun kuralları yüzünden başka bir otomobili ya da böyle bir şeyden

01:32.260 --> 01:39.400
daha fazla geçerse, oyunu analiz etme yöntemi değil, aslında oyun, oyunun başlamasından önce belirli

01:39.400 --> 01:43.230
eylemleri yapma noktalarını güçlendirdiği bir şekilde yapılandırılmıştır. bitti.

01:43.540 --> 01:49.570
Bunun gibi Sinatras çok yaygın ve yalnızca oyunlarda değil, gerçek hayatta da

01:49.570 --> 01:55.120
var ve bu yüzden basit bir versiyon örneğimize benzer bir şey

01:55.330 --> 02:01.180
getireceğiz, oysa oyun boyunca aracıya sürekli olarak verilen bir ödül. sadece sonun

02:01.180 --> 02:04.450
değil, bunu yapacağımız yol diğer kiremitlere bakmaktır.

02:04.450 --> 02:10.060
karoda bir ödül ve bir tane ödül var, diğer taraftan da firepitin eksi 1'inde ödül veriyoruz.

02:10.060 --> 02:11.530
Şu anda sadece son

02:11.800 --> 02:14.310
Fakat şimdi her seferinde ödüller ekleyeceğiz.

02:14.430 --> 02:17.770
Çok küçük bir ödül eklersek eksi 0 olur. 04.

02:17.770 --> 02:23.440
Ve gördüğünüz gibi negatif çünkü ajanın hareket etmesi her zaman olumsuz bir ödül alacak ve yaşayan

02:23.440 --> 02:28.300
bir ceza adı verilen şey bu, nereye giderse girsin, son fayansların haricinde her zaman

02:28.450 --> 02:31.000
bu olumsuz ödülü alacak çünkü bu bitti. oyun.

02:31.300 --> 02:35.120
Ve bu yüzden bu kiremitteki ödülün bile delilik veya bir bulmaca olduğunu görebilirsiniz.

02:35.170 --> 02:37.960
Ancak bu, o ödülle başlaması anlamına gelmez.

02:37.960 --> 02:39.470
O sadece bu ödülü alır.

02:39.760 --> 02:44.860
Ve bu, yalnızca bir fayansa girdiğinde ödülünü aldığını hatırlamakta fayda var, o da buraya giderek

02:44.860 --> 02:51.110
o ödülü eksi 0 alacak bir eylem vaadinde bulundu. 04 ve daha sonra tekrar bir zihin ve 0

02:51.130 --> 02:53.650
alacağım bu tarzı geliyor. 4 kelime.

02:53.770 --> 03:00.370
Ve o kadar çok dolaşır, olumsuz ödülünü o kadar çok biriktirir ve bu nedenle

03:00.370 --> 03:03.870
oyunu mümkün olduğunca çabuk bitirmesi için teşvik eder.

03:03.890 --> 03:10.390
Ve şimdi, politikamızın veya temsilcilerin politikasının bu ödül için belirlediğimiz değere

03:10.420 --> 03:14.150
bağlı olarak nasıl değişeceğine bir göz atalım.

03:14.410 --> 03:18.730
Yani burada dört ortam var ve her biri farklı bir keşfi yapacağız.

03:18.770 --> 03:21.070
Hesaplamaları yapmayacağız.

03:21.130 --> 03:25.690
Sonuçları yansıtacağız ve sezgisel olduklarını göreceksiniz.

03:25.690 --> 03:31.820
Yani burada herhangi bir devlete girmek için herhangi bir adım teklifi için bir ödül var.

03:32.050 --> 03:32.830
Sıfıra eşittir.

03:32.830 --> 03:36.890
Tıpkı burada gördüğümüz gibi, ödül Mei'nin 0 olacağı gibi. 0.

03:36.910 --> 03:43.150
Şimdiye kadar yaptığımız şey için, ödülün eksi 0'da olacağını biliyorsun. 5 veya ceza verme seviyesi mayın olacak kadar

03:43.150 --> 03:47.690
açık ateşte o kadar çok burada onları 10 kattan daha fazla görebilirsiniz.

03:47.800 --> 03:50.170
Ve burada yaşayan Penhall'ın eksi iki olacak.

03:50.170 --> 03:59.050
Böylece, atlama için elde ettiğiniz ödüllerden, hatta ajanların ateş çukuruna kadar çıktığı için verdiğiniz ödülün ötesinde

03:59.050 --> 04:00.700
daha da fazla.

04:00.700 --> 04:07.660
Öyleyse, bu ortamı geçmek için gereken eylemlerin veya en uygun politikanın bu ödüle bağlı olarak nasıl

04:07.660 --> 04:09.160
değişeceğine bir göz atalım.

04:09.170 --> 04:11.560
Yani bu orijinal politikamız.

04:11.920 --> 04:18.280
Ve hatırlayabileceğiniz gibi, bu iki ilginç ve hatta acayip bir karar

04:18.280 --> 04:23.950
ajan tarafından vardı ama o sürece yaşayabilir mantıklı tamamen mantıklı.

04:23.950 --> 04:29.530
Çok uzun süre hayatta kaldığınız için cezalandırılmaksızın istediği süre

04:29.530 --> 04:30.430
boyunca dolaşabilirsiniz.

04:30.670 --> 04:37.630
Neden sadece duvardaki köşeye girip neden olmaya devam edelim

04:37.870 --> 04:38.470
ki?

04:38.470 --> 04:41.300
Bu şekilde gidip o zaman yürümesi olur.

04:41.500 --> 04:46.120
Ve burada aynı şey duvara atlamanın çok daha güvenli olduğunu ve bunlardan birinin

04:46.120 --> 04:51.970
sonunda ortaya çıkacağını umuyor ve sonra finiş çizgisine yine de gidecek çünkü bu iki işlemi seçerek ateş

04:51.970 --> 04:53.680
çukuruna girme riski taşımıyor .

04:53.690 --> 04:59.950
Şimdi sadece bir adım atmak için hayat gibi olumlu bir ödül eklersek ne olacağını görelim.

05:00.270 --> 05:04.960
Buraya taşıdığınızı görebilirsiniz, anında bu ikisinin de değişti.

05:04.970 --> 05:07.940
Şimdi temsilci duvara atlamak istemiyor.

05:07.940 --> 05:13.490
Firepit'in yüzde 10 olasılıkla atlayabileceği riski daha yüksek, ancak öne çıkacak

05:13.490 --> 05:19.400
çünkü burada her yere geldiğinde her an burada yapacak olsaydı, burada seyretmeye

05:19.850 --> 05:24.620
gelirdi. yüzde 80 ihtimalle bu durumda sona erdiği bir eylem

05:24.620 --> 05:24.990
gerçekleştirir.

05:25.010 --> 05:31.180
Ve bu, yüzde 0 eksi 0 alacağınız anlamına geliyor. biriktirmesini sağlayacak çok zaman demek.

05:31.190 --> 05:34.940
04 ödülü, bunun bu olumsuz ödülü

05:34.940 --> 05:41.600
Aslında rastgele sağa hareket edeceği o anı bekleyen duvara atlarsa burada aynı

05:41.600 --> 05:42.780
şey olur.

05:42.980 --> 05:49.340
Bunu yapmaya devam ederse, bu negatif ödülü biriktirir ve

05:49.340 --> 05:55.670
hesaplamaları gerçekleştirirseniz, bu yaklaşımın beklenen değerinin duvara sıçrayışının sonucunun

05:55.670 --> 06:02.840
ileriye dönme riskinden daha kötü olduğunu göreceksiniz. ve aslında firepitte bitiyor.

06:02.840 --> 06:10.230
ilerletmek ve burada sola doğru ilerlemektedir, çünkü firepit ateşi riski bile bilinmektedir, çünkü şu an hayatta o

06:10.230 --> 06:15.320
kadar uzun yaşar ki bu yaşam cezasını bir sonraki ortamda biriktirir.

06:15.320 --> 06:18.830
Böylece kararlarını bu iki blokta değiştirerek ileriye doğru

06:18.830 --> 06:23.720
Şimdi canlı Pouncey'yi daha büyük bir sayı olan Meinzer beşinci noktaya yükseltiyoruz ve burada

06:23.720 --> 06:24.590
neler değiştiğini görelim.

06:24.860 --> 06:27.220
Artık bunu bu ortamla karşılaştırıldığında görebilirsiniz.

06:27.260 --> 06:31.740
Burada değişen tek şey bu ok sağa işaret ediyor olmasıdır.

06:32.060 --> 06:38.360
Bunun anlamı şu an için ajan için artık iyi bir seçenek değil ya da işaret eden bu ok

06:38.360 --> 06:42.340
işareti sola işaret ediyor ve nozüllerin burnu yukarı doğru işaret ediyordu.

06:42.350 --> 06:48.740
iyi bir fikir değil çünkü yanlış giderse evet güvende ya da firepit'i almama şansının azlığı var.

06:49.100 --> 06:53.330
Bu yüzden, artık temsilcinin buradan dolaşması ya da sonuna kadar

06:53.340 --> 06:54.030
dolaşması artık

06:54.320 --> 06:57.640
Fakat aynı zamanda ya da daha az şans olacak.

06:57.710 --> 07:03.140
Fakat aynı zamanda etrafında dolaşırken aynı zamanda önemli derecede olumsuz bir ödül biriktirir.

07:03.140 --> 07:05.540
Yani sadece yol çok uzun.

07:05.540 --> 07:12.350
Bu yüzden buraya gelmek için daha kısa bir rota almak için burada ya da burada olup olmamaya zorlanıyor, çünkü

07:12.350 --> 07:17.330
firepitin içine girme riski daha yüksek olsa da, meydanın içine girdiği anda yüzde 10'luk

07:17.330 --> 07:19.350
bir ateş şansı var. .

07:20.120 --> 07:21.760
Hesaplamalarına göre.

07:21.800 --> 07:27.980
Bu yaklaşımın beklenen değeri, beklenen yaşam kalitesini artırdığımız için

07:27.980 --> 07:30.480
beklenen değerden daha iyi.

07:30.710 --> 07:37.130
Ve son olarak, canlı ceza eksi iki nokta sıfır olan örneğe geçiyoruz.

07:37.130 --> 07:43.010
Dolayısıyla, burada yükleme punt cezasını artırdığımızda, politikanın nasıl değiştiğini gördüğünüze göre

07:43.010 --> 07:44.430
videoyu göndermenizi öneririz.

07:44.450 --> 07:49.850
Videoyu duraklatmanızı ve bu senaryoda ne olacağını kendiniz düşünmenizi öneririm.

07:49.850 --> 07:57.070
kadar yüksek olduğu için en uygun politikanın ne olacağı konusunda ne düşünüyorsunuz, öyleyse isterseniz tüm bu sözde video.

07:57.090 --> 07:58.280
Yaşayan cezanın o

07:58.490 --> 08:04.880
Şimdi penaltıyı eksi 2'ye arttırırsanız, size bu durumda

08:04.880 --> 08:13.460
çözüm sunmak için atlayacağım. 0 çok yüksek, burada ceza sadece eksi 1 olduğunu unutmayın. 0 Ateşçinin sadece ateş ağzına atlayarak olsa

08:13.680 --> 08:18.540
bile herhangi bir şekilde mümkün olduğunca oyundan çıkmak istediği çok yüksek.

08:18.560 --> 08:19.200
O yapacak.

08:19.220 --> 08:25.460
Eyaletinizde yeni bir duruma düştüğümde her adım attığımda ya da her

08:25.460 --> 08:30.020
harekete geçtiğimde eksi iki ödül alacağım gibi olacak.

08:30.020 --> 08:36.280
Buradan, iki ekstra adım atacak olursa, bitiş çizgisine ulaşmaya çalışmanın anlamı nedir?

08:36.350 --> 08:41.060
Ben sadece buraya gelip doğrudan ateşböceğine gideceğim çünkü

08:41.060 --> 08:49.190
bu şekilde ödülümün olumsuz ödül daha az olacağından, ek adımlar atmak kadar kötü olacak

08:49.190 --> 08:56.770
bu yüzden bu yaşayanın eklenmesini görebilirsiniz. ödül ve değerine bağlı olarak yaşayan ödül

08:56.780 --> 08:59.270
ekliyoruz sonuçlarımız farklı olacak.

08:59.270 --> 09:06.290
Ve temsilci farklı politikalar seçecek ve temelde sonuç değeri ne olabilir, Belmont denklemi

09:06.440 --> 09:12.020
sadece finiş çizgisinde değil oyunun sonunda bile olsa da oyun

09:12.020 --> 09:13.790
boyunca dahi birleştiriliyor.

09:13.790 --> 09:19.250
bir kez daha, her bir devletin her birinde, çevrenin kendisine bağlı olmak zorunda değildir.

09:19.250 --> 09:20.180
Ve yine

09:20.180 --> 09:26.540
Acenteye her eyalette değil belirli belirli ülkelerde verilebilir, ancak basit olan

09:26.540 --> 09:29.880
örnekte, verilen her durumda ödülleri kullanıyoruz.

09:30.050 --> 09:34.470
Bu kavramı göstermek için umarım bugünkü eğitimden hoşlanırsınız.

09:34.580 --> 09:40.550
Gördüğünüz gibi, zaten Belman denklemini çok sofistike hale getirdik ve şimdi birçok farklı

09:40.550 --> 09:44.340
senaryoya uygulanabilir ve bir sonraki öğreticide görmek için sabırsızlanıyorum.

09:44.360 --> 09:46.200
Ve o zamana kadar bir keyfimin tadını çıkarın.