WEBVTT

00:01.060 --> 00:04.460
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.460 --> 00:07.630
Bugün Belman denklemi hakkında konuşacağız.

00:07.630 --> 00:12.580
Oldukça karmaşık bir konudur ve dersin bu bölümünde adım adım

00:12.580 --> 00:17.110
bir şekilde tanıtacağım, böylece doğrudan doğruya Belmont denkleminin en karmaşık

00:17.110 --> 00:21.730
sürümüne atlamayacağız, bunun yerine Nasıl çalıştığını yavaş yavaş anlayabilmek için

00:21.730 --> 00:23.250
yavaş yavaş tanıtacak.

00:23.410 --> 00:28.480
Ve Umarım bu yaklaşımla amacınız G konumundaysanız. R. Hadi düz içine girelim.

00:28.690 --> 00:33.820
birlikte çalışacağımız birkaç anahtar kavrama sahip olacağız ve bu kavramlar.

00:33.820 --> 00:34.430
Dolayısıyla,

00:34.600 --> 00:41.110
S devletleri temsil eder, böylece aracımızın bulunduğu devlet veya içinde olabileceği diğer herhangi bir

00:41.740 --> 00:45.490
devlet, bir aracının alabileceği bir işlemi temsil eder.

00:45.490 --> 00:50.680
Dolayısıyla bir aracı belirli bir eylem listesine erişebilir ve eylemler,

00:50.680 --> 00:53.610
bir devletin kombinasyonuna bakıldığında çok önemlidir.

00:53.620 --> 00:57.880
da bir devlet gerçekten mantıklı değildir çünkü Nerede olduğunuzu

00:57.880 --> 01:01.870
ve nereye varacağınızı bilmiyorsanız, sonra da ödülümüzü belirleyeceğiz ve

01:01.870 --> 01:07.390
bu, ajanın belirli bir devlete girdiği ve gama indirim faktörü olduğu için geçerlidir.

01:07.390 --> 01:13.240
Dolayısıyla salınım halindeyken ve o zaman eylemlere bakarsanız ve o eylemlerin sonucunda ne

01:13.240 --> 01:16.980
olacağını anlamaya başlarsa, kendiliğinden bir işleme bakarsınız ya

01:16.990 --> 01:21.510
Biraz sonra indirim faktörü hakkında konuşacağız, ancak şimdi sadece not

01:21.510 --> 01:21.810
alıyorlar.

01:21.820 --> 01:26.300
Daha sonra çalışacak olan bu Gamelin mektubuna sahip olacağımız konusunda zihinsel bir not oluşturun.

01:26.620 --> 01:31.230
Bellman denkleminin ardındaki kişi Richard Ernest Bellman'dır.

01:31.360 --> 01:39.400
O bir uçuş matematiğindeydi ve şimdi şu anda takviye öğrenme dediğimiz dinamik programlama kavramlarını ya da

01:39.400 --> 01:43.790
şu anda Belman denklemini sunduğumuz kavramları ortaya attı.

01:44.110 --> 01:45.490
Şu anda buna sesleniyoruz.

01:45.490 --> 01:52.350
Ve 1953'te o konsepti ortaya attı ve o zaman Belmont Belman denklemi bana geldi.

01:52.630 --> 01:56.530
Bu yüzden bunların hepsinin işleyişine bir göz atalım.

01:56.540 --> 02:02.410
Sol alt köşede güzel aracımız var ve o bir labirentte ve bu,

02:02.500 --> 02:08.680
bazı blokların varlığın oldukça klasik bir labirent. Geniş bloklar, ajanın gri bloka adım

02:08.680 --> 02:13.800
atabileceği bloklar. erişilebilir değil bu labirentte bir duvar gibi diyor.

02:13.900 --> 02:20.150
Yeşiller, ajanın nihai hedeflemesinin gereken yer olması gerektiği yerde, ajanların gitmesini istediğimiz bu, bitiş

02:20.150 --> 02:20.910
anlamına geliyor.

02:21.220 --> 02:25.050
Kırmızı, ateşböcekleri veya motor ateş çukuruna düşüyor.

02:25.060 --> 02:26.660
Oyunu kaybedecek.

02:26.950 --> 02:31.330
Böylece ateş çukurunda R olan ödül eksi 1 olur.

02:31.330 --> 02:36.330
Ajan'a bunu yapmamızı istediğimiz bir şey olmadığını söyleme yolumuz buydu.

02:36.430 --> 02:41.320
Köpek eğitimi verdiğimiz örneklerde hatırladığımız gibi, kötü köpek gibi konuşmak istiyoruz; burada aynı şeyi yapmak

02:41.320 --> 02:46.030
isteyen doğru olanı yapmazsak, burada bir tane olduğumuzu bildiririz, bu ajan sizin olmanız gereken

02:46.030 --> 02:49.480
bir şey olmadığını söyler. Meydanın sonuna gelmemelisiniz, öyle olmadığı her

02:49.480 --> 02:53.300
zaman sincap eksi bir ödül kazanır, böylece eksi bir ödül ile cezalandırılırsınız.

02:53.530 --> 02:57.610
Öte yandan Green Square'de biterse, bir artı bir ödül alacağız, yani

02:57.610 --> 02:59.330
bunu yapmak istediğiz anlamına geliyor.

02:59.590 --> 03:02.470
Yani bu, acentenin elde edemediği iki ödüldür.

03:02.470 --> 03:06.210
Ve bu labirentte nasıl çalışacağını nasıl öğrenecek?

03:06.370 --> 03:10.750
Tıpkı yürüdüğünü öğrendiğiniz robot köpek örneklerinde olduğu gibi, ona bildireceği gibi,

03:10.750 --> 03:12.490
burada yapabileceğin eylemi burada söyleyeceksin.

03:12.490 --> 03:18.360
Sağa veya sola gidebilirsin, bunlar alabileceğiniz dört olası eyendir ve hepsi bu kadar.

03:18.360 --> 03:21.430
Bununla birlikte bir oyun oynamak için neler bulabileceğini gör.

03:21.430 --> 03:26.320
Böylece temsilci sağa gidebilir, daha sonra sağa iki daha ilerleyebilir, sadece rasgele düğmeye

03:26.320 --> 03:31.160
basarak sola dönebilir ve ne olduğunu görmek için çabalıyorlar ve buraya dönüyorlar.

03:31.180 --> 03:34.660
Yukarıya çıkıyorlar, yukarı çıktıkça yukarı çıktık.

03:34.660 --> 03:38.450
Şimdilik hiçbir şey olmadığı için hiçbir şey öğrenememişler.

03:38.470 --> 03:41.790
Doğru gidiyorlar ve sonra Green Square'de buluyorlar.

03:41.830 --> 03:48.150
Dolayısıyla vay canına inanıyorlar Sadece bir tane artı bir tane var Ben yeşil meydana girer girmez bir artı

03:48.150 --> 03:49.040
bir ödül aldım.

03:49.090 --> 03:53.560
Ve bu, algoritmayı, tamamının gerçekten harika olduğunu söyleyecek şekilde tetikliyor.

03:53.830 --> 03:58.920
Meydanda sona ermek için ödüllendirildiğimden meydanda sona ermek istiyorum.

03:58.930 --> 04:00.650
Ajan için bu ne anlama geliyor?

04:00.910 --> 04:04.310
Yani soruya bu kareye nasıl ulaştım sormaya başlar.

04:04.300 --> 04:10.690
Bulunduğum önceki devlet neydi ve kareye oturtmak için hangi eylemi gerçekleştirdiğimi görüp geri

04:10.690 --> 04:14.810
döndüğünü söyledim ve böylece önceki devlet bu idi.

04:14.950 --> 04:17.400
O eyalette değerli olduğu ortaya çıkıyor.

04:17.410 --> 04:19.240
Kızıl Ok'un kıvılcımı.

04:19.270 --> 04:26.230
azami ödülü almaktan sadece bir adım uzaktayım çünkü o ana kadar bu durumda olduğumu biliyorum.

04:26.230 --> 04:33.210
Çünkü o eyaletten bir adamsın, bir köpek için bir bisküvi gibi artı bir hayal edebileceğim

04:33.250 --> 04:35.150
Bu kare Kırmızı Ok işareti ile işaretlendi.

04:35.200 --> 04:36.740
Tek yapmam gereken sağa basmak.

04:37.030 --> 04:41.440
Öyleyse kendime bu devletin değerli olduğunu hatırlatmamı söylerim.

04:41.440 --> 04:45.170
Benim için iyi bir menajer olarak aslında bir fark yok.

04:45.170 --> 04:50.380
Yeşiller'de mi, yoksa yeşil meydanda beyaz kare içinde olduğumdan farkım yok,

04:50.380 --> 04:51.610
birinin ödülünü alıyorum.

04:51.610 --> 04:58.810
yazacağım çünkü beyaz kare içindeyken tam olarak bir ödüllendirmeye götürüyor, biliyorum bir adım daha atacağım.

04:58.810 --> 05:03.280
Bu yüzden kendime Y Meydanı'nın benim için bir değeri olduğunu

05:03.350 --> 05:08.180
Yeşil Meydan'da olacağım ve bir ödül ya da bir ödül alacağım, bu yüzden

05:08.180 --> 05:14.690
bu meydanın değerinin birine eşit olduğunu söyleyeceğim, çünkü en kısa sürede her türlü çıkarımda doğrudan yol açar

05:14.690 --> 05:18.890
Yani burada benim ödülüm olacağını biliyorum, bu yüzden bu kareyi bir

05:18.890 --> 05:22.430
çağrı olarak işaretleyeceğim, bu da durumdaki algılanan değer olan değerdir.

05:22.430 --> 05:24.740
Sonra temsilci iyi olacak.

05:24.800 --> 05:26.930
Bu kareye nasıl gireceğim.

05:27.050 --> 05:29.990
Ve biliyorsun, tekrar dolaşıp devam etsin vesaire.

05:29.990 --> 05:33.800
Ve tekrar kare meydanında ve tamam gibi Tamam bu kareye nasıl girdim.

05:33.800 --> 05:36.860
Ve bu kareye girme şekli bu meydanın içinden çıktı.

05:36.860 --> 05:37.530
İlginç.

05:37.550 --> 05:42.980
Tamam, bu kareye girer girmez yapmam gereken tek şeyin doğru olduğunu biliyorum.

05:42.980 --> 05:45.640
Ve sonra burada biliyorum zaten kazanacağım.

05:45.650 --> 05:49.970
Tam olarak her şeyin burada çözüleceğini biliyorum ve bu durumda varlığın değerinin birine

05:49.970 --> 05:50.970
eşit olduğunu biliyorum.

05:51.020 --> 05:58.340
burada olmak isteyen bir araç olarak çok değerli olduğum için burası demek istediğim şu ki burada biliyorum.

05:58.340 --> 06:03.920
Ve buradan buralarda büyümemizi engelleyen hiçbir şey olmadığı için bu değer algılanacak bir değere

06:03.920 --> 06:04.640
gideceğim Ben

06:04.650 --> 06:06.660
Burada ol ve ben burada oldukça hızlı olacağım.

06:06.740 --> 06:07.980
Bu yüzden kazanacağım.

06:08.180 --> 06:10.490
Ve o zaman bundan önce nasıl bu meydanın içine girersin.

06:10.490 --> 06:12.940
Bu kareden ben de bu kareye girdim.

06:13.070 --> 06:19.670
yaklaşımdır, buradaki değer de birine eşittir vb. Dolayısıyla burada olma değeri burada varolan bir değere eşittir, çünkü

06:19.670 --> 06:23.690
her bir tanesi bir diğeri ve bunlara yol açar. bitiş çizgisi.

06:23.690 --> 06:25.710
Yani değer burada benzer bir

06:26.240 --> 06:29.850
Bu aşamada her şey oldukça mantıklı gibi.

06:29.960 --> 06:33.410
Şu an Belman denklemini tasarlayan kişi biziz.

06:33.410 --> 06:40.460
Dolayısıyla, bir ajanın labaratuara girmesine yardımcı olan bir denkleme tasarlamak düşünebiliriz.

06:40.490 --> 06:45.840
Öyleyse ödüle bakarsak, bir önceki devletin davaya ödül vermesine eşit bir değer verdiği

06:45.840 --> 06:51.920
ve bu şekilde benzer bir yol oluşturduğu halde sorun ortadan kalkmaz, ancak sorun herhangi bir

06:52.010 --> 06:58.790
nedenden dolayı ajanım başlıyorsa ne olur Buraya başlamadan ve bu eylemleri yerine almaktan ziyade bu devlette

06:58.880 --> 07:00.480
ve aslında devletin başında.

07:00.650 --> 07:06.980
Doğru giderseniz ne harekete geçeceğini ya da gitmesi ya da gitmesi ya da gitmesi ya da gitmesi gerektiğini

07:06.980 --> 07:08.540
nasıl hatırlar biliyor musunuz?

07:08.540 --> 07:13.220
Buradan sonraki ilerlemenin hangisi olduğunu nasıl hatırlıyoruz.

07:13.220 --> 07:18.660
Sahip olduğu tek değerler ise, bu değerler, neyin uzakta olduğunu göremezse değerine eşittir.

07:18.660 --> 07:19.700
Sadece görebilir.

07:19.700 --> 07:20.030
Tamam.

07:20.030 --> 07:21.940
Burada ne var ne var burada.

07:21.980 --> 07:23.530
Hangi yoldan gitmek gerektiğini nasıl bilebilir?

07:23.660 --> 07:27.920
Bu aşamada, yaş ve hangi yoldan gitmek oldukça benzer bir şey değildir.

07:27.960 --> 07:30.770
Ve bu yüzden bu yaklaşım bu işe yaramıyor.

07:30.790 --> 07:32.930
Bu çok basit bir açıklama.

07:32.930 --> 07:34.500
Tabii ki buna fazlası var.

07:34.520 --> 07:40.550
Ancak sezgisel bir şekilde bu yüzden sadece bu değeri geriye doğru taşımayı atayamayız.

07:40.790 --> 07:46.210
Nedenlerinden biri, Ajan bu iki değer arasında olduğu zaman nereye gideceği.

07:46.210 --> 07:48.560
Bu kadar karışabilir değil mi?

07:48.620 --> 07:52.350
Peki bu sorunu ne çözeceğiz, ne yapacağız.

07:52.400 --> 07:57.860
İşte bu noktada, Belman denklemini yavaş yavaş adım adım tanıtmaya

07:57.860 --> 07:58.640
başlayacağız.

07:58.670 --> 08:01.510
Belman denklemi buna benzer görünüyor.

08:01.640 --> 08:07.100
Bu yüzden, halihazırdaki durumunuz ya da herhangi bir devletiniz olduğu gibi belirli

08:07.100 --> 08:10.250
bir durumda olmanın değeri hakkında zaten konuştuk.

08:10.370 --> 08:17.270
Ve Başbakan devlet olduğu gibi, devlet devletten sonra ve uyumlu bir hareket alarak son

08:17.270 --> 08:18.990
bulacağınız devleti belirtir.

08:19.000 --> 08:24.160
Ancak birçok eylemin olduğunu ve bir ajanın alabildiğini biliyoruz ve bu nedenle bu Max'i buraya getirdik.

08:24.260 --> 08:30.020
Dolayısıyla bir ajan aleyhine bir eylem alarak, devlet varlıklarında bir işlem yaparak

08:30.050 --> 08:32.700
devlete geçtiğimizi ve harekete geçtiğimizi varsayalım.

08:32.780 --> 08:36.690
Ne olacağı anında yeni bir devletin içine girerek ödül alacak.

08:36.770 --> 08:41.960
Ve ödülün, oyunun sonunda olması halinde bir veya bir veya bir veya bir eksi olabilir

08:41.960 --> 08:46.240
veya oyunun tamamında sıfır olabileceğini, bu durumda oyun boyunca ödülümüz sıfır olabileceğini unutmayın.

08:46.280 --> 08:55.160
İşte bu, Plus'ın değeri olan yeni bir devlete kazandıracağımız ödül.

08:55.160 --> 08:57.820
İşte bu, yeni devlet ve gama'nın değeri.

08:57.820 --> 08:58.820
Bir saniye konuşacağız.

08:58.820 --> 09:03.560
Ancak burada yükseltmeye çalıştığım nokta ya da burada yetiştirdiğim nokta, sizin alabildiğiniz çok çeşitli eylemleri olduğunu

09:03.560 --> 09:05.810
ve bu yüzden maksimuma ulaştığımdan emin olmalıyız.

09:05.810 --> 09:09.630
Böylece harekete geçerek ödüllendiriyoruz Artı olarak yeni bir duruma geliyoruz.

09:09.740 --> 09:14.660
Ve böylece, davamızdaki her hareket için mümkün olan 4 eylemin her biri için

09:14.660 --> 09:17.810
olası eylemlerimizden önce böyle bir denkleme sahip olacağız.

09:17.810 --> 09:22.980
Dolayısıyla bu, dört eylemden her biri için farklı bir değere sahip olacaklarından dolayı bir

09:23.480 --> 09:28.750
değer taşıyor ve en fazla duruma bakacağız, çünkü elbette aracı en uygun durumu almak istiyor.

09:28.760 --> 09:33.860
esas alan azami değeri bulacak ve bu değerlerin maksimumuna ihtiyaç duyan eylemi gerçekleştirecektir.

09:33.860 --> 09:37.500
Dolayısıyla eyalette bulunuyorsa, bu değerlere bakacak ve bu eylemi

09:37.640 --> 09:41.480
Öyleyse umarım bu neden maksimumu burada alıyoruz anlam taşıyor.

09:41.660 --> 09:45.400
Sonra bir keresinde ödülü ve değerini aldık, neden bu Gabaa parametresini burada buluyoruz dedi.

09:45.650 --> 09:52.220
Eh, ajanýn hangi yoldan gideceđini bilmediđi sorunu çözmek için tam burada var çünkü

09:52.220 --> 09:52.850
yapamam.

09:52.950 --> 09:56.600
Her iki tarafın iki eyaletinin değerlerini karşılaştırıyor ve bunlar aynı.

09:56.810 --> 10:00.890
Bu nedenle kumarbazlar indirgeyici faktörü aradıklarından bir göz atacağız ve

10:00.890 --> 10:02.050
daha iyi anlayacağız.

10:02.060 --> 10:04.680
Şimdi bir formül alalım, onu burada sağ üst köşeye koyacağım.

10:04.760 --> 10:09.100
Ve şimdi farklı devletlerin değerlerinin ne olduğunu analiz edeceğiz.

10:09.140 --> 10:11.470
Ve burada her devlet bir karedir.

10:11.470 --> 10:11.820
Yok hayır.

10:11.840 --> 10:16.610
Dolayısıyla bu beyaz karelerden biri olan bir devlettir, yani varlığın

10:16.610 --> 10:18.290
değerini o eyalette hesaplayacağız.

10:18.290 --> 10:19.770
Şimdi kare ile başlayalım.

10:19.790 --> 10:21.610
Bu durumda olmanın değeri nedir?

10:21.860 --> 10:25.830
Peki bu değerin maksimumunu tüm eylemler arasında almamız gerekiyor.

10:26.120 --> 10:31.440
Ve bitiş çizgisine yaklaştığımızda bu değerin en üst düzeye çıkardığını biliyoruz

10:31.440 --> 10:36.440
ve nasıl yapılacağı ve görebildiğinize göre burada ödül var ve

10:36.590 --> 10:40.900
burada bir indirim faktörünün çarpımının çarpımı var belirtmek, bildirmek.

10:41.060 --> 10:46.670
Ve bu denklemi nasıl yapacağımız mantıklı olur, bu nedenle buradan sağa

10:46.670 --> 10:50.350
doğru gidersek bu değerin maksimumu doğru olur.

10:50.360 --> 10:56.120
Bu şekilde, bu devletin bu değerinin maksimum değeri veya bu değere eşit

10:56.300 --> 10:57.470
olduğu değerlerini hesaplarız.

10:57.500 --> 11:01.000
Sağa hareket etmeye karar verirsek sağa hareket edersek.

11:01.010 --> 11:02.330
Peki bu değer ne olacak.

11:02.360 --> 11:04.850
Sağa hareket etme ödülü 1'e eşittir.

11:05.090 --> 11:10.490
Ve ne renk gama olursa olsun, devlette bir değeri yoktur çünkü zaten en iyi

11:10.490 --> 11:11.720
durumda mümkün durumdayız.

11:11.720 --> 11:12.880
Bu son aşamadır.

11:12.890 --> 11:16.280
Burada sadece bir ödül kazandıracağımız bir değeri olmayacak ve oyunun sonu bu.

11:16.280 --> 11:20.300
Yani bu maksimum değer 1'e eşit olacaktır.

11:20.510 --> 11:23.870
İşte bu nedenle devlet değeri 1'e eşittir.

11:23.870 --> 11:27.970
Geriye biraz ilerlediğimizde sola doğru hareket ettiğimizde ilginç şeyler oluyor.

11:28.010 --> 11:34.060
Şimdi bu durumdaki değerini hesaplıyoruz ve bunun için biz Gabaa'ya ihtiyacımız olacak.

11:34.070 --> 11:39.920
Diyelim ki, indirgeme faktörümüz dokuzuncu bir noktadadır ve bir kere hesapladığımız zaman bir indirgeme faktörünün

11:39.920 --> 11:40.960
ne olduğu mantıklıdır.

11:40.960 --> 11:47.410
Dolayısıyla buradan sadece sezgilerimize dayanırız ve temel alırız, çünkü bunun nasıl çalıştığını biliyoruz.

11:47.450 --> 11:51.340
En iyi olası eylemin sağa gittiğini biliyoruz, çünkü buradan buraya gidiyoruz.

11:51.530 --> 11:56.120
Dolayısıyla bu sağda giderseniz bu durumda elde edilecek maksimum değerdir.

11:56.270 --> 11:58.970
Ve şimdi burada taksak ne olacağına bakalım.

11:58.970 --> 12:02.650
Yani burada buradan buraya gidersen ödülünü alamazsın sıfır olur.

12:02.720 --> 12:07.440
Ama o zaman, camis, sıfır noktası dokuz kat yeni bir devletin değerine sahip olacaksın.

12:07.640 --> 12:14.030
Dolayısıyla bu durumda, bunun tüm sonucu 1 kez 0'dır. 9 kez bir eşittir 2. 9.

12:14.030 --> 12:15.890
Her şey başına değerler bu.

12:16.250 --> 12:18.570
Dolayısıyla şimdi hesaplarsak, buradan göreceksin.

12:18.620 --> 12:23.990
Bildiğimiz labirente bakarak biliyoruz çünkü biz insanlar olarak, çünkü bu denklemin nasıl çalıştığını

12:23.990 --> 12:28.450
anlıyoruz, elbette bir AI aracı bu şeyleri denemek zorunda kalacak.

12:28.460 --> 12:32.180
Ancak kristal topa sahip olduğumuz için bütün labirenti görebiliriz.

12:32.180 --> 12:33.860
Şu anda kuşbakışı görünümü seviyoruz.

12:33.860 --> 12:36.170
En iyi hareketin sağa gittiği biliyoruz.

12:36.320 --> 12:42.230
Yani hepsini buraya takarsak, sıfır ödül bile etmez Raporu devlette dokuz

12:42.230 --> 12:45.530
kat arttırabiliriz 0. 9, seksen bir sıfır noktası vb.

12:45.530 --> 12:50.420
Yani burada 0 olacak. 23 ve o 0 olacak. 66.

12:50.420 --> 12:57.590
Böylece, indirgenmiş faktörün çalışma şekli, uzaktayken devletin değerini düşürdüğünden

12:57.590 --> 12:58.610
görebilirsiniz.

12:58.610 --> 13:05.810
Finans teorisine aşina iseniz, o zaman bu şekilde ne düşünürdünüz gibi paranın zaman değerine

13:05.810 --> 13:12.990
benzer bir şeydir. Bugün veya 5 günde 10 günde 5 dolar kazanmayı tercih ederdiniz.

13:13.050 --> 13:17.840
Biri sana bir seçenek verecek olsaydı, bugün herkesten $ 5 10 gün boyunca beş dolar

13:17.840 --> 13:18.280
vereceğim.

13:18.390 --> 13:20.300
Tabii ki bugün 5 dolar seçeceksiniz.

13:20.300 --> 13:20.850
Neden.

13:20.870 --> 13:26.750
Çünkü 5 dolar alabilirsin ve bunları gama'ya çok benzer belirli bir faiz

13:26.750 --> 13:27.470
oranına yatırırsın.

13:27.680 --> 13:33.950
Ve 10 günde 5 dolarınız aslında 5 dolar ve 73 sent ya da buna benzer bir şey olacak.

13:34.070 --> 13:36.410
Paranın zaman değeri de böyle işe yarar.

13:36.410 --> 13:38.310
Ve burada çok benzer bir kavram.

13:38.330 --> 13:43.250
Ve burada anlamak için önemli olan bir teori, takviye öğrenmeyi bir şekilde karşılar.

13:43.260 --> 13:45.850
Bu yüzden Richard Belman bu denklemi ortaya attı.

13:46.190 --> 13:48.880
Ve o andan itibaren bunu kullandık.

13:48.880 --> 13:51.430
Böylece devam edip farklı bir denklem ortaya çıkabilirsin.

13:51.430 --> 13:54.820
Gamla'ya bir faktörünüz olmasa da başka bir faktörün olması gerekmez.

13:54.950 --> 14:01.550
Ancak bu yaklaşım geçerli ve bu yüzden kullanıyoruz ve bunun nedeni de bu. Öyle ki o

14:01.550 --> 14:06.670
kadar uzakta olursanız, devlette ve zaman ve para açısından daha az değerlisiniz.

14:06.680 --> 14:09.850
Eğer sana diyebilirsem, nerede olmak istersiniz? Burada olmayı istersiniz.

14:09.950 --> 14:11.200
Sen burada olmayı ister misin

14:11.350 --> 14:12.920
Burada olmayı tercih ederim.

14:12.920 --> 14:18.770
Dolayısıyla, paranın zaman değeriyle aynı olguyu üretiyoruz, bunu gama yoluyla yapay olarak yaratıyoruz,

14:18.770 --> 14:24.680
böylece ajanları teşvik etmek ya da aracıları bitiş çizgisine yakınlaştırmak için canlandırmak için.

14:24.680 --> 14:29.720
burada bulunmayı ya da burada olmayı seçen bir acenteye sorulacak olsaydı burada olmayı seçerdi.

14:29.930 --> 14:31.590
Bu denklemin çalışması nedeniyle,

14:31.640 --> 14:33.380
Bunun için daha az şey daha var.

14:33.380 --> 14:35.810
Dünyanın bu şekilde çalıştığı bir şey değil.

14:35.810 --> 14:42.630
Hayır, sadece ajanlarımızın bu iyi olduğunu anlamaları için yapay olarak yarattığımız bir şey var, bu iyi bir eski iyidir

14:42.750 --> 14:48.140
ancak bu daha iyidir ve bu daha iyidir ve bu daha iyidir ve bu ve

14:48.140 --> 14:50.030
daha iyidir Bu işi yapmış.

14:50.120 --> 14:54.790
Ve bu şekilde, ajanın hangi yönde gitmesi gerektiğini görebilirsiniz.

14:54.800 --> 15:00.270
duruyordu, eğer burada duruyorsan ben aşağı inersem ya da aniden yukarı çıkmaya ya da aşağı inersen giderim.

15:00.270 --> 15:05.130
Yani anladığıma göre eğer ben burada ayakta duruyorsam, sahip olduğum sorunu hatırlıyorsun ya da burada

15:05.250 --> 15:10.080
Artık artık sorun değil, çünkü değerler burada olduğu için gitmenin daha

15:10.080 --> 15:11.480
iyi olduğunu görebiliyor.

15:11.550 --> 15:14.490
Ve sonra buradan sağa doğru gitmek zorunda çünkü burada değer burada daha büyük.

15:14.550 --> 15:17.480
Ve buradan itibaren Bertschi sağa gidiyor çünkü buradaki değer bildiğinizden daha büyük.

15:17.670 --> 15:22.620
Ve buradan sonra, onun doğru gitmesi gerektiğini zaten biliyor çünkü biri burada bir ödül alacak.

15:22.680 --> 15:24.960
İşte bu yaklaşımın tümü böyle işliyor.

15:24.960 --> 15:27.600
Şimdi kare geri kalanına hızlı bir göz atalım.

15:27.600 --> 15:29.800
Peki bu karedeki değeri nasıl hesaplarız.

15:30.030 --> 15:32.450
Işlerin zor olduğu yer burası.

15:32.460 --> 15:38.400
Dolayısıyla buradan sağa sola doğru gitmeyebilir, sağa doğru gidebilirsin, böylece böyle devam edebiliriz, çünkü

15:38.400 --> 15:41.360
aslında bu şekilde gitmek daha kısa olabilir.

15:41.520 --> 15:44.720
Öyleyse yapacağımız şey, öncelikle kare içindeki değeri hesaplamamız.

15:45.000 --> 15:48.200
Ve açıkçası buradan gitmenin en iyi yolları var.

15:48.240 --> 15:52.740
mürettebatın gördüğümüz şeyleri görebildiğimiz kristal topa sahip olduğumuzu gördüğümüz

15:52.740 --> 15:57.060
için, ajanların araştırdıklarını nasıl deneyimler yoluyla anladıklarını göreceksiniz.

15:57.060 --> 15:58.030
Yine de

15:58.080 --> 16:02.580
Fakat bizim için, bu şekilde gitmenin daha iyi olduğunu biliyoruz, böylece değeri

16:02.580 --> 16:06.410
burada hesaplayacağız ve bu yüzden önce bu kare içindeki değeri hesaplayacağız.

16:06.420 --> 16:09.230
Yani burada üç olası eylemimiz var.

16:09.270 --> 16:11.590
Aslında biz aslında dörtümüz var, biz de ayrılabiliriz.

16:11.610 --> 16:15.330
Aracı, varsayımsal olarak sola basabilir ve duvara çarpabilir ve burada kalabilir.

16:15.420 --> 16:21.030
sağlamak için, bildiklerini bildiğimiz ve kristal topa sahip olduğumuz eylemleri gösterecek olan küme,

16:21.030 --> 16:25.920
hangi eylemlerin aslında yine aynı durumdan başka bir şeye yol açtığını biliyoruz.

16:25.920 --> 16:26.780
Ama sadeliği

16:26.850 --> 16:32.010
Ve burada şunu tekrar biliyoruz ki bir kristal topumuz var çünkü en iyi yolun bir ajan

16:32.010 --> 16:36.840
tabii ki denemek ve en iyi yolu bulmak zorunda kalacağı şekilde olduğunu biliyorsunuz ve bunun

16:36.840 --> 16:37.500
nasıl olacağını göreceksiniz.

16:37.560 --> 16:42.270
Daha bölümünde, bir acentenin nasıl dolaştığını ve bu değerleri bulmaya çalışırken nasıl

16:42.360 --> 16:43.610
deneyeceğinizi gerçekten göreceksiniz.

16:43.620 --> 16:45.190
Fakat bizim için o şekilde olduğunu biliyoruz.

16:45.360 --> 16:50.420
Yani burada, herşeyi bir arada tutarsak, en yüksek çıktı maksimum çıktı olur.

16:50.510 --> 16:53.820
Ve işte bir rapor var 9: 0 O yüzden siz koyun.

16:53.820 --> 16:55.870
Dokuzuncu sınıfta buluyorsun.

16:56.220 --> 16:58.730
Tamam, öyleyse bunu hesaplayan bir Kalika.

16:58.770 --> 16:59.810
Aynı yaklaşım.

16:59.820 --> 17:02.070
Bu senin gidebilmenin üç yolu var.

17:02.070 --> 17:05.580
Aslında acente için dört, ancak bizim için sadece üç olduğunu görebiliyoruz.

17:05.880 --> 17:10.780
Buradan sıfır noktası seksen, sıfır noktası yetmiş üçüncü var.

17:11.130 --> 17:16.410
güzel bir bağ kuruyor çünkü yine de iskonto ederseniz 66 koyarsanız ve 0'a sahipsiniz demektir.

17:16.890 --> 17:20.120
Ve aslında bu değerle 23 çünkü bu en uygun yoldur.

17:20.130 --> 17:21.190
Al işte ozaman, buyur.

17:21.210 --> 17:23.750
Bu, tüm bu devletlerin değerleridir.

17:23.760 --> 17:29.700
Şu an görebilirsiniz ki, bu denklemi yarattığımızdan ya da bitiş çizgisine yaklaştıkça

17:29.730 --> 17:37.890
bu bütün kavramı sentetik olarak yarattık o kadar değerli o halde değil, çünkü şu an için oldukça

17:37.890 --> 17:41.840
açık olduğu için korkuyoruz Ajan bu şekilde gitmeli.

17:41.970 --> 17:44.230
Ve gelecekte daha fazla konuşacağız.

17:44.910 --> 17:52.290
bu aşamada biraz çok gelebilir ama bu bölümde biraz daha karmaşıklık katacağız.

17:52.320 --> 17:56.590
Umarım bugünün oturumundan hoşnutsunuzdur ve biliyorum ki

17:56.700 --> 18:01.500
Aynı zamanda, içine atlamak isteyip istemediğinizi düşünemiyorsanız, bakabileceğiniz bir kağıt

18:01.500 --> 18:04.290
var ve Richard Belman'ın orijinal kağıdı.

18:04.290 --> 18:08.130
Buna 1954'ten itibaren dinamik programlama teorisi deniyor.

18:08.370 --> 18:10.200
Ve bunu bu bağlantıda bulabilirsiniz.

18:10.320 --> 18:16.490
Ve işe gidiyorsun, böylece içine doğru atlayabilir ve Belman denkleminin yazarından okuyabilirsiniz.

18:16.620 --> 18:20.860
Ancak unutmayın ki bunun matematiksel bakımdan oldukça ağır bir kağıt olduğunu unutmayın.

18:20.970 --> 18:22.820
Ve o notada senin bir sonrakiini bulacağım.

18:22.850 --> 18:24.590
Ve o zamana kadar AI zevk.