WEBVTT

00:00.980 --> 00:04.960
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:05.000 --> 00:12.140
Daha önce Margrove karar süreçleri hakkında oldukça yorucu ve uzun bir eğitim aldık ve umarım

00:12.200 --> 00:13.710
bunu iyi geçirdiniz.

00:13.760 --> 00:19.010
Ve umarım ben işlerimi ulaşılabilir ve ilgi çekici bir şekilde açıklayabilirim.

00:19.130 --> 00:22.750
Ve bugün planlara kıyasla politikalar hakkında konuşacağız.

00:22.760 --> 00:27.910
öğretici olacak çünkü artık labaratuarı geçirmediğinizde rastgele arama olmayan deterministik arama

00:27.910 --> 00:34.310
dünyasına girdiğimiz yeni bir dünyaya giriyoruz ancak aynı zamanda vurulabilecek rasgele faktörleri de hesaba

00:34.310 --> 00:38.990
katıyoruz. Bu labirenti atlattığınızda başınızdasın ve bunun için hazırlanmanız gerekiyor.

00:38.990 --> 00:41.080
Hızlı ve eğlenceli bir

00:41.080 --> 00:42.070
Dünya budur.

00:42.080 --> 00:48.640
Acentamız yaşıyor ve eğlencesi daha da tehlikeli, daha az öngörülebilir.

00:48.650 --> 00:50.880
Ajanımız nasıl davranacak peki.

00:50.960 --> 00:52.280
Bir bakalım.

00:52.280 --> 00:58.190
Bir kez daha lehimize Belman denklemi olan karar süreci çerçevemizin işareti var.

00:58.250 --> 01:02.010
Ancak Belman denkleminin daha gelişmiş versiyonu ile birlikte çalışıyoruz.

01:02.010 --> 01:04.760
Bundan böyle sadece buna Beldon denklemini diyoruz.

01:04.760 --> 01:10.970
Ve burada maksimum ve Crucell eylemimize sahibiz, bir devletin değeri, herhangi bir devletin, bir aracının

01:10.970 --> 01:14.020
o durumda muhtemelen gerçekleştirebileceği tüm işlemlerdeki maksimumu gibi.

01:14.120 --> 01:21.230
Üstünlük, acentenin alacağı ödülün A eylemini, Artı bir indirim faktörünün içinde olacağı yeni

01:21.230 --> 01:26.590
durumun beklenen değeri ile çarpımı olarak gerçekleştirdiği sonucu aldı.

01:26.830 --> 01:31.850
Ve burada alındıklarını umuyorum çünkü tam olarak ne sedrin bittiğini bilmiyorlar.

01:31.880 --> 01:40.390
Ortamda devleti değiştirebilecek ancak istenen duruma gelmeyebilecek

01:40.800 --> 01:42.630
rastgele etkilerdirler.

01:42.640 --> 01:44.200
Farklı bir duruma gelebilir.

01:44.210 --> 01:47.760
İşte bu yüzden burada beklenen değeri alıyoruz.

01:47.990 --> 01:53.750
Şimdi de buna bizim örnek olarak veya bir labirent örneğinde bir göz atalım.

01:53.750 --> 02:00.220
Bu yüzden daha önce yaşanmış deterministik arama ile uğraştığımız şey şu ana kadar sahip olduğumuz şey.

02:00.230 --> 02:01.960
Yani biz bunu biliyorduk.

02:01.970 --> 02:05.550
Pekâlâ, eğer buradaysam, burada olsam kesinlikle burada olmalıyım.

02:05.570 --> 02:09.030
Buraya geldiysem kesinlikle burada olmam lazım Burdayım, burada olduğum için buraya kesinlikle gitmem gerekiyor.

02:09.140 --> 02:11.360
Bu yüzden hepsi oldukça açıktı.

02:11.480 --> 02:14.680
Bir kere bu haritaya sahip olduğunuzdan ve onu hatırladığınızı hatırlatarak ona bir plan diyoruz.

02:14.690 --> 02:18.050
Bir kere planınızı yaptıktan sonra yapmak oldukça basittir.

02:18.050 --> 02:18.990
Var.

02:18.990 --> 02:20.490
Yani oklarla olan plan bu.

02:20.580 --> 02:25.000
Ve buradan itibaren çok basittik, çünkü bunlar şu mavi çizgide

02:25.010 --> 02:26.210
başlayınca gideceği rotalar.

02:26.210 --> 02:28.210
Tam da böyle gideceksin.

02:28.680 --> 02:31.120
Ancak şimdi artık bir planımız yok.

02:31.120 --> 02:38.060
yaparsak planlanamayacağımızı kontrol edemeyiz ya da plan yapmazsanız, tam olarak ne yapmanız gerektiğini tam olarak biliyorsunuz.

02:38.060 --> 02:40.940
Bir plan yapamayız, çünkü ne plan

02:40.940 --> 02:41.820
Adımları biliyorsun.

02:41.840 --> 02:46.640
Yani bir başlangıç ​​var, bir hedefin var ve her adımı biliyorsun, böylece onları planlıyorsun, bunu

02:46.640 --> 02:50.500
yapacağım gibi yapacağım bunu yapacağım Bunu hayatta bir plan gibi yapacağım .

02:50.630 --> 02:54.870
Fakat aynı zamanda şimdi çok fazla rastlantısallık oluyor.

02:54.890 --> 03:00.080
Bir plana sahip olabilirsiniz, çünkü buraya gelirseniz sağa tıklarsanız, aslında sizi yere

03:00.080 --> 03:00.560
atarsınız.

03:00.680 --> 03:02.100
Bu planınızın bir parçası değil.

03:02.390 --> 03:04.120
Bu yüzden daha çok planlama deniyor.

03:04.220 --> 03:09.080
Ve burada değerlerin aslında aynı problem için

03:09.410 --> 03:11.990
hesaplanan değerlere bakacağını hesaplayacağız.

03:12.080 --> 03:16.700
Fakat buna dayanarak, bu rasgeleliği içimizde var.

03:16.700 --> 03:18.380
Yani bunlar yeni değerler.

03:18.800 --> 03:22.840
Peki neden bu değerler farklıdır, bu yüzden daha önce sahip olduğumuz değerleri karşılaştıralım.

03:22.850 --> 03:24.710
Daha önce sahip olduğumuz budur.

03:24.710 --> 03:25.650
O zaman onlar sizsiniz.

03:25.660 --> 03:29.750
Bu yüzden daha önce bir kez daha kazandık çünkü 3 kazandı. Yüzde 9.

03:29.770 --> 03:31.590
Gerçekten 366 yaşındaydı.

03:31.790 --> 03:36.750
Ve şu anda sahip olduğumuz şey, bir kereden az yürürlükte ve 1 6 3.

03:36.800 --> 03:43.850
Ve bu arada başımın en üstündeki şu anki mitingler değil, ancak bir aracı çalıştırsaydık,

03:43.850 --> 03:49.220
bazı değerler buna benzer bir şey olurdu ve değerleri seçebilirdik çünkü

03:49.220 --> 03:54.650
kumar bağımlısı olduğu için 3 değişebilirdi. 9 veya başka bir değer ancak bununla

03:54.650 --> 04:00.560
birlikte, argüman uğruna, bunlar şu anda uğraştığımız değerlerdir ve bunlar yaklaşıktır, bütün düşünceyi doğru şekilde

04:00.560 --> 04:02.270
iletirler, onlara bir göz atalım.

04:02.270 --> 04:03.240
Neden değiştiler.

04:03.410 --> 04:07.480
Peki buradaki neden burada bir değer vardı.

04:07.490 --> 04:10.520
Neden ani 0 26 Neden birden az mıdır?

04:10.560 --> 04:11.730
Buradan sadece git buradan.

04:11.930 --> 04:18.620
Aslında aradık çünkü buradan buradan gidersek, eğer amacımız doğru gidersek, aslında burada

04:18.640 --> 04:22.340
yüzde 10 olasılığa sahip olacağımızı söyleyebiliriz.

04:22.340 --> 04:25.130
Duvara çarptık ve bu haliyle geri döneceğiz.

04:25.130 --> 04:30.740
sahibiz. Yani değer düşürülecek ve / veya 10'da kapalı veya kapalı olacağız ve şans bu durumda burada olacaktı.

04:30.740 --> 04:32.150
Ve unutmayın ki bir Gamla'ya

04:32.150 --> 04:37.670
Dolayısıyla, buraya gelebileceğim yüzde yüz olasılık değil, dolayısıyla değer kaybı artık olamaz, daha az

04:37.670 --> 04:41.310
şey ve 0 olur. 26.

04:41.570 --> 04:43.770
Bu yüzden bunun neden böyle olduğuna bir örnek.

04:43.770 --> 04:49.130
Belman denklemini şimdi tam olarak ancak benim soruyu hesapladıysanız kesin değeri

04:49.130 --> 04:49.850
elde edebilirsiniz.

04:49.850 --> 04:53.540
bilmek zorunda olduğunuzdan ve bunun için bunun oldukça karmaşık olduğunu

04:53.540 --> 04:57.440
bilmeniz gerektiği için hesaplamaları manuel olarak yapmadığımız için bazı özyinelemeler olacağıdır.

04:57.440 --> 04:59.180
Tek sorun, bunun için değeri

04:59.240 --> 05:06.000
Bu yüzden bunları yapabildiğim için yapabilirim, bunun nedeni a için çok karmaşık bir şey değil

05:06.000 --> 05:06.510
gibidir.

05:06.540 --> 05:08.520
Bunları oynayamazsın.

05:08.520 --> 05:10.090
İşte bizim değerimiz.

05:10.110 --> 05:11.520
Ancak bunun için farklı bir yöntem.

05:11.520 --> 05:16.830
Yani burada sadece 0 olacak. yüzünden burada buradan burayı tekrar hatırlayın,

05:16.830 --> 05:23.070
buradan üniversiteler buradan buraya atlar çünkü sadece böyle atlarsak atlamak bile burada burada geri gelebiliriz.

05:23.070 --> 05:24.680
9 sadece indirgeyici faktör

05:24.700 --> 05:28.440
Hemen yüzde 20 şans bu kare kalacak, çünkü bir duvara çarpacağız.

05:28.710 --> 05:29.730
Ve yine ve benzeri.

05:29.730 --> 05:32.700
Dolayısıyla burada olma değeri sıfır noktası yetmiş.

05:32.850 --> 05:35.370
Yine bu ve indirgeyen faktör.

05:35.370 --> 05:39.970
Bunun size tuhaf gelebileceğini biliyorsunuz, bu faktördeki indirimle bile bu çok yüksek.

05:40.050 --> 05:44.440
Belki bu örnekteki iskonto faktörü 0 değildir. 9 belki yedi nokta doksan dokuz ya

05:44.500 --> 05:46.310
da öyle endişelenmeyen bir şey.

05:46.350 --> 05:48.480
Sadece buna odaklanmak gibi bir şey.

05:48.480 --> 05:53.210
Değerler, şimdi değerlerin artık daha az olduğu yönünde değişti.

05:53.460 --> 05:58.700
Çoğunlukla değil, almak istediğiniz ve bulacağınız durumu elde etmek yüzde yüz

05:59.100 --> 06:00.180
olasılığı değil.

06:00.210 --> 06:06.660
İlginç olan burada sadece 0 olmaktır. 9 aslında çok düştü çok düştü.

06:06.660 --> 06:07.110
Neden.

06:07.110 --> 06:12.120
varsa, ancak yüzde 10 olasılıkla firepitte sona erme ihtimali var ve ödül

06:12.120 --> 06:18.700
için eksi bir kaybetme şansınız var ve aslında bunun sonu olan ajan için demektir oyununun.

06:18.700 --> 06:22.820
Çünkü buradan niyetimiz olan yüzde 10'luk bir duvara çarpma ihtimaliniz

06:23.160 --> 06:25.640
Ve bu yüzden içinde olmak çok kötü bir durum.

06:25.680 --> 06:29.910
Bu yüzden aniden hatırladık ki dokuz yıl ayrı bir sıfır noktamız vardı ve bu yüzden eşdeğerdiler.

06:29.910 --> 06:34.900
Burada duyduğunuzun fark etmez, bu devletlerin her birinde bulunmanın değeri açısından neredeyse eşit oldukları anlamına gelir.

06:34.980 --> 06:43.440
Ama şimdi bu tarihteki ani bir şey, sadece bununla neredeyse iki misline benziyor, çünkü burada

06:43.590 --> 06:46.980
doğruca ona gitmek istediğiniz yere giderseniz.

06:47.050 --> 06:51.270
Rasgeleliğin sonuçlarını biliyorsun, burada kalırsın.

06:51.290 --> 06:55.070
Sonuçlardan biri yüzde 10 ihtimal şurada sona eriyor demektir.

06:55.110 --> 07:02.160
Gördüğünüz gibi, artık bu gerçekleşmeyecek bir dalgalanma nedeniyle artık bu kadar iyi bir

07:02.160 --> 07:03.460
devlet değil.

07:03.570 --> 07:09.150
Gördüğünüz gibi bu da çok kötü çünkü çürümeye kadar sadece yüzde 10 olasılık ve duvarın

07:09.150 --> 07:12.660
sonunda yüzde 10 şans olduğunu bildiğiniz için bu kadar kötü.

07:12.660 --> 07:18.480
Ama aynı zamanda bir indirim faktörü var Her şeyden önce, indirgeyen faktör ve bunun ardından

07:18.480 --> 07:20.390
da buraya gitmek zorunda kalacaksınız.

07:20.700 --> 07:23.900
Ve varsayımsal olarak buraya girseniz bile, tekrar çukurun içine girebilirdiniz.

07:23.910 --> 07:28.710
değerlerin bu değerden geldiğini unutmayın ve bu değer bu değerden türetilir.

07:28.710 --> 07:31.760
Bu şans da dikkate alınır, çünkü bu

07:31.820 --> 07:32.350
Sağ.

07:32.400 --> 07:37.560
Ve bu nedenle küçük ama gerçekte aslında dediğim yanlış oldu.

07:37.560 --> 07:39.640
Bu değer Fed'den türetilmemiştir.

07:39.810 --> 07:46.800
Dolayısıyla şimdi bir göz atarsanız, buradaki bu değerin aslında bu değerin daha büyük olduğunu

07:46.800 --> 07:47.300
farkedeceksiniz.

07:47.610 --> 07:54.780
Ajan için bu yoldan bu şekilde gitmek daha iyi ve doğru mantıklı olduğunu fark edeceksiniz.

07:54.780 --> 07:58.580
Bu şekilde kaybetmez, çukura girme şansı yoktur.

07:58.590 --> 08:03.450
Evet biraz daha uzun ve bu nedenle indirim faktörü daha büyük bir etkiye sahiptir.

08:03.510 --> 08:07.470
Ama aynı zamanda, burada çukura girme şansı olduğu için, düzgün

08:07.530 --> 08:09.140
giderse atlama şansı olacak.

08:09.160 --> 08:15.120
Bu yüzden zaman kazanmak için bir beraberlik alacak ve sadece dolaşmak bu şekilde daha az bir şans elde etmek

08:15.120 --> 08:16.530
için Ama yine de var.

08:16.530 --> 08:19.590
Buradan buradan gidiyor buradan oraya gidiyor.

08:19.590 --> 08:23.590
Potansiyel olarak çukurun içine girebilir, çünkü orada bitebilir ve bu faturaya son verebilir.

08:23.730 --> 08:27.430
Fakat yine de daha az şans bu yüzden devam etsin böyle.

08:27.430 --> 08:32.430
Onların nasıl değiştiğini görmek çok ilginçti; buradan önce sizi hatırlıyorsunuz, böyle gidersiniz.

08:32.430 --> 08:34.790
Buradan böyle gideceksin ve buradan böyle gideceğiz.

08:35.010 --> 08:36.870
Ve şimdi aniden onun değişimini görebiliyorsun.

08:36.870 --> 08:41.000
Şimdi okları döndürelim ve şimdi ve nasıl olup bittiğini görün.

08:41.010 --> 08:43.760
Hatta daha rasgele bir şey doğru görüyorsunuz.

08:43.770 --> 08:45.260
Evet, bu doğrudur.

08:45.270 --> 08:46.500
Ama burada olanlara bir bak.

08:46.500 --> 08:47.610
Şuna bak.

08:47.690 --> 08:48.970
Şuna bak.

08:49.050 --> 08:50.490
Bunu bekliyor muydun

08:50.520 --> 08:54.570
Ben ilk defa gördüğümde çok etkilendim, kesinlikle beğendim.

08:54.570 --> 08:59.800
Süper değildim, şaşırmadım ve bunu hiç beklemiyordum.

08:59.970 --> 09:04.860
Ve bu, bir insanın üstesinden gelebileceği zamanı bildiğiniz bir örnek.

09:05.120 --> 09:10.680
Tahmin edebileceğiniz gibi yakaladığınız bir şey gibi görünüyor, ancak uygulama yoluyla öğrenme, köpek

09:10.680 --> 09:14.400
örneklerinin aslında bazen normal hayattan daha iyi çalışabileceğini unutmayın.

09:14.400 --> 09:21.330
programlanmış robot köpekler sadece futbol oynayabilir çünkü biz bile göremediğimiz bu fikirleri ortaya çıkarırlar.

09:21.390 --> 09:22.350
Köpekler önceden

09:22.440 --> 09:27.330
Ve harika bir örnek olarak, muhtemelen Asyalıların yukarı çıkmak yerine benim

09:27.330 --> 09:29.690
için neden böyle olacağını tahmin etmiyorsunuzdur.

09:29.850 --> 09:33.120
Sanki yukarı çıksam, çukura atlayacağım yüzde 10 olasılık var.

09:33.120 --> 09:35.130
Ancak savaşa girerek neyi başarıyor.

09:35.280 --> 09:38.330
Zamanın yüzde 80'i geri çekilecek ve devlette kalacak.

09:38.490 --> 09:42.360
Ama zamanın yüzde 10'u buraya gidecek ve ben de buraya gideceğim zamanın yüzde 10'u olacak.

09:42.360 --> 09:49.130
Dolayısıyla aniden artık duvarın içine atlamanın bu yeni yaklaşımında olduğunu görebilirsiniz.

09:49.170 --> 09:53.350
Ateşe gidecek yüzde sıfır şans var ama bu noktadan öyle.

09:53.370 --> 09:57.690
Ve sanki ateş çukuruna girmek istemiyor, böylelikle bon bonsu birkaç kez duvara

09:57.690 --> 10:03.050
ilaçlıyor ve sonra bazı noktalarda sağa ya da sola gidecek, çünkü bu rasgelelik gerçekleşecek.

10:03.080 --> 10:09.680
Ve böylece deneyler sonucunda ilerlediğimde OK'in duvara gittiğim zamanki kadar

10:09.680 --> 10:11.440
iyi olmadığını öğrendi.

10:11.510 --> 10:13.540
Ve eğer bunu düşünüyorsan, bunun gibi.

10:13.580 --> 10:18.350
Bu robot, bir firepit olduğunu düşündüğünüzde, bunun nedeni, bir kare çok küçük bir çıkın

10:18.350 --> 10:21.630
gibi, daha sonra bir uçurum gibi bir dağ gibidir.

10:21.650 --> 10:27.830
Ve bu robot sadece uçurumun kucağında kalıyor ve sağa sola itilmesine kadar beklemeye çalışıyormuş

10:27.830 --> 10:32.640
gibi davranıyor çünkü bir insanınkiyle aynı şeyi yaparsınız, öylece duramaz ya

10:32.750 --> 10:34.970
da uçurumun sağına sarılırdınız demektir.

10:35.000 --> 10:35.860
Ya da böyle bir şey.

10:35.940 --> 10:39.740
Ve umarım sonunda böyle bir durumla sonuçlanmamamız gerektiğini bilirsiniz.

10:39.770 --> 10:43.670
Fakat görsel olarak sadece görsel olarak burada bir şey düşünürseniz.

10:43.760 --> 10:46.450
Ve bu da oldukça yoğun doğru.

10:46.460 --> 10:51.860
ve ben burada olacağım ve ben güvende olacağım ve sonra sadece ben olacağım böyle devam et.

10:51.860 --> 10:56.270
Böylece AI bu fikri ortaya çıkardı ve aynı burada sola gidiyor ve Riskin kavga

10:56.300 --> 11:01.430
ediyormuş ama ben sadece bir duvarı kucakladığını bildiği gibi duvardan çıkarmaya çalışacağım duvara atlamaya çalışın ve

11:01.430 --> 11:04.910
bazı noktanızda bildiğini biliyorum, orada olduğum her seferinde yüzde 10 olasılık

11:04.910 --> 11:06.680
olasılığı var, bir şey olur

11:06.830 --> 11:13.240
Buraya götürdükleri çok ilginç bir yaklaşım ve güzergahların buradan geldiğini görebiliyorsunuz, buradan sağa doğru gidebilir

11:13.250 --> 11:17.500
ve oradan çıkışa veya buraya gideceksiniz ya da sola gidersiniz.

11:17.690 --> 11:22.230
Ve burada bir noktada sola gideceksin ve böyle tekrar gideceksin.

11:22.310 --> 11:23.170
Bu önemli.

11:23.180 --> 11:27.610
Ben bir politika değilim, o yüzden buradan atlayışınızda bile buraya gidecek.

11:27.650 --> 11:30.400
Belki Ve o zaman buradan aslında düz yağmur yağabilir.

11:30.410 --> 11:34.520
Aslında sağa dönebilir ve buradan sonra ben de doğru anlama izin veririm.

11:34.550 --> 11:38.260
Dolayısıyla, pek çok farklı seçenek var, tam da bu yoldışı adamı takip etmeyen, diğer yoldan

11:38.270 --> 11:38.730
gitmek çocuklar.

11:38.960 --> 11:42.500
Bu sadece kendisi için tasarlanmış arzulanan rotalar.

11:42.590 --> 11:44.690
Fakat bunun nasıl işleyeceği aslında farklı olabilir.

11:44.690 --> 11:46.130
Gerçek dünyaya bağlı.

11:46.340 --> 11:46.940
İşte gidiyoruz.

11:46.950 --> 11:50.090
Yapay zeka dünyası budur.

11:50.090 --> 11:56.780
Bir plana kıyasla bir politika budur ve umarım özellikle burada gördüğümüz

11:57.000 --> 12:01.220
şeyler nedeniyle AI'nın yapabileceği şeylerden yavaşça heyecanlanırsınız.

12:01.340 --> 12:07.430
Bunlar AI'ların öne sürdüğü bazı çok büyük virtütüslü kararlar.

12:07.610 --> 12:12.500
Ve AI'yi bu küçük örneğinden bile oynadığınızda görebileceğiniz gibi,

12:12.500 --> 12:18.950
gerçek bir dünyada oynuyorsanız bile bazen insanlar gelebilecek fikir ve kararlar bulacaksınız.

12:18.950 --> 12:19.240
&nbsp;

12:19.250 --> 12:25.460
Ve bu, Google Alfa hedefinin, dünya şampiyonu Kore'de geri

12:25.520 --> 12:32.320
dönen Lisa idole şampiyonu karşısında oynadığı oyunlarda yaşananlara tamamen benziyor.

12:32.390 --> 12:37.000
2016 yılında Mart 2016'da oynanacak Kore'de geri bakla oynuyorlardı.

12:37.000 --> 12:42.370
İnsanın 3000 yılda hiç oynamadığı bazı hareketlerle ya da insanlar oyuna alışık değildi.

12:42.380 --> 12:45.510
Ve işte tam da bunun bir örneğidir.

12:45.740 --> 12:50.290
Bu yüzden bir kez daha heyecanlanmaya başladığınızı ve söylem ve ne entegre edebileceğimiz konusunda pompaladığınızı umuyoruz.

12:50.330 --> 12:51.840
Ve ben onu arıyorum.

12:51.840 --> 12:52.720
Bir dahaki sefer görüşürüz.

12:52.730 --> 12:54.410
O zamana kadar tadını çıkarın.

12:54.410 --> 12:54.640
BEN.
