WEBVTT

00:01.040 --> 00:04.020
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.040 --> 00:07.040
Bugün Nihayet Kule öğrenme hakkında konuşuyoruz.

00:07.070 --> 00:12.890
Pekâlâ, bu denklemi çok sayıda bileşeni eklediğimiz bellmen denklemine zaten aldık.

00:12.890 --> 00:13.120
&nbsp;

00:13.130 --> 00:19.910
Burada ödülü aldık, sadece en sonunda değil, herhangi bir aşamada olabilir.

00:19.940 --> 00:21.920
İndirim faktörümüz var.

00:21.950 --> 00:26.880
Olasılığa sahibiz, çünkü şimdi bir karar sürecinin işaretine bakıyoruz.

00:26.900 --> 00:32.780
veya gerçekte aldığımız eylem göz önüne alınmaksızın farklı bir durumda bitme ihtimalimiz var.

00:33.350 --> 00:35.210
Ve burada aldığımız eylem

00:35.210 --> 00:40.670
Sona erebileceğimiz birden fazla durum olabilir ve sonra bir sonraki durumun değerini elde

00:40.670 --> 00:46.790
ederiz, çünkü türünden bir özyinelemeli işlev görüyor vb. Ama yine de bir sorunuz var.

00:46.820 --> 00:53.560
Buradaki soru şu ki burada mektup yok Q Neden hepsine q deniliyor.

00:53.750 --> 00:54.270
Öğrenme.

00:54.350 --> 00:55.790
İşaret nerede?

00:55.910 --> 00:58.940
Ve bugün cevaplayacağımız soru bu.

00:58.940 --> 01:06.620
durumda olan değerle uğraşıyoruz ve şimdi Q'nun tüm bu duruma nasıl uyduğuna bakacağız.

01:06.620 --> 01:09.820
Şimdiye kadar, değerlerle belirli bir

01:10.070 --> 01:16.360
Yani burada solumuzda iki örnek var, ajanımızın analiz ettiği şu ana kadar ne yapardık.

01:16.400 --> 01:18.170
Tamam ben buradayım.

01:18.230 --> 01:21.640
Bu, karar vermenin bir işaretidir, bu yüzden burada nasıl olduğum önemli değil.

01:21.770 --> 01:28.250
Çevre geri kalanı bundan böyle buraya gelmem için atılan adımlarla ilgilenmiyor.

01:28.460 --> 01:32.050
Burada veya buraya nereye gideceğim konusunda en uygun kararımı vermeliyim.

01:32.060 --> 01:37.280
Geçmişten değil, buradan gelen mevcut devlet ve gelecekteki tüm devletlere dayanıyor.

01:37.490 --> 01:42.010
Ve bu yüzden, devlet üç devlet için bir devlet var üç seçenek olduğunu görebilirsiniz.

01:42.260 --> 01:48.920
Deneyimlerine dayanarak bu eyaletteki değerleri hesaplamış ve şu an bellmen

01:48.920 --> 01:49.880
denklemini kullanacak.

01:49.880 --> 01:54.260
Dolayısıyla bu klasik bir Proceso olmasına rağmen, buraya gideceğini biliyor ama

01:54.260 --> 01:56.120
sağdan sola gideceği ihtimali var.

01:56.110 --> 02:02.450
Dolayısıyla bu değerlere dayanarak bir karar vereceğiz, şimdiye kadar yaptığımız budur ve burada tamamen meşru

02:02.450 --> 02:03.470
bir yaklaşımdır.

02:03.560 --> 02:05.640
Ama şimdi biraz modifiye ediyoruz.

02:05.660 --> 02:12.860
değerlerine bakmak yerine sonlandırabileceğimiz her bir değerin veya değerin değerine bakacağız.

02:12.950 --> 02:21.440
Aynı kesin konsepti aynı kesin problemi alacağız, ancak burada her bir devletin

02:21.440 --> 02:25.640
Dolayısıyla artık V harfini kullanmayacağız çünkü devletin değeri için bir

02:25.640 --> 02:30.740
Q kullanacağız ve bir soru sormak için neden mektubun Q olması gerekiyor.

02:30.740 --> 02:32.300
S Bazı insanlar bunu speküle eder.

02:32.300 --> 02:33.760
S Bunu okuyayım mı?

02:33.770 --> 02:35.420
Sanırım Quora üzerinde.

02:35.420 --> 02:41.480
referanslar bulamadım, çünkü o zamanlarda kullanılan mektubun nedeni bu olmayabilirdi ve şimdi süper

02:41.480 --> 02:45.520
popüler oldu çünkü hepsi de anahtar öğrenme deniyor.

02:45.920 --> 02:50.750
Birisi Q'nın kalite yüzünden olduğunu belirtti ancak aynı zamanda başka

02:50.780 --> 02:52.520
Dolayısıyla hiçbir kesin sebep tutulmadı.

02:52.530 --> 02:58.830
S Buna rağmen en azından V ve Q So Q'ları birbirinden ayırmamıza yardımcı oluyoruz.

02:58.850 --> 03:03.340
Kaliteden ödün vermeden temsil ettiği devletin değeri yerine hediyeler vardı.

03:03.410 --> 03:06.260
Gösterilen eylemin kalitesini temsil eder.

03:06.260 --> 03:07.980
Tamam, bu yüzden dört adımım var.

03:08.300 --> 03:10.860
Bu eylemin farklı nitelikleri nelerdir.

03:10.860 --> 03:16.340
daha sonra bunları karşılaştırabileceğimi söyleyen bir ölçüye ihtiyacım vardır ve bu tam olarak N'dir.

03:16.340 --> 03:21.380
Eylemin değeri veya eylemin kalitesi nedir ve hangi eylem daha kazançlıdır, bu nedenle

03:21.380 --> 03:23.200
bu eylemi nasıl ölçebilirim ve

03:23.470 --> 03:26.240
Ve bu yüzden dört ihtimal var.

03:26.360 --> 03:29.240
Her zaman olduğu gibi sağdan sola ya da aşağı doğru.

03:29.240 --> 03:35.480
Ve eylem temelinde, bize, o eylemin Q q değerini verdiğimiz o eylemin

03:35.480 --> 03:38.410
nicelenebilir değerini söyleyen bir formül olacak.

03:38.630 --> 03:41.700
Bu formülü nasıl türettiğimizi bir göz atalım.

03:41.710 --> 03:44.510
S Bu aslında ne ile alakalı.

03:44.510 --> 03:51.290
Çünkü tahmin edebileceğiniz gibi, eylemler devletlere götürür, ikisi arasında bir çeşit bağlantı kurulması

03:51.290 --> 03:51.850
gerekir.

03:51.870 --> 03:56.060
Doğru, zaten bunu nasıl hesaplayacağımızı belirledik ve onun için oldukça iyiyiz.

03:56.060 --> 04:02.030
Belman denklemini çok farklı ortamlarda, birçok farklı komplikasyonla nasıl kullanacağımızı biliyoruz.

04:02.270 --> 04:06.080
Şimdi nasıl hesaplayabileceğimizi anlamak için bu bilgiden yararlanalım.

04:06.080 --> 04:12.170
S Aynı öngörüleri yapmak için, çevrenin hangi yaklaşımı kullandığına bağlı olarak değişmediğini tahmin

04:12.500 --> 04:16.530
edebildiğiniz gibi, çevre ne olursa olsun aynı olacaktır.

04:16.550 --> 04:22.130
her zaman aynı sonucu vermelidir ve bu nedenle bu iki bağlantının başka bir nedeni de olmalıdır.

04:22.460 --> 04:24.690
Dolayısıyla bu yaklaşım ve bu yaklaşım

04:25.100 --> 04:26.290
O halde bir göz atalım.

04:26.300 --> 04:31.280
İşte bu noktada, yalnızca bu devlete veya başka herhangi bir devletin değerine bakmaya çalıştığımız

04:31.280 --> 04:32.260
bakış açımız yaklaşımıdır.

04:32.420 --> 04:37.190
Ve işte burayı başkan kullanmaya başlıyoruz, çünkü burası o anki durum.

04:37.190 --> 04:43.730
Ve dolayısıyla terminoloji her iki denklemde de aynı olacak ve burada q'yu bir Q olarak kullanıyoruz.

04:43.790 --> 04:45.520
Devletin ve eylemin varlığı.

04:45.540 --> 04:51.970
A, çünkü eylem yukarı ancak durumumuzda bu eylemi gerçekleştiririz, bu eylemi Devlette yaparız.

04:53.000 --> 04:57.230
Tamam, şimdi şunu göreceğiniz ilk yaklaşım için Belman

04:57.230 --> 05:06.620
denklemini kullanacağız: Belirli bir devletin değerini veya değerini elde edersiniz, maksimum bahis elde ettiğiniz ödülün azami miktarıdır.

05:07.070 --> 05:08.660
üçünüz var eylemleri.

05:08.690 --> 05:14.210
Bu durumda gerçekte dört eyleminiz var, bu yüzden duyduğumuz bu bölümün olası

05:14.210 --> 05:20.090
eylemlerinin tümünü en çok değerlendiren defalarca konuştuğumuzdan, bu eylemin gerçekleştirilmesinden aldığımız ödülümüz, aslında

05:20.090 --> 05:26.850
bu beklenen ile çarpılan bir devlet plaza indirimi olsun Yeni bir devletin değeri, stokastik bir

05:26.850 --> 05:29.420
süreç olduğundan beklenen bir değere düşeceğiz.

05:29.420 --> 05:34.460
olarak emin değiliz, solda ya da doğru ihtimalle sonuçlanabiliriz.

05:34.460 --> 05:36.050
Buraya geleceğimizin tam

05:36.050 --> 05:38.230
Bu yüzden bu olasılıklar sizde.

05:38.240 --> 05:40.290
Pekala, bu bizim değerimiz.

05:40.350 --> 05:41.150
Ve şimdi bakalım.

05:41.150 --> 05:43.530
Q Yani Q tanımlanacak.

05:43.580 --> 05:49.550
Bunu Q tanımlamak için kullanacağız. Diyelim ki bu konumdaki bu konumdaki temsilcinin eylemi

05:49.550 --> 05:50.640
gerçekleştirdiğini varsayalım.

05:50.840 --> 05:54.350
Aranacak q değeri nedir?

05:54.500 --> 05:59.320
Her şeyden önce, bu hareketi yerine getirmek karşılığında neye bulacağına bir göz atalım.

05:59.420 --> 06:02.160
İlk elde edeceğiniz şey ödül hakkı.

06:02.360 --> 06:04.180
Bunun hiç şüphesini bilmiyor.

06:04.250 --> 06:09.920
Bir tür kural olacak veya sıfır olabilir, ancak bütünün bu takviye öğrenme sürecinin işleyiş

06:09.920 --> 06:15.770
şekli olduğunu biliyoruz, çünkü bazı kasabalar belli bir eyalette ya da ikiden belirli eylemler gerçekleştiriyor.

06:15.840 --> 06:17.140
Ben de onu buraya ekleyeceğim.

06:17.480 --> 06:19.680
Ve sonra ekleyeceğimizleri ekleyeceğiz.

06:19.850 --> 06:21.090
Düşünelim bunun hakkında.

06:21.110 --> 06:24.640
Oraya gidince bir sonraki şey ne olacak.

06:24.860 --> 06:32.030
O sırada gerçekleşen bir sonraki şey, ajan belirli bir durumda, yüzde 80 olasılık veya

06:32.330 --> 06:34.640
olasılık ile burada sona erebilir.

06:34.730 --> 06:36.670
Ama burada aslında burada.

06:36.800 --> 06:43.940
Ama o bittiğinde o bulunduğu halihazırda o devlet için nicelenmiş bir metriğe zaten sahibiz.

06:44.210 --> 06:47.100
Ve bu aslında o devletin değeri.

06:47.180 --> 06:52.340
Fakat birçok farklı devlette ve olası üç farklı durumdan

06:52.370 --> 06:55.730
geldiği için bekleyeceği devletin değerine bakmalıyız.

06:56.210 --> 06:58.610
Ve biz de ekleyeceğiz buna eklemek için gidiyoruz.

06:58.610 --> 07:04.020
Tabii ki indirimli faktör daha önce olduğu gibi, çünkü bu gelecekte bir yere.

07:04.190 --> 07:11.210
Ve bundan sonra, mümkün olan tüm devletlerde, bu eylemi yaparak sonuçlanabilecek

07:11.210 --> 07:12.910
bazı durumları ekleyeceğiz.

07:12.910 --> 07:14.240
Olasılık terimleri.

07:14.240 --> 07:20.150
Burada söylemek istediğimiz şey bu kadar iyi, bir eylem gerçekleştirerek, elde edeceğiniz sayısal

07:20.150 --> 07:22.700
metrik bir Artı Plus ödülünü alacaksınız.

07:22.730 --> 07:25.820
Burada hangisinin olabileceğini bilmediğimiz bir durumda kalırsın.

07:25.850 --> 07:26.950
Burada olabilirdi burada olabilir.

07:27.050 --> 07:32.240
Ancak burada, içinde bulunacağınız devletin beklenen değeri var.

07:32.270 --> 07:36.290
Ve şimdi faktörü indirgeyerek çarpacağız, çünkü bir adım öteye gidiyor.

07:36.380 --> 07:44.180
Performans bölümü için bu Q değerimizdir ve burada hemen farkedeceğiniz şey

07:44.180 --> 07:44.730
budur.

07:44.760 --> 07:51.470
Q Q değeri aslında burada bu köşeli parantezlerin içindekilerle tamamen aynıdır.

07:51.950 --> 07:52.660
Ve neden böyle.

07:52.670 --> 07:59.930
sonuçta mümkün olan tüm eylemlerin maksimumu alarak harekete geçtik. ve tanımladığımız yerleri kaydetmek.

07:59.930 --> 08:04.910
Eh, burada düşünürseniz sonuçların maksimumunu alıp olası tüm işlemlerin

08:04.910 --> 08:10.500
maksimumunu alacağız, bu nedenle eylemlerin her birini alıp elde edeceğimiz

08:10.610 --> 08:11.160
İlginç.

08:11.160 --> 08:14.000
Belli bir işlem yaparak ne elde edeceğiz.

08:14.000 --> 08:19.340
Dolayısıyla düşünürseniz bir devletin değerini mantıklı yapar.

08:19.370 --> 08:25.720
Örneğin bu durum, olası tüm Q değerlerinin maksimumudur.

08:25.790 --> 08:32.360
Devletin içinde bulunduğu durumda, ajan, q değeri için 3Q değerini korumak için bir anahtar değere

08:32.360 --> 08:32.870
sahiptir.

08:32.870 --> 08:37.760
Olası Q değerleri için evet pozitiftir, bu arada kalış değeri

08:37.760 --> 08:42.460
devletin değerinin bu dört anahtar değerin tümünün maksimum olması anlamındadır.

08:42.490 --> 08:44.420
Tam burada görebildiğimiz şey budur.

08:44.420 --> 08:48.060
Elde ettiğimiz yeni formülün iyi bir teyidi.

08:48.080 --> 08:53.080
Eğer durum böyle değilse, o zaman uyuşmazsa sorularımızı alırdık gibi olurdu.

08:53.270 --> 08:55.150
Öyleyse neden neden eşleşmiyor.

08:55.160 --> 08:57.510
Neden uymazsa?

08:57.690 --> 09:05.810
Q değeri, bir eylem gerçekleştirmenin sayısal bir metriğidir ve V, yere bağlıdır.

09:05.930 --> 09:12.650
Bu, mantıklı olabileceği kadarıyla yerine getirebileceği dört eylemin olası sonuçlarının maksimum olması

09:12.650 --> 09:12.970
gibidir.

09:12.980 --> 09:21.050
Ve bu sadece türev aldığımız formülü teyit ediyor ve şimdi onu daha da ilginç hale getireceğiz.

09:21.080 --> 09:26.620
Wii'den tamamen kurtulacağız çünkü burada Wii'nin yinelemeli bir işleve sahip olduğunu görebilirsiniz.

09:26.810 --> 09:29.750
Öyleyse ve sonra beni ve sonra B'yi ve daha sonra B'yi, sonra B'yi ve benzerlerini aldın.

09:29.760 --> 09:35.480
Dolayısıyla, bu görünümü aşağıdaki Vee'lerin tümü boyunca ifade edebilirsiniz: buradaki en uygun olan

09:36.150 --> 09:36.830
Vee'ler.

09:36.840 --> 09:43.210
V'nin bir fonksiyonu olarak VEYA'nın bir özyinelemeli işlevi olarak bekliyoruz ve bu V'yi takmanız gerekecek ve ardından B'ye döneceğiz.

09:43.250 --> 09:45.200
Q'yı bir funk olarak, bir sonraki

09:45.200 --> 09:51.110
Peki biz ne yapacağız ki aslında bu V'leri alacağız ve bunu Q

09:51.230 --> 09:54.280
Hakkıyla değiştireceğiz, buna bir göz atalım.

09:54.930 --> 10:01.410
Bir sonraki eyaletin V'sini alacağız ve bunu şu formüle takacağız.

10:01.570 --> 10:07.180
Ve şimdi görebileceğiniz gibi bu bölüm değişmez, bu olasılık değişmez.

10:07.180 --> 10:16.950
Fakat tartıştığımız gibi, S'nin q'nun tüm eylemleri ve burada bir sağın maksimumu.

10:16.990 --> 10:19.180
İşte biz de bunun yerine geçeceğimiz şey bu.

10:19.180 --> 10:24.310
yeni aksiyon biz alacağımız eylem çünkü Wii'yi asal olarak alıyoruz.

10:24.310 --> 10:26.760
Dolayısıyla şunu söyleyeceğiz, elbette ki

10:26.770 --> 10:30.700
Dolayısıyla burada maksimum düzeyde konsol üretebiliyoruz.

10:30.700 --> 10:34.510
Dolayısıyla bu devletten alacağımız eylemler nereden

10:34.510 --> 10:41.200
girersek gidelim hangimizden başlayabiliriz, ancak oradan alacağımız eylem ve Maxima

10:41.260 --> 10:50.170
bunlardan maksimumu, tüm küp değerleridir. bu yeni devlette asal virgül olarak birincil olarak kullanılabilir.

10:50.170 --> 10:51.280
Ve bu eylemdir.

10:51.280 --> 10:52.140
İşte bu.

10:52.210 --> 10:53.500
Yani dördüncü olacak.

10:53.500 --> 10:54.530
Q değeri var.

10:54.610 --> 10:56.700
Gördüğünüz gibi şimdi tekrar geçelim.

10:57.040 --> 11:02.740
Elde ettiğimiz şeyden geldiği gibi, bu sözcük sadece mantık ve sezgiler yoluyla ortaya çıkacaktı,

11:02.740 --> 11:07.400
böylece VNS'in AS ve / veya birinin ve birinin bağlantılı olduğunu görebiliriz.

11:07.400 --> 11:12.400
S, Küba S'nin tüm eylemlerinin maksimumu ve burada, bu bölümün bu bölümle

11:12.400 --> 11:13.820
özdeş olması için görebilirsiniz.

11:14.290 --> 11:20.740
Ve sonra bunu kullanacağız ve bu biti buradan VNS ile değiştireceğiz, ancak bu iç

11:20.740 --> 11:25.730
hasılatı değil, masum insanı öldürmekle değiştirmek için kullanacağımız bu huniyi değiştireceğiz.

11:26.080 --> 11:32.920
Yani onu buraya takacağız ve bu bölüm, Crucell a Priam'ın Q As Prime adlı prime tarafından

11:33.430 --> 11:36.810
asal bir asgari küp olacak şekilde birinci olacak.

11:37.060 --> 11:39.790
Şimdi formülümüz var.

11:39.790 --> 11:46.880
Şimdi, q değeri için yinelemeli bir formül bulduk, böylece temsilci bu bölümün değeri ne olduğunu, bu

11:46.890 --> 11:50.310
eylemin yeni değerinin bu bölümün kalitesi olduğunu düşünebilir.

11:50.470 --> 11:56.570
Eh, bundan sonra acil adımda aldığım ödüle bağlıdır, artı

11:56.590 --> 12:02.410
bu durumdaki tüm olası Q eylemlerinin çarpıtılmış faktörüne bağlıdır.

12:02.410 --> 12:06.760
değeri burada var, bu yüzden bazı olasılıkların en fazla beklenen değeri var.

12:06.760 --> 12:12.770
Ancak yan tarafın da o eyalette o eyalete bakması gerekip gerekmediğini bilmiyorum ve bu nedenle bu

12:12.860 --> 12:13.300
beklenen

12:13.450 --> 12:18.010
Gördüğünüz gibi çok benzer bir formül, ancak bu sefer q değerleriyle

12:18.490 --> 12:27.310
şeyleri ifade ediyoruz ve bu nedenle bu algoritmanın tümüne Kill öğrenme deniyor. Çünkü bu araştırmaya bakıldığında, aracıların gerçekte kullandıkları şey, bakmadığı.

12:27.310 --> 12:32.020
devletlerde olası eylemler üzerinde durur ve daha sonra eylemlerin q değeri

12:32.020 --> 12:35.760
üzerindeki eylemlere dayanarak hangi eylemi yapacaklarına karar verirler.

12:35.760 --> 12:40.330
Dolayısıyla, bu verili durumda maksimum dörtlü değeri olan Q değerine bakacaklardır.

12:40.330 --> 12:45.340
gerçekleştirir. bu işlemi bu işlemi tekrarlamak ve böylece tekrarlamak için devam edecektir.

12:45.350 --> 12:51.820
Sona gelebilecek farklı durumları karşılaştıran çeşitleri karşılaştıracak en iyi eylem nedir, o anda mevcut olan olası

12:51.820 --> 12:56.830
eylemleri karşılaştırarak en uygun olanı bu eylemi gerçekleştirir ve daha sonra bu

12:56.860 --> 12:57.440
eylemi

12:57.580 --> 13:03.940
Şimdi, bunların hepsinin nasıl bir araya geldiğini görebilirsiniz, şimdi uygulayabileceğimiz q değerleri için bu

13:04.360 --> 13:10.330
süper güçlü Belman denklemini hazırlamak için, iskonto edici gerçeklerin veya stokastik piyasa karar

13:10.690 --> 13:18.400
süreçlerinin ve değerlerin ve q değerlerinin hepsinin biraraya gelmesinin nasıl biraraya geldiğini görebilirsiniz ve acentelerimizin ortamı nasıl

13:18.400 --> 13:20.410
yenmeyi öğrenmelerine izin verin.

13:20.410 --> 13:23.380
Ve bu da, neler olup bittiğinin sezgisel bir açıklaması.

13:23.380 --> 13:28.510
Formülleri dolaştığımızı biliyorum, fakat bu gerekli çünkü bu, bu bölüm

13:28.510 --> 13:34.730
boyunca devam ettiğimiz formüle benziyor ve Bence iyi bir geçiş olduğunu düşünüyorum.

13:34.780 --> 13:43.450
Q Ve ayrıca, Yishun And, arasında sıkı bir yaklaşım matematiksel yaklaşımı elde etmek ve onun arkasındaki matematiğe bakmak ve

13:43.450 --> 13:49.410
q değerleri ve nasıl çalıştığı hakkında biraz daha bilgi edinmek isterseniz bağlantılar arasında

13:49.420 --> 13:51.600
nasıl bir ilişki olduğunu gösteriyor.

13:51.640 --> 13:54.090
Sonra sizin için bir miktar ek okuma var.

13:54.130 --> 14:02.980
Bu yazıda Markov karar süreçleri kavramları ve algoritmaları martónon Autor low 2009 tarafından adlandırılmıştır.

14:02.980 --> 14:09.610
konuyla ilgili biraz bilgi edinmek istiyorsak, bu kağıt gibi daha karmaşık bir şeyi incelemek.

14:09.820 --> 14:15.220
Bağlantıyı her zaman olduğu gibi kesersiniz ve burada, Hugh değerlerinin arkasındaki bütün

14:15.220 --> 14:21.660
niteliği anlamak için biraz daha okuyabilir ve böylece şu an hazır olduğumuz Belman denklemiyle

14:21.790 --> 14:27.670
ilgili tüm bu konuları tartışmış olduk. daha derin bir anlayışa varabilmek için bu

14:27.670 --> 14:34.390
Ancak, gazeteyi veya radyoyu okumasanız bile, öğrenmenin ne olduğu ve ajanların belirli bir

14:34.390 --> 14:40.850
çevrede yapması gereken işlemleri nasıl sağladığı hakkında iyi bir çalışma bilgisine sahip olmalısınız.

14:40.870 --> 14:43.980
Umarım bugün Statoil'ten hoşlanırsınız ve bir sonraki adımınızı dört gözle bekliyoruz.

14:43.990 --> 14:45.360
O zamana kadar tadını çıkarın.

14:45.390 --> 14:45.620
BEN.