WEBVTT

00:01.160 --> 00:04.720
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.740 --> 00:07.950
Bugün biz zamansal farktan bahsediyoruz.

00:08.100 --> 00:14.310
Şimdi deneme için çok önemlidir, çünkü zamansal fark Q öğrenme algoritmasının kalbi

00:14.340 --> 00:15.100
ve ruhudur.

00:15.120 --> 00:22.410
Aslında şu ana kadar öğrendiğimiz her şey temel öğrenme içinde nasıl bir araya gelir.

00:22.410 --> 00:23.880
O halde bir göz atalım.

00:23.910 --> 00:28.040
Deterministik olmayan soruna karşı nondeterministik arama hakkında konuştuğumuz zamanı hatırla.

00:28.410 --> 00:34.960
Ve hatırlatalım ki, bu durumda ajanın yukarı çıkmak istediği zamanı ve zamanı geldiğinde bunu söylediklerini hatırlayın.

00:35.070 --> 00:38.740
Bu durumda yukarı gitmek istiyor, yüzde 10 şans var, o da daha düşük sol temps ve

00:38.730 --> 00:41.390
şans gidecek ve sağa gidiyor ve yüzde 80 olasılık doğru gidiyor.

00:41.400 --> 00:42.390
Doğruca yukarı çıkın.

00:42.450 --> 00:46.410
Bu rakamlar tabii ki keyfi ve farklı olabilir.

00:46.410 --> 00:52.260
Ve bu bütün konsept farklı ve farklı problemler olabilir, bu nedenle hangi yönde

00:52.320 --> 00:57.090
hareket edeceği konusunda endişelenmenize gerek yok, sadece bu ortamda gerçekleşen

00:57.300 --> 00:59.930
ajanların kontrolü dışındaki bazı raslantılar var.

01:00.060 --> 01:07.470
deterministik örnekte Wii değerlerini hesaplamak çok kolaydır, ancak her zaman kolay değildir.

01:07.470 --> 01:11.030
Ve hatırladığınız gibi olan bu etkendir,

01:11.040 --> 01:16.530
Fakat durumumuzda Belman denklemini kullanarak hesaplayabilirdik ve kesin değerler elde

01:16.530 --> 01:17.120
ettik.

01:17.370 --> 01:24.810
Hatırladığınız gibi, ben de çok dikkatli bir şekilde, deterministik olmayan arama örneği için bu

01:24.810 --> 01:27.810
değerlerin kafamın üstünde olduğunu belirttim.

01:27.840 --> 01:29.220
Onlar bildiğimiz Kalka değildir.

01:29.270 --> 01:33.090
Son kez söylediğimizde, onları hesaplamak zorunda kalmadık, çünkü çok karmaşık.

01:33.090 --> 01:39.390
Ancak bilgisayar bunu yapabilir ve biz sadece oluşturduğumuz değerler olan bu değerlerle birlikteydik.

01:39.390 --> 01:39.600
&nbsp;

01:39.600 --> 01:41.310
Ama işi hallettiler.

01:41.310 --> 01:43.030
Konsepti anlamamıza yardımcı oldular.

01:43.290 --> 01:47.790
Şimdi biraz buna döneceğiz ve burada neler olduğunu anlıyorum.

01:47.790 --> 01:55.420
Bu değerleri nondeterministik olmayan örnekte hesaplamak ya da genellikle bu ortamlarda ve bu ortamlarda

01:55.420 --> 01:59.570
konuşan bu ajanların konuşmalarını neden bu kadar zorlaştıracaktır.

01:59.580 --> 02:00.400
Neden o.

02:00.510 --> 02:03.030
Neden bu değerleri hesaplamak o kadar zor olabilir.

02:03.030 --> 02:09.010
İyi düşünürsünüz, çünkü temsilci burada örneğin sağa doğru hareket ettiğinde, bu

02:09.090 --> 02:15.270
yolu her zaman bazen bazen kazanmak için kazanacak bir şans olarak

02:15.450 --> 02:22.290
bu şekilde hareket etmez; bu nedenle bu kuzeydoğu güneybatı diyebiliriz. batıdan gitmek gibi.

02:22.470 --> 02:27.360
Ajan bazen güneye gidebilir ve örneğin buradan biraz kuzeye gidiyor.

02:27.360 --> 02:29.220
Bazen doğuya gidebilir.

02:29.460 --> 02:30.240
Çok üzgünüm.

02:30.240 --> 02:34.680
Yani burada doğuya gitmek yerine kimi zaman güneye gidebilir ve kuzeye gidiyor.

02:34.710 --> 02:40.200
batıya gidebilir ve burada kuzeye gitmek yerine kimi zaman batıya, doğuya ya da batıya gidebilir.

02:40.200 --> 02:41.160
Bazen doğuya veya

02:41.160 --> 02:47.010
Dolayısıyla bu nedenle bu değeri hesaplamak için bu değerin ne olduğunu bilmeniz gerekir, ancak ilginç

02:47.010 --> 02:51.110
olan şey bu değeri hesaplamak için bu değerin ne olduğunu bilmenizdir.

02:51.120 --> 02:56.790
Dolayısıyla burada çok sayıda özyineleme oluyor ve bu nedenle bu değerlerin ne olduğunu tanımlamaya karar

02:56.790 --> 02:57.340
veremezsiniz.

02:57.360 --> 03:01.140
Üstelik bu özyineleme deterministik değildir.

03:01.140 --> 03:06.000
Bazen bu şekilde olur bazen bazen sağ çıkıp bazen kalkmaktan ve bazen

03:06.000 --> 03:08.250
ayrılmaktan çok yokuş yukarı gidiyor.

03:08.730 --> 03:09.540
Yukarı çıkmak istediğinde.

03:09.540 --> 03:10.520
O yukarı çıkacak.

03:10.560 --> 03:17.460
Bu yüzden şansa bağlıdır ve belki de birçok kez ajan bu yoldan geçecek ve yukarı çıkacak

03:17.460 --> 03:22.050
ve siz buradan her zaman yukarı çıkıp devletin değerinin ona gideceğini

03:22.050 --> 03:27.370
düşünecek olursunuz. iyi olur ve aniden o çukura düşer ve bu değer düşecektir.

03:27.620 --> 03:33.600
Ve bu nedenle, bu değerler üzerindeki tüm hesaplamanın bazı rassallığın nasıl olduğunu görebilirsiniz

03:33.600 --> 03:35.370
çünkü hepsi birbirine bağlıdır.

03:35.370 --> 03:40.920
verme sürecinin bir işareti olduğu için ortamdaki bu rastgelelik var.

03:40.920 --> 03:42.320
Üstelik, karar

03:42.540 --> 03:47.790
İşte buranın hepsi bir araya geliyor ve burada aracıya bu

03:47.790 --> 03:52.370
değerleri hesaplamasına izin verecek zamansal fark kavramını sunacağız.

03:52.530 --> 03:55.560
Ve burada değerlerle uğraşıyorduk.

03:55.560 --> 03:59.390
Ve o zamandan beri zaten Q değerleri üzerine hareket ettik, o yüzden çalışacağız.

03:59.400 --> 04:01.980
Çok büyük değerlere bakacağız.

04:02.010 --> 04:06.090
Hatırladığım kadarıyla, bu q değerleri için Belman denklemimizdir.

04:06.180 --> 04:15.090
elde ettiğiniz ödüle eşit olarak artı mümkün olan tüm olasılıkların toplamını elde edersiniz .

04:15.090 --> 04:22.770
Yani AQ değeri veya bir eylem gerçekleştirme değeri A durumu içinde bir eylem

04:22.770 --> 04:26.720
gerçekleştirdikten hemen sonra bu eylemleri gerçekleştirdikten sonra

04:26.910 --> 04:31.680
Dolayısıyla devletin beklediği değeri elde edersiniz.

04:31.680 --> 04:37.710
Hatırladığınız gibi, Beldon denklemi için bir formül vardı ve şimdi sadece basitlik açısından, onu

04:37.710 --> 04:43.670
eski moda bir şekilde tekrar yazacağız ve sekter hakkında bilgi sahibi olmadan önce bellmen

04:43.680 --> 04:45.850
denkleminden bahsettiğimiz şekilde yeniden yazacağız.

04:45.880 --> 04:53.100
Unutmayın bu, deterministik bir arama örneği anlamında Belman denklemimizdir, çünkü burada, tüm olasılıklarda

04:53.100 --> 04:57.600
aynı olana sahip olmadığınız beklenen değere sahip değilsiniz.

04:57.750 --> 05:03.110
Bunu sanki sanki sonunda hangi devlete son vereceğinizin saptanmış olduğuna karar verdiniz ve

05:03.110 --> 05:05.450
o zaman bir devlette Max'i söylüyorsunuz.

05:05.570 --> 05:12.170
Tekrar yazmamızın tek nedeni, yazmanın sadece daha kolay olması ve formülle birlikte

05:12.200 --> 05:14.550
düşmesi daha kolay olacak.

05:14.550 --> 05:19.340
Bu yüzden bu çubuğun bu kısmını değiştirdiğimizi hatırlayacağız.

05:19.430 --> 05:25.400
Ve ayrıca bu gösterimi bir çok edebiyatta bulacaksınız, bu nedenle bunları okuyorsanız diğer

05:25.400 --> 05:28.310
kaynaklarla birlikte takip etmeniz daha kolay olacaktır.

05:28.370 --> 05:35.390
anlatım yerine, olasılıkçı yaklaşım budur, bunu çalıştırmamız ve neler olduğunu anlamamız daha kolaydır.

05:35.500 --> 05:39.130
Ancak şunu unutmayın ki, aslında bu

05:39.140 --> 05:44.180
Denklemlere bakmaktan çok hoşlanıyorum, böylece çok karmaşık değil, ama bir

05:44.180 --> 05:48.050
daha hatırladıklarım aslında burada bu olasılıkçı yaklaşım.

05:48.290 --> 05:52.130
Ve bu yüzden Tom Silis'in neler döndüğüne bir göz attığımızı biliyoruz.

05:52.190 --> 06:00.350
İşte labrumuzdaki boş durumumuz, herhangi bir q-değerine sahip değiliz, görebilir miyiz ya da ne zaman yapalım, şimdilik

06:00.500 --> 06:05.510
boş bırakalım sadece devletlerden birine ya da hücrelerden birine bakalım.

06:05.570 --> 06:07.280
Bu özellikle.

06:07.820 --> 06:11.240
Ve burada yukarı çıkma eylemi için cevaplar var.

06:11.240 --> 06:14.290
Hesapladığımız q değeri var.

06:14.290 --> 06:18.070
Dolayısıyla, bizim q değerlerimizin olmamasına karşın yaptığımız değerlere sahip değiliz.

06:18.080 --> 06:19.930
Ancak biz sadece bir şey göstermiyoruz.

06:19.930 --> 06:22.520
Basitlik uğruna sadece boş veriyoruz.

06:22.610 --> 06:28.570
Fakat yaşımızı bir süre dolaştıracağız ve varsayımsal olarak bir şekilde bu belirli

06:28.580 --> 06:36.560
hücre ve değerlerden bu devletten yükselen ya da Norf olan bu küp değerini hesapladığını söyleyelim diyelim.

06:36.560 --> 06:40.240
Q S ve A ve şimdi sahip olduğumuz şey.

06:40.240 --> 06:45.070
Yani o şu an mavi oklarıyla duruyor ve ajan bu hücrede oturuyor.

06:45.590 --> 06:48.560
Ve şimdi nereye gideceğini seçme ihtiyacı duyuyor.

06:48.590 --> 06:57.290
Ve bu eylemin değerinin kuzeye doğru gittiğini biliyor ve bu, şimdiye kadar söylediklerim "Senay" ve "Senay" dır ve

06:57.290 --> 07:01.940
bunun nedeni, gerçekte almadığı zamandan beri olmasıdır, çünkü henüz

07:01.940 --> 07:10.760
harekete geçmedi, o halde hücrede ve Harekete geçmeden önce burada değer q ve SNH ve şimdi de harekete

07:10.760 --> 07:11.370
geçti.

07:11.390 --> 07:13.670
Diyelim ki karar en iyi olanı.

07:13.670 --> 07:16.440
Harekete geçer ve hücrenin üstüne gider.

07:16.730 --> 07:24.320
eylemi gerçekleştirmek için ödülün değeri artı gama çarpı bu yeni durumun azami olarak asal.

07:24.350 --> 07:30.650
Peki şimdi olan şey o zaman peşpeşe girdikten sonra bu değerin

07:30.650 --> 07:35.640
ne olduğunu ölçebiliriz o zaman bu değeri hesaplayalım bu

07:35.640 --> 07:39.030
Ve böylece olası tüm eylemler ve aspirin maksimum.

07:39.080 --> 07:44.770
Ve burada sahip olduğumuz şey, bu eylemin önündeki değerdir.

07:44.810 --> 07:47.650
Daha sonra bu metriği daha sonra hesapladık.

07:47.660 --> 07:54.860
Ancak, önceki dört aydan hatırladığınız gibi, hesapladığımız önceki formülden çok hızlı bir şekilde geri dönersek, gerçekten

07:55.630 --> 08:02.180
Q'nın değeri olan değer olur. a. a hesaplanır.

08:02.210 --> 08:07.930
Dolayısıyla bu Arite kısmı ayrı ayrı hesaplandık ama harekete geçtikten sonra.

08:08.330 --> 08:15.470
Böylece bir daha önce bir S'nin bir Q'unu ve bir yinelemelerle hesapladığımız bir şeyi Preuss'tan önce söylemiştik

08:15.470 --> 08:16.860
Preuss bir şeydir.

08:17.000 --> 08:19.990
Bu yüzden hafızamızda saklanan bir değer.

08:20.000 --> 08:26.990
Tıpkı, bildiğimiz bir sayı gibi, eylem gerçekleştirildikten sonra, ajanın gerçekten ne

08:27.050 --> 08:30.270
ödül aldığını neye ödüllendirdiğini bileceğiz.

08:30.440 --> 08:33.320
Ve bu yeni değeri hesaplayabiliriz.

08:33.320 --> 08:39.690
Yani özünde, bu değeri tekrar hesaplıyoruz, ancak şimdi yeni bilgilerle yeni

08:39.690 --> 08:41.120
bilgiler elimizdeki ödül.

08:41.600 --> 08:47.330
Artı kaldığımızda ne kaldığımız ve bu belirli veri için bu yeni değerin

08:47.420 --> 08:50.540
ne olduğu bu eyalette maksimum ne oldu.

08:50.570 --> 08:54.480
O halde o eyaletin varlığının değeri nedir?

08:54.500 --> 09:02.060
Temelde Cure Vanessa-Mae ama yeni bilgiler verildi ve şimdi zamansal fark, bu ikisinin

09:02.150 --> 09:07.700
arasındaki bu iki farkın a ve s çocuğu olarak tanımlandı.

09:07.700 --> 09:11.770
İşte burada ilk unsur, Terra dışı değeriniz.

09:11.780 --> 09:16.250
Yani Esson'ın Q gibi bir kısmı daha sonra hesaplanıyor.

09:16.550 --> 09:21.880
Ve hafızanızda sakladığınız daha önceki quvenzhanÃŠA.

09:22.070 --> 09:24.170
Ve soru da onlar farklı olmasıdır.

09:24.290 --> 09:26.240
Yani ideal olarak aynı olmalılar.

09:26.240 --> 09:31.750
İdeal olarak bu, bununla aynı olmalıdır; çünkü bu hesaplamak için kullanılan formül budur.

09:31.790 --> 09:38.060
Ancak sorun şu ki biz Kalka bu bizim deneyimlerimizden sadece birkaç kere labirentten

09:38.060 --> 09:41.320
geçerek elde ettiğimiz bir şey var.

09:41.320 --> 09:44.330
Bu yüzden şimdiye kadar yaptığımız bir şey.

09:44.360 --> 09:46.820
Şu andaki yinelemeyle ilgili değil.

09:46.820 --> 09:52.070
uzun zaman önce geldiğimiz ancak önceki iterasyonlarımızdan birinde labirentten geçtiğimiz bir şey.

09:52.070 --> 09:53.180
Onun daha önce

09:53.510 --> 09:57.740
Halbuki bu şu anda hesapladığımız bir şeydir ve aynı

09:57.740 --> 10:04.720
olacağına dair bir garanti yok ya da labirentte var olan rasgelelik nedeniyle hesaplanabildi ve bazı

10:04.750 --> 10:10.260
CRN rastgele olaylar tetiklendiğini gördü ve bu farklı rasgele olaylar çağrılabilir oluyor

10:10.300 --> 10:11.290
tetiklendi.

10:11.740 --> 10:15.680
Ve şimdi, kahramanlarımızın hepsini oraya hareket ettirelim.

10:15.700 --> 10:16.900
Peki bunu nasıl kullanacağız.

10:16.900 --> 10:20.470
Soru hiç sorun değil, bu zamansal farkımız var.

10:20.470 --> 10:21.340
Bunu nasıl kullanacağız

10:21.400 --> 10:23.450
Ve neden zamansal fark deniyor.

10:23.590 --> 10:28.960
Bunun nedeni zamansal farklılık olarak adlandırılır çünkü temel olarak S ve

10:28.990 --> 10:33.460
A'nın Q'sını hesapladığınız şeyin bu eylemin Q değerini hesaplarsınız.

10:33.640 --> 10:36.140
Calcott burada ve sen burada hesap yapıyorsun.

10:36.340 --> 10:38.310
Fakat fark zaman.

10:38.320 --> 10:44.140
Bu S'nin Q'sı ve daha önce bunlar S ve A'nın Yo Q'su.

10:44.140 --> 10:49.090
Şimdi yeni tedaviniz doğuştan ve sorunun farkı var.

10:49.090 --> 10:51.700
Aralarında zamanla bir kayma oldu mu?

10:52.060 --> 10:56.830
Ve zamanında bir kayma olsa bile, bunu avantajımıza nasıl kullanabiliriz.

10:57.040 --> 11:02.790
Yapabileceğimiz bir şey, Q'larımızı iyi bildiğinizi söyleyebiliriz. a. değil.

11:02.830 --> 11:07.490
Bu yeni değer eskisi gibi değil, böylece yaşlılardan kurtulacağız ya da yaşlıları unutacağız ve sadece

11:07.510 --> 11:09.610
bunun hepsini yeni bir değer olarak kullanacağız.

11:09.970 --> 11:11.920
Fakat bu akıllıca olmaz.

11:11.950 --> 11:17.960
Ve bunun sebebi, çevremizdeki rastgele olayların bazen meydana gelebileceğidir.

11:18.140 --> 11:25.500
Peki ya eski QSA'lerimiz? a. a sürekli olarak yüzde 80 gibi bir şey oluyordu.

11:25.780 --> 11:28.750
Ve sonra yüzde 80 oranında olanların temsil ettiği gibi temsil edildi.

11:28.750 --> 11:33.280
Ve sonra bu yenisi rasgelelik yüzünden oldu.

11:33.280 --> 11:39.610
Bu durumda, durumun büyük bölümünden sorumlu olanı atacağız ve onu zamanın yalnızca

11:39.760 --> 11:43.900
yüzde 10 veya 20'sinde olan bir şeyle değiştireceğiz.

11:43.900 --> 11:50.650
Bu gitmek için en iyi yaklaşım olmaz ve bu yüzden tam da Opu değerlerini

11:50.650 --> 11:51.990
tamamen değiştirmek istemiyoruz.

11:52.060 --> 11:56.890
Onları adım adım biraz değiştirmek gibi bir şeyler kullanmak istiyoruz.

11:56.890 --> 12:01.980
şekilde kullanacağız, böylece şunu söyleyeceğiz: İşte SNH'nin ipucunu alacağımız bir formül.

12:02.020 --> 12:05.080
İşte bu yüzden zamansal farkı belirli bir

12:05.560 --> 12:07.120
Ve biz böyle bir şekilde güncelleyeceğiz.

12:07.120 --> 12:12.450
Senay'in tedavi öncesi değerini alacağız ve zamansal farkın beş katını

12:12.460 --> 12:13.380
da ekleyeceğiz.

12:13.420 --> 12:15.730
Böylece Alfa doğru öğreniyor olacak.

12:15.730 --> 12:17.410
Bu, tanıttığımız yeni bir parametredir.

12:17.410 --> 12:20.070
Algoritma öğrenimi ne kadar çabuk olur.

12:20.080 --> 12:26.390
olarak bu farkı alıyoruz ve ne olursa olsun önceki KJo yılanımıza ekliyoruz.

12:26.480 --> 12:27.210
Temel

12:27.220 --> 12:31.970
Şimdi bu formül muhtemelen anlam ifade etmiyor ya da bakmak gibi bir şey mantıklı değil çünkü

12:31.970 --> 12:34.040
Covisint'i buraya getirip bize bir A verin.

12:34.060 --> 12:39.460
Aynı şey, muhtemelen birbirlerini reddetmeli ama bunu biraz farklı bir şekilde yeniden yazmak

12:39.460 --> 12:40.090
zorunda kaldık.

12:40.390 --> 12:44.080
Bu yüzden sana tekrar göstereceğim, böylece bu formüllere biraz zaman ayıracağım.

12:44.090 --> 12:48.070
Yani burada qt eksi bir önceki yıllar.

12:48.070 --> 12:49.780
Q T eksi 1 önceki yıllar.

12:49.780 --> 12:56.080
Q T Yeni burada da daire halinde bir daire olmalı ama boş verin alfa zamansal

12:56.080 --> 12:56.750
fark edin.

12:56.810 --> 12:58.750
O halde siz mevcut zamansal fark.

12:58.750 --> 13:01.190
Demek istediğimizi görebilirsiniz.

13:01.220 --> 13:04.200
Tamam, elimizdeki durumu alalım.

13:04.240 --> 13:10.880
Q, tüm önceki Q artı Times Alfa bulduğumuz zamansal fark ne olursa olsun eşit olacak.

13:11.150 --> 13:16.330
Bu formül, küp öğrenme algoritmasının kalbi ve ruhudur.

13:16.330 --> 13:18.250
Küpün bu şekilde veya güncellendiğini.

13:18.280 --> 13:24.460
Ve şimdiden, q değerlerinin ne olduğu ve bu şeyin ne olduğunu

13:24.460 --> 13:25.300
öğrendik.

13:25.420 --> 13:31.740
Ve şimdi tek görmek istediğimiz, daha önce bir Q değerine sahip olduğunuz. Evet, bu iyi.

13:31.990 --> 13:37.870
Ve sonra gerçekleşebilecek olan şey, aracı aksiyon aldığında gerçekte ne zaman eyleme geçtiğinizde

13:37.870 --> 13:42.530
ne zaman girerseniz, bir ödül alacağını ve bir devlette kalacağını bileceksiniz.

13:42.610 --> 13:46.400
Ve buna dayanarak Aha'yı hesaplayabilir.

13:46.420 --> 13:53.220
Tamam, yaptığım hamlemin Q değeri ne olmalı ne oldu peki.

13:53.530 --> 13:56.390
Ve şimdi denklemin bu kısmı bu.

13:56.470 --> 14:02.870
Eski Q değerini çıkarmak size zamanla ilgili bir farklılık kazandıracak ve şimdi bir Alpher zaman örneği farkı

14:02.920 --> 14:05.410
almanız gerekiyor ve bu şekilde ayarlanıyor.

14:05.430 --> 14:06.370
Sana sahip olduğum anlamına geliyor.

14:06.370 --> 14:10.240
Sadece gitmeyi düşünüyorsun ve şimdi bunu bitirmek için.

14:10.240 --> 14:14.890
Bu, neyin olup bittiğini anlamak için ama sadece işleri daha da açıklığa kavuşturmak ya da

14:14.890 --> 14:18.370
belki de işleri daha da karıştırmak için yeterli olduğu bir durumdur.

14:18.460 --> 14:23.320
Bu zamansal farkı ya da bu basit farkı almak için ne yapmamız gerekiyor ya da onu bu formatta

14:23.320 --> 14:24.180
takmanın bir yolu.

14:24.190 --> 14:29.840
Bu yüzden bütün bu kısımları alıp bu formülün içine takacağız ve büyük bir denklemle sonuçlanacağız.

14:29.920 --> 14:31.490
İşte başlıyoruz.

14:31.660 --> 14:32.590
Denklemimiz var.

14:32.590 --> 14:38.470
Dolayısıyla, zamansal fark tamamen yazılmış olan tam denklem budur.

14:38.560 --> 14:43.690
Ve bunu yazdımın nedeni de, bunu ilk okuduğunuzda

14:43.690 --> 14:45.560
diğer literatürde bulacaksınız.

14:45.730 --> 14:50.810
Ve ikincisi, bazı şeyleri biraz daha karmaşık hale getiren formüllerin daha uzun sürdüğü halde bir şeyler de

14:50.810 --> 14:52.300
biraz daha net hale getirmesi.

14:52.300 --> 14:55.940
Mesela, burada Alfa'nın oynadığı rolü görebilirsiniz.

14:55.960 --> 14:58.310
Bunu daha iyi görebilirsiniz çünkü şuna bakın.

14:58.320 --> 14:58.860
İşte.

14:58.900 --> 15:01.410
Q T eksi bir, işte gidiyorsun.

15:01.420 --> 15:03.760
Q T negatif işaretli bir eksi.

15:03.760 --> 15:12.170
Dolayısıyla, buraya bir 1 koyarsanız Alfa'ya bağlarsanız, bunu reddedecektir.

15:12.190 --> 15:16.170
Böylece birbirlerini yok edecekler ve bıraktığınız tek şey bu bölüm.

15:16.480 --> 15:23.080
tam olarak söylediklerimizin tam olarak bu durumu, yani olması gereken yeni bir değeri var.

15:23.140 --> 15:24.750
Ve bunun anlamı

15:24.850 --> 15:29.570
Q değerimizi yeni değerle güncelleyelim ve daha önce sahip olduğumuz şeyleri unutalım.

15:29.710 --> 15:35.470
Ve tartıştığımız gibi en iyi yaklaşım değil, çünkü burada rastgele olaylar var ve bizleri adım

15:35.470 --> 15:36.820
adım güncellemek istiyoruz.

15:37.530 --> 15:43.590
Öte yandan, Alpher'ın sıfıra eşit olduğunu söyleseniz, o zaman olan şey, bu parçayı

15:43.590 --> 15:48.960
tamamen unutmanızdır ve siz yeni olanınızdan ya da şimdiki parçanızın eskisine eşit

15:48.960 --> 15:51.720
olacağı için sevimlisiniz. hiçbir şey öğrenmeyecekler.

15:51.720 --> 15:56.730
anlamı yoktur, çünkü uzun süredir Kuchi değerine karar verdiyseniz ve sadece bunu yapmaya devam edeceksiniz demektir.

15:56.730 --> 15:58.940
Ve bu, labirentte olan her şeyin bir

15:59.230 --> 16:03.200
Bu yüzden Alfas 0 olmamalı veya arasında bir yerde olması gereken biri olmalıdır.

16:03.240 --> 16:09.330
Ve yavaş yavaş adım adım öğrenmenize olanak tanıyacak, labirentte olduğu gibi sizin veya ajanların

16:09.360 --> 16:12.720
zamansal farkı alacak şekilde olmasına izin verecek.

16:12.960 --> 16:19.530
Ve yavaş fakat emin adımlarla bu değer güncelleşecek ve ibed'i yenileyecek ve

16:19.680 --> 16:25.440
sonunda ne olacağı umut edici bir şekilde algoritma bir araya gelecektir.

16:25.710 --> 16:30.960
sonuçta sıfıra hatta 0 0 0 0'a yakın olacağı

16:30.960 --> 16:37.860
ve bunun anlamı, her seferinde yeni cutesie değeriniz veya yeni hesaplanan değer.

16:37.860 --> 16:43.050
Bunun anlamı, bu zamansal farkın sıfıra yakınlaşmaya başlayacağı ve

16:43.350 --> 16:44.430
Ne olmalıydı.

16:44.440 --> 16:49.950
Öyleyse bu değil, ama varsayımsal olarak adım atmaya yetecek miktarda olması, önceki Q2

16:49.950 --> 16:51.030
değerine eşit olacaktır.

16:51.030 --> 16:55.650
Ve daha sonra sıfır olur ve sıcaklık farkınız sıfır olduğunda

16:56.070 --> 17:02.720
algoritmanızın birleştiği anlamına gelir ve devam eden şeyleri güncellemeye devam etmek gerçekten gerekli değildir.

17:02.720 --> 17:06.270
Küp değerlerinizi güncellemeye devam etmek için bu aramayı yapar.

17:06.270 --> 17:12.780
halde, bunu yapmaya devam etmek isteyeceğiniz tek zamanlardan biri olan muhtemel zamandan yalnızca biridir.

17:12.810 --> 17:19.140
Buradaki uyarı şu ki, bu ortamı sürekli olarak değiştiriyorsa, muhtemelen kuyruk değerlerinin güncellenmesini bildiğiniz

17:19.170 --> 17:23.100
Eğer sadece orada değilse, içinde sadece Kostik olaylarına karşı bazı rastgele şeyler var.

17:23.220 --> 17:28.750
Ancak çevrenin kendisi de değişiyor çünkü morphing zamanla değişiyor.

17:29.040 --> 17:34.260
Bu nedenle sürekli öğrenmeye ihtiyacınız var, çünkü her şeyi öğrenip sizin için

17:34.260 --> 17:39.210
optimum politikayı belirlemenin mümkün olmadığını, çünkü en uygun politikalar çevreyle daima değiştirildi.

17:39.240 --> 17:44.730
Bu durumda CALKIN ve zamansal farka devam etmeniz ve Q değerlerini hesaplamanız gerekir.

17:44.730 --> 17:46.830
Ama bunun dışında, bu fazladan bir karışıklığa benziyor.

17:46.830 --> 17:53.370
tam olarak neler olduğunu da bulmak için nasıl gidiyor ve böylece en uygun politikayı ortaya koyuyor.

17:54.090 --> 17:59.490
Bunun dışında, Q değerleri güncelleme şekli budur; bu, Q öğrenme algoritmasının ana formülüdür

17:59.490 --> 18:05.250
ve bu, onun genişletilmiş hali gibidir ve şimdi hepsi bir araya gelip anlamamızı sağlamak

18:05.250 --> 18:12.870
için neden Belman denklemine sahip olduğumuzu anlamalı ve anlamamalıdır. yalnızca kıymetli taşları temsil ettikleri şeyin yanı sıra, ajan değerlerini

18:12.870 --> 18:14.620
güncellemek ve bu ortamda

18:14.640 --> 18:21.570
Bu yüzden almak için oldukça fazla şey biliyorum ama umarım bu öğreticiden hoşnut oldunuz

18:21.570 --> 18:28.680
ve umarım siz değerlerinizin arkasındaki temel kavramları ve sezgiyi götürmeyi başardınız ve zamansal farklılığın

18:28.680 --> 18:36.990
tüm kavramı nedir ve niçin bizim için yavaş yavaş eğitilmemize neden önem verdiği önemlidir. temsilcilerini bulmalarını ve

18:37.050 --> 18:39.230
onlara kendi ortamlarını anlamalarını sağlıyor.

18:39.270 --> 18:45.540
Ve zamansal farklılıklar hakkında biraz daha bilgi edinmek isterseniz, çok popüler bir

18:45.540 --> 18:52.470
kağıt Richard Sutton tarafından doksan sekiz sekizliğin zamansal farklılık yöntemleri ile tahmin etmeyi öğreniyor.

18:52.620 --> 18:57.060
Richard Sutton'ın da bir referansı zaten var,

18:57.060 --> 19:04.620
ancak bu sizin kitap tarzınızı ve iletişim stilini öğrenirseniz, kitabı da kontrol

19:04.620 --> 19:05.660
edin.

19:05.810 --> 19:08.630
Bu, tüm bu şeylerin daha genişletilmiş bir versiyonu gibidir.

19:08.640 --> 19:12.820
Kitabı okumadım, ancak aynı zamanda hayal ediyorum.

19:12.960 --> 19:19.530
eklenecek ve burada zamansal farklılıklar hakkında biraz daha fazla bilgi edinebilirsiniz.

19:19.530 --> 19:21.050
Bu, kağıda

19:21.300 --> 19:22.950
Ve umarım siz de keyif aldınız.

19:23.060 --> 19:24.270
Bir dahaki sefer sizi göreceğiz.

19:24.270 --> 19:26.250
O zamana kadar AI zevk.
