WEBVTT

00:00.660 --> 00:03.540
Yapay zeka dersine tekrar hoş geldiniz.

00:03.540 --> 00:08.940
Günümüzün öğreticisinde, Uygunluk İzi veya Adım adında oldukça karmaşık bir dersi örtbas

00:08.940 --> 00:09.500
edeceğiz.

00:09.500 --> 00:14.970
Q öğrenme ve bu, şeylerin pratik tarafında uygulayacağım bir şeydir, bu

00:14.970 --> 00:21.390
nedenle merkezden dışarı çıkmamız oldukça karmaşık bir konudur; bu nedenle, bizi hızlandırmamız için

00:21.690 --> 00:24.880
çok ilginç bir yaklaşım buldum. arkasındaki sezgiyi.

00:24.890 --> 00:29.760
Dolayısıyla aklımda farklı bir yaklaşımdan daha basit bir bakış açısı kazandırmak ve bunun nasıl gittiğini görmekten

00:29.760 --> 00:30.560
daha çok hoşlanıyorum.

00:30.780 --> 00:34.190
Bu yüzden sana başlamak için bir örnek vermek istiyorum.

00:34.260 --> 00:39.990
Bu el kitabında size bir örnek vereceğim ve uygunluğun gücünü göstereceğim.

00:40.020 --> 00:42.470
Ve bize şeylerin ardındaki sezgileri verin.

00:42.540 --> 00:47.880
Ve daha sonra uygunluk özelliklerini araştırmak isterseniz, size bu konuda okuyabileceğin en

00:47.880 --> 00:49.210
iyi yeri vereceğim.

00:49.290 --> 00:52.560
Sana bir kitaba, ancak aksi takdirde bir referans vermeliyim.

00:52.560 --> 00:57.120
Dolayısıyla, bunun farklı olmasına rağmen, sezgiyi incelemekten ziyade öncelikle içine girdiğimizden

00:57.420 --> 01:01.580
dolayı bir örnek inceleyeceğiz ve konuştuktan sonra sezgisellik belli görünüyor.

01:01.580 --> 01:03.010
Ve bu da benim umudum.

01:03.130 --> 01:03.860
O halde bir göz atalım.

01:03.860 --> 01:06.000
Görelim bakalım bunu yapabilir miyiz.

01:06.000 --> 01:12.780
Yani burada iki ajanımız var ve aynı ortamda geziniyorlar ve biz bu iki ajanın nasıl

01:12.780 --> 01:13.740
çalıştığını göreceğiz.

01:13.740 --> 01:16.260
Birincisi uygunluk izimizle çalışacağız.

01:16.260 --> 01:22.230
İkincisi, okunaksız bir şekilde izleyeceğiz ve umarım ikinci birincisinin neden birinci olanınkinden

01:22.230 --> 01:24.450
çok daha güçlü olacağını göreceğiz.

01:24.630 --> 01:26.240
O halde bir göz atalım.

01:26.250 --> 01:28.040
Önce bu ajana bakacağız.

01:28.320 --> 01:34.170
Ve onun işleyiş şekli şu ana kadar derin dairesel şeyleri tartıştığımız kesin yol.

01:34.530 --> 01:40.230
Böylece temsilci bir adım atacak veya hareket edecek yeni bir devletin içine bir hareket hareketi alacaksınız.

01:40.260 --> 01:45.480
Belirli bir ödül almak iyi, bu aracıyı çalıştıran ya da bu ajanın

01:45.480 --> 01:50.610
aklında çalışan sinir ağını algoritma güncellemesi yoluyla ya da aracılığıyla koyacaktır.

01:50.610 --> 01:54.870
Bu temelde o andan itibaren nasıl öğrenildiğini yeni bir adım atmaya gidiyor.

01:54.870 --> 01:59.550
ve bu da güncellemeye kadar gidip gelen ödülleri alacak ve bunu yapmaya devam edecek.

01:59.550 --> 02:03.930
Dolayısıyla bu yeni devlet, sinir ağının yapması gerektiğini söylediği yeni bir harekete geçecek

02:03.930 --> 02:09.370
Açıkçası, bu oldukça iyi bir iş çıkarıyor ve önceki pratik Squire'dan DRO'ya

02:09.400 --> 02:15.450
kadar gördüğümüz gibi burada oldukça iyi sonuçlar alacağız ama şimdi yeni bir özellik ekleyeceğiz.

02:15.480 --> 02:21.380
Şimdi bu ajan iki numaralı adam burada aynı ortamda gezinecek.

02:21.570 --> 02:23.770
Ağaçların okunabilirliğini ne kullanacak.

02:23.940 --> 02:25.170
Ve bunun anlamı da buydu.

02:25.170 --> 02:30.280
atacak, beş forseps dört adım atacak ve daha sonra

02:30.300 --> 02:38.730
bu adımları attıktan sonra o adımlardan aldığı toplam ödülü hesaplayacak ve o da ağına bağla.

02:38.730 --> 02:42.730
Ne yapacağına göre, bu davada alacağı adımları

02:42.730 --> 02:48.420
Bunu, karar verme sürecini yöneten sinir ağı vasıtasıyla çözecek ve

02:48.420 --> 02:50.690
sinir ağı bundan öğrenecektir.

02:50.700 --> 02:51.600
Peki, Hangisi.

02:51.630 --> 02:54.050
Doğrudan hangisinin daha güçlü olduğunu düşünüyorsun?

02:54.150 --> 02:59.070
Her seferinde bir adım öteye geçen ve kör veya karanlıkta dalmaktan hoşlanıyormuş gibi bir adam var

02:59.070 --> 03:01.550
ve bir adım atacağım diye bir adım atacağım.

03:01.620 --> 03:02.830
Bir adım atın ne olduğunu görün.

03:02.850 --> 03:03.480
Adım atın.

03:03.480 --> 03:04.020
Ne oluyor.

03:04.020 --> 03:10.680
Üstteki adam ya da sadece cesurca Marsha'yı alan dört adımla atılan adım ve daha sonra

03:11.130 --> 03:17.610
bunların tamamen iyi adımlar olup olmadığına karar veriyor ve burada niçin görebiliyorsunuz ya da

03:17.610 --> 03:22.470
neden muhtemelen ikinci adam daha iyi ya da daha güçlüdür, çünkü

03:22.470 --> 03:25.160
ikinci adam aslında ne bittiğini biliyor.

03:25.170 --> 03:30.030
İlk adım, bu adımın iyi olup olmadığını değerlendirirken yalnızca aldığı ödüle

03:30.030 --> 03:31.170
baktığı anlamına gelir.

03:31.280 --> 03:34.430
Ve bu yüzden yalnızca çevre tarafından verilen ödül tarafından yönlendirilir.

03:34.440 --> 03:39.570
Aynı şey, burada sadece bu ortamın kendisine verdiği ödülün rehberliğinde.

03:39.620 --> 03:46.490
Bu yüzden onun yaptığı tek pusula bu ödülü alıyor, ödülü ödüllendiriyor.

03:46.560 --> 03:51.800
Oysa burada, değerlendirilebilecek adımları attıktan sonra değerlendirebilir.

03:51.820 --> 03:53.960
Tamam, bu yüzden bitiş çizgisine ulaştım.

03:54.000 --> 03:56.640
Bu yüzden adımların bu kombinasyonu iyiydi.

03:56.700 --> 03:57.680
Hepsi iyiydi.

03:57.840 --> 04:01.410
Veya hayır, hayır firepit ya da Ohno I'de bitirdim.

04:01.500 --> 04:08.100
Yaptım ve arabam bitiş çizgisine ulaşamadıysa veya kum duvarı geçtiğimde ya da doom

04:08.100 --> 04:09.340
falan oyunu kaybettim.

04:09.450 --> 04:13.330
Ve sonra bütün bu adımların kombinasyonunun kötü olduğuna karar verir.

04:13.650 --> 04:18.180
Ve bu nedenle, daha önce olan bu adımlar için daha fazla bilgi var.

04:18.180 --> 04:23.490
Çok sezgisel yaklaşımlar gibi daha fazla anlayışa sahip.

04:23.490 --> 04:26.000
Yine bu burada canlandırdığımızdan daha karmaşık bir konudur.

04:26.010 --> 04:32.370
Ancak sezgisel bir şekilde, örneğin bu adımı atmanız halinde, bu adımı yalnızca elde etmeniz için bir bilgiye sahiptir;

04:32.370 --> 04:34.990
burada sadece bu ödülün geri dönüşünden bilgi alırsınız.

04:35.070 --> 04:38.580
Ve bu adım için bu adım aynı adımdır.

04:38.640 --> 04:41.670
Bilgiye ulaşmanın daha fazla bilgiye sahip olduğu bilgisi var.

04:41.820 --> 04:45.500
Pekala, dört adımdan beş adım sonra ne çıktı peki.

04:45.520 --> 04:51.930
Evet, öyleyse işe yarıyor ve uygunluk denmesi neden deniyor çünkü bu süreçte

04:51.960 --> 04:58.170
sadece neler olup bittiğinin bilgisayar ödülüne bakmakla kalmıyor, ardından da birikimli kayıp

04:58.200 --> 05:00.460
ve daha sonra hepsi uygun.

05:00.620 --> 05:05.210
Ama aslında özürlülük güvenine denir.

05:05.210 --> 05:15.440
bir ceza alırsak, olumsuz bir ödül alırsak, bu adımlardan hangisinin o cezaya uygun olduğu muhtemel.

05:15.470 --> 05:23.060
Tamam yazan bir algoritmada saklanan bir iz var, bu yüzden eğer

05:23.090 --> 05:29.690
Bu nedenle, yalnızca bu bütün desenin veya adımların okul kombinasyonunun ne

05:29.690 --> 05:36.350
olduğunu biliyoruz değil, aynı zamanda, herkesi alırsak güncelleneceğimiz adımların uygunluğunu da izleriz.

05:36.350 --> 05:40.970
Örneğin, olumsuz bir ödül olarak, bunun bize eninde sonunda sahip

05:41.030 --> 05:47.360
olduğumuz şeylerden en sorumlu olan bir adım olduğunu ya da tekrar olumlu bir ödül

05:47.390 --> 05:54.800
olduğunu belirten uygunluk izimiz olursa, algoritmanın izlemenize yardımcı olabileceğini biliyoruz bu uygunluk algoritması aynı zamanda hangi adımın

05:54.830 --> 06:03.170
veya hangi eylemin olması gerektiğini takip etmemize yardımcı olur ve elde ettiğimiz bu ödüle dayalı olarak güncellenmeye uygun bir

06:03.170 --> 06:03.820
haktır.

06:03.860 --> 06:05.820
Ve bu yüzden uygunluk izi deniyor.

06:06.160 --> 06:11.810
Ve bu, uygunluğun arkasındaki temel sezondur ve bu yeteneklerin bu kadar güçlü olabilmesine

06:11.810 --> 06:18.260
rağmen, bu ajanların bu iki örneği bunu oldukça açık ya da oldukça sezgisel yapmaktadır.

06:18.440 --> 06:25.760
Sözlü olarak, topikal uygunluk izlerine veya adım adım öğrenmeye devam etmek isterseniz, bulabileceğiniz

06:26.330 --> 06:31.220
harika bir şaşırtıcı kitabın takviye öğrenimi olarak adlandırılması halinde.

06:31.220 --> 06:36.590
Bir giriş Richard Sutton Andrew Barto 1998 yazısıdır.

06:36.740 --> 06:40.770
Bence ikinci bir baskı ya da çok kritik mesele oluşturma aşamasındalar.

06:40.790 --> 06:49.210
veya en çok başvurulan, uygulama tecrübesi üzerine kitaptır, bu da saçma sayıda alıntı yapmaktadır.

06:49.260 --> 06:53.050
Ancak bu, en yaygın veya en popüler

06:53.300 --> 06:56.630
Yanılmıyorsam on binlerce gibi düşünüyorum.

06:56.810 --> 07:01.120
Ayrıca bunun için gereken bölüm Bölüm 7'dir.

07:01.130 --> 07:06.900
Bu nedenle, uygunluk seçimlerine bakmak için Bölüm 7 ile ilgili bir bölüm var.

07:06.920 --> 07:10.100
Bu konuyu okuyabilir ve çok detaylý giriþim yapar.

07:10.220 --> 07:17.660
İleri Geçme uygunluk izleri ve aradaki Monte-Carlo yöntemlerine sahip olduğunuz yelpazenin bir taraftan ve diğer ucundaki

07:17.660 --> 07:23.320
integral zamansal farkın, iz sürüldüğü veya aradaki zamansal farklılıklardan Monte-Carlo yöntemlerine geçmek

07:23.330 --> 07:27.280
için bağlandığınız uygun izlerin nasıl bir performans sergilediğini.

07:27.290 --> 07:34.190
Çok ilginç bir sürü çok sezgisel açıklamalar takdir resimleri gerçekten çok okumak.

07:34.250 --> 07:40.550
Dolayısıyla yapay zeka ve güçlendirme öğrenimi hakkında bu kitaptan öğreneceğiniz çok şey

07:40.550 --> 07:48.230
var, ancak özellikle uygunluk izleri, uygunluk izleri için bu kitap için çok iyi bir

07:48.230 --> 07:49.190
yer gibi.

07:49.350 --> 07:57.070
Ve bugün ikinci referans, size derinlemesine öğrenmeyi veya daha derin bir takviye öğrenme için senkron

07:57.440 --> 08:04.460
yöntemler üzerine olan Google derin akıl araştırma makalesinin pratik denemelerinde size göstereceğim bir

08:04.550 --> 08:05.120
şeydir.

08:05.270 --> 08:11.270
gören tek kağıt olan kağıt bu skorda daha da tartışacağımız kağıt.

08:11.270 --> 08:12.240
Evet, A-3

08:12.240 --> 08:14.410
Ona daha yakınlaşıyoruz.

08:14.510 --> 08:21.200
Ve bunu söyleyebildiğiniz kadarıyla heyecanlıyız, bu yüzden bu belgede uygunluk izlerini

08:21.500 --> 08:28.400
nasıl uyguladıklarına biraz bakacağız, bu yüzden bu konunun pratik yönü için daha

08:28.400 --> 08:29.420
çok kullanacağız.

08:29.420 --> 08:33.650
Umarım günümüz eğitiminden hoşlanıyordunuz ve uygunluk izleriyle biraz daha rahat olduğunuzu biliyordum ve bir

08:34.010 --> 08:35.920
dahaki sefere sizi görmek için sabırsızlanıyorum.

08:35.930 --> 08:37.680
O zamana kadar tadını çıkarın a.