WEBVTT

00:00.590 --> 00:03.970
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.070 --> 00:05.420
Umarım şimdiye kadar dersin tadını çıkarıyorsunuzdur.

00:05.420 --> 00:09.050
Ve bugün, seçim politikalarından hareketle bahsediyoruz.

00:09.050 --> 00:11.010
Pekâlâ, içine girelim.

00:11.030 --> 00:17.930
Daha önce, basit öğrenmemize bir sinir ağı ekleme hakkında konuştuk ve şu

00:18.020 --> 00:21.230
ana kadar derinlemesine öğrenmeye başladık.

00:21.230 --> 00:26.620
Öğrenme kısmı hakkında bir takım öğeler eklemeyi de içeren biraz konuştuk.

00:26.630 --> 00:30.020
Ve bugün, oyunculuk hakkında konuştuğumuz bu bölümden bahsediyoruz.

00:30.020 --> 00:31.290
O halde bir göz atalım.

00:31.310 --> 00:38.690
Yani, burada, parametreleri, devlet aracısını açıkça o ortamda açıklayan vektör olan değerler

00:38.690 --> 00:45.230
girdikten sonra aktardıklarımız var, o zaman tüm öğrenme tamamlandıktan sonra veya

00:45.230 --> 00:47.290
öğrenme bitmeden bile.

00:47.420 --> 00:52.000
Temel olarak, tüm q değerlerini elde ederiz, bu nedenle öğrenmeye ilgi duymuyoruz, şu anda

00:52.010 --> 00:57.350
oyunculuk konusunda ısrarcı oluyoruz, böylece bir kez bu anahtar değerlere sahip olduğumuzda hangisini kullanmamız gerektiğini nasıl anlayacağız.

00:57.350 --> 00:58.910
Düşünürseniz iyi olur.

00:58.910 --> 01:01.890
Q değerleri, küpteki basit tahminlerdir.

01:01.910 --> 01:08.630
Basit öğrenme algoritmasında yaptığımız gibi, en yüksek değeri en iyi

01:09.180 --> 01:10.420
olanını seçtik.

01:10.430 --> 01:15.380
En yüksek IQ değerine sahip olanı bulduktan sonra, sadece bizi en yüksek değeri

01:15.380 --> 01:20.330
getirdiğinden ve Duval'ın hesaplayıcısının Artı DK faktörüne bir sonraki tarihin değerini katlamasını beklediğimiz

01:20.360 --> 01:23.100
derhal ödülünün olduğunu bildiğimizden, bu eylemi gerçekleştiririz.

01:23.120 --> 01:29.480
Ve bu özyinelemeli bir hesaplama, neden neden en iyi değeri alamayacağınızı ve bunun bir

01:29.480 --> 01:30.570
nebze bittiğini.

01:30.800 --> 01:35.360
Fonksiyonu kullandığımız kadar basit değildir ve bu, gerçek seçim politikaları hakkında konuşacağımız yerdir.

01:35.360 --> 01:37.910
Ancak burada görebileceğiniz gibi, yumuşak bir maks.

01:37.940 --> 01:41.210
Dolayısıyla burada gerçekte sadece bir yazılım fonksiyonuna sahip olmak zorunda değiliz.

01:41.300 --> 01:49.190
Örneğin, Epsilon'un açgözlü Epsilon'u yumuşak ve yumuşak Mac'lerimiz var ve bunlar, en çok kullanılan eylem seçim

01:49.470 --> 01:54.950
politikaları gibi tabii ki diğerleri de var gibi farklı eylem seçme

01:54.960 --> 01:56.300
politikalarına sahip olabiliriz.

01:56.300 --> 02:02.120
Örneğin en basit olanı, en iyi seçtiği çok basit bir eylem sosyalüdür.

02:02.120 --> 02:03.770
En yüksek Q değerine sahip olanı.

02:03.980 --> 02:09.800
bu eylem palsını sinirlendirmiyoruz ve neden farklı eylem palsı eylem seçim politikalarımız var?

02:09.800 --> 02:10.510
Ancak neden

02:10.520 --> 02:15.270
Her şey, keşfetmekten sömürüye karşı kaynar.

02:15.560 --> 02:22.670
Takviye öğrenmenin özü budur, çünkü bunu bir süre önce ajanlarınızın bir ortamda

02:22.880 --> 02:28.400
çalıştırdığında, iyi olabilecek bazı sıra değerlerini öngörebileceğini ve sonuçta

02:28.400 --> 02:34.970
ortaya çıkabilecek olabileceğini gösterebiliriz diye biraz konuştık. ve keşfetmek zorunda kalacaklar.

02:34.970 --> 02:40.640
Dolayısıyla, örneğin bu durumda, Q2'nin en iyisi olduğunu tahmin edersek ve sonra Q To alır

02:40.640 --> 02:42.350
ve buna harekete geçer.

02:42.500 --> 02:46.880
Buradan Bölüm 2'ye, sonra da alır bu çok olumsuz bir ödül alır.

02:46.880 --> 02:51.980
Sonra ortam ajanın gitmesine ve patlamasına neden oluyor, çünkü şimdi o

02:51.980 --> 02:56.740
S2'yi çok iyi olacağını düşündüğümü öğreneceğim, ancak çok kötü çıktı.

02:56.780 --> 02:58.370
Sonuçlar çok kötü değil.

02:58.370 --> 03:02.730
Böylece ağlar kendisini güncelleştirebilir, bir dahaki sefere muhtemelen

03:02.720 --> 03:04.010
ruhumu yiyebileceği haldedir.

03:04.190 --> 03:09.470
Çok fevkip bir şey olup olmadığını biliyorsunuz, bence bu, eylemle ilgili

03:09.470 --> 03:14.900
olduğunu öğrenmek için birkaç kez ceza veya cezaya ihtiyaç duyacağınızı biliyor gibi.

03:14.990 --> 03:20.030
bir harekete geçeceğim ve bilek hareketi yapacağım öğrenecek, çünkü şimdi en iyi değeri var.

03:20.030 --> 03:22.020
Ancak belki de yakında farklı

03:22.160 --> 03:28.880
Bazen çevre, ajanı farklı eylemleri keşfetmek için aracı farklılaştırmaya zorlar; ancak bazen temsilci

03:29.180 --> 03:36.860
kendisini yerel bir maksimuma sıkıştırabilir; ilk keşif yoluyla takip ettiğini bulabilir ve bu, ah şu

03:36.860 --> 03:42.110
şekilde güzel bir eylem olduğunu bulabilir: Ben hemen buraya gideceğim.

03:42.200 --> 03:43.920
Ve o d'esprit koleksiyonu.

03:43.940 --> 03:49.760
eylem olduğunu düşünüyor çünkü keşfedilmemiş olması burnuna giderken keşfediliyor ya da sola gitmek keşfetmek doğru

03:49.760 --> 03:55.850
gidişatı keşfediyor ancak içinde bulunduğundan bu özel durumdan inmeye araştırılmadı. tür bu eylemi doğru önyargılı gibi

03:56.360 --> 04:01.490
düşünmek ve düşünmek iyi bir eylem almak tutmaya devam edeceğini düşünmeye devam edecektir.

04:01.490 --> 04:03.800
Ancak problem şu ki en iyi

04:03.840 --> 04:06.570
Almaya devam edeceği gerçek bir ödül almaya devam edecek.

04:06.620 --> 04:14.000
Ancak eğer bu eylem daha iyi olsaydı, bu eylem daha iyi olurdu, ancak bu eylemi bilseydi,

04:14.060 --> 04:19.310
aslında bu eyleme geçeceğini ancak yerel bir maksimuma sıkışmış olmasından dolayı

04:19.310 --> 04:23.580
bu iyi ödülleri almaya başlamış olsaydı ne olurdu? takviye edilmesi.

04:23.630 --> 04:27.770
Bu, kendisini takviye etmeye devam edecek veya şiddet bunu takviye ederek bunun devam etmesi

04:27.770 --> 04:29.450
için iyi bir eylem olduğunu gösterecektir.

04:29.510 --> 04:35.330
Ancak gerçek şu ki, henüz keşfedilmemiş veya keşfedilmemiş olan başka bir hareket var.

04:35.570 --> 04:37.090
Bu çok daha iyi olurdu.

04:37.130 --> 04:43.790
Bu yüzden, yapmak istediğimiz, ajanımızın yerel bir maksimuma sıkışmasına izin vermeyen gerçek bir

04:43.910 --> 04:45.800
seçim politikası oluşturmak istiyoruz.

04:45.800 --> 04:50.120
Evet, sömürü parçası olan iyi eylemler yapmaya devam etmenin önemli olduğunu düşünüyorum.

04:50.180 --> 04:52.000
Bulduğumuz şeylerden istifade etmeyeceğiz.

04:52.100 --> 04:56.720
Fakat aynı zamanda keşif yapmak istediğimiz, keşfetmekten asla vazgeçmek istemediğimiz, hayatta olduğu gibi

04:56.720 --> 04:59.000
öğrenmeyi bırakmaktan vaz geçip ölmeyi öğrenmekten vazgeçmek.

04:59.120 --> 05:05.030
öğrenmeye devam etmek istediğiniz şey var ve ajan öğrenmeyi sürdürmek istiyor.

05:05.090 --> 05:07.580
Büyüyemediğinizde ölmekte olduğunuz veya

05:07.760 --> 05:10.200
Ve bu eylem seçim politikalarının geldiği yer budur.

05:10.400 --> 05:16.190
Yani burada listelenen üç tane var, birincisi Epsilon'un açgözlü, yani çok sade bir

05:16.190 --> 05:22.140
isim. Sanki çok güzel bir isim ve genellikle cerrahi isimler gibi şeyler var.

05:22.370 --> 05:23.170
Aslında değil.

05:23.180 --> 05:31.530
Yani temelde yaptığı şey, en iyi Q değerine sahip birini seçeceğidir ve Epsilon gibi epsilon, diğer yerleri

05:31.540 --> 05:35.240
duyabiliyor, bu sadece bir seçim politikası gibi.

05:35.240 --> 05:41.210
kısımlar, zamanın Epsilon'u yüzünden her zaman en yüksek Q değerine sahip olana benzer satışlar oluşturuyor.

05:41.540 --> 05:45.980
Dolayısıyla bu durumda kayganlaştırmak için kullanıyoruz, böylece El-Q değerlerimizin dışında kalan

05:45.980 --> 05:53.300
Örneğin eğer epsilonu yüzde 10'a ayarlarsanız o zaman 0'a gidersiniz. Eylemin rastgele seçileceği zamanın

05:53.300 --> 05:56.740
yüzde 10'undan 1'i.

05:56.750 --> 06:01.990
Yani yüzde 90'ı hala en yüksek değere dayalı en iyi eylemi seçeceksiniz.

06:02.120 --> 06:05.580
Fakat zamanın yüzde 10'u rastgele bir eylem seçecek.

06:05.600 --> 06:11.120
Üniforma, kesinlikle rastgele bir işlem yapıyor olacak ya da epsilonun

06:11.420 --> 06:18.380
0 için sıfır noktasına gelmesini söyleseydiniz. 05, bu, acentenin eylemi en yüksek değere sahip olduğu zamanın yüzde 95'inde

06:18.380 --> 06:19.200
olduğu anlamına geliyor.

06:19.220 --> 06:22.470
Ancak zamanın yüzde 5'inde hala seçme ve rasgele eylem olacak.

06:22.490 --> 06:25.550
Yani orada olacak ve keşfedilecek.

06:25.790 --> 06:31.640
Dolayısıyla, Epsilon'un yumuşaklığı, FCL açgözlü olarak adlandırılmasına neden böyle benzediği gibi

06:31.750 --> 06:39.780
çok benzer. O zaman, açgözlülükle, o küçük bölüm dışında hareketi iyi bir eylem seçersiniz.

06:39.780 --> 06:40.290
Bazı zamanlar

06:40.280 --> 06:46.970
EPS anlaşması ne kadar düşük olursa, Lepp Epsilon'u düşüreceksiniz, o kadar tepki verici bir şekilde,

06:46.970 --> 06:53.870
en uygun eylem olan bu tür eylemi seçiyorsunuz ve keşif için ayrılma şansınızı o kadar

06:53.870 --> 06:56.000
az bırakıyorsunuz, Epsilon'un yumuşak karşılığı.

06:56.000 --> 07:02.000
Yani temel olarak zamanın bir Epsilon'u eksi seçtiğinizi rasgele seçiyorsunuz.

07:02.000 --> 07:08.240
Epsilonlar 0'dan hoşlanırsanız. Yüzde 1 - 10'dur ve o zaman bu eylemi yalnızca% 10 alır.

07:08.490 --> 07:12.410
Ve rastgele bir işlem seçtiğiniz zaman yüzde 90'ı.

07:12.410 --> 07:19.000
Dolayısıyla, çok basit olan ters çevrilmiş algoritmalar ve yumuşak bir Max, bir sonraki adıma benzemektedir ya da

07:19.070 --> 07:24.350
epsilon açgözlü algoritmanın epsilon'u üzerinde her şeyin haklı ve ikisinin de bir yeri

07:24.350 --> 07:26.570
vardır da, daha gelişmiş bir versiyonudur.

07:26.610 --> 07:30.860
Uygulamalı türde kodlamamızda kendi kendini finanse edeceğiz.

07:30.860 --> 07:35.270
Bu yüzden soft max hakkında biraz daha ayrıntılı olarak konuşacağız.

07:35.330 --> 07:36.380
O halde bir göz atalım.

07:36.380 --> 07:38.440
Bu yüzden bir sonraki umarım geçelim.

07:38.450 --> 07:42.800
Ebsen'in oldukça basit bir algoritma olduğu konusunda oldukça net.

07:42.800 --> 07:45.100
Bunu seçin.

07:45.230 --> 07:47.790
Çoğu zaman bazen gidip keşfetmek dışında.

07:47.800 --> 07:53.820
Ve şimdi bu araştırmayı yapmak neden önemli olduğunu göreceğiz, böylece optimizasyon sürecinde

07:53.840 --> 07:58.780
yerel maksimumlara ulaşamayacağız; şimdi yumuşak Mac'ler hakkında biraz daha konuşacağız.

07:58.880 --> 08:02.680
Kursun sonunda yumuşak izler üzerine bir eğitim var.

08:02.750 --> 08:09.560
Sanırım bu, Maxim'in konseptinden bahsettiğimiz bir ek 2 numaralı olduğunu düşünüyorum, çünkü burada biraz

08:09.560 --> 08:14.650
yenileniyorsunuz, böylece sinir ağlarından bahsediyoruz ve bu arada konvolüyonel olarak hepimiz

08:14.720 --> 08:15.290
kapsayacak.

08:15.290 --> 08:18.170
Bu bölümde evrim sinir ağlarını kapsamıyoruz.

08:18.210 --> 08:21.470
Elbette bu bölümde hala bir vektör kullanıyoruz.

08:21.800 --> 08:27.770
Ancak dersin bir sonraki bölümünde, Doom oynamak için bir AI yarattığımızda, konvolüsyonel sinir

08:27.770 --> 08:32.870
ağı kullanacağız; dolayısıyla, ilişkisel sinir ağlarında bakıp kendinize bir max max

08:32.870 --> 08:38.300
almanız faydalı olabilir. fonksiyonu veya yumuşak Max hakkında biraz daha bilgi sahibi olabilirsiniz.

08:38.300 --> 08:43.020
Dönüşümsel sinir ağlarını aldıktan sonra ve tabii ki daha sonra.

08:43.250 --> 08:48.130
Ancak burada hızlı bir tazeleme var. Yani burada, köpek veya kedi olup olmadığına karar veren konvansiyonel

08:48.130 --> 08:48.950
sinir ağımız var.

08:48.950 --> 08:56.090
Yani burada, bu nöronlar arasındaki oylama süreci var ve bu, onun kabarık

08:56.090 --> 09:04.250
kulaklarında bildiği özelliklere sahip olduğunu söylüyor. Sivri sivri yüz türü ve özellik çeşitleri gözle

09:04.250 --> 09:09.930
gözlerin türüdür. gözler bir köpe ait tüm bu özelliklere bakar.

09:09.930 --> 09:13.890
Yani yüzde 95 şans bir köpek ve onun yüzde 5 şansı bir kedi.

09:13.910 --> 09:19.460
şu ki, bu değerleri birliğe ekleyerek nasıl alacağımız hakkında konuştuğumuz Tauriel'e nasıl girdik.

09:19.490 --> 09:20.530
Ancak soru

09:20.870 --> 09:27.650
Yumuşak max fonksiyonu için uyguladığımız değerler ne olursa olsun, bütün bütün

09:27.650 --> 09:33.300
sinir ağlarımız konvolüsyonel sinir ağı artı tam olarak bağlantılı

09:33.300 --> 09:33.980
Lares'tir;

09:34.010 --> 09:37.720
Burası yumuşak bir sonraki işlevi için formülü sunduğumuz yer.

09:37.810 --> 09:38.620
Neye benzediği.

09:38.780 --> 09:40.420
Sonra da bu değerleri aldık.

09:40.620 --> 09:43.460
Ve bu yüzden temelde hızlı bir yenileme.

09:43.460 --> 09:46.050
Bu yumuşak Max için formüldür.

09:46.100 --> 09:50.900
Bununla birlikte, sahip olduğunuz birçok çıktıların önemsiz olması gerekir.

09:50.900 --> 09:58.130
Onları alacak ve bunları hepsi benim için olduğu kadar büyük olursa olsun 0 ile 1 arasındaki

09:58.130 --> 10:03.720
değerlere çekecek ve alt kısımda toplam bir toplam olduğunu göreceksiniz, böylece bu

10:03.720 --> 10:04.860
cihazlar sıfır olacak.

10:04.860 --> 10:08.630
Ve bu değerlerin hepsi birer birer katacak.

10:08.700 --> 10:16.770
Ve bu bizim için çok faydalı olur, çünkü soft max fonksiyonunu kullandığımızda ne olur bu

10:16.800 --> 10:21.390
değerleri elde edersek bu en iyi görünümü seçeriz.

10:21.390 --> 10:26.740
Ancak gerçekte ne olur, oraya ulaştığımız bu değerler doğru rakamlardır.

10:26.750 --> 10:28.760
Bu bir numara çeşidi.

10:28.920 --> 10:31.720
Hepsi bir taneye kadar katılmak zorunda değildirler ve 0 ile 1 arasında olması gerekmez.

10:31.730 --> 10:32.830
Sadece birkaç numara.

10:33.140 --> 10:38.520
Ancak yumuşak Max'i uyguladığımızda, gerçekte böyle numaralar elde ettiğimiz en iyi olanı seçmeyiz; böylece

10:38.520 --> 10:44.310
sayılarımızı 0 ile 1 arasında bir aralıkta alıyoruz ve bu da 1'e kadar ek oluşturuyor.

10:44.310 --> 10:47.220
Ve biliyoruz ki başka bir şey, bir taneye kadar ekler.

10:47.340 --> 10:53.010
burada q değerlerimiz var ama burada aniden yumuşamış ya da olasılıklar var diyebiliriz.

10:53.010 --> 10:57.990
Olasılıklar muhtemel olasılıkların daima 1'e kadar çıkması gerektiğini biliyor olabilir, bu yüzden

10:57.990 --> 11:02.740
Bu nedenle, bunun en iyi eylem olma ihtimalinin yüzde 90 olduğunu söyleyebiliriz.

11:02.840 --> 11:08.610
Bu lezbiyen bölümü yüzde 5 2 oranında yüzde 3 biliyoruz çünkü değeriniz ne kadar yüksekse o kadar

11:08.610 --> 11:09.290
iyi olur.

11:09.390 --> 11:14.920
Dolayısıyla onları 0-1'e çekersek bunlar olasılıklar olur ve onlarla bu şekilde başa çıkabiliriz.

11:15.090 --> 11:22.840
Ve bu nedenle şimdi eylem seçildiğinde ve biz Q2 ile bu şekilde gelişiyoruz.

11:22.890 --> 11:28.580
Ancak buna yakından bakarsanız, bu yüzde 100 sıkı bir değer değildir ve bunlar Saroo yüzde 0 değildir.

11:28.590 --> 11:30.670
Yani bu yüzde 5 ila yüzde 3 arasında.

11:30.810 --> 11:42.360
Dolayısıyla, algoritmada araştırmayı korumak için yumuşak Max'i uygulamak için en doğal yol, bu kesin

11:42.480 --> 11:48.600
olasılıkları, o eylemi ne sıklıkta yapacağımız gibi kullanmaktır.

11:48.600 --> 11:55.710
Dolayısıyla, bu olasılıklar aslında aldığımız bu eylemlerin dağılımını ortaya koyuyor ve böylece temel

11:55.890 --> 12:01.740
olarak yumuşak Max, sömürüyü ve araştırmayı birleştirmenin bir yolunu bulmamızı kolaylaştırıyor.

12:01.740 --> 12:06.930
En iyi en iyi eylem her zaman için en yüksek Q değerine sahip olması nedeniyle yüksek

12:06.930 --> 12:11.190
ihtimale sahip olacak ve bu nedenle bunları dağıtımımız olarak kullanacağız ya da biz

12:11.190 --> 12:16.080
söyleyeceğiz. Tamam alacağız Q2 zamanın yüzde 90'ını ancak zamanın yüzde 5'ini, ilk çeyreği almamızı ve

12:16.120 --> 12:21.170
yüzde 2'lik kısmımızı elde ettiğimiz zamanın yüzde 3'ü ve yüzde 3'ünü 4. çeyreğe alacağız.

12:21.420 --> 12:27.090
Ve buradaki güzellik ayrıca, bu değerlerin ağa girmesiyle ve bu ajan

12:27.090 --> 12:35.220
giderek güncellediği için, ortamla ve bu güncellemelerle daha fazla aşina hale geldiği için bu değer, örneğin

12:35.210 --> 12:41.640
bunu tespit edebileceği şekilde olabilir bu değer aslında daha az veya bu aslında

12:41.640 --> 12:47.060
daha yüksek ve bu olasılıklar da bir ajan geçtikçe değişecektir.

12:47.070 --> 12:49.190
Her ne kadar burada olsa da Choo-Choo var.

12:49.200 --> 12:55.560
Kimse zamanın bazen yüzde 5'inin daha kesin olması için Q1'i seçeceğiz ve

12:55.560 --> 13:00.040
bazen de bir eylem yapmak üzere harekete geçeceğini söyleyemez.

13:00.180 --> 13:05.280
üç iki oranında iki adımla harekete geçecek ve harekete yüzde 3 oranında bir katkı yapılacak.

13:05.280 --> 13:06.400
Bazen zamanın yüzde

13:06.420 --> 13:13.800
Dolayısıyla, yeterli iterasyona sahip olduğumuz sürece her aksiyon bu süreçte oynamak için bir şansa sahiptir; bir

13:13.800 --> 13:17.930
ajan bu devletler vasıtasıyla çok ve çok kez geçmektedir.

13:17.940 --> 13:23.880
Ve bu, her türlü derin öğrenme algoritmasının bu şekilde birçok kez yapmak

13:23.880 --> 13:30.030
istediğiniz şekilde işlediği şeydir, böylece deneyimden öğrenirsiniz ve burada görebileceğiniz gibi çok

13:30.030 --> 13:31.840
doğal bir geçiş olur.

13:31.860 --> 13:37.590
bazı mantıklar içeren rastgele bir yüzde 10 değil aynı zamanda Zaman rasgele bir

13:37.590 --> 13:44.100
eylem seçiyoruz ancak bunu yaptığımızın arkasında ve keşfettiğimiz temel değerlere dayalı bazı mantıklar var.

13:44.190 --> 13:48.780
Sadece rastgele bir Epson öfkeli algoritması gibi değil, sadece rasgele

13:48.780 --> 13:53.200
seçtiğimiz eylemleri yumuşak maksimal değerlerine dayanarak seçmemizin yanı sıra arkasında

13:53.280 --> 13:58.620
Ve bu yüzden bu derste kullanacağımız eylem seçim politikası budur.

13:58.620 --> 14:04.590
İsterseniz, Ebsen açgözlü eylem bölümü Polsce'yi kesinlikle kontrol edebilirsiniz, ancak ağırlıklı olarak

14:04.590 --> 14:10.920
Yumuşak Max eylem bölümü politikasını kullanacağız ve sizin için ilginç bir okumam

14:10.920 --> 14:11.490
var.

14:11.490 --> 14:17.430
Bu yüzden buna, 2010 maddesinin değer farklarına dayalı takviye öğrenmede adaptif Epsilon

14:17.430 --> 14:18.870
açgözlü araştırması denir.

14:18.930 --> 14:27.270
İlginçtir, çünkü Mike Michel Michelle ve Miquel toksiklerinin nasıl kullanılacağından emin değilim, Algren'in

14:27.450 --> 14:36.420
ve ayarlanmış Epsilon açgözlü algoritmasını tanıtır ve burada görebileceğiniz VDB VDB algoritması veya epsilon

14:37.230 --> 14:40.030
açgözlü VDB algoritmasını denir.

14:40.410 --> 14:46.590
Ve aslında Ebsen açgözlü ve yumuşak Max ile

14:46.650 --> 14:55.740
kıyaslar ve esas olarak arkasındaki ana fikir, aracının bulunduğu epsilon değerini ayarlamaktır,

14:55.740 --> 14:56.550
ajan mutlaktır.

14:56.550 --> 15:01.820
Aracı devlet hakkında çok emin olsaydı Epsilon daha küçük olmalıydı, bu yüzden ajan

15:01.820 --> 15:06.340
cevaplandıysa daha az keşif olmalı Epson daha yüksek olmalı daha yüksek olmalıdır.

15:06.350 --> 15:08.930
Yani 2010 yazısı.

15:09.260 --> 15:17.930
Bu yeni önerilen algoritmanın yaygın şekilde kullanılıp kullanılmadığı veya toplulukta kabul görülen bir şey olup olmadığı veya yapay

15:18.010 --> 15:23.090
Times'ın bu öneriden bir şekilde bir yol bulması durumunda emin değilim.

15:23.090 --> 15:29.450
Ancak bununla birlikte, Epsom Ingredion'u yumuşak Naxal'ın size Subha sitesini zorlama fırsatı

15:29.450 --> 15:33.180
verdiğiniz konusunda yardım ettiğiniz eylem seçimi politikaları

15:33.200 --> 15:38.900
hakkındaki bilginizi güçlendirmenize kesinlikle yardımcı olacak ve insanların yapay zekayı iyileştirmek

15:38.900 --> 15:46.040
istediklerinde aslında hangi yönde düşündüklerini de görebilirsiniz. Elche'nin yapay zekasının sınırlarını zorlayan ve zarfı

15:46.040 --> 15:51.770
bu alandan zorlayan gerçekten enteresan algoritmalar oluşturmayı planlıyorsanız, bu, insanların hangi

15:52.130 --> 16:00.140
yönde çalıştığını bazen hangi yönde düşündüklerini görebilmeniz için iyi bir yol olabilir Yapay zeka normlarını

16:00.200 --> 16:04.070
veya daha sonra 2010'da var olan normları iyileştirmek.

16:04.070 --> 16:04.760
İşte gidiyoruz.

16:04.790 --> 16:11.020
Umarım bugünün eylem seçim politikalarıyla ilgili eğitimden hoşlanıyordunuz ve biz hapsedici açgözlü Epson

16:11.060 --> 16:18.240
tuzu ve yumuşak Mac'ler hakkında öğrendik ve şimdi şeylerin pratik yüzü için daha hazırlıklısınız.

16:18.290 --> 16:20.840
Ve o notada bir sonraki adımınızı bekliyorum.

16:20.840 --> 16:22.570
Ve o zamana kadar AI zevk.