WEBVTT

00:01.080 --> 00:04.050
Merhaba ve yapay zeka dersine tekrar hoş geldiniz.

00:04.050 --> 00:09.810
Bugün her üç görünüşte dünyaya yolculuğumuza devam ediyoruz ve ikili bir C nin

00:09.870 --> 00:13.530
senkron yüzü hakkında konuşuyoruz, böylece senkronize avantaj kısaltmamız var.

00:13.550 --> 00:14.430
Aktif eleştirmen.

00:14.430 --> 00:19.040
Ve bugün burada senkronun ne anlama geldiğini bulacağız.

00:19.080 --> 00:20.990
Ve bir adım geri dönelim.

00:21.000 --> 00:27.270
Şimdi, Asya'nın belirli bir durumda olduğunu öğrenmek için bu dersi ne başlattığımıza

00:27.270 --> 00:29.050
bir göz atalım.

00:29.340 --> 00:30.690
Devleti gözlemliyorlar.

00:30.730 --> 00:37.080
Bu durumda devlete kararlar veriyorlar ve sonra devlet yeni bir devlete dönüşüyorlar;

00:37.080 --> 00:39.010
ayrıca ödül alıyorlar.

00:39.150 --> 00:46.830
Bu eylemi veya bir çeşit ödül almak için verilen ödül de ceza olabilir ve yeni bir

00:46.830 --> 00:47.780
hale gelir.

00:47.790 --> 00:50.180
Ve şimdi bunu temel alarak yeniden bir adım daha atıyorlar.

00:50.250 --> 00:56.280
Bir ödül alırlar ve yeni bir devlet olurlar ve başka bir eylem alırlar

00:56.280 --> 00:59.670
vb. Ve böylece bütün takviye öğrenmesinin temelini oluştururlar.

00:59.700 --> 01:06.030
Ayrıca, derin öğrenme ve derin konvansiyonel öğrenmeyi sürdürmede öğrenmede kullandığımız şey bu ve ajanlarımız

01:06.030 --> 01:10.660
kademeli olarak daha karmaşık ve daha karmaşık ortamlar atmasını sağladı.

01:10.770 --> 01:18.310
Ancak şimdi daha iyi bir konsept sunacağız ve hatta daha da ileri bir seviyeye geçeceğiz.

01:18.720 --> 01:25.530
A-3'te bu eşzamanlı unsurla tanıtılan şey, bir ajan çevreye

01:25.520 --> 01:26.730
saldırmak yerine.

01:26.790 --> 01:34.140
Üç ajanı ya da aynı çevreye saldıran çeşitli ajanlar ya da birkaç aracı var.

01:34.290 --> 01:39.360
Ve buradaki anahtar, senkronizasyon olarak adlandırılmasının nedeni bu, çünkü yıldız girişleri farklı olacak

01:39.360 --> 01:40.920
şekilde farklı şekilde başlatılıyor.

01:40.920 --> 01:46.520
Örneğin, pratik kaynaklardan gördüğünüz gibi, rasgele bir tohum belirlediniz ve onu ajanların her biri için

01:46.530 --> 01:47.980
farklı bir şekilde ayarladınız.

01:48.030 --> 01:51.150
Bu şekilde başlangıç ​​noktaları farklı olduğundan.

01:51.270 --> 01:55.260
İlk önce, farklı yollarla ortamlara geçecekler ve sonra farklı yollarla

01:55.260 --> 01:58.620
keşfedilecekler ve sonraki yinelemelerde de farklı yollarla keşfedilecekler.

01:58.620 --> 02:01.190
Ve mesela, üç ajanımız var.

02:01.300 --> 02:06.390
Birdenbire, bir yaşından ziyade üç kat fazla deneyim elde ediyorsunuz,

02:06.390 --> 02:12.480
çevreyi araştırıyorsunuz ve keşfediyorsunuz ve bu ortamda nasıl çalıştıracağınızı anlamaya çalışıyorsunuz.

02:12.570 --> 02:18.780
Şimdi üçünüz var ya da bunun birçoğundan geçiyor ve bu deneyimi elde ediyorsunuz ve

02:18.930 --> 02:25.140
böylece orada her biri daha büyük bir deneyim öğreniyor ve sadece daha geniş bir

02:25.140 --> 02:31.300
deneyim yelpazesi sunmaktan ayrı olarak bir ajanın şansını da azaltıyor yerel bir maksimuma sıkışmak.

02:31.320 --> 02:38.040
Mesela bir aracı çevreyi yenmek için en uygun olmayan yol bulursa, çünkü çözümden

02:38.130 --> 02:43.470
sağa sola saparsa her zaman daha cezalandırılmış gibi bulur ve

02:43.470 --> 02:45.710
yerel bir maksimuma sıkışabilir.

02:45.710 --> 02:49.530
Aslında olmadığı yerde en uygun çözüm olduğunu düşünerek bunu yapmaya devam edebilirsiniz.

02:49.680 --> 02:58.830
belirli bir yerel maksimumda sıkışan bir aracın olasılığı yüksek olabilir, ancak Veya belirli bir değer olabilir.

02:58.830 --> 03:04.440
Aynı yerel maksimumda birkaç ajanın sıkışması ihtimali, acentelerin sayısı

03:04.440 --> 03:07.990
ile düşüşün üzerine düşer; bu nedenle,

03:08.130 --> 03:11.730
Fakat üçünün hepsinden üç tanesini yerel maksimuma sıkıştırabilme ihtimaliniz

03:11.730 --> 03:13.020
çok daha düşüktür.

03:13.020 --> 03:18.630
Ve birbirleri arasında deneyim paylaştıkça, birbirlerine yardımcı olabilirler; öyleyse biri sıkışırsa, örneğin yerel bir maksimum olur

03:18.630 --> 03:23.370
ve bunun sadece en iyi olduğunu düşünün ve bu en iyi çözüm her zaman

03:23.370 --> 03:25.700
en iyisidir ve Bunu yapmaya devam ediyor.

03:25.830 --> 03:30.740
bu adamın sakin bir harekette sıkıştığını ve onların ona yardım edeceğini düşünelim diyelim.

03:30.770 --> 03:35.710
Diğer ajanlarla etkileşime geçtiği sürece Öyleyse, hücresel yolla tüm algoritmamızı oluşturduğumuz yol boyunca

03:35.710 --> 03:37.620
diğer ajanlarla etkileşime geçtiği sürece

03:37.620 --> 03:42.960
Ona, aslında bunu bildiğinizi bildiğinizi ya da bunu keşfetmeniz gerektiğini ya da bundan

03:43.020 --> 03:44.630
kurtulma olasılıklarının artacağını bildireceklerdir.

03:44.760 --> 03:50.370
Ayrıca genel olarak çevre, heyecanın daha iyi seçenekler görmesine rağmen bu büyük bir maksimuma sahip olduğunu

03:50.370 --> 03:55.230
ve keşfetmeye devam etmemiz gerektiğini biliyor çünkü daha iyi seçenekler varmış gibi görünüyor.

03:55.230 --> 04:00.750
Çok kısa sürede kaba bir sezgisel anlayışla bu, bunların senkronize aracılar olmasının avantajlarından

04:00.750 --> 04:05.970
bazılarıdır; bu nedenle, seçim ve tecrübe edinmeniz için daha fazla deneyime sahip olursunuz.

04:06.210 --> 04:12.750
Yerel bir azami CRN'de sıkışıp kalmak için daha az şansınız varsa, çözüme

04:13.080 --> 04:16.640
daha hızlı ve genel olarak erişebilirsiniz.

04:16.680 --> 04:18.710
Bakalım bunların hepsi nasıl oynanıyor.

04:18.720 --> 04:24.300
Şimdiye kadar inşa ettiğimiz bu modelde, hatırladığımız şu ki, gerçek eleştirmen aracılığıyla şimdiye kadar elde

04:24.300 --> 04:29.730
ettiğimiz şey bu ve bu hepimiz şu kadarıyla hatırlıyor musunuz ki, ilk tanıştığımız kaplumbağa hatırladığınız

04:29.730 --> 04:33.030
gibi bu biliyorsun bunu zaten derin okyanusta bile almıştık.

04:33.030 --> 04:38.340
ana kadar bu eleştirmenin sahip olduğu ve devletin değerini ölçmenin veya bir sinemanın aynı sinir

04:38.340 --> 04:43.620
alanını kullanan bir sahnenin değerini tahmin etmenin bir anlamı yok. ağlar veya aynı yaklaşım.

04:43.620 --> 04:48.320
Q learning's Şimdi sadece X adını verdik, ancak şimdi eleştirmen tanıttık ancak şu

04:48.510 --> 04:52.350
Ama şimdi işte, eşin daha mantıklı olmaya başlayacağı.

04:52.350 --> 04:57.750
Yapacağımız şey, bunu tekrarlayacağımızdan, şimdi çoklu ajanlara sahibiz Çünkü çoklu ajanlar

04:57.750 --> 04:59.410
bu ise bunun benzeyecektir.

04:59.410 --> 05:07.380
Dolayısıyla bunu hayal etmenin ilk yolu şu ki bu üç gün boyunca deneyimlerini

05:07.380 --> 05:09.210
birbirimizle paylaştıklarını hatırlıyoruz.

05:09.210 --> 05:12.270
Aslında bunlar şu anki gibi, hepsi bağımsız.

05:12.260 --> 05:15.420
Oyunu oynayan bir oyuncunuz var ve oyun oynamaktan başka oyunda başka bir oyun oynamak.

05:15.450 --> 05:20.500
Tıpkı ajanınızı üç farklı bilgisayarda başlatmak gibi, üç farklı bilgisayarı birbirine bitişik olarak yerleştirdiğiniz gibi

05:20.500 --> 05:23.030
başlatmak gibidir ve bunun harika olduğunu bilirsiniz.

05:23.050 --> 05:29.100
Beğendiğiniz gibi, daha fazla deneyim kazanacağınızdan emin olabilirsiniz, özellikle de başlatıldıysa, daha fazla çeşit

05:29.100 --> 05:29.760
kazanırsınız.

05:29.790 --> 05:33.600
Burada, burada aynı resme sahip olsak bile, daha önce hiç bir zaman

05:33.600 --> 05:34.770
başlangıç ​​olmamış olduklarını varsayabiliriz.

05:34.870 --> 05:39.900
Aslında farklı olduklarını bildireceğiz, böylece bu oyundan özdeş

05:39.900 --> 05:43.460
öğrenme aynı eğitim gibi olmayacak.

05:43.890 --> 05:47.700
Ve bu nedenle, üç bilgisayar yan yana koyduğunuzu ve

05:47.700 --> 05:55.560
bunları başlattığınızı evet iseniz, daha fazla deneyime sahip olacaksınız, çünkü üç ajan oynamaya gidiyorsunuz ve ayrıca olası çözümlerden

05:55.680 --> 05:58.600
daha geniş bir çeşitliliğe sahip olacaksınız .

05:58.620 --> 06:00.120
Bu doğru.

06:00.120 --> 06:03.840
Ancak problem şu ki, deneyimlerimizi birbirimizle paylaşmamakta veya birbirimizden

06:03.840 --> 06:04.120
öğrenmemektedirler.

06:04.220 --> 06:06.840
Bu yüzden sinerjileri yok.

06:06.840 --> 06:11.670
ekibiniz varsa nasıl yaparsanız alacağınız dengeyi sağladıklarında elde ettikleri güçleri yoktur.

06:11.670 --> 06:17.930
Sahip oldukları avantaj veya ekstra gücü, birbirinizden ayrı olarak görece daha iyi çalıştıkları bir takım

06:17.920 --> 06:20.650
Yani bir takımda olduğu gibi burada bir artı bir artı bir tane var.

06:20.730 --> 06:25.200
Üç, ancak bir artı bir yumurtlama ekibinde, üçü de üçlü değil, çünkü

06:25.200 --> 06:29.220
birbirlerinin güçlü yanlarını kullanıyor ve birbirlerinin zayıflıklarını ve aynı şeyi hafifletiyorlar.

06:29.220 --> 06:34.080
Bu iki bilgisayarı yan yana koyarsanız evet evde daha çok deneyim belleğine sahip olacaksınız ve muhtemelen birisi daha

06:34.150 --> 06:35.580
iyi bir çözüm elde edecektir.

06:35.580 --> 06:39.710
Harika biri olan bu deneyim paylaşmaya başlarlarsa daha da iyi olacak.

06:39.780 --> 06:41.120
Ve bunu nasıl yaparlar.

06:41.130 --> 06:47.820
Bu Wii sayesinde, onu hesaplıyoruz, böylece ağımızın çıktısı olan bu Wii

06:47.820 --> 06:49.550
değeri aslında böyle.

06:49.560 --> 06:54.960
Yani her seferinde her seferinde aynısı var.

06:54.960 --> 06:58.050
Bütün bu ajanlar aynı eleştirmene katkıda bulunuyorlar.

06:58.050 --> 07:04.290
Ortak bir eleştiriye sahip oldukları ayrı ayrı eleştirilere sahip değildirler ve aktör eleştirmenlerinin senkronize

07:04.290 --> 07:06.270
oldukları bağlamın anahtarı budur.

07:06.270 --> 07:09.850
Bu yüzden, deneyim kazanırken bizi izleyen bir eleştirmen var.

07:09.870 --> 07:12.420
Peki Wii'yi nasıl hesaplarız.

07:12.570 --> 07:13.920
Wii'yi almak zorundayız.

07:14.220 --> 07:20.190
Hatırladığınız gibi, aldığımız değerler aracılığıyla TV'yi ortamdan alabileceğimiz ödülleri

07:20.190 --> 07:20.750
alabiliriz.

07:20.760 --> 07:28.310
Ve ajanlar kendi çevrelerini keşfederlerken hesaplar Wii'yi öngördükleri anlamına gelir.

07:28.320 --> 07:30.710
Ayrıca Wii'leri hesaplayabiliyorlar.

07:30.720 --> 07:35.010
Bu, hepsinin skorun önceki bölümlerinde daha önce tartıştığımız şeylerle

07:35.010 --> 07:35.730
bağlantılı olması.

07:35.850 --> 07:42.870
ve zaten keşfedildikleri ve bu değerin değiştirebileceği tabii ki onları araştırdıklarından ödüller aracılığıyla beklemektedirler.

07:42.870 --> 07:48.700
Dolayısıyla zaten bir Wii'ye sahip olduklarını tahmin edebildikleri, bu labirentte var

07:48.750 --> 07:49.770
olduklarını bildikleri

07:49.890 --> 07:55.410
Fakat Wii'ye göre, bunun sinir ağının çıktısı da var, çünkü

07:55.410 --> 08:01.530
bunlar üzerinden geçecekler ve sinir ağlarını daha iyi uyumu sağlamak için ayarlayacaklar.

08:01.530 --> 08:10.080
Yani temelde bu paylaşılıyor, eleştirmen kısmı ajanlar arasında paylaşılıyor ve birbirleri arasında bilgiyi

08:10.080 --> 08:15.490
paylaşma şekli, birbirleriyle paylaşılan ortamda neler olup bittiğini

08:15.490 --> 08:20.890
nasıl görebildikleri ve bunu Bir sonraki bölümde avantaj göreceğiz.

08:20.930 --> 08:25.450
Bu yüzden çevreyi nasıl davrandıklarını optimize etmek için kullanın.

08:25.710 --> 08:27.960
Ve burada not etmeniz gereken diğer şey.

08:28.080 --> 08:29.510
Yani bu C ile geçti.

08:29.520 --> 08:33.150
Burası, A-3'ün çekirdeği burada görüyor gibi.

08:33.150 --> 08:38.610
Bu, 08:30 versiyonudur. Fakat bunun daha da iyi uygulanması var.

08:38.610 --> 08:45.450
çok isterim ve onun hakkında konuşacakları şey, Pi torche'un yaratıcısının aslında biriyle nasıl bir ayarlama

08:45.450 --> 08:52.680
yapmış olmasıdır paylaşılan kodları ve bunların hepsini aldığı hub'ı alıp, şu anda ayrı ayrı sinir ağlarına

08:52.980 --> 08:58.530
sahip olduklarını ve yaptıkları ayarlamanın aslında tüm bu sinir ağlarını alıp bunları

08:58.530 --> 09:03.420
birine koyduğunu gösterdiler. onları al ve onları bir araya getir.

09:03.420 --> 09:09.000
Gerçekten duyacağınız A'dan C'ye kadar, ilk derslerden birinde ve şeylerin pratik tarafında

09:09.000 --> 09:09.300
konuşmayı

09:09.300 --> 09:15.100
Sonuçta burada ajanlar arasında paylaşılan sadece bir sinir ağı var.

09:15.120 --> 09:21.180
Bu yüzden her birinin aktör için paylaşılan bir sinir ağı ve eleştirmen için bir

09:21.180 --> 09:25.790
sinir ağı Shelfer gerçek eleştirmen için bir sinir ağı doğruluğunu paylaştı.

09:25.800 --> 09:31.730
Şimdi hepsinin aktör ya da eleştirmen ya da eleştirmen tarafından paylaşılan bir sinir ağı var x ya da eleştirmen.

09:31.980 --> 09:35.130
Sonra eleştirmen burada ortaktır.

09:35.310 --> 09:36.690
Bir bakalım hadi.

09:36.690 --> 09:39.840
Bu resimleri sola doğru hareket ettirelim, böylece biraz boşluk bırakın.

09:40.100 --> 09:47.430
Ve bu temelde pratik öğreticilerde kullanacağımız mimari veya

09:47.430 --> 09:48.250
yapıdır.

09:48.300 --> 09:55.020
Biliyorum ki bu gibi durumlarda bu aşama biraz zor gelebilir ama avantajları hakkında konuşacak bir

09:55.020 --> 09:59.370
şey daha var ve işte bunu daha iyi göreceğiz.

09:59.370 --> 10:02.780
Nasýl gidiyor bu yüzden eylemdeki sezgiden bahsedeceđiz.

10:02.870 --> 10:05.680
Ancak genel olarak konuşursak, bunun nedeni budur.

10:05.700 --> 10:10.640
Bu, her ajanın kullandığı veya paylaştığı bir ağ var.

10:10.640 --> 10:15.820
Temelde bunun anlamı, ağların ağırlıklarının yaşlar arasında paylaşıldığı ağırlıkları paylaştıkları ve

10:15.840 --> 10:19.920
güncellediklerinde yalnızca kendi ağlarını değil de tüm ağın güncellenmesidir.

10:20.480 --> 10:26.270
Ve sonra her ajan için bu eylemler gibi çıktılarına sahipler ve sonra da paylaşılacak

10:26.270 --> 10:27.710
olan eleştirmenleri izleyecekler.

10:27.700 --> 10:34.280
Bu yüzden hepsinin şu anda bir sürü şey varmış gibi bir şey olduğunu biliyorum, fakat umarım yavaş yavaş eninde sonunda

10:34.850 --> 10:35.900
bir araya geliyor.

10:35.900 --> 10:39.660
Buradaki ana paketleme eleştirmenin paylaştığı için.

10:39.670 --> 10:47.810
daha hizli alabilmek için temsilciler birlikte birlikte olduklarından emin olabiliyorlar.

10:47.810 --> 10:48.660
Sonuçlari

10:48.860 --> 10:52.690
Ve sonraki öğreticide bunların hepsinin nasıl eklendiğini daha da iyi göreceğiz.

10:52.700 --> 10:53.650
Bütün bunlar bir araya geliyor.

10:53.900 --> 11:00.920
Şimdilik, sana tavsiye etmek istediğim var ya da ek bir okuma önerisi

11:00.920 --> 11:01.210
istiyoruz.

11:01.210 --> 11:06.780
Yani bu Jaromir Jansch'ın bir blogudur.

11:06.860 --> 11:11.570
Buna A3 yapalım implantasyonların aslında iki parçalı uygulama ve teori olduğunu görelim.

11:11.820 --> 11:19.010
sadece bu öğretici amaçlı değil sadece Sutro için değil, bu bölümün tamamı için.

11:19.010 --> 11:25.880
Bağlantı var ve öğreticinin pratik tarafında Adlon'un uygulayacağı şey ile çok benzer,

11:25.880 --> 11:27.200
bu nedenle

11:27.200 --> 11:30.900
Orada teşvik edici bazı ek bilgiler var, bazı ek bilgiler var.

11:31.040 --> 11:33.260
İşte bu yüzden onu buraya getiriyoruz.

11:33.320 --> 11:38.030
Fakat yine de bir sonraki dersin hepsini bir araya getirmeye başlayacağız.

11:38.030 --> 11:39.040
Konuştuğumuz her şey.

11:39.200 --> 11:40.590
Ve bir dahaki sefere görmeyi sabırsızlıkla bekliyorum.

11:40.590 --> 11:42.200
Ve o zamana kadar tadını çıkarın.