WEBVTT

00:00.330 --> 00:05.940
Merhaba ve bu öğretiye hoş geldiniz, bu özel oyuncak süper heyecanlı olacak, çünkü

00:05.940 --> 00:08.540
A'ya yaklaşıyoruz. S. C. algoritması.

00:08.700 --> 00:14.190
Uygulamak üzere olduğumuz ve Uygunluk İzleme veya Sarsour olarak da adlandırılan şeyin aslında,

00:14.520 --> 00:20.250
senkron aktif eleştirmen ajanları algoritmalarının bir algoritması olduğunu göreceksiniz, bunu algoritma olarak düşünemiyoruz.

00:20.250 --> 00:20.380
&nbsp;

00:20.380 --> 00:25.290
temsilcimiz olacak ancak yine de uygulamak üzere olduğumuz şeyin

00:25.290 --> 00:32.010
aslında bu makalenin derin takviye öğrenimi için Synchronoss yöntemi olan bu makaleden alındığını

00:32.130 --> 00:38.280
göreceksiniz; Bu yazıda, bu dersin son bonusu olarak uygulayacağımız A-3 algoritmalarını bulacaksınız.

00:38.280 --> 00:40.840
Ve görüyoruz çünkü hala bir

00:41.010 --> 00:47.580
Ama dediğim gibi, ona yaklaşıyoruz, çünkü şu anda uygulayacak olan model asenkron

00:48.420 --> 00:55.620
ve sekülerleşmiş bir model bu, hemen hemen A3 C olanı, ancak bunun için

00:55.620 --> 01:03.490
bir ajan ve güçlü şey olan A3 C'dir. bu ve adım Cunanan, birikimlerimizi kazanmamızı ve

01:03.490 --> 01:09.520
Priestley gibi bir adım yerine son adımlardaki kümülatif hedefi öğrenmeyi öğreneceğiz.

01:09.690 --> 01:15.250
Ve eğitimin daha fazla performansa dönüşmesi budur ve bu nedenle çok daha güçlüdür.

01:15.300 --> 01:21.080
Dolayısıyla aslında bu algoritma için sahte kodumuz var, burada bu algoritma var.

01:21.180 --> 01:23.230
Bu yüzden üzerine tıklayın ve gidelim.

01:23.250 --> 01:25.740
Uygulamak üzere olduğumuz algoritma budur.

01:25.890 --> 01:30.960
Ancak unutmayın, yalnızca bir ajan ile fark, burada bir işlem yapmalarıdır.

01:30.990 --> 01:37.380
Cumhurbaşkanı Greely'nin politikasına göre 80 geçerli devlet için q değerlerine dayanan ve oynanan

01:37.380 --> 01:38.020
eylem.

01:38.190 --> 01:42.050
Fakat bizim durumumuzda mükemmel bir yeşil politika uygulamadık.

01:42.090 --> 01:43.770
Yumuşak bir Max uyguladık.

01:43.890 --> 01:46.110
Ama gerisi senin gördüğünle aynı.

01:46.110 --> 01:50.210
Üzerinde çalıştığımız toplamı hesaplayacağız ve aslına 10 adım attıracağız.

01:50.220 --> 01:52.340
Adımların 10'a eşit olduğunu unutmayın.

01:52.440 --> 01:58.170
Ve bu nedenle, şu anda uygulamak üzere olduğumuz algoritmamızda bu kod satırını uygulayacağız.

01:58.170 --> 01:59.010
Bunu alacağız.

01:59.010 --> 02:02.150
Ve çoğunlukla bunu da uygulayacağız.

02:02.160 --> 02:07.590
Geçerli durum ve bu teta içerisindeki geçerli eylem için maksimum q

02:07.590 --> 02:08.820
değerini alacağımızı görürsünüz.

02:08.820 --> 02:11.150
İşte sadece bir hedef parametresi.

02:11.430 --> 02:15.350
Bu yüzden bunu yapalım, bu algoritmaya saldıralım.

02:15.360 --> 02:18.730
Buna senkron ve sopa öğrenme denir.

02:18.900 --> 02:24.490
Ancak, yalnızca bir motorumuz olduğu için, söz konusu olduğumuz kadar senkronize olma hakkı yok.

02:24.670 --> 02:29.830
Fakat bu nedenle onu arayabilir ve uygunluğu öğrenebiliriz ya da hatta Sarsour'u öğrenebiliriz.

02:30.270 --> 02:31.780
Pekala, bunu yapalım.

02:31.800 --> 02:33.080
Oldukça eğlenceli olacak.

02:33.090 --> 02:37.460
Temel olarak burada kodu takip edebiliyoruz ve bunu yapacağız.

02:37.460 --> 02:43.980
Ve ihtiyacımız olan bir parametreyi, çürüme parametresi olan parametreye yükselttiğimizi görebildiğiniz

02:44.280 --> 02:50.820
için bu Gahanna parametresi için bir değişken sunarak ve bunları seçerek başlayacağız.

02:50.820 --> 02:51.840
O halde bunu yapalım.

02:51.900 --> 02:57.040
Aslında bir sınıfa muazzam ihtiyacımız yoktur Bir işle bunu basitçe uygulayabiliriz çünkü

02:57.040 --> 03:01.830
bunun için nesne oluşturmak zorunda değiliz, çünkü bunu izlemek için bir

03:02.190 --> 03:08.500
modele ihtiyaç duymuyoruz. Bir fonksiyon yeterlidir, çünkü esas olarak yapmak istediğimiz şey girdileri ve hedefi

03:08.500 --> 03:14.460
geri döndürdükten sonra, AI'yı eğitirken öngörüler ile hedef arasındaki mesafeyi en aza indirgemeye hazırız

03:14.470 --> 03:19.950
ve öngörüleri almak için girdilere ihtiyacımız var, çünkü çıktı almak için beynimizi girdiye

03:19.950 --> 03:21.300
uygulayacağız Tahminlerimiz olacak sinyalleri.

03:21.300 --> 03:26.730
tuvaletler arasındaki bu büyük mesafeyi en aza indirgemeye çalışarak AI'yi eğitmeye hazır olacağız.

03:26.730 --> 03:30.680
Ve bir kere tahminlerimize ve hedeflerimize kavuştuğumuzda, tahminleri ve

03:30.690 --> 03:32.780
İşte şimdi bunu yapmak için bir nokta var.

03:32.880 --> 03:38.130
Sovyetlerde bu girdileri geri getirebilmek için bu işlevi uyguluyoruz, böylece tuvalet

03:38.130 --> 03:43.010
yöneten kare tahminlerini en aza indirgemek için eğitim almaya hazır olabiliyoruz.

03:43.020 --> 03:46.400
Pekala, bu yüzden bunu işlevleri uygulamak istediğimizi söyleyelim.

03:46.410 --> 03:47.910
Bu işle başlarız.

03:47.940 --> 03:52.680
Bunu uygunluk olarak vurgulamaya devam edeceğiz.

03:52.860 --> 03:54.210
Ayrıca Sarsour diyebilirsiniz.

03:54.240 --> 04:00.660
İstediğiniz şeyi çalmak için adım da diyebilir, ancak bunu uygunluk izi olarak adlandıracağız

04:00.660 --> 04:07.530
ve bu işlev bir toplu hal olacak bir argüman alıyor ve bunun sebebi, bazı

04:07.530 --> 04:13.460
girdiler ve bazı hedefler alacağımız için, AI'yı gruplar halinde eğitmek için gidiyoruz.

04:13.530 --> 04:19.170
Ve böylece girdiler ve hedefler bazı toplu haldedir ve bu nedenle buradaki girdi bağımsız

04:19.410 --> 04:25.090
değişkeni, birkaç girdi içerecek olan bu toplu iş ve sonra hesaplayacak birkaç hedef olacaktır.

04:25.500 --> 04:26.730
İşte gidiyoruz.

04:26.730 --> 04:28.310
İhtiyacımız olan tek argüman bu.

04:28.500 --> 04:32.280
Şimdi bir işlevin içine girelim ve ne yapmamız gerektiğini tanımlayalım.

04:32.370 --> 04:40.140
Gazetenin Bazilika'sında da gördüğümüz gibi, yine bu parametrelerin tekrarlanmasına ihtiyaç duyuyoruz, böylece bu gamma parametresini

04:40.440 --> 04:45.390
yarı kapalı olarak sunarak başlayacağımızı ve zaten değeri çözebildiğimizi söyledik.

04:45.450 --> 04:51.780
Ve biz Gana ve Norreys için klasik iyi bir değer olan dört nokta doksan dokuz'u seçeceğiz.

04:51.780 --> 04:55.640
Bunun AI için iyi bir değer olduğunu kontrol ettim.

04:55.650 --> 05:04.120
Pekâlâ, bir sonraki adım, girişimizi ve hedeflerimizi hazırlamaktır, çünkü tam olarak geri dönmek

05:04.120 --> 05:05.260
istediğimiz budur.

05:05.260 --> 05:08.980
Eğitimi hazırlamak için girdileri hedeflere geri getirmek istiyoruz.

05:08.980 --> 05:15.520
bir liste haline getireceğiz ve girdileri liste halinde başlatmanın yanı sıra gittik hedeflerimiz.

05:15.790 --> 05:21.130
Ve bu nedenle bunları boş bir liste ile başlatabiliriz çünkü elbette

05:21.430 --> 05:25.000
bu girdiler En iyisi içerisindeki tüm girdileri

05:25.000 --> 05:31.420
Bu yüzden, bizim başlattı ve hedefler koymak ve sonunda bu uygunluk izleme fonksiyonu tam

05:31.540 --> 05:33.320
olarak bu girdileri dönecektir.

05:33.330 --> 05:36.180
Ve bu evet elbette Filton'du.

05:36.290 --> 05:42.300
İşlev tarafından döndürüleceğimiz şeyler için birkaç girdimiz ve ilişkili birkaç hedefimiz var.

05:42.300 --> 05:48.820
Bir sonraki adımın başında bir döngü başlatmak ve bunun nedeni tam da kağıdın

05:48.880 --> 05:50.290
yavaş kodunu izlemek.

05:50.290 --> 05:51.400
Bu tür bir kod.

05:51.490 --> 05:58.420
Ve gördüğünüz gibi bu tekrar kod bölümü var ve kodda tam bir döngü tekrarlanıyor.

05:58.470 --> 06:03.870
Burada 10 adım üzerinde biriken kümülatif ödül hakkını hesaplayacağız.

06:03.940 --> 06:05.130
Ve nasıl hesaplanır.

06:05.290 --> 06:10.480
Son adım olmadığı her adımda, bu aşamada bulunduğumuz para biriminin temel değerlerinin maksimum

06:10.480 --> 06:13.070
seviyesini elde edeceğiz ve adımlar atacağız.

06:13.240 --> 06:17.790
Ve 10 adımın son Devletine iyi ulaşırsak, bu sıfıra eşit olur.

06:17.890 --> 06:19.810
Yani artık bunu yapmak istemiyoruz.

06:20.080 --> 06:23.320
Ve sonra başka bir tane olacak olan bu döngü var.

06:23.470 --> 06:28.390
Burada tekrar etmelerini söylemiyorlar ama aynı, algoritmamızda ikinci tam döngü olacak.

06:28.600 --> 06:34.570
Peki bu durumda, bozma parametresi gama ile çarpılarak ve sözcük ekleyerek bu

06:34.840 --> 06:35.660
şekilde olacağız.

06:36.010 --> 06:41.510
Şimdi bunu Python'a dönelim ve tamamlamamıza izin verelim.

06:41.980 --> 06:44.920
Ve ne yineleyici değişken olacak.

06:45.070 --> 06:47.820
Bu 10 basamaklı serimiz olacak.

06:47.890 --> 06:55.510
10 geçiş dizisinden oluşan 10 geçiş dizisini temsil eden bu değişken seriyi arayacağız.

06:55.600 --> 06:58.820
10 geçiş dizimizi biliyorsunuz, bu yüzden

06:58.860 --> 07:00.910
Yani diziler için.

07:01.210 --> 07:02.400
Ve sonra ne düşünüyorsun.

07:02.620 --> 07:05.570
Peki dizi bizim partimize düşecek.

07:05.680 --> 07:12.040
AI topluluğundaki seri ve benzerlerini, giriş topluluğumuzdaki 10 geçiş serisi için

07:12.040 --> 07:14.540
eğitecek olan partiler var.

07:14.800 --> 07:20.710
Peki kümülatif bir ödül almak için nereye gideceğiz, silisin içinde serinin

07:20.950 --> 07:26.560
ilk geçiş devrine ve serinin son geçişinin durumuna ihtiyacımız olduğunu göreceksiniz.

07:26.740 --> 07:33.040
Şu anda yapmamız gereken şey, bu girdi durumlarını almak ve bu yüzden bu iki durumu,

07:33.130 --> 07:39.380
girdi çağrısı yapacak olan canlı bir hale getireceğiz ve bu iki girdi durumunu alacağız.

07:39.400 --> 07:46.590
Dizinin ve pilot olmayan diziye koyacağımız son dizinin ilk ama endişelenmemesi bununla kalmayacak ve

07:46.800 --> 07:51.880
Ampira elbette bunu korkunç bir hale dönüştürüyor ancak ilk adım

07:51.880 --> 07:56.930
bu iki şeyi koymaktır sonuncusu birincisi bir imparatorluğa dönüştürür.

07:57.240 --> 08:03.850
girişi ekledik ve sonra onu bir geçiş için alıp, ilk geçişin serisinin

08:03.850 --> 08:10.820
sıfır dizini sıfır alıp sonra bizlere durumun özelliklerini alarak erişebiliriz, çünkü deneyim tekrarlama

08:10.820 --> 08:17.780
dosyamızda geçişin her biri için özel bir yapı buldunuz ve yapıyı biliyorsunuz.

08:18.290 --> 08:24.200
Ve burada bu dizide, dizinin ilk geçişinin girdi aşamasındaki ve diziyle

08:24.440 --> 08:25.660
olan ilk

08:25.730 --> 08:29.380
Her geçiş bir devletten bir eylem kelimesinden oluşur.

08:29.570 --> 08:34.970
Fakat o zaman, şu anda kullanılmasına izin verilen bu özel yapının yapılacağı

08:35.240 --> 08:39.250
son unsur, geçişi tanımladığımız ve tecrübeyi tekrar edinmemizden kaynaklanıyor.

08:39.290 --> 08:45.380
Pekâlâ, bu yüzden ilk geçişin giriş durumunu elde edelim ve şimdi

08:45.380 --> 08:48.640
serinin son geçiş aşamasını da alalım.

08:48.800 --> 08:57.200
erişebildiğimiz dizinin son dizini tarafından eklendiğinde olduğu gibi son girdi durumunu alacağını söylemek gerekir serinin geçiş.

08:57.200 --> 09:04.040
Bunu yapmak için bunu sadece kopyalayıp yapıştırıp şu an olduğu gibi, bu hünerle

09:04.100 --> 09:07.420
eksi bir seriden eksi bir tanesine

09:08.210 --> 09:16.310
Pekâlâ, bu iki unsuru köşeli ayraçların içine koymamız gerekir çünkü hakem tarafından bir

09:16.310 --> 09:23.120
işlevi beklemekte ve ardından bunu meşale değişkeninde meşale cevabına dönüştürmek için

09:23.210 --> 09:26.140
önemli bir şey yapmamız gerekiyor.

09:26.330 --> 09:31.810
Bir meşale tansörünün tanım gereği tek bir tip içeren özel bir dizinin olduğunu unutmayın.

09:31.940 --> 09:34.640
Bu yüzden tek bir türe sahip olmaya zorlamamız lazım.

09:34.760 --> 09:42.020
türünü seçeceğiz ve böylece bu parametreyi buraya ekleyerek D türü eşittir ve P float.

09:42.750 --> 09:45.030
Ve her zamanki gibi, float

09:45.320 --> 09:52.380
Böylece bunu alabilirsin ve şimdi bunu meşale ses tonusunda bir meşale tensörüne dönüştürebiliriz.

09:52.550 --> 09:54.640
O halde bunu bunu yapalım.

09:54.770 --> 09:57.470
İlk önce bunu bir meşale algılayıcısına dönüştürelim.

09:57.590 --> 10:06.880
Unutmayın ki, gittikçe asal olmamış olan torch'u kullanabiliriz ve iki girdi durumunun tüm dizisini bu meşale dansçısının

10:06.900 --> 10:15.180
içine koyuyoruz, bu meşale ile, iki giriş durumunun bu dizilerini bir meşale haline getirecek mükemmel

10:15.250 --> 10:18.230
bir işlevle onlardan alıyorlar. sensörü.

10:18.420 --> 10:26.560
değişken sınıfı kullanarak çok iyi meşale haline getirdik, böylece girdi değerli sınıfın bir nesnesi olacaktı.

10:26.560 --> 10:28.400
Ve şimdi bu meşaleyi

10:28.480 --> 10:35.380
Aslında bu değişken sınıfın tüm bunları bir argüman olarak algıladığını ve bu nesneyi

10:35.380 --> 10:36.680
yarattığını anladığınız gibi.

10:36.680 --> 10:38.420
Pekala şimdi iyi olmalıyız.

10:38.450 --> 10:41.000
İhtiyacımız olan iki girdimiz var.

10:41.000 --> 10:45.440
Bu, ilk geçişin giriş durumudur ve daha sonra girişin son geçiş olduğunu söyler.

10:45.770 --> 10:51.890
Ve ţimdi ţimdi girdilerimiz var Elimizdeki AI beyninin çýkýţ sinyalini alabileceđimiz ne elde

10:51.890 --> 10:52.560
edebiliriz.

10:52.640 --> 10:56.160
Çıktıklarını söyleyeceğimize dair tahmin budur.

10:56.630 --> 10:57.950
Çıkış sinyali budur.

10:58.130 --> 10:59.280
Ve çıktıları almak için.

10:59.330 --> 11:04.670
Şimdi çok kolay, çünkü konvolüsyonel sinir ağımız olan bir beyne zaten sahip

11:04.670 --> 11:05.330
olduk.

11:05.570 --> 11:14.120
Ve böylece sadece beyin CNN'imizi girdilere uygulayabilir ve bu da çıktı olan tahmini basit

11:14.120 --> 11:16.650
bir şekilde geri getirecektir.

11:16.820 --> 11:19.510
Ve şimdi bir sonraki adıma geçmeye hazırız.

11:20.730 --> 11:24.890
Ve bir sonraki adım, isterseniz bu topluluğu hesaplamaya başlamaktır.

11:25.090 --> 11:30.690
Şimdi, Sarsour algoritmasıyla aynı şeyi yapacağız ya da ona seslenelim ve

11:30.760 --> 11:32.300
öğrenmeye adım atalım.

11:32.290 --> 11:39.990
Kümülatif ödül olacak kümülatif ödül değişkenini tanıtacağız, şimdi burada görebileceğiniz topluluk ödülünü

11:39.990 --> 11:45.120
kazanmak için yapmamız gerekenleri görebildiğiniz şekilde gazeteye geri

11:45.210 --> 11:46.000
dönelim.

11:46.170 --> 11:53.160
ve çalışması, serinin son aşamasına ulaşsaydık, ya da en son aşamaya gelmediysek, bu

11:53.160 --> 11:59.910
topluluğa sıfır ekleyerek onu güncellememiz gerekir. süren tüm statikler için olan seri.

12:00.000 --> 12:03.410
10 aşamalı adımın her bir adımı

12:03.750 --> 12:05.890
Bu sadece bir bonanza.

12:06.000 --> 12:07.580
Piscean'a geri dönelim.

12:07.650 --> 12:16.490
Dolayısıyla, gördüğümüz gibi bu topluluk ödülü, son duruma ulaştıysak sıfıra sıfır noktasına eşit olacak

12:16.490 --> 12:23.070
ve dizin eksi 1 serisi bu durumu bu şekilde yazabiliriz.

12:23.070 --> 12:25.940
Serinin son geçişi budur.

12:26.250 --> 12:32.280
ara geçiş yapısını bildiğiniz bir özelliktir çünkü bu aslında faul açılış

12:32.280 --> 12:38.400
yapılarından kaynaklanmaktadır ve aslında yapılan açık Allergan web sitesine gidersek burada hazırladım.

12:38.400 --> 12:44.550
O zaman bunu tamamladık çünkü bitti aslında deneyimimizde oynadığımız tecrübeyle oynadığımız

12:44.550 --> 12:45.240
bu

12:45.280 --> 12:47.160
Bu iyi veya vizir.

12:47.340 --> 12:52.300
Ve eğer belgelere gidersek, o zaman eğer biz.

12:52.380 --> 12:55.240
Öğreticisiniz, gerçekten ona bir göz atmanızı öneririm.

12:55.470 --> 13:01.530
Knowsley'nin gördüğünüz gözlemlerin bir gözlem ile tanımlandığını görebileceğiniz

13:01.950 --> 13:04.690
bir ortam çalıştırabilirsiniz.

13:04.790 --> 13:12.150
Bunun burada yapılması ve bu yapılmasının tam olarak bir geçişin veya bir adımın bittiği anlamına gelir.

13:12.150 --> 13:15.440
Ve işi burada yaptığımız IF durumumuz için kullanacağız.

13:15.610 --> 13:23.460
Bu sebeple iSeries çılgınlığı, serinin son geçişi bitti demektir.

13:23.730 --> 13:29.290
Ve bu serinin son geçişi tamamlanırsa bu birikimli ödül sıfıra eşit olacak.

13:29.330 --> 13:37.290
Aksi takdirde, son geçişe ulaşamadıysak, birikimli ödül, anahtar

13:37.290 --> 13:40.950
değerlerin maksimumu dedikçe güncellenecektir.

13:41.220 --> 13:47.460
Ve buradaki çıktı, beyindeki sinir ağı tahminleri olan çıktısı olduğu için.

13:47.520 --> 13:53.640
Ve bildiğiniz gibi, sinir ağı tahminleri tahmin edilen değerlerdir. Bu çıktı

13:53.920 --> 13:55.040
değerler içerir.

13:55.110 --> 14:01.130
Ve q değerlerinin maksimum değerini almalıyız çünkü bu yapı iki anahtar değer ve bir sonraki

14:01.130 --> 14:04.620
değer içerdiğinden önce bu indeksi ilk önce eklemeliyiz.

14:04.620 --> 14:07.830
Ve sonra verilere erişmek için veri eklemeliyiz.

14:07.830 --> 14:12.150
Bildiğiniz bu çıktı yapısı, bir meşale seslendirme özel yapısına sahiptir.

14:12.270 --> 14:17.910
Böylece, temel değerlerimizi elde ederiz ve daha sonra ipucu değerlerimizin maksimumunu almak

14:17.910 --> 14:20.470
istiyoruz ve bu yüzden Max'ı ekliyoruz.

14:20.490 --> 14:27.820
Ve şimdi, tam olarak kastedilen şeyleri terminalde olmayan Devletler için küp değerlerinin maksimumu olarak

14:27.820 --> 14:30.240
kağıtta istediğimiz gibi elde ederiz.

14:30.280 --> 14:33.460
Ve şimdi ne yapacağız ikinci kat kat yapmak.

14:33.930 --> 14:40.830
Bu serinin 10 basamağı için, kümülatifin, ilk önce Gamma ile çarpılarak elde ettiğimiz çürüme parametresinin

14:40.830 --> 14:46.170
çarpımı ile bu şekilde gittiğini ve daha sonra B kelimesini ekleyeceğini güncelleyeceğiz.

14:46.410 --> 14:47.540
O halde bunu yapalım.

14:47.610 --> 14:52.260
Aslında sağdan başlayacaklarını fark edebileceğiniz gibi, sözde kodla aynı şekilde

14:52.260 --> 14:52.970
yapacağız.

14:53.040 --> 14:59.010
Bu nedenle, ilk adımdan başlamıyor ve son adımla başladıkları son sınava giriyorlar.

14:59.040 --> 15:02.280
T-eksi 1, başlamak için ilk adım.

15:02.340 --> 15:06.520
İşte tam olarak bunu yapacağız ve bunun nedeni, kümülatif

15:06.610 --> 15:15.840
ödüllerin eşitliklerine eşit olması veya sıfır artı gama veya 1 artı gama kare veya iki artı eklenen artı gama

15:15.840 --> 15:24.420
ile eşit olan 10 veya 10 gücüne ulaşmak istediğidir 1 veya 2 olan 10'dur, serinin her adımında elde

15:24.420 --> 15:25.580
edilen sözcüktür.

15:25.590 --> 15:29.870
Bu yüzden, ikinci tam döngüye başlamadan önce hızlı bir mola verelim ve sizi sonraki öğreticide göreceğim.

15:30.030 --> 15:31.530
O zamana kadar AI zevk.