WEBVTT

00:00.650 --> 00:05.690
Merhaba ve kursuna hoş geldiniz, önceki bölümde başladığımız derin öğrenme Killary

00:05.750 --> 00:08.360
sezgisiyle ilgili konuştuğum bir bölüm.

00:08.360 --> 00:14.900
Aslında biz aslında bu kısma giden yolumuz var ve öğrenme konusundan bahsettik

00:14.900 --> 00:18.200
ve şimdi gerçek oyunculuk bölümüne geçeceğiz.

00:18.200 --> 00:22.250
Dolayısıyla, hatırlamak zorunda olduğumuz farklı parçaların iki parçası var.

00:22.250 --> 00:25.520
Öğrenme kısmı bu, fakat şimdi bütün bunlar bitti.

00:25.520 --> 00:26.390
Bu çok güzel.

00:26.390 --> 00:30.500
vermek zorunda olduğu bir harekete geçmek zorunda, bir iki üç ya da dört eylem yapmaya gidiyor.

00:30.500 --> 00:31.710
Şimdi aslında ne yapacağına karar

00:31.740 --> 00:32.860
Peki bunu nasıl yapıyor.

00:33.020 --> 00:39.370
Peki o yaptığı şu anda aynı değerleri veriliyor, böylece değerler bu değerleri değiştirdikten sonra değiştirmiyor.

00:39.370 --> 00:43.430
Calcott'u kahredici çağa göre karşılaştırıyoruz, ancak ağırlıkları güncelledik, ancak

00:43.430 --> 00:45.950
değerler güncellenmedi. Bütün bu süreci değiştir.

00:45.990 --> 00:47.410
Orada küp değerlerini elde etmek için.

00:47.430 --> 00:48.380
Düzeltilmişler.

00:48.380 --> 00:49.440
Ne olduklarını biliyoruz.

00:49.440 --> 00:50.480
Tüm bunlar olsa olur.

00:50.510 --> 00:53.820
Ağlar, sahip olduğumuz bu değerleri kullanarak güncellendi ve çıktı.

00:53.960 --> 00:58.600
Yapacağımız, bunları yumuşak bir maksimum işlevle ayrıştırmamız.

00:58.610 --> 01:00.580
Ve yine yumuşak Max tarif edildiği gibi.

01:00.620 --> 01:05.160
Sanırım bir ek 2 ve biraz daha yumuşak maks. Konuşacağız.

01:05.180 --> 01:12.070
Aşağıda daha ayrıntılı olarak bu bölümün geri kalanında bu eylem seçim politikası hakkında konuşacağız.

01:12.140 --> 01:13.610
Dolayısıyla sadece birkaç öğreticide.

01:13.730 --> 01:17.270
Ancak şu an yumuşak bir sonraki işleve geçeceğimizi söyleyeceğiz.

01:17.270 --> 01:22.150
Temelde ne yapar, mümkün olan en iyi eylemi seçtiği en iyi olanın seçilmesine yardımcı olmasına izin verir.

01:22.250 --> 01:23.650
Ve bunun için küçük bir uyarı var.

01:23.660 --> 01:26.120
Bu sadece en iyi olan değil.

01:26.120 --> 01:28.940
Bu konuda eylem seçim politikası dersinde konuşacağız.

01:28.940 --> 01:35.890
Ama şimdi şunu söyleyelim ki burada en iyi eylemi seçer, tamam diyor, böylece Q1 olasılığını biliyorsunuz.

01:36.140 --> 01:41.960
Temel olarak, Q değerlerinin Q değerini tahmin ettiğini biliyoruz; böylece Q değerini öğrenme algoritmasında

01:41.960 --> 01:46.280
yaptığımız gibi, onlara bakabilir ve bunlardan en yüksek Q değerini söyleyebiliriz.

01:46.280 --> 01:50.240
en üst seviyedeki değerler diyerek bakıyorum, bunları seçeceğim eylemi seçeceğim.

01:50.240 --> 01:50.860
Bunların hepsine

01:50.900 --> 01:52.180
Ve bu neredeyse öyle.

01:52.220 --> 01:57.300
Bu, aldığı aksiyon işleminin gerektirdiği işlemi seçer ve bu süreçlerin tümü tekrarlanır.

01:57.290 --> 02:02.120
Bir sonraki aşamada, aracı durumumuzda ve labirentin bir sonraki karesinde sona eriyor.

02:02.120 --> 02:04.540
Ancak genelde sonraki devletin konuşması.

02:04.640 --> 02:05.420
İşte gidiyoruz.

02:05.420 --> 02:14.660
İçinde bulunduğumuz durumu açıklayan bir vektör aracılığıyla bir güçlendirme öğrenme problemini sinir

02:14.660 --> 02:16.160
ağına besleriz.

02:16.160 --> 02:17.510
Ve bir kere ona uyduğumuzda.

02:17.510 --> 02:22.210
Bu süreçte meydana gelen iki kısım var Birinci öğrenme.

02:22.400 --> 02:26.840
Bu nedenle küp değerlerinin her birini hedefle karşılaştırdığımız kısmı hatırla ve

02:26.840 --> 02:32.360
daha sonra ağırlığı güncellemek için kaybı ağ üzerinden yayarız, böylece ağımız bu labirenti geçerken

02:32.360 --> 02:34.830
ya da bu ortamda öğrenir öğrenir.

02:35.210 --> 02:41.120
Ayrıca ikinci bölüm elbette bir eylem seçmek zorundayız ve bu değerleri yumuşak bir maksimal

02:41.120 --> 02:46.880
işlevle geçirdiğimiz veya temel olarak daha aşağılarda bahsedeceğimiz bir eylem seçim politikası olduğumuzdan

02:46.880 --> 02:48.330
hareket etmek zorundayız.

02:48.470 --> 02:53.570
Ve sonra almak istediğimiz eylemi seçip bu eylemi gerçekleştiririz ve daha sonra bu

02:53.570 --> 02:54.580
işlem tamamlanır.

02:54.770 --> 02:59.570
Ve sonra belki de ajan belki alır, belki ajan oyuna engel değildir.

02:59.630 --> 03:01.250
Her durumda oyun sona erer.

03:01.250 --> 03:08.270
Ve sonra bir kez daha tüm süreç ajan tekrar tekrar tüm oyunu oynar ve o zaman bu temelde

03:08.270 --> 03:14.460
durdurur, bu aferin bir iyilik ile biten bir havaalanı bittiğinde her zaman bildiğiniz ajan her zaman

03:14.460 --> 03:16.680
başka bir havaalanı olduğu durur.

03:16.700 --> 03:19.560
Ve sonra tekrar başlar ve tekrar başlar ve tekrar başlar.

03:19.790 --> 03:20.420
Ve bunun gibi.

03:20.420 --> 03:26.810
Böylece bu gerçekleşir ve bu işlem her zaman yeni bir durumdadır, böylece devlet buraya

03:26.810 --> 03:32.240
kodlanır böylece sadece oynadığı her oyun için değil, her bir devlet için

03:32.240 --> 03:33.020
önemlidir.

03:33.020 --> 03:38.030
Bu yüzden, süreç tarihlerine kadar devam eden ve her seferinde olan bir durumda.

03:38.150 --> 03:41.410
Böylece öğrenme olur ve oyunculuk olur.

03:41.720 --> 03:47.090
Bu derin öğrenmenin ardındaki sezgide derin öğrenme.

03:47.090 --> 03:54.200
var, elbette pratik ve bu arada, öğrenmeyi sürdürmek hakkında ek bilgi almak isterseniz.

03:54.410 --> 03:56.720
Korumamız gereken çok şey

03:56.720 --> 04:05.200
Arthur Giuliani'nin blog gönderileriyle ilgili daha önce konuştuğumuz üzere önerilen bir okuma var.

04:05.210 --> 04:12.590
Eğer basit gayrı öğrenme Lifton'un akış kısmı 4'e bakarsanız, bugün tartıştığımız konuyla alakalı

04:12.590 --> 04:14.260
bir bölüm bulacaksınız.

04:14.270 --> 04:21.170
Burada, bu bölümdeki devrimleri kapsamadığımız kıvrımlardan bahsederken, bir sonraki bölümde

04:21.170 --> 04:23.650
onlar hakkında konuşacağız.

04:23.720 --> 04:28.880
Burada farklılık, şu an için sadece sonuç bölümünü atlamaktan ibarettir ve

04:28.880 --> 04:32.850
bunlardan sonraki bölümde bahsedeceğiz ancak aradaki fark evrimlerdir.

04:32.850 --> 04:39.170
Ajanın görüntüye baktığını görmek gibisin ve bu nedenle şu an için kademeli olarak

04:39.170 --> 04:43.540
kademeli olarak bir görüntü oluşturan bir görüntüyü işlemek zorundayız.

04:43.580 --> 04:50.060
Şimdilik çevremizi kodluyoruz, burada çevremizi kodlıyoruz ya

04:50.060 --> 04:58.700
da muhtemelen çevremizi kodlamak için buna bakacağız, ajan vektör olarak.

04:58.700 --> 05:01.330
Dolayısıyla bizim durumumuzda çok basit vektörel vektörler vardı.

05:01.490 --> 05:06.190
Bazen insanlar bile o kadar basit ki bazen ya da bu blog yazısından göreceksiniz.

05:06.290 --> 05:10.180
Bazen insanlar o eyaletin bir sıcak ve kodlu versiyonunu tercih ederler.

05:10.180 --> 05:13.380
Temel olarak nerede labirentin her kutusunda bir tane var a.

05:13.620 --> 05:17.780
Dolayısıyla, boş bir vaka için vektörün üç dörtlük 12 değer olacağını düşünüyorsunuz.

05:17.800 --> 05:22.130
Bu nedenle, hangi öğelere ve kutunuza bağlı olduğunuza göre 1 veya 0 gibi değil.

05:22.160 --> 05:22.990
Çevrede.

05:23.060 --> 05:29.900
Ortamınızı ve çevrenizin kodlamasına hangi şekilde karar veriyorsunuz? Kodlamada bu temelde

05:29.900 --> 05:31.520
bir vektör.

05:31.520 --> 05:36.410
Buradaki anahtar, bunun bir konvolüsyon değil olmasıdır Yani bir görüntü gibi değil ve konvolüsyon voltu yok

05:36.410 --> 05:37.810
Bu bölüm daha sonra gelecektir.

05:37.820 --> 05:43.410
Bizim için burada başlıyor ve bu, yavaş yavaş daha iyi anlamamız için süreci basitleştiriyor.

05:43.550 --> 05:49.130
Ve elbette bu postanın kaba ve eğilimli olduğunun unutulmaması ve öğreticilerimizde pi

05:49.130 --> 05:50.090
torche kullanıyoruz.

05:50.090 --> 05:51.910
Umarım bu hoşunuza gidiyor.

05:51.920 --> 05:59.220
Derin konvolüyonlu, derinlikli henüz derin bir kitap öğrenmeye hızlı bir giriş.

05:59.310 --> 06:02.910
Ve o notada sizi sonraki görüşeceğimi umuyoruz.

06:02.930 --> 06:05.430
Ve o zamana kadar yapay zekanın tadını çıkarın.
