WEBVTT

00:00.760 --> 00:02.520
Merhaba ve Statoil'e hoş geldiniz.

00:02.830 --> 00:10.050
Böylece şimdi temsilci araştırmalarını tamamladı ve sonra ne yapmak istediğinde paylaşılan ağın güncellenmesi.

00:10.240 --> 00:17.050
Yapacağımız ilk şey, onu sermayemiz R olarak adlandıracağımız kümülatifi başlatmak ve bunu bir

00:17.070 --> 00:25.180
meşale tensörü olarak başlatacağımız ancak tek bir boyuta sahip olacağımız, çünkü bu sadece bir değer, ancak

00:25.180 --> 00:27.710
istedik bir tensör olmak için.

00:27.940 --> 00:33.460
Ve ben burada sıfırlar ve daha sonra 11 kullanıyorum.

00:33.790 --> 00:37.230
Bu nedenle, temel olarak toplu ödül 0 olarak başlatılır.

00:37.610 --> 00:43.870
Tamam, oyunun bitip bitmediğini söylersek söyleriz.

00:43.870 --> 00:50.200
Şu an istediğimiz, paylaşılan ağın ulaştığı son ticaretin değerine eşit

00:50.200 --> 00:51.750
kümülatif ödül.

00:51.820 --> 00:54.400
Bu yüzden, değer çıktısını alacağız.

00:54.460 --> 01:00.870
Modelimizin fonksiyon çıktılarının değerini biliyorsunuz ve bu çalışma yaptığımız topluluğa vereceğimiz

01:00.870 --> 01:01.490
değerdir.

01:01.780 --> 01:05.500
Öyleyse ilk önce bu değeri elde edebileceğimiz değeri elde edelim.

01:05.560 --> 01:12.820
altına alıp tekrar vurgulayalım ve sonra modelimizi elde ederiz çünkü bu değer çıktılar, ancak

01:13.240 --> 01:19.980
ahlaki şeyin ilk çıktısı burada ve burada çift olur Yaptığımız şeyi buraya kopyalayabiliriz.

01:19.980 --> 01:25.310
Değer Sonra bundan sonra biliyoruz ki, burada ekleyebileceğimiz değeri altçizgi

01:25.430 --> 01:33.050
Bu, modelin girdi görüntüleri ve devletlerin çekilmesi ve Güney eyaletleri ile girişi.

01:33.220 --> 01:35.820
Bu yüzden sadece yapıştırıyorum ve oraya gidiyoruz.

01:35.860 --> 01:37.490
Bu değeri alacağız.

01:37.810 --> 01:47.080
Ve şimdi şimdi yapacağımız şey, değerimize değer vermek ve herkesin değerine eşit olmasını sağlamak ve orada

01:47.080 --> 01:49.350
başta gelen değere ulaşmaktır.

01:49.750 --> 01:50.430
Tamam.

01:50.440 --> 01:57.610
çıktısını modelin ilk çıktısını elde etmenin bu yeni değeri zaten değerler listesine eklediğini bilirsiniz.

01:57.670 --> 02:04.090
Şimdi if koşulu yapılır ve şimdi yeni bir değer elde ettiğimizden beri ne

02:04.090 --> 02:05.330
yapacağımıza göre, modelin

02:05.500 --> 02:16.340
Dolayısıyla doğrudan değerler listemizi alıp bir çadıra doğru yönlendirebiliriz ve değişken koyarız çünkü bizim.

02:16.530 --> 02:20.560
Bu son değer o kadar harika ki şimdi bitti.

02:20.850 --> 02:25.180
Kayıpları baştan başlayacak ve sezgisel dersleri hatırlayacağız.

02:25.260 --> 02:26.320
İki kayıpınız var.

02:26.340 --> 02:31.780
Acentenin öngörüleriyle ilgili en son politika sahibisin.

02:31.860 --> 02:36.070
Ve eleştirmenin öngörüleriyle daha az ilişkili olan değerin sonuna sahipsiniz.

02:36.180 --> 02:41.130
Dolayısıyla, bu iki değişkeni sıfıra ilklendirerek tanıtacağız ve burada bizim

02:41.250 --> 02:44.600
için korkunç politika kaybı politikasını alacaklardır.

02:44.690 --> 02:52.680
Onu sıfıra getirin ve ardından değeri çok kaybetti ve sıfıra sıfırdan başlatın, sonra biriktirici ödülü bir

02:52.680 --> 02:58.680
meşale değişkeni olarak ayarlamayı unutma diyelim, çünkü bir meşale olmaya ihtiyaç duyarız.

02:58.680 --> 03:03.990
Roybal, çünkü bir eğim hesaplayacağız. Buna göre birikimli ödül, değer kaybının

03:03.990 --> 03:05.850
bir dönemi olacak.

03:05.850 --> 03:10.050
Dolayısıyla bu geçerli bir degrade ile dinamik grafiklerle ilişkilendirilmiştir.

03:10.530 --> 03:16.150
tahminleri ve hedefleri arasında bunu en aza indirgemek için güneş altında gaz indirgeme uygulamak istediğimizi biliyorsun.

03:16.170 --> 03:20.580
Ve nihayet, büyük eğilim döngüsüne başlamadan önce yapmamız gereken en son şey,

03:20.850 --> 03:28.160
GAAP'yi genelleştirilmiş avantaj tahminine başlatmalı ve elde etmemeli veya kaplamamalıyız.

03:28.260 --> 03:34.530
Şu anda başlatmak üzere olduğumuz GAAP'ye dikkat et, genelleştirilmiş avantaj

03:34.590 --> 03:35.510
tahminidir.

03:35.520 --> 03:42.480
Bir hatırlatıcı olarak, genelleştirilmiş bir avantaj tahmini, tanım gereği, a durumunu gözlemleyerek

03:42.540 --> 03:45.170
a eyleminin oynanmasının avantajıdır.

03:45.210 --> 03:51.330
Bu, eylemin ve durumun bir fonksiyonudur ve q değerleri Q A S

03:51.450 --> 03:54.780
ile V fonksiyonunun değeri arasındaki farka eşittir.

03:54.780 --> 03:57.120
Aslında burada yazabilirim.

03:57.540 --> 04:05.130
Genelleştirilmiş avantaj tahmini, işlemin ve durumun bir fonksiyonudur ve bu, A işleminin

04:05.580 --> 04:12.570
q değerlerine eşittir ve durum S, duruma uygulanan V fonksiyonunun değerinden

04:12.650 --> 04:13.440
çıkarılır.

04:13.530 --> 04:19.000
Sözü edilen genelleştirilmiş avantajlar budur ve şimdi şu anda başlatmak istediğimiz şey budur.

04:19.200 --> 04:20.770
Ve bunu sıfıra başlatacağız.

04:21.470 --> 04:27.320
gibi aynı hünerini kullanacak olan dansçılara doğru olmalı, burada meşale kütüphanesini

04:27.730 --> 04:35.330
alıp, sıfır olan tek bir değeri tensör olarak ayarlamak için zebra'nın işlevi için başvuracağız.

04:35.330 --> 04:36.730
Ancak burada yaptığımız

04:37.160 --> 04:45.730
Ve bu yeni değişkeni g kullanacağız ve bu, 1'i sıfıra indiren o meşale ile eşit

04:45.740 --> 04:46.540
olacaktır.

04:46.550 --> 04:52.730
Dolayısıyla bu sıfıra başlatılacaktır ve bu nedenle, devletin s eyleminin q değerleri,

04:52.730 --> 04:55.600
devletin V işlevinin değerine eşit olacaktır.

04:55.780 --> 04:56.290
Tamam.

04:56.320 --> 04:58.810
Ve şimdi for döngüsünü başlatmaya hazırız.

04:58.850 --> 05:00.470
Yani burada bir maceramız olacak.

05:00.500 --> 05:04.700
Bu yüzden iyi bir mola verin ve size saldırmak için sonraki öğreticide görüşürüz.

05:04.820 --> 05:06.170
Ve sonra ben.
