WEBVTT

00:00.600 --> 00:02.490
こんにちは､ このチュートリアルにようこそ｡ 

00:02.580 --> 00:09.980
さて､ エージェントは探索を終えて､ これから行うのは共有ネットワークの更新です｡ 

00:09.990 --> 00:14.770
そこで､ まず最初に累積報酬を初期化します｡ 

00:14.790 --> 00:22.320
これを我々の資本Rと呼ぶことにし､ トーチテンソルとして初期化することにする｡ 

00:22.470 --> 00:25.920
しかし､ それは単なる値なので､ 1つ1つ次元があることになります｡ 

00:25.920 --> 00:27.590
しかし､ 私たちはそれをテンソルにしたいのです｡ 

00:27.600 --> 00:33.330
それで､ ここではドット・ゼロと､ 1つの1を使用しています｡ 

00:33.510 --> 00:41.820
つまり､ 基本的に累積報酬はゼロに初期化され､ OC後､ まだ終わっていなければ同じです｡ 

00:41.820 --> 00:43.590
ゲームが終わっていなければの話ですが｡ 

00:43.590 --> 00:51.240
今欲しいのは､ 累積報酬が､ 共有ネットワークが最後に到達したセットの値に等しくなることです｡

00:51.630 --> 01:01.410
そこで､ モデルのV関数出力の値であるバリューアウトプットを取得し､ これが累積報酬に与える値となります｡

01:01.500 --> 01:03.810
では､ まずこの値を取得してみましょう｡ 

01:04.110 --> 01:11.400
このように値を得ることができます｡ それから､ 値だけが欲しいので､ ここにアンダースコアを追加して､

01:11.400 --> 01:19.590
もう一度アンダースコアを追加すれば､ この値が出力されるので､ モデルを得ることができます｡

01:19.620 --> 01:25.260
この二重のアンダースコアのおかげで､ ここにあるものをコピーペーストするだけでいいのです｡ 

01:25.290 --> 01:32.990
それが､ 入力と画像と隠れ状態のすべてとセルの状態を持つモデルの入力である｡

01:33.000 --> 01:37.320
だから､ それを貼り付けて､ そこで､ 値を取得するのです｡ 

01:37.620 --> 01:43.140
そして､ これから行うことは､ この値を私たちに与えることです｡ 

01:43.260 --> 01:47.670
だから､ すべての人が価値と価値へのアクセスについて平等である｡ 

01:47.670 --> 01:49.350
このデータをここに追加します｡ 

01:49.590 --> 01:50.220
わかりました｡ 

01:50.220 --> 01:57.240
さて､ if条件は完了しました｡ これから行うことは､ モデルの出力､ つまりモデルの最初の出力を取得することによって新しい値を得たので､

01:57.240 --> 02:05.250
この新しい値をすでに値リストに追加しておきましょう｡

02:05.250 --> 02:13.440
従って､ 値リストを直接取得し､ ドットを付加して､ 変数を入力することができる｡ 

02:14.560 --> 02:19.630
ああ､ 私たちはこの最後の価値を含んでいるので､ それは行われる偉大な｡ 

02:19.630 --> 02:25.090
あとは損失を初期化して､ 直観講義を覚えていく｡ 

02:25.090 --> 02:26.200
2敗しているんですね｡ 

02:26.200 --> 02:28.150
保険の損失がある

02:28.150 --> 02:31.630
それが､ エージェントの予測に関連する最後のものです｡ 

02:31.630 --> 02:36.010
そして､ 評論家の予測に関連する損失である価値の喪失があります｡ 

02:36.010 --> 02:39.640
そこで､ この2つの変数を導入し､ 0に初期化することにします｡ 

02:39.640 --> 02:46.420
したがって､ ここにpolicy first変数policy lossを取り､ ゼロに初期化し､ 次にvalue

02:46.420 --> 02:51.130
loss､ 価値の損失､ 同じようにゼロに初期化することにします｡

02:51.700 --> 02:57.820
それから､ 累積報酬は値損失の項になるので､ それに関する勾配を計算するため､

02:57.820 --> 03:05.650
合計変数にする必要があるので､ トーチ変数として設定することを忘れないようにしましょう｡

03:05.650 --> 03:09.670
この変数で､ ダイナミックグラフにグラデーションが付くようになったわけです｡ 

03:10.300 --> 03:15.610
そして最後に､ 大きな学習ループを始める前にしなければならないことですが､

03:15.610 --> 03:20.590
予測値と目標値の間の損失を減らすために､ この意味で確率的グリッドを適用する場合､

03:20.590 --> 03:28.120
一般化された優位性推定を初期化する必要があります｡

03:28.120 --> 03:29.170
その点には注意が必要です｡ 

03:29.170 --> 03:35.320
J 今､ 初期化しようとしている変数は､ 一般化された優位性推定です｡ 

03:35.320 --> 03:45.010
そこで､ 注意点として､ 一般化された優位性推定とは､ 定義上､ 状態を観察して行動Aを行うことの優位性である｡

03:45.010 --> 03:46.720
つまり､ アクションの機能ですね｡ 

03:46.720 --> 03:47.560
A そして､ 国も｡ 

03:47.560 --> 03:54.610
S そして､ それはQ値q a sとV関数の値との差に等しい｡ 

03:54.610 --> 03:56.680
だから実はここに書いてもいいんです｡ 

03:57.400 --> 04:07.330
一般化された優位性推定は､ 行動と状態sの関数aであり､ 行動のQ値に等しいものである｡

04:07.330 --> 04:08.260
A そして､ 国家｡ 

04:08.260 --> 04:12.580
Sからその状態に適用されるV関数の値を差し引いたもの｡ 

04:12.580 --> 04:18.940
S それが一般化された優位性推定で､ 今すぐ初期化したいものです｡ 

04:18.940 --> 04:20.770
そして､ それをゼロに初期化します｡ 

04:21.280 --> 04:22.930
でも､ 聖火台でないとダメなんです｡ 

04:22.930 --> 04:27.410
そこで､ 先ほどと同じ要領で､ ここにあるものを使用します｡ 

04:27.430 --> 04:36.640
これから､ トーチライブラリをゼロの関数を適用して､ ゼロという1つの値だけのテンソルとして設定します｡

04:36.970 --> 04:46.510
そして､ この新しい変数､ Gを導入します｡ これは､ ゼロに初期化されたトーチと同じになります｡

04:46.510 --> 04:48.550
そのため､ これはゼロに初期化されます｡ 

04:48.550 --> 04:50.710
そのため､ アクションのQ値も

04:50.710 --> 04:55.120
A そして､ ステータスのVファンクションの値と等しくなります｡ 

04:55.660 --> 04:56.170
わかりました｡ 

04:56.170 --> 04:58.630
そして､ これでforループを開始する準備が整いました｡ 

04:58.630 --> 05:00.340
だから､ ここで冒険をすることになるんです｡ 

05:00.340 --> 05:04.570
では､ しっかり休んで､ 次のチュートリアルでその攻略をしましょう｡ 

05:04.570 --> 05:05.710
それまではお楽しみに｡ 

05:05.710 --> 05:06.150
I.