WEBVTT

00:00.510 --> 00:03.280
こんにちは､ 人工知能のコースにようこそ｡ 

00:03.300 --> 00:10.440
今日のチュートリアルでは､ 資格トレースやステップQの学習と呼ばれるかなり複雑なチュートリアルをカバーするつもりです｡

00:10.440 --> 00:14.490
そして､ これは実用面で実装していくものです｡ 

00:14.490 --> 00:15.870
だから､ それをカバーする必要があるんです｡ 

00:15.870 --> 00:18.390
そして同時に､ かなり複雑なテーマでもあるのです｡ 

00:18.390 --> 00:24.840
そこで､ その直感を生かすために､ とても面白いアプローチをしているんです｡ 

00:24.840 --> 00:28.230
だから､ 今までとは違うアプローチを意識しているのがいいんです｡ 

00:28.230 --> 00:30.480
では､ その様子をご覧いただきましょう｡ 

00:30.480 --> 00:33.950
そこで､ まずは例を挙げて説明します｡ 

00:34.140 --> 00:42.240
このチュートリアルでは､ ある例を挙げて､ 適格性選択の威力を示し､ 物事の背後にある直感を与えてくれるでしょう｡

00:42.240 --> 00:48.750
それから､ 資格特性についてさらに掘り下げたい方は､ それについて読める最高の場所をお教えしましょう｡

00:49.230 --> 00:52.440
本の参考にはなるけど､ それ以外は｡ 

00:52.440 --> 00:54.690
なぜ､ 今までと違うかというと､ 最初にやるからです｡ 

00:54.990 --> 01:01.530
直感を掘り下げるというより､ 例を見て､ 話しているうちに直感がわかってくるという感じです｡

01:01.530 --> 01:03.090
というのが､ このチュートリアルへの私の希望です｡ 

01:03.090 --> 01:03.780
では､ 見てみましょう｡ 

01:03.780 --> 01:05.760
さてと､ こんな感じでいいかな｡ 

01:05.760 --> 01:13.570
ここでは､ 2つのエージェントが同じ環境をナビゲートしているわけですが､ この2つのエージェントがどのように機能するかを見ていきましょう｡

01:13.680 --> 01:16.020
まず1つ目は､ 当社のエリクシアトレイと連携することです｡ 

01:16.030 --> 01:24.360
2枚目は適格性トレースと連携し､ 1枚目より2枚目がパワーアップする理由がわかるといいんですけどね｡

01:24.360 --> 01:26.040
では､ 見てみましょう｡ 

01:26.070 --> 01:27.900
まずはこのエージェントから見ていきます｡ 

01:27.990 --> 01:33.900
そして､ その操作方法は､ これまでディープラーニングについて議論してきた方法と全く同じなのです｡ 

01:34.320 --> 01:40.110
つまり､ エージェントが一歩を踏み出す､ あるいは移動する､ アクションを起こす､ 新しい状態に移動する､ ということです｡ 

01:40.110 --> 01:41.610
一定の報酬を得ることになる｡ 

01:41.610 --> 01:50.460
その報酬をアルゴリズムにかけ､ このエージェントを動かしている､ あるいはこのエージェントの心の中で動いているニューラルネットワークを更新するのです｡

01:50.460 --> 01:54.810
基本的にはそうやって､ 新しい一歩を踏み出そうとする環境から学んでいるわけですね｡ 

01:54.810 --> 01:59.400
この新しい状態から､ ニューラルネットワークの指示に基づいて新しい行動を起こし､

01:59.400 --> 02:03.630
報酬を得て､ 更新を繰り返し､ それを続けていくわけです｡

02:03.720 --> 02:08.910
このエージェントは明らかに良い仕事をしてくれるでしょうし､ 以前の実用的なスコアのチュートリアルで見たように､

02:08.910 --> 02:15.270
ここではかなり良い結果を得ることができるでしょう｡

02:15.270 --> 02:22.110
さて､ このエージェントナンバー2､ ここにいる男ですが､ 彼は同じ環境をナビゲートします｡ しかし､

02:22.110 --> 02:24.930
彼は適格性追跡を使用します｡

02:24.930 --> 02:30.120
彼がやることは､ この場合､ どんなステップを踏んでも､ 4つのステップをファイルすることだ｡ 

02:30.120 --> 02:31.650
4つのステップを踏むそうです｡ 

02:31.650 --> 02:40.380
そして､ そのステップを踏んで初めて､ そのステップで得た報酬の合計を計算することになる｡

02:40.380 --> 02:42.660
そして､ 彼はそれを自分のネットワークに通す｡ 

02:42.660 --> 02:50.220
彼はそれを､ 意思決定プロセスを司るニューラルネットワークに通し､ そこからニューラルネットワークが学習していくのです｡

02:50.520 --> 02:51.990
では､ すぐにどれを？

02:51.990 --> 02:53.940
どっちが強いと思うとか｡ 

02:53.940 --> 02:58.980
一歩一歩､ ブラインドや暗闇をつつくような感じでやっている人｡ 

02:58.980 --> 03:01.340
そして､ 「よし､ 一歩踏み出してみよう､ どうなるか見てみよう」ということになるのです｡ 

03:01.350 --> 03:02.580
一歩踏み出して､ 何が起こるか見てみる｡ 

03:02.580 --> 03:03.900
一歩踏み出して､ 何が起こるか見てみる｡ 

03:03.900 --> 03:24.990
そして､ それが良いステップであったかどうかを判断するのです｡

03:24.990 --> 03:31.170
最初の人は､ このステップが良いか悪いかを判断するとき､ 自分が得る報酬だけを見ている｡

03:31.170 --> 03:34.200
だから､ 彼は環境が与えてくれる報酬によってのみ導かれるのです｡ 

03:34.200 --> 03:35.100
こちらも同じです｡ 

03:35.100 --> 03:38.850
彼は､ この環境がここで与えてくれる報酬によってのみ導かれているのです｡ 

03:39.450 --> 03:45.570
だから毎回､ 報酬､ 報酬､ 報酬というのが彼の唯一の羅針盤になっているんです｡ 

03:46.350 --> 03:51.720
しかし､ ここでは､ これらのすべてのステップを踏んだ後に､ 実際に評価することができます｡ 

03:51.720 --> 03:52.200
あ､ そうか｡ 

03:52.200 --> 03:53.730
だから､ ゴールまでたどり着いたんです｡ 

03:53.730 --> 04:00.450
このステップの組み合わせが良かったのか､ 全部良かったのか､ いやいや､ 火床に落ちてしまったのか､ いやいや､

04:00.450 --> 04:07.020
僕は､ 僕は､ 僕の車はゴールまで行けなかったのか､ 砂の壁を越えてしまったのか､ ドゥームのゲームに負けたのか､

04:07.020 --> 04:09.180
そんなところです｡

04:09.240 --> 04:15.480
そして､ このステップの組み合わせ全体が悪いと自分で判断し､ それよりも前のステップについては､

04:15.480 --> 04:23.190
より多くの情報を持っていて､ より多くの洞察力を持っている､ 非常に直感的なアプローチのようなものです｡

04:23.190 --> 04:27.450
これはまた､ ここで描いているよりもずっと複雑なテーマですが､ 直感的に理解できるようにしました｡ 

04:27.450 --> 04:32.400
例えば､ このステップを踏むと､ このステップには更新するための情報があるだけです｡ 

04:32.400 --> 04:34.890
この報酬から戻ってくる情報は､ ここにしかないんですね｡ 

04:34.890 --> 04:39.690
そして､ 今回のステップでは､ 2番目の正確なステップに､ より多くの情報があります｡ 

04:39.690 --> 04:41.670
わざわざ情報が入っているのですから｡ 

04:41.670 --> 04:45.090
では､ 4段階､ 5段階､ あるいはその他の段階を経て､ どのような結果になったのでしょうか？

04:45.300 --> 04:45.630
そうですね｡ 

04:45.630 --> 04:51.900
つまり､ これがその仕組みで､ なぜ適格性追跡と呼ばれるかというと､ このプロセスの間､ 彼はこの､

04:51.900 --> 05:00.000
何が起こっているかという累積報酬を見るだけでなく､ 累積損失､ そしてそのすべてがそこに伝搬されるからです｡

05:00.370 --> 05:03.730
でも実は､ 資格の痕跡があるんです｡ 

05:03.730 --> 05:05.000
だから､ エリフィカルトレースと呼ばれるのです｡ 

05:05.020 --> 05:23.010
アルゴリズムには痕跡が残されていて､ 「もし､ 罰が与えられて､ 負の報酬を得たとしたら､ どのステップがその罰の対象になる可能性が高いか」ということがわかります｡

05:23.020 --> 05:29.620
ですから､ この全体のパターンやステップの組み合わせが全体としてどうなっているかを知るだけでなく､

05:29.620 --> 05:32.440
資格の痕跡を残しておくのです｡

05:32.440 --> 05:36.250
ご褒美をもらったらどのステップを更新するのか？

05:36.460 --> 05:40.960
例えば､ ネガティブな報酬であれば､ 最終的に得たものに最も責任があるのはこのステップであることを示す適格性トレースがあるかもしれませんし､

05:40.960 --> 05:47.050
ポジティブな報酬であれば､ そのようなトレースがあるかもしれません｡

05:47.050 --> 05:51.580
繰り返しになりますが､ 私たちはアルゴリズムが追跡を助けてくれることを知っているかもしれません｡ 

05:51.580 --> 06:03.700
この適格性追跡アルゴリズムは､ 私たちが得たその報酬に基づいて､ どのようなステップやどのようなアクションが必要なのかが適格に更新されるように追跡するのに役立ちます｡

06:03.720 --> 06:05.560
だから､ エリフィカルトレースと呼ばれるのです｡ 

06:05.980 --> 06:08.800
それが､ エリフィケーショントレースの基本的な直感です｡ 

06:08.800 --> 06:18.100
そして願わくば､ この2つのエージェントの例から､ なぜ資格特性がそれほど強力になり得るのか､ かなり明白に､ あるいはかなり直感的に理解できるようになればと思います｡

06:18.100 --> 06:25.180
そして､ 約束通り､ もしあなたが適格性追跡やステップ学習の話題をさらに掘り下げたいのであれば､ 「Reinforcement

06:25.180 --> 06:31.960
Learning and Introduction」という素晴らしい本があります（Richard Sutton

06:31.960 --> 06:36.580
と Andrew Barto 著､ 1998年）｡

06:36.580 --> 06:40.710
第2版を作っている最中か､ もう認知度が上がっていると思いますが､

06:40.720 --> 06:49.270
強化学習の本としては一番一般的というか､ 一番人気というか､ 一番参照されているのはこれですね｡

06:49.270 --> 06:56.530
引用回数がとんでもなく多いんですよ､ 確か何万回とか｡ 

06:56.530 --> 07:00.910
そしてまた､ このために必要な章は第7章です｡ 

07:00.910 --> 07:05.740
そこで､ エリフィカシー・トレースを見るために､ それに関する章が設けられているのです｡ 

07:05.740 --> 07:12.040
第7章では､ フォワード､ バックワード､ エリフィカルトレース､

07:12.040 --> 07:18.280
そして時間的な差異について詳しく説明されています｡

07:18.280 --> 07:19.990
モンテカルロ法があるじゃないですか｡ 

07:19.990 --> 07:22.330
その間に資格の痕跡があるのです｡ 

07:22.330 --> 07:27.070
つまり､ 時間差からモンテカルロ法へのリンクが適格トレースなのです｡ 

07:27.070 --> 07:28.270
とても興味深いです｡ 

07:28.270 --> 07:31.540
たくさんの写真を読んで､ 私は本当に､ 本当に感謝しています｡ 

07:31.540 --> 07:34.030
とても直感的な説明です｡ 

07:34.030 --> 07:41.050
だから､ この本から人工知能や強化学習について学べることはたくさんあるんだ｡

07:41.050 --> 07:48.760
でも､ 具体的に言うと､ エリフィカルトレースは､ この本がエリフィカルトレースのための本なのか､ とても良いところみたいです｡

07:49.030 --> 07:56.500
そして､ 今日の2つ目の参考資料は､ アドロンが実践資料で紹介する､ ディープラーニング､ つまりGoogle Deep Mindの研究論文「Asynchronous

07:56.500 --> 08:05.050
Method for a deep reinforcement learning」のことです｡

08:05.050 --> 08:06.730
はい､ その紙です｡ 

08:06.730 --> 08:12.160
それは､ この講座のさらに下にあるa3cの論文がそうです｡ 

08:12.160 --> 08:14.230
だんだん近づいてきましたね｡ 

08:14.230 --> 08:18.280
そして､ お分かりのように､ 私たちはかなり興奮しています｡ 

08:18.280 --> 08:25.510
そこで､ この論文では､ 彼らがどのように適格性追跡を実装したのかについて､ 少し見ていきたいと思います｡

08:25.510 --> 08:29.020
だから､ もっと実用的な使い方をすることになるんです｡ 

08:29.110 --> 08:35.800
今日のチュートリアルを楽しんでいただき､ 適格性トレースに少し慣れていただけたなら幸いです｡

08:35.800 --> 08:37.210
それまではお楽しみに｡ 

08:37.210 --> 08:37.780
I.