WEBVTT

00:00.990 --> 00:04.140
こんにちは､ 人工知能の講座にようこそ｡ 

00:04.140 --> 00:07.110
今日は生前退位についてです｡ 

00:07.440 --> 00:07.800
わかりました｡ 

00:07.800 --> 00:09.690
ここで､ ベルマン方程式が出来上がりました｡ 

00:09.690 --> 00:15.900
そして､ このコースを進めていくうちに､ 少しずつ複雑になってきました｡ 

00:15.900 --> 00:19.890
ここまでで､ すでにこの確率は追加されています｡ 

00:19.890 --> 00:22.670
また､ 値引き要素も加えています｡ 

00:22.680 --> 00:27.780
では､ 報酬があるこちら側をもう少し詳しく見ていきましょう｡ 

00:27.930 --> 00:33.840
さて､ 以前､ 強化学習の仕組みについてお話したときに､ エージェントがいて､

00:33.840 --> 00:40.440
それが環境中で行動を起こし､ その対価として､ あるいは結果として､ 新しい状態を獲得し､

00:40.440 --> 00:45.060
その行動に対する報酬を得るという話をしましたね｡

00:45.390 --> 00:51.630
さて､ これまでの例では､ 最後の最後に報酬を得るだけでした｡ ゴールするか､

00:51.630 --> 00:58.590
エージェントが火の海になったら､ プラス1かマイナス1の報酬を得ることができます｡

00:58.680 --> 01:02.640
しかし､ それは強化学習に対する非常に単純なアプローチです｡ 

01:02.640 --> 01:09.720
また､ より現実的なシナリオでは､ 最後の最後だけでなく､ 旅の途中でも報酬が得られる可能性が高いでしょう｡

01:09.720 --> 01:11.310
旅の途中でご褒美があるかもしれませんね｡ 

01:11.310 --> 01:20.400
例えば､ ゲームの中でのAIのプレイで､ 例えば「Doom」で誰かを撃つような場合､ その敵を倒すとポイントが入るかもしれませんし､

01:20.400 --> 01:30.090
別の別のゲームで､ 他の車を追い抜くとか､ そういうことがあるかもしれませんね｡

01:30.090 --> 01:35.340
ただ､ ゲームのルールのせいで､ その分析方法が違うだけです｡ 

01:35.340 --> 01:43.080
でも､ 実はこのゲームは､ ゲームオーバーになる前から､ ある行動をするとポイントがもらえるという仕組みが強化されているんです｡

01:43.320 --> 01:48.180
だから､ そういうシナリオはゲームだけでなく､ 現実の世界でもよくあることなんです｡ 

01:48.270 --> 01:54.090
そのため､ 今回の例でも同じようなものを導入します｡ 簡略化したものですが､

01:54.090 --> 02:00.630
それでも､ ゲームの最後だけでなく､ ずっとエージェントに与え続けられる報酬です｡

02:00.630 --> 02:04.320
そして､ その方法は､ 他のタイルを見ることです｡ 

02:04.320 --> 02:11.310
だから､ 今は最終牌で報酬プラス1､ もう一つの最終牌である火床で報酬マイナス1しかないんだ｡

02:11.550 --> 02:17.700
でも､ これからは毎回､ とても小さな報酬を追加して､ それが-0になるようにします｡  04.

02:17.700 --> 02:18.840
そして､ ご覧の通り､ ネガティブです｡ 

02:18.840 --> 02:23.100
つまり､ エージェントが動くたびに､ マイナスの報酬が発生するわけです｡ 

02:23.100 --> 02:30.780
だからリビング・ペナルティと呼ばれるんだ｡ どこに行っても､ この最後の牌以外は必ずこのマイナスの報酬を得ることになるからね｡

02:31.050 --> 02:35.100
そして､ このタイルでも報酬が-0であることがおわかりいただけると思います｡  04.

02:35.100 --> 02:37.860
しかし､ だからといって､ その報酬でスタートするわけではありません｡ 

02:37.860 --> 02:39.450
彼はこの報酬を得るだけです｡ 

02:39.450 --> 02:41.370
そして､ これは重要なことです｡ 

02:41.370 --> 02:43.680
この報酬は､ 牌に入ったときだけもらえる｡ 

02:43.680 --> 02:46.050
だから､ 彼が何かアクションを起こすと､ 必ずここに行くんです｡ 

02:46.290 --> 02:49.770
そうすれば､ この報酬-0を手に入れることができるのです｡  04.

02:49.770 --> 02:53.370
そして､ このタイルに戻ってきたら､ また-0をする｡  04報酬

02:53.550 --> 02:58.080
そうして､ 歩き回れば歩き回るほど､ この負の報酬が蓄積されていくのです｡ 

02:58.080 --> 03:03.600
それゆえ､ 少しでも早く､ ゲームを終わらせようというインセンティブになる｡ 

03:03.720 --> 03:14.010
では､ この報酬に設定する値によって､ 私たちのポリシーやエージェントのポリシーがどのように変化するかを見てみましょう｡

03:14.100 --> 03:18.810
そこで､ 4つの環境を紹介します｡ それぞれの環境で､ 異なる報酬を探っていきます｡ 

03:18.810 --> 03:24.720
今は計算をするのではなく､ 結果を投影するだけなので､ 直感的に分かると思います｡

03:24.720 --> 03:25.650
まったくもって理にかなっています｡ 

03:25.650 --> 03:32.760
つまり､ どんなステップでも､ どんな状態でも､ その報酬はゼロに等しいということです｡ 

03:32.760 --> 03:37.230
ただ､ ここで以前見たように､ 報酬は-0になりそうです｡  04.

03:37.320 --> 03:38.250
今､ 紹介したもの｡ 

03:38.250 --> 03:44.100
さてここで､ 報酬は-0となる｡  5またはリビングペナルティが-0になる｡  5.

03:44.100 --> 03:47.550
これだけ高いと､ ここよりも10倍以上高いことがわかります｡ 

03:47.550 --> 03:50.070
そして､ ここでは生前退位がマイナス2になる｡ 

03:50.100 --> 04:00.630
つまり､ ジャンプして得られる報酬よりもさらに多く､ あるいは､ あなたやエージェントが火刑台で終わることによって得られる報酬よりもさらに少なくなるのです｡

04:00.630 --> 04:09.090
では､ この報酬によって､ この環境を通過するための行動や最適な方針がどのように変わるかを見てみましょう｡

04:09.090 --> 04:11.160
これが私たちの本来のポリシーなんですね｡ 

04:11.790 --> 04:18.240
そして､ ご記憶の通り､ この2つの非常に興味深く､ ちょっと奇妙な捜査官の決断がありましたが､

04:18.240 --> 04:23.850
彼が好きなだけ生きられるのであれば､ まったく納得がいきますね｡

04:23.850 --> 04:29.460
もし､ あなたがただ､ 非常に長く生きているためにペナルティを受けることなく､ 彼が望む限り旅行することができるなら､

04:29.460 --> 04:32.040
彼はなぜそうしないのですか？

04:32.070 --> 04:38.400
なぜ､ ここでコーナーに入り､ 壁にぶつかり､ それが起きるまでやり続けないのか？

04:38.400 --> 04:41.220
たまたま､ この道を通ると､ 歩き回ることになるのです｡ 

04:41.220 --> 04:42.150
そして､ ここでも同じことが言える｡ 

04:42.150 --> 04:47.220
この2つの行動を選べば､ 火の海になるリスクはないので､ いずれどちらかが出てくることを期待して壁に飛び込み､

04:47.220 --> 04:53.280
とにかくゴールまで行く方がよほど安全なのです｡

04:53.370 --> 04:59.750
では､ 生きていること､ 一歩を踏み出すことに､ 報酬､ つまりマイナスの報酬を加えたらどうなるか見てみましょう｡

04:59.760 --> 04:59.900
そうですね｡ 

05:00.070 --> 05:00.700
あなたが動いてください｡ 

05:00.970 --> 05:04.840
ここで､ この2つが瞬時に変化したことがわかると思います｡ 

05:04.870 --> 05:07.660
今､ エージェントは壁に飛び込むことを望んでいない｡ 

05:07.690 --> 05:10.450
危険を冒してでも焚き火台に行く方が多いのだ｡ 

05:10.480 --> 05:12.910
その10％の確率で､ ここに飛び込んでくるということ｡ 

05:12.910 --> 05:19.510
でも､ 彼はここで壁を飛び越えるたびに､ もしやここでもやっているのではと思い､ 前に進みます｡

05:19.540 --> 05:24.910
壁に飛び込むたびに､ 80％の確率でこの状態になるアクションを行う｡ 

05:24.910 --> 05:34.270
そして､ 80％の確率で-0が出るということです｡  04報酬､ つまり多くの時間､ 彼はこの蓄積されたこの負の報酬を得ることになるのです｡

05:34.810 --> 05:35.470
こちらも同じです｡ 

05:35.470 --> 05:42.700
もし彼が壁に飛び込んで､ 実際にランダムに右に移動する瞬間を待っていたら､

05:42.700 --> 05:48.880
もしそれを続けていたら､ この負の報酬が蓄積され､ その結果､

05:48.880 --> 06:02.640
計算を実行すれば､ 壁に飛び込むアプローチの期待値は､ 前進して実際に火の海になるリスクを取るより悪いことがわかります｡

06:02.650 --> 06:09.880
この2つのブロックでは､ 火の海に飛び込む危険性があるにもかかわらず､ 前進し､ ここでは左に移動するように判断を変えています｡

06:09.880 --> 06:18.730
これは､ 単に､ 彼が生きている時間が長ければ長いほど､ 次の環境ではこのリビングペナルティを蓄積することになるからです｡

06:18.760 --> 06:24.460
今､ 私たちは生前退位制度をさらに大きくして､ -0. 5､ ここで何が変わるか見てみましょう｡

06:24.580 --> 06:31.330
この環境と比較して､ この矢印が右を向いていることだけが変わったことがおわかりいただけると思います｡

06:31.900 --> 06:36.910
それがどういうことかというと､ 今はもうエージェントにとって良い選択肢ではなくなったということです｡ 

06:36.910 --> 06:42.100
あ､ 実は､ この矢印も､ 以前は左向きだったのが､ 今は上向きになっているんですよ｡

06:42.100 --> 06:48.100
だから､ 今はもう､ エージェントがここから回り込んで､ ずっと回り込むのはよくない｡ 

06:48.100 --> 06:51.100
だって､ ずっと回っていれば､ そう､ 安全なんだもの｡ 

06:51.100 --> 06:53.860
焚き火台まで行ける可能性が低くなった｡ 

06:54.100 --> 06:58.540
しかし､ 同時に､ 火床に入る可能性が低くなったところで､ 歩き回るので､

06:58.540 --> 07:03.070
かなりのマイナス報酬が蓄積されることになる｡

07:03.070 --> 07:05.290
だから､ その道が長すぎるだけなんです｡ 

07:05.290 --> 07:11.560
そうすると､ ここにいてもここにいなくても､ 火床に入る危険性がずっと高いのに､

07:11.560 --> 07:16.840
ここに来るために短いルートを取らざるを得ない｡ 広場に行き着いた時点で､

07:16.840 --> 07:21.700
計算上､ 火床に入る可能性が10％あるわけですから｡

07:21.700 --> 07:30.280
ただ､ この生き方のペナルティを増やしただけで､ 回りくどいやり方よりも期待値が高くなるのです｡

07:30.460 --> 07:36.820
そして､ いよいよ生前退位ペナルティ-2での例題に入ります｡  0.

07:36.820 --> 07:42.580
ではここで､ 生前退位制度を強化することで政策がどのように変化したかをご覧いただきましたので､

07:42.580 --> 07:49.810
ビデオを一時停止して､ このシナリオでは何が起こるのか､ ご自身で考えていただくことをお勧めします｡

07:49.810 --> 07:55.720
リビングペナルティが高いことを考えると､ 最適な政策はどのようになると思いますか？

07:55.720 --> 08:02.320
それでは､ ビデオを一時停止して､ 解決策をお見せしましょう｡ 

08:02.320 --> 08:10.810
つまり､ この場合､ ペナルティを-2に増やすと｡  0だと高いので､ ここでのペナルティは-1だけと覚えておいてください｡

08:10.810 --> 08:10.810
0.

08:10.810 --> 08:18.310
あまりに高いので､ エージェントが火だるまになってでも､ どんな方法でもいいからゲームを抜け出したいと思ってしまうのです｡

08:18.340 --> 08:19.150
彼はきっとやってくれる｡ 

08:19.150 --> 08:25.780
彼は､ 私が一歩踏み出すたびに､ 新しい状態になるたびに､ あるいは行動を起こすたびに､ マイナス2の報酬をもらって終わる､

08:25.780 --> 08:29.950
というようになるのです｡

08:29.950 --> 08:36.160
だから､ ここからだと2歩余計にかかるから､ ここへ行ってそのまま火刑台へ行く､

08:36.160 --> 08:42.370
そうすると報酬が少なくなるから､ ゴールまで頑張る意味がないんです｡

08:42.580 --> 08:48.670
ただ手を加えるだけでは､ ネガティブな報酬は得られない｡ 

08:48.760 --> 09:02.410
ですから､ このリビングリワードを追加し､ 追加するリビングリワードの値によって､ 結果が異なり､ エージェントは異なるポリシーを選択することになることがおわかりいただけると思います｡

09:02.410 --> 09:13.720
そしてそれは､ ゴールやゲーム終了時だけでなく､ ゲーム中であっても､ 基本的にはベルマン方程式によって報酬価値がどのようになり得るかが組み込まれているのです｡

09:13.720 --> 09:19.870
そして､ もう一度言いますが､ 環境そのものによって､ すべての州ですべてのシングルに搭載する必要はないのです｡

09:19.870 --> 09:26.050
すべての状態ではなく､ ある特定の状態でエージェントに与えられるかもしれませんが､ この単純化した例では､

09:26.050 --> 09:32.530
この概念を説明するために､ すべての状態での報酬を使用しているだけです｡

09:32.620 --> 09:34.360
それでは､ 今日のチュートリアルを楽しんでいただけたら幸いです｡ 

09:34.360 --> 09:42.100
このように､ ベルマン方程式はすでにかなり洗練されたものになっており､ さまざまな場面で応用できるようになっています｡

09:42.100 --> 09:44.260
そして､ 次のチュートリアルでお会いできるのが楽しみです｡ 

09:44.260 --> 09:45.670
そしてそれまで､ お楽しみに｡ 

09:45.670 --> 09:46.300
I.