WEBVTT

00:00.930 --> 00:04.190
こんにちは､ 人工知能の講座にようこそ｡ 

00:04.200 --> 00:07.050
今日は､ ベルモントの方程式についてお話します｡ 

00:07.440 --> 00:13.920
かなり複雑なテーマですが､ この講座の全セクションを通じて､ 段階的に紹介していきます｡

00:13.920 --> 00:18.090
だから､ いきなり最も複雑な「ベルモント方程式」に飛びつくつもりはない｡

00:18.090 --> 00:23.160
しかし､ そうではなく､ 徐々に仕組みを理解していくために､ ゆっくりと導入していくのです｡ 

00:23.160 --> 00:25.350
そして､ そのやり方を冷静に受け止めてほしい｡ 

00:25.350 --> 00:28.380
もし､ あなたがそうなら､ さっそく本題に入りましょう｡ 

00:28.380 --> 00:32.610
そこで､ 私たちはいくつかのキーコンセプトを持って活動することにしています｡ 

00:32.610 --> 00:36.090
そして､ これらのコンセプトは､ SSEはStateの略です｡ 

00:36.090 --> 00:45.330
つまり､ エージェントが置かれている状態､ あるいはエージェントが取りうる他の状態は､ エージェントが取りうる行動を表しているのです｡

00:45.330 --> 00:48.240
つまり､ エージェントは特定のアクションのリストにアクセスすることができるのです｡ 

00:48.240 --> 00:53.520
そして､ アクションは､ 状態の組み合わせで見ると非常に重要です｡ 

00:53.520 --> 00:57.030
だから､ ある状態になってからアクションを見ると､ 納得がいくようになるんです｡ 

00:57.030 --> 00:59.010
その結果､ どうなるのでしょうか？

00:59.010 --> 01:02.700
というのも､ 状態を伴わないアクション単体では､ 自分がどこにいて､ どこに行き着く可能性があるのかが分からないので､

01:02.700 --> 01:05.310
あまり意味がないのです｡

01:05.310 --> 01:13.800
そして､ 報酬を意味するwhichを用意します｡ これは､ エージェントがある状態に入ったときに得られる報酬です｡

01:14.040 --> 01:16.890
そしてガンマは割引率である｡ 

01:16.890 --> 01:18.630
そして､ ディスカウントファクターについては､ 後ほど説明します｡ 

01:18.630 --> 01:26.100
でも､ この後､ このガンマという文字を使って操作することになるので､ メモしておいてください｡

01:26.340 --> 01:30.990
ベルマン方程式の生みの親は､ リチャード・アーネスト・ベルマンなんですね｡ 

01:31.170 --> 01:42.930
彼は応用数学者で､ 現在の強化学習やベルモント方程式と呼ばれる動的計画法の概念を考え出しました｡

01:42.930 --> 01:45.420
今､ 井戸端会議では､ そう呼ばれています｡ 

01:45.420 --> 01:52.170
そして1953年､ 彼はそのコンセプトを思いついたのですが､ その時に「ベルモント方程式」は私のところにやってきました｡ 

01:52.380 --> 01:55.920
では､ その仕組みを見てみましょう｡ 

01:56.310 --> 02:00.780
左下には素敵なエージェントが迷路の中にいます｡ 

02:00.780 --> 02:08.040
これは非常に古典的な迷路で､ いくつかのブロックがあり､ 白いブロックはエージェントが踏み込むことのできるブロックです｡

02:08.040 --> 02:11.610
グレーのブロックは､ どうしてもアクセスできないものです｡ 

02:11.610 --> 02:13.650
それが､ この迷路の壁のようなものなんですね｡ 

02:13.650 --> 02:18.140
緑色は､ エージェントが最終的に目指すべき場所です｡ 

02:18.150 --> 02:19.860
そこにエージェントを向かわせたいのです｡ 

02:19.860 --> 02:20.880
それが仕上がりです｡ 

02:20.880 --> 02:23.040
そして､ 赤は焚き火台です｡ 

02:23.040 --> 02:26.520
だから､ エンジンが火床に落ちると､ ゲームに負けることになる｡ 

02:26.640 --> 02:31.230
つまり､ 火事場泥棒では､ Rである報酬がマイナス1になってしまうのです｡ 

02:31.230 --> 02:36.360
だから､ それはエージェントに対して､ 「あなたにはやってほしくないことなんです」と伝えるための方法なんです｡ 

02:36.360 --> 02:42.720
例えば､ 犬を訓練するとき､ 自分の思い通りにならない犬には「悪い犬だ」と言いますよね｡

02:42.720 --> 02:43.260
こちらも同じです｡ 

02:43.260 --> 02:46.920
代理店には､ 「これはやってはいけないことだ」と伝えたいのです｡ 

02:46.920 --> 02:48.210
広場で終わらせてはいけない｡ 

02:48.210 --> 02:51.120
だから､ マスに上がらないたびにマイナス1の報酬を得ることができる｡ 

02:51.120 --> 02:53.100
だから､ マイナス1の報酬で処罰される｡ 

02:53.310 --> 02:57.300
一方､ 「緑の広場」で終われば､ プラス1のご褒美がもらえる､ つまり､

02:57.300 --> 02:59.220
そういうことなのです｡

02:59.280 --> 03:02.190
つまり､ エージェントが得られる可能性のある報酬はこの2つです｡ 

03:02.190 --> 03:06.150
そして､ この迷路の中でどのように操作方法を学ぶのでしょうか｡ 

03:06.180 --> 03:10.500
ちょうど､ 散歩を覚えるロボット犬の例のように､ それを知らせるだけなのです｡ 

03:10.500 --> 03:12.390
ここでは､ あなたができるアクションをお伝えします｡ 

03:12.420 --> 03:14.550
右上がり､ 左上がり､ 下降が可能です｡ 

03:14.550 --> 03:16.590
以上､ 4つのアクションが考えられます｡ 

03:16.590 --> 03:18.120
そして､ それだけです｡ 

03:18.120 --> 03:21.180
どんなものができるか､ 試してみてください｡ 

03:21.180 --> 03:26.580
だから､ エージェントは右に行くかもしれないし､ もっと右に行くかもしれないし､ 左に戻るかもしれない｡

03:26.580 --> 03:30.090
ランダムにボタンを押し､ 何が起こるか試しているのです｡ 

03:30.090 --> 03:34.560
そして､ ここに戻り､ 上に行き､ 下に行き､ 上に行き､ 右に行くのです｡ 

03:34.560 --> 03:36.090
だから今のところ､ 何も学んでいないのです｡ 

03:36.090 --> 03:38.160
ただ､ 今のところ何も起こっていない｡ 

03:38.160 --> 03:41.580
右に行くと､ バッと緑の広場に行き着くんです｡ 

03:41.580 --> 03:45.450
それで､ 「あ､ プラス1の報酬をもらったんだ」と気づくわけです｡ 

03:45.450 --> 03:48.960
だから､ 緑の広場に足を踏み入れると､ すぐにプラス1の報酬がもらえたのです｡ 

03:48.960 --> 03:53.130
それがきっかけで､ アルゴリズムが「よし､ これはすごい」と判断するのです｡ 

03:53.580 --> 03:58.710
四角で終わるとご褒美がもらえるので､ 四角で終わりたいんです｡ 

03:58.710 --> 04:00.420
では､ 代理店にとってはどうなのでしょうか｡ 

04:00.660 --> 04:04.230
つまり､ 「どうしてこの広場に来たのか」という疑問を持ち始めるのです｡ 

04:04.260 --> 04:09.840
自分がどのような先行状態にあり､ どのような行動をとれば広場に出られるのか｡ 

04:09.840 --> 04:14.520
そして､ 振り返ってみると､ なるほど､ 直前の状態はこの状態だったのか､ と｡ 

04:14.730 --> 04:19.050
赤い矢印の火付け役となったその状態では､ 貴重な存在であることがわかります｡ 

04:19.050 --> 04:26.190
なぜなら､ その状態から､ あなたは､ 私は､ 私が夢見ることができる最大の報酬に加えて､ 犬用のビスケットのようなものを得るまで､

04:26.190 --> 04:35.070
あと一歩だからです｡ 私がその状態､ 赤い矢印で示された四角になることがあれば､ すぐに分かります｡

04:35.070 --> 04:36.540
右を押すだけでいいんです｡ 

04:36.810 --> 04:39.030
では､ どう自分に言い聞かせればいいのか｡ 

04:39.030 --> 04:41.370
その状態が貴重であることを忘れないためには､ どうしたらいいのでしょうか｡ 

04:41.370 --> 04:46.500
まあ､ 私にとっては､ 実はエージェントである私がグリーンスクエアにいようとホワイトスクエアにいようと､

04:46.500 --> 04:49.620
何の違いもないのですが｡

04:49.620 --> 04:51.540
緑の広場の右側で､ 私は1つの報酬を得る｡ 

04:51.540 --> 04:57.960
だから私は､ 白い広場は私にとって得である､ それはまさに報酬1につながるので､ 1の価値を持っている､

04:57.960 --> 05:00.120
と自分でマークするつもりです｡

05:00.120 --> 05:00.240
だから

05:00.310 --> 05:03.220
ホワイトスクエアに入った途端､ もう一回だけアクションを起こすと思うんです｡ 

05:03.220 --> 05:05.320
緑の広場で､ ご褒美の1枚をもらう｡ 

05:05.320 --> 05:14.190
だから､ この二乗の値が1になるのは､ 引き算のようなことをせずに直接つながるからということになるんです｡

05:14.200 --> 05:16.090
ここに入った時点で､ 私の報酬が1つになることは分かっています｡ 

05:16.090 --> 05:18.490
そこで､ この正方形は1に等しいとマークすることにします｡ 

05:18.490 --> 05:19.330
それが価値です｡ 

05:19.330 --> 05:21.670
それが､ この状態であることの認識値です｡ 

05:22.210 --> 05:26.860
次に､ エージェントは､ よし､ じゃあ､ どうやってこの広場に入ったんだろう？

05:26.860 --> 05:30.880
そしてまた歩き回り､ そうしてまた広場に辿り着くかもしれない｡ 

05:30.880 --> 05:33.520
そして､ 「よし､ その前にどうやってこの広場に入ったんだろう？

05:33.520 --> 05:36.610
そして､ この広場への入り方は､ この広場からでした｡ 

05:36.700 --> 05:37.480
面白いですね｡ 

05:37.750 --> 05:42.790
だから､ この広場に入った瞬間に､ あとは右へ行けばいいんだとわかるんです｡ 

05:42.790 --> 05:45.520
そして､ ここから先は､ もう勝つしかないと思っています｡ 

05:45.520 --> 05:48.190
これからどう展開していくのか､ よく分かっているんです｡ 

05:48.190 --> 05:50.770
そして､ この状態であることの価値が1に等しいことも知っています｡ 

05:50.770 --> 05:59.350
そして､ ここからここまでの道のりを止めるものは何もないので､ この中の価値が知覚価値になるのです｡

05:59.350 --> 06:06.550
ここにいると､ すぐにここにいることが分かってしまうので､ Vイコール1として評価することにしています｡

06:06.550 --> 06:07.660
だから､ 私は勝つつもりです｡ 

06:07.960 --> 06:10.330
そして､ その前にこの広場に入るにはどうしたらいいのか？

06:10.330 --> 06:12.850
まあ､ この広場から入ったんですけどね｡ 

06:12.850 --> 06:15.700
だから､ 価値は似たようなアプローチなのです｡ 

06:15.700 --> 06:19.120
ここにいる価値も1に等しい､ といった具合に｡ 

06:19.120 --> 06:22.900
だから､ ここにいる価値は1に等しく､ 一つひとつが次につながり､

06:22.900 --> 06:25.210
ゴールにつながるからです｡

06:26.020 --> 06:29.770
だから､ 現段階ではかなり論理的な話になっているようです｡ 

06:29.770 --> 06:33.340
今､ 私たちはベルモント方程式をデザインしているところなんです｡ 

06:33.340 --> 06:40.240
つまり､ エージェントが迷路を進むための方程式を設計することが考えられるのです｡ 

06:40.240 --> 06:41.650
だから､ 報酬に目を向けてください｡ 

06:41.650 --> 06:46.100
そして､ その前の状態から報酬に等しい値が与えられる､ というように｡ 

06:46.120 --> 06:47.560
だから､ このような経路ができるのです｡ 

06:48.070 --> 06:54.040
しかし､ ここで問題なのは､ もしエージェントが何らかの理由で､ ここからスタートしてこれらのアクションを起こすのではなく､

06:54.040 --> 07:00.370
実際にこの状態でスタートしたらどうなるか､ ということです｡

07:00.400 --> 07:01.840
なぜわかるのか？

07:01.870 --> 07:04.210
どのような動作をするのか､ どのように記憶しているのでしょうか？

07:04.210 --> 07:06.130
右に行くべきなのか､ それとも下に行くべきなのか｡ 

07:06.550 --> 07:07.720
それとも左に行くべきなのでしょうか？

07:07.720 --> 07:08.470
それとも､ もっと上がるべき？

07:08.470 --> 07:16.570
1に等しい値しか持っていないのに､ どうやってここから次の継続を覚えているのでしょうか？

07:16.570 --> 07:18.580
だから､ より遠くにあるものは見えない｡ 

07:18.580 --> 07:23.470
ただ､ 「ここにあるもの」と「ここにあるもの」しか見えないのに､ どうして「どっちに行けばいいか」が分かるのでしょう｡

07:23.470 --> 07:24.790
まあ､ 現段階ではそんなことはないんですけどね｡ 

07:24.790 --> 07:27.700
エージェントにとっては､ どちらを選ぶかは全く同じです｡ 

07:27.700 --> 07:30.400
だから､ このやり方はあまりうまくいかないんです｡ 

07:30.670 --> 07:32.800
非常に単純な説明になってしまいますが｡ 

07:32.830 --> 07:36.040
もちろん､ それ以外にもいろいろありますが､ 直感的にわかるように｡ 

07:36.040 --> 07:40.450
だから､ 私たちは､ このように価値観を逆算して割り当てるのです｡ 

07:40.630 --> 07:46.150
というのも､ 理由のひとつは､ エージェントがこの2つの価値の間に入ると､ どこに行くのか？

07:46.150 --> 07:48.250
そんな風に混乱することはありません｡ 

07:48.340 --> 07:50.980
では､ どうすればこの問題を解決できるのか｡ 

07:50.980 --> 07:52.120
ここで何をするのか？

07:52.120 --> 07:58.390
そしてここから､ ベルモント方程式を実際の形で､ ゆっくりと一歩一歩紹介していきます｡

07:58.390 --> 08:01.450
つまり､ ベルモントの方程式は次のようなものだ｡ 

08:01.450 --> 08:07.960
そこで､ 現在の状態や任意の状態のように､ ある状態にあることの価値について､ すでにVの話をしました｡

08:07.960 --> 08:10.180
そして､ Sもあります｡ 

08:10.180 --> 08:16.600
そして､ プライムは､ この状態の後に､ ガンを行動に移すことによって行き着く､

08:16.780 --> 08:18.730
次の状態､ 状態である｡

08:18.730 --> 08:24.040
しかし､ エージェントにはさまざまなアクションがあることを私たちは知っており､ そのためにこの最大値を設定しました｡

08:24.040 --> 08:27.160
では､ アクションを起こすことで､ エージェントに何が起こるのでしょうか？

08:27.160 --> 08:32.440
そこで､ 状態sでアクションを起こすことで､ ある状態になったとします｡ 

08:32.440 --> 08:36.490
A 何が起こるかというと､ 新しい状態になることで瞬時に報酬を得ることができるのです｡ 

08:36.550 --> 08:43.570
そして､ その報酬は､ ゲーム終了時であれば1かプラス1かマイナス1､ ゲーム中であれば0になることも覚えておいてください｡

08:43.570 --> 08:46.150
この場合､ ゲーム中の報酬はゼロになります｡ 

08:46.150 --> 08:47.650
それがご褒美なんですね｡ 

08:47.680 --> 08:55.030
さらに､ プライムとしての価値を持つ新しい状態になる｡ 

08:55.030 --> 08:57.010
それが新しい状態の値なんですね｡ 

08:57.190 --> 08:58.720
そしてガンマ､ ガンマについてはまた後ほど｡ 

08:58.720 --> 09:05.740
しかし､ ここで私が提起したいこと､ あるいはポイントは､ いろいろなアクションがあるからこそ､ 最大限の力を発揮できるのだということです｡

09:05.740 --> 09:09.550
だから､ 行動することで報酬を得､ さらに新しい状態になっていくのです｡ 

09:09.550 --> 09:13.300
そして､ 今回のケースでは､ すべてのアウトオブザイヤーに対して､ 4つのアクションが考えられます｡ 

09:13.300 --> 09:17.680
可能な4つのアクションのそれぞれについて､ 次のような方程式を用意することになる｡ 

09:17.680 --> 09:23.170
つまり､ これは値4を持つことになります｡ 彼らは4つのアクションの一つ一つに異なる値を持つことになるのです｡ 

09:23.170 --> 09:28.720
そして､ エージェントが最適な状態を取りたいのは当然なので､ 最大値だけを見ることにします｡

09:28.720 --> 09:32.020
だから､ もし彼が州sにいたら､ この価値観に注目するだろう｡ 

09:32.020 --> 09:34.180
アクションを元に最大値を探すそうです｡ 

09:34.180 --> 09:37.330
この値が最大になるような行動をとるんだ｡ 

09:37.330 --> 09:41.290
それで､ なぜここで最大値を取っているのか､ ご理解いただけたと思います｡ 

09:41.380 --> 09:45.280
では､ 報酬と状態の値が決まったら､ なぜここにガンマパラメータがあるのでしょうか？

09:45.460 --> 09:56.590
これは､ エージェントがどっちに行けばいいかわからないという問題を解決するためにあるんです｡

09:56.740 --> 09:58.810
そのため､ ガンマは割引係数と呼ばれています｡ 

09:58.810 --> 09:59.860
で見てもらおうと思っています｡ 

10:00.100 --> 10:01.450
ただ､ よりよく理解するために

10:01.840 --> 10:03.160
では､ 計算式を見てみましょう｡ 

10:03.160 --> 10:04.090
ここで一番上に置くことにします｡ 

10:04.090 --> 10:04.570
そうですね｡ 

10:04.570 --> 10:09.040
そして､ 今度はこの異なる状態の値がどのようなものであるかを分析します｡ 

10:09.040 --> 10:11.370
そして､ ここにある州はすべて四角形です｡ 

10:11.370 --> 10:15.130
そして､ この白い四角の中のひとつが州というわけです｡ 

10:15.130 --> 10:17.620
そして､ その状態であることの価値を計算することになったのです｡ 

10:18.040 --> 10:19.570
では､ この正方形から始めてみましょう｡ 

10:19.600 --> 10:21.460
この状態であることの価値は何でしょうか？

10:21.640 --> 10:25.660
さて､ この値の最大値をすべてのアクションで取る必要があります｡ 

10:25.810 --> 10:31.090
そして､ この表す価値は､ ゴールに近づくにつれて最大化することが分かっています｡ 

10:31.090 --> 10:32.290
そういう構造になっているのです｡ 

10:32.290 --> 10:40.600
これを見れば､ ここに報酬があり､ ここに次の状態の価値を乗じた割引係数があることがわかります｡

10:40.840 --> 10:44.740
そう考えると､ この方程式は理にかなっていると思います｡ 

10:44.740 --> 10:50.170
だから､ ここから右に移動すればこの値の最大値となるのは理にかなっている｡ 

10:50.170 --> 10:52.060
そうやって､ 国家の価値を計算するわけです｡ 

10:52.060 --> 10:57.400
この状態の値は､ イコール､ 最大値､ またはこの値と等しい｡ 

10:57.400 --> 11:00.670
もし､ 私たちが右へ動くというアクションを起こせば

11:00.940 --> 11:02.250
では､ この値はどうなるのでしょうか｡ 

11:02.260 --> 11:04.750
まあ､ 右に移動したときの報酬は1に等しいんだけどね｡ 

11:04.750 --> 11:11.470
そして､ γγがどうであれ､ すでに最高の状態にあるのだから､ この状態での価値はないのである｡

11:11.590 --> 11:12.790
これが最終的な状態なんですね｡ 

11:12.790 --> 11:13.810
価値はないでしょう｡ 

11:13.810 --> 11:16.180
ここでご褒美をもらうだけで､ ゲームは終わりです｡ 

11:16.180 --> 11:20.230
そのため､ この最大値は1に等しくなる｡ 

11:20.230 --> 11:23.410
そして､ そのために､ ここでの州の値は1に等しくなります｡ 

11:23.680 --> 11:27.730
さて､ 左へ､ 少し後ろへ移動すると､ 面白いことが起こります｡ 

11:27.730 --> 11:32.380
では､ この状態であることの価値を計算してみましょう｡ 

11:32.590 --> 11:34.000
そのためには､ ガンマが必要です｡ 

11:34.000 --> 11:40.900
そこで､ 仮に割引率を0とします｡  9 て､ これを計算すれば､ 割引率が何であるかが理解できるだろう｡

11:40.900 --> 11:46.750
この迷路がどのように機能しているか分かっているので､ 直感とベースに基づいて､

11:46.750 --> 11:51.250
最善の行動は右に行くことだと分かっているのです｡

11:51.250 --> 11:55.960
つまり､ この状態で右に行ったときに最大になるということです｡ 

11:55.960 --> 11:58.750
そして､ ここに差し込むとどうなるのか見てみましょう｡ 

11:58.750 --> 12:02.500
だから､ ここからここまで行っても､ 報酬はゼロのままです｡ 

12:02.500 --> 12:03.730
でも､ そうすると､ ガンマが出ますよね｡ 

12:03.730 --> 12:07.360
だから､ 0になる｡  新しい状態の値の9倍が1である｡ 

12:07.360 --> 12:13.990
つまり､ この場合､ 値､ 全体の結果は1×0､ 0になります｡  9×1は0になります｡  9.

12:13.990 --> 12:15.670
つまり､ これが我々の値である「0」です｡  9.

12:16.000 --> 12:18.490
だから､ 今これを計算すると､ ここから先が見えてくるんです｡ 

12:18.490 --> 12:24.850
迷路を見ただけでわかるのは､ 私たち人間が､ この方程式の仕組みを理解しているからです｡

12:24.850 --> 12:29.840
もちろん､ AI､ エージェントはこうしたことを実験しなければなりませんが､ 私たちは水晶玉のようなものを持っているので､

12:29.860 --> 12:31.780
この迷路の全体像を見ることができるのです｡

12:31.930 --> 12:33.700
今､ 私たちは俯瞰的な視点で見ています｡ 

12:33.700 --> 12:36.070
私たちは､ 最善の行動は右に行くことだと知っています｡ 

12:36.070 --> 12:45.460
つまり､ ここに全部突っ込めば､ ゼロ・ノーリターン､ プラス0になるわけです｡  この状態で9倍の値､ 0. 9は0です｡

12:45.460 --> 12:45.460
81などです｡ 

12:45.460 --> 12:49.840
だからここでは0になる｡  73とこちらが0になります｡  66.

12:50.290 --> 12:58.540
つまり､ ディスカウントファクターの仕組みは､ 遠ざかるほど状態の価値を割り引くということがおわかりいただけると思います｡

12:58.540 --> 13:04.480
つまり､ ファイナンスの理論に詳しい人なら､ 貨幣の時間的価値に近いものがあるわけです｡ 

13:04.870 --> 13:06.820
こうしたらどうだろうとか｡ 

13:06.820 --> 13:12.700
今日の5ドルと10日後の5ドル､ どちらがいいでしょうか？

13:13.180 --> 13:18.070
ただ､ 誰かがあなたに､ 今日は5ドルあげるよ､ それとも5ドルあげるよ､ と選択肢を与えたとします｡  今から10日後｡

13:18.100 --> 13:20.170
まあ､ もちろん今日は5ドルを選ぶでしょうけど｡ 

13:20.170 --> 13:20.770
それはなぜでしょうか？

13:20.770 --> 13:27.370
まあ､ その5ドルを､ 一定の金利で運用できるわけですから､ ガンマとよく似ていますね｡

13:27.370 --> 13:33.760
そして､ 10日後の5ドルは､ 実際には5ドル程度に成長します｡  73とか､ そんな感じです｡ 

13:33.760 --> 13:36.310
そして､ それが時間的価値の仕組みなのです｡ 

13:36.310 --> 13:38.200
そして､ ここにも非常に似たコンセプトがあります｡ 

13:38.200 --> 13:43.210
ここで理解すべき重要なことは､ これはあくまで理論であり､ 強化学習の仕組みだということです｡

13:43.210 --> 13:48.670
そこで､ リチャード・ベルマンがこの方程式を考え出し､ それ以来､ 今ではそのように使っています｡ 

13:48.670 --> 13:51.340
だから､ 別の方程式を考えて行くこともできる｡ 

13:51.340 --> 13:52.450
ギャンブル性がなくてもいいんです｡ 

13:52.450 --> 13:54.760
他の要因もあるかもしれないし､ 要因すらないかもしれない｡ 

13:54.760 --> 13:57.550
しかし､ この方法はうまくいくからこそ､ 使っているのです｡ 

13:57.550 --> 14:00.700
そして､ このこれがビジュアル的にどう見えるか｡ 

14:00.700 --> 14:04.780
だから､ 遠ければ遠いほど､ この状態であることの価値は低くなる｡ 

14:04.780 --> 14:08.680
そして､ お金の時間的価値という点では､ もし私があなたに言うことができるとしたら､ どこがいいでしょうか？

14:08.680 --> 14:09.760
ここにいる方がいい？

14:09.760 --> 14:11.080
ここにいる方がいい？

14:11.080 --> 14:12.850
ここにいる方がマシと言われそうですが｡ 

14:12.850 --> 14:16.990
つまり､ 貨幣の時間的価値と同じ現象を作り出しているわけです｡ 

14:16.990 --> 14:24.610
私たちは､ 代理店にインセンティブを与えるため､ あるいは代理店を刺激するために､ ガンマを通して人工的にそれを作り出し､ よりゴールに近づけるようにしているのです｡

14:24.610 --> 14:29.350
ですから､ もしエージェントが､ この方程式の仕組み上､ こことここのどちらを選ぶかと問われれば､

14:29.350 --> 14:31.330
ここを選ぶでしょう｡

14:31.360 --> 14:33.310
それ以上でも以下でもない｡ 

14:33.310 --> 14:35.770
世の中がこう動いているなんてことはないんです｡ 

14:35.770 --> 14:43.210
いや､ これはエージェントに理解してもらうために､ 人工的に作っているものなんです｡

14:43.210 --> 14:44.020
これはいい｡ 

14:44.020 --> 14:44.530
これはいい｡ 

14:44.530 --> 14:44.980
これはいい｡ 

14:44.990 --> 14:45.670
どれも良いですね｡ 

14:45.670 --> 14:47.470
でも､ こっちの方がいいんですよ｡ 

14:47.470 --> 14:48.790
しかも､ こっちの方がいいんですよ｡ 

14:48.790 --> 14:49.390
しかも､ こっちの方がいいんですよ｡ 

14:49.390 --> 14:49.870
そして､ この1枚｡ 

14:49.870 --> 14:54.700
そうすることで､ 古いエージェントがどの方向に進むべきかが見えてきます｡ 

14:54.700 --> 14:59.620
だから､ もし私がここに立っていたら､ 私たちが抱えていた問題を覚えているか､ あるいは彼がここに立っていたかを確認することができるのです｡ 

15:00.050 --> 15:04.910
だから､ もし私がここに立っていたら､ 上に行くのか､ 下に行くのか､ みたいな？

15:04.940 --> 15:11.300
でも､ 今はもう問題ありません｡ というのも､ ここでは価値が大きいので､ 実は上に行った方がいいことがわかるからです｡

15:11.300 --> 15:14.360
そして､ ここから行った方がいいんですね､ ここよりこっちの方が価値が大きいので｡ 

15:14.360 --> 15:15.680
そして､ ここから先は､ もっといいんですよね？

15:15.680 --> 15:17.030
ここの価値はここより大きいから｡ 

15:17.030 --> 15:17.420
ここより

15:17.420 --> 15:20.210
そして､ ここから先は､ 彼はもう､ 行かなければならないことを理解しているんですね｡ 

15:20.210 --> 15:22.130
彼はここで1つの報酬を得ることになるからだ｡ 

15:22.490 --> 15:24.880
このやり方は､ そういうことなんですね｡ 

15:24.890 --> 15:27.080
では､ 残りのスクエアをざっと見てみましょう｡ 

15:27.410 --> 15:29.750
では､ この二乗の値はどのように計算するのでしょうか｡ 

15:29.750 --> 15:32.390
さて､ ここで少し厄介なことが起こります｡ 

15:32.390 --> 15:36.260
ということは､ ここから先は､ 実は左には行かないかもしれないんですね｡ 

15:36.260 --> 15:37.280
実際に右に行くかもしれません｡ 

15:37.280 --> 15:41.270
だから､ このままではいけない､ 本当はこっちの方が短いかもしれない､ と｡ 

15:41.270 --> 15:44.510
そこで､ どうするかというと､ まずこの四角の中の値を計算するのです｡ 

15:44.750 --> 15:48.410
そして､ ここから先は明らかに､ 再び上昇するのがベストな方法だからです｡ 

15:48.410 --> 15:52.880
このセクションでは､ エージェントが実際に実験を通して､

15:52.880 --> 15:57.980
どのようにこれを探求し､ 理解していくかを見ていきます｡

15:57.980 --> 16:00.110
でも､ 私たちとしては､ こっちの方がいいと思っているんです｡ 

16:00.110 --> 16:06.110
そこで､ ここの値を計算するわけですが､ そのために､ まずこの四角の中の値を計算します｡

16:06.110 --> 16:09.080
そこで､ ここでは3つのアクションが考えられる｡ 

16:09.080 --> 16:10.430
実際には､ 4つあります｡ 

16:10.430 --> 16:11.540
左に行くこともできる｡ 

16:11.540 --> 16:15.170
エージェントは､ 仮に左を押して壁にぶつかり､ ここに留まることも可能です｡ 

16:15.170 --> 16:26.330
しかし､ 単純化のために､ 私たちが知っていることを知り､ 水晶玉を持っている私たちは､ どのアクションが実際に再び同じ状態以外の何かにつながるものであることを知っているアクションを示すつもりです｡

16:26.660 --> 16:33.110
そして､ ここから､ また､ 水晶玉を持っているからこそ､ 最善の方法はこの方法であることがわかるのです｡

16:33.110 --> 16:35.870
もちろん､ 代理店が試行錯誤を重ね､ ベストな方法を見つける必要がある｡ 

16:35.870 --> 16:38.450
そして､ このセクションのさらに下で､ それがどのように行われるかを見ることができます｡ 

16:38.450 --> 16:43.520
エージェントがどのように歩き回り､ どのようにこの値を見つけようとするのか､ 実際に見てみましょう｡ 

16:43.520 --> 16:45.110
でも､ 私たちにとっては､ そういうものだとわかっているんです｡ 

16:45.110 --> 16:52.280
ここで､ すべてを1つにまとめると､ 最大､ 最良の出力は､ 上に行ったときで､ ここに10があります｡

16:52.280 --> 16:52.280
90.

16:52.280 --> 16:55.610
だから､ それを差し引くと､ 0になる｡  9.

16:56.420 --> 16:57.410
だから､ そちらを計算するのです｡ 

16:57.410 --> 16:59.750
これと同じ方法で計算してみよう｡ 

16:59.750 --> 17:05.300
これは､ エージェントにとっては3通り､ 実際には4通りありますが､ 私たちには3通りしかないことがわかります｡

17:05.720 --> 17:10.670
だから0｡  ここから81は0です｡  73.

17:10.850 --> 17:19.580
そして､ この値とうまく結びつけて､ もう一度割り引くと0になるからです｡  66で､ ここでは0です｡

17:19.580 --> 17:19.580
73は､ これが最適なルートだからです｡ 

17:19.880 --> 17:21.110
それでは､ どうぞ｡ 

17:21.110 --> 17:23.690
それが価値観であり､ これらすべての状態です｡ 

17:23.690 --> 17:36.800
そして､ この方程式を作ったからこそ､ ゴールに近ければ近いほど､ その状態の価値が高まるという概念を合成的に作り上げたことがおわかりいただけると思います｡

17:36.800 --> 17:41.810
今､ それを作ったからというわけではなく､ エージェントにとっては､ どっちに行くべきかは一目瞭然なのです｡ 

17:41.810 --> 17:44.660
それについては､ これからのチュートリアルで詳しく説明します｡ 

17:44.660 --> 17:52.220
今日のセッションを楽しんでいただければ幸いです｡ 今の段階では､ ちょっととても基本的な内容に聞こえるかもしれませんが､ このセクションを進めていくうちに､

17:52.220 --> 17:56.450
もう少し複雑な内容を追加していく予定です｡

17:56.450 --> 18:01.280
同時に､ もしあなたが待てない､ 飛びつきたいのであれば､ あなたが見ることができる論文があります､

18:01.280 --> 18:04.220
それはリチャード・ベルマンのオリジナルの論文です｡

18:04.220 --> 18:11.210
1954年に出版された「Theory of Dynamic Programming」という本で､ このリンク先で見ることができます｡

18:11.210 --> 18:16.400
だから､ そのまま飛び込んで､ 『ベルマン方程式』の著者から読むことができるのです｡ 

18:16.400 --> 18:20.660
ただ､ これはかなり数学的に重い論文であることを念頭においてください｡ 

18:20.660 --> 18:22.730
というわけで､ 次回もよろしくお願いします｡ 

18:22.730 --> 18:24.110
そしてそれまで､ お楽しみに｡ 

18:24.140 --> 18:24.710
I.