WEBVTT

00:00.830 --> 00:03.830
こんにちは､ 人工知能の講座にようこそ｡ 

00:03.830 --> 00:08.120
ベルモント方程式について話し､ 私たちの小さな迷路を分析したわけです｡ 

00:08.300 --> 00:10.760
それでは､ 企画をご覧ください｡ 

00:10.880 --> 00:12.200
どのような計画ですか？

00:12.500 --> 00:14.570
さて､ ここからは迷路の分析です｡ 

00:14.570 --> 00:19.430
そして､ 実際に状態､ 各状態の値を見ることができることもわかっています｡ 

00:19.430 --> 00:22.760
あらゆる状態にあることの価値を見出すことができるのです｡ 

00:23.060 --> 00:27.530
それゆえ､ 「私」は､ あるいは「エージェント」は､ この迷路をナビゲートすることができるのです｡ 

00:27.530 --> 00:28.730
では､ どのような計画なのでしょうか｡ 

00:28.730 --> 00:33.830
まあ､ この計画は､ 簡単に言えば人工知能の宝の地図のようなものなんですけどね｡ 

00:34.190 --> 00:43.340
これらの値を見る代わりに､ その値を知っているためにエージェントがどの方向に進むべきかを示す矢印に置き換えてみましょう｡

00:43.340 --> 00:50.810
つまり､ 理想的なシナリオは､ この環境を探索した後､ それぞれの状態にあることの価値を知り､ その結果､ このマップを導き出すことができるのです｡

00:50.810 --> 00:51.800
では､ 見てみましょう｡ 

00:51.800 --> 00:54.260
ここでも､ 価値は1つであることがわかる｡ 

00:54.260 --> 00:57.770
だから､ この2つのうちここにいるのなら､ より良いのはこっちの方だ｡ 

00:57.770 --> 01:00.080
2つのうち､ ここから右に行くわけですね｡ 

01:00.110 --> 01:00.890
こっちの方がいいんじゃない？

01:00.890 --> 01:01.790
こっちの方がいいんじゃない？

01:01.820 --> 01:02.690
こっちの方がいいんじゃない？

01:02.690 --> 01:04.660
というか､ 実はここから先は2つの選択肢があるんですね｡ 

01:04.670 --> 01:06.830
だから､ ここはネクタイみたいなものです｡ 

01:06.860 --> 01:12.860
だから､ 適当に1つ選べばいいんです｡ どっちでもいいんですよ､ これの価値は同じですから｡

01:12.860 --> 01:18.290
ましてや､ 目を通したとしても､ 同じだけの手順､ 同じ数のステップを踏んで､ 最後にたどり着きます｡

01:18.500 --> 01:22.490
ここからは3つの選択肢がありますが､ ここからはこちらの方がお得です｡ 

01:22.490 --> 01:24.170
ここからはこちらの方がお得です｡ 

01:24.200 --> 01:28.880
明らかに､ こちらの方がお得です｡ なぜなら､ こちらはすぐにマイナス1の報酬が得られるからです｡ 

01:29.480 --> 01:31.880
そしてここから先は､ 実際に3つほどあります｡ 

01:31.880 --> 01:35.150
だから､ でも､ これはその中で一番いいもの､ 州のベストバリューなんです｡ 

01:35.240 --> 01:41.000
ですから､ 矢印に置き換えると､ エージェントがここから出発した場合､ あるいは何らかの理由でこの広場に行き着いた場合､

01:41.000 --> 01:46.990
ここから出る方法を知っているので､ 広場から出発することになる､ という理屈になります｡

01:46.990 --> 01:48.890
ここから出る方法などを知っている｡ 

01:48.890 --> 01:51.350
それがプランというものなんですね｡ 

01:51.350 --> 01:56.300
また､ プランとポリシーを混同しないように｡ この先､ ポリシーの話も出てきますから｡ 

01:56.300 --> 02:01.220
ポリシーはプランと非常によく似ていますが､ 環境が少し変わってくるので､

02:01.220 --> 02:07.430
ちょっとしたトリックがあります｡

02:07.760 --> 02:09.950
だから､ 早く次の作品でお会いしたいです｡ 

02:09.950 --> 02:11.600
そしてそれまで､ お楽しみに｡ 

02:11.600 --> 02:12.110
I.
