WEBVTT

00:00.950 --> 00:03.650
こんにちは､ 人工知能の講座にようこそ｡ 

00:03.650 --> 00:07.640
そして今日は､ マルコフ決定過程（MDP）の話をします｡ 

00:08.570 --> 00:10.880
それでは､ 本日の内容をご覧ください｡ 

00:11.210 --> 00:13.970
さて､ 前回は地図の概念に止まりました｡ 

00:13.970 --> 00:20.930
つまり､ ベルモント方程式に基づいて値を計算したからこそ､ この迷路のエージェントのマップを導き出すことができるのです｡

00:20.930 --> 00:27.080
そして基本的には､ チェンジエージェントがどこからでも始められるということです｡ 

00:27.260 --> 00:30.800
どのようなステップを踏めばゴールにたどり着けるのかが明確なのです｡ 

00:30.800 --> 00:32.210
だから､ そのまま上がっていく｡ 

00:32.210 --> 00:33.800
上､ 右､ 右

00:33.800 --> 00:34.750
そして完了｡ 

00:34.760 --> 00:39.710
ここで疑問なのは､ それは本当に簡単なことなのか､ ということです｡ 

00:39.710 --> 00:44.630
強化学習はそんなに､ あの､ 言葉は悪いですが､ つまらないものなのでしょうか？

00:44.630 --> 00:47.390
それは､ 地図を手に入れたらそれで終わりです｡ 

00:47.390 --> 00:49.280
あとは､ あなたがやるだけです｡ 

00:49.640 --> 00:50.660
地図に従うだけでいいんです｡ 

00:50.810 --> 00:55.400
まあ､ 実際はそんなに単純な話ではないのですが｡ 

00:55.400 --> 01:02.360
そしてそれは､ 私たちにとってこのコースがより興味深いものになり､ 実際にもっと複雑な問題を解決できるようになるからです｡

01:02.360 --> 01:05.390
そこで登場するのがマルコフ過程です｡ 

01:05.390 --> 01:07.640
その前に､ 2つのことをお話しします｡ 

01:07.640 --> 01:11.300
決定論的な検索と非決定論的な検索についてお話します｡ 

01:11.390 --> 01:14.330
そこで､ 決定論的探索の概念についてお話ししましょう｡ 

01:14.510 --> 01:16.430
これが､ 迷路の中のエージェントです｡ 

01:16.430 --> 01:26.660
そして､ 決定論的探索とは､ エージェントが上がると決めたら､ 100%の確率で上がることが起こるということです｡

01:26.780 --> 01:28.610
まさにその通りです｡ 

01:28.610 --> 01:29.630
他に選択肢はない｡ 

01:29.630 --> 01:33.590
一度､ 上に行くというか､ 上矢印をクリックすると､ 上に行くようになります｡ 

01:33.590 --> 01:34.640
他に選択肢はない｡ 

01:35.060 --> 01:41.450
一方､ 非決定論的探索とは､ エージェントが「上に行きたい」と言ったときのことです｡ 

01:41.930 --> 01:44.210
実は2つほど選択肢があるのです｡ 

01:44.210 --> 01:50.180
例えば､ 選択肢が3つある例を見てみますが､ 3つに限定する必要はありません｡

01:50.180 --> 01:54.200
それは4つかもしれないし､ 問題によって違うかもしれません｡ 

01:54.200 --> 02:00.530
ランダム性は違うかもしれませんが､ この場合､ 80％の確率で上に行くが､ 10％の確率で､

02:00.530 --> 02:09.230
上に行きたいときに､ 環境がそうなっているからという理由で､ 実際には左に行くという3つの選択肢があり得ます｡

02:09.230 --> 02:10.820
それが､ 彼の生きる世界です｡ 

02:11.180 --> 02:14.690
そして､ さらに10％の確率で､ 彼は実際に右に行くだろう｡ 

02:14.690 --> 02:17.090
そしてこの場合､ 焚き火台に落ちます｡ 

02:17.660 --> 02:20.600
そういうことなんですね｡ 

02:20.660 --> 02:24.830
これは非決定論的探索の一例で､ 確率的なプロセスです｡ 

02:24.830 --> 02:36.290
そして､ このポイントは､ 現実の世界で実際に起こりうる問題に対して､ より現実的なモデルを作るということなのです｡

02:36.290 --> 02:41.270
なぜなら､ 何かをしたらその通りになる､ というような状況はごく稀にしかないからです｡

02:41.270 --> 02:46.430
また､ ゲームで考えても､ 例えばエージェントが『パックマン』で遊んでいたとします｡ 

02:46.430 --> 02:48.410
まあ､ いつもというわけではありませんが｡ 

02:48.410 --> 02:53.000
広場に立っている人が上に行くと､ 毎回まったく同じ結果になるかというと､

02:53.000 --> 03:01.340
確かに上に行きますが､ 幽霊に食われない場合もあれば､ 幽霊に食われる場合もあるわけです｡

03:01.340 --> 03:07.280
そのため､ ゴーストの動き方によってランダム性があり､ いつも同じように動くとは限りません｡

03:07.280 --> 03:09.260
いつも同じ場所からスタートするわけではありません｡ 

03:09.260 --> 03:11.060
だから､ とても論理的なんです｡ 

03:11.060 --> 03:14.270
ランダム性があるのは非常にフェアだと思います｡ 

03:14.270 --> 03:25.310
エージェントのコントロール下にないものがあり､ それをどう扱うか､ それがベルマン方程式や強化学習プロセス全体にどう影響するかを学ぶために､

03:25.310 --> 03:28.070
これを表現する方法に過ぎません｡

03:28.970 --> 03:35.510
しかし同時に､ ランダム性はもちろん､ 上に行けば右に行く確率が10％､ 左に行く確率が10％という限定的なものではありません｡

03:35.510 --> 03:38.300
あるいは､ 下に行けば､ 10％の確率で右か左に行くんです｡ 

03:38.300 --> 03:40.490
あるいは､ 右に行けば､ 10％の確率で上か下に行く｡ 

03:40.500 --> 03:42.890
行き着く先は限定されない｡ 

03:42.890 --> 03:44.420
ということもあるかもしれません｡ 

03:44.420 --> 03:47.180
それこそ､ 確率が違う場合もあるかもしれません｡ 

03:47.180 --> 03:51.050
時にはランダムが煮詰まることもあるかもしれません｡ 

03:51.050 --> 03:55.610
パックマンの例のように､ 幽霊に食べられるか食べられないかで煮詰まってしまうかもしれません｡ 

03:55.610 --> 03:58.760
あるいは､ もっと別のところに集約されるかもしれません｡ 

03:58.760 --> 04:05.510
例えば､ エージェントがドゥームをプレイしているときに､ モンスターみたいなのが出てきて､ ある場合は彼を撃ってしまうとか､

04:05.510 --> 04:08.900
別のゲームの場合とかね｡

04:08.990 --> 04:14.840
撃たれる確率と撃たれない確率があるようなものですからね｡

04:14.840 --> 04:19.460
つまり､ エージェントがコントロールできないもの､ 予測できないもの｡ 

04:19.460 --> 04:22.790
それが､ ここでの非決定論的探索のモデルなのです｡ 

04:22.790 --> 04:32.720
そして､ ここでマルコフ過程と､ あるいはマーク付きマルコフ決定過程という､ 2つの新しい概念に直接アプローチしたのです｡

04:32.720 --> 04:38.600
私は定義やたくさんの文章をスライドに載せるのが好きではありませんが､

04:38.600 --> 04:42.230
今回は必要なので見てみましょう｡

04:42.230 --> 04:43.250
では､ 見てみましょう｡ 

04:43.280 --> 04:46.160
確率過程には特性のマークがあります｡ 

04:46.160 --> 04:51.710
過去と現在の両方の状態を条件とするプロセスの将来の状態の条件付き確率分布が､

04:51.710 --> 04:58.040
現在の状態のみに依存し､ それ以前の一連のイベントには依存しない場合｡

04:58.070 --> 05:00.320
この性質を持つプロセスをマークアッププロセスと呼ぶ｡ 

05:00.820 --> 05:07.840
非常に複雑な定義で､ ちょっとでも矛盾していないような､ 矛盾しているような感じがします｡

05:07.840 --> 05:11.950
つまり､ ここでは､ 私の過去と現在の状態の両方が条件となるが､ 同時に現在の状態だけが条件となる､

05:11.950 --> 05:14.250
と書かれているのです｡

05:14.260 --> 05:17.530
だから､ あまりそれにとらわれないでください｡ 

05:17.590 --> 05:19.270
わかりやすく分解してみる｡ 

05:19.270 --> 05:22.930
つまり､ 財産の目印は､ 自分の将来の状態がどうなっているかということです｡ 

05:22.930 --> 05:26.920
だから､ 自分の選択だけでなく､ 全体として､ 自分の選択と環境｡ 

05:27.130 --> 05:33.850
それは､ その環境の中であなたが取る行動の結果が､ あなたが今いる場所に依存するだけであるようになります｡

05:33.850 --> 05:35.650
それは､ どうやってそこにたどり着いたかによるものではないでしょう｡ 

05:35.860 --> 05:36.460
そして､ それだけです｡ 

05:36.460 --> 05:40.510
それが財産の市場であり､ このような性質を持つプロセスを市場プロセスと呼ぶわけです｡ 

05:40.600 --> 05:47.950
だから､ 例えるなら､ あなたのエージェントがここにいて､ もし彼が行くとしたら､ 彼が上に行くと決めたら､ 行くかもしれないわけです｡

05:47.950 --> 05:52.810
今回の非決定論的探索の例では､ 実際に左右に動くかもしれません｡ 

05:52.810 --> 05:53.560
わかりました｡ 

05:53.560 --> 05:57.490
それは､ 私たちの環境の中に､ その確率論があるからです｡ 

05:57.490 --> 05:59.560
私たちの環境の中にも､ そのランダム性があります｡ 

05:59.560 --> 06:01.630
だから､ この3つのうち､ どれかが起こるかもしれない｡ 

06:01.630 --> 06:07.030
しかし､ ここで重要なのは､ 彼がどうやってここに来たかは気にしないので､ これはプロセスのマークであるということです｡ 

06:07.030 --> 06:10.060
彼は､ 上から来てここに行き着いたかもしれないし､ 左から来たかもしれない｡ 

06:10.060 --> 06:12.190
そして､ ここまで来ると､ 底辺からやってきて､ ここにたどり着いたのかもしれません｡ 

06:12.190 --> 06:16.420
彼はこの辺りを10万回くらい移動して､ ここにたどり着いたのかもしれませんね｡ 

06:16.420 --> 06:18.670
以前のことは関係ない｡ 

06:18.670 --> 06:22.120
重要なのは､ 彼が今どの状態にあるかということだけだ｡ 

06:22.210 --> 06:31.960
だから､ 右にも左にも上にも行く確率は､ 今の状態なら常に同じなのです｡

06:32.530 --> 06:37.480
つまり､ 私たちが今ここにいるのは､ その前に何があったかは関係ない､ ということです｡ 

06:37.570 --> 06:39.040
こんな状態なんですね｡ 

06:39.040 --> 06:42.250
忘れてはならないのは､ その状態とは､ 彼が立っている場所だけを意味するのではないということです｡ 

06:42.250 --> 06:46.570
状態とは､ 環境におけるエージェントの全体の状態のことである｡ 

06:46.570 --> 06:49.900
では､ 右側にモンスターがいるようなものなのか､ 左側にモンスターがいるようなものなのか｡ 

06:49.900 --> 06:52.660
それとも､ ゴーストは下から上に向かって出ているのでしょうか？

06:52.660 --> 06:55.480
あなたが今どんな状態であろうと､ そこに至るまでの経緯は関係ないのです｡ 

06:55.480 --> 06:58.720
その状態でそこにいるのは､ どういう経緯でそうなったかは関係ない｡ 

06:58.720 --> 07:03.730
さて､ 未来に何が起こるかは､ 今の状態と､ その時に取る行動､ それにもちろん､

07:03.730 --> 07:07.030
その上に重なるランダム性によってのみ決定される｡

07:07.210 --> 07:23.290
つまり､ これはプロセスのマークであり､ 決定プロセスのマーク､ あるいはMDP､ マルコフ決定過程は､ 結果が部分的にランダムで部分的に意思決定者のコントロール下にある状況での意思決定をモデル化するための数学的枠組みを提供するものです｡

07:23.290 --> 07:34.210
マルコフ決定過程は､ マルコフ過程とは異なる概念であり､ 数学的な枠組みのようなものだと理解してください｡

07:34.210 --> 07:38.770
だから､ でも同時に､ マルコフ過程がどういうものかを理解することは､

07:38.770 --> 07:43.060
やはり意思決定過程のマークの理解に役立つと思ったのです｡

07:43.060 --> 07:52.060
つまり､ 意思決定プロセスとは､ まさにこれまで議論してきたような､ エージェントがコントロールできる環境に身を置くことなのです｡

07:52.060 --> 07:57.400
例えば､ 以前は何が起こっているのかを完全に制御していたのに､ 今は少し制御が効かなくなっていることを思い出してください｡

07:57.400 --> 08:00.160
上がると決めることはできても､ 実はわかっている｡ 

08:00.160 --> 08:03.490
なるほど､ 上がれば80％の確率で上がるんですね｡ 

08:03.490 --> 08:05.950
左の確率が10％､ 右に行く確率が10％｡ 

08:05.950 --> 08:08.860
ですから､ すべてが完全にコントロール下にあるわけではありません｡ 

08:08.860 --> 08:10.660
この環境には､ ランダム性があります｡ 

08:10.660 --> 08:12.970
それこそが､ 意思決定プロセスのマークなのです｡ 

08:12.970 --> 08:19.330
マルコフ決定過程は､ エージェントがこの環境で何をすべきかを理解するために使用するフレームワークである｡

08:19.330 --> 08:23.740
つまり､ 確率的な､ ランダムな環境があり､ エージェントは､ 例えば､

08:23.740 --> 08:28.480
上か下か､ 左か右か､ といった選択をしなければならないのです｡

08:28.480 --> 08:29.680
どうしたらいいのかわからない｡ 

08:29.830 --> 08:36.130
そして､ その決定をするために､ マルコフ決定過程のフレームワークを適用して､

08:36.130 --> 08:40.690
何が起こるのか､ どこに行くのかを決定します｡

08:40.810 --> 08:47.530
そして､ 基本的にこの問題を引き起こす環境は､ 意思決定プロセスのマークと呼ばれています｡ 

08:47.530 --> 08:49.900
つまり､ エージェントが使っているフレームワークですね｡ 

08:49.900 --> 08:55.450
同時に､ エージェントはマルコフ決定過程の環境下で動作していることが参照される｡

08:56.110 --> 08:57.910
このように､ 基本的に2つのコンセプトがあります｡ 

08:57.910 --> 09:06.820
マルコフプロセスは､ この環境の設計の仕方で､ 今いる場所から何が起こるかを過去に依存しないようにします｡

09:06.820 --> 09:13.510
そして同時に､ この環境を解決するためにエージェントが使用するフレームワークである「意思決定プロセス」のマークが表示されます｡

09:13.720 --> 09:18.760
そして良いニュースは､ 私たちが話している決定プロセスのマークやフレームワークは､ 実はベルマン方程式に追加しただけのもので､

09:18.760 --> 09:24.670
ベルマン方程式をもう少し洗練させたものだということです｡

09:24.670 --> 09:26.500
では､ その様子をご覧いただきましょう｡ 

09:26.890 --> 09:28.180
これが我々のベルマン方程式である｡ 

09:28.180 --> 09:30.970
ここまでは､ あらゆる可能性を秘めた最大限の行動です｡ 

09:30.970 --> 09:35.620
つまり､ ある状態にあることの価値は､ その状態から取り得るすべてのアクションの最大値ということになります｡

09:36.100 --> 09:45.160
その状態でその行動をとることで得られる報酬から最大値をとり､ それに割引率×次の状態の値である素数を加えたものである｡

09:45.160 --> 09:50.380
今までは､ 全体の流れにランダム性があったので､ そうなっていたんですね｡ 

09:50.380 --> 09:56.050
この､ どの状態が終わるのか､ プライムがどうなるのか､ 実はわからないからこそ､ この部分は変わってくる｡

09:56.050 --> 09:59.170
上がるなら上がる､ 残るなら残るとなるのでしょうか｡ 

09:59.170 --> 09:59.770
果たして､ 私たちは正しいのだろうか？

09:59.830 --> 10:04.660
ですから､ 実際にはこれを次の状態の期待値で配置する必要があります｡ 

10:04.660 --> 10:06.340
そこで､ ここではこれを置き換えることにします｡ 

10:06.340 --> 10:08.350
つまり､ 3つの状態が考えられるということです｡ 

10:08.530 --> 10:12.340
そして､ それを何らかの価値に置き換えるわけです｡ 

10:12.670 --> 10:22.180
その状態は1素数として､ その状態は2素数として､ この状態はS3素数のVという値を持っています｡

10:22.420 --> 10:28.690
つまり､ その状態になる確率と､ この状態になる確率10％､ さらにその状態になるための法案あたりを足したものですから､

10:28.690 --> 10:35.260
実際に入るつもりの状態を80％掛け算することになります｡

10:35.260 --> 10:37.960
つまり､ これはあくまで私たちの期待値なのです｡ 

10:37.960 --> 10:45.220
だから､ 統計学から､ その状態になる期待値をとれば､ 入るということです｡ 

10:45.790 --> 10:51.370
つまり､ 平均的なものは何なのか､ それをこちらに置き換えるという感じです｡

10:51.790 --> 10:52.870
すると､ このような式が得られます｡ 

10:52.870 --> 10:55.570
この方程式が大きくなっただけで､ とても速くジャンプするようになりました｡ 

10:55.570 --> 10:57.850
でも､ よく見ると､ まったく同じことなんです｡ 

10:57.850 --> 11:06.220
ここにマックがあり､ ここに良いマックがあり､ それからSのRとAがあり､ SEのRがあり､ ここにガンマがあるわけです｡

11:06.220 --> 11:08.530
そして､ 最後にここにVがある｡ 

11:08.530 --> 11:11.590
つまり､ 決定論的な探索であることを正確に知っていたわけです｡ 

11:11.590 --> 11:13.360
どの状態になるのか､ わかっていたんですね｡ 

11:13.390 --> 11:15.010
今はどの州に入るかわからない｡ 

11:15.010 --> 11:20.530
つまり､ Vを取るのではなく､ 自分が入る状態の期待値､ あるいは将来の状態の期待値､

11:20.530 --> 11:25.790
もっと簡単に言えば､ 自分が入る状態の平均値を取っているに過ぎないのです｡

11:25.810 --> 11:32.830
ということは､ 33％の確率で､ これとこれとこれを足して3で割ったような形になるわけです｡

11:32.830 --> 11:37.060
しかし､ この場合､ It's not exactly like average average.

11:37.060 --> 11:40.120
これは確率の加重平均です｡ 

11:40.120 --> 11:46.000
つまり､ この状態にあるときに､ この状態になる行動をとる確率を､ 素数×素数の値として､

11:46.000 --> 11:51.760
こっちで入る可能性のあるすべての素数で合計したものがありますね｡

11:51.760 --> 11:53.590
つまり､ まさにここに3つあったということです｡ 

11:53.590 --> 11:54.640
1､ 2､ 3

11:54.640 --> 11:56.470
確率で掛け合わせたものを足す｡ 

11:56.470 --> 11:57.130
足し算してください｡ 

11:57.130 --> 11:57.790
こちらも同じです｡ 

11:57.790 --> 11:58.750
1､ 2､ 3

11:58.750 --> 12:01.480
確率で掛け合わせ､ 足し算をする｡ 

12:01.840 --> 12:04.930
そして､ これが新しいベルモントの方程式です｡ 

12:05.020 --> 12:06.220
おめでとうございます｡ 

12:06.220 --> 12:13.510
これが今後の課題であり､ マルコフ意思決定プロセスで使われるフレームワークです｡

12:13.510 --> 12:20.710
このように､ 自分ではコントロールできないランダムな事象が発生する確率的､ 非決定論的探索問題を解決するために､

12:20.710 --> 12:25.300
エージェントが使用するフレームワークがあるのです｡

12:25.300 --> 12:26.830
だから､ もっと複雑なんです｡ 

12:26.830 --> 12:32.680
しかし､ ご覧のように､ 今までに少しずつ積み上げてきたため､ 私たちはすでにこのことを知り､ このことについて読み､

12:32.680 --> 12:36.670
このことについて知り､ このことについて知っているのです｡

12:36.670 --> 12:45.520
つまり､ 行動やその結果には確率が伴うので､ この部分を紹介しただけなのです｡

12:46.030 --> 12:48.550
そして決定論的には､ ある確率に基づくものである｡ 

12:49.060 --> 12:50.470
そして､ こうなりました｡ 

12:50.470 --> 12:57.820
それが市場の意思決定プロセスの仕組みであり､ その背後にある方程式なのです｡ 

12:58.240 --> 13:04.600
もう一度言いますが､ すべてが一筋縄ではいかないからこそ､ より現実の問題､ 現実のシナリオ､

13:04.600 --> 13:08.650
あるいはゲームのシナリオに近いものがあるのです｡

13:08.650 --> 13:15.670
すべての関係者のランダム性があり､ 常にある状態でアクションを起こすとは限りません｡ 

13:15.670 --> 13:16.360
常にそうでないだろう｡ 

13:16.360 --> 13:18.610
まあ､ いつも同じ結果になるとは限りませんが｡ 

13:18.610 --> 13:24.100
そして､ これが今後の課題であり､ 事態をより面白くすることになるのです｡

13:24.100 --> 13:29.170
だから､ それを楽しみにしていてほしいし､ 次に何が来るか楽しみにしていてほしい｡ 

13:29.410 --> 13:35.800
そんな中､ 今回はとてもかっこいい紙を見つけたので､ ぜひ見てみてください｡ 

13:35.800 --> 13:39.820
非常に応用的な論文なので､ 実はこれ､ 読み進めるとすごく面白いんです｡ 

13:40.000 --> 13:46.000
A Survey of Applications of Markov Decision Processes Processesというタイトルで､

13:46.000 --> 13:47.890
1993年にホワイトが書いたものです｡

13:47.890 --> 13:56.950
リンク先には､ マルコフ決定プロセスが実際のシナリオのモデルとして使われている例が紹介されています｡

13:56.950 --> 13:59.470
これには､ とても興奮したと思います｡ 

13:59.470 --> 14:00.940
いくつかの例に感銘を受けました｡ 

14:00.940 --> 14:03.430
例えば､ 人口収穫ですね｡ 

14:03.610 --> 14:09.220
では､ 魚がある程度いて､ その魚の個体数がどうなっているかというと､ 今年は何匹を釣り上げることができるのか､

14:09.220 --> 14:13.210
何をするのかを決める必要があるのです｡

14:13.210 --> 14:14.260
それが今の状態なんですね｡ 

14:14.260 --> 14:15.550
それが､ あなたの行動です｡ 

14:15.550 --> 14:19.930
今年は何本撮影できたので､ その結果､ 何が考えられるか？

14:20.470 --> 14:22.000
来年は何匹になるんだろう？

14:22.000 --> 14:24.850
再来年､ 再々々年と､ 何匹になるのだろう？

14:24.850 --> 14:30.490
しかも､ 抜いて90%になったら翌年には100%に戻るというようなことはないので､

14:30.490 --> 14:32.800
決定論的ではありません｡

14:32.800 --> 14:34.570
正確には決定論的ではないのです｡ 

14:34.570 --> 14:37.600
私たちがコントロールできない､ ある種のランダムな要因が関係しています｡ 

14:37.600 --> 14:41.230
それゆえ､ 何が起こるのかを理解しなければなりません｡ 

14:41.230 --> 14:42.580
何が起こるかをモデル化する必要があるのです｡ 

14:42.580 --> 14:44.490
そこで使われるのがマルコフ決定過程です｡ 

14:44.800 --> 14:48.160
農業も同じで､ 作物を収穫するような例もありますね｡ 

14:48.160 --> 14:49.330
どれくらいの作物を収穫するのか？

14:49.330 --> 14:49.900
いくらですか？

14:49.900 --> 14:51.220
どれだけ収穫がないのか？

14:51.220 --> 14:59.710
もう1つは､ 保険会社が資金をどの程度投資するかを決めるような金融・投資を見ていました｡

14:59.770 --> 15:02.860
与えられた､ 1日とか1年とか､ ある程度の期間があると思うんです｡ 

15:02.860 --> 15:06.400
そして､ どうしようもない要因もあります｡ 

15:06.400 --> 15:09.130
例えば､ 市場の動き､ それは何が起こるかわからない｡ 

15:09.130 --> 15:14.080
そのため､ 実際に何らかの方法でそれをモデル化する必要があり､ そのために市場の意思決定プロセスが利用されるのです｡ 

15:14.080 --> 15:20.260
このように､ たくさんの事例が紹介されていますが､ これは､ それぞれの事例が与えられた数だと思います｡

15:20.380 --> 15:29.500
そして､ スポーツでも､ スポーツと疫病､ 自動車保険の請求､ 点検や整備､ 修理などで2つの例があります｡

15:29.500 --> 15:30.940
とても興味深いです｡ 

15:30.970 --> 15:31.810
見てみてください｡ 

15:31.810 --> 15:40.960
ただ､ これは作り話でも､ 仮説でも､ マトリックスのようなものでもない､ ということを理解していただきたいのです｡

15:40.960 --> 15:42.520
これは､ 実は現実の世界での話です｡ 

15:42.520 --> 15:44.710
だから､ より理解が深まるのです｡ 

15:44.710 --> 15:49.240
そして､ これはこの講座のプロモーションビデオで話していたことですが､ あるいは講座の説明で､

15:49.240 --> 15:55.810
あなたとあなたの直感を刺激して､ 実生活でAIをどのように使うかのアイデアを提供します｡

15:55.810 --> 15:57.490
これはチャンスです｡ 

15:57.760 --> 16:02.680
この論文を見て､ そうか､ これからはマルコフ決定過程を扱うんだな､ と理解してください｡

16:02.680 --> 16:03.790
本当にかっこいいですね｡ 

16:03.790 --> 16:05.170
実際のところはどうなんでしょうか？

16:05.170 --> 16:11.110
そして､ このことがきっかけとなり､ 将来的にAIを活用して世界をより良くするためのアイデアを得ることができるかもしれません｡

16:11.500 --> 16:13.600
そうなれば､ 私たちは超嬉しいです｡ 

16:13.600 --> 16:18.640
この講座で学んだことを活かして､ AIで世の中をより良くしていってくれたら､ 超嬉しいです｡

16:18.670 --> 16:19.870
それはどんなに素晴らしいことでしょう？

16:20.170 --> 16:23.050
さて､ 今日のチュートリアルを楽しんでいただけたでしょうか？

16:23.050 --> 16:24.460
次回お会いできるのを楽しみにしています｡ 

16:24.460 --> 16:26.470
そしてそれまで､ iを楽しんでください｡