WEBVTT

00:01.080 --> 00:04.590
こんにちは､ 人工知能の講座にようこそ｡ 

00:04.590 --> 00:07.620
今日は時間差の話です｡ 

00:07.860 --> 00:14.900
さて､ このチュートリアルは非常に重要です｡ なぜなら､ 時間差はQ学習アルゴリズムの心臓部であり､ 魂なのです｡

00:14.910 --> 00:22.110
実はこのように､ これまで学んできたことが､ 学習内部で活かされているのです｡ 

00:22.110 --> 00:23.340
では､ 見てみましょう｡ 

00:23.730 --> 00:29.100
決定論的探索と非決定論的探索について話したとき､ この場合､ エージェントが上に行きたいと思えば､

00:29.100 --> 00:34.290
間違いなく上に行く､ と言ったことを思い出してください｡

00:34.290 --> 00:37.330
そして､ この場合､ 彼が上に行きたいと思ったとき､ 10％の確率で行くことになるのです｡ 

00:37.440 --> 00:40.800
彼が右に行く確率は10％､ 右に行く確率は80％と残されている｡ 

00:41.340 --> 00:42.270
直進する｡ 

00:42.270 --> 00:46.320
まあ､ この数字はもちろん恣意的なもので､ 違うこともあり得ますが｡ 

00:46.320 --> 00:50.610
そして､ この全体のコンセプトは､ 異なる問題で異なる可能性があります｡ 

00:50.610 --> 00:59.730
つまり､ エージェントがどの方向に動くかは関係なく､ この環境の中で､ エージェントのコントロールが及ばないランダムなことが起こっているのです｡

00:59.730 --> 01:09.000
その結果､ どんな効果があったかというと､ 覚えていらっしゃるように､ 決定論的な例では､ 値を計算するのが非常に簡単だったのです｡

01:09.000 --> 01:10.950
まあ､ 必ずしもいつもすごく簡単というわけではありませんが｡ 

01:10.950 --> 01:15.060
しかし､ 私たちの場合は､ ベルマン方程式を使って単純に計算すればいいのです｡ 

01:15.060 --> 01:17.070
そして､ 私たちは正確な数値を持っていました｡ 

01:17.070 --> 01:27.630
それから､ 覚えていらっしゃると思いますが､ 非決定論的探索の例でのこれらの値は､ 私の頭の中にあるものであることを非常に慎重に述べました｡

01:27.630 --> 01:28.650
計算されないのです｡ 

01:29.130 --> 01:33.000
その時､ 私は「非常に複雑なので､ 計算するのはやめよう」と言いました｡ 

01:33.000 --> 01:39.510
でも､ コンピュータはできるんだから､ この価値観は私が作ったものでいいじゃないか､ ということで進んでいったんです｡

01:39.510 --> 01:41.220
しかし､ 彼らは仕事をやり遂げた｡ 

01:41.220 --> 01:47.760
コンセプトをよく理解させてくれたので､ 今度はそれに少し戻って､ 具体的に何が起こっているのかを理解したいと思います｡

01:47.760 --> 01:59.520
非決定論的な例や､ 一般的に言えば､ このような問題､ 環境､ それを通過するエージェントにおいて､ これらの値を計算することがなぜそんなに難しいのでしょうか？

01:59.520 --> 02:02.790
なぜ､ このような値を算出するのが難しいのでしょうか？

02:02.790 --> 02:11.340
考えてみると､ 例えばエージェントがここから右に移動するとき､ 必ずしもいつもその方向に移動するとは限りませんからね｡

02:11.340 --> 02:15.930
時には直進せずにto oneに行く可能性もある｡ 

02:15.930 --> 02:24.330
そこで､ これを北東､ 南西､ ソなどと呼ぶことにしよう｡  西へ行くのではなく､ 南へ行くこともある｡

02:24.480 --> 02:28.980
そして､ たとえばここから､ 北へ行くのではなく､ 東へ行くこともある｡ 

02:29.220 --> 02:30.180
とても残念です｡ 

02:30.180 --> 02:32.970
だから､ ここでは東に行くのではなく､ 南に行くこともある｡ 

02:32.970 --> 02:36.840
そして､ ここでは北に行くのではなく､ 時には東や西に行くこともある｡ 

02:36.840 --> 02:40.980
そしてここでは､ 北へ行くのではなく､ 時には東へ､ 西へ行くこともある｡ 

02:40.980 --> 02:42.960
だから､ だから､ そうなんだ｡ 

02:42.960 --> 02:46.290
この値を計算するためには､ この値が何であるかを知る必要がある｡ 

02:46.470 --> 02:50.880
しかし､ 面白いのは､ この値を計算するためには､ この値が何であるかを知る必要があることです｡

02:50.880 --> 02:57.240
つまり､ ここでは多くの再帰的な処理が行われているため､ これらの値が何であるかを定義することはできません｡

02:57.240 --> 03:01.080
そのうえ､ この再帰は決定論的なものではありません｡ 

03:01.080 --> 03:02.910
このようになることもあるのです｡ 

03:02.910 --> 03:04.890
上に行くのではなく､ 右に行くこともある｡ 

03:04.890 --> 03:07.080
上に行くのではなく､ 左に行くこともある｡ 

03:07.080 --> 03:10.290
本人が上がりたいと思ったときに上がることもある｡ 

03:10.290 --> 03:12.780
だから､ 偶然に左右されるのです｡ 

03:12.780 --> 03:17.850
そして､ おそらく何度も捜査官はこの道を通り､ 上へ､ 上へ､ 上へ､ 上へと進んでいくでしょう｡ 

03:17.850 --> 03:20.730
そして､ ここから先は常に上昇するものだと考えているはずです｡ 

03:20.730 --> 03:24.660
そうすると､ 国家の価値が上がる､ 良くなる､ そして突然落とし穴に落ちて､

03:24.660 --> 03:27.210
この価値が下がってしまうのです｡

03:27.300 --> 03:35.160
したがって､ これらの値の計算全体には､ 確率的またはランダム性があることがおわかりいただけると思います｡

03:35.160 --> 03:41.880
さらに､ この環境にはランダム性が内在しており､ これは意思決定プロセスの印となるからです｡

03:42.330 --> 03:47.640
そこで､ これらの値を計算できるようにするために､

03:47.640 --> 03:52.230
時間差の概念を導入することになります｡

03:52.230 --> 03:57.540
そして､ ここではV値を扱っていましたが､ それ以降､ すでにQ値へと移行しています｡ 

03:57.540 --> 03:59.310
というわけで､ これからが本番です｡ 

03:59.310 --> 04:00.840
見ていくことになるのです｡ 

04:00.840 --> 04:01.710
Q 価値観について｡ 

04:01.710 --> 04:05.910
思い起こせば､ これがQ値のベルモント式です｡ 

04:05.910 --> 04:17.190
つまり､ AQ値､ つまりある行動Aを行うことの状態での価値は､ その行動を行った後に得られる報酬に等しいのです｡

04:17.190 --> 04:26.580
だから､ そのアクションを実行した直後に､ プラスアルファで最大値を得て､ 可能な限りの総和のガンマを得ることができる｡

04:26.850 --> 04:31.170
つまり､ 最終的に到達する状態の期待値を得るようなものです｡ 

04:31.590 --> 04:34.680
思い起こせば､ それが私たちのビルドの方程式だったわけです｡ 

04:35.070 --> 04:41.580
ここでは､ わかりやすくするために､ 昔ながらの方法で書き直します｡ ストキャスティック・シティを知る前に､

04:41.580 --> 04:45.760
ベルモント方程式について話していた方法で書き直します｡

04:45.780 --> 04:57.480
これは､ 決定論的探索の例でいうところのベルモント方程式で､ 期待値やすべての確率の総和がないわけです｡

04:57.480 --> 05:00.390
それがあたかもどこで決まったかのように持っているだけなんですね｡ 

05:00.530 --> 05:02.960
どんな状態で終わるんですか？

05:02.960 --> 05:05.270
そして､ その1つの状態で最大値を取っているのです｡ 

05:05.270 --> 05:12.140
そして､ 書き直す理由は､ 単純に書きやすいからというだけで､ 公式に沿って書き直せば､

05:12.140 --> 05:14.510
私たちも楽になります｡

05:14.510 --> 05:21.560
だから､ この部分をこの部分に置き換えたということだけ覚えておけばいいし､ また､ この表記は多くの文献で見られるので､

05:21.560 --> 05:28.160
他の資料を勉強している人はそちらを参考にすると楽でしょう｡

05:28.160 --> 05:33.530
しかし､ 実は､ ここでいう確率論的アプローチとは､ このようなものであることを忘れないでください｡ 

05:33.530 --> 05:39.200
このような表記をする代わりに､ 私たちはこれを操作して何が起こっているのかを理解し､ 数式を見るような感じで､

05:39.200 --> 05:42.410
あまりごちゃごちゃしないようにするのが簡単なのです｡

05:42.620 --> 05:47.390
しかし､ もう一度言っておきますが､ 実は､ 私たちが言いたいのは､ ここにある確率的なアプローチなのです｡ 

05:48.080 --> 05:50.060
それで､ 実はもうすぐ終わるんです｡ 

05:50.060 --> 05:52.040
では､ その様子をご覧いただきましょう｡ 

05:52.040 --> 05:56.360
そこで､ 迷路の空白の状態をご紹介します｡ 

05:56.360 --> 05:58.100
キューバリューがないんです｡ 

05:58.100 --> 05:58.880
見てみよう｡ 

05:58.880 --> 06:01.610
あるいは､ そうするかもしれませんが､ 今は空白にしておきましょう｡ 

06:01.610 --> 06:04.310
ある州だけを見てみましょう｡ 

06:04.310 --> 06:06.620
だから､ 細胞の1つ､ 具体的にはこの1つです｡ 

06:07.640 --> 06:14.240
そして､ ここでは､ 例えば､ 上がるという動作に対して､ Q値を計算したものがあります｡ 

06:14.240 --> 06:16.910
だから､ まだQ値がないわけではないんです｡ 

06:16.910 --> 06:19.850
私たちは､ そうなんですが､ 何もイラストを描いていないだけなんです｡ 

06:19.850 --> 06:22.400
シンプルにするために､ 空白にしているだけです｡ 

06:22.400 --> 06:25.490
でも､ いつの間にか歩いてる年代がいるんですよ｡ 

06:25.490 --> 06:33.830
そして､ 仮に､ 何らかの方法で､ この状態､ この特定のセルから上または北に行くというQ値を計算し､

06:33.830 --> 06:42.990
その値がQ AsとAであるとします｡

06:43.010 --> 06:48.440
諜報員はこの独房に座っていて､ これからどこに行くのか選択を迫られているのです｡ 

06:48.440 --> 06:55.910
そして彼はこの､ 北へ向かう行動の価値を知っています｡ それがQ､ S､ Aで､ ここで私は「前」と言っていますが､

06:55.910 --> 07:00.140
その理由は彼が行動を起こす前だからです｡

07:00.140 --> 07:01.520
まだアクションを起こしていないのです｡ 

07:01.520 --> 07:02.990
だから､ 彼はまだ独房の中にいるんだ｡ 

07:03.170 --> 07:11.270
そして､ 彼が行動を起こす前に､ ここでの値はQとSであり､ そして今､ 彼は実際に行動を起こしています｡ 

07:11.270 --> 07:13.580
だから､ 彼がこれがベストだと判断したとしよう｡ 

07:13.580 --> 07:16.280
彼がアクションを起こすと､ このセルに移動するんです｡ 

07:16.460 --> 07:24.290
さて､ 次に何が起こるかというと､ 彼が行動を起こした後に､ この値は何なのかを測定することができるのです｡

07:24.290 --> 07:35.180
この値､ つまりその行動をとったことによる報酬の値と､ 今入ったばかりの新しい状態の最大値であるガンマ倍を素数として計算しましょう｡

07:35.390 --> 07:38.480
そして､ se primeで可能なすべてのアクションの中で最大となるように｡ 

07:38.840 --> 07:47.120
このように､ ここにあるのはアクションを起こす前の値で､

07:47.120 --> 07:53.330
その後でこの指標を計算しました｡ しかし､

07:53.330 --> 07:58.790
前の計算式を思い出してください｡

07:58.790 --> 08:01.520
SNRのQはこうして算出されます｡ 

08:02.000 --> 08:09.470
この右の部分は､ 別々に計算したものですが､ アクションを起こした後に､ もう一度､ Sと値のQがわかるように､

08:09.470 --> 08:15.770
以前から繰り返し計算していたものなのです｡

08:15.770 --> 08:19.940
だから､ 何か......記憶に残るような価値観ですね｡ 

08:19.940 --> 08:21.830
だから､ ちょうど私たちが知っている数字のようなものです｡ 

08:21.890 --> 08:29.060
そして今､ 実行されたアクションの後､ 彼が実際に得た報酬､ エージェントが実際に得た報酬を知り､

08:29.060 --> 08:33.260
この新しい値を計算することができるのです｡

08:33.260 --> 08:36.860
要するに､ この値を再計算しているようなものですね｡ 

08:36.860 --> 08:42.800
しかし､ 今は新しい情報が入っています｡ 新しい情報とは､ 私たちが得た報酬と､ 最終的にどの状態になったか､

08:42.800 --> 08:50.510
その状態での最大値､ つまり､ 私たちが見ている特定の状態での新しい値なのです｡

08:50.510 --> 08:54.470
では､ その状態であることの価値は何かというと｡ 

08:54.470 --> 09:07.640
つまり､ 基本的にはSとAのQだが､ 新しい情報が与えられ､ 今度はAのTDとこれら2つの差のTDとして定義される｡

09:07.640 --> 09:11.540
つまり､ ここでは最初の要素がアフターバリューになります｡ 

09:11.540 --> 09:21.530
つまり､ SとAのQのようなものですが､ それを後から計算し､ 記憶していた前のエッセイとAのQを計算するのです｡

09:21.920 --> 09:24.050
それで､ 問題は､ 両者が異なるかどうかです｡ 

09:24.050 --> 09:26.030
だから､ 理想は同じであること｡ 

09:26.030 --> 09:31.610
理想的には､ これは単にこの計算式と同じであるべきです｡ 

09:31.610 --> 09:34.970
しかし､ これは我々が計算したものではないということです｡ 

09:34.970 --> 09:41.240
これは､ 経験則からくるもので､ ただ何度も迷路をくぐって計算することで得られるものです｡

09:41.240 --> 09:43.940
そこで､ これまでに思いついたのが､ このようなものです｡ 

09:44.240 --> 09:46.760
現在のイテレーションとは関係ない｡ 

09:46.760 --> 09:51.080
これは､ 昔､ 昔ではなく､ 以前､ 迷路の中で繰り返した時に思いついたもので､

09:51.080 --> 09:58.340
一方､ これは今､ 計算したもので､ 同じになる保証はありません｡

09:59.340 --> 10:08.700
迷路に存在するランダム性から､ ある特定のランダムな事象が発生し､ これを計算することができたからです｡

10:08.700 --> 10:11.040
さまざまなランダムイベントが発生しました｡ 

10:11.490 --> 10:13.980
で､ 今度はそれをこっちで書き換えてみましょう｡ 

10:14.010 --> 10:15.240
そのまま上に移動させましょう｡ 

10:15.540 --> 10:16.790
では､ これをどう使うか｡ 

10:16.800 --> 10:19.920
問題は､ そうか､ この時間的な差があるのか､ ということです｡ 

10:20.280 --> 10:23.340
これをどう使うか､ なぜ時間差と呼ぶのか｡ 

10:23.370 --> 10:28.920
まあ､ 時間差というのは､ 基本的に同じことを計算してるからなんだけどね｡

10:28.920 --> 10:36.090
SのQを計算しているわけですから､ その行動のQ値､ ここで計算して､ ここで計算するわけです｡

10:36.090 --> 10:38.110
しかし､ その差は時間です｡ 

10:38.130 --> 10:41.580
以前､ SNAのQです｡ 

10:41.580 --> 10:48.990
これがあなたの「Q of S」と「Q of A」であり､ 今､ あなたの新しい「Q of A」です｡ 

10:48.990 --> 10:51.270
時間軸がずれているのでしょうか？

10:51.810 --> 10:56.760
そして､ もし本当に時間の移動があったのなら､ それをどのように利用すればいいのでしょうか｡ 

10:56.760 --> 11:04.740
まあ､ 一つ言えることは､ そうですね､ 私たちのQ of Aは､ この新しい値は古い値と等しくないということです｡

11:04.740 --> 11:09.510
そこで､ 古いものを処分し､ 古いものは忘れて､ これを新しい値として使うことにします｡ 

11:09.750 --> 11:11.820
しかし､ それではスマートではない｡ 

11:11.820 --> 11:17.790
そして､ その理由は､ 私たちの環境では､ 時にランダムな出来事が起こりうるからです｡ 

11:17.790 --> 11:28.620
そして､ 私たちの昔のQ＆Aは､ 一貫して80％の時間で起こるようなことが表現されていたとしたらどうでしょう｡

11:28.620 --> 11:32.580
そして､ 今回の新作は､ まさに偶然が重なって起きたものです｡ 

11:33.150 --> 11:39.600
その場合､ その大部分を担っているものを捨てることになる｡ 

11:39.600 --> 11:43.610
そして､ 10％や20％の確率でしか起こらないことに置き換えるのです｡ 

11:43.620 --> 11:46.920
それは最善の方法ではないでしょう｡ 

11:46.920 --> 11:51.810
だからこそ､ それこそQの価値観を完全に変えたくはないのです｡ 

11:51.810 --> 11:56.700
少しずつ､ 少しずつ変化していくような使い方をしたい｡ 

11:56.700 --> 12:00.720
そして､ この時間差を具体的に利用するわけです｡ 

12:00.720 --> 12:07.020
そこで､ 私たちは､ ここに私たちのQ ofとAを取り､ このような方法で更新する式があると言います｡

12:07.020 --> 12:13.110
クルスナの古い値を､ 時間差のα倍を足していくのです｡ 

12:13.110 --> 12:15.570
だから､ アルファは私たちの学習率になるのです｡ 

12:15.570 --> 12:17.340
これは､ 今回新たに導入するパラメータです｡ 

12:17.340 --> 12:19.590
それだけ､ アルゴリズムの学習が早いということです｡ 

12:19.860 --> 12:26.940
つまり､ 基本的にはこの差額を､ それが何であれ､ 前回のQ Wednesdayに上乗せしているのです｡

12:26.970 --> 12:31.680
さて､ この式はおそらく何の意味もなさないでしょうし､ 見ただけでは､ ここに水曜日のQ､ ここにSとAのQがあるので､

12:31.680 --> 12:33.990
何の意味もなさないのです｡

12:33.990 --> 12:36.780
同じものだから､ たぶんお互いに否定し合うはずなんです｡ 

12:36.780 --> 12:39.900
でも､ これをちょっと違う形で書き換えてみるんです｡ 

12:40.170 --> 12:41.520
だから､ もう一度だけお見せします｡ 

12:41.520 --> 12:44.070
だから､ これらの数式に時間を足しているだけなんです｡ 

12:44.070 --> 12:51.000
つまり､ 前のQ Tマイナス1､ 前のQ､ Tマイナス1､ 新しいのがここにある｡ 

12:51.030 --> 12:53.010
ここにも丸があるはず､ ここにも丸があるはず｡ 

12:53.010 --> 12:53.940
でも､ 気にしないでください｡ 

12:53.940 --> 12:58.470
そして､ ここにはアルファ時間差､ 新しい時間差､ 現在の時間差があります｡ 

12:58.470 --> 13:00.330
だから､ 私たちが何をしているのかがわかるんです｡ 

13:00.330 --> 13:16.080
つまり､ 現在のQは以前のQに時間的な差を加えたものに等しいとします｡

13:16.080 --> 13:24.960
こうしてQ値が更新されていくのですが､ Q値とは何か､ ガンマとは何か､ Rとは何か､ このようなことはすでに学習済みなので良いのですが｡

13:25.200 --> 13:30.180
あとは､ 以前のQ値を持っていることが確認できればよいのです｡ 

13:30.270 --> 13:31.560
そう､ それがいいんです｡ 

13:31.680 --> 13:37.830
そして､ 実際に行動を起こしたときに何が起こるかというと､ エージェントが行動を起こすと､

13:37.830 --> 13:42.360
報酬を得られることがわかり､ ある状態に行き着くということです｡

13:42.360 --> 13:45.840
そして､ それをもとに計算することができるのです｡ 

13:45.930 --> 13:46.230
嗚呼｡ 

13:46.350 --> 13:52.980
では､ 私が行ったあの技のQ値は何なのか､ 何であったろうか､ 何であるべきか｡ 

13:53.250 --> 13:56.250
そして今､ この部分です｡ 

13:56.250 --> 14:03.600
古いQ値を引くと時間差になり､ 今度はα倍の時間差を取る必要があります｡

14:03.810 --> 14:05.760
それでQ値を調整するんですね｡ 

14:05.760 --> 14:07.590
それでQ値を調整するのです｡ 

14:08.010 --> 14:12.750
最後に､ これは何が起こっているかを理解するのに十分なのですが､

14:12.750 --> 14:18.780
さらに物事を明確にするために､ あるいはさらに物事を混乱させるために､ この時間差､

14:18.780 --> 14:22.500
あるいはこの時間差をここに取り込みます｡

14:22.530 --> 14:24.120
この式に差し込むのです｡ 

14:24.120 --> 14:29.760
そこで､ この部分を全部､ この式に突っ込んでいくと､ 巨大な式ができあがります｡ 

14:29.760 --> 14:31.470
それでは､ どうぞ｡ 

14:31.470 --> 14:32.520
そこに我々の方程式がある｡ 

14:32.520 --> 14:38.370
つまり､ これは時間差を完全に書き出した方程式なのです｡ 

14:38.370 --> 14:45.180
で､ なんでこんなことを書き出したかというと､ まず､ これは他の文献を勉強すれば出てくると思うんです｡

14:45.510 --> 14:48.510
そして2つ目は､ あるものを少し複雑にしてしまうということです｡ 

14:48.510 --> 14:52.050
彼は数式を長くしているだけでなく､ いくつかのことを少し明確にしています｡ 

14:52.050 --> 14:55.860
例えば､ ここにアルファの果たす役割があるわけです｡ 

14:55.860 --> 14:58.500
これを見ると､ よくわかると思います｡ 

14:58.850 --> 15:00.470
Q Tマイナス1｡ 

15:00.470 --> 15:01.250
そして､ これです｡ 

15:01.370 --> 15:03.470
Q Tマイナス1にマイナスの符号をつけた｡ 

15:03.470 --> 15:12.110
つまり､ アルファが1に等しいとすると､ ここに1を入れれば､ これとマイナスになるわけです｡ 

15:12.110 --> 15:13.550
だから､ お互いに潰し合う｡ 

15:13.550 --> 15:15.920
そして､ この部分しか残らない｡ 

15:16.190 --> 15:24.650
それが何を意味するかというと､ まさに､ 「よし､ 新しい値が出たぞ」という､ 本来あるべき状況です｡

15:24.650 --> 15:29.380
Qの値を新しい値に更新して､ それまで持っていたものは忘れてしまいましょう｡ 

15:29.390 --> 15:36.740
というのも､ ここにはランダムな事象があり､ 段階的に更新していきたいからです｡

15:37.340 --> 15:49.430
一方､ αを0にすると､ この部分を完全に忘れてしまい､ 新しいqや現在のqは常に前のqと等しくなってしまいます｡

15:49.430 --> 15:51.440
だから､ 何も学べないんです｡ 

15:51.440 --> 15:58.820
つまり､ 迷路の中で何が起ころうとも､ 自分の価値はずっと前に決まっていて､ それを守るだけだから問題ないのです｡

15:59.150 --> 16:01.670
だから､ アルファはゼロであってはならないし､ 1であってはならないのです｡ 

16:01.820 --> 16:03.140
その中間であることが望ましい｡ 

16:03.140 --> 16:08.920
そして､ ゆっくり､ 一歩一歩学んでいくことで､ あなたやエージェントが迷路を進むにつれて､

16:08.930 --> 16:12.680
この時間的な差異を獲得していくことができるのです｡

16:12.680 --> 16:17.120
そして､ ゆっくりと､ しかし確実に､ この価値は更新されていくことでしょう｡ 

16:17.120 --> 16:17.720
更新しました｡ 

16:17.720 --> 16:25.400
そして､ 最終的に何が起こるかというと､ ある時点で､ うまくいけば､ アルゴリズムが収束するのです｡ 

16:25.400 --> 16:30.890
つまり､ この時間差はどんどんゼロに近づいていき､ 最終的にはゼロに非常に近いか､

16:30.890 --> 16:35.300
あるいは0000にさえなってしまうということなのです｡

16:35.300 --> 16:43.490
つまり､ 毎回､ 新しい値､ あるいは新しく計算された値､ つまり今回ではなく､ ステップを踏んだ後に仮にそうなっていたはずの値が､

16:43.490 --> 16:50.930
以前の値とちょうど等しくなるのです｡

16:50.930 --> 16:52.280
そして､ 1になって､ ゼロになる｡ 

16:52.280 --> 16:57.950
つまり､ 時間的な差がゼロになったら､ アルゴリズムが収束したことを意味し､

16:57.950 --> 17:05.720
必ずしもQ値を更新し続ける必要はなく､ 何が起こっているのかを更新し続けることができるのです｡

17:06.110 --> 17:11.990
ここで注意しなければならないのは､ キュー値の更新を継続的に行いたいのは､

17:11.990 --> 17:19.070
環境が常に変化している場合だけだということです｡ つまり､ ランダムな確率的事象があるだけではなく､

17:19.070 --> 17:28.610
環境自体が変化し､ モーフィングし､ 時間と共に変化している場合です｡

17:28.880 --> 17:34.190
つまり､ すべてを学習して最適なポリシーを導き出すことは不可能で､ 最適なポリシーも環境に応じて常に変化しているため､

17:34.190 --> 17:38.930
常に学習が必要なのです｡

17:38.930 --> 17:43.790
その場合､ 時間差の計算とQ値の計算を続ける必要があります｡ 

17:44.570 --> 17:46.760
でも､ それ以外は､ 余計にややこしいという感じですね｡ 

17:46.760 --> 17:49.310
その他､ Q値の更新方法はこのようになっています｡ 

17:49.310 --> 17:56.180
これがQ学習アルゴリズムの主要な式で､ これはその拡大版のようなものですね｡

17:56.180 --> 18:02.120
これで､ なぜベルマン方程式があるのか､ それが表すQ値だけでなく､ エージェントがどのようにQ値を更新し､

18:02.120 --> 18:14.090
その環境で何が起こっているかを正確に把握し､ 最適なポリシーを導き出すのか､ すべてが理解できるようになったはずです｡

18:14.390 --> 18:25.790
今日のチュートリアルを楽しんでいただき､ コア・バリューの背後にある基本的な概念と直感を持ち帰っていただければと思います｡

18:25.790 --> 18:33.440
また､ 時間的差異とはどのような概念なのか､ なぜそれが重要なのか､ なぜエージェントをゆっくりと訓練し､

18:33.440 --> 18:38.750
彼らが活動する環境を理解させるのに役立つのか､ について説明します｡

18:39.020 --> 18:48.320
また､ 時間差についてもう少し学びたいということであれば､ 時間差の手法による予測の学習が非常に人気のある論文です｡

18:48.320 --> 18:52.220
1988年のリチャード・サットンによるもの｡ 

18:52.490 --> 18:56.330
すでにリチャード・サットン氏にも参考にしていただいていますが､ これもその一つです｡ 

18:56.330 --> 18:57.470
そして､ 実は彼は本を持っている｡ 

18:57.470 --> 19:04.760
もし､ あなたが彼の文体やコミュニケーションのスタイルに興味を持たれたなら､

19:04.760 --> 19:08.570
彼の本もチェックしてみてください｡

19:08.570 --> 19:11.480
読んでないけど､ そんなイメージです｡ 

19:11.630 --> 19:20.810
同時に､ これは論文へのリンクで､ そこでは時間的な違いについてもう少し､ いや､ おそらくもっと多くのことを学ぶことができます｡

19:21.050 --> 19:24.140
そして､ 今日のチュートリアルを楽しんでいただき､ 次回お会いするのを楽しみにしています｡ 

19:24.140 --> 19:26.360
それまでは､ Iをお楽しみください｡