WEBVTT

00:00.590 --> 00:03.110
こんにちは､ 人工知能の講座にようこそ｡ 

00:03.110 --> 00:08.150
今日はa3cの最初のパート､ 俳優の批評パートについてです｡ 

00:08.150 --> 00:15.050
ここでは､ 同期優位アクター批判アルゴリズムと､ 下線部のアクターについて説明します｡

00:15.500 --> 00:17.150
そこからスタートです｡ 

00:17.150 --> 00:21.470
技術的にはどこからでも始められますが､

00:21.470 --> 00:30.320
演技から評論家になる方が､ より理にかなっています｡

00:30.410 --> 00:33.980
しかし､ この略語の末尾にあるtheから意外と始めると｡ 

00:33.980 --> 00:42.200
さて､ ここまでの講座で､ 深い畳み込み学習について説明しましたが､ その図解はこちらです｡

00:42.200 --> 00:46.160
つまり､ コンピュータに画素を見させるわけです｡ 

00:46.160 --> 00:48.710
つまり､ ベクトルだけでなく､ 実際の画像やピクセルも｡ 

00:48.710 --> 00:49.580
だから､ ズルくないんです｡ 

00:49.580 --> 00:52.040
実は､ 人間が見ているものをそのまま見ているのです｡ 

00:52.040 --> 00:59.240
モンスターが見える､ 体力が見える､ 底のパラメータが見える､ 通路が見える､ 銃が見える｡

00:59.240 --> 01:02.960
このゲームをプレイするときに､ 人間が見るのとまったく同じものを見ているのです｡ 

01:02.960 --> 01:12.860
そして､ その画像は畳み込み層に通され､ プーリング層に通され､ 平坦化されてニューラルネットワークに入るのです｡

01:12.860 --> 01:17.450
そして､ 出力には､ 覚えているように､ キュー値というアクションがあります｡ 

01:17.570 --> 01:20.120
そして､ それらに行動選択ポリシーを適用する｡ 

01:20.120 --> 01:24.290
例えば､ ソフトマックスを適用して､ どのような行動を取りたいかを調べるわけです｡ 

01:24.290 --> 01:29.480
つまり､ 探査と搾取の両方が行われているのです｡ 

01:30.140 --> 01:33.200
つまり､ 深層学習はそういう仕組みだったんですね｡ 

01:33.380 --> 01:34.880
でも､ 今度はこれをどうするか｡ 

01:34.880 --> 01:38.690
この画像を調整したり移動させたりするので､ 簡単に操作できるように､

01:38.690 --> 01:46.400
丸を四角に､ 四角いボックスをこのように置き換えることにします｡

01:46.400 --> 01:48.680
そして､ その間にある線も消していくのです｡ 

01:48.680 --> 01:51.140
矢印に変えればいいんです｡ 

01:51.140 --> 01:54.260
だから､ これで本質が変わるわけではありません｡ 

01:54.290 --> 01:56.330
これはあくまで､ このチャート上の表現です｡ 

01:56.360 --> 01:59.600
この表現もまだ深い､ 畳み込むような表現です｡ 

01:59.630 --> 02:05.240
Q 学習は､ 私たちが修正し､ 3つの鍵を正確に示すことが容易になるだけです｡ 

02:05.240 --> 02:11.870
というわけで､ ここからは3つのキーが何をするのか､ あるいはこの特定の部分をどう表現するのか､ ということになります｡

02:11.870 --> 02:15.020
だから､ 一歩一歩､ 思い出してはじめているんです｡ 

02:15.030 --> 02:16.610
まずはアクティブクリティックの部分から｡ 

02:16.610 --> 02:23.420
そこで､ 深い畳み込み学習からどのように3つのキーになるのか､ ステップバイステップ､ ファーストステップで見ていきたいと思います｡

02:23.420 --> 02:26.150
ここでは､ このアクティブクリティックの部分を取り上げて紹介します｡ 

02:26.150 --> 02:27.380
そこで､ そのことについてお話します｡ 

02:27.470 --> 02:35.090
ですから､ まずこの最後のビット､ 出力は実はこのように再描画するだけなのです｡

02:35.090 --> 02:40.280
つまり､ まったく同じ出力､ まったく同じキュー値､ あるいはまったく同じ動作なのです｡ 

02:40.280 --> 02:44.540
だから､ もし彼が......8つの可能性を持っていたとしても､ 8つの可能性を持っていることになるんだ｡ 

02:44.540 --> 02:47.180
場所を取らないように､ 一番上に配置するだけです｡ 

02:47.180 --> 02:49.100
だから､ 今のところ何も変わっていない｡ 

02:49.100 --> 02:51.890
ここまでは､ これと全く同じです｡ 

02:51.890 --> 02:54.860
しかし､ ここからが現役の評論家の出番です｡ 

02:54.860 --> 02:57.590
私たちは､ 私たちが持っている2番目の出力を持つつもりです｡ 

02:58.040 --> 02:59.870
つまり､ 1つ目は出力のセットです｡ 

02:59.870 --> 03:02.690
そして､ ここでは個別に出力することにしています｡ 

03:02.690 --> 03:05.960
では､ 技術的には､ ニューラルネットワークを使うのでしょうか？

03:05.960 --> 03:14.570
それで､ 一度､ 画像と値のようなものは､ こちらの左から右へネットワークを通過していきます｡

03:14.570 --> 03:16.490
一つの価値観を吐き出すだけではないのです｡ 

03:16.490 --> 03:17.780
実際に2組に分かれた｡ 

03:17.780 --> 03:20.570
それで､ トップ・セットというのは､ もうわかっているんです｡ 

03:20.570 --> 03:22.700
それは､ 可能な限りの行動です｡ 

03:22.700 --> 03:25.280
しかし､ ここでは実はもう一つ､ おまけ的な価値があるのです｡ 

03:25.280 --> 03:26.480
では､ その様子を見てみましょう｡ 

03:26.480 --> 03:28.340
その価値とは何なのか？

03:28.340 --> 03:29.810
それでは､ どうぞ｡ 

03:29.810 --> 03:31.190
それがトップです｡ 

03:31.190 --> 03:34.940
そこで､ このイラストのサイズを小さくするような感じです｡ 

03:35.180 --> 03:41.090
一番上の出力は､ 前にアクションについて説明したように､ Q値です｡ 

03:41.090 --> 03:42.410
つまり､ 同じものなんですね｡ 

03:42.410 --> 03:43.190
すべて同じです｡ 

03:43.190 --> 03:45.140
でもって､ 今度はこの下の部分｡ 

03:45.140 --> 03:47.030
あ､ 実は一番上の部分はアクターと呼ばれています｡ 

03:47.030 --> 03:47.780
名前をつけるんです｡ 

03:47.780 --> 03:54.380
それは､ エージェントが演技をしているように見えるように､ やりたいことを選択する部分だから､ 俳優なのです｡

03:54.380 --> 04:00.590
まるでステージで演奏しているかのようで､ 2人目の名前もスクリーンに映し出されると､ より意味が深まるでしょう｡

04:00.590 --> 04:07.940
そして､ 2番目の出力はちょうど1つの値のようなもので､ それはSEのVですから､ 状態の値です｡

04:07.940 --> 04:15.140
つまり､ SのQがある行動のQ値で､ Aがある行動のQ値だとすると

04:15.140 --> 04:21.890
そのため､ アクション1､ アクション2､ アクション3からアクション6まで､ その状態でのアクションがいくつもあるわけです｡

04:21.890 --> 04:23.030
だから､ ある状態では

04:23.030 --> 04:25.250
SE 行動を起こすことのQ値とは？

04:25.250 --> 04:28.130
Aアクションからアクション1､ アクション2といった具合に｡ 

04:28.130 --> 04:36.350
そして､ ここではニューラルネットワークを使って､ 実際に置かれている状態の値を予測することも行っています｡

04:36.350 --> 04:40.430
そして､ この部分を評論家と呼びます｡ 

04:40.610 --> 04:45.710
それが直感的というか､ 完全には直感的でないところですね｡ 

04:45.710 --> 04:51.290
アクター評論家の直感は､ ニューラルネットワークの出力が1つだけでなく2つになったこと､ そして以前は1つの出力だけだったが､

04:51.290 --> 04:56.360
今はそれをアクターと呼んでいることにありますね｡

04:56.360 --> 04:58.940
しかし､ 今は俳優と批評家という2つのアウトプットがあります｡ 

04:58.940 --> 04:59.810
とかありそう｡ 

04:59.900 --> 05:02.150
両者の間にあるダイナミックな関係､ それはこれから探っていくことにしましょう｡ 

05:02.150 --> 05:10.970
しかし､ 今は､ ある状態からエージェントが取ることのできる行動のQ値だけを予測しているのではないことを理解することが重要です｡

05:10.970 --> 05:15.680
しかし､ 同じニューラルネットワークを使って､ 今のこの状態の価値を予測することもできるのです｡ 

05:15.680 --> 05:20.570
それが実際の評論家への第一歩の核となるわけですね｡ 

05:20.570 --> 05:24.050
そして今度は､ アクション理論の間で何が起こっているのかを正確に理解するために､ 次のチュートリアルで行う､

05:24.050 --> 05:26.640
シンクロナスについて話す必要があります｡

05:26.810 --> 05:32.570
そして､ 今日の最後は､ これらのキーバリューはすべて､ ご存知のように､ それはポリシーとも呼ばれるものだということです｡ 

05:32.570 --> 05:44.720
だから､ ある文献やあるブログ､ 現役の批評家に見られるような議論では､ 著者が俳優のこちら側のQ値について話しているのを見つけることができるかもしれません｡

05:44.750 --> 05:51.860
他の文献やブログ記事､ 議論では､ 著者が方針について話しているのを見かけることがあります｡

05:51.860 --> 05:59.720
ギリシャ文字の「P」を使って政策を表現したり､ 「policy of state」と言ったりします｡

05:59.930 --> 06:05.540
というのも､ ポリシーとは､ すべてのアクション､ 可能性のあるアクションをまとめたものであり､

06:05.540 --> 06:11.570
その後､ どのアクションを取るかを決定するものだからです｡

06:11.570 --> 06:14.210
つまり､ それぞれの行動をとる確率のようなものになるわけです｡ 

06:14.210 --> 06:15.260
そういう方針なんですね｡ 

06:15.260 --> 06:20.720
だから､ どちらか一方を見たとしても､ 基本的には同じ意味なので､ がっかりしないでください｡ 

06:20.960 --> 06:24.410
つまり､ 一方にはポリシーやQ値があり､ 他方には実際の状態の値があり､

06:24.410 --> 06:27.560
それらはニューラルネットワークから予測されているのです｡

06:27.560 --> 06:29.120
それがアクティブクリティックの始まりなんですね｡ 

06:29.120 --> 06:34.250
この続きは､ 次回のチュートリアルで､ 同期についてお話します｡

06:34.250 --> 06:35.990
それまでは､ Iをお楽しみください｡