WEBVTT

00:00.470 --> 00:03.370
こんにちは､ 人工知能のコースにようこそ｡ 

00:03.380 --> 00:11.120
今日のチュートリアルでは､ a3cの世界へ第一歩を踏み出します｡ その第一歩として､ この略語が何の略語なのかを調べてみましょう｡

00:11.120 --> 00:15.890
つまりa3cは､ シンクロナス・アドバンテージ・アクター・クリティスト・アルゴリズムを表しているのです｡ 

00:16.190 --> 00:23.270
これは2016年にGoogle DeepMindで研究者グループによって開発されたアルゴリズムで､

00:23.270 --> 00:28.430
これまでの人工知能の最先端のアルゴリズムと言えるでしょう｡

00:28.460 --> 00:34.970
現在では複数の改良が加えられていますが､ それについては講座の中で､ 特に実践的なチュートリアルで詳しく説明します｡

00:34.970 --> 00:44.180
しかし､ それにもかかわらず､ このアルゴリズムは､ 深い畳み込み学習ネットワークを含む他のすべてを､ 完全に水面から吹き飛ばしてしまうのです｡

00:44.180 --> 00:45.710
しかも､ より高速になりました｡ 

00:45.710 --> 00:49.910
トレーニングにかかる時間が短く､ より良い結果を得ることができます｡ 

00:50.150 --> 01:01.700
そこで､ この講座では､ a3cを初めて紹介した論文や発表された論文を参照することにします｡

01:01.730 --> 01:09.320
Google DeepMindのVladimir Munich and OthersによるAsynchronous Methods of Deep Reinforcement Learningというものだそうです｡

01:09.320 --> 01:14.540
そこで､ 今､ この紙をお見せして､ その紹介をさせていただきます｡ 

01:14.540 --> 01:17.810
それで､ それで､ この論文なんですが｡ 

01:17.810 --> 01:25.130
それをお見せすることで､ 少しでも雰囲気を掴んでいただき､ 導入の準備をしたいと思ったのです｡

01:25.130 --> 01:34.070
もちろん､ 論文に目を通して､ 具体的に何を言っているのか理解することを強くお勧めします｡

01:34.070 --> 01:41.420
また､ ルンド大学の実践的なチュートリアルでは､ 論文のある部分､ ある段落やセクションを通して､

01:41.420 --> 01:51.590
その時点でプログラミングする内容に関連した内容を学ぶことができます｡

01:51.710 --> 01:57.740
私がここで指摘したいのは､ ご覧の通り､ 多くの研究がなされたのですが､ 参考文献もたくさんありますし､

01:57.740 --> 02:02.870
私がとても気に入っているのは､ 最後の部分です｡

02:03.280 --> 02:07.970
最後に､ 異なるアルゴリズムを比較し､ 結果を比較するのです｡ 

02:07.970 --> 02:09.860
そして､ ここで指摘したかったのは､ このことです｡ 

02:09.860 --> 02:11.360
では､ 少しズームアップしてみましょう｡ 

02:11.360 --> 02:17.390
このコースで行っているのと同じように､ Google DeepMindでも､ ゲームを使ってアルゴリズムをトレーニングしたり､

02:17.390 --> 02:20.420
評価したりしています｡

02:20.420 --> 02:27.650
つまり､ ゲームも全く同じ原理で､ 一定のルールがあるシミュレートされた環境､ 小さな環境､ 限定された環境で､

02:27.650 --> 02:33.320
そのゲームの中で人工知能がどの程度うまく機能しているかを理解したいのです｡

02:33.320 --> 02:44.210
そして､ ここで私たちは､ あなたがそれらの多くを見つけることができます正確にすべてのこれらのゲームを持っているオープンエアーのジムと私たちが働いてきたゲームを見つけることができます｡

02:44.210 --> 02:46.760
例えば､ このセクションでは､ Breakoutを使用しています｡ 

02:46.760 --> 02:47.660
だから､ ここにもあるんです｡ 

02:48.500 --> 02:53.840
ブレイクアウトの場合､ 太字で表示され､ 最高のアルゴリズムが強調されているのがわかります｡ 

02:53.840 --> 02:58.400
ですから､ DCNは私たちが使ってきたアルゴリズムであり､ その他にもいくつかのアルゴリズムがあります｡ 

02:58.400 --> 03:03.470
そして､ A3C､ A3Cとlshtm long short term memoryがあります｡ 

03:03.470 --> 03:06.170
ということで､ このパートで実装するのはこれです｡ 

03:06.170 --> 03:10.130
LSHTMと一緒にa3cを持つことになり､ さらに強力になります｡ 

03:10.130 --> 03:15.560
このように､ ブレイクアウトは3つのキーシステムによって最高の結果を得ることができるのです｡ 

03:15.560 --> 03:19.670
だから､ そのスコアは66に聞こえる｡  8を比較した｡ 

03:19.670 --> 03:23.990
そしてまた､ そのほとんどに見ることができます｡ 

03:23.990 --> 03:31.760
ですから､ 今､ 大きな絵のように見てみると､ 太字のものはほとんどこの最後の列にあることがわかります｡

03:31.760 --> 03:36.110
そうですね､ 確かに他のアルゴリズムの方が性能が良いゲームもありますね｡ 

03:36.110 --> 03:42.440
しかし､ ご覧の通り､ 実はどのゲームでもDCNはパフォーマンスが上がっていないのです｡ 

03:42.440 --> 03:44.720
しかし､ 他のアルゴリズムがあることはおわかりいただけると思います｡ 

03:45.200 --> 03:51.740
他のアルゴリズムの方が良い結果を出す場合もありますが､ ほとんどの場合､ チームが一番良い結果を出しています｡ 

03:51.740 --> 03:52.970
だから､ 大胆なんだということがわかります｡ 

03:52.970 --> 03:57.500
これは大胆に､ こっちは大胆に､ こっちは大胆に､ といった具合に｡ 

03:57.500 --> 04:01.820
ですから､ a3cシステムは本当に強力なアルゴリズムであることがおわかりいただけると思います｡ 

04:01.820 --> 04:08.360
まさに人工知能の最先端を行くものであり､ それを実装していくことになるのです｡ 

04:08.360 --> 04:09.980
そのため､ 非常にエキサイティングなセクションが待っています｡ 

04:09.980 --> 04:17.750
ぜひ､ このペーパーを読んで､ これからお話しすることを感じ取ってください｡

04:18.260 --> 04:27.020
そして､ このセクションを通して､ また特に実用面､ ストローの実用的なセットを通して､ このことを詳しく説明していきます｡

04:27.020 --> 04:32.510
ここでは､ 実際に彼らの疑似コードを使って作業します｡ 

04:32.510 --> 04:36.800
そして､ それをどのように実装していくか､ 微妙なところですが､ その辺をご紹介します｡

04:37.190 --> 04:42.560
ということで､ この紙面をお楽しみに！次回もよろしくお願いします｡ 

04:42.560 --> 04:44.360
それまでは､ Iをお楽しみください｡