WEBVTT

00:00.470 --> 00:03.750
こんにちは､ 人工知能のコースにようこそ｡ 

00:03.770 --> 00:09.140
今日のチュートリアルでは､ まず､ 深い畳み込みのキー学習について説明します｡ 

00:09.140 --> 00:10.820
では､ その内容を見てみましょう｡ 

00:10.820 --> 00:18.890
前回､ ディープラーニングについてお話しましたが､ エージェントがいる環境があり､ その環境を記述するベクトルがあり､

00:18.890 --> 00:23.030
それがニューラルネットワークに供給されていました｡

00:23.030 --> 00:26.090
そして､ 最後にQ値を出力として得ました｡ 

00:26.120 --> 00:29.210
そしてもちろん､ ネットワークをどのように学習させるか､ その方法も明らかにしました｡ 

00:29.210 --> 00:29.870
学習するところ｡ 

00:29.870 --> 00:32.900
そのキュー値をもとに､ どのように行動が決定されるのか､ その仕組みを明らかにしました｡ 

00:32.900 --> 00:34.370
それは､ アクションの部分ですね｡ 

00:34.370 --> 00:42.140
そして､ アクションの選択ポリシーや､ ディープラーニングの仕組みについて､ さまざまな話をしました｡ 

00:42.140 --> 00:51.200
しかし､ ここですべてのキーコンセプトは､ ここからどうやって実際の環境や状態からニューラルネットワークにたどり着くか､

00:51.200 --> 00:54.410
ということです｡

00:54.410 --> 00:57.800
さて､ 遷移はこちらの入力ベクトルです｡ 

00:57.800 --> 01:02.180
つまり､ ニューラルネットワークの入力層で､ ベクトルなんですね｡ 

01:02.180 --> 01:08.720
つまり､ 私たちが見ているのはOCなので､ 実は正しい表現ではありませんが､ 何も見ていないのです｡

01:08.720 --> 01:12.230
代理店は基本的にこの情報を持っています｡ 

01:12.230 --> 01:17.600
つまり､ 環境は､ 「あなたはエージェントで､ 現在この状態にあり､ あなたの状態はこのベクトルで表され､

01:17.900 --> 01:26.660
この単純化した例では､ このベクトルx1 of 1, x2 of 2で表されます｡

01:26.690 --> 01:30.020
つまり､ あなたの座標は1 2で､ それがあなたの状態全体なのです｡ 

01:30.020 --> 01:36.020
より複雑な環境では､ 状態はエージェントが観察できる他のものを含むかもしれません｡ 

01:36.020 --> 01:39.050
しかし､ ここでのポイントは､ ベクトルとして提起されていることです｡ 

01:39.050 --> 01:46.310
そして､ GPSシステムなどを除けば､ 現実にはそんなことは起きないということです｡

01:46.310 --> 01:48.350
でも､ 実際の生活では､ 何を使えばいいのでしょう？

01:48.350 --> 01:48.890
ほとんどの場合ですか？

01:48.890 --> 01:50.840
私たちは､ 五感を使い､ 目を使います｡ 

01:50.840 --> 01:53.600
GPSでも､ 私たちの脳には組み込まれていません｡ 

01:53.600 --> 01:56.060
脳を通して座標を伝えているわけではないのです｡ 

01:56.060 --> 02:02.540
そのため､ 私たちはまだGPSを目で見て､ そこで何が起こっているのかを理解しています｡ 

02:02.720 --> 02:09.560
それで､ これはAIがベクトルとして環境の情報みたいなものを得られるようにするためのごまかしのようなものです｡

02:09.560 --> 02:10.520
シンプルすぎるのです｡ 

02:10.520 --> 02:11.960
現実にはこうはいきません｡ 

02:11.960 --> 02:13.790
それは人間としてどうかと思います｡ 

02:13.880 --> 02:23.240
そして最終的には､ 人間と同じように活動できる人工知能､ つまり､ 人間と同じようにチャレンジできる人工知能を作りたいのです｡

02:23.240 --> 02:33.560
人間の世界では､ そのようなことはなく､ その環境の中で自分が置かれている状態を説明する座標や他の種類のベクトルが出されているわけです｡

02:33.560 --> 02:37.250
だから､ よりリアルにするために､ それを削除する必要があるんだ｡ 

02:37.250 --> 02:38.750
そして､ それを何に置き換えることができるのか｡ 

02:38.750 --> 02:42.110
情報を得るために､ 人間として何を見て､ 何をするのか｡ 

02:42.110 --> 02:46.070
もちろん､ 私たちは五感を使って見ていますが､ 周りの世界について得る情報のほとんどは､

02:46.070 --> 02:51.260
視覚から得ています｡

02:51.260 --> 02:59.930
そして､ この小さな矢印を､ 畳み込みニューラルネットワークに変えていくわけです｡

02:59.930 --> 03:03.680
これは別館の2号館からです｡ 

03:03.830 --> 03:11.030
畳み込み層がありますが､ だからこそ､ 畳み込みニューラルネットワークとその仕組みにかなり慣れておくことが重要です｡

03:11.030 --> 03:14.840
ですから､ 私たちのディープラーニングコースを受講された方であれば､ その点はご安心いただけると思います｡ 

03:14.840 --> 03:16.880
また､ 別館をご覧いただくだけでも結構です｡ 

03:16.880 --> 03:20.390
2つ目は､ 非常に優れた直感的なチュートリアルがあることです｡ 

03:20.390 --> 03:24.260
ここで､ 畳み込み演算が行われるわけです｡ 

03:24.260 --> 03:27.230
そこで､ 実際に画像として見てみることにします｡ 

03:27.230 --> 03:31.250
つまり､ これはネット環境のイメージです｡ 

03:31.250 --> 03:33.920
そうして､ エージェントは実際に環境を見ているのです｡ 

03:33.920 --> 03:40.610
この場合､ 彼はその中から見ているのではなく､ 例えばコンピューター上でこのゲームをプレイしているとすると､

03:40.610 --> 03:48.350
彼はこの環境を見ることができるので､ エージェントを表すこの図形が実際にどこにあるのかを見ることができます｡

03:48.350 --> 03:54.200
だから､ この環境全体や､ 実際の迷路であれば人間が見るようなものを､ 内側から見ることができるのです｡

03:54.200 --> 03:56.390
そうすれば､ 捜査官もまったく同じものを見ることができるはずです｡ 

03:56.390 --> 04:02.030
つまり､ 彼が見たものは､ コンボリューションレイヤーを経て､ フルプーリングレイヤーを経て行われるのです｡ 

04:02.030 --> 04:03.230
再びフラットニングを経ます｡ 

04:03.230 --> 04:10.640
畳み込みニューラルネットワークの様々な部分については､ 附属書を参照してください｡

04:10.640 --> 04:16.730
そして､ それを平坦化した後､ ニューラルネットワークへの入力を行うのです｡ 

04:16.730 --> 04:24.530
人間が画像を処理するのと同じように､ エージェントも自分のサイトを使ったり､ 環境がエージェントに供給する画像を処理しなければならないので､

04:24.530 --> 04:31.340
こちらの方がずっと現実的です｡

04:31.340 --> 04:37.430
この優れた点は､ よりリアルで､ エージェントが人間のように見えるというだけでなく､

04:37.430 --> 04:43.130
より複雑な環境を処理できることです｡

04:43.130 --> 04:48.890
例えば､ 『Doom』などのゲームでも､ 誰かが作ったような情報のベクトルをこの環境で得るのではなく､

04:48.890 --> 05:00.020
人工知能を人間である私たちの環境に接続することで､ 遊ぶことができるのです｡

05:00.060 --> 05:01.970
この環境のビジョンを持つことになるのです｡ 

05:01.970 --> 05:11.780
ですから､ 人間がこのゲームをしているときは､ まさにこの絵が見えていて､ それが人工ニューラルネットワークやエージェントが見ているものと同じなのです｡

05:11.780 --> 05:19.700
さて､ このコースのこの部分で､ 実践的な教材をプログラミングするとき､ エージェントは実際にこの正確な画像を見ることになります｡

05:19.700 --> 05:27.440
この人､ この銃､ この顔､ この割合､ すべてにおいて､ すべてのピクセルの正確な画像を得ることができるのです｡

05:27.440 --> 05:28.580
まさに､ この通りです｡ 

05:28.580 --> 05:30.350
それこそ､ エージェントが見ているようなものです｡ 

05:30.590 --> 05:37.370
そして､ それを畳み込むように引っ張って､ 層を平らにして､ ニューラルネットワークに入れるのです｡

05:37.370 --> 05:40.940
そして､ ニューラルネットワークは､ 実際にはもっと複雑なものになることは言うまでもない｡ 

05:40.940 --> 05:42.700
そこで､ このようなものに置き換えてみましょう｡ 

05:42.710 --> 05:44.330
これはあまり複雑なことではありません｡ 

05:44.330 --> 05:46.430
これはちょっと複雑そうですね｡ 

05:46.430 --> 05:52.580
しかし､ 実際には､ Atlanで作業し､ 作成することになるニューラルネットワークは､ 非常に興味深いものになるでしょう｡

05:52.580 --> 05:54.050
これよりはるかに複雑なものになるでしょうね｡ 

05:54.050 --> 06:00.770
しかし､ ここですでにお分かりのように､ 入力が2つから5つになっただけでも､ 事態はより複雑になってきます｡

06:00.770 --> 06:04.310
さらに､ エージェントが行えるアクションがたくさんあることがおわかりいただけると思います｡ 

06:04.310 --> 06:16.220
ドゥームのゲームでは､ 左右に曲がったり､ 下を向いたり､ 上を向いたり､ 走ったり､ 撃ったり､ リロードしたり､ ドゥームのようなファーストパーソンシューターで可能なさまざまなアクションがあるわけですね｡

06:16.220 --> 06:23.030
さらに言えば､ このエージェントを別の種類のゲームに付けることができる､ というわけでもありません｡ 

06:23.030 --> 06:36.920
なぜなら､ 環境という視覚的な表現がある限り､ その環境に関するすべてのインフラをすでに持っているからです｡

06:36.950 --> 06:39.740
それを処理するために､ 全体の構造が出来上がっているのです｡ 

06:39.740 --> 06:43.910
それが深層学習､ 畳み込み学習なんですね｡ 

06:43.910 --> 06:46.160
だから､ さらに次のステップに進むのです｡ 

06:46.160 --> 06:55.580
私たちは今､ エージェントの脳にすべての畳み込み層に畳み込みを追加し､ さらに複雑にしているのです｡

06:55.580 --> 07:01.160
その結果､ 私たちはより複雑な課題を解決することができるようになり､ 報われるのです｡ 

07:01.160 --> 07:07.760
ですから､ 壮大なセクションになることを大いに期待していますし､ 素晴らしいものを作り上げたいと思っています｡

07:07.760 --> 07:10.100
そして､ 早く次のストーリーでお会いしたいです｡ 

07:10.340 --> 07:11.690
そしてそれまで､ お楽しみに｡ 

07:11.720 --> 07:12.230
I.
