WEBVTT

00:00.300 --> 00:06.840
こんにちは､ そしてようこそディープラーニングのコースへ！今日は畳み込みニューラルネットワークのキックオフです！エキサイティングになりそうですね｡

00:06.840 --> 00:08.340
早速､ 飛び込んでみましょう｡ 

00:08.340 --> 00:10.350
まずは画像から｡ 

00:10.620 --> 00:12.690
この画像を見て､ 何が見えるか？

00:13.440 --> 00:17.610
自分を見ている人､ 右を見ている人､ どちらを見ますか？

00:18.000 --> 00:21.570
自分の脳が苦労しているのがよくわかる｡ 

00:21.570 --> 00:23.970
調整するのに苦労しています｡ 

00:23.970 --> 00:27.330
画像の右側を見ていただくと､ ちょうど右の枠の部分にあたります｡ 

00:27.330 --> 00:29.040
右を向いている人が見えると思います｡ 

00:29.040 --> 00:32.970
画像の左の枠を見ると､ 人がこちらを見ているのがわかります｡ 

00:33.540 --> 00:42.690
そしてこれは､ 私たちの脳がものを見るときに探しているのは､ 見た特徴によって､ 処理する特徴によって､

00:42.690 --> 00:48.480
ものをある方法で分類していることを証明しているのです｡

00:48.480 --> 00:53.760
つまり､ 画像の右側を見たときに､ 右を向いている人のある特徴が見えるのは､

00:53.760 --> 01:00.720
その人が自分の焦点の中心に近いからで､ そのため脳は右を向いている人と分類しているのです｡

01:00.720 --> 01:09.270
画像の左側を見ると､ より多くの人の特徴が見えるので､ 脳はそれをそう分類するのです｡

01:09.270 --> 01:10.740
では､ もう1つ見てみましょう｡ 

01:10.980 --> 01:12.720
これは非常に有名な画像です｡ 

01:12.720 --> 01:15.810
すでにご覧になった方も多いと思いますが､ ここには何が写っているのでしょうか｡ 

01:16.590 --> 01:23.640
だから､ ドレスを着た若い女性が目をそらしているのを見たという人もいるだろう｡ 

01:23.640 --> 01:29.760
頭にスカーフを巻いたおばあさんが下を向いているのを見たという人もいるでしょう｡ 

01:29.970 --> 01:34.200
そこで､ これらの特徴を指摘すると､ とても分かりやすくなると思います｡ 

01:34.200 --> 01:37.440
これが､ 目をそらすお嬢さんの顔なんですね｡ 

01:37.440 --> 01:40.290
彼女はコートを着たまま遠くを見ている｡ 

01:40.290 --> 01:43.380
それは彼女の髪､ それは彼女の小さな羽です｡ 

01:43.380 --> 01:48.900
そして一方､ これは下を向いているおばあさんの頭です｡ 

01:48.900 --> 01:52.080
これが鼻､ これが口､ これがあごです｡ 

01:52.080 --> 01:53.490
頭に巻いているのはスカーフです｡ 

01:53.490 --> 01:55.500
そして､ 下を向いている｡ 

01:55.500 --> 01:57.840
というわけで､ ご覧の通り､ 2つで1つ｡ 

01:57.840 --> 02:06.090
そして､ 脳はどの特徴を拾うかによって､ それぞれの画像をどちらかに分類するように切り替わります｡

02:06.660 --> 02:13.740
印刷物に記録されている錯視の中で最も古いものがこれである｡ 

02:13.740 --> 02:15.150
アヒルかウサギだ｡ 

02:15.150 --> 02:16.860
これはアヒルなのかウサギなのか？

02:16.860 --> 02:17.970
もう一つの例｡ 

02:18.150 --> 02:24.630
そして､ これから画像をお見せしますが､ それを見て､ どんな感情､ どんな種類の体験､

02:24.660 --> 02:28.350
視覚体験をするのか､ ちょっと見てください｡

02:28.890 --> 02:30.930
では､ 何が見えるのか？

02:30.970 --> 02:37.590
めまいではなく､ 少し目がくらむような感じでしょうか｡ 脳が､ それが何なのか､ どんなものなのかを理解しようとして､

02:37.590 --> 02:43.680
彼女の目の間､ 上目遣いと下目遣いの間でジャンプしているような感じです｡

02:43.680 --> 02:53.640
そして､ これは典型的な例ですが､ ある機能があって､ これかもしれない､ あれかもしれないと思ったとき､ 脳は判断できないのです｡

02:53.850 --> 02:58.590
そして､ どちらももっともらしく見えるから､ そうなんだ｡ 

02:58.590 --> 03:04.800
つまり､ 画像や実生活で目にするものに対して､ ある特徴を処理し､ それをそのように分類するという､

03:04.800 --> 03:10.770
脳の働きを説明しているのです｡

03:10.770 --> 03:16.030
皆さんも､ ふと肩越しに何かを見たときに､ ボールだと思っていたら猫だったとか､

03:16.030 --> 03:25.440
車だと思っていたら影だったとか､ そういうことがあると思います｡

03:25.440 --> 03:30.930
それは､ その特徴を処理する時間が足りなかったり､ 物事を分類するための特徴が足りなかったりするからです｡

03:30.930 --> 03:38.490
というのも､ 私たちがニューラルネットワーク､ つまり畳み込みニューラルネットワークでやろうとしていることは､

03:38.490 --> 03:40.710
非常によく似ているのです｡

03:40.710 --> 03:48.120
そして､ コンピュータが画像を処理する方法は､ 私たちが画像を処理する方法と極めて似ていることに気づくでしょう｡

03:48.120 --> 03:53.520
だから､ こういうことを理解し､ こういうやり方があるんだと覚えておくことは､ とても貴重なことなのです｡ 

03:53.520 --> 03:58.350
そして､ この女性をスクリーンから外します｡ もうすでにあなたを怖がらせているかもしれませんから｡

03:58.350 --> 04:00.870
そこで､ ちょっと変わったものを紹介します｡ 

04:00.870 --> 04:06.900
これは､ コンピュータで行われた､ 畳み込みニューラルネットワークの実験です｡ 

04:06.900 --> 04:10.710
つまり､ 人間からコンピュータへと徐々に移行しているのです｡ 

04:11.190 --> 04:14.310
そしてこのスライドは､ ジェフリー・ヒントン氏の講演のものです｡ 

04:15.090 --> 04:23.820
ここには､ 彼が学習させた畳み込みニューラルネットワークの実験が書かれています｡

04:24.210 --> 04:31.560
ここでは3つの画像を左から右に見ていき､ あなたがどのように分類するか､ そしてコンピューターがどのように分類するかを見ていきます｡

04:31.560 --> 04:34.260
では､ 左側ですが､ これは何だと思いますか？

04:35.340 --> 04:37.590
あなたはおそらくチーターと言ったと思いますが､ その通りでしょう｡ 

04:37.590 --> 04:38.790
そして､ コンピューターはこう言ったのです｡ 

04:38.790 --> 04:43.860
それで早速ですが これらの画像の読み方を学びます 畳み込みニューラルネットワークを

04:43.860 --> 04:53.850
深掘りしようとすると ダジャレではなく もっと学んで使い始めようとすると これがたくさん出てくるんです

04:53.850 --> 04:57.000
それで､ 実際に間違った読み方をしている人を見たことがあるんです｡ 

04:57.000 --> 04:58.830
だから､ ここのトップで｡ 

04:59.620 --> 05:01.320
カイダは実際に存在する｡ 

05:01.320 --> 05:04.770
これが実際の正しい画像の表示なんですね｡ 

05:04.770 --> 05:10.950
それは､ どんな加工やコンピュータビジョンも関係なく､ 画像のラベルがそうなっていることです｡ 

05:11.520 --> 05:20.550
そして､ このアルゴリズムの上位4､ 5位までの推測が､ 確率で示されています｡

05:20.550 --> 05:26.370
コンピュータが､ あるいはニューラルネットワークが､ チーター・レオパード､ ユキヒョウ､ エジプト・キャットの4つのうちの1つになれると言い､

05:26.370 --> 05:29.040
チーターが最も高い票を獲得したわけです｡

05:29.040 --> 05:34.650
そして､ このパートを通して､ これらの票の意味とその導き方を理解することができます｡

05:34.650 --> 05:36.420
でも､ とりあえずは直感的に理解できるでしょ？

05:36.420 --> 05:44.100
つまり､ 現実にはチーターなのですが､ ニューラルネットワークは正しく推測し､ 95〜99％という高い確率でチーターだと言い当てたのです｡

05:45.780 --> 05:47.370
続いて2枚目､ どうでしょう？

05:47.370 --> 05:51.030
それは新幹線のことでしょうか｡ 

05:51.030 --> 05:57.960
そして､ ニューラルネットワークは､ 新幹線､ 客車､ 地下鉄､ 電気機関車を区別することができたのです｡

05:57.960 --> 05:58.920
それが上位の選択肢です｡ 

05:58.920 --> 06:00.360
もちろん､ それ以外にもさまざまなオプションが用意されていました｡ 

06:00.360 --> 06:08.670
これらのニューラルネットワークは､ 4つのカテゴリーだけでなく､ 何十､ 何千ものカテゴリーを同時に区別することを学びます｡

06:08.670 --> 06:10.650
つまり､ この4つの選択肢が選ばれたわけです｡ 

06:10.650 --> 06:12.720
それで､ それが新幹線であり､ 新幹線である｡ 

06:12.720 --> 06:18.450
最後の1つは､ とても､ とても､ いくつかの選択肢があると思うのですが､ いかがでしょうか？

06:18.460 --> 06:20.040
それが何であるかは､ あまり明確ではありません｡ 

06:20.040 --> 06:21.390
フライパンかもしれない｡ 

06:21.390 --> 06:22.740
拡大鏡かもしれません｡ 

06:22.740 --> 06:27.000
もしかしたら､ ハサミかもしれない｡ 

06:27.000 --> 06:32.460
ニューラルネットワークはハサミだと言っていたのに､ と言う人もいるかもしれませんが､ ここでどう間違うかはおわかりでしょう｡

06:32.460 --> 06:35.250
まず､ あまり鮮明な画像ではありませんね｡ 

06:35.250 --> 06:41.700
そしてまた､ ここでは確率がそれほど明確でないこともおわかりいただけると思います｡ 

06:41.700 --> 06:46.200
つまり､ ニューラルネットワークは､ 私たちと同じように､ 少し混乱して､ 少し優柔不断になっていたのです｡ 

06:46.200 --> 06:55.650
一番確率が高いのはハサミですが､ その次にハンドグロスがあり､ 実は2位とフライパンの聴診器とそれほど離れていないところにありました｡

06:55.650 --> 07:02.850
つまり､ ハサミは最初の選択肢でしたが､ 正しい選択肢は2番目で､ それが赤で強調されている理由です｡

07:03.060 --> 07:03.930
そうそう､ そうなんです｡ 

07:03.930 --> 07:06.960
それは､ ニューラルネットワークがすでに可能にしていることです｡ 

07:06.960 --> 07:08.820
そして､ これは実はかなり古いスライドなんです｡ 

07:08.820 --> 07:10.530
数年前のことである｡ 

07:10.530 --> 07:11.760
今は､ さらに良くなっています｡ 

07:11.760 --> 07:16.080
そして､ それは一緒にコーディングする実践的なアプリケーションからわかることでしょう｡ 

07:16.080 --> 07:16.670
水たまりを作る｡ 

07:16.680 --> 07:21.150
しかし､ ここでは､ 畳み込みニューラルネットワークが実際にどのようなもので､ なぜこれほどまでに人気を博しているのか､

07:21.150 --> 07:23.730
もう少し詳しく理解することにしましょう｡

07:23.730 --> 07:25.710
そして､ 実際に人気を博しているのです｡ 

07:25.710 --> 07:31.050
そこで､ ちょうど昨日行ったGoogle Trendsの比較をご覧ください｡ 

07:31.620 --> 07:39.360
ここでは､ 畳み込みニューラルネットワークが､ 人工ニューラルネットワークを引き継いでいることまでわかります｡ 

07:39.360 --> 07:52.440
なぜなら､ 自動運転車など､ あらゆることが起こる重要な分野だからです｡

07:52.440 --> 07:57.840
道行く人をどうやって認識するのか､ 一時停止の標識はどうやって認識するのか､ などなど｡ 

07:57.840 --> 08:04.860
Facebookでは､ 画像や画像中の人物にどのようにタグ付けすることができるのですか？

08:04.860 --> 08:11.820
しかも､ 数年前は自分でタグを付けて､ 顔を認識して追加し､ 名前を追加していたのが､

08:11.820 --> 08:18.240
今は顔を認識して同時に名前を追加してくれるんです｡

08:18.330 --> 08:23.540
まあ､ それが畳み込みニューラルネットワークの実力なんですけどね｡ 

08:23.550 --> 08:32.280
そして､ Facebookといえば､ ジェフリー・ヒントンが人工ニューラルネットワークとディープラーニングの名付け親だとすれば､

08:32.280 --> 08:38.910
ヤン・ルクンは畳み込みニューラルネットワークの祖父といえるでしょう｡

08:38.910 --> 08:45.450
ヤン・ルクンはジェフリー・ヒントンの教え子で､ 実はここに二人が一緒にいる姿が写っています｡ 

08:45.450 --> 08:51.180
そして､ ジェフリー・ヒントン氏は現在､ Googleでディープラーニングを開拓しています｡ 

08:51.210 --> 08:56.730
ヤン・ルクン氏は､ Facebook人工知能研究のディレクターであり､ ニューヨーク大学の教授でもある｡ 

08:56.730 --> 09:00.030
だから､ ゆっくりと､ 私たちは このコースのこの部分が大好きです｡ 

09:00.030 --> 09:09.120
ゆっくりとこの名前､ この名前､ あるいはこの分野を牽引している人たちのプロフィールのようなものを積み上げていくのです｡

09:09.120 --> 09:14.340
そして､ 次の数回に分けて､ さらにいくつかのことを知ることになるのです｡ 

09:14.340 --> 09:21.030
そして､ 彼らが自称するマフィア､ あるいはYann LeCunがマフィアと呼ぶ､ 深層学習の陰謀のようなものが発生します｡

09:21.030 --> 09:23.640
そして､ この分野全体がどのように発展してきたのか､ もう少し詳しく知ることができます｡ 

09:23.640 --> 09:27.150
そう､ この人たちは本当に素晴らしい人たちなんです｡ 

09:27.150 --> 09:36.180
そして､ 80年代から90年代にかけて､ Yann LeCunは畳み込みニューラルネットワークの分野に大きく貢献したのです｡

09:36.180 --> 09:46.350
そして､ このコースを通して見るように､ 非常に強力なものを開発し､ 世界の発展に貢献することができたのです｡

09:46.350 --> 09:52.620
では､ 畳み込みニューラルネットワークの仕組みに話を移すと､ 入力があるとします｡ 

09:52.620 --> 09:54.210
とてもシンプルで､ わかりやすいですね｡ 

09:54.210 --> 09:56.070
つまり､ 入力画像があるわけです｡ 

09:56.070 --> 09:59.160
それが畳み込みニューラルネットワークを経由して､ 出力されるのです｡ 

09:59.250 --> 09:59.730
ラベル付き｡ 

09:59.730 --> 10:06.520
つまり､ その画像をチーターや新幹線などのように分類してしまうのです｡ 

10:06.540 --> 10:10.320
さて､ もうちょっと詳しく説明しましょうか｡ 

10:10.710 --> 10:18.840
例えば､ ニューラルネットワークを特定の画像､ 特定の分類された画像､ または事前に分類された画像で学習させた後､

10:18.840 --> 10:30.270
ニューラルネットワークに顔の表情や感情を認識するように学習させることができます｡

10:30.270 --> 10:39.240
こんな風に顔を描いたような顔ではなく､ 実際に笑っている人の顔を出してもいいんです｡

10:39.240 --> 10:44.790
そして､ その人が幸せであることを教えてくれますし､ 顔をしかめている人の顔を出すこともできます｡ 

10:44.820 --> 10:46.650
その人が悲しんでいることが伝わってきます｡ 

10:47.190 --> 10:48.480
その感情を認識することができるのです｡ 

10:48.480 --> 10:53.250
そして､ ご覧のように､ それはもう実にさまざまな用途で威力を発揮するのです｡ 

10:53.250 --> 11:00.450
この1つの例だけで､ すぐに思いつくし､ どちらの場合も確率が出ます｡ 

11:00.450 --> 11:11.670
ですから､ 100％その人が楽しいとか悲しいとかではなく､ 99％とか98％とか､ 何が起こっているのかがはっきりしないときは80％くらいになります｡

11:11.670 --> 11:17.880
そして､ 私たちが正しいように､ 時には物事を勘違いしてしまうこともありますし､ できることもあります｡

11:18.690 --> 11:24.660
人が笑っているのか､ 顔をしかめているのか､ 犬なのか猫なのか､ 電車なのか新幹線なのか､

11:24.660 --> 11:27.750
よくわからないことがあります｡

11:28.200 --> 11:28.360
そうですね｡ 

11:28.410 --> 11:33.240
このチュートリアルの最初に見たように､ 私たちは視覚情報をどのように処理するかということで､

11:33.240 --> 11:38.310
十分な特徴を見ていないことがあり､ すべてが特徴に集約されます｡

11:38.310 --> 11:44.040
では､ しかし､ ニューラルネットワークは､ どのようにして､ これらの特徴を認識することができるのでしょうか？

11:44.040 --> 11:48.690
まあ､ すべてはあなたが持っているごく基本的なレベルから始まるのですが｡ 

11:48.690 --> 11:50.670
例えば､ 画像があるとします､ 2つの画像があるとします｡ 

11:50.760 --> 11:56.280
1つは2×2ピクセルの白黒画像､ もう1つは2×2ピクセルのカラー画像です｡ 

11:56.280 --> 12:04.620
ニューラルネットワークは､ 白黒画像が2次元の配列であることを利用しているんですね｡ 

12:04.620 --> 12:09.560
つまり､ 今､ 左側に見えているのは､ あくまで視覚的な表現なんですね｡ 

12:09.600 --> 12:13.530
つまり､ ある種の絵であり､ わかりやすくするために2×2の絵になっているだけなのです｡ 

12:13.890 --> 12:22.080
しかし､ コンピュータ用語では､ これは実際には2次元の配列であり､ これらのピクセルの1つ1つが0から255の間の値を持つ｡

12:22.080 --> 12:27.540
つまり､ 8の2乗で256になる8ビットの情報です｡ 

12:27.540 --> 12:30.240
したがって､ 値は0から255までとなります｡ 

12:30.240 --> 12:32.010
そして､ その色の濃さです｡ 

12:32.010 --> 12:33.450
そして今回は､ 白という色｡ 

12:33.450 --> 12:38.550
つまり､ 0は完全に黒い画素､ 255は完全に白い画素になります｡ 

12:38.550 --> 12:44.370
そして､ その間に､ この画素に可能なグレースケールの範囲があるのです｡ 

12:44.370 --> 12:49.920
その情報をもとに､ コンピュータが画像を扱うことができるのです｡ 

12:49.920 --> 12:55.080
これは､ どんな画像も実際にはデジタル表現を持ち､ デジタル形式を持つという出発点のようなもので､

12:55.080 --> 13:03.150
基本的には1と0で､ 各ピクセルに対して0から255の数値を形成しています｡

13:03.150 --> 13:04.170
そして､ そのためにコンピューターが活躍する｡ 

13:04.170 --> 13:08.340
もし､ それが色や何かと連動していなくても､ 1や0と連動していれば､

13:08.340 --> 13:12.390
結局はそれがすべての基礎のようなものなのです｡

13:13.140 --> 13:17.040
そして､ カラー画像では､ 実は3次元の配列になっているのです｡ 

13:17.040 --> 13:21.810
青いピクセルがあり､ 青いレイヤー､ 緑のレイヤー､ 赤いレイヤーがありますね｡ 

13:21.810 --> 13:29.700
そういう意味では､ GBの4つの赤､ 緑､ 青､ それぞれの色に強弱があるわけです｡ 

13:29.700 --> 13:36.870
つまり､ 基本的に画素には3つ､ 3つの値が割り当てられているのです｡ 

13:36.870 --> 13:40.620
それぞれ､ 0から256､ 255の間です｡ 

13:41.160 --> 13:50.220
したがって､ この画像は何なのか､ このピクセルは一体何色なのか､ この3つの値を組み合わせることで知ることができるのです｡

13:50.220 --> 13:52.860
そしてまた､ コンピュータはそれと連動することになる｡ 

13:53.280 --> 13:55.710
それがすべての基礎になるわけですね｡ 

13:55.710 --> 13:58.440
それが「レッドチャンネル」「グリーンチャンネル」「ブルーチャンネル」です｡ 

13:59.310 --> 14:07.110
最後に､ 例えば､ 非常につまらない例ですが､ コンピュータ用語で笑顔の顔を見てみましょう｡

14:07.110 --> 14:16.080
0から255までの値を持つ代わりに､ 物事を単純化して､ よりよく理解し､

14:16.080 --> 14:26.700
概念を把握できるように､ 0は白､ 1は黒と言いますよね？

14:26.700 --> 14:30.630
だから､ 極限まで物事を単純化するんです｡ 

14:30.630 --> 14:33.780
そして､ そのイメージは､ そのように表現できることがおわかりいただけると思います｡ 

14:33.780 --> 14:38.910
なぜこのようなことを取り上げたかというと､ 直感チュートリアルでは､ このように非常にシンプルなイメージで構成されていますが､

14:38.910 --> 14:43.950
同時に､ これらのコンセプトはすべて0から256の値の範囲に翻訳することができ､

14:43.950 --> 14:50.460
すべてが同じように適用されるからです｡

14:50.460 --> 14:54.840
そして､ この画像で行うステップは､ ステップ1の畳み込みです｡ 

14:54.840 --> 14:56.760
ステップ2､ マックスプーリング

14:56.760 --> 14:59.000
ステップ番号3､ 平坦化､ ステップ番号｡ 

14:59.160 --> 15:00.330
もしくはフル接続｡ 

15:00.330 --> 15:06.780
そして､ おそらくこれらの言葉は､ 今のところあなたにとってあまり意味のないものだと想像できますが､ コースのこのセクションが終わるころには､

15:06.780 --> 15:13.890
これらの言葉を非常に詳しく､ 正確に理解できるようになっていることでしょう｡

15:13.890 --> 15:15.920
それでは､ 次のチュートリアルで始めましょう｡ 

15:15.930 --> 15:27.840
とりあえず､ 追加で読んでおきたいのは､ 畳み込みニューラルネットワークの元となった若き日のラクネス原著論文です｡

15:28.050 --> 15:31.380
これは､ 文書認識に適用される勾配ベース学習と呼ばれるものです｡ 

15:31.650 --> 15:34.470
この画像は､ 以前インターネット上で流れていたのを見たことがあるかもしれません｡ 

15:34.470 --> 15:35.700
その論文からです｡ 

15:35.700 --> 15:42.150
そのため､ もしあなたが､ すべてがどのように起こったのか､ どこから来たのかという原点に立ち返りたいのであれば､

15:42.150 --> 15:46.230
この論文を読んでみてください｡

15:46.230 --> 15:48.450
それまでは､ ディープラーニングを楽しんでください｡