WEBVTT

00:00.450 --> 00:01.610
アリソンが知っておくべきこと｡ 

00:01.620 --> 00:03.450
そもそもインターネットって何？

00:04.320 --> 00:07.770
インターネットは､ 巨大なコンピュータネットワークです｡ 

00:07.890 --> 00:10.230
今､ 本当に大きくなっているもの｡ 

00:10.800 --> 00:11.550
何を言っているんだ､ それは｡ 

00:11.940 --> 00:12.320
どのように

00:12.780 --> 00:13.590
何を書き込むのですか？

00:13.590 --> 00:14.280
メールとか？

00:14.310 --> 00:14.550
いいえ｡ 

00:14.550 --> 00:16.170
多くの人が使い､ コミュニケーションをとっている｡ 

00:16.320 --> 00:18.820
NBCのライターやプロデューサーとコミュニケーションが取れるのでしょう｡ 

00:18.840 --> 00:21.270
アリソンさん､ インターネットとは何か､ 説明していただけますか？

00:29.010 --> 00:30.430
なんて素晴らしいんでしょう｡ 

00:30.450 --> 00:34.260
20年余り前､ 人々はインターネットが何であるかさえ知りませんでした｡ 

00:34.260 --> 00:36.990
そして今日､ 私たちはこの製品がない生活を想像することさえできません｡ 

00:37.020 --> 00:39.410
ディープラーニングAtoZコースへようこそ｡ 

00:39.420 --> 00:43.190
私はキエラ・ラムコといい､ 共同指導者とともにポンティマスターに身を寄せています｡ 

00:43.200 --> 00:48.060
今日は､ ディープラーニングとは何か､ なぜ今ピックアップされているのか､

00:48.060 --> 00:52.050
簡単に説明します｡

00:52.050 --> 00:53.520
では､ さっそく始めましょう｡ 

00:53.520 --> 00:55.290
なぜ､ そのクリップを見てもらったのか？

00:55.290 --> 00:57.540
そして､ こちらの写真は何でしょうか？

00:57.540 --> 01:00.120
まあ､ この映像は1994年のものですが｡ 

01:00.150 --> 01:02.910
1980年当時のパソコンの写真です｡ 

01:02.910 --> 01:09.450
なぜ歴史を少し掘り下げているかというと､ ニューラルネットワークは､ ディープラーニングとともに､ かなり以前から存在していたのですが､

01:09.450 --> 01:16.530
今になってようやく盛り上がり､ 世界に影響を与え始めているからです｡

01:16.530 --> 01:20.850
しかし､ 80年代を振り返ってみると､ 60年代､ 70年代に発明されたものでも､

01:20.850 --> 01:27.540
本当にトレンドに乗った､ あるいは風を受けたのは80年代なのです｡

01:27.540 --> 01:30.330
だから､ みんなによく言われるようになったんです｡ 

01:30.600 --> 01:35.820
その分野では多くの研究が行われ､ 誰もがディープラーニングやニューラルネットワークは世界に衝撃を与える新しいもので､

01:35.820 --> 01:42.930
すべてを変え､ 世界の問題をすべて解決してくれると思っていました｡

01:42.930 --> 01:45.960
そして､ その後10年以上かけてゆっくりと衰退していったという感じです｡ 

01:46.140 --> 01:46.890
それでどうなったんですか？

01:46.890 --> 01:50.790
なぜニューラルネットワークは生き残れなかったのか､ 世界を変えられなかったのか｡ 

01:50.850 --> 02:02.250
その理由は､ 「物事の予測にそれほど長けていない」「モデリングにそれほど長けていない」「基本的に良い発明ではない」ということでした｡

02:02.250 --> 02:03.360
それとも他に理由があるのでしょうか？

02:03.360 --> 02:13.500
まあ､ 実は､ その理由や原因は目の前にあるのですが､ 当時の技術がニューラルネットワークを促進するのに適した水準に達していなかったということなのでしょう｡

02:13.500 --> 02:17.790
ニューラルネットワークやディープラーニングを正しく動作させるためには､ 2つのことが必要です｡ 

02:17.790 --> 02:21.540
データも必要だし､ 大量のデータも必要だし､ 処理能力も必要です｡ 

02:21.540 --> 02:25.770
そのデータを処理し､ ニューラルネットワークを促進するために､ 強力なコンピューターが必要なのです｡ 

02:25.770 --> 02:28.260
では､ どのようにすればいいのか､ 見てみましょう｡ 

02:29.060 --> 02:34.530
データあるいはデータの保存が年々進化し､ そして技術がどのように進化してきたかを見ていきます｡ 

02:34.540 --> 02:38.830
ここでは､ 1956年､ 1980年､ 2017年の3年分を用意したわけです｡ 

02:39.760 --> 02:43.090
1956年当時､ ストレージはどのような状態だったのでしょうか｡ 

02:43.090 --> 02:49.720
まあ､ ハードディスクもあるし､ そのハードディスクもメガバイトのハードディスクで5待ち程度なんですけどね｡ 

02:49.720 --> 02:55.210
小さな部屋ほどの大きさのフォークリフトに､ 5メガバイトも入っているんですよ｡ 

02:55.210 --> 03:01.000
それは､ ハードディスクが飛行機で別の場所に運ばれることです｡ 

03:01.000 --> 03:07.930
1956年当時のストレージはこんな感じでした｡ ハードディスクを1カ月借りるのに､

03:07.930 --> 03:15.430
買うのではなくて､ 会社が2.5万ドルも払って借りなければならなかったんです｡

03:16.150 --> 03:18.700
1980年､ 状況は少し改善された｡ 

03:18.700 --> 03:25.090
10メガバイトのハードディスクが3.5千円というのは､ まだ非常に高価で､ 10メガバイトしかないわけです｡

03:25.090 --> 03:26.860
だから､ 最近は1枚の写真みたいなものですね｡ 

03:26.980 --> 03:36.790
そして2017年の今日､ 150ドルで指に収まる256ギガバイトのSDカードを手に入れました｡ 

03:36.790 --> 03:43.480
そして､ もしあなたが1年後､ あるいは2019年や2025年のようにこのビデオを見ていたら､ その頃にはさらに強力なストレージ容量を持っているので､

03:43.480 --> 03:47.170
おそらく一人で笑っていることでしょう｡

03:47.170 --> 03:49.020
しかし､ それにもかかわらず､ この指摘は有効です｡ 

03:49.020 --> 03:58.300
そのため､ 価格やサイズを考慮した上で､ その時々のトレンドの容量で比較することになります｡

03:58.300 --> 04:08.860
1956年から1980年まで､ 容量は約2倍に増え､ その後､ 約25,600倍になったわけです｡ 

04:08.980 --> 04:13.150
そして､ 期間の長さですが､ そんなに変わりません｡ 

04:13.150 --> 04:18.700
1956年から1982年までが24年1980年から2017年までが37年ということですね｡ 

04:18.700 --> 04:24.610
つまり､ 時間はそれほど増えていませんが､ 技術的な進歩は大きく飛躍しているのです｡ 

04:24.610 --> 04:28.120
そして､ これは直線的なトレンドではないことを示すものです｡ 

04:28.120 --> 04:30.550
これは､ 技術の飛躍的な成長です｡ 

04:30.550 --> 04:36.640
さらに､ 価格やサイズを考慮するために追加すると､ 数百万円の増額になります｡ 

04:37.060 --> 04:40.420
そして､ ここでは実際に対数スケールのグラフを掲載しています｡ 

04:40.420 --> 04:46.180
そこで､ ギガバイトあたりのハードディスクコストをプロットしてみると､ 次のようになります｡ 

04:46.180 --> 04:50.200
今､ あっという間にゼロに近づいているんです｡ 

04:50.200 --> 04:55.090
DropboxやGoogle Driveでストレージを取得することができ､ コストがかからない､ クラウドストレージ､

04:55.390 --> 04:57.160
それはこれからも続くでしょう｡

04:57.160 --> 05:01.150
そして実際､ 何年もかけて､ これがさらに進んでいくのです｡ 

05:01.150 --> 05:05.800
今､ 科学者たちは､ DNAをストレージに利用することを検討しています｡ 

05:05.800 --> 05:07.660
しかも今はかなり高い｡ 

05:07.660 --> 05:15.100
2メガバイトのデータを合成するのに7000ドル､ それを読み込むのにさらに2000ドルかかるのです｡ 

05:15.100 --> 05:19.930
しかし､ ハードディスクや飛行機の状況を考えると､ この方向で行けば､ 10年後､

05:19.930 --> 05:24.670
20年後､ 誰もがDNAストレージを使うようになり､ 指数関数的なカーブを描いて､

05:24.670 --> 05:28.420
非常に早く緩和されることになるでしょうね｡

05:28.420 --> 05:29.890
そして､ その周辺の統計データを紹介します｡ 

05:29.890 --> 05:35.320
さらに詳しく知りたい場合は､ このビデオを一時停止してください｡

05:35.320 --> 05:36.760
これはネイチャー・ドット・コムからです｡ 

05:36.760 --> 05:49.300
つまり､ 1グラムのDNAストレージに約10億テラバイトのデータを保存することができるのです｡

05:49.300 --> 05:56.080
これは､ 私たちの進歩がいかに速いかを示すもので､ 超クールで超高性能なモデルを学習させるのに十分なデータがようやく揃った段階になって､

05:56.080 --> 06:04.060
深層学習が盛り上がってきたということです｡

06:04.060 --> 06:08.200
当時､ 80年代に初めて発明されたときは､ そうではありませんでした｡ 

06:08.470 --> 06:12.700
そして2つ目は､ 処理能力の話です｡ 

06:12.700 --> 06:17.770
ここで､ 対数スケールで再び指数曲線を描いてみましょう｡ 

06:17.800 --> 06:24.340
ここでは理想的に描かれていませんが､ 右側は対数スケールで､ このようにコンピュータは進化してきたことが分かります｡

06:24.340 --> 06:26.290
それでは､ もう一度､ このスライドを自由に一時停止してください｡ 

06:26.290 --> 06:27.340
これをムーアの法則という｡ 

06:27.370 --> 06:34.090
コンピュータの処理能力がいかに早く進化しているかは､ 皆さんもご存知の通りです｡ 

06:34.210 --> 06:39.940
今､ 私たちは､ 1000ドルで買える平均的なコンピューターが､ ネズミの脳のスピードで考え､

06:39.940 --> 06:47.560
25の間に人間か23の間のスピードになるようなところにいます｡

06:47.560 --> 06:54.640
そして､ 2050年か2045年には全人類を合算して上回ることになるのです｡ 

06:54.640 --> 07:05.590
つまり､ 私たちが想像するよりもはるかに速く物事を処理できる､ 非常に強力なコンピュータの時代が到来しているのです｡

07:05.590 --> 07:08.410
そしてそれこそが､ ディープラーニングを促進しているのです｡ 

07:08.410 --> 07:11.890
さて､ これらのことから､ ディープラーニングとは何かという疑問が湧いてきます｡ 

07:11.890 --> 07:15.340
ニューラルネットワークというのは､ どういう状況なんですか？

07:15.340 --> 07:16.750
何がどうなっているのでしょうか｡ 

07:16.750 --> 07:18.130
ここで何の話をしてるんだ？

07:18.130 --> 07:21.490
と､ こんな感じの写真､ 見たことあると思いますので､ 飛び込んでみましょう｡ 

07:21.490 --> 07:22.570
ディープラーニングとは？

07:23.320 --> 07:28.150
こちらのジェフリー・ヒントンさんは､ ディープのゴッドファーザーと呼ばれている方です｡ 

07:28.290 --> 07:33.390
学習で､ 80年代にはディープラーニングの研究をしていました｡ 

07:33.390 --> 07:41.010
そして､ 彼はたくさんの仕事をし､ たくさんの研究論文を『Deep Learning』に発表しています｡ 

07:41.010 --> 07:42.810
今はグーグルに勤めている｡ 

07:42.810 --> 07:48.180
ですから､ これからお話しすることの多くは､ 実はGeoffrey Hintonから来たものなのです｡

07:48.210 --> 07:49.770
YouTubeにかなりの数の動画があるそうです｡ 

07:49.770 --> 07:51.270
本当によく説明してくれるんです｡ 

07:51.270 --> 07:53.900
だから､ ぜひチェックしてみてほしい｡ 

07:53.910 --> 08:03.240
ディープラーニングの背後にある考え方は､ 人間の脳に注目することであり､ このチュートリアルでは神経科学をかなり取り上げることになるでしょう｡

08:03.240 --> 08:09.240
そして､ 私たちがここでやろうとしているのは､ 人間の脳の働きを模倣することなのです｡ 

08:09.240 --> 08:10.920
そして､ 私たちはそこまでわかっていないのです｡ 

08:10.920 --> 08:14.940
人間の脳についてすべてを知っているわけではありませんが､ そのわずかな知識から､ それを模倣し､

08:14.940 --> 08:16.650
再現したいと思うのです｡

08:16.650 --> 08:17.160
それはなぜか？

08:17.160 --> 08:25.020
なぜなら､ 人間の脳は､ この地球上で最も強力な学習ツールであり､ 学習し､ スキルを適応させ､ そしてそれを応用するためのツールであると思われるからです｡

08:25.020 --> 08:32.910
それをコンピュータがコピーできれば､ 自然淘汰がすでに決めたことを活用すればいいわけです｡

08:32.910 --> 08:36.750
そのようなアルゴリズムの中から､ 最適と判断されるものをすべて選んでいます｡ 

08:36.750 --> 08:37.770
それを活用していくだけです｡ 

08:37.770 --> 08:39.210
なぜ､ 自転車を再発明するのか？

08:39.210 --> 08:39.590
そうですね｡ 

08:39.630 --> 08:41.880
では､ ここでどう動くか見てみましょう｡ 

08:41.880 --> 08:44.490
神経細胞もある

08:44.490 --> 08:52.020
これは､ ガラスに塗られた神経細胞を､ 何らかの着色をして顕微鏡で見たものです｡

08:52.020 --> 08:54.210
そして､ このような姿になるのです｡ 

08:54.210 --> 08:58.470
胴体があって､ 枝があって､ 尻尾があって......といった具合です｡ 

08:58.470 --> 08:59.520
だから､ 見ることができるのです｡ 

08:59.520 --> 09:01.620
真ん中に核のようなものが入っているんです｡ 

09:01.620 --> 09:06.840
これが､ 人間の脳の神経細胞の基本的な姿なのです｡ 

09:06.840 --> 09:10.500
神経細胞は全部で約1,000億個あるそうです｡ 

09:10.500 --> 09:11.700
これが個々の神経細胞なんですね｡ 

09:11.700 --> 09:15.240
これは運動ニューロンで､ 大きくて見やすいからです｡ 

09:15.240 --> 09:23.880
しかし､ それでも人間の脳には1,000億個の神経細胞があり､ 1つの神経細胞は約1,000もの隣の神経細胞とつながっているのです｡

09:23.880 --> 09:26.520
では､ イメージをお伝えするために､ こんな感じです｡ 

09:26.520 --> 09:31.890
これは､ 人間の脳の実際の断面図です｡ 

09:31.890 --> 09:38.880
そして､ これが小脳で､ 脳の奥にあるこの部分です｡ 

09:38.880 --> 09:47.610
行列のようなもの､ バランスを保つためのもの､ 言語能力のようなものを担っているのです｡

09:47.610 --> 09:54.870
つまり､ これは神経細胞がいかに膨大であるか､ いかに多いかを示すものです｡ 

09:54.900 --> 09:58.720
脳内では何十億もの神経細胞がつながっているようなものです｡ 

09:58.720 --> 10:02.520
だから､ 5人とか500人とか1000人とか100万人とかいう話ではないんです｡ 

10:02.520 --> 10:04.230
これは何十億という神経細胞があるんですよ｡ 

10:04.560 --> 10:08.250
そう､ だから､ それを再現しようと思っているんです｡ 

10:08.250 --> 10:11.640
では､ これをコンピュータの中でどう再現するか｡ 

10:11.640 --> 10:23.400
さて､ 人工神経網と呼ばれる人工的な構造を作り､ ノードやニューロンを用意し､ 入力値としていくつかのニューロンを用意します｡

10:23.400 --> 10:27.270
つまり､ これはある状況について知っている自分の価値観なのです｡ 

10:27.270 --> 10:31.170
例えば､ 何かをモデリングして､ 何かを予測する場合､ 必ず何らかの入力､

10:31.170 --> 10:34.950
つまり予測を開始するための何かが必要です｡

10:35.130 --> 10:37.890
そして､ これが入力層と呼ばれるもので､ 次に出力があります｡ 

10:37.890 --> 10:43.230
つまり､ 予測したいのは価値なのか､ 驚きなのか､ 誰かが銀行を出て行くのか､ それとも銀行に残るのか､

10:43.230 --> 10:47.850
これは詐欺的な取引なのか､ ということです｡

10:47.850 --> 10:49.410
これは本当の取引なのでしょうか？

10:49.410 --> 10:50.280
といった具合に｡ 

10:50.700 --> 10:52.350
これが出力層になるわけですね｡ 

10:52.350 --> 10:55.260
そして､ その間に隠しレイヤーを用意するのです｡ 

10:55.260 --> 10:59.670
ですから､ 脳を見ればわかるように､ 非常に多くの神経細胞があります｡ 

10:59.670 --> 11:03.240
目､ 耳､ 鼻から入ってくる情報もあるわけです｡ 

11:03.300 --> 11:04.860
基本的には自分の感覚なんですね｡ 

11:04.860 --> 11:09.180
そして､ 自分が持っているものをすぐに出力するのではないのです｡ 

11:09.180 --> 11:14.460
その結果は､ 出力に至るまでに､ これらの何十億､ 何百億､ 何千億というニューロンを通過することになります｡

11:14.460 --> 11:16.980
そしてこれが､ 脳をモデル化するという全体のコンセプトです｡ 

11:16.980 --> 11:20.520
だから､ 出力の前にある隠れ層が必要なんです｡ 

11:20.520 --> 11:26.490
つまり､ 入力層､ 隠れ層のニューロンに接続されたニューロン､ 出力値に接続された隠れ層のニューロンです｡

11:26.640 --> 11:29.220
それで､ これはこれでカッコいいんですよ｡ 

11:29.220 --> 11:30.480
しかし､ これは一体どういうことなのでしょうか？

11:30.480 --> 11:32.040
ディープラーニングはどこにあるのでしょうか？

11:32.040 --> 11:32.820
なぜディープラーニングと呼ばれるのですか？

11:32.820 --> 11:33.900
深い意味はないんです

11:33.900 --> 11:39.390
まあ､ これはシャローラーニングと呼ばれるオプションのようなものですね｡ 

11:39.690 --> 11:41.670
確かにあまりないですね｡ 

11:41.670 --> 11:43.380
しかし､ なぜディープラーニングと呼ばれるのでしょうか？

11:43.380 --> 11:45.960
まあ､ その後に次の段階に進むわけですから｡ 

11:45.960 --> 11:48.180
それをさらに分離するのです｡ 

11:48.180 --> 11:50.730
しかも､ 隠れ層は1つだけではありません｡ 

11:50.730 --> 11:57.720
たくさんたくさん隠れたレイヤーがあって､ それを全部つなげていくんです｡ 

11:57.720 --> 12:01.830
人間の脳と同じように､ あらゆるものを相互に関連づけているのです｡ 

12:01.830 --> 12:08.550
こうして入力された値は､ 人間の脳と同じように､ すべての隠れ層を通して処理されるわけです｡

12:08.550 --> 12:12.300
そして､ 出力値があり､ 今はディープラーニングの話をしています｡ 

12:12.300 --> 12:15.780
つまり､ ディープラーニングとは､ 非常に抽象的なレベルの話なのです｡ 

12:15.780 --> 12:21.120
さらなるチュートリアルでは､ ディープラーニングを解剖し､ 深く掘り下げていきます｡ このチュートリアルが終わる頃には､ ディープラーニングがどのようなものかを知り､

12:21.120 --> 12:26.460
あなたのプロジェクトでどのように適用すればよいかを知ることができるでしょう｡

12:26.460 --> 12:27.930
このカーンに超期待

12:28.040 --> 12:31.790
次のチュートリアルでお会いできるのを楽しみに待っています｡ 

12:31.820 --> 12:33.830
それまでは､ ディープラーニングを楽しんでください｡