WEBVTT

00:00.300 --> 00:06.840
大家好, 欢迎回到今天的深度学习课程, 我们将开始学习卷积神经网络, 它将是令人兴奋的｡

00:06.840 --> 00:08.340
让我们直接进入它｡ 

00:08.340 --> 00:10.350
我们从一个图像开始｡ 

00:10.620 --> 00:12.690
当你看这张图片时, 你看到了什么？

00:13.440 --> 00:17.610
你看到一个人在看你还是你看到一个人在看右边？

00:18.000 --> 00:21.570
你可以看到你的大脑在挣扎｡ 

00:21.570 --> 00:23.970
它正在努力适应｡ 

00:23.970 --> 00:27.330
如果你看图像的右边, 只要看图像的右边界｡ 

00:27.330 --> 00:29.040
你会看到一个人在向右看｡ 

00:29.040 --> 00:32.970
如果你看图片的左边, 你会看到一个人在看着你｡ 

00:33.540 --> 00:42.690
这正好证明了我们的大脑在寻找我们看到的东西时所寻找的是特征取决于它所看到的特征, 取决于你处理的特征,

00:42.690 --> 00:48.480
你以特定的方式对东西进行分类｡

00:48.480 --> 00:53.760
所以当你看图像的右边时,

00:53.760 --> 01:00.720
你会看到一个人的某些特征, 因为他们更靠近你的焦点中心, 所以你的大脑会把这个人归类为向右看｡

01:00.720 --> 01:09.270
当你看图像的左边时, 你会看到一个人看着你的更多特征, 因此你的大脑会把它归类为这样｡

01:09.270 --> 01:10.740
让我们看另一个例子｡ 

01:10.980 --> 01:12.720
这是一幅非常著名的图像｡ 

01:12.720 --> 01:15.810
你可能已经看过了, 但你在这里看到了什么？

01:16.590 --> 01:23.640
所以有些人会说, 他们看到一个年轻的女士穿着裙子, 目光移开｡ 

01:23.640 --> 01:29.760
有些人会说, 他们看到一个头上戴着围巾的老太太朝下看｡ 

01:29.970 --> 01:34.200
我将指出这些特征, 您会发现它们非常明显｡ 

01:34.200 --> 01:37.440
这就是那位年轻女士的脸｡ 

01:37.440 --> 01:40.290
她把目光投向远处, 好像她的外套｡ 

01:40.290 --> 01:43.380
那是她的头发, 那是她头发里的小羽毛｡ 

01:43.380 --> 01:48.900
而另一方面, 这是老太太俯视的头｡ 

01:48.900 --> 01:52.080
那是她的鼻子, 那是她的嘴, 那是她的下巴.

01:52.080 --> 01:53.490
那是她头上的围巾｡ 

01:53.490 --> 01:55.500
她在往下看｡ 

01:55.500 --> 01:57.840
如你所见, 二合一｡ 

01:57.840 --> 02:06.090
根据你的大脑提取的特征, 它会在将每幅图像分类为一幅或另一幅之间切换｡

02:06.660 --> 02:13.740
最古老的一个这些幻想记录在印刷工作是这一个｡ 

02:13.740 --> 02:15.150
是鸭子还是兔子

02:15.150 --> 02:16.860
这是鸭子还是兔子？

02:16.860 --> 02:17.970
再举一个例子｡ 

02:18.150 --> 02:24.630
现在我将给你们看一张图片, 只要看一下, 看看你经历了什么样的情感或什么样的体验,

02:24.660 --> 02:28.350
视觉体验｡

02:28.890 --> 02:30.930
你看到了什么？

02:30.970 --> 02:37.590
你觉得好像一点不晕, 而是有一点眼花缭乱, 好像你的大脑在努力地试着去理解它是什么, 它是什么样子,

02:37.590 --> 02:43.680
它在努力地在眼睛之间跳跃, 上下打量｡

02:43.680 --> 02:53.640
这是一个典型的例子, 当有某些特征时, 它可能是这个, 也可能是那个, 但你的大脑不能决定｡

02:53.850 --> 02:58.590
因为这两种说法似乎都有道理｡ 

02:58.590 --> 03:04.800
所以基本上所有这些例子都向我们展示了大脑是如何工作的, 它处理图像上的某些特征, 或者你在真实的生活中看到的任何东西,

03:04.800 --> 03:10.770
然后把它们分类｡

03:10.770 --> 03:16.030
你可能会在这样的情况下, 当你快速地回头看, 你看到一些东西, 你认为它是,

03:16.030 --> 03:22.740
我不知道, 它像一个, 一个, 一个球, 但它原来是一只猫, 或者你认为它是一辆车,

03:22.740 --> 03:25.440
但它原来是一个阴影和类似的东西｡

03:25.440 --> 03:30.930
这是因为你没有足够的时间来处理这些特征, 或者你没有足够的特征来对事物进行分类｡

03:30.930 --> 03:38.490
对我来说, 这很有趣, 因为我们将要用神经网络, 卷积神经网络做的,

03:38.490 --> 03:40.710
是非常相似的｡

03:40.710 --> 03:48.120
你会发现计算机处理图像的方式和我们处理图像的方式非常相似｡

03:48.120 --> 03:53.520
因此, 理解并记住这些事情是非常有价值的, 这就是我们如何做到这一点｡ 

03:53.520 --> 03:58.350
我要把这位女士从你们的屏幕上拿掉, 因为她现在可能已经把你们吓坏了｡

03:58.350 --> 04:00.870
所以这里有些不同的东西｡ 

04:00.870 --> 04:06.900
这是一个实验, 一个在计算机上做的实验, 关于卷积神经网络｡ 

04:06.900 --> 04:10.710
所以我们现在正慢慢地从人类转向计算机｡ 

04:11.190 --> 04:14.310
这张幻灯片来自杰弗里·欣顿顿的演讲｡ 

04:15.090 --> 04:23.820
这是他在训练的卷积神经网络上做的一个实验.

04:24.210 --> 04:29.490
这里有三张图片, 我们将从左到右看一遍, 看看你如何对它们进行分类,

04:29.490 --> 04:31.560
然后看看计算机如何对它们进行分类｡

04:31.560 --> 04:34.260
那么左边, 你觉得这是什么？

04:35.340 --> 04:37.590
你可能会说猎豹, 你会是正确的｡ 

04:37.590 --> 04:38.790
电脑是这么说的｡ 

04:38.790 --> 04:43.860
所以马上, 马上,

04:43.860 --> 04:53.850
我们将学习如何阅读这些图像, 因为如果你要深入研究卷积神经网络, 不是双关语, 如果你要开始学习更多关于它们的知识并使用它们, 你会看到很多这样的图像｡

04:53.850 --> 04:57.000
所以我看到人们读错了｡ 

04:57.000 --> 04:58.830
所以在这里的顶部｡ 

04:59.620 --> 05:01.320
基地组织就是这样｡ 

05:01.320 --> 05:04.770
这就是图像的正确标签｡ 

05:04.770 --> 05:10.950
这就是图像的标签是什么, 不管任何处理和计算机视觉｡ 

05:11.520 --> 05:20.550
这是前四或前五的猜测, 有时候是算法的猜测, 它们被赋予了概率.

05:20.550 --> 05:26.370
所以电脑说, 或者神经网络说猎豹､ 雪豹或者埃及猫可以是四个人中的一个,

05:26.370 --> 05:29.040
猎豹的得票率最高｡

05:29.040 --> 05:34.650
在整个课程的这一部分中, 您将了解这些投票的含义以及它们是如何产生的｡

05:34.650 --> 05:36.420
但现在这是很直观的, 对吧？

05:36.420 --> 05:41.970
所以这是一只现实中的猎豹, 神经网络猜对了, 它说有很高的概率, 大约95%, 99%,

05:41.970 --> 05:44.100
这是一只猎豹｡

05:45.780 --> 05:47.370
那第二个呢, 你觉得呢？

05:47.370 --> 05:51.030
是它是它是子弹头列车｡ 

05:51.030 --> 05:57.960
神经网络能够区分动车､ 客车､ 地铁列车､ 电力机车｡

05:57.960 --> 05:58.920
这些都是最好的选择｡ 

05:58.920 --> 06:00.360
当然, 它还有更多的选择｡ 

06:00.360 --> 06:08.670
这些神经网络学会了同时从几十个､ 几千个类别中区分出不仅仅是四个类别｡

06:08.670 --> 06:10.650
这就是它选择的四个选项｡ 

06:10.650 --> 06:12.720
这就是子弹头列车, 子弹头列车

06:12.720 --> 06:18.450
所以你觉得最后一个是非常, 非常有几个选择｡ 

06:18.460 --> 06:20.040
还不清楚是什么｡ 

06:20.040 --> 06:21.390
它可能是一个煎锅｡ 

06:21.390 --> 06:22.740
可能是个放大镜｡ 

06:22.740 --> 06:27.000
它甚至可能是一把剪刀｡ 

06:27.000 --> 06:32.460
有些人可能会说, 神经网络说这是一把剪刀, 但你可以看到你是如何出错的｡

06:32.460 --> 06:35.250
首先, 这不是一个非常清晰的图像｡ 

06:35.250 --> 06:41.700
你也可以看到概率在这里并不清楚｡ 

06:41.700 --> 06:46.200
所以神经网络有点困惑, 有点优柔寡断, 就像我们一样｡ 

06:46.200 --> 06:50.910
所以它说剪刀的概率最高,

06:50.910 --> 06:55.650
但它有手光泽, 这实际上是与不远处的第二位和煎锅听诊器｡

06:55.650 --> 07:02.850
基本上你可以看到剪刀是它的第一个猜测, 但正确的选择是第二个, 这就是为什么它用红色突出显示｡

07:03.060 --> 07:03.930
好了, 我们走吧｡ 

07:03.930 --> 07:06.960
这些都是神经网络已经具备的能力｡ 

07:06.960 --> 07:08.820
这是一张很老的幻灯片｡ 

07:08.820 --> 07:10.530
这是几年前的事了｡ 

07:10.530 --> 07:11.760
现在更好了｡ 

07:11.760 --> 07:16.080
你会看到, 从实际应用中, 你们将一起编码｡ 

07:16.080 --> 07:16.670
水坑上｡ 

07:16.680 --> 07:23.730
但是现在让我们更好地理解卷积神经网络究竟是什么样的网络, 以及它们为什么如此受欢迎？

07:23.730 --> 07:25.710
而且它们实际上越来越受欢迎｡ 

07:25.710 --> 07:31.050
你可以看到我昨天做的Google趋势比较｡ 

07:31.620 --> 07:39.360
这里你可以看到卷积神经网络甚至取代了人工神经网络｡ 

07:39.360 --> 07:47.880
因此, 这是一个巨大的增长, 他们将继续这样做, 因为这是一个非常重要的领域,

07:47.880 --> 07:52.440
这是所有的事情发生的地方, 如自动驾驶汽车｡

07:52.440 --> 07:57.840
他们如何识别路上的人, 如何识别停车标志之类的东西？

07:57.840 --> 08:04.860
Facebook如何如何如何Facebook如何能够标记图像或图像中的人？

08:04.860 --> 08:11.820
不仅如此, 还记得几年前, 你必须自己标记人, 然后它才能识别人脸, 你必须添加他们,

08:11.820 --> 08:18.240
然后添加名字, 现在它只需要识别人脸, 同时添加名字｡

08:18.330 --> 08:23.540
这就是卷积神经网络的能力｡ 

08:23.550 --> 08:32.280
说到Facebook, 如果说杰弗里·欣顿是人工神经网络和深度学习的教父,

08:32.280 --> 08:38.910
那么扬·勒昆就是卷积神经网络的鼻祖｡

08:38.910 --> 08:45.450
Yann LeCun是Geoffrey欣顿的学生, 事实上, 在这里你可以看到他们在一起｡ 

08:45.450 --> 08:51.180
杰弗里·辛顿（Geoffrey Hinton）现在是谷歌（Google）深度学习的先驱｡ 

08:51.210 --> 08:56.730
Yann LeCun是Facebook人工智能研究的主管, 也是纽约大学的教授｡ 

08:56.730 --> 09:00.030
所以慢慢地, 我们我喜欢这部分课程.

09:00.030 --> 09:09.120
慢慢地, 我们建立了这个名字, 这些名字或这种图片的人谁是驱动这个领域｡

09:09.120 --> 09:14.340
在接下来的几个部分中, 我们将了解更多信息｡ 

09:14.340 --> 09:21.030
我们会有整个黑手党, 他们自称, 或者Yann LeCun称他们为黑手党或深度学习的阴谋｡

09:21.030 --> 09:23.640
你会学到更多关于这个领域是如何发展的｡ 

09:23.640 --> 09:27.150
是的, 只是这些都是一些伟大的, 伟大的人｡ 

09:27.150 --> 09:36.180
Yann LeCun早在80年代和90年代就在卷积神经网络领域做出了重大贡献｡

09:36.180 --> 09:46.350
正如我们在这门课中所看到的, 已经能够开发或者帮助世界开发出如此强大的东西｡

09:46.350 --> 09:52.620
现在我们来看看卷积神经网络的工作原理, 你有一个输入｡ 

09:52.620 --> 09:54.210
这很简单, 很直接｡ 

09:54.210 --> 09:56.070
所以你有一个输入图像｡ 

09:56.070 --> 09:59.160
它通过一个卷积神经网络, 你有一个输出｡ 

09:59.250 --> 09:59.730
带标签｡ 

09:59.730 --> 10:06.520
所以它把这张图片归类为猎豹或者子弹头列车之类的东西｡ 

10:06.540 --> 10:10.320
现在我想讲得更详细一点｡ 

10:10.710 --> 10:18.840
比如说, 你可以在神经网络已经训练好之后, 在某些图像上, 在某些分类图像上, 或者在分类之前已经分类过的分类图像上,

10:18.840 --> 10:25.530
你可以给予它, 比方说, 一个神经网络已经训练好了,

10:25.530 --> 10:30.270
可以识别面部表情, 情绪｡

10:30.270 --> 10:39.240
你可以给予一个微笑的人一张脸, 不只是一张脸, 像这样的一张画, 而是一个微笑的人的真实脸｡

10:39.240 --> 10:44.790
它会告诉你那个人很快乐, 你可以给予它一个皱眉的人的脸｡ 

10:44.820 --> 10:46.650
它会告诉你这个人很悲伤｡ 

10:47.190 --> 10:48.480
它能识别这些情绪｡ 

10:48.480 --> 10:53.250
正如您所看到的, 它在许多不同的应用程序中已经非常强大｡ 

10:53.250 --> 11:00.450
就这一个例子, 你可以马上想到, 在这两种情况下, 它会给予你一个概率｡ 

11:00.450 --> 11:11.670
所以它不会说100%的人快乐或悲伤, 它会是99或98或可能80%, 当它不清楚发生了什么｡

11:11.670 --> 11:17.880
就像我们是对的一样, 有时候我们会把事情错当成不是的, 有时候我们会｡

11:18.690 --> 11:24.660
有时候, 我们不清楚这个人是在微笑还是在皱眉, 是狗还是猫,

11:24.660 --> 11:27.750
是火车还是子弹头列车｡

11:28.200 --> 11:28.360
好吧, 我知道了

11:28.410 --> 11:33.240
有时候我们还没有看到足够的特征,

11:33.240 --> 11:38.310
所有的一切都归结为特征, 因为这就是我们处理视觉信息的方式, 就像我们从本教程开始看到的那样｡

11:38.310 --> 11:44.040
那么神经网络是如何识别这些特征的呢？

11:44.040 --> 11:48.690
好吧, 这一切都是从你所拥有的最基本的水平开始的｡ 

11:48.690 --> 11:50.670
假设你有一个图像, 你有两个图像｡ 

11:50.760 --> 11:56.280
一个是2 × 2像素的白色图像, 一个是2 × 2像素的彩色图像｡ 

11:56.280 --> 12:04.620
嗯, 神经网络利用了白色图像是二维数组的事实｡ 

12:04.620 --> 12:09.560
所以我们现在看到的在左边的只是视觉上的表现, 对吗？

12:09.600 --> 12:13.530
所以这是一张图片, 为了简单起见, 这只是一张2 × 2的图片｡ 

12:13.890 --> 12:18.870
但用计算机术语来说, 它实际上是一个二维数组,

12:18.870 --> 12:22.080
其中每一个像素的值都在0到255之间｡

12:22.080 --> 12:27.540
所以这是八个八位信息的二的八次方是256｡ 

12:27.540 --> 12:30.240
因此, 值为0到255｡ 

12:30.240 --> 12:32.010
这就是颜色的强度｡ 

12:32.010 --> 12:33.450
在这种情况下, 颜色为白色｡ 

12:33.450 --> 12:38.550
所以0是一个全黑像素, 255是一个全白色像素｡ 

12:38.550 --> 12:44.370
在它们之间你有这个像素的可能选项的灰度范围｡ 

12:44.370 --> 12:49.920
根据这些信息, 计算机就可以处理这些图像｡ 

12:49.920 --> 12:55.080
这就像一个起点,

12:55.080 --> 13:03.150
任何图像实际上都有一个数字表示, 有一个数字形式, 这些基本上是1和0, 形成一个数字0到255的每一个像素｡

13:03.150 --> 13:04.170
这就是电脑的作用｡ 

13:04.170 --> 13:08.340
如果它实际上不工作的颜色或任何东西, 工作与1和0, 在一天结束时,

13:08.340 --> 13:12.390
这是一种像它的基础｡

13:13.140 --> 13:17.040
在彩色图像中, 它实际上是一个三维数组｡ 

13:17.040 --> 13:21.810
你有蓝色像素, 你有一个蓝色层, 一个绿色色层和一个红色层｡ 

13:21.810 --> 13:29.700
从这个意义上说, 四GB的红色, 绿色, 蓝色, 每一种颜色都有自己的强度｡ 

13:29.700 --> 13:36.870
所以基本上这个像素有三个, 三个值｡ 

13:36.870 --> 13:40.620
每一个都在0和256, 255之间｡ 

13:41.160 --> 13:50.220
因此, 你可以找出这是什么图像, 这个像素是什么颜色, 通过结合这三个值｡

13:50.220 --> 13:52.860
同样, 计算机也将与之合作｡ 

13:53.280 --> 13:55.710
这就是一切的基础｡ 

13:55.710 --> 13:58.440
这是红色通道, 绿色通道, 蓝色通道｡ 

13:59.310 --> 14:07.110
最后, 让我们看一个例子, 一个非常简单的笑脸的例子,

14:07.110 --> 14:16.080
用计算机术语来说, 如果我们真的简化一些东西, 而不是从0到255, 而不是为了让我们更好地理解事物,

14:16.080 --> 14:20.850
真正掌握概念,

14:20.850 --> 14:26.700
我们会说0是白色的, 1是黑色的, 对吗？

14:26.700 --> 14:30.630
所以我们要把事情简化到极致｡ 

14:30.630 --> 14:33.780
你会看到这个图像可以这样表示｡ 

14:33.780 --> 14:38.910
所以我们提出这个问题的原因是因为我们将学习所有的直觉教程, 我们将在这样的图像上进行结构化,

14:38.910 --> 14:43.950
这非常简单,

14:43.950 --> 14:50.460
但同时, 所有这些概念都可以转换回0到256的取值范围, 在那里一切都是一样的｡

14:50.460 --> 14:54.840
我们要对这些图像进行的步骤是第一步卷积｡ 

14:54.840 --> 14:56.760
第二步, 最大限度的集中｡ 

14:56.760 --> 14:59.000
第三步, 压平和数步｡ 

14:59.160 --> 15:00.330
或完全连接｡ 

15:00.330 --> 15:06.780
我可以想象, 这些词现在对你们来说可能没什么意义,

15:06.780 --> 15:13.890
但在这节课结束时, 你们会非常详细地理解它们, 以及它们的作用.

15:13.890 --> 15:15.920
所以我们将在下一个教程中开始｡ 

15:15.930 --> 15:23.430
现在, 你可能想看的额外阅读是一个年轻的拉库内斯原始论文,

15:23.640 --> 15:27.840
它引起了卷积神经网络｡

15:28.050 --> 15:31.380
它被称为基于梯度的学习应用于文档识别｡ 

15:31.650 --> 15:34.470
你可能已经看到这张图片之前, 浮动在互联网上｡ 

15:34.470 --> 15:35.700
是那张纸上的｡ 

15:35.700 --> 15:42.150
所以如果你想回到它发生的最开始, 它从哪里来, 这是一篇文章,

15:42.150 --> 15:46.230
我期待着在下一个教程中看到你｡

15:46.230 --> 15:48.450
在此之前, 请尽情享受深度学习｡ 
