WEBVTT

00:00.470 --> 00:03.750
大家好, 欢迎回到人工智能课程｡ 

00:03.770 --> 00:09.140
在今天的教程中, 我们将从深度卷积密钥学习这一节开始｡ 

00:09.140 --> 00:10.820
让我们来了解一下这是怎么回事｡ 

00:10.820 --> 00:18.890
之前我们讨论过深度学习, 我们有一个带有代理的环境, 我们有一个描述该环境的向量,

00:18.890 --> 00:23.030
该向量被送入神经网络｡

00:23.030 --> 00:26.090
最后, 我们得到Q值作为输出｡ 

00:26.120 --> 00:29.210
当然, 我们还发现了如何训练网络｡ 

00:29.210 --> 00:29.870
学习的部分｡ 

00:29.870 --> 00:32.900
我们发现了行动是如何基于这些线索值来决定的｡ 

00:32.900 --> 00:34.370
那是动作片

00:34.370 --> 00:42.140
我们还讨论了行动选择策略以及深度学习的工作原理｡ 

00:42.140 --> 00:54.410
但这里的关键概念是我们如何从实际的环境和状态中得到神经网络？

00:54.410 --> 00:57.800
好了, 过渡到这里了, 输入向量｡ 

00:57.800 --> 01:02.180
所以神经网络的输入层是一个向量｡ 

01:02.180 --> 01:08.720
所以我们看到的是OC, 所以我们实际上不是, 这不是正确的术语, 我们没有看到任何东西｡

01:08.720 --> 01:12.230
代理基本上都有这些信息｡ 

01:12.230 --> 01:17.600
所以环境传递给它这个信息说, 好的, 你, 代理, 你当前在这个,

01:17.900 --> 01:24.530
你的状态由这个向量描述, 这个简化的例子, 它由这个向量描述, x 1/1, x

01:24.530 --> 01:26.660
2/2｡

01:26.690 --> 01:30.020
所以你的坐标是12, 这就是你的整个状态｡ 

01:30.020 --> 01:36.020
在更复杂的环境中, 状态可能涉及代理可以观察的其他事情｡ 

01:36.020 --> 01:39.050
但这里的重点是它是作为一个向量｡ 

01:39.050 --> 01:46.310
问题是, 这在现实生活中是不会发生的, 在现实生活中, 除了GPS系统和其他类似的东西｡

01:46.310 --> 01:48.350
但在真实的生活中, 我们用什么呢？

01:48.350 --> 01:48.890
大部分时间？

01:48.890 --> 01:50.840
我们用感官, 用眼睛｡ 

01:50.840 --> 01:53.600
即使在GPS中, 它也不是内置在我们的大脑中的｡ 

01:53.600 --> 01:56.060
它不会通过我们的大脑告诉我们坐标｡ 

01:56.060 --> 02:02.540
所以我们仍然用我们的眼睛来观察GPS, 了解那里发生了什么｡ 

02:02.720 --> 02:09.560
所以这是一种欺骗, 让人工智能能够获得关于环境的信息, 作为一个向量｡

02:09.560 --> 02:10.520
太简单了｡ 

02:10.520 --> 02:11.960
在真实的生活中不是这样的｡ 

02:11.960 --> 02:13.790
这不是我们人类的行为方式｡ 

02:13.880 --> 02:19.010
最终, 我们想要创造人工智能, 它可以以类似于人类的方式运行,

02:19.010 --> 02:23.240
也就是说, 它可以承担与人类相同的挑战｡

02:23.240 --> 02:28.130
所以在人类的世界里,

02:28.130 --> 02:33.560
我们没有这个, 我们没有那个, 我们没有这些坐标或其他类型的向量来解释我们在那个环境中的状态｡

02:33.560 --> 02:37.250
所以我们要把它去掉, 使它更逼真｡ 

02:37.250 --> 02:38.750
然后我们能用什么来代替它呢？

02:38.750 --> 02:42.110
作为一个人, 我们看到了什么, 或者我们做了什么来获取信息？

02:42.110 --> 02:46.070
当然,

02:46.070 --> 02:51.260
大多数时候我们看东西, 我们使用了所有的感官, 但是我们获得的关于周围世界的大部分信息都是通过我们的视觉获得的｡

02:51.260 --> 02:59.930
这就是为什么我们要把那个小箭头变成一个完整的卷积神经网络｡

02:59.930 --> 03:03.680
这是我们的附件二｡ 

03:03.830 --> 03:11.030
我们已经有了卷积层, 这就是为什么熟悉卷积卷积神经网络及其工作原理是很重要的｡

03:11.030 --> 03:14.840
所以如果你已经完成了我们的深度学习课程, 那么你应该会对此感到舒服｡ 

03:14.840 --> 03:16.880
或者你可以看一下附件｡ 

03:16.880 --> 03:20.390
第二, 我们有一些非常好的直觉教程｡ 

03:20.390 --> 03:24.260
这里我们得到了卷积运算｡ 

03:24.260 --> 03:27.230
所以我们实际上要把它看作一个图像｡ 

03:27.230 --> 03:31.250
这是一个网络环境的图像｡ 

03:31.250 --> 03:33.920
所以代理人实际上是在观察环境｡ 

03:33.920 --> 03:40.610
在这种情况下, 他不是从里面看,

03:40.610 --> 03:48.350
他看起来就像是在电脑上玩这个游戏, 他可以看到这个环境, 因此他可以看到这个代表代理人的数字实际上在哪里｡

03:48.350 --> 03:54.200
所以你可以看到整个环境或者任何人类能看到的东西如果这是真正的迷宫, 人类可以从里面看到迷宫｡

03:54.200 --> 03:56.390
所以特工们应该能看到完全一样的东西｡ 

03:56.390 --> 04:02.030
因此, 他看到的任何操作都要经过卷积层和完全池化层｡ 

04:02.030 --> 04:03.230
它再次经历展平｡ 

04:03.230 --> 04:10.640
你可以在附录中找到更多关于卷积神经网络不同部分的信息｡

04:10.640 --> 04:16.730
然后在它变平之后, 我们就有了进入神经网络的输入｡ 

04:16.730 --> 04:24.530
这是更真实的方式, 因为代理必须使用他们的网站和/或必须处理环境提供给代理的图像,

04:24.530 --> 04:31.340
就像人类处理图像一样｡

04:31.340 --> 04:37.430
它的美妙之处不仅在于它更逼真, 更像是一个代理人, 实际上更像是一个人,

04:37.430 --> 04:43.130
而且它允许我们处理更复杂的环境｡

04:43.130 --> 04:48.890
例如, 这就是我们如何玩毁灭战士或其他类似的游戏, 因为我们不只是得到一个信息向量,

04:48.890 --> 04:56.000
就像有人会为我们在这个环境中创建, 我们可以只是连接人工智能到一个环境, 作为人类,

04:56.000 --> 05:00.020
我们｡

05:00.060 --> 05:01.970
我们会对这个环境有一个愿景｡ 

05:01.970 --> 05:07.550
所以作为一个人, 当你在玩这个游戏的时候, 你可以准确地看到这幅图,

05:07.550 --> 05:11.780
这也正是人工神经网络或代理人所看到的｡

05:11.780 --> 05:16.970
现在, 在这部分课程中, 当你对实际材料进行编程时, 代理将实际看到这张图片,

05:16.970 --> 05:19.700
你将看到像素｡

05:19.700 --> 05:25.130
它会得到这个人的所有像素的精确图片, 这个, 这个, 这个枪, 这个脸,

05:25.130 --> 05:27.440
这个百分比, 所有的东西｡

05:27.440 --> 05:28.580
就是我们在这里看到的｡ 

05:28.580 --> 05:30.350
这正是探员会看到的｡ 

05:30.590 --> 05:37.370
然后, 它将不得不通过卷积拉, 层展平, 然后进入一个神经网络｡

05:37.370 --> 05:40.940
不用说, 神经网络实际上要比这复杂得多｡ 

05:40.940 --> 05:42.700
所以让我们用这样的东西来代替它｡ 

05:42.710 --> 05:44.330
这并不复杂｡ 

05:44.330 --> 05:46.430
这看起来有点复杂｡ 

05:46.430 --> 05:52.580
但实际上, 你将要使用和创造的神经网络将是相当有趣的｡

05:52.580 --> 05:54.050
它们会比这复杂得多｡ 

05:54.050 --> 06:00.770
但正如你在这里已经看到的, 即使我们只有五个输入而不是两个, 事情也会变得复杂得多｡

06:00.770 --> 06:04.310
在这里, 您可以看到代理可以执行的更多操作｡ 

06:04.310 --> 06:11.900
所以在厄运的游戏中, 向左和向右转, 向下看, 向上看, 跑, 射击,

06:11.900 --> 06:16.220
重新加载或所有这些不同的动作, 都可能在第一人称射击游戏中像厄运｡

06:16.220 --> 06:23.030
而且, 它不一定是你可以你可以附加这个代理到另一种类型的游戏.

06:23.030 --> 06:29.840
这就是它的美妙之处,

06:29.840 --> 06:36.920
它意识到它现在可以操作任何类型的环境, 因为只要有一个环境的可视化表示, 它就已经拥有了整个基础设施｡

06:36.950 --> 06:39.740
整个结构已经准备好处理它了｡ 

06:39.740 --> 06:43.910
这就是深度卷积学习的意义所在｡ 

06:43.910 --> 06:46.160
所以我们甚至要进行下一步｡ 

06:46.160 --> 06:55.580
我们现在在特工大脑的所有卷积层中加入了卷积, 我们让它变得更加复杂｡

06:55.580 --> 07:01.160
因此, 我们能够解决更复杂的挑战｡ 

07:01.160 --> 07:07.760
所以我希望你们对这将是一个史诗般的部分感到非常兴奋, 我们将创造一些惊人的东西｡

07:07.760 --> 07:10.100
我等不及要在下一篇报道中见到你了｡ 

07:10.340 --> 07:11.690
在那之前, 好好享受吧｡ 

07:11.720 --> 07:12.230
一､