WEBVTT

00:00.470 --> 00:03.370
大家好, 欢迎回到人工智能课程｡ 

00:03.380 --> 00:08.720
在今天的教程中, 我们将向a3c的世界迈出第一步, 作为第一步,

00:08.720 --> 00:11.120
我们将了解这个缩写代表什么｡

00:11.120 --> 00:15.890
因此a3c代表同步优势因素评价算法｡ 

00:16.190 --> 00:28.430
这是谷歌DeepMind于2016年由一组研究人员开发的一种算法, 是迄今为止人工智能的前沿算法｡

00:28.460 --> 00:34.970
现在它有了很多修改, 我们会在课程中, 特别是在实践教程中, 更多地讨论这个问题｡

00:34.970 --> 00:42.080
但尽管如此, 这个算法还是把其他所有的东西, 包括深度卷积学习网络, 都打得落花流水,

00:42.080 --> 00:44.180
完全打得落花流水｡

00:44.180 --> 00:45.710
而且速度更快｡ 

00:45.710 --> 00:49.910
训练时间更短, 效果更好｡ 

00:50.150 --> 00:55.520
所以在这部分课程中, 我们会参考,

00:55.520 --> 01:01.700
我们已经参考过了, 但我们会参考更多的一篇论文, 或者是第一篇介绍a3c的论文｡

01:01.730 --> 01:09.320
它被称为深度强化学习的异步方法, 由谷歌DeepMind的弗拉基米尔慕尼黑和其他人开发｡

01:09.320 --> 01:14.540
我现在给你们看这篇论文, 你们可以先了解一下.

01:14.540 --> 01:17.810
这是这张纸｡ 

01:17.810 --> 01:25.130
我想给你们看一下, 这样你们就可以对它有一个感觉, 并准备好一点点了解它｡

01:25.130 --> 01:34.070
当然, 强烈建议通读这篇论文, 了解他们到底在说什么｡

01:34.070 --> 01:41.420
你们会看到, 在隆德的实践教程中,

01:41.420 --> 01:51.590
会带你们浏览论文的某些部分, 浏览某些段落或章节, 这些段落或章节与我们在那个时间点上要编程的内容相关｡

01:51.710 --> 01:57.740
我想指出的是, 正如你所看到的, 很多研究都是关于这个的,

01:57.740 --> 02:02.870
但是也有很多参考文献, 但是我最喜欢的一部分是在结尾吗？

02:03.280 --> 02:07.970
在最后, 他们比较了不同的算法, 比较了结果｡ 

02:07.970 --> 02:09.860
这就是我想在这里指出的｡ 

02:09.860 --> 02:11.360
让我们放大一点｡ 

02:11.360 --> 02:17.390
所以在这里, 正如你所看到的, 甚至在谷歌DeepMind中, 他们正在训练或评估游戏中的算法,

02:17.390 --> 02:20.420
就像我们在这门课上所做的那样｡

02:20.420 --> 02:27.650
这是完全相同的原理, 因为游戏是一个模拟的环境, 或者说是一个小环境,

02:27.650 --> 02:33.320
一个有一定规则的受限环境, 他们想了解这个人工智能在这些游戏中的表现｡

02:33.320 --> 02:41.120
在这里, 我们有所有的游戏, 你可以找到很多, 你可以找到露天健身房和游戏,

02:41.150 --> 02:44.210
我们一直在工作｡

02:44.210 --> 02:46.760
例如, 在本节中, 我们将使用Breakout｡ 

02:46.760 --> 02:47.660
所以它也在这里｡ 

02:48.500 --> 02:53.840
所以你可以看到, 对于Breakout, 他们用粗体显示, 他们突出显示了最佳算法｡ 

02:53.840 --> 02:58.400
DCN是我们一直在使用的算法, 还有一些其他的算法｡ 

02:58.400 --> 03:03.470
这里有a3c, a3c有lshtm长短期记忆｡ 

03:03.470 --> 03:06.170
这就是我们在这部分课程中要实现的｡ 

03:06.170 --> 03:10.130
我们将有一个带LSHTM的a3c, 这使它更强大｡ 

03:10.130 --> 03:15.560
所以如你所见, 突破是通过三个关键系统实现的最佳结果｡ 

03:15.560 --> 03:19.670
这就是乐谱听起来是66. 8比其他人｡ 

03:19.670 --> 03:23.990
你也可以看到他们中的大多数人｡ 

03:23.990 --> 03:31.760
如果我们现在从更大的角度来看, 你可以看到大多数粗体字实际上都在最后一列｡

03:31.760 --> 03:36.110
所以, 是的, 确实有一些游戏, 其他算法的表现更好｡ 

03:36.110 --> 03:42.440
但正如你所看到的, DCN实际上在任何一场比赛中都没有表现得更好｡ 

03:42.440 --> 03:44.720
但是你可以看到还有其他的算法｡ 

03:45.200 --> 03:51.740
其他算法有时表现得更好, 但一个团队在大多数情况下表现得最好｡ 

03:51.740 --> 03:52.970
所以你可以看到这是大胆的｡ 

03:52.970 --> 03:57.500
这是粗体, 这一个, 这些, 这一个, 等等｡ 

03:57.500 --> 04:01.820
所以你可以看到a3c系统是一个非常强大的算法｡ 

04:01.820 --> 04:08.360
它确实处于人工智能的前沿, 而这正是我们将要实现的｡ 

04:08.360 --> 04:09.980
接下来是非常精彩的部分｡ 

04:09.980 --> 04:17.750
强烈建议您阅读本白皮书, 并对我们将要讨论的内容有一个初步的了解｡

04:18.260 --> 04:24.650
在这一节中, 特别是实用的一面, 实用的吸管,

04:24.650 --> 04:27.020
我们会详细讲解.

04:27.020 --> 04:32.510
我们实际上要使用他们的伪代码, 这是可用的｡ 

04:32.510 --> 04:36.800
我们会很巧妙地向你们展示如何实现这一点, 以及我们将如何处理这一点｡

04:37.190 --> 04:42.560
在这一点上, 我希望你会喜欢这篇论文, 我期待着看到你的下一次｡ 

04:42.560 --> 04:44.360
在那之前, 好好享受我｡