WEBVTT

00:00.510 --> 00:03.280
大家好, 欢迎回到人工智能课程｡ 

00:03.300 --> 00:10.440
在今天的教程中, 我们将介绍一个相当复杂的教程, 称为资格跟踪或步骤Q学习｡

00:10.440 --> 00:14.490
这是我们要在实际中实现的东西｡ 

00:14.490 --> 00:15.870
所以我们才要掩盖｡ 

00:15.870 --> 00:18.390
同时这也是一个相当复杂的话题｡ 

00:18.390 --> 00:24.840
所以我有一个非常有趣的方法来让我们跟上它背后的直觉｡ 

00:24.840 --> 00:28.230
所以我喜欢一种与我们习惯的不同的方法｡ 

00:28.230 --> 00:30.480
让我们来看看它是如何运作的｡ 

00:30.480 --> 00:33.950
我先给予你们举个例子｡ 

00:34.140 --> 00:39.720
在本教程中, 我将给予你们一个例子, 它将展示资格选择的力量,

00:39.720 --> 00:42.240
并给我们事物背后的直觉｡

00:42.240 --> 00:48.750
然后, 如果你想深入研究资格特征, 我给予你一个最好的地方, 你可以读到它｡

00:49.230 --> 00:52.440
我给予你一本书的参考资料, 但除此之外｡ 

00:52.440 --> 00:54.690
所以这次会有所不同是因为我们先来｡ 

00:54.990 --> 00:59.610
与其深入研究直觉, 我们不如看一个例子, 在我们讨论之后,

00:59.610 --> 01:01.530
直觉会变得显而易见｡

01:01.530 --> 01:03.090
这就是我对这门课的期望｡ 

01:03.090 --> 01:03.780
让我们来看看｡ 

01:03.780 --> 01:05.760
让我们看看, 让我们看看我们是否能做到这一点｡ 

01:05.760 --> 01:13.570
这里我们有两个代理, 它们在同一个环境中导航, 我们将了解这两个代理的工作原理｡

01:13.680 --> 01:16.020
第一个将与我们的资格托盘一起工作｡ 

01:16.030 --> 01:24.360
第二个将与资格跟踪一起工作, 希望我们能看到为什么第二个比第一个强大得多｡

01:24.360 --> 01:26.040
让我们来看看｡ 

01:26.070 --> 01:27.900
我们先来看看这个代理｡ 

01:27.990 --> 01:33.900
他的操作方式和我们之前讨论的深度学习完全一样｡ 

01:34.320 --> 01:40.110
所以代理要采取一个步骤或者要移动, 采取一个行动, 移动到一个新的状态｡ 

01:40.110 --> 01:41.610
它会得到一定的奖励｡ 

01:41.610 --> 01:47.280
它会把这个奖励通过它的算法, 更新运行这个代理的神经网络,

01:47.280 --> 01:50.460
或者在这个代理的头脑中运行的神经网络｡

01:50.460 --> 01:54.810
这基本上就是它如何从环境中学习, 从而迈出新的一步｡ 

01:54.810 --> 01:59.400
从这个新的状态开始, 它会根据神经网络的指示采取新的行动, 会得到奖励,

01:59.400 --> 02:03.630
会更新等等, 并且会继续这样做｡

02:03.720 --> 02:08.910
显然这个代理会做得很好,

02:08.910 --> 02:15.270
正如我们在前面的实践评分教程中看到的, 我们会得到一些很好的结果, 但现在我们要添加一个新特性.

02:15.270 --> 02:22.110
现在, 这个代理二号, 这个家伙在这里, 他将导航相同的环境, 但他将使用资格跟踪,

02:22.110 --> 02:24.930
这是它的意思｡

02:24.930 --> 02:30.120
他要做的是, 他要采取任何步骤, 他要采取在这个案件中, 文件四个步骤｡ 

02:30.120 --> 02:31.650
他要走四步｡ 

02:31.650 --> 02:40.380
然后只有在采取这些步骤之后, 他才能计算出他从这些步骤中得到的总回报｡

02:40.380 --> 02:42.660
他会把它通过他的网络｡ 

02:42.660 --> 02:50.220
他会把它通过控制决策过程的神经网络, 然后神经网络会从中学习｡

02:50.520 --> 02:51.990
那么马上选哪一个呢？

02:51.990 --> 02:53.940
你觉得哪一个更有力量？

02:53.940 --> 02:58.980
一个一步一个脚印的家伙, 有点像在瞎子或黑暗中戳｡ 

02:58.980 --> 03:01.340
他说, 好吧, 我就往前走一步, 看看会发生什么｡ 

03:01.350 --> 03:02.580
我先走一步, 看看会发生什么｡ 

03:02.580 --> 03:03.900
我先走一步, 看看会发生什么｡ 

03:03.900 --> 03:10.800
站在最上面的那个人或者说是非常勇敢地连续走了四步, 然后他决定这些步是否都是好的,

03:10.800 --> 03:17.580
为什么你能看到这里,

03:17.580 --> 03:24.990
或者为什么你能感觉到第二个人为什么更好, 或者更有力量, 因为第二个人知道最后是什么｡

03:24.990 --> 03:31.170
第一个人, 当他评估这一步是否正确时, 他只看他得到的奖励.

03:31.170 --> 03:34.200
所以他只会被环境给他的奖励所引导｡ 

03:34.200 --> 03:35.100
这里也一样｡ 

03:35.100 --> 03:38.850
他只是被环境给他的奖励所引导｡ 

03:39.450 --> 03:45.570
所以每次这是他唯一的指南针, 他有奖励, 奖励, 奖励｡ 

03:46.350 --> 03:51.720
而在这里, 他实际上可以在采取所有这些步骤后进行评估, 他可以评估｡ 

03:51.720 --> 03:52.200
哦, 好吧｡ 

03:52.200 --> 03:53.730
所以我确实到达了终点线｡ 

03:53.730 --> 04:00.450
所以这些步骤的组合都很好, 所有的都很好, 或者哦不, 我最后进了火坑, 或者哦不,

04:00.450 --> 04:07.020
我, 我没有赢, 我的车没有到达终点线, 或者我越过了沙墙, 或者我输掉了末日游戏,

04:07.020 --> 04:09.180
或者类似的事情｡

04:09.240 --> 04:15.480
然后他自己决定这整个步骤的组合是不好的, 因此对于前面的这些步骤,

04:15.480 --> 04:23.190
他有更多的信息, 他有更多的见解, 就像在一个非常直观的方法｡

04:23.190 --> 04:27.450
这又是一个比我们在这里描述的要复杂得多的话题, 但是是以一种直观的方式｡ 

04:27.450 --> 04:32.400
例如, 如果我们采取这一步骤, 这一步骤只对您的信息进行更新｡ 

04:32.400 --> 04:34.890
你只有从这个奖励中得到的信息｡ 

04:34.890 --> 04:39.690
在这个例子中, 对于这一步, 第二步, 它有更多的信息｡ 

04:39.690 --> 04:41.670
它的信息来自所有的方式｡ 

04:41.670 --> 04:45.090
好吧, 那么四步或五步或其他什么之后的结果是什么？

04:45.300 --> 04:45.630
是的, 我知道

04:45.630 --> 04:51.900
这就是它的工作原理, 它之所以被称为资格跟踪,

04:51.900 --> 05:00.000
是因为在此过程中, 他不仅要查看累积的奖励､ 正在发生的事情以及累积的损失, 然后所有这些都在那里传播｡

05:00.370 --> 05:03.730
但实际上有资格的痕迹｡ 

05:03.730 --> 05:05.000
这就是为什么它被称为资格跟踪｡ 

05:05.020 --> 05:14.710
在算法中有一条轨迹, 如果我们得到了一个惩罚, 我们得到了一个负奖励,

05:14.710 --> 05:23.010
那么哪一步最有可能得到那个惩罚呢？

05:23.020 --> 05:32.440
所以我们不仅知道整个模式或者这些步骤的组合是什么, 而且我们还保留了资格的痕迹｡

05:32.440 --> 05:36.250
如果我们获得奖励, 我们将更新哪些步骤？

05:36.460 --> 05:40.960
例如, 如果它是一个负面的奖励,

05:40.960 --> 05:47.050
我们可能会有一个资格跟踪, 告诉我们这是一个最重要的步骤, 我们最终得到了什么, 或者如果它是一个正面的奖励｡

05:47.050 --> 05:51.580
同样, 我们可能知道算法可以帮助我们跟踪｡ 

05:51.580 --> 05:58.630
这个资格跟踪算法帮助我们跟踪什么是什么步骤或什么行动需要是合格的, 合格的, 更新的基础上,

05:58.630 --> 06:03.700
我们得到的奖励｡

06:03.720 --> 06:05.560
这就是为什么它被称为资格跟踪｡ 

06:05.980 --> 06:08.800
这就是资格跟踪背后的基本直觉｡ 

06:08.800 --> 06:18.100
希望这两个例子能让我们很明显或很直观地了解为什么合格性特质如此强大｡

06:18.100 --> 06:25.180
如果你想更深入地研究资格追踪或分步学习, 那么你可以找到一本很棒的书,

06:25.180 --> 06:31.960
叫做强化学习和介绍, 作者是理查德·萨顿和安德鲁·巴托,

06:31.960 --> 06:36.580
出版于1998年.

06:36.580 --> 06:40.710
我想他们正在制作第二版,

06:40.720 --> 06:49.270
或者他们已经制作了一个认可, 但这是最常见, 最受欢迎, 或者被引用最多的关于强化学习的书.

06:49.270 --> 06:56.530
它被引用的次数太多了, 我想, 如果我没记错的话, 可能有几万次｡ 

06:56.530 --> 07:00.910
你需要的章节是第七章｡ 

07:00.910 --> 07:05.740
为了了解资格跟踪, 我们用了整整一章来介绍它｡ 

07:05.740 --> 07:12.040
第七章, 你们可以读到它, 它详细介绍了向前, 向后的资格跟踪,

07:12.040 --> 07:18.280
以及如何在时间上, 一方面和另一方面, 得到差异｡

07:18.280 --> 07:19.990
你有蒙特卡罗方法｡ 

07:19.990 --> 07:22.330
在这两者之间有资格跟踪｡ 

07:22.330 --> 07:27.070
因此, 资格跟踪是从时间差异到蒙特卡罗方法的链接｡ 

07:27.070 --> 07:28.270
很有意思｡ 

07:28.270 --> 07:31.540
看了很多照片, 我真的真的很感激｡ 

07:31.540 --> 07:34.030
非常直观的解释｡ 

07:34.030 --> 07:41.050
所以你可以从这本书中学到很多关于人工智能和强化学习的东西｡

07:41.050 --> 07:48.760
但具体来说, 资格跟踪就像一个非常好的地方去这本书是资格跟踪吗？

07:49.030 --> 07:56.500
今天的第二个参考资料是Adlon将在实践材料中向你们展示的, 深度学习,

07:56.500 --> 08:05.050
或者Google Deep Mind研究论文, 关于深度强化学习的异步方法｡

08:05.050 --> 08:06.730
是的, 那是报纸｡ 

08:06.730 --> 08:12.160
这是a3c论文中的一个, 我们在这门课后面会进一步讨论｡ 

08:12.160 --> 08:14.230
我们离它越来越近了

08:14.230 --> 08:18.280
正如你所看到的, 我们对此非常兴奋｡ 

08:18.280 --> 08:25.510
因此, 在本文中, 我们将稍微介绍一下他们是如何实现资格跟踪的｡

08:25.510 --> 08:29.020
所以我们会把它更多地用在实际的事情上｡ 

08:29.110 --> 08:35.800
希望您喜欢今天的教程, 现在您对资格跟踪有了更好的了解, 我迫不及待地想下次再见到您｡

08:35.800 --> 08:37.210
在那之前, 好好享受吧｡ 

08:37.210 --> 08:37.780
一､