WEBVTT

00:00.590 --> 00:03.110
大家好, 欢迎回到人工智能课程｡ 

00:03.110 --> 00:08.150
今天我们要讲的是a3c的第一部分, 演员评论部分｡ 

00:08.150 --> 00:15.050
这里我们有一个同步的优势参与者评论算法我们将要讨论的是下划线的参与者｡

00:15.500 --> 00:17.150
那就是我们要开始的地方

00:17.150 --> 00:30.320
你可以从任何地方开始, 但从表演到评论会更有意义, 因为这样我们就可以对正在发生的事情有一个非常连续的解释或直观的理解｡

00:30.410 --> 00:33.980
但如果我们从这个缩写的结尾开始｡ 

00:33.980 --> 00:42.200
好了, 到目前为止, 我们已经学到了深度卷积学习, 这张幻灯片就演示了这一点｡

00:42.200 --> 00:46.160
所以我们让电脑看到了像素｡ 

00:46.160 --> 00:48.710
所以实际的图像和像素, 而不仅仅是矢量｡ 

00:48.710 --> 00:49.580
所以这不是作弊｡ 

00:49.580 --> 00:52.040
它实际上看到的和人类看到的一模一样｡ 

00:52.040 --> 00:59.240
它看到了怪物, 看到了健康, 看到了底部的参数, 看到了走廊, 看到了枪｡

00:59.240 --> 01:02.960
它看到的东西和人类玩这个游戏时看到的完全一样｡ 

01:02.960 --> 01:09.260
然后图像通过一个卷积层, 然后通过一个池化层, 它被展平,

01:09.260 --> 01:12.860
进入一个神经网络｡

01:12.860 --> 01:17.450
然后在输出端, 我们有动作, 如你所记得的, 我们有那些提示值｡ 

01:17.570 --> 01:20.120
然后, 我们对它们应用操作选择策略｡ 

01:20.120 --> 01:24.290
例如, 我们应用一个软最大值, 找出我们想要采取的行动｡ 

01:24.290 --> 01:29.480
因此, 那里正在进行一些勘探和开发, 两者的结合｡ 

01:30.140 --> 01:33.200
这就是深度卷积学习的工作原理｡ 

01:33.380 --> 01:34.880
但现在让我们来看看我们要怎么做｡ 

01:34.880 --> 01:38.690
为了简单起见, 为了让我们更容易操作,

01:38.690 --> 01:44.240
因为我们要调整这个图像, 移动它, 我们要用正方形代替圆圈,

01:44.240 --> 01:46.400
用这些矩形框代替｡

01:46.400 --> 01:48.680
我们还要去掉中间的那些线｡ 

01:48.680 --> 01:51.140
只要把它们换成箭头就行了｡ 

01:51.140 --> 01:54.260
所以这并不能改变本质｡ 

01:54.290 --> 01:56.330
这只是图表上的表示｡ 

01:56.360 --> 01:59.600
这仍然是甚至这个表象仍然是深刻的､ 卷积的｡ 

01:59.630 --> 02:05.240
Q学习只会让我们更容易修改它, 并确切地展示三键是什么｡ 

02:05.240 --> 02:11.870
这就是我们从这里表示事物的方法, 三键对这个特定部分的作用｡

02:11.870 --> 02:15.020
所以我们要开始记住, 我们要一步一步开始｡ 

02:15.030 --> 02:16.610
我们从积极的批评者开始｡ 

02:16.610 --> 02:23.420
所以我们将看到如何从深度卷积学习, 一步一步地进行到三个关键步骤｡

02:23.420 --> 02:26.150
我们将在这里介绍这个积极的批评者部分｡ 

02:26.150 --> 02:27.380
所以我们要谈谈这个｡ 

02:27.470 --> 02:35.090
首先发生的是最后一位, 输出实际上是我们要像这样重新绘制它｡

02:35.090 --> 02:40.280
因此, 它是完全相同的输出, 完全相同的提示值或完全相同的动作｡ 

02:40.280 --> 02:44.540
所以如果你有八种可能的行动, 你仍然有八种可能的行动｡ 

02:44.540 --> 02:47.180
我们只是把它们放在最上面, 这样它们占用的空间就少了｡ 

02:47.180 --> 02:49.100
目前为止什么都没有, 什么都没有改变｡ 

02:49.100 --> 02:51.890
到目前为止, 这和这是完全一样的｡ 

02:51.890 --> 02:54.860
但现在, 这就是积极的批评者的作用所在｡ 

02:54.860 --> 02:57.590
我们将有第二个输出｡ 

02:58.040 --> 02:59.870
所以第一个是一组输出｡ 

02:59.870 --> 03:02.690
这里我们将有一个单独的输出｡ 

03:02.690 --> 03:05.960
所以从技术上讲, 我们要用神经网络吗？

03:05.960 --> 03:14.570
现在, 图像和所有的东西, 比如值, 从左到右通过网络｡

03:14.570 --> 03:16.490
他们不只是吐出一套价值观｡ 

03:16.490 --> 03:17.780
他们实际上分成了两组｡ 

03:17.780 --> 03:20.570
我们已经知道最上面的那一组是什么了｡ 

03:20.570 --> 03:22.700
而是可能采取的行动｡ 

03:22.700 --> 03:25.280
但在这里我们实际上会有另一个额外的值｡ 

03:25.280 --> 03:26.480
让我们来看看｡ 

03:26.480 --> 03:28.340
那值多少钱？

03:28.340 --> 03:29.810
我们开始吧｡ 

03:29.810 --> 03:31.190
那是最上面的｡ 

03:31.190 --> 03:34.940
所以我们只是缩小了这张图的尺寸｡ 

03:35.180 --> 03:41.090
顶部输出是Q值, 正如我们之前讨论的操作｡ 

03:41.090 --> 03:42.410
所以它们是一回事

03:42.410 --> 03:43.190
一切都一样｡ 

03:43.190 --> 03:45.140
但现在这个底部｡ 

03:45.140 --> 03:47.030
哦, 最上面的部分实际上被称为演员｡ 

03:47.030 --> 03:47.780
我们要给予它起个名字｡ 

03:47.780 --> 03:54.380
这是演员因为这是代理人选择它想做的事情的部分, 这样就像是在演戏｡

03:54.380 --> 04:00.590
这就像是在舞台上表演, 一旦我们把第二个名字也放在屏幕上, 它就会变得更有意义｡

04:00.590 --> 04:07.940
然后第二个输出就像一个值, 就是SE的V, 这就是状态的值｡

04:07.940 --> 04:15.140
所以如果S的Q是S的Q, A是某个作用的Q值｡ 

04:15.140 --> 04:19.940
正如你所看到的, 这就是为什么有一个动作, 两个动作, 三个动作, 一直到六个动作,

04:19.940 --> 04:21.890
或者在那个状态下有多少个动作.

04:21.890 --> 04:23.030
所以在给定的状态下｡ 

04:23.030 --> 04:25.250
SE采取行动的Q值是多少？

04:25.250 --> 04:28.130
A动作到动作一, 动作二, 依此类推｡ 

04:28.130 --> 04:36.350
然后我们也在预测我们也在用神经网络来预测我们实际所处的状态的值｡

04:36.350 --> 04:40.430
而这一部分被称为批评家｡ 

04:40.610 --> 04:45.710
这就是直觉, 或者说不是完全的直觉｡ 

04:45.710 --> 04:51.290
这就像演员评论家背后的直觉的开始, 现在有两个来自神经网络的输出, 而不是一个,

04:51.290 --> 04:56.360
但在我们只有一个输出之前, 我们现在称之为演员｡

04:56.360 --> 04:58.940
但现在我们有两个输出, 演员和评论家｡ 

04:58.940 --> 04:59.810
而且会有一个｡ 

04:59.900 --> 05:02.150
它们之间的动态关系, 我们将进一步探讨｡ 

05:02.150 --> 05:10.970
但现在, 重要的是要理解我们不仅预测了主体在特定状态下所能采取的行动的Q值｡

05:10.970 --> 05:15.680
但它也预测了处于当前状态的价值, 使用的是同一个神经网络｡ 

05:15.680 --> 05:20.570
这是真正的批评家的第一步｡ 

05:20.570 --> 05:24.050
现在我们需要讨论同步, 我们会在下一节课中讨论, 以便理解,

05:24.050 --> 05:26.640
作用量理论之间到底发生了什么｡

05:26.810 --> 05:32.570
今天的最后一件事是, 所有这些关键价值观, 正如我们所知, 也被称为政策｡ 

05:32.570 --> 05:39.470
所以在一些文献, 博客和一些讨论中你可能会发现, 在积极的评论家中,

05:39.470 --> 05:44.720
你可能会发现作者在谈论演员这一边的Q值｡

05:44.750 --> 05:51.860
在其他一些文献和博客的帖子和讨论中, 你会发现作者在谈论这项政策｡

05:51.860 --> 05:59.720
所以通常使用用户来表示策略, 就像希腊字母P, 或者你可以直接说policy of state.

05:59.930 --> 06:05.540
总之, 这些就是政府的政策,

06:05.540 --> 06:11.570
因为我们记得, 政策是如果你把所有的行动放在一起, 可能的行动, 然后决定采取哪一个行动.

06:11.570 --> 06:14.210
这些就是采取每一个行动的概率.

06:14.210 --> 06:15.260
这就是政策｡ 

06:15.260 --> 06:20.720
所以, 如果你看到其中一个或另一个, 不要被抛弃, 他们基本上意味着同样的事情｡ 

06:20.960 --> 06:24.410
一方面, 这里有策略或Q值, 另一方面,

06:24.410 --> 06:27.560
你有状态的实际值, 它们是通过神经网络预测的｡

06:27.560 --> 06:29.120
这就是积极批评家的开始｡ 

06:29.120 --> 06:34.250
我们将在下一个教程中讨论同步时继续讨论这一点, 我期待着在那里见到您｡

06:34.250 --> 06:35.990
在那之前享受我｡