WEBVTT

00:00.550 --> 00:02.770
大家好, 欢迎回到人工智能课程｡ 

00:03.040 --> 00:06.910
在前一部分中, 我们讨论了深度学习杀手级直觉｡ 

00:06.910 --> 00:14.320
我们从那里开始, 实际上我们一直到了这一部分, 我们谈到了学习,

00:14.320 --> 00:17.980
现在我们要进入实际的表演部分｡

00:18.160 --> 00:22.180
所以有两个部分, 两个不同的部分, 我们必须记住.

00:22.180 --> 00:23.440
这就是学习的部分｡ 

00:23.440 --> 00:25.420
但现在他实际上他做了这一切｡ 

00:25.420 --> 00:26.230
真漂亮｡ 

00:26.230 --> 00:27.820
现在他实际上必须采取行动｡ 

00:27.820 --> 00:31.570
他必须决定他要做的是要做的动作一､ 二､ 三还是四｡ 

00:31.570 --> 00:32.770
他是怎么做到的呢？

00:32.770 --> 00:37.090
现在他的做法是给了同样的线索值｡ 

00:37.090 --> 00:41.080
因此, 在我们将这些线索值与计算损失进行比较之后,

00:41.080 --> 00:45.670
线索值不会改变, 我们已经传播了误差, 我们已经更新了权重, 但是线索值在整个过程中不会改变｡

00:45.670 --> 00:49.270
我们得到提示值后, 它们就固定了, 我们知道它们是什么｡ 

00:49.270 --> 00:53.710
所有这一切都发生了, 网络更新了, 现在使用的是我们拥有的那些相同的键值｡ 

00:53.710 --> 00:58.390
我们要做的是让它们通过一个软最大函数.

00:58.390 --> 01:01.900
同样, 我认为, 在附件二中描述了软最大值｡ 

01:01.900 --> 01:12.010
我们会在后面讨论软最大值, 或者我们会在这一节的后面讨论这个动作选择策略｡

01:12.010 --> 01:17.140
这只是几个教程中的内容, 但现在我们要说的是, 我们要通过一个软max函数来传递它｡

01:17.140 --> 01:22.060
基本上, 它所做的就是帮助选择最好的一个, 它选择最好的行动｡ 

01:22.060 --> 01:23.590
这里有一个小小的警告｡ 

01:23.590 --> 01:25.750
这不只是最好的一个可能｡ 

01:25.990 --> 01:28.870
我们将在操作选择策略教程中讨论这一点｡ 

01:28.870 --> 01:31.720
但现在, 我们只能说它从这里选择最佳行动｡ 

01:31.720 --> 01:32.500
它说, 好吧, 那么｡ 

01:32.500 --> 01:37.540
Q一, 似然基本上我们知道Q的值｡ 

01:37.600 --> 01:38.770
所以它预测了Q值｡ 

01:38.770 --> 01:43.840
它可以查看这些值, 然后说, 好的, 最高Q值, 就像我们在简单Q学习算法中所做的那样,

01:43.840 --> 01:48.880
它只会查看所有这些值, 比如说, 最高Q值｡

01:48.880 --> 01:50.080
我将选择该操作｡ 

01:50.080 --> 01:50.770
我来拿吧｡ 

01:50.770 --> 01:51.970
差不多就是这样了｡ 

01:51.970 --> 01:53.800
这就是它如何选择采取何种行动｡ 

01:54.070 --> 01:55.150
它采取行动｡ 

01:55.150 --> 02:02.050
然后所有这些过程再次发生, 在我们的例子中, 加法代理的下一个状态, 在迷宫的下一个方块中｡

02:02.050 --> 02:04.240
但一般来说, 它是下一个州｡ 

02:04.330 --> 02:05.350
好了, 我们走吧｡ 

02:05.350 --> 02:15.880
这就是我们如何通过一个描述我们所处状态的向量, 将强化学习问题输入到神经网络中｡

02:15.880 --> 02:20.050
一旦我们把它输入进去, 这个过程就分为两个部分｡ 

02:20.470 --> 02:22.210
一是学习｡ 

02:22.240 --> 02:26.770
请记住, 我们将每个Q值与目标值进行比较,

02:26.770 --> 02:32.290
然后通过网络反向传播损失, 以更新权重, 这样, 当我们通过迷宫或环境时,

02:32.290 --> 02:34.720
我们的网络也在学习｡

02:34.990 --> 02:40.750
当然, 第二部分是,

02:40.750 --> 02:48.220
我们必须采取行动, 我们必须选择一个行动, 这就是我们将Q值传递给软最大函数和/或基本上是一个行动选择策略的地方, 我们将在后面进一步讨论｡

02:48.220 --> 02:52.780
然后, 我们只需选择要采取的操作, 然后执行该操作｡ 

02:52.780 --> 02:59.230
然后整个过程又开始了, 然后也许经纪人到了然后也许经纪人没有传递到游戏中｡

02:59.230 --> 03:05.470
无论如何, 博弈结束了, 然后再一次, 整个, 整个过程重复,

03:05.470 --> 03:08.200
代理人再玩一次整个博弈, 然后就停止了｡

03:08.200 --> 03:14.470
所以基本上这是另一个纪元, 每次代理每次游戏结束, 无论是否在二月有利,

03:14.470 --> 03:16.600
这是一个纪元的结束.

03:16.600 --> 03:20.350
然后他又开始了, 然后他又开始了, 然后他又开始了, 等等｡ 

03:20.350 --> 03:21.520
这是真的｡ 

03:21.520 --> 03:26.470
每次代理处于新状态时, 都会执行此过程｡ 

03:26.470 --> 03:28.300
所以状态在这里被编码｡ 

03:28.300 --> 03:29.290
所以这很重要｡ 

03:29.290 --> 03:32.950
所以不仅仅是他打的每一场比赛, 而是每一个州｡ 

03:32.950 --> 03:37.960
所以他处于一种状态, 它经历了这个过程和更新等等, 每一次都发生｡ 

03:37.960 --> 03:41.200
所以学习发生了, 然后表演也发生了｡ 

03:41.560 --> 03:46.930
这就是深度学习背后的直觉｡ 

03:46.940 --> 03:49.510
我们还有很多事要做｡ 

03:49.510 --> 03:51.220
当然, 我们还有实践｡ 

03:51.220 --> 03:59.530
与此同时, 如果你想了解更多关于深度学习的信息, 我们有一本推荐阅读｡

03:59.530 --> 04:05.020
我们已经谈到了亚瑟朱利安尼的一系列博客文章｡ 

04:05.020 --> 04:13.840
如果您查看TensorFlow第四部分的简单强化学习, 您将发现与我们今天讨论的内容相关的部分｡

04:14.140 --> 04:18.130
请注意, 他在这里谈到了卷积｡ 

04:18.130 --> 04:20.860
本节不讨论革命｡ 

04:20.860 --> 04:23.500
我们会在下一节课中讨论它们｡ 

04:23.500 --> 04:30.550
这里的区别在于, 先跳过卷积的部分, 我们会在下一节课中讨论｡

04:30.550 --> 04:38.800
但不同之处在于, 你看起来就像你的代理人在看图像, 因此他必须处理图像｡

04:38.800 --> 04:40.630
所以现在又多了一个麻烦｡ 

04:40.630 --> 04:43.360
我们我们正在慢慢地, 逐渐地建立起来｡ 

04:43.360 --> 04:47.530
目前, 我们正在通过对环境进行编码｡ 

04:47.530 --> 04:53.170
所以如果你看这里, 我们在编码我们的环境, 或者像看这个, 可能把我们的环境编码为,

04:53.170 --> 04:58.630
或者把代理所处的状态编码为, 一个向量｡

04:58.630 --> 04:59.920
所以在我们的例子中, 有一个非常简单的｡ 

04:59.990 --> 05:05.390
两种价值观的图片, 有时人们甚至会在这个简单的可能, 有时或者你会看到,

05:05.390 --> 05:10.100
从这篇博客文章, 有时人们更喜欢一个热门和编码版本的状态｡

05:10.100 --> 05:17.450
所以基本上迷宫的每个盒子都有一个向量, 在另一种情况下是12个值, 3乘4｡

05:17.750 --> 05:22.820
所以它就像是1或者0取决于你在环境中的哪个盒子里的哪个元素｡ 

05:22.820 --> 05:30.380
因此, 无论您决定以何种方式编码您的环境和环境状态, 这就是我们的编码方式｡

05:30.380 --> 05:31.430
所以它基本上是一个矢量｡ 

05:31.460 --> 05:36.350
这里的关键是, 它不是卷积, 所以它不像图像, 也没有以伏特为单位的卷积｡

05:36.350 --> 05:38.090
所以这一部分我们会在后面讲｡ 

05:38.090 --> 05:43.310
它从这里开始, 这只是简化了我们逐渐更好地理解的过程｡ 

05:43.310 --> 05:49.760
当然, 别忘了这篇博文是用TensorFlow编写的, 我们在教程中使用的是PyTorch｡

05:49.880 --> 05:59.000
希望你们喜欢这个快速介绍, 深入的, 卷积的, 深度的, 非卷积的深度学习｡

05:59.000 --> 06:02.840
说到这, 我期待着下次见到你｡ 

06:02.840 --> 06:05.570
在那之前, 好好享受人工智能吧｡