WEBVTT

00:00.930 --> 00:04.190
大家好, 欢迎回到人工智能课程｡ 

00:04.200 --> 00:07.050
今天我们要讲的是贝尔蒙特方程｡ 

00:07.440 --> 00:13.920
这是一个相当复杂的话题, 我们将在这节课中, 一步一步地介绍它｡

00:13.920 --> 00:18.090
所以我们不会马上直接跳到最复杂的贝尔蒙特方程｡

00:18.090 --> 00:23.160
但是, 我们将慢慢地介绍它, 以便逐渐了解它是如何工作的｡ 

00:23.160 --> 00:25.350
我希望你能接受这个方法｡ 

00:25.350 --> 00:28.380
如果你是如果你是, 让我们直接进入它｡ 

00:28.380 --> 00:32.610
因此, 我们将有几个关键的概念, 我们将与操作｡ 

00:32.610 --> 00:36.090
这些概念是SSE代表State｡ 

00:36.090 --> 00:45.330
所以我们的代理所处的状态, 或者任何其他可能的状态, 代表了代理可以采取的行动.

00:45.330 --> 00:48.240
因此, 代理可以访问特定的操作列表｡ 

00:48.240 --> 00:53.520
当把行动放在一个状态组合中看时, 行动是非常重要的｡ 

00:53.520 --> 00:57.030
因此, 当你处于某种状态, 然后你看行动, 然后它开始有意义｡ 

00:57.030 --> 00:59.010
这些行动的结果会是什么？

00:59.010 --> 01:02.700
因为如果你只看一个动作本身而不看状态, 那就没有意义了, 因为你不知道你在哪里,

01:02.700 --> 01:05.310
你可能会在哪里结束｡

01:05.310 --> 01:13.800
然后我们有我们有我们的, 代表奖励, 这是一个特工进入某个状态所得到的奖励｡

01:14.040 --> 01:16.890
Gamma是折扣系数｡ 

01:16.890 --> 01:18.630
我们一会儿再讨论折扣系数｡ 

01:18.630 --> 01:24.330
现在都说得通了, 但是记下来, 记下来我们会有这个字母, Gamma,

01:24.330 --> 01:26.100
我们稍后会用它来操作｡

01:26.340 --> 01:30.990
因此, 行李员等式背后的人是理查德·欧内斯特·贝尔曼｡ 

01:31.170 --> 01:39.090
他是一位应用数学家, 提出了动态规划的概念, 我们现在称之为强化学习,

01:39.090 --> 01:42.930
或者称之为贝尔蒙特方程｡

01:42.930 --> 01:45.420
现在在井里, 这就是我们所说的现在｡ 

01:45.420 --> 01:52.170
在1953年, 他提出了这个概念, 也就是在那时, 贝尔蒙特方程来到了我的脑海｡ 

01:52.380 --> 01:55.920
让我们来看看这一切是如何运作的｡ 

01:56.310 --> 02:00.780
左下角是我们可爱的经纪人, 他在迷宫｡ 

02:00.780 --> 02:08.040
这是一个经典的迷宫, 你可以看到一些方块, 白色的方块是代理人可以进入的方块.

02:08.040 --> 02:11.610
灰色区块是无法访问的区块｡ 

02:11.610 --> 02:13.650
这就像是迷宫的一堵墙｡ 

02:13.650 --> 02:18.140
绿色是特工应该瞄准的地方｡ 

02:18.150 --> 02:19.860
我们要探员去那里｡ 

02:19.860 --> 02:20.880
结束了｡ 

02:20.880 --> 02:23.040
红色是火坑｡ 

02:23.040 --> 02:26.520
所以如果引擎福尔斯到火坑里, 他就输了这场比赛｡ 

02:26.640 --> 02:31.230
所以在火坑里, R的奖励是-1

02:31.230 --> 02:36.360
所以这是我们告诉探员我们不想让你这么做的方式｡ 

02:36.360 --> 02:41.100
就像, 还记得一个例子, 当我们训练狗, 我们想告诉他们像坏狗, 如果如果它没有做正确的事情,

02:41.100 --> 02:42.720
我们想做的｡

02:42.720 --> 02:43.260
这里也一样｡ 

02:43.260 --> 02:46.920
我们想告诉代理, 这不是你应该做的事情｡ 

02:46.920 --> 02:48.210
你不该被关在广场上｡ 

02:48.210 --> 02:51.120
所以每次它不在正方形中你就会得到一个负一的奖励｡ 

02:51.120 --> 02:53.100
所以它将受到一个负一奖励的惩罚｡ 

02:53.310 --> 02:57.300
另一方面, 如果它最终在绿色广场, 它将得到一个加一的奖励,

02:57.300 --> 02:59.220
这意味着这是我们希望它做的｡

02:59.280 --> 03:02.190
这就是代理人可能得到的两种回报｡ 

03:02.190 --> 03:06.150
它又是如何学会在这个迷宫中操作的呢？

03:06.180 --> 03:10.500
就像机器狗学会走路的例子一样, 我们只是让它知道｡ 

03:10.500 --> 03:12.390
我们只告诉它你可以做以下动作｡ 

03:12.420 --> 03:14.550
你可以往上走, 向右, 向左或向下｡ 

03:14.550 --> 03:16.590
这是您可以采取的四种可能的行动｡ 

03:16.590 --> 03:18.120
就是这样｡ 

03:18.120 --> 03:21.180
你可以试试看, 看看你能想出什么来｡ 

03:21.180 --> 03:26.580
所以代理人可能会去右边, 然后他们可能会去更右边, 他们可能会回到左边｡

03:26.580 --> 03:30.090
他们只是随机地按下这些按钮, 他们试图看看会发生什么｡ 

03:30.090 --> 03:34.560
然后他们回到这里, 他们向上, 向上, 向下, 向上, 向右｡ 

03:34.560 --> 03:36.090
所以现在, 他们还没有学到任何东西｡ 

03:36.090 --> 03:38.160
他们只是到目前为止什么也没有发生｡ 

03:38.160 --> 03:41.580
他们向右走, 然后砰的一声, 他们在绿色广场结束｡ 

03:41.580 --> 03:45.450
所以他们意识到, 哇, 我刚刚得到了一个额外的奖励｡ 

03:45.450 --> 03:48.960
所以他们一踏入绿色广场, 就得到了加一的奖励｡ 

03:48.960 --> 03:53.130
这就触发了算法, 好吧, 这真的很酷｡ 

03:53.580 --> 03:58.710
我因为在广场上结束而得到奖励, 所以我想在广场上结束｡ 

03:58.710 --> 04:00.420
这对代理人意味着什么？

04:00.660 --> 04:04.230
这意味着它开始问这个问题, 我是怎么到这个广场的？

04:04.260 --> 04:09.840
我之前处于什么状态？我采取了什么行动进入广场？

04:09.840 --> 04:14.520
然后它回头看了一下, 它说, 好的, 前一个状态是这个｡ 

04:14.730 --> 04:19.050
结果证明, 在那个状态下, 它是有价值的, 就是那个引发红色箭头的状态｡ 

04:19.050 --> 04:26.190
因为在那种状态下, 你我我只差一步就能得到我梦寐以求的最大奖励了,

04:26.190 --> 04:35.070
再加上一个像狗饼干一样的奖励, 只要我知道我是否在那种状态下, 那个用红色箭头标记的方块｡

04:35.070 --> 04:36.540
我只需要按右边就行了｡ 

04:36.810 --> 04:39.030
那我该怎么告诉自己？

04:39.030 --> 04:41.370
我怎么记得那个状态是有价值的呢？

04:41.370 --> 04:46.500
那么对我来说, 没有区别, 实际上, 作为一个代理人,

04:46.500 --> 04:49.620
我在绿色广场还是白色广场没有区别｡

04:49.620 --> 04:51.540
就在绿色广场, 我得到了一个奖励｡ 

04:51.540 --> 04:57.960
所以我要给自己做个记号, 白色方块是我的, 它的值是1,

04:57.960 --> 05:00.120
因为它正好指向奖励1.

05:00.120 --> 05:00.240
是这样｡ 

05:00.310 --> 05:03.220
只要我一进入白色广场, 我就知道我会再采取一个行动｡ 

05:03.220 --> 05:05.320
我会在绿色广场, 我会得到一个奖励｡ 

05:05.320 --> 05:14.190
这就是为什么我会说这个平方的值等于1, 因为它直接导致没有任何形式的减法｡

05:14.200 --> 05:16.090
只要我一进来, 我就知道我的奖励会是一个｡ 

05:16.090 --> 05:18.490
所以我把这个正方形标记为等于1｡ 

05:18.490 --> 05:19.330
这就是价值｡ 

05:19.330 --> 05:21.670
这就是这种状态的感知价值｡ 

05:22.210 --> 05:26.860
接下来, 代理人会说, 好吧, 我是怎么进入这个方块的？

05:26.860 --> 05:30.880
他可能会再走一圈, 然后再回到广场上｡ 

05:30.880 --> 05:33.520
我会想, 好吧, 在那之前我是怎么进入这个广场的？

05:33.520 --> 05:36.610
而我进入这个广场的方式就是从这个广场｡ 

05:36.700 --> 05:37.480
有意思｡ 

05:37.750 --> 05:42.790
所以当我进入这个方块时, 我知道我要做的就是向右走｡ 

05:42.790 --> 05:45.520
从这里开始, 我已经知道我会赢｡ 

05:45.520 --> 05:48.190
我很清楚从这里开始一切会怎样｡ 

05:48.190 --> 05:50.770
而且我知道处于这种状态的价值等于1｡ 

05:50.770 --> 05:59.350
既然没有什么能阻止我从这里走到这里, 这里的价值就是感知价值｡

05:59.350 --> 06:04.480
我也会把这里的值设为V等于1, 因为只要我在这里, 我就知道我会在这里,

06:04.480 --> 06:06.550
而且我会很快在这里.

06:06.550 --> 06:07.660
所以我会赢｡ 

06:07.960 --> 06:10.330
在那之前我怎么才能进入这个广场？

06:10.330 --> 06:12.850
我是从这个广场进入这个广场的

06:12.850 --> 06:15.700
所以价值是相似的做法｡ 

06:15.700 --> 06:19.120
在此的价值也等于1, 以此类推｡ 

06:19.120 --> 06:22.900
所以在这里的价值等于一, 在这里的价值也等于一, 因为每一个都通向下一个,

06:22.900 --> 06:25.210
通向终点线｡

06:26.020 --> 06:29.770
所以在这个阶段, 这一切都是非常合乎逻辑的｡ 

06:29.770 --> 06:33.340
这就是我们现在正在设计的贝尔蒙特方程｡ 

06:33.340 --> 06:40.240
所以我们可以设计一个方程来帮助一个特工穿过迷宫｡ 

06:40.240 --> 06:41.650
所以看看奖励｡ 

06:41.650 --> 06:46.100
然后前一个状态给予它一个等于奖励前一个状态的值, 依此类推｡ 

06:46.120 --> 06:47.560
所以这就形成了一条通路｡ 

06:48.070 --> 06:54.040
这一切都很好, 但问题是, 如果我们的代理人出于某种原因,

06:54.040 --> 07:00.370
从这个状态开始, 而不是从这里开始, 采取这些行动, 但它实际上是从这个状态开始的, 会发生什么？

07:00.400 --> 07:01.840
它怎么知道的？

07:01.870 --> 07:04.210
它如何记住要采取的操作？

07:04.210 --> 07:06.130
应该向右还是向下？

07:06.550 --> 07:07.720
还是应该往左？

07:07.720 --> 07:08.470
还是应该涨？

07:08.470 --> 07:16.570
如果它唯一的值就是等于1的值, 它怎么记得哪个是从这里开始的下一个延拓呢？

07:16.570 --> 07:18.580
所以你看不到更远的地方｡ 

07:18.580 --> 07:23.470
它只能看到, 好吧, 我这里有什么, 我这里有什么, 它怎么知道该走哪条路？

07:23.470 --> 07:24.790
在这个阶段, 还没有｡ 

07:24.790 --> 07:27.700
这是这是相当相同的代理人走哪条路｡ 

07:27.700 --> 07:30.400
所以这就是为什么这种方法不起作用｡ 

07:30.670 --> 07:32.800
这是一个非常非常简单的解释｡ 

07:32.830 --> 07:36.040
当然, 还有更多, 但在一个直观的方式｡ 

07:36.040 --> 07:40.450
这就是为什么我们要赋值, 就像这样, 把这个值往后推｡ 

07:40.630 --> 07:46.150
因为其中一个原因是一旦代理处于这两个值之间, 它会去哪里？

07:46.150 --> 07:48.250
它不会像那样被搞糊涂的｡ 

07:48.340 --> 07:50.980
那么我们如何解决这个问题呢？

07:50.980 --> 07:52.120
我们在这里干什么？

07:52.120 --> 07:58.390
这就是我们要开始介绍贝尔蒙特方程的真正形式, 慢慢地, 一步一步地｡

07:58.390 --> 08:01.450
所以贝尔蒙特方程看起来像这样｡ 

08:01.450 --> 08:07.960
我们已经讨论过, V, 处于某种状态的价值, 就像你现在的状态或任何给定的状态一样｡

08:07.960 --> 08:10.180
而且还有年代｡ 

08:10.180 --> 08:16.600
因为质数是一个状态, 下一个状态, 在这个状态之后, 你将最终进入的状态,

08:16.780 --> 08:18.730
并采取行动治疗癌症｡

08:18.730 --> 08:24.040
但我们知道, 一个特工可以采取很多行动, 这就是为什么我们在这里设置了这个最大值｡

08:24.040 --> 08:27.160
那么, 通过采取行动, 代理人会发生什么？

08:27.160 --> 08:32.440
假设我们在状态s中采取行动, 我们就在状态s中采取行动｡ 

08:32.440 --> 08:36.490
答：我们会立即进入一个新的状态, 从而获得奖励｡ 

08:36.550 --> 08:41.770
记住, 如果是在游戏结束时, 奖励可以是1, 也可以是+1或-1, 如果是在整个游戏过程中,

08:41.770 --> 08:43.570
奖励也可以是零.

08:43.570 --> 08:46.150
在这种情况下, 我们整个游戏的奖励是零｡ 

08:46.150 --> 08:47.650
这就是奖励｡ 

08:47.680 --> 08:55.030
另外, 我们将进入一个新的状态, 它的值为素数｡ 

08:55.030 --> 08:57.010
这就是新国家的价值｡ 

08:57.190 --> 08:58.720
还有伽玛, 我们一会儿再谈伽玛｡ 

08:58.720 --> 09:05.740
但我想说的是, 我们有很多不同的行动, 这就是为什么我们有最大值.

09:05.740 --> 09:09.550
因此, 通过采取行动, 我们得到奖励, 加上我们最终在一个新的状态｡ 

09:09.550 --> 09:13.300
因此, 对于每个, 我们有四种可能的操作｡ 

09:13.300 --> 09:17.680
对于四种可能的行为中的每一种, 我们都有一个这样的方程.

09:17.680 --> 09:23.170
所以这个值是4, 对于这四个动作中的每一个, 它们都有不同的值.

09:23.170 --> 09:28.720
我们只看最大值, 因为代理当然想取最优状态.

09:28.720 --> 09:32.020
所以如果他在状态s, 他会看这些值｡ 

09:32.020 --> 09:34.180
他会根据动作寻找最大值｡ 

09:34.180 --> 09:37.330
我将采取使这些值达到最大值的行动｡ 

09:37.330 --> 09:41.290
希望这能解释为什么我们在这里取最大值｡ 

09:41.380 --> 09:45.280
那么一旦我们得到了回报和状态的值, 为什么这里还有这个gamma参数呢？

09:45.460 --> 09:52.150
它就是用来解决代理不知道该往哪走的问题, 因为它不能比较两边的两个状态值,

09:52.150 --> 09:56.590
它们是一样的｡

09:56.740 --> 09:58.810
这就是为什么伽玛被称为贴现因子｡ 

09:58.810 --> 09:59.860
我们将在中看到它｡ 

10:00.100 --> 10:01.450
只是为了更好地理解它｡ 

10:01.840 --> 10:03.160
让我们来看看公式｡ 

10:03.160 --> 10:04.090
我们把它放在上面｡ 

10:04.090 --> 10:04.570
好吧, 我知道了

10:04.570 --> 10:09.040
现在我们来分析这些不同状态的值是什么｡ 

10:09.040 --> 10:11.370
这里的每个州都是一个正方形｡ 

10:11.370 --> 10:15.130
所以这些白色方块中的一个是一个状态｡ 

10:15.130 --> 10:17.620
我们要计算处于这种状态的价值｡ 

10:18.040 --> 10:19.570
让我们从这个正方形开始｡ 

10:19.600 --> 10:21.460
处于这种状态的价值是什么？

10:21.640 --> 10:25.660
我们需要在所有操作中取这个值的最大值｡ 

10:25.810 --> 10:31.090
我们知道这个值代表的是当我们接近终点线时最大化｡ 

10:31.090 --> 10:32.290
这就是它的构造｡ 

10:32.290 --> 10:40.600
通过观察你可以看到因为这里得到了奖励这里得到了一个贴现因子乘以下一个状态的价值｡

10:40.840 --> 10:44.740
这就是我们如何构造这个方程的原因｡ 

10:44.740 --> 10:50.170
所以如果我们向右移动, 这个值的最大值就是｡ 

10:50.170 --> 10:52.060
这就是我们计算状态值的方法｡ 

10:52.060 --> 10:57.400
此值等于此状态的最大值或等于此值｡ 

10:57.400 --> 11:00.670
如果我们向右移动, 如果我们采取向右移动的行动｡ 

11:00.940 --> 11:02.250
那么这个值是多少呢？

11:02.260 --> 11:04.750
好吧, 向右移动的奖励等于1｡ 

11:04.750 --> 11:11.470
不管gamma是多少, 我们在这个状态下没有一个值, 因为我们已经处于可能的最佳状态｡

11:11.590 --> 11:12.790
这是最后的状态｡ 

11:12.790 --> 11:13.810
它不会有值｡ 

11:13.810 --> 11:16.180
我们只是在这里得到一个奖励, 这是游戏的结束｡ 

11:16.180 --> 11:20.230
所以这个最大值的值将等于1｡ 

11:20.230 --> 11:23.410
这就是为什么这里的状态值等于1｡ 

11:23.680 --> 11:27.730
现在, 当我们向左移动时, 事情变得有趣了, 当我们向后移动一点时｡ 

11:27.730 --> 11:32.380
现在让我们来计算一下, 处于这种状态的价值｡ 

11:32.590 --> 11:34.000
为此我们需要伽马｡ 

11:34.000 --> 11:40.900
假设我们的贴现因子为0｡  一旦我们计算出这个值, 贴现因子就有意义了｡

11:40.900 --> 11:46.750
所以从这里, 仅仅基于我们的直觉和基础, 因为我们知道这个迷宫是如何运作的, 这个迷宫是如何运作的,

11:46.750 --> 11:51.250
我们知道最好的可能行动是向右走, 因为从这里我们走到这里｡

11:51.250 --> 11:55.960
这就意味着在这种状态下, 当你向右移动时, 就会达到最大值｡ 

11:55.960 --> 11:58.750
让我们看看如果我们把它插在这里会发生什么｡ 

11:58.750 --> 12:02.500
所以如果你从这里走到这里, 你得不到任何奖励仍然会是零｡ 

12:02.500 --> 12:03.730
但你会得到伽玛值｡ 

12:03.730 --> 12:07.360
所以你得到0｡  9乘以新状态的值, 即1｡ 

12:07.360 --> 12:13.990
所以在这个例子中, 这个值, 整个结果是1乘以0, 0｡  9乘1等于0｡  9.

12:13.990 --> 12:15.670
这就是我们的值, 0｡  9.

12:16.000 --> 12:18.490
所以如果我们现在计算这个, 你会从这里看到｡ 

12:18.490 --> 12:24.850
我们只要看看迷宫就知道了, 因为我们是人类, 因为我们了解这个方程是如何工作的｡

12:24.850 --> 12:29.840
当然, 一个人工智能, 代理人必须用这些东西来实验, 但因为我们有像水晶球一样的东西,

12:29.860 --> 12:31.780
我们可以看到这整个迷宫｡

12:31.930 --> 12:33.700
我们现在有鸟瞰图｡ 

12:33.700 --> 12:36.070
我们知道, 最好的行动是向右走｡ 

12:36.070 --> 12:45.460
所以如果我们把所有的都加进去, 就是零, 没有奖励, 加0｡  9倍于此状态下的值0｡  9等于0｡

12:45.460 --> 12:45.460
81等等｡ 

12:45.460 --> 12:49.840
所以这里它将是0｡  73, 这里是0｡  66.

12:50.290 --> 12:58.540
所以你可以看到贴现因子的作用方式是随着你离得更远, 它会对州的价值进行贴现｡

12:58.540 --> 13:04.480
如果你熟悉金融理论, 那么它类似于货币的时间价值｡ 

13:04.870 --> 13:06.820
你会怎么想？

13:06.820 --> 13:12.700
你希望今天有5美元, 还是10天后有5美元？

13:13.180 --> 13:18.070
如果有人给予你一个选择, 我今天给你5美元, 或者我给你5美元｡  十天后｡

13:18.100 --> 13:20.170
你今天当然会选5美元｡ 

13:20.170 --> 13:20.770
为什么会这样呢？

13:20.770 --> 13:27.370
因为你可以把这5美元以一定的利率进行投资, 这和Gamma非常相似

13:27.370 --> 13:33.760
而你的5美元在十天内实际上会增长到5美元｡  73岁左右｡ 

13:33.760 --> 13:36.310
这就是金钱的时间价值是如何运作的｡ 

13:36.310 --> 13:38.200
和这里非常相似的概念｡ 

13:38.200 --> 13:43.210
重要的是要理解, 这只是一个理论, 强化学习的一种工作方式.

13:43.210 --> 13:48.670
所以理查德·贝尔曼提出了这个方程, 从那时起, 我们就这样使用它｡ 

13:48.670 --> 13:51.340
所以你可以继续去想一个不同的方程｡ 

13:51.340 --> 13:52.450
它不一定要有赌博｡ 

13:52.450 --> 13:54.760
它可能有一些其他的因素, 甚至可能没有一个因素｡ 

13:54.760 --> 13:57.550
但这种方法是有效的, 这就是我们使用它的原因｡ 

13:57.550 --> 14:00.700
这就是它的视觉效果｡ 

14:00.700 --> 14:04.780
所以你离得越远, 这种状态的价值就越小｡ 

14:04.780 --> 14:08.680
就金钱的时间价值而言, 如果我能告诉你, 你更愿意在哪里？

14:08.680 --> 14:09.760
你宁愿待在这里吗？

14:09.760 --> 14:11.080
你宁愿待在这里吗？

14:11.080 --> 14:12.850
你会说我宁愿呆在这里｡ 

14:12.850 --> 14:16.990
所以我们创造了与货币时间价值相同的现象｡ 

14:16.990 --> 14:24.610
我们通过伽马人为地创造它, 以便激励特工或激励特工更接近终点线｡

14:24.610 --> 14:29.350
所以如果一个代理人被问到, 你愿意在这里还是在这里, 因为这个等式的工作方式,

14:29.350 --> 14:31.330
它会选择在这里｡

14:31.360 --> 14:33.310
没有比这更重要的了, 没有比这更重要的了｡ 

14:33.310 --> 14:35.770
这世界不是这样的｡ 

14:35.770 --> 14:43.210
不, 这只是我们人为制造的东西, 为了让我们的特工明白这是｡

14:43.210 --> 14:44.020
这是好事｡ 

14:44.020 --> 14:44.530
这是好事｡ 

14:44.530 --> 14:44.980
这是好事｡ 

14:44.990 --> 14:45.670
他们都很好

14:45.670 --> 14:47.470
但是这个比这个好｡ 

14:47.470 --> 14:48.790
而且这个比这个好｡ 

14:48.790 --> 14:49.390
这个更好｡ 

14:49.390 --> 14:49.870
还有这个｡ 

14:49.870 --> 14:54.700
这样你就可以看到老代理人可以看到需要往哪个方向走｡ 

14:54.700 --> 14:59.620
所以如果我站在这里, 它就能看到, 还记得我们遇到的问题吗, 或者他站在这里？

15:00.050 --> 15:04.910
所以如果你站在这里, 我是要下去呢还是我站在这里要上去还是下去？

15:04.940 --> 15:09.410
好了, 现在它不再是一个问题了, 因为你可以看到它实际上是更好的上升,

15:09.410 --> 15:11.300
因为这里的价值更大｡

15:11.300 --> 15:14.360
然后从这里开始比较好, 因为这里的值比这里的大｡ 

15:14.360 --> 15:15.680
然后从这里出发比较好, 对吧？

15:15.680 --> 15:17.030
因为这里的值比这里的大｡ 

15:17.030 --> 15:17.420
比这里｡ 

15:17.420 --> 15:20.210
从这里, 他已经知道他需要去, 对吧｡ 

15:20.210 --> 15:22.130
因为他会得到一个奖励｡ 

15:22.490 --> 15:24.880
这就是整个方法的工作原理｡ 

15:24.890 --> 15:27.080
现在, 让我们快速浏览一下广场的其他部分｡ 

15:27.410 --> 15:29.750
那么我们如何计算这个平方的值呢？

15:29.750 --> 15:32.390
好吧, 这就是事情变得有点棘手的地方｡ 

15:32.390 --> 15:36.260
所以从这里, 你可能不会向左走, 对吧？

15:36.260 --> 15:37.280
你可能会走右边｡ 

15:37.280 --> 15:41.270
所以我们不能一直这样走, 因为这样走可能会更短｡ 

15:41.270 --> 15:44.510
所以我们要做的是先计算这个正方形的值｡ 

15:44.750 --> 15:48.410
而且因为显然从这里出发, 最好的办法就是再往上走｡ 

15:48.410 --> 15:52.880
这是因为我们看到我们有水晶球, 我们可以看到的东西,

15:52.880 --> 15:57.980
你会看到进一步在这一部分, 你会看到代理人实际上如何探索这一点, 了解这一点, 对他们喜欢通过实验｡

15:57.980 --> 16:00.110
但对我们来说, 我们知道最好还是这样走｡ 

16:00.110 --> 16:06.110
所以我们要计算这里的值, 这就是为什么我们要先计算这个正方形的值｡

16:06.110 --> 16:09.080
所以这里我们有三种可能的行动｡ 

16:09.080 --> 16:10.430
实际上, 我们有四个｡ 

16:10.430 --> 16:11.540
我们也可以走左边｡ 

16:11.540 --> 16:15.170
假设探员可以向左按撞到墙上, 然后留在这里｡ 

16:15.170 --> 16:20.870
但是为了简单起见, 这将显示我们知道我们所知道的行为, 并且有水晶球,

16:20.870 --> 16:26.330
我们知道哪些行为实际上导致了不同于相同状态的东西｡

16:26.660 --> 16:31.490
所以在这里, 从这里, 我们再次知道, 只是因为我们有一个水晶球,

16:31.490 --> 16:33.110
我们知道最好的方式去是这条路｡

16:33.110 --> 16:35.870
当然, 代理人必须进行试验, 找到最好的方法｡ 

16:35.870 --> 16:38.450
您将在本节后面看到这是如何发生的｡ 

16:38.450 --> 16:43.520
你会看到一个代理是如何走动的, 以及你是如何尝试找到这些值的｡ 

16:43.520 --> 16:45.110
但对我们来说, 我们知道是这样的｡ 

16:45.110 --> 16:52.280
这里, 如果我们把所有的都插进去, 那么最大, 最好的输出是当你向上的时候, 这里是a10｡

16:52.280 --> 16:52.280
90.

16:52.280 --> 16:55.610
把它代入, 得到0｡  9.

16:56.420 --> 16:57.410
所以我们计算一下｡ 

16:57.410 --> 16:59.750
让我们计算一下同样的方法｡ 

16:59.750 --> 17:05.300
这是你有三种方法你可以去实际上四个代理, 但对我们来说, 我们可以看到它只有三个｡

17:05.720 --> 17:10.670
所以0｡  81从这里你有0｡  73.

17:10.850 --> 17:19.580
它实际上与这个值很好地联系在一起, 因为如果你再贴现, 你会得到0｡  66, 这里是0｡

17:19.580 --> 17:19.580
73因为这是最佳路线｡ 

17:19.880 --> 17:21.110
所以你去那里｡ 

17:21.110 --> 17:23.690
这就是价值观, 所有这些状态｡ 

17:23.690 --> 17:29.660
现在你可以看到, 因为我们创造了这个等式,

17:29.660 --> 17:36.800
我们综合地创造了这个概念, 你越接近终点线, 这个状态就越有价值｡

17:36.800 --> 17:41.810
并不是因为我们现在已经创造了它, 对代理来说, 它应该走哪条路是很明显的｡ 

17:41.810 --> 17:44.660
我们将在接下来的教程中详细讨论这一点｡ 

17:44.660 --> 17:52.220
我希望大家喜欢今天的课程, 我知道在这个阶段听起来可能有点基础, 但在我们学习本节的过程中,

17:52.220 --> 17:56.450
我们会增加一些复杂性｡

17:56.450 --> 18:01.280
同时, 如果你等不及, 如果你想跳进去, 那么有一篇论文你可以看,

18:01.280 --> 18:04.220
它是理查德·贝尔曼的原始论文｡

18:04.220 --> 18:11.210
这本书叫《动态规划理论》, 出版于1954年, 你可以在这里找到它.

18:11.210 --> 18:16.400
所以你可以直接跳进去读贝尔曼方程的作者｡ 

18:16.400 --> 18:20.660
但请记住, 这是一个相当数学沉重的文件｡ 

18:20.660 --> 18:22.730
说到这, 我期待着下次见到你｡ 

18:22.730 --> 18:24.110
在那之前, 好好享受吧｡ 

18:24.140 --> 18:24.710
一､