WEBVTT

00:00.990 --> 00:04.140
大家好, 欢迎回到人工智能课程｡ 

00:04.140 --> 00:07.110
今天我们要谈的是活刑｡ 

00:07.440 --> 00:07.800
好吧, 我会的

00:07.800 --> 00:09.690
这里我们得到了贝尔曼方程｡ 

00:09.690 --> 00:15.900
在我们学习这门课的过程中, 我们慢慢地让它变得越来越复杂｡ 

00:15.900 --> 00:19.890
到目前为止, 我们已经把这些概率加在这里了｡ 

00:19.890 --> 00:22.670
我们还增加了折扣因素｡ 

00:22.680 --> 00:27.780
现在我们要更详细地看一下等式的这一边, 我们有奖励｡ 

00:27.930 --> 00:33.840
还记得之前我们讨论过强化学习的工作原理吗, 我们说过, 我们有一个代理人,

00:33.840 --> 00:40.440
它在环境中执行动作, 作为交换或结果, 它得到了一个新的状态, 它现在所处的状态,

00:40.440 --> 00:45.060
以及对这个动作的奖励

00:45.390 --> 00:51.630
在我们的例子中, 我们只在最后得到奖励, 如果我们到达终点线,

00:51.630 --> 00:58.590
或者, 如果我们, 因为代理人最后在火坑里, 他得到的奖励是+1或-1

00:58.680 --> 01:02.640
但这是一种非常简单的强化学习方法｡ 

01:02.640 --> 01:09.720
在更现实的情况下, 你可能会在整个旅程中得到回报, 而不仅仅是在最后｡

01:09.720 --> 01:11.310
你可能会在整个旅程中得到奖励｡ 

01:11.310 --> 01:20.400
例如, 如果是一个人工智能在玩一个游戏, 如果,

01:20.400 --> 01:30.090
例如, 它就像在末日中射击某人, 它可能会因为杀死那个敌人而得到积分, 或者它可能在另一个不同的游戏中, 如果它超过了另一辆车或类似的东西｡

01:30.090 --> 01:35.340
仅仅是因为游戏规则, 而不是因为它分析游戏的方式｡ 

01:35.340 --> 01:43.080
但实际上这个游戏的结构是这样的, 即使在游戏结束之前, 它也在加强它对某些动作的奖励｡

01:43.320 --> 01:48.180
所以像这样的场景非常常见, 不仅在游戏中, 在现实生活中也是如此｡ 

01:48.270 --> 01:54.090
这就是为什么我们要在我们的例子中引入类似的东西, 一个简化的版本,

01:54.090 --> 02:00.630
但是在整个博弈中, 不只是在最后, 代理人会得到持续的奖励.

02:00.630 --> 02:04.320
我们要做的就是看其他的瓷砖｡ 

02:04.320 --> 02:11.310
所以现在我们只有最后一个牌的奖励加一而最后一个牌的奖励减一, 也就是火坑｡

02:11.550 --> 02:17.700
但现在我们要在每一次增加一个很小的奖励, 它是-0. 04.

02:17.700 --> 02:18.840
如你所见, 它是阴性的｡ 

02:18.840 --> 02:23.100
所以特工每移动一次, 就会得到一个负奖励｡ 

02:23.100 --> 02:27.570
这就是为什么它被称为“活罚”, 因为无论他走到哪里, 他总是会得到这个负奖励,

02:27.570 --> 02:30.780
除了这些最后的瓷砖, 因为那是游戏的结束｡

02:31.050 --> 02:35.100
所以你可以看到, 即使在这张牌上, 奖励也是-0｡  04.

02:35.100 --> 02:37.860
但这并不意味着他从奖励开始｡ 

02:37.860 --> 02:39.450
他只得到这个奖励｡ 

02:39.450 --> 02:41.370
记住这一点很重要｡ 

02:41.370 --> 02:43.680
他只有在进入一个方块时才能得到这个奖励｡ 

02:43.680 --> 02:46.050
所以每当他执行一个动作, 他就会到这里｡ 

02:46.290 --> 02:49.770
那么他将得到这个奖励-0｡  04.

02:49.770 --> 02:53.370
如果他回到这张牌上, 他会得到另一个-0｡  奖赏｡ 

02:53.550 --> 02:58.080
所以他走动的时间越长, 他积累的负面奖励就越多｡ 

02:58.080 --> 03:03.600
因此, 这对他来说是一种激励, 让他尽早结束比赛｡ 

03:03.720 --> 03:14.010
现在, 让我们看看我们的策略或代理策略将如何根据我们为该奖励设置的值而变化｡

03:14.100 --> 03:18.810
这里有四种环境, 在每一种环境中, 我们将探索不同的奖励｡ 

03:18.810 --> 03:24.720
现在, 我们不进行计算, 我们只投影结果, 你们会直观地看到｡

03:24.720 --> 03:25.650
他们说得通｡ 

03:25.650 --> 03:32.760
这里我们得到了任何一步的奖励或者进入任何一个状态的奖励都等于零｡ 

03:32.760 --> 03:37.230
就像我们之前看到的, 奖励是-0. 04.

03:37.320 --> 03:38.250
我们刚才介绍的｡ 

03:38.250 --> 03:44.100
现在这里, 奖励将是-0｡  5, 否则生存惩罚为-0｡  5.

03:44.100 --> 03:47.550
这么高, 你看比这里, 大了十倍不止｡ 

03:47.550 --> 03:50.070
这里的活罚是负二｡ 

03:50.100 --> 04:00.630
所以甚至比你跳下去得到的奖励还要多, 甚至比你或特工最后进火坑得到的奖励还要少｡

04:00.630 --> 04:09.090
让我们来看看通过这个环境的行动或最优策略会如何根据这个奖励而变化｡

04:09.090 --> 04:11.160
所以这是我们原来的政策｡ 

04:11.790 --> 04:18.240
你们应该还记得, 我们有两个非常有趣的, 甚至有点奇怪的代理人的决定, 但这完全是有道理的,

04:18.240 --> 04:23.850
如果他可以活多久, 他喜欢｡

04:23.850 --> 04:32.040
如果你可以在他想去的地方旅行, 而不会因为活得太久而受到惩罚, 他为什么不呢？

04:32.070 --> 04:38.400
他为什么不直接从墙角钻进去, 钻到墙里然后一直这样做, 直到它发生？

04:38.400 --> 04:41.220
碰巧他走这条路, 然后他会绕着走｡ 

04:41.220 --> 04:42.150
这里也一样｡ 

04:42.150 --> 04:47.220
对他来说,

04:47.220 --> 04:53.280
跳墙希望其中一个最终会出现然后他会到达终点线要安全得多, 因为通过选择这两个动作, 他就不会冒着陷入火坑的风险.

04:53.370 --> 04:59.750
现在让我们来看看如果我们加上一个奖励会发生什么, 一个仅仅是活着的负面奖励, 一个迈出一步的负面奖励｡

04:59.760 --> 04:59.900
好吧, 我知道了

05:00.070 --> 05:00.700
你动起来｡ 

05:00.970 --> 05:04.840
所以在这里你可以看到这两个瞬间就改变了｡ 

05:04.870 --> 05:07.660
现在, 特工不想跳进墙里｡ 

05:07.690 --> 05:10.450
他更有可能冒险去火坑｡ 

05:10.480 --> 05:12.910
有10%的机会跳进来｡ 

05:12.910 --> 05:19.510
但他会继续前进, 因为每次他在这里跳墙, 如果他也要在这里跳墙的话｡

05:19.540 --> 05:24.910
每次他跳到墙上, 他执行一个动作, 他最终进入这种状态有80%的机会｡ 

05:24.910 --> 05:31.300
这意味着如果有80%的机会, 他将得到-0｡  04的奖励, 这意味着很多时候他会得到这个,

05:31.300 --> 05:34.270
积累这个负奖励｡

05:34.810 --> 05:35.470
这里也一样｡ 

05:35.470 --> 05:42.700
如果他跳到墙上等待他随机向右移动的那一刻, 如果他一直这样做,

05:42.700 --> 05:48.880
他会累积这个负奖励,

05:48.880 --> 05:55.090
如果你计算一下, 你会发现,

05:55.090 --> 06:02.640
跳到墙上的期望值比冒险向前走, 最终掉进火坑的期望值要差.

06:02.650 --> 06:09.880
所以他改变了在这两个街区的决定, 而是向前走, 这里向左走,

06:09.880 --> 06:14.710
尽管有跳进火坑的风险, 因为他活得越久,

06:14.710 --> 06:18.730
他在下一个环境中积累的活惩罚就越长｡

06:18.760 --> 06:24.460
现在我们将生活惩罚增加到一个更大的数字, -0｡  5, 让我们看看这里有什么变化｡

06:24.580 --> 06:31.330
所以现在你可以看到, 与这个环境相比, 这里唯一的变化是这个箭头指向了右边｡

06:31.900 --> 06:36.910
这意味着现在对经纪人来说这不再是一个好的选择｡ 

06:36.910 --> 06:42.100
哦, 其实, 还有, 这个箭头是指向的, 本来是指向左边的, 现在是指向上面的｡

06:42.100 --> 06:48.100
所以现在经纪人从这里绕过去, 绕过去就不再是个好主意了.

06:48.100 --> 06:51.100
因为如果他一直绕着走, 是的, 他会更安全｡ 

06:51.100 --> 06:53.860
有一个更小的机会, 没有机会得到火坑｡ 

06:54.100 --> 06:58.540
但与此同时,

06:58.540 --> 07:03.070
他进入火坑的机会也会减少, 但同时, 他在四处走动时也会积累相当可观的负面奖励｡

07:03.070 --> 07:05.290
所以这条路太长了｡ 

07:05.290 --> 07:11.560
所以这迫使他, 不管他是在这里还是在这里, 走更短的路来这里,

07:11.560 --> 07:16.840
尽管他有更高的风险进入火坑, 因为一旦他结束了在广场上, 有10%的机会到达火坑,

07:16.840 --> 07:21.700
根据他的计算｡

07:21.700 --> 07:30.280
只是这种方法的期望值比绕圈的期望值要好, 因为我们增加了这种活的惩罚｡

07:30.460 --> 07:36.820
最后, 我们来看看这个例子, 它的实际罚分是-2｡  0.

07:36.820 --> 07:42.580
所以在这里, 我鼓励你暂停视频,

07:42.580 --> 07:49.810
现在你已经看到了政策是如何改变的, 因为我们增加了生活罚款, 我鼓励你暂停视频, 并为自己想想在这种情况下会发生什么？

07:49.810 --> 07:55.720
你认为最优政策是什么, 生活惩罚是如此之高？

07:55.720 --> 08:02.320
如果你们愿意, 我可以让你们暂停视频, 现在我将向你们展示解决方案｡ 

08:02.320 --> 08:10.810
所以在这种情况下, 如果你把罚分增加到-2｡  0, 太高了, 记住这里的罚分只有-1｡

08:10.810 --> 08:10.810
0.

08:10.810 --> 08:18.310
它是如此之高, 代理人只想以任何可能的方式退出游戏, 即使只是跳到火坑｡

08:18.340 --> 08:19.150
他会做的｡ 

08:19.150 --> 08:25.780
他会说, 每次我迈出一步, 每次我进入一个新的状态, 或者每次我做出一个动作,

08:25.780 --> 08:29.950
我最终都会得到一个负二的奖励｡

08:29.950 --> 08:36.160
如果从这里到终点要多走两步, 那我还想怎么走, 我就从这里走,

08:36.160 --> 08:42.370
然后直接进火坑, 因为这样我的奖励就少了.

08:42.580 --> 08:48.670
负奖励不会像只采取额外步骤的情况那样糟糕｡ 

08:48.760 --> 08:56.740
因此, 您可以看到, 添加此生活奖励, 并根据我们添加的生活奖励的价值,

08:56.740 --> 09:02.410
结果将是不同的, 代理人将选择不同的策略｡

09:02.410 --> 09:09.880
这基本上就是贝尔曼方程所包含的奖励价值, 即使它不仅仅是在终点线或比赛结束时,

09:09.880 --> 09:13.720
而是在整个比赛中｡

09:13.720 --> 09:19.870
再说一次, 它不一定要在每一个状态的每一个上, 这取决于环境本身｡

09:19.870 --> 09:26.050
它可以在特定的状态下给予行为人,

09:26.050 --> 09:32.530
而不是在每一个状态下, 但在我们简单的例子中, 我们只是用每一个状态下的奖励来说明这个概念.

09:32.620 --> 09:34.360
所以我希望你喜欢今天的教程｡ 

09:34.360 --> 09:42.100
正如你所看到的, 我们已经使我们的行李员方程变得非常复杂, 现在它可以应用于许多不同的场景｡

09:42.100 --> 09:44.260
我迫不及待地想在下一个教程中见到你｡ 

09:44.260 --> 09:45.670
在那之前, 好好享受吧｡ 

09:45.670 --> 09:46.300
一､