WEBVTT

00:00.830 --> 00:03.830
大家好, 欢迎回到人工智能课程｡ 

00:03.830 --> 00:08.120
我们已经讨论了贝尔蒙特方程, 也分析了我们的小迷宫｡ 

00:08.300 --> 00:10.760
我们来看看计划｡ 

00:10.880 --> 00:12.200
计划是什么？

00:12.500 --> 00:14.570
这是我们的迷宫分析｡ 

00:14.570 --> 00:19.430
我们知道我们可以看到状态, 每个状态的值｡ 

00:19.430 --> 00:22.760
我们可以看到处于每一种状态的价值｡ 

00:23.060 --> 00:27.530
因此, 我可以或代理人可以通过这个迷宫｡ 

00:27.530 --> 00:28.730
那么计划是什么呢？

00:28.730 --> 00:33.830
嗯, 这个计划简直就像是人工智能的藏宝图｡ 

00:34.190 --> 00:40.400
我们不去看这些值, 而是用箭头来代替它们, 箭头指示代理应该朝哪个方向走,

00:40.400 --> 00:43.340
因为它知道这些值.

00:43.340 --> 00:50.810
理想的情况是, 当它探索了这个环境之后, 它知道处于每种状态的值, 因此它可以得出这个地图｡

00:50.810 --> 00:51.800
让我们来看看｡ 

00:51.800 --> 00:54.260
同样, 我们知道这里的值是1｡ 

00:54.260 --> 00:57.770
所以如果你在这里的两个, 更好的一个是这个｡ 

00:57.770 --> 01:00.080
所以你就从这里走吧｡ 

01:00.110 --> 01:00.890
这个更好｡ 

01:00.890 --> 01:01.790
这个更好｡ 

01:01.820 --> 01:02.690
这个更好｡ 

01:02.690 --> 01:04.660
实际上, 从现在开始你有两个选择, 对吧？

01:04.670 --> 01:06.830
所以这里有点像领带｡ 

01:06.860 --> 01:12.860
所以你随便选一个, 不管是哪一个, 因为在这两种情况下的值都是一样的｡

01:12.860 --> 01:18.290
更重要的是, 即使我们看下去, 也需要同样多的步骤, 同样多的步骤才能到达终点｡

01:18.500 --> 01:22.490
从这里你有三个选择, 但这一个是更好的价值从这里｡ 

01:22.490 --> 01:24.170
从这里看这个更值｡ 

01:24.200 --> 01:28.880
显然, 这个值更高, 因为在这里, 你马上就会得到一个负一的奖励｡ 

01:29.480 --> 01:31.880
从这里算起你有三个｡ 

01:31.880 --> 01:35.150
所以这是最好的一个, 最有价值的国家｡ 

01:35.240 --> 01:41.000
所以如果我们用箭头来代替它们, 这就说明了如果从这里开始,

01:41.000 --> 01:46.990
或者由于某种原因, 它在这个正方形结束, 它知道如何离开这里, 从这个正方形开始.

01:46.990 --> 01:48.890
它知道如何离开这里等等｡ 

01:48.890 --> 01:51.350
所以这就是计划｡ 

01:51.350 --> 01:56.300
不要把计划和政策混为一谈, 因为我们将在后面讨论政策｡ 

01:56.300 --> 02:01.220
策略与计划非常相似, 但它们有一个小窍门,

02:01.220 --> 02:07.430
因为环境会有一些不同, 它是随机的, 这就是我们在下一个教程中要讨论的.

02:07.760 --> 02:09.950
所以我等不及要看你下一场了｡ 

02:09.950 --> 02:11.600
在那之前, 好好享受吧｡ 

02:11.600 --> 02:12.110
一､