WEBVTT

00:00.980 --> 00:04.520
大家好, 欢迎回到人工智能课程｡ 

00:04.520 --> 00:07.490
今天我们要讨论的是这一部分的进攻计划｡ 

00:07.490 --> 00:11.120
我们正在讨论关键的学习, 我们有相当多的教程｡ 

00:11.120 --> 00:20.180
因此, 我认为我们最好快速浏览一下这些内容, 以了解在即将推出的视频中会出现什么｡

00:20.300 --> 00:21.260
我们开始吧｡ 

00:22.010 --> 00:22.490
好吧, 我会的

00:22.490 --> 00:24.770
我们将在本节中学习的内容｡ 

00:25.040 --> 00:31.610
首先, 我们会讨论强化学习到底是什么, 强化学习背后的哲学是什么,

00:31.610 --> 00:37.850
强化学习在真实的生活中是如何被看待的, 以及它与我们在现实生活中观察到的,

00:37.850 --> 00:43.910
实际上是我们自己做的事情之间的关系｡

00:44.540 --> 00:51.320
我们将讨论贝尔蒙特方程, 一个非常基本的概念, 它支撑着强化学习中的很多事情,

00:51.320 --> 00:56.720
尤其是在这个学习领域.

00:56.720 --> 01:11.540
我们将在这节课和接下来的几节课中讨论, 然后我们将讨论人工智能的计划, 它是为了在我们的环境中导航而提出的｡

01:11.540 --> 01:14.530
我们来看看这些是如何结合在一起的｡ 

01:14.540 --> 01:17.220
非常快, 但相当有趣的教程｡ 

01:17.480 --> 01:21.080
然后我们将讨论市场决策过程和新概念｡ 

01:21.080 --> 01:29.030
我们将引入一个非常新的概念, 它将慢慢地为我们的贝尔蒙特方程, 为我们的整个强化学习,

01:29.030 --> 01:34.850
为我们的关键学习概念, 增加一层复杂性｡

01:34.850 --> 01:40.070
这就是这一节的结构, 我们以一种非常简单的形式介绍了贝尔蒙特方程｡

01:40.070 --> 01:48.470
然后在整个教程中慢慢地, 我们添加了复杂的层次, 以获得最终的版本｡

01:48.470 --> 01:55.010
这是我们指定的着色目的地, 但我们会慢慢地到达那里, 以便有足够的时间处理所有的信息,

01:55.010 --> 01:58.760
让它沉淀下来｡

01:58.760 --> 02:07.400
马尔可夫决策过程是在我们已经讨论过的, 或者到那时我们已经讨论过的基础上, 增加了一层复杂性｡

02:08.240 --> 02:10.700
然后我们会讨论政策与计划｡ 

02:11.090 --> 02:13.760
另一个有趣的教程, 它们都很有趣｡ 

02:13.760 --> 02:19.520
只是另一个快速教程, 关于政策是如何不同于计划, 以及有什么不同｡ 

02:19.520 --> 02:24.470
这些术语你可能会在其他文献中听到或读到｡ 

02:24.470 --> 02:30.020
如果你想深入研究强化学习, 以获得更多关于强化学习的信息,

02:30.020 --> 02:34.490
那么我们将讨论给我们的环境增加一个活生生的惩罚｡

02:34.490 --> 02:42.950
这是另一种增加环境复杂性的方式, 我们的代理人将在其中工作｡

02:43.040 --> 02:46.160
然后, 我们将讨论关键学习背后的直觉｡ 

02:46.160 --> 02:51.530
在上一节课之前,

02:51.530 --> 02:59.690
我们将讨论状态的值, 最后我们将转向讨论动作的值或Q值, 然后我们将介绍时间差｡

02:59.690 --> 03:05.810
所以这是一个教程, 我们学到的所有知识都将汇集在一起,

03:05.810 --> 03:11.090
来解释代理人或者人工智能究竟是如何学习的？

03:11.090 --> 03:16.160
在整个迭代过程中, 它是如何更新自己的价值观的？

03:16.610 --> 03:21.470
最后, 我们来看看关键学习的可视化｡ 

03:21.470 --> 03:26.960
所以我们要把我们学到的一切都拿出来,

03:26.960 --> 03:37.880
我们要看着它发生在我们眼前, 看着人工智能实际上执行关键的学习, 做我们将要在直觉层面上讨论的所有事情, 这些事情实际上会在实践中做｡

03:37.880 --> 03:44.240
这将帮助我们更进一步地掌握我们在这一节中将要讨论的知识｡ 

03:44.240 --> 03:47.360
希望您对这些即将推出的教程感到非常兴奋｡ 

03:47.360 --> 03:48.740
我绝对是｡ 

03:48.740 --> 03:51.800
接下来会有一些非常有趣的幻灯片｡ 

03:51.800 --> 03:56.990
更重要的是, 这些概念本身非常非常有趣, 我相信你们会非常喜欢它们,

03:56.990 --> 04:01.280
我期待着下一次见到你们｡

04:01.280 --> 04:02.570
在那之前, 好好享受吧｡ 

04:02.570 --> 04:03.170
一､