WEBVTT

00:00.930 --> 00:04.190
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:04.200 --> 00:07.050
Hôm nay chúng ta sẽ nói về phương trình Belmont.

00:07.440 --> 00:12.510
Đây là một chủ đề khá phức tạp và chúng tôi sẽ giới thiệu nó từng bước một trong toàn bộ

00:12.510 --> 00:13.920
phần này của khóa học.

00:13.920 --> 00:17.880
Vì vậy, chúng tôi sẽ không chỉ nhảy thẳng vào phiên bản phức tạp nhất của Phương trình Belmont ngay lập

00:17.880 --> 00:18.090
tức.

00:18.090 --> 00:23.160
Nhưng thay vào đó, chúng tôi sẽ giới thiệu nó một cách từ từ để dần dần hiểu được cách thức hoạt động của nó.

00:23.160 --> 00:25.350
Và tôi hy vọng bạn tuyệt vời với cách tiếp cận đó.

00:25.350 --> 00:28.380
Nếu bạn là bạn, chúng ta hãy đi thẳng vào nó.

00:28.380 --> 00:32.610
Vì vậy, chúng ta sẽ có một vài khái niệm chính mà chúng ta sẽ vận hành.

00:32.610 --> 00:36.090
Và những khái niệm này SSE là viết tắt của State.

00:36.090 --> 00:42.990
Vì vậy, trạng thái mà đại lý của chúng tôi là hoặc bất kỳ trạng thái nào khác có thể là trạng thái đại diện cho một

00:42.990 --> 00:45.330
hành động mà đại lý có thể thực hiện.

00:45.330 --> 00:48.240
Vì vậy, một tác nhân có thể có quyền truy cập vào một danh sách các hành động nhất định.

00:48.240 --> 00:53.520
Và các hành động rất quan trọng khi chúng được xem xét ở trạng thái kết hợp.

00:53.520 --> 00:57.030
Vì vậy, khi bạn ở trong một trạng thái nhất định và sau đó bạn nhìn vào các hành động, thì nó bắt đầu có ý nghĩa.

00:57.030 --> 00:59.010
Kết quả của những hành động đó là gì?

00:59.010 --> 01:02.700
Bởi vì nếu bạn chỉ nhìn vào một hành động mà không có trạng thái thực sự không có ý nghĩa bởi

01:02.700 --> 01:05.310
vì bạn không biết mình đang ở đâu và có thể kết thúc ở đâu.

01:05.310 --> 01:12.000
Và sau đó chúng tôi có chúng tôi sẽ có của chúng tôi là viết tắt của phần thưởng, và đó là phần thưởng mà một đặc vụ nhận được

01:12.000 --> 01:13.800
khi vào một trạng thái nhất định.

01:14.040 --> 01:16.890
Và Gamma là hệ số chiết khấu.

01:16.890 --> 01:18.630
Và chúng ta sẽ nói về hệ số chiết khấu trong một giây.

01:18.630 --> 01:24.330
Bây giờ tất cả đều có ý nghĩa, nhưng chỉ cần ghi chú lại, hãy ghi nhớ rằng chúng ta sẽ có bức thư này, Gamma,

01:24.330 --> 01:26.100
mà chúng ta sẽ tiến hành sau này.

01:26.340 --> 01:30.990
Vì vậy, người đứng sau phương trình bellman là Richard Ernest Bellman.

01:31.170 --> 01:39.090
Ông là một nhà toán học ứng dụng và đã đưa ra khái niệm về lập trình động, cái mà chúng ta đang có, mà bây giờ chúng ta

01:39.090 --> 01:42.930
gọi là học tăng cường hoặc chúng ta gọi là Phương trình Belmont.

01:42.930 --> 01:45.420
Bây giờ tốt, đó là những gì chúng tôi gọi bây giờ.

01:45.420 --> 01:52.170
Và vào năm 1953, ông ấy đã đưa ra khái niệm đó, và đó là khi Phương trình Belmont đến với tôi.

01:52.380 --> 01:55.920
Vì vậy, chúng ta hãy xem xét cách thức hoạt động của tất cả điều này.

01:56.310 --> 02:00.780
Có đặc vụ đáng yêu của chúng tôi ở góc dưới cùng bên trái và anh ấy đang ở trong một mê cung.

02:00.780 --> 02:06.360
Và đây là một mê cung khá cổ điển, nơi bạn có một số khối, các khối màu trắng là các khối mà

02:06.360 --> 02:08.040
đặc vụ có thể bước vào.

02:08.040 --> 02:11.610
Khối màu xám là khối không thể truy cập được.

02:11.610 --> 02:13.650
Vì vậy, đó giống như một bức tường trong mê cung này.

02:13.650 --> 02:18.140
Màu xanh lá cây là nơi mà tác nhân nên nhắm đến để kết thúc.

02:18.150 --> 02:19.860
Đó là nơi chúng tôi muốn người đại diện đi.

02:19.860 --> 02:20.880
Đó là kết thúc.

02:20.880 --> 02:23.040
Và màu đỏ là một cái lò sưởi.

02:23.040 --> 02:26.520
Vì vậy, nếu động cơ rơi vào ống lửa, anh ta sẽ thua trò chơi.

02:26.640 --> 02:31.230
Vì vậy, trong hố lửa, phần thưởng là R trừ đi một.

02:31.230 --> 02:36.360
Vì vậy, đó là cách chúng tôi nói với đại lý rằng đó không phải là điều chúng tôi muốn bạn làm.

02:36.360 --> 02:41.100
Giống như, hãy nhớ một ví dụ về khi chúng ta huấn luyện chó, chúng ta muốn nói với chúng như một con chó xấu nếu nó

02:41.100 --> 02:42.720
không làm đúng những gì chúng ta muốn làm.

02:42.720 --> 02:43.260
Điều tương tự ở đây.

02:43.260 --> 02:46.920
Chúng tôi muốn nói với người đại diện rằng đây không phải là điều bạn nên làm.

02:46.920 --> 02:48.210
Bạn không nên kết thúc trong hình vuông.

02:48.210 --> 02:51.120
Vì vậy, mỗi khi nó không xuất hiện trong hình vuông, bạn sẽ nhận được một phần thưởng trừ đi.

02:51.120 --> 02:53.100
Vì vậy sẽ bị phạt trừ một phần thưởng.

02:53.310 --> 02:57.300
Mặt khác, nếu nó kết thúc ở Quảng trường Xanh, nó sẽ nhận được một phần thưởng cộng một, nghĩa là

02:57.300 --> 02:59.220
đó là những gì chúng tôi muốn nó làm.

02:59.280 --> 03:02.190
Vì vậy, đó là hai phần thưởng mà đại lý có thể nhận được.

03:02.190 --> 03:06.150
Và nó học cách vận hành trong mê cung này như thế nào?

03:06.180 --> 03:10.500
Cũng giống như trong ví dụ về những chú chó robot học cách đi bộ, chúng tôi sẽ cho nó biết.

03:10.500 --> 03:12.390
Chúng tôi sẽ chỉ nói với nó rằng đây là những hành động bạn có thể làm.

03:12.420 --> 03:14.550
Bạn có thể đi lên phải, trái hoặc xuống.

03:14.550 --> 03:16.590
Đó là bốn hành động khả thi mà bạn có thể thực hiện.

03:16.590 --> 03:18.120
Và đó là nó.

03:18.120 --> 03:21.180
Hãy chơi một vòng với nó, xem bạn có thể nghĩ ra điều gì.

03:21.180 --> 03:26.130
Vì vậy, tác nhân có thể đi về bên phải, sau đó họ có thể đi đến nhiều hơn ở bên phải, họ có thể quay lại

03:26.130 --> 03:26.580
bên trái.

03:26.580 --> 03:30.090
Họ chỉ nhấn ngẫu nhiên các nút này và họ đang cố gắng xem điều gì sẽ xảy ra.

03:30.090 --> 03:34.560
Sau đó, họ quay trở lại đây, họ đi lên, đi lên, đi xuống, đi lên, đi sang phải.

03:34.560 --> 03:36.090
Vì vậy, hiện tại, họ không học được gì cả.

03:36.090 --> 03:38.160
Họ chỉ cho đến nay không có gì đã xảy ra.

03:38.160 --> 03:41.580
Họ đi sang phải và sau đó đi bam, cuối cùng họ sẽ đến Quảng trường Xanh.

03:41.580 --> 03:45.450
Vì vậy, họ nhận ra, Chà, tôi vừa nhận được thêm một phần thưởng.

03:45.450 --> 03:48.960
Vì vậy, ngay khi bước chân vào Quảng trường Xanh, họ đã nhận được một phần thưởng cộng một.

03:48.960 --> 03:53.130
Và điều đó kích hoạt thuật toán nói rằng, được rồi, điều đó thực sự tuyệt vời.

03:53.580 --> 03:58.710
Tôi được thưởng vì kết thúc ở hình vuông, vì vậy tôi muốn kết thúc ở hình vuông.

03:58.710 --> 04:00.420
Vậy điều đó có ý nghĩa gì đối với người đại diện?

04:00.660 --> 04:04.230
Điều đó có nghĩa là nó bắt đầu đặt ra câu hỏi, Làm thế nào tôi đến được quảng trường này?

04:04.260 --> 04:09.840
Trạng thái trước đó tôi đang ở là gì và tôi đã thực hiện hành động gì để vào được hình vuông?

04:09.840 --> 04:14.520
Và sau đó nó nhìn lại và nó nói, được rồi, vì vậy trạng thái trước đó là trạng thái này.

04:14.730 --> 04:19.050
Hóa ra nó có giá trị ở trạng thái đó, thứ đã châm ngòi cho mũi tên màu đỏ.

04:19.050 --> 04:26.190
Bởi vì từ trạng thái đó, bạn là tôi, tôi chỉ còn một bước nữa là có thể nhận được phần thưởng tối đa mà tôi có thể mơ ước cộng thêm

04:26.190 --> 04:33.480
một phần thưởng như bánh quy cho một con chó ngay khi tôi biết liệu tôi có bao giờ ở trong trạng thái đó không , hình vuông đó được đánh dấu

04:33.480 --> 04:35.070
bằng một mũi tên màu đỏ.

04:35.070 --> 04:36.540
Tất cả những gì tôi phải làm là nhấn phải.

04:36.810 --> 04:39.030
Vậy tôi phải nói với bản thân mình như thế nào?

04:39.030 --> 04:41.370
Làm thế nào để tôi nhớ rằng trạng thái đó có giá trị?

04:41.370 --> 04:46.500
Chà, đối với tôi, không có sự khác biệt, thực ra, với tư cách là người đại diện, không có sự khác biệt

04:46.500 --> 04:49.620
nào về việc tôi đang ở Quảng trường Xanh hay Quảng trường Trắng.

04:49.620 --> 04:51.540
Ngay tại Quảng trường Xanh, tôi nhận được một phần thưởng.

04:51.540 --> 04:57.960
Vì vậy, tôi sẽ tự đánh dấu rằng Hình vuông Trắng là dành cho tôi, nó có giá trị của một vì nó chính

04:57.960 --> 05:00.120
xác dẫn đến phần thưởng cho một.

05:00.120 --> 05:00.240
Vì thế.

05:00.310 --> 05:03.220
Ngay khi tôi ở Quảng trường Trắng, tôi biết mình sẽ chỉ thực hiện thêm một hành động nữa.

05:03.220 --> 05:05.320
Tôi sẽ ở Quảng trường Xanh và tôi sẽ nhận được một phần thưởng.

05:05.320 --> 05:11.260
Vì vậy, đó là lý do tại sao tôi sẽ nói rằng giá trị của hình vuông này bằng một, bởi vì nó

05:11.260 --> 05:14.190
dẫn trực tiếp mà không có bất kỳ loại trừ nào.

05:14.200 --> 05:16.090
Ngay khi tôi vào đây, tôi biết phần thưởng của mình sẽ là một.

05:16.090 --> 05:18.490
Vì vậy, tôi sẽ đánh dấu hình vuông này bằng một.

05:18.490 --> 05:19.330
Đó là giá trị.

05:19.330 --> 05:21.670
Đó là giá trị cảm nhận được khi ở trong trạng thái này.

05:22.210 --> 05:26.860
Tiếp theo, người đại diện sẽ như thế nào, được rồi, vậy tôi đã vào được quảng trường này bằng cách nào?

05:26.860 --> 05:30.880
Và anh ta có thể đi vòng quanh một lần nữa và cứ thế lại đến quảng trường.

05:30.880 --> 05:33.520
Và tôi muốn, Được rồi, làm thế nào tôi vào được quảng trường này trước đó?

05:33.520 --> 05:36.610
Và cách tôi đến quảng trường này là từ quảng trường này.

05:36.700 --> 05:37.480
Thú vị.

05:37.750 --> 05:42.790
Vì vậy, ngay khi tôi vào quảng trường này, tôi biết rằng tất cả những gì tôi phải làm là đi đúng hướng.

05:42.790 --> 05:45.520
Và rồi từ đây, tôi đã biết rằng mình sẽ thắng.

05:45.520 --> 05:48.190
Tôi biết chính xác mọi thứ sẽ làm sáng tỏ như thế nào từ đây.

05:48.190 --> 05:50.770
Và tôi biết giá trị của việc ở trong trạng thái này bằng một.

05:50.770 --> 05:58.300
Và vì không có gì ngăn cản tôi đi từ đây đến đây, giá trị trong việc này sẽ trở thành giá trị

05:58.300 --> 05:59.350
được nhận thức.

05:59.350 --> 06:04.480
Tôi sẽ coi trọng việc ở đây vì V cũng bằng một, bởi vì ngay khi tôi vào đây, tôi biết mình sẽ

06:04.480 --> 06:06.550
ở đây và tôi sẽ đến đây khá nhanh.

06:06.550 --> 06:07.660
Vì vậy, tôi sẽ giành chiến thắng.

06:07.960 --> 06:10.330
Và sau đó làm cách nào để vào được quảng trường này trước đó?

06:10.330 --> 06:12.850
Chà, tôi vào quảng trường này từ quảng trường này.

06:12.850 --> 06:15.700
Vì vậy, giá trị là cách tiếp cận tương tự.

06:15.700 --> 06:19.120
Giá trị của sự tồn tại ở đây cũng bằng một và như vậy.

06:19.120 --> 06:22.900
Vì vậy, giá trị tồn tại ở đây bằng một và giá trị tồn tại ở đây bằng một bởi vì mỗi

06:22.900 --> 06:25.210
người trong số họ dẫn đến người tiếp theo và dẫn đến đích.

06:26.020 --> 06:29.770
Vì vậy, đó là tất cả giống như khá hợp lý ở giai đoạn này.

06:29.770 --> 06:33.340
Đây là chúng tôi đang thiết kế Phương trình Belmont ngay bây giờ.

06:33.340 --> 06:40.240
Vì vậy, đây là chúng ta có thể nghĩ về việc thiết kế một phương trình giúp một đặc vụ đi qua mê cung.

06:40.240 --> 06:41.650
Vì vậy, hãy nhìn vào phần thưởng.

06:41.650 --> 06:46.100
Sau đó, trạng thái trước cung cấp cho nó một giá trị bằng để thưởng cho trạng thái trước đó, v.v.

06:46.120 --> 06:47.560
Vì vậy, nó giống như tạo ra con đường này.

06:48.070 --> 06:54.040
Tất cả đều tuyệt vời và tốt, nhưng vấn đề ở đây là, được rồi, điều gì sẽ xảy ra nếu nhân viên của chúng tôi vì lý do

06:54.040 --> 07:00.010
nào đó bắt đầu ở trạng thái này thay vì bắt đầu ở đây và thực hiện những hành động này, nhưng nó thực sự bắt đầu ở trạng

07:00.020 --> 07:00.370
thái?

07:00.400 --> 07:01.840
Làm sao nó biết được?

07:01.870 --> 07:04.210
Làm thế nào để nó ghi nhớ hành động cần thực hiện?

07:04.210 --> 07:06.130
Nó nên đi đúng hay nên đi xuống?

07:06.550 --> 07:07.720
Hoặc nó có thể nên đi bên trái?

07:07.720 --> 07:08.470
Hay nó nên đi lên?

07:08.470 --> 07:16.000
Làm thế nào để nó nhớ được đâu là phần tiếp theo tiếp theo kể từ đây nếu các giá trị duy nhất mà nó có là các giá trị này

07:16.000 --> 07:16.570
bằng một?

07:16.570 --> 07:18.580
Vì vậy, bạn không thể nhìn thấy những gì xa hơn.

07:18.580 --> 07:23.140
Nó chỉ có thể nhìn thấy, được rồi, những gì tôi có ở đây và những gì tôi có ở đây, làm sao nó biết đường nào để

07:23.140 --> 07:23.470
đi?

07:23.470 --> 07:24.790
Vâng, ở giai đoạn này, nó không.

07:24.790 --> 07:27.700
Nó khá giống nhau đối với các đại lý phải đi theo con đường nào.

07:27.700 --> 07:30.400
Và đó là lý do tại sao cách tiếp cận này không thực sự hiệu quả.

07:30.670 --> 07:32.800
Đó là một giải thích rất đơn giản.

07:32.830 --> 07:36.040
Tất nhiên, còn nhiều điều nữa, nhưng theo một cách trực quan.

07:36.040 --> 07:40.450
Đó là lý do tại sao chúng ta chỉ gán giá trị này ngược lại như vậy.

07:40.630 --> 07:46.150
Bởi vì một trong những lý do là một khi tác nhân nằm giữa hai giá trị này, nó sẽ đi về đâu?

07:46.150 --> 07:48.250
Nó không có thể bị nhầm lẫn như vậy.

07:48.340 --> 07:50.980
Và vậy chúng ta giải quyết vấn đề này như thế nào?

07:50.980 --> 07:52.120
Chúng ta sẽ làm gì ở đây?

07:52.120 --> 07:57.520
Và đây là lúc chúng ta sẽ bắt đầu giới thiệu phương trình Belmont ở dạng thực tế của nó, từ

07:57.580 --> 07:58.390
từ, từng bước.

07:58.390 --> 08:01.450
Vì vậy, phương trình Belmont trông giống như thế này.

08:01.450 --> 08:06.820
Vì vậy, chúng ta đã nói về V giá trị của việc ở một trạng thái nhất định, cũng như trạng thái hiện tại của bạn hoặc bất kỳ

08:06.820 --> 08:07.960
trạng thái nhất định nào.

08:07.960 --> 08:10.180
Và có cả s.

08:10.180 --> 08:16.600
Và vì Prime là trạng thái, trạng thái sau, trạng thái mà bạn sẽ kết thúc sau trạng thái này và bằng cách

08:16.780 --> 08:18.730
thực hiện hành động ung thư.

08:18.730 --> 08:23.650
Nhưng chúng tôi biết rằng có nhiều hành động mà một nhân viên có thể thực hiện và đó là lý do tại sao chúng tôi có mức tối đa này

08:23.650 --> 08:24.040
ở đây.

08:24.040 --> 08:27.160
Vì vậy, bằng cách thực hiện một hành động, điều gì sẽ xảy ra với một đại lý?

08:27.160 --> 08:32.440
Vì vậy, giả sử chúng ta đang ở trong một trạng thái bằng cách thực hiện một hành động ở trạng thái và chúng ta thực hiện hành động.

08:32.440 --> 08:36.490
A Điều gì sẽ xảy ra là chúng ta sẽ ngay lập tức nhận được phần thưởng bằng cách chuyển sang trạng thái mới.

08:36.550 --> 08:41.770
Và hãy nhớ rằng phần thưởng đó có thể là một hoặc cộng một hoặc trừ một nếu nó ở cuối trò chơi, hoặc nó có thể

08:41.770 --> 08:43.570
là 0 nếu nó trong suốt trò chơi.

08:43.570 --> 08:46.150
Trong trường hợp này, phần thưởng của chúng tôi trong suốt trò chơi là 0.

08:46.150 --> 08:47.650
Vì vậy, đó là phần thưởng.

08:47.680 --> 08:55.030
Thêm vào đó, chúng ta sẽ chuyển sang một trạng thái mới có giá trị là nguyên tố.

08:55.030 --> 08:57.010
Vì vậy, đó là giá trị của trạng thái mới.

08:57.190 --> 08:58.720
Và Gamma, chúng ta sẽ nói về Gamma trong giây lát.

08:58.720 --> 09:03.520
Nhưng điểm tôi đang cố gắng nêu ra ở đây hoặc điểm tôi đang nêu ra ở đây là chúng ta có nhiều hành động khác nhau mà chúng ta có thể thực

09:03.520 --> 09:05.740
hiện, và đó là lý do tại sao chúng ta có mức tối đa.

09:05.740 --> 09:09.550
Vì vậy, bằng cách thực hiện hành động, chúng ta sẽ nhận được phần thưởng, cộng với việc chúng ta sẽ ở trong một trạng thái mới.

09:09.550 --> 09:13.300
Và vì vậy, đối với mọi trường hợp trong trường hợp của chúng tôi, chúng tôi có bốn hành động khả thi.

09:13.300 --> 09:17.680
Đối với mỗi một trong bốn hành động có thể xảy ra, chúng ta sẽ có một phương trình như thế này.

09:17.680 --> 09:23.170
Vì vậy, điều này sẽ có một giá trị bốn, chúng sẽ có một giá trị khác nhau cho mỗi một trong bốn hành động.

09:23.170 --> 09:28.420
Và chúng tôi sẽ chỉ xem xét mức tối đa vì tất nhiên, tác nhân muốn có trạng thái tối

09:28.420 --> 09:28.720
ưu.

09:28.720 --> 09:32.020
Vì vậy, nếu anh ấy ở trong tình trạng s, anh ấy sẽ xem xét những giá trị này.

09:32.020 --> 09:34.180
Anh ấy sẽ tìm kiếm mức tối đa dựa trên hành động.

09:34.180 --> 09:37.330
Tôi sẽ thực hiện hành động dẫn đến tối đa các giá trị này.

09:37.330 --> 09:41.290
Vì vậy, hy vọng rằng điều đó có ý nghĩa tại sao chúng tôi đang sử dụng tối đa ở đây.

09:41.380 --> 09:45.280
Sau đó, khi chúng ta đã có phần thưởng và giá trị của trạng thái, tại sao chúng ta lại có thông số gamma này ở đây?

09:45.460 --> 09:52.150
Chà, nó chính xác để giải quyết vấn đề mà tác nhân không biết phải đi theo con đường nào, bởi vì nó không thể

09:52.150 --> 09:56.590
so sánh giá trị của hai trạng thái ở cả hai bên và chúng giống nhau.

09:56.740 --> 09:58.810
Đó là lý do tại sao gamma được gọi là hệ số chiết khấu.

09:58.810 --> 09:59.860
Vì vậy, chúng ta sẽ xem xét điều đó trong.

10:00.100 --> 10:01.450
Chỉ để hiểu rõ hơn về nó.

10:01.840 --> 10:03.160
Vì vậy, chúng ta hãy lấy công thức của chúng tôi.

10:03.160 --> 10:04.090
Chúng tôi sẽ đặt nó ở đây trên đầu trang.

10:04.090 --> 10:04.570
Đúng.

10:04.570 --> 10:09.040
Và bây giờ chúng ta sẽ phân tích giá trị của các trạng thái khác nhau này là gì.

10:09.040 --> 10:11.370
Và mọi tiểu bang ở đây đều là một hình vuông.

10:11.370 --> 10:15.130
Và do đó, một trong những thứ này ở một trong những hình vuông màu trắng này là một trạng thái.

10:15.130 --> 10:17.620
Và chúng tôi sẽ tính toán giá trị của việc ở trong trạng thái đó.

10:18.040 --> 10:19.570
Vì vậy, hãy bắt đầu với hình vuông này.

10:19.600 --> 10:21.460
Giá trị của việc ở trong trạng thái này là gì?

10:21.640 --> 10:25.660
Chà, chúng ta cần sử dụng tối đa giá trị này trên tất cả các hành động.

10:25.810 --> 10:31.090
Và chúng tôi biết rằng giá trị đại diện này được tối đa hóa khi chúng tôi tiến gần đến vạch đích.

10:31.090 --> 10:32.290
Đó là cách nó được xây dựng.

10:32.290 --> 10:37.030
Và chỉ cần nhìn vào bạn có thể thấy vì ở đây có phần thưởng và ở đây có

10:37.030 --> 10:40.600
hệ số chiết khấu nhân với giá trị của trạng thái tiếp theo.

10:40.840 --> 10:44.740
Và nó chỉ có ý nghĩa rằng đó là cách chúng ta sẽ xây dựng phương trình đó.

10:44.740 --> 10:50.170
Vì vậy, nó có ý nghĩa rằng từ đây giá trị lớn nhất sẽ là nếu chúng ta di chuyển sang phải.

10:50.170 --> 10:52.060
Vì vậy, đó là cách chúng tôi tính toán giá trị của trạng thái.

10:52.060 --> 10:57.400
Giá trị của trạng thái này là bằng, lớn nhất hoặc bằng với giá trị này.

10:57.400 --> 11:00.670
Nếu chúng ta di chuyển sang phải, nếu chúng ta thực hiện một hành động di chuyển sang phải.

11:00.940 --> 11:02.250
Vậy giá trị này sẽ là bao nhiêu?

11:02.260 --> 11:04.750
Chà, phần thưởng của việc di chuyển sang phải là một phần thưởng.

11:04.750 --> 11:10.330
Và bất kể gamma gamma là gì, chúng ta không có giá trị ở trạng thái này vì chúng ta đã ở trạng thái

11:10.330 --> 11:11.470
tốt nhất có thể.

11:11.590 --> 11:12.790
Vì vậy, đây là trạng thái cuối cùng.

11:12.790 --> 11:13.810
Nó sẽ không có giá trị.

11:13.810 --> 11:16.180
Chúng tôi chỉ nhận được một phần thưởng ở đây và đó là kết thúc của trò chơi.

11:16.180 --> 11:20.230
Vì vậy, giá trị của giá trị tối đa này sẽ bằng một.

11:20.230 --> 11:23.410
Và đó là lý do tại sao giá trị của các trạng thái ở đây bằng một.

11:23.680 --> 11:27.730
Bây giờ, mọi thứ trở nên thú vị khi chúng ta di chuyển sang trái, khi chúng ta lùi lại một chút.

11:27.730 --> 11:32.380
Vì vậy, bây giờ chúng ta hãy tính toán giá trị của điều này, ở trạng thái này.

11:32.590 --> 11:34.000
Và để làm được điều đó, chúng ta sẽ cần gamma.

11:34.000 --> 11:40.210
Vì vậy, giả sử hệ số chiết khấu của chúng tôi là 0. 9 và hệ số chiết khấu sẽ có ý nghĩa khi chúng ta tính

11:40.210 --> 11:40.900
toán điều này.

11:40.900 --> 11:46.750
Vì vậy, từ đây, chỉ dựa vào trực giác và cơ sở của chúng ta, bởi vì chúng ta biết mê cung này hoạt động như thế nào, mê cung này hoạt động như

11:46.750 --> 11:50.800
thế nào, chúng tôi biết rằng hành động tốt nhất có thể là đi về bên phải, bởi vì từ đây chúng ta đi

11:50.800 --> 11:51.250
tới đây.

11:51.250 --> 11:55.960
Vì vậy, điều đó có nghĩa là mức tối đa sẽ đạt được khi ở trạng thái này, bạn đi sang bên phải.

11:55.960 --> 11:58.750
Và vì vậy, hãy xem điều gì sẽ xảy ra nếu chúng ta cắm nó vào đây.

11:58.750 --> 12:02.500
Vì vậy, nếu bạn đi từ đây đến đây, bạn không nhận được bất kỳ phần thưởng sẽ vẫn là một con số không.

12:02.500 --> 12:03.730
Nhưng sau đó bạn sẽ nhận được gamma.

12:03.730 --> 12:07.360
Vì vậy, bạn nhận được 0. 9 lần giá trị của trạng thái mới, là một.

12:07.360 --> 12:13.990
Vì vậy, trong trường hợp này, giá trị, toàn bộ kết quả của điều này là một lần 0, 0. 9 lần một bằng 0. 9.

12:13.990 --> 12:15.670
Vì vậy, đó là giá trị của chúng tôi, 0. 9.

12:16.000 --> 12:18.490
Vì vậy, nếu chúng tôi tính toán điều này ngay bây giờ, bạn sẽ thấy điều đó từ đây.

12:18.490 --> 12:23.710
Chúng ta biết chỉ bằng cách nhìn vào mê cung, chúng ta biết bởi vì chúng ta là con người, bởi vì chúng ta hiểu cách thức hoạt

12:23.710 --> 12:24.850
động của phương trình này.

12:24.850 --> 12:29.840
Tất nhiên, một AI, đặc vụ sẽ phải thử nghiệm những thứ này, nhưng vì chúng ta giống như một quả cầu pha lê, chúng ta

12:29.860 --> 12:31.780
có thể nhìn thấy toàn bộ mê cung này.

12:31.930 --> 12:33.700
Chúng tôi có chế độ xem mắt của con chim ngay bây giờ.

12:33.700 --> 12:36.070
Chúng tôi biết rằng các hành động tốt nhất là đi đến bên phải.

12:36.070 --> 12:42.930
Vì vậy, nếu chúng tôi cắm tất cả vào đây, nó sẽ không có phần thưởng, cộng với 0. 9 lần giá trị ở trạng thái này, 0. 9 là

12:42.940 --> 12:45.460
0. 81 và như vậy.

12:45.460 --> 12:49.840
Vì vậy, ở đây nó sẽ là 0. 73 và ở đây sẽ là 0. 66.

12:50.290 --> 12:57.550
Vì vậy, bạn có thể thấy rằng cách hoạt động của hệ số chiết khấu là nó chiết khấu giá trị của trạng thái khi bạn

12:57.550 --> 12:58.540
ở xa hơn.

12:58.540 --> 13:04.480
Vì vậy, nếu bạn đã quen thuộc với lý thuyết tài chính, thì nó tương tự như giá trị thời gian của tiền.

13:04.870 --> 13:06.820
Như bạn sẽ nghĩ gì về nó theo cách này?

13:06.820 --> 13:12.700
Bạn muốn có $ 5 hôm nay hay $ 5 trong mười ngày nữa kể từ bây giờ?

13:13.180 --> 13:18.070
Chỉ cần ai đó cho bạn lựa chọn, tôi sẽ đưa bạn 5 đô la hôm nay hoặc tôi sẽ đưa cho bạn 5 đô la. 10 ngày kể từ bây giờ.

13:18.100 --> 13:20.170
Tất nhiên bạn sẽ chọn $ 5 hôm nay.

13:20.170 --> 13:20.770
Tại sao vậy?

13:20.770 --> 13:26.290
Chà, bởi vì bạn có thể lấy 5 đô la đó và bạn có thể đầu tư chúng với một mức lãi suất nhất định,

13:26.290 --> 13:27.370
rất giống với Gamma.

13:27.370 --> 13:33.760
Và 5 đô la của bạn trong mười ngày sẽ thực sự tăng lên có thể là 5 đô la. 73 hoặc cái gì đó tương tự.

13:33.760 --> 13:36.310
Và đó là cách giá trị thời gian của tiền hoạt động.

13:36.310 --> 13:38.200
Và rất giống khái niệm ở đây.

13:38.200 --> 13:43.210
Và điều quan trọng cần hiểu ở đây, đây chỉ là một lý thuyết, một cách mà việc học củng cố hoạt động.

13:43.210 --> 13:48.670
Vì vậy, Richard Bellman đã đưa ra phương trình này và từ đó, bây giờ đó là cách chúng tôi sử dụng nó.

13:48.670 --> 13:51.340
Vì vậy, bạn có thể tiếp tục và đưa ra một phương trình khác.

13:51.340 --> 13:52.450
Nó không nhất thiết phải có cờ bạc.

13:52.450 --> 13:54.760
Nó có thể có một số yếu tố khác, thậm chí có thể không có một yếu tố nào đó.

13:54.760 --> 13:57.550
Nhưng cách tiếp cận này hoạt động và đó là lý do tại sao chúng tôi đang sử dụng nó.

13:57.550 --> 14:00.700
Và đây là hình ảnh trực quan của nó.

14:00.700 --> 14:04.780
Vì vậy, bạn càng ở xa, giá trị của hiện hữu ở trạng thái này càng ít đi.

14:04.780 --> 14:08.680
Và về giá trị thời gian của tiền bạc, nếu tôi có thể nói với bạn, bạn muốn ở đâu hơn?

14:08.680 --> 14:09.760
Bạn có muốn ở đây không?

14:09.760 --> 14:11.080
Bạn có muốn ở đây không?

14:11.080 --> 14:12.850
Bạn sẽ nói rằng tôi muốn ở đây.

14:12.850 --> 14:16.990
Vì vậy, chúng tôi đang tạo ra hiện tượng đó giống như giá trị thời gian của tiền.

14:16.990 --> 14:23.320
Chúng tôi tạo ra nó một cách nhân tạo thông qua Gamma để khuyến khích các đại lý hoặc truyền cảm hứng cho các đại lý

14:23.320 --> 14:24.610
tiến gần hơn đến đích.

14:24.610 --> 14:29.350
Vì vậy, nếu một đại lý được hỏi, bạn muốn ở đây hay ở đây vì cách thức hoạt động của

14:29.350 --> 14:31.330
phương trình này, nó sẽ chọn ở đây.

14:31.360 --> 14:33.310
Không có gì hơn thế, không có gì ít hơn.

14:33.310 --> 14:35.770
Đó không phải là thứ mà thế giới hoạt động theo cách này.

14:35.770 --> 14:41.920
Không, đó chỉ là thứ mà chúng tôi đang tạo ra một cách giả tạo để các đại lý của chúng tôi

14:41.920 --> 14:43.210
hiểu rằng đó là.

14:43.210 --> 14:44.020
Điều này là tốt.

14:44.020 --> 14:44.530
Điều này là tốt.

14:44.530 --> 14:44.980
Điều này là tốt.

14:44.990 --> 14:45.670
Tất cả đều tốt.

14:45.670 --> 14:47.470
Nhưng cái này tốt hơn cái này.

14:47.470 --> 14:48.790
Và cái này tốt hơn cái này.

14:48.790 --> 14:49.390
Và cái này tốt hơn.

14:49.390 --> 14:49.870
Và cái này nữa.

14:49.870 --> 14:54.700
Và bằng cách đó bạn có thể nhìn thấy đại lý cũ có thể nhìn thấy hướng nào cần phải đi.

14:54.700 --> 14:59.620
Vì vậy, có thể thấy rằng nếu tôi đang đứng ở đây, hãy nhớ rằng vấn đề mà chúng tôi đã gặp phải hay anh ấy đang đứng ở đây?

15:00.050 --> 15:04.910
Vậy nếu bạn đang đứng ở đây, tôi sẽ đi xuống hay như thể tôi đứng ở đây để đi lên hay tôi đi xuống?

15:04.940 --> 15:09.410
Chà, bây giờ không còn là vấn đề nữa, bởi vì bạn có thể thấy rằng thực sự tốt hơn nếu tăng

15:09.410 --> 15:11.300
lên vì giá trị ở đây lớn hơn.

15:11.300 --> 15:14.360
Và sau đó từ đây tốt hơn là nên đi, phải không, bởi vì giá trị ở đây lớn hơn ở đây.

15:14.360 --> 15:15.680
Và sau đó từ đây tốt hơn là nên đi, phải không?

15:15.680 --> 15:17.030
Bởi vì giá trị ở đây lớn hơn ở đây.

15:17.030 --> 15:17.420
Hơn ở đây.

15:17.420 --> 15:20.210
Và từ đây, anh ấy đã biết rằng mình cần phải đi, phải không.

15:20.210 --> 15:22.130
Bởi vì anh ấy sẽ nhận được một phần thưởng ở đây.

15:22.490 --> 15:24.880
Vì vậy, đó là cách toàn bộ phương pháp này hoạt động.

15:24.890 --> 15:27.080
Bây giờ, chúng ta hãy xem nhanh phần còn lại của hình vuông.

15:27.410 --> 15:29.750
Vậy làm thế nào để tính giá trị của hình vuông này?

15:29.750 --> 15:32.390
Chà, đây là nơi mà mọi thứ trở nên phức tạp một chút.

15:32.390 --> 15:36.260
Vì vậy, từ đây, bạn có thể không thực sự đi sang trái, phải không?

15:36.260 --> 15:37.280
Bạn thực sự có thể đi đúng.

15:37.280 --> 15:41.270
Vì vậy, chúng ta không thể cứ tiếp tục như vậy vì thực sự có thể sẽ ngắn hơn nếu đi theo con đường này.

15:41.270 --> 15:44.510
Vì vậy, những gì chúng ta sẽ làm là chúng ta sẽ tính toán giá trị trong hình vuông này trước.

15:44.750 --> 15:48.410
Và bởi vì rõ ràng từ đây, cách tốt nhất là đi lên một lần nữa.

15:48.410 --> 15:52.880
Đó là bởi vì chúng tôi thấy rằng chúng tôi có quả cầu pha lê, chúng tôi có thể nhìn thấy mọi thứ và bạn sẽ

15:52.880 --> 15:57.140
thấy sâu hơn trong phần này, bạn sẽ thấy cách tác nhân thực sự khám phá điều này, hiểu điều này theo cách của họ

15:57.140 --> 15:57.980
thông qua thử nghiệm.

15:57.980 --> 16:00.110
Nhưng đối với chúng tôi, chúng tôi biết rằng tốt hơn là nên đi theo hướng này.

16:00.110 --> 16:05.030
Vì vậy, chúng ta sẽ tính toán giá trị ở đây, và đó là lý do tại sao chúng ta sẽ tính giá trị trong

16:05.030 --> 16:06.110
hình vuông này trước tiên.

16:06.110 --> 16:09.080
Vì vậy, ở đây chúng tôi có ba hành động khả thi.

16:09.080 --> 16:10.430
Trong thực tế, chúng tôi thực sự có bốn.

16:10.430 --> 16:11.540
Chúng ta cũng có thể đi sang trái.

16:11.540 --> 16:15.170
Theo giả thuyết, đặc vụ có thể nhấn trái và va vào tường và ở lại đây.

16:15.170 --> 16:20.870
Nhưng vì đơn giản, nó sẽ hiển thị những hành động mà chúng ta biết những gì chúng ta biết và có quả cầu pha lê, chúng

16:20.870 --> 16:25.610
ta biết những hành động nào là hành động thực sự dẫn đến một điều gì đó khác với trạng thái cũ

16:25.610 --> 16:26.330
một lần nữa.

16:26.660 --> 16:31.490
Và vì vậy, từ đây, chúng ta lại biết rằng, chỉ vì chúng ta có một quả cầu pha lê, nên chúng ta biết rằng con đường

16:31.490 --> 16:33.110
tốt nhất để đi là con đường này.

16:33.110 --> 16:35.870
Tất nhiên, một đặc vụ sẽ phải thử nghiệm và tìm ra cách tốt nhất.

16:35.870 --> 16:38.450
Và bạn sẽ thấy điều đó xảy ra như thế nào trong phần này.

16:38.450 --> 16:43.520
Bạn sẽ thực sự thấy cách một tác nhân đi vòng quanh và cách bạn sẽ thử nghiệm khi cố gắng tìm những giá trị này.

16:43.520 --> 16:45.110
Nhưng đối với chúng tôi, chúng tôi biết nó là như vậy.

16:45.110 --> 16:50.810
Vì vậy, ở đây, nếu chúng ta cắm mọi thứ vào một, vì vậy đầu ra tối đa, tốt nhất là khi bạn đi lên và ở

16:50.810 --> 16:52.280
đây là a10. 90.

16:52.280 --> 16:55.610
Vì vậy, bạn cắm nó vào, bạn nhận được 0. 9.

16:56.420 --> 16:57.410
Vì vậy, chúng tôi tính toán cái đó.

16:57.410 --> 16:59.750
Hãy tính toán một cách tiếp cận này.

16:59.750 --> 17:04.730
Đây là bạn có ba cách bạn có thể thực hiện bốn cách cho đại lý, nhưng đối với chúng tôi, chúng tôi có thể thấy đó chỉ

17:04.730 --> 17:05.300
là ba cách.

17:05.720 --> 17:10.670
Vì vậy, 0. 81 từ đây bạn có 0. 73.

17:10.850 --> 17:16.040
Và nó thực sự gắn liền với giá trị này bởi vì sau đó nếu bạn giảm giá một lần nữa, bạn sẽ nhận được 0. 66 và ở đây bạn

17:16.040 --> 17:19.580
có 0. 73 vì đây là con đường tối ưu.

17:19.880 --> 17:21.110
Vậy là xong.

17:21.110 --> 17:23.690
Đó là các giá trị, tất cả các trạng thái này.

17:23.690 --> 17:29.660
Và bây giờ bạn có thể thấy rằng bởi vì chúng tôi đã tạo ra phương trình này, chúng tôi

17:29.660 --> 17:36.800
đã tạo ra một cách tổng hợp toàn bộ khái niệm về việc bạn càng gần về đích, trạng thái đó càng có giá trị.

17:36.800 --> 17:41.810
Không phải bởi vì chúng tôi đã tạo ra nó ngay bây giờ, nó khá rõ ràng cho tác nhân xem nó sẽ đi theo hướng nào.

17:41.810 --> 17:44.660
Và chúng ta sẽ nói nhiều hơn về điều đó trong các bài hướng dẫn sắp tới.

17:44.660 --> 17:52.220
Tôi hy vọng bạn thích phiên hôm nay và tôi biết rằng nó có vẻ hơi cơ bản ở giai đoạn này, nhưng khi chúng ta

17:52.220 --> 17:56.450
xem qua phần này, chúng ta sẽ thêm một chút phức tạp vào nó.

17:56.450 --> 18:01.280
Đồng thời, nếu bạn không thể chờ đợi, nếu bạn muốn nhảy vào đó, thì có một tờ giấy mà bạn có

18:01.280 --> 18:04.220
thể nhìn vào, và đó là tờ giấy gốc của Richard Bellman.

18:04.220 --> 18:11.210
Nó được gọi là Lý thuyết về lập trình động từ năm 1954, và bạn có thể tìm thấy nó tại liên kết này và bạn cứ việc.

18:11.210 --> 18:16.400
Vì vậy, bạn có thể nhảy thẳng vào nó và đọc từ tác giả của Phương trình Bellman.

18:16.400 --> 18:20.660
Nhưng hãy nhớ rằng đây là một bài báo khá nặng về mặt toán học.

18:20.660 --> 18:22.730
Và trên ghi chú đó, tôi mong được gặp bạn lần sau.

18:22.730 --> 18:24.110
Và cho đến khi đó, hãy tận hưởng.

18:24.140 --> 18:24.710
TÔI.