WEBVTT

00:00.910 --> 00:03.850
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.850 --> 00:06.550
Hôm nay cuối cùng chúng ta cũng đang nói về việc học xếp hàng.

00:06.940 --> 00:07.450
Được rồi.

00:07.450 --> 00:13.050
Vì vậy, chúng tôi đã có phương trình này, phương trình Belmont, mà chúng tôi đã thêm rất nhiều thành phần vào.

00:13.060 --> 00:19.510
Chúng tôi đã có phần thưởng ở đây, phần thưởng có thể không chỉ ở cuối cùng mà còn có thể ở bất kỳ bước nào đã định.

00:19.840 --> 00:26.050
Chúng tôi có hệ số chiết khấu, chúng tôi có xác suất bởi vì bây giờ chúng tôi đang xem xét các quy trình quyết định của Markov

00:26.110 --> 00:31.810
và ở đây chúng tôi có xác suất kết thúc ở một trạng thái khác bất kể chúng tôi thực hiện hành động nào hoặc thực

00:31.810 --> 00:38.230
sự đưa ra hành động mà chúng tôi thực hiện, chúng có thể là nhiều trạng thái mà chúng tôi có thể kết thúc và sau đó chúng tôi

00:38.230 --> 00:40.180
có giá trị của trạng thái tiếp theo.

00:40.180 --> 00:46.600
Vì vậy, bạn có thể thấy nó giống như một hàm đệ quy, v.v., nhưng bạn có thể vẫn còn một câu hỏi.

00:46.660 --> 00:51.250
Câu hỏi đặt ra là nơi nào trong tất cả những thứ này là bức thư?

00:51.250 --> 00:54.220
Q Tại sao tất cả được gọi là Q học?

00:54.220 --> 00:55.720
Vậy Q đâu?

00:55.720 --> 00:58.660
Và đó là câu hỏi mà chúng ta sẽ trả lời ngày hôm nay.

00:58.660 --> 01:04.480
Cho đến nay, chúng ta đang xử lý các giá trị, giá trị của việc ở trong một trạng thái nhất định.

01:04.480 --> 01:09.700
Và bây giờ chúng ta sẽ xem xét cách Q phù hợp với tất cả những điều đó.

01:09.820 --> 01:12.040
Vì vậy, ở đây chúng tôi có hai ví dụ.

01:12.040 --> 01:14.410
Ở bên trái là những gì chúng tôi đã làm cho đến nay.

01:14.410 --> 01:17.950
Người đại diện của chúng tôi đang phân tích, được rồi, tôi ở đây.

01:17.950 --> 01:21.520
Đây là một dấu ấn của quá trình quyết định, vì vậy không quan trọng bằng cách nào tôi đến đây.

01:21.550 --> 01:26.170
Phần còn lại của môi trường không quan tâm đến các bước mà tôi đã mất để đến được đây.

01:26.170 --> 01:33.070
Kể từ bây giờ, tôi phải đưa ra quyết định tối ưu là đi đâu, đây, đây, dựa trên trạng thái hiện tại và tất cả

01:33.070 --> 01:37.150
các trạng thái trong tương lai đến từ đây, nhưng không phải từ quá khứ.

01:37.150 --> 01:39.580
Và vì vậy anh ta có thể thấy rằng có ba lựa chọn.

01:39.580 --> 01:42.010
Có trạng thái một trạng thái đến trạng thái ba.

01:42.010 --> 01:48.850
Và dựa trên kinh nghiệm của mình, anh ấy đã tính toán các giá trị ở những trạng thái này, và bây giờ anh ấy sẽ sử dụng

01:48.850 --> 01:49.780
phương trình Belmont.

01:49.780 --> 01:53.950
Vì vậy, mặc dù đây là một quá trình ngẫu nhiên, vì vậy anh ta biết rằng anh ta sẽ đi đến đây, nhưng có

01:53.950 --> 01:56.020
khả năng anh ta sẽ đi sang trái hoặc phải, v.v.

01:56.020 --> 02:00.550
Vì vậy, dựa trên những giá trị này, sẽ đưa ra quyết định, đó là những gì chúng tôi đã làm cho đến

02:00.550 --> 02:03.280
nay và đó hoàn toàn là cách tiếp cận hợp pháp ở đây.

02:03.280 --> 02:05.590
Nhưng bây giờ chúng tôi sẽ sửa đổi nó một chút.

02:05.590 --> 02:10.270
Chúng ta sẽ sử dụng cùng một khái niệm chính xác, cùng một vấn đề chính xác.

02:10.270 --> 02:15.970
Nhưng ở đây, thay vì xem xét các giá trị của từng trạng thái mà anh ta có thể

02:15.970 --> 02:21.340
đạt được, chúng ta sẽ xem xét các giá trị hoặc giá trị của mỗi hành động.

02:21.340 --> 02:25.240
Vì vậy, chúng ta sẽ không sử dụng chữ V nữa vì V là giá trị của trạng thái.

02:25.240 --> 02:29.710
Chúng ta sẽ sử dụng chữ Q và bạn có thể có câu hỏi tại sao lại viết chữ này?

02:29.710 --> 02:30.460
Q Chà.

02:30.490 --> 02:32.230
Q Một số người suy đoán rằng.

02:32.230 --> 02:36.280
Q Chà, tôi đã đọc cái này, tôi nghĩ trên Quora có ai đó đã đề cập đến điều đó.

02:36.280 --> 02:41.650
Q là vì chất lượng, nhưng đồng thời, tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào khác về điều đó.

02:41.650 --> 02:45.610
Vì vậy, có thể không phải vì điều đó, có thể chỉ vì đó là chữ cái đã được sử dụng vào thời điểm đó.

02:45.610 --> 02:50.410
Và bây giờ nó trở nên cực kỳ phổ biến bởi vì nó được gọi là Q learning.

02:50.500 --> 02:57.010
Vì vậy, không có lý do chính xác tại sao nó được gọi là Q nhưng ít nhất cũng giúp chúng ta phân biệt giữa V và Q.

02:57.010 --> 03:03.250
Vì vậy, Q ở đây đại diện cho một giá trị chứ không phải là giá trị của trạng thái mà nó biểu thị, hãy đi cùng với chất lượng.

03:03.250 --> 03:06.190
Nó thể hiện chất lượng của hành động mà nó thể hiện.

03:06.400 --> 03:07.840
Vì vậy, tôi có bốn hành động.

03:08.050 --> 03:10.750
Những phẩm chất khác nhau của những hành động này là gì?

03:10.750 --> 03:14.200
Giá trị hoặc giá trị của hành động hoặc chất lượng của hành động là gì?

03:14.200 --> 03:15.670
Hành động nào sinh lợi hơn?

03:15.670 --> 03:19.600
Vì vậy, tôi cần một số liệu cho tôi biết, được rồi, làm cách nào để tôi định lượng hành động này?

03:19.600 --> 03:20.770
Và sau đó tôi có thể so sánh chúng.

03:20.770 --> 03:22.570
Và đó chính xác là những gì Q là.

03:23.170 --> 03:28.930
Và vì vậy, ở đây anh ấy có bốn hành động khả thi, như mọi khi, đi lên, sang phải, sang trái hoặc xuống dưới.

03:28.930 --> 03:35.110
Và dựa trên hành động, sẽ có một công thức cho chúng ta biết giá trị có thể định lượng của hành động đó, mà

03:35.110 --> 03:38.350
chúng tôi gọi là Q, giá trị Q của hành động đó.

03:38.350 --> 03:41.650
Vì vậy, chúng ta hãy xem làm thế nào chúng ta sẽ tìm ra công thức này.

03:41.650 --> 03:44.110
Q Nó thực sự liên quan đến điều gì?

03:44.110 --> 03:51.220
V Bởi vì như bạn có thể tưởng tượng, bởi vì các hành động dẫn đến các trạng thái, nên phải có một số loại liên kết giữa hai điều

03:51.220 --> 03:51.940
này, phải không?

03:51.940 --> 03:55.960
Chúng tôi đã có, chúng tôi đã xác định cách tính toán điều này và chúng tôi khá giỏi trong việc đó.

03:55.960 --> 04:01.960
Chúng tôi biết cách sử dụng phương trình bellman và các môi trường rất khác nhau với rất nhiều biến chứng khác nhau.

04:01.960 --> 04:08.620
Vâng, hãy tận dụng kiến thức đó để hiểu cách chúng ta có thể tính Q bây giờ để đưa ra các dự đoán tương tự, bởi vì như

04:08.620 --> 04:13.600
bạn có thể tưởng tượng, môi trường không thay đổi tùy thuộc vào cách chúng ta sử dụng phương pháp tiếp

04:13.600 --> 04:14.210
cận nào.

04:14.210 --> 04:16.270
Môi trường sẽ giống nhau bất kể.

04:16.270 --> 04:22.270
Vì vậy, do đó cách tiếp cận này và cách tiếp cận này phải luôn cho cùng một kết quả, và do đó đó là một lý do khác tại sao

04:22.270 --> 04:24.400
hai phương pháp này nên được liên kết với nhau.

04:24.880 --> 04:26.020
Vì vậy, chúng ta hãy xem xét.

04:26.020 --> 04:31.240
Vì vậy, đây là cách tiếp cận của chúng tôi, nơi chúng tôi sẽ chỉ xem xét giá trị của bất kỳ trạng thái nhất định nào, trạng thái này hoặc bất

04:31.240 --> 04:32.110
kỳ trạng thái nào khác.

04:32.110 --> 04:36.880
Và ở đây chúng ta sẽ sử dụng chữ S ở đây vì đó là trạng thái hiện tại.

04:36.880 --> 04:40.480
Và do đó thuật ngữ sẽ giống nhau trong cả hai phương trình.

04:40.480 --> 04:45.460
Và ở đây chúng ta đang sử dụng Q như một Q là trạng thái và hành động?

04:45.460 --> 04:49.420
A Bởi vì hành động là lên, nhưng chúng tôi đã thực hiện hành động đó ở trạng thái nào?

04:49.420 --> 04:51.700
Chúng tôi thực hiện hành động đó trong trạng thái.

04:51.700 --> 04:56.350
S Được rồi, bây giờ chúng ta sẽ viết ra phương trình cho cách tiếp cận đầu tiên.

04:56.350 --> 05:00.370
Như bạn có thể thấy ở đây, chúng ta có V of SE nên giá trị của.

05:00.480 --> 05:05.490
Bất kỳ trạng thái nhất định nào đều là phần thưởng tối đa mà bạn nhận được.

05:05.500 --> 05:08.070
Vì vậy, tối đa dựa trên các hành động bạn có.

05:08.070 --> 05:10.350
Ba trong trường hợp này bạn thực sự có bốn hành động.

05:10.350 --> 05:12.690
Vì vậy, tối đa hóa tất cả các hành động có thể.

05:12.690 --> 05:15.240
Và sau đó của phần này, mà chúng ta đã thảo luận nhiều lần.

05:15.240 --> 05:22.080
Vì vậy, đây là phần thưởng của chúng tôi mà chúng tôi nhận được khi thực hiện hành động đó ở trạng thái đó, cộng với hệ số chiết

05:22.080 --> 05:28.140
khấu nhân với giá trị kỳ vọng của trạng thái mới mà chúng tôi sẽ ở và giá trị mong đợi bởi vì đó là

05:28.140 --> 05:29.370
một quá trình ngẫu nhiên.

05:29.370 --> 05:32.940
Chúng tôi không biết chính xác chắc chắn rằng chúng tôi sẽ kết thúc ở đây.

05:32.940 --> 05:35.820
Chúng ta có thể kết thúc ở bên trái hoặc bên phải với một xác suất nhất định.

05:35.820 --> 05:37.590
Đó là lý do tại sao những xác suất này ở đây.

05:38.100 --> 05:38.430
Được rồi.

05:38.430 --> 05:40.170
Vì vậy, đó là giá trị của chúng tôi.

05:40.170 --> 05:41.370
Và bây giờ chúng ta hãy nhìn vào Q.

05:41.370 --> 05:43.410
Vì vậy, Q sẽ được xác định.

05:43.410 --> 05:45.030
Chúng tôi sẽ sử dụng điều này để xác định.

05:45.030 --> 05:50.550
Q Vì vậy, giả sử tác nhân từ vị trí này, từ trạng thái này thực hiện hành động lên.

05:50.550 --> 05:54.290
Giá trị Q sẽ bằng bao nhiêu?

05:54.300 --> 05:59.220
Trước hết, hãy xem anh ta sẽ nhận được gì khi thực hiện hành động này.

05:59.220 --> 06:01.950
Điều đầu tiên bạn sẽ nhận được là một phần thưởng, phải không?

06:01.950 --> 06:05.500
Điều đó biết, không còn nghi ngờ gì nữa, sẽ có một phần thưởng nào đó.

06:05.500 --> 06:06.210
Nó có thể bằng không.

06:06.210 --> 06:12.540
Nhưng chúng ta biết rằng toàn bộ cách thức hoạt động của quá trình học tập củng cố này là đôi khi để thực hiện một số

06:12.540 --> 06:15.840
hành động nhất định từ một trạng thái nhất định, sẽ có phần thưởng.

06:15.840 --> 06:19.620
Vì vậy, chúng tôi sẽ thêm điều đó vào đây và sau đó chúng tôi sẽ thêm những gì chúng tôi sẽ thêm?

06:19.620 --> 06:21.030
Vâng, chúng ta hãy nghĩ về nó.

06:21.030 --> 06:24.570
Điều tiếp theo xảy ra sau khi anh ấy nhận được phần thưởng là gì?

06:24.570 --> 06:29.610
Điều tiếp theo sẽ xảy ra là bây giờ đặc vụ đang ở một trạng thái nhất định.

06:29.970 --> 06:34.530
Anh ta có thể kết thúc ở đây với xác suất 80% hoặc một xác suất nào đó.

06:34.530 --> 06:36.570
Nhưng thực ra bạn đang đi lên đây hoặc ở đây.

06:36.570 --> 06:43.680
Nhưng bất cứ nơi nào anh ta kết thúc bây giờ, chúng tôi đã có một số liệu định lượng cho trạng thái đó anh ta đang ở

06:43.920 --> 06:46.980
và đó thực sự là giá trị của trạng thái đó.

06:46.980 --> 06:52.080
Nhưng vì anh ta không thể ở nhiều trạng thái khác nhau trong ba trong số các trạng thái khác nhau có thể xảy ra, chúng

06:52.080 --> 06:55.410
ta phải xem xét giá trị kỳ vọng của trạng thái mà anh ta sẽ ở.

06:55.950 --> 06:57.660
Và vì vậy chúng tôi sẽ thêm nó vào.

06:57.660 --> 07:03.000
Tất nhiên, chúng tôi sẽ thêm yếu tố chiết khấu như chúng tôi đã có trước đây, bởi vì đó là một nơi nào đó

07:03.000 --> 07:03.840
trong tương lai.

07:03.840 --> 07:11.070
Và sau đó chúng ta sẽ cộng tổng của tất cả các trạng thái có thể, trên tất cả các trạng thái có thể mà anh ta có thể kết

07:11.070 --> 07:13.920
thúc bằng cách lấy thời gian hành động của xác suất.

07:13.920 --> 07:20.100
Vì vậy, những gì chúng tôi đang nói ở đây là bằng cách thực hiện một hành động, bạn sẽ nhận được phần thưởng cộng thêm, đó là một

07:20.100 --> 07:24.720
chỉ số được định lượng, ngoài ra bạn sẽ khiến bạn rơi vào trạng thái mà chúng tôi không biết một.

07:24.720 --> 07:25.680
Nó có thể ở đây.

07:25.680 --> 07:26.160
Nó có thể ở đây.

07:26.160 --> 07:26.820
Nó có thể ở đây.

07:26.820 --> 07:31.980
Nhưng đây là giá trị mong đợi của trạng thái mà bạn sắp kết thúc.

07:31.980 --> 07:35.850
Và bây giờ chúng ta sẽ nhân nó với hệ số chiết khấu bởi vì đó là một bước đi.

07:36.150 --> 07:40.860
Vì vậy, đó là giá trị gợi ý của chúng tôi cho việc này để thực hiện hành động này.

07:41.040 --> 07:44.610
Và những gì bạn sẽ nhận thấy ở đây ngay lập tức là đó.

07:44.610 --> 07:51.240
Q Giá trị Q thực sự giống hệt với những gì bên trong các dấu ngoặc ở đây.

07:51.720 --> 07:52.590
Và tại sao lại như vậy?

07:52.590 --> 07:57.660
Chà, nếu bạn nghĩ về nó ở đây, chúng tôi đang lấy kết quả tối đa.

07:57.660 --> 08:00.900
Chúng tôi sẽ đạt được mức tối đa cho tất cả các hành động có thể.

08:00.900 --> 08:04.950
Vì vậy, chúng tôi có bốn hành động và chúng tôi đang sử dụng tối đa tất cả các hành động có thể có

08:04.950 --> 08:07.950
của kết quả mà chúng tôi sẽ nhận được bằng cách thực hiện từng hành động đó.

08:08.040 --> 08:09.030
Và trong.

08:09.030 --> 08:11.070
Q Chúng tôi đang xác định điều thú vị.

08:11.070 --> 08:13.710
Chúng ta sẽ nhận được gì khi thực hiện một hành động nào đó?

08:13.710 --> 08:21.510
Vì vậy, nếu bạn nghĩ về nó, nó có ý nghĩa rằng giá trị của một trạng thái chẳng hạn, trạng thái này là giá trị

08:21.510 --> 08:25.870
lớn nhất trong tất cả các giá trị Q có thể, phải không?

08:25.890 --> 08:32.310
Vì vậy, ở đây trong trạng thái này, bằng cách ở trong trạng thái, tác nhân có một giá trị Q đến giá trị Q ba giá trị Q cho các giá

08:32.310 --> 08:32.820
trị Q.

08:32.820 --> 08:34.860
Vì vậy, anh ta có bốn giá trị Q có thể.

08:34.860 --> 08:41.310
Vâng, giá trị của trạng thái có nghĩa là giá trị của trạng thái là giá trị lớn nhất của tất cả các giá trị đó đối với

08:41.310 --> 08:42.300
các giá trị Q.

08:42.300 --> 08:44.340
Và đó chính xác là những gì chúng ta có thể thấy ở đây.

08:44.340 --> 08:48.000
Đó là một xác nhận tốt về công thức mới này mà chúng tôi đã rút ra.

08:48.000 --> 08:52.170
Nếu đó không phải là trường hợp, nếu điều đó không khớp, thì chúng tôi sẽ có câu hỏi.

08:52.170 --> 08:53.880
Chúng tôi sẽ như thế, vậy tại sao?

08:53.880 --> 08:54.840
Tại sao nó không khớp?

08:54.990 --> 08:56.940
Tại sao nó không khớp?

08:56.940 --> 09:07.590
Nếu giá trị Q là một thước đo định lượng của việc thực hiện một hành động và V phụ thuộc vào bốn thì giá trị này giống như kết quả tối đa có thể

09:07.590 --> 09:11.640
có của bốn hành động mà anh ta có thể thực hiện.

09:12.000 --> 09:16.920
Hy vọng rằng điều đó có ý nghĩa và điều đó xác nhận công thức mà chúng tôi vừa suy ra.

09:17.190 --> 09:20.970
Và bây giờ chúng tôi sẽ làm cho nó thú vị hơn nữa.

09:20.970 --> 09:26.010
Chúng ta sẽ loại bỏ hoàn toàn V vì bạn có thể thấy ở đây bạn có V là một hàm đệ quy của V, vì vậy

09:26.010 --> 09:29.700
và sau đó chúng ta có V và sau đó là V và sau đó là V và v.v.

09:29.700 --> 09:35.610
Vì vậy, bạn có thể thể hiện chữ V này thông qua tất cả các chữ V sau đây, chữ V tối ưu nhất sẽ xuất

09:36.030 --> 09:36.720
hiện ở đây.

09:36.810 --> 09:43.350
Chúng ta đang biểu thị Q dưới dạng một hàm đệ quy của V hoặc như một hàm của V tiếp theo, và sau đó chúng ta phải cắm vào V này và

09:43.350 --> 09:45.150
sau đó chúng ta sẽ quay lại V.

09:45.150 --> 09:51.510
Vì vậy, những gì chúng tôi sẽ làm là chúng tôi thực sự sẽ lấy V này và chúng tôi sẽ thay thế nó

09:51.510 --> 09:52.050
bằng.

09:52.200 --> 09:53.100
Q Đúng.

09:53.100 --> 09:54.240
Vì vậy, chúng ta hãy xem xét điều đó.

09:55.050 --> 10:01.080
Chúng ta sẽ lấy V này của trạng thái tiếp theo và chúng ta sẽ cắm nó vào công thức đó ở đây.

10:01.320 --> 10:05.490
Và như bạn có thể thấy bây giờ, vì vậy phần này không thay đổi.

10:05.490 --> 10:06.990
Xác suất này không thay đổi.

10:06.990 --> 10:16.710
Nhưng như chúng ta vừa thảo luận, v của SE là cực đại của tất cả các hành động của Q trong S và A ở đây.

10:16.710 --> 10:19.110
Vì vậy, đó là những gì chúng tôi sẽ thay thế ở đây.

10:19.110 --> 10:23.640
Vì vậy, chúng ta sẽ nói tối đa, tất nhiên, là hành động mới, hành động mà chúng ta sẽ thực

10:23.640 --> 10:26.460
hiện, bởi vì ở đây chúng ta đã có V nguyên tố S.

10:26.460 --> 10:30.630
Vì vậy, ở đây bây giờ chúng tôi đã có tối đa trên tất cả các số nguyên tố.

10:30.630 --> 10:34.260
Vì vậy, các hành động mà chúng tôi sẽ thực hiện từ trạng thái này

10:34.260 --> 10:39.840
hoặc từ bất cứ đâu, bất kỳ trạng thái nào khác mà chúng tôi kết thúc, nhưng hành động mà chúng tôi sẽ thực

10:39.840 --> 10:49.470
hiện từ đó và tối đa trên tất cả những hành động đó và tối đa là tất cả Q các giá trị sẽ có sẵn cho chúng ta ở trạng thái mới đó dưới dạng dấu phẩy nguyên tố, một số

10:49.500 --> 10:50.100
nguyên tố.

10:50.100 --> 10:51.210
Và đó là hành động.

10:51.210 --> 10:54.360
Vì vậy, đó là vì vậy sẽ có bốn giá trị Q khác ở đó.

10:54.360 --> 10:56.400
Vì vậy, bây giờ như bạn có thể thấy, chúng ta hãy xem xét điều đó một lần nữa.

10:56.790 --> 11:02.880
Vì vậy, từ những gì chúng ta rút ra từ những gì chúng ta đã thảo luận chỉ thông qua logic và trực giác để chúng ta có thể

11:02.880 --> 11:09.590
thấy rằng VM thực sự là V của S và của S và một R liên kết D của S là cực đại trên tất cả các hành động của Q của điều

11:09.600 --> 11:09.860
này.

11:09.930 --> 11:13.530
Và bạn có thể thấy ngay tại đây, vì vậy cái này, phần này giống hệt với phần này.

11:14.070 --> 11:18.900
Và sau đó chúng tôi sẽ tận dụng điều đó và chúng tôi sẽ thay thế bit này bằng V.

11:18.900 --> 11:21.420
S từ đây, nhưng không phải công thức chính xác này.

11:21.420 --> 11:26.400
Chúng tôi sẽ lấy phần bên trong này và chúng tôi sẽ thay thế nó bằng Q và A, vì vậy chúng tôi

11:26.400 --> 11:27.540
sẽ cắm nó vào đây.

11:27.540 --> 11:28.890
Và phần này sẽ được.

11:28.890 --> 11:36.570
Q Trong số S số nguyên tố, một số nguyên tố, do đó số tối đa của Q bằng tất cả các số nguyên tố của Q là số nguyên tố.

11:36.810 --> 11:39.570
Và bây giờ chúng tôi có công thức của chúng tôi.

11:39.570 --> 11:43.380
Vì vậy, bây giờ chúng ta có một công thức đệ quy cho các giá trị Q.

11:43.380 --> 11:47.130
Vì vậy, bây giờ người đại diện có thể nghĩ, giá trị của hành động này là gì?

11:47.130 --> 11:48.480
Chất lượng của hành động này là gì?

11:48.480 --> 11:50.220
Giá trị Q của hành động này là gì?

11:50.220 --> 11:51.780
Vâng, nó phụ thuộc vào phần thưởng.

11:51.780 --> 11:53.940
Tôi có được một bước ngay lập tức để đạt được điều đó.

11:53.940 --> 12:02.130
Thêm vào đó, nó phụ thuộc vào thời gian của hệ số chiết khấu, mức tối đa của tất cả các hành động Q có thể có ở trạng thái đó, nhưng tôi không biết liệu

12:02.130 --> 12:04.020
mình có đạt được điều đó hay không.

12:04.020 --> 12:08.880
Vì vậy, tôi cũng cần xem xét trạng thái đó và trạng thái đó, và đó là lý do tại sao chúng ta có giá trị kỳ vọng này

12:08.880 --> 12:09.240
ở đây.

12:09.240 --> 12:13.200
Vì vậy, chúng tôi có tổng xác suất nhân với giá trị lớn nhất và đó là giá trị kỳ vọng của chúng tôi.

12:13.200 --> 12:15.420
Vì vậy, rất giống công thức như bạn có thể thấy.

12:15.420 --> 12:22.560
Nhưng lần này chúng tôi thể hiện mọi thứ thông qua các giá trị Q và đó là lý do tại sao toàn bộ thuật toán

12:22.560 --> 12:26.880
này được gọi là Q learning, bởi vì đây là những gì được xem xét.

12:26.880 --> 12:28.440
Đây là những gì các đại lý thực sự sử dụng.

12:28.440 --> 12:31.080
Họ không nhìn vào các trạng thái, họ nhìn vào các hành động có thể xảy ra của họ.

12:31.080 --> 12:35.700
Và sau đó dựa trên các hành động, vào giá trị Q của các hành động, họ sẽ quyết định hành động nào cần thực hiện.

12:35.700 --> 12:40.230
Vì vậy, họ sẽ chỉ xem xét giá trị Q lớn nhất trong trạng thái nhất định này, nó có bốn hành động.

12:40.230 --> 12:43.350
Hành động tốt nhất để thực hiện để có thể so sánh là gì?

12:43.350 --> 12:48.270
Thay vì so sánh các trạng thái khác nhau, nó có thể kết thúc bằng cách so sánh các hành động có thể

12:48.270 --> 12:49.440
có mà nó hiện có.

12:49.740 --> 12:56.010
Sau đó, bằng cách tìm ra cái tối ưu, nó sẽ thực hiện hành động đó và sau đó sẽ lặp lại quá trình đó, lặp

12:56.010 --> 12:57.300
lại quá trình đó, v.v.

12:57.300 --> 13:04.080
Vì vậy, bây giờ bạn có thể thấy tất cả những điều này kết hợp với nhau như thế nào, cách phần thưởng, hệ số chiết khấu, các

13:04.230 --> 13:10.440
quá trình quyết định ngẫu nhiên Markov và các giá trị V và giá trị Q đều kết hợp với nhau để cung cấp cho

13:10.440 --> 13:18.330
chúng ta một phương trình chuông siêu mạnh mẽ cho các giá trị Q , hiện chúng tôi có thể áp dụng và cho phép các đại lý của chúng tôi học

13:18.330 --> 13:19.680
cách đánh bại môi trường.

13:20.160 --> 13:23.250
Và đó là lời giải thích trực quan về những gì đang xảy ra.

13:23.250 --> 13:28.440
Tôi biết chúng tôi đã xem qua các công thức, nhưng điều đó là cần thiết vì đây giống như công

13:28.440 --> 13:36.720
thức của chúng tôi mà chúng tôi đã xem qua toàn bộ chương này và tôi nghĩ rằng đó là một sự chuyển đổi tốt từ V sang Q và nó minh họa cách

13:36.720 --> 13:38.370
chúng được liên kết với nhau.

13:38.490 --> 13:46.830
Và nếu bạn muốn hiểu thêm một chút về cách tiếp cận chặt chẽ, cách tiếp cận toán học và muốn bạn thấy toán học đằng sau nó và tìm hiểu

13:46.830 --> 13:52.620
thêm một chút về các giá trị Q và cách chúng hoạt động, thì chúng tôi có một số bài đọc bổ

13:52.620 --> 13:53.850
sung cho bạn .

13:54.030 --> 14:02.730
Bài báo này có tên là Các Quy trình, Khái niệm và Thuật toán Quyết định Markov của Luật Martin von Otter 2009.

14:02.730 --> 14:09.360
Vì vậy, bạn đã có liên kết ở đây như mọi khi, và ở đây bạn có thể đọc chi tiết hơn một chút để hiểu tất cả

14:09.360 --> 14:12.390
những gì khó hiểu đằng sau các giá trị hàng đợi, v.v.

14:12.390 --> 14:17.340
Và bây giờ chúng ta đã thảo luận về tất cả những điều này liên quan đến phương trình Belmont,

14:17.340 --> 14:23.880
bây giờ chúng ta đã sẵn sàng xem xét một cái gì đó phức tạp hơn, chẳng hạn như bài báo này nếu chúng ta muốn

14:23.880 --> 14:27.600
có thêm một số thông tin về điều này để loại hiểu sâu hơn.

14:27.600 --> 14:33.480
Nhưng ngay cả khi bạn chưa đọc qua bài báo này, bạn nên có kiến thức tốt về việc

14:33.480 --> 14:39.750
học là gì và cách các tác nhân đưa ra các hành động mà họ cần thực hiện trong một môi trường

14:39.750 --> 14:40.410
nhất định.

14:40.680 --> 14:43.890
Vì vậy, tôi hy vọng bạn sẽ thích hướng dẫn hôm nay và tôi mong được gặp bạn lần sau.

14:43.890 --> 14:45.720
Cho đến lúc đó, hãy tận hưởng tôi.