WEBVTT

00:01.080 --> 00:04.590
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:04.590 --> 00:07.620
Hôm nay chúng ta đang nói về sự khác biệt theo thời gian.

00:07.860 --> 00:14.280
Bây giờ, đó là một hướng dẫn rất quan trọng bởi vì sự khác biệt về thời gian là trái tim và linh hồn của thuật toán

00:14.280 --> 00:14.900
học Q.

00:14.910 --> 00:22.110
Đây thực sự là cách mọi thứ chúng ta đã học được cho đến nay cùng phát huy tác dụng trong quá trình học tập.

00:22.110 --> 00:23.340
Vì vậy, chúng ta hãy xem xét.

00:23.730 --> 00:29.100
Hãy nhớ lần chúng ta nói về tìm kiếm xác định và không xác định và nhớ cách chúng ta đã nói

00:29.100 --> 00:34.290
trong trường hợp này đó là khi người đại diện muốn đi lên, anh ta chắc chắn sẽ đi lên.

00:34.290 --> 00:37.330
Và khi trong trường hợp này anh ấy muốn đi lên, thì có 10% khả năng anh ấy sẽ đi.

00:37.440 --> 00:40.800
Chúng ta còn 10% khả năng anh ấy sẽ đi đúng và 80% khả năng anh ấy sẽ đi đúng.

00:41.340 --> 00:42.270
Đi thẳng tới.

00:42.270 --> 00:46.320
Tất nhiên, những con số này là tùy ý và có thể khác nhau.

00:46.320 --> 00:50.610
Và toàn bộ khái niệm này là nó có thể khác nhau trong các vấn đề khác nhau.

00:50.610 --> 00:55.320
Vì vậy, không cần phải quan tâm đến việc anh ta đang di chuyển theo cách nào, chỉ là có một số ngẫu

00:55.320 --> 00:59.730
nhiên, một cái gì đó nằm ngoài tầm kiểm soát của tác nhân xảy ra bên trong môi trường này.

00:59.730 --> 01:06.960
Và ảnh hưởng của nó, như bạn nhớ, là trong ví dụ xác định, rất dễ dàng để

01:06.960 --> 01:09.000
tính toán các giá trị.

01:09.000 --> 01:10.950
Chà, không nhất thiết phải luôn luôn rất dễ dàng.

01:10.950 --> 01:15.060
Nhưng trong trường hợp của chúng tôi, chúng tôi chỉ có thể đơn giản tính toán chúng bằng cách sử dụng phương trình bellman.

01:15.060 --> 01:17.070
Và chúng tôi đã có các giá trị chính xác.

01:17.070 --> 01:24.420
Và sau đó, như bạn nhớ, tôi đã đề cập rất cẩn thận rằng những giá trị này cho ví dụ

01:24.420 --> 01:27.630
tìm kiếm không xác định nằm ngoài đầu tôi.

01:27.630 --> 01:28.650
Chúng không được tính toán.

01:29.130 --> 01:33.000
Lần cuối cùng vào thời điểm đó, tôi đã nói rằng chúng tôi không phải là chúng tôi sẽ không tính toán chúng bởi vì nó rất phức tạp.

01:33.000 --> 01:39.510
Nhưng máy tính có thể làm điều đó và chúng tôi chỉ làm theo những giá trị này mà chỉ là những giá trị mà tôi đã tạo ra.

01:39.510 --> 01:41.220
Nhưng họ đã hoàn thành công việc.

01:41.220 --> 01:46.230
Họ đã giúp chúng tôi hiểu rõ các khái niệm, bây giờ chúng tôi sẽ quay lại vấn đề đó một chút và hiểu chính xác

01:46.380 --> 01:47.760
những gì đang diễn ra ở đây.

01:47.760 --> 01:55.350
Tại sao việc tính toán các giá trị này trong ví dụ không xác định hoặc nói chung là khó hơn nhiều trong các bài

01:55.350 --> 01:59.520
toán này, trong các môi trường này và tác nhân đi qua chúng?

01:59.520 --> 02:02.790
Tại sao nó là tại sao nó có thể rất khó để tính toán các giá trị?

02:02.790 --> 02:08.100
Vâng, khi bạn nghĩ về nó, bởi vì khi người đại diện di chuyển, chẳng hạn, từ đây sang phải, anh

02:08.100 --> 02:11.340
ta không nhất thiết phải luôn luôn di chuyển theo cách đó.

02:11.340 --> 02:15.930
Đôi khi có khả năng anh ấy sẽ đi đến một người thay vì đi thẳng.

02:15.930 --> 02:23.490
Vì vậy, chúng ta hãy gọi đây là đông bắc, tây nam, như vậy, v.v. Thay vì đi về phía Tây, đôi khi đặc vụ có thể đi về

02:23.490 --> 02:24.330
phía Nam.

02:24.480 --> 02:28.980
Và ví dụ, từ đây, thay vì đi về phía bắc, đôi khi anh ta có thể đi về phía đông.

02:29.220 --> 02:30.180
Rất xin lỗi.

02:30.180 --> 02:32.970
Vì vậy, ở đây thay vì đi về phía đông, đôi khi anh ta có thể đi về phía nam.

02:32.970 --> 02:36.840
Và ở đây thay vì đi về phía bắc, đôi khi anh ta có thể đi về phía đông hoặc phía tây.

02:36.840 --> 02:40.980
Và ở đây, thay vì đi về phía bắc, đôi khi anh ta có thể đi về phía tây, đông hoặc tây, v.v.

02:40.980 --> 02:42.960
Vì vậy và do đó như vậy.

02:42.960 --> 02:46.290
Để tính giá trị này, bạn cần biết giá trị này là gì.

02:46.470 --> 02:50.490
Nhưng điều thú vị là để tính được giá trị này, bạn cần biết giá trị này là bao

02:50.490 --> 02:50.880
nhiêu.

02:50.880 --> 02:57.240
Vì vậy, có rất nhiều đệ quy xảy ra ở đây và do đó bạn không thể chỉ xác định những giá trị này là gì.

02:57.240 --> 03:01.080
Và trên hết, đệ quy này không xác định.

03:01.080 --> 03:02.910
Đôi khi nó xảy ra theo cách này.

03:02.910 --> 03:04.890
Đôi khi thay vì đi lên, anh ta sẽ đi đúng.

03:04.890 --> 03:07.080
Đôi khi thay vì đi lên, anh ta sẽ đi sang trái.

03:07.080 --> 03:10.290
Đôi khi chính là lúc anh ấy muốn đi lên, anh ấy sẽ đi lên.

03:10.290 --> 03:12.780
Vì vậy, nó là tùy thuộc vào cơ hội.

03:12.780 --> 03:17.850
Và vì vậy có thể nhiều lần đặc vụ sẽ đi qua con đường này và anh ta sẽ đi lên, đi lên, đi lên, đi lên.

03:17.850 --> 03:20.730
Và anh ấy sẽ nghĩ rằng từ đây anh ấy luôn đi lên.

03:20.730 --> 03:24.660
Và do đó, giá trị của trạng thái sẽ đi, sẽ tốt, và rồi đột nhiên anh ta

03:24.660 --> 03:27.210
sẽ tụt xuống vực và giá trị này sẽ giảm xuống.

03:27.300 --> 03:33.390
Và do đó, bạn có thể thấy làm thế nào có một số ngẫu nhiên hoặc ngẫu nhiên đối với toàn bộ phép tính của các giá trị này bởi vì

03:33.390 --> 03:35.160
tất cả chúng đều được liên kết với nhau.

03:35.160 --> 03:40.830
Hơn nữa, trên hết, bạn có được sự ngẫu nhiên đó trong môi trường vốn có vì đây là một dấu ấn của

03:40.830 --> 03:41.880
quá trình quyết định.

03:42.330 --> 03:47.640
Vì vậy, đó là nơi tất cả những điều này kết hợp lại với nhau và đó là nơi chúng tôi sẽ giới thiệu khái

03:47.640 --> 03:52.230
niệm về sự khác biệt theo thời gian, điều này sẽ cho phép tác nhân tính toán các giá trị này.

03:52.230 --> 03:57.540
Và ở đây chúng tôi đã xử lý các giá trị V, và kể từ đó chúng tôi đã chuyển sang các giá trị Q.

03:57.540 --> 03:59.310
Vì vậy, đó là những gì chúng tôi sẽ làm việc với.

03:59.310 --> 04:00.840
Chúng tôi sẽ xem xét.

04:00.840 --> 04:01.710
Giá trị Q.

04:01.710 --> 04:05.910
Vì vậy, như bạn nhớ lại, đây là phương trình Belmont của chúng tôi cho các giá trị Q.

04:05.910 --> 04:14.940
Vì vậy, giá trị Q hoặc giá trị của việc thực hiện một hành động nhất định ở trạng thái A bằng với phần thưởng mà bạn nhận được

04:14.940 --> 04:17.190
sau khi thực hiện hành động đó.

04:17.190 --> 04:25.350
Vì vậy, ngay sau khi thực hiện hành động đó, cộng với việc bạn đạt được mức tối đa, bạn sẽ nhận được gamma của tổng tất cả các

04:25.350 --> 04:26.580
giá trị có thể.

04:26.850 --> 04:31.170
Vì vậy, bạn sẽ nhận được giá trị kỳ vọng của trạng thái mà bạn sẽ đạt được.

04:31.590 --> 04:34.680
Vì vậy, như bạn nhớ lại, đó là công thức của chúng tôi cho phương trình xây dựng.

04:35.070 --> 04:41.580
Và bây giờ, chỉ vì mục đích đơn giản, chúng ta sẽ viết lại nó theo cách cổ điển, theo cách mà chúng ta đã

04:41.580 --> 04:45.760
từng nói về phương trình Belmont trước khi chúng ta biết về thành phố ngẫu nhiên.

04:45.780 --> 04:52.590
Vì vậy, như bạn nhớ, đây là phương trình Belmont của chúng tôi theo nghĩa của một ví dụ tìm kiếm xác định, bởi vì ở đây

04:52.590 --> 04:57.480
bạn không có giá trị mong đợi đó, bạn không có tổng của tất cả các xác suất.

04:57.480 --> 05:00.390
Bạn chỉ có điều đó như thể nó được xác định ở đâu.

05:00.530 --> 05:02.960
Bạn sẽ kết thúc trạng thái nào?

05:02.960 --> 05:05.270
Và sau đó bạn đang lấy giá trị tối đa ở một trạng thái đó.

05:05.270 --> 05:12.140
Và lý do chúng tôi viết lại nó đơn giản là lý do duy nhất là vì viết nó dễ hơn và chúng tôi

05:12.140 --> 05:14.510
sẽ dễ dàng thuộc công thức hơn.

05:14.510 --> 05:21.560
Vì vậy, chúng tôi sẽ chỉ nhớ rằng chúng tôi đã thay thế phần này bằng phần này và bạn cũng sẽ tìm thấy ký hiệu

05:21.560 --> 05:27.290
này trong rất nhiều tài liệu, vì vậy bạn sẽ dễ dàng theo dõi các nguồn khác nếu bạn đang học

05:27.290 --> 05:28.160
những thứ kia.

05:28.160 --> 05:33.530
Nhưng hãy nhớ rằng trên thực tế, ý của chúng tôi là cách tiếp cận theo xác suất ở đây.

05:33.530 --> 05:39.200
Thay vì ký hiệu này, chúng tôi sẽ dễ dàng hơn để vận hành điều này và hiểu những gì đang xảy ra và

05:39.200 --> 05:42.410
giống như nhìn vào các phương trình để chúng không quá lộn xộn.

05:42.620 --> 05:47.390
Nhưng một lần nữa, hãy nhớ rằng, trên thực tế, ý của chúng tôi là cách tiếp cận theo xác suất ở đây.

05:48.080 --> 05:50.060
Và vì vậy chúng tôi thực sự gần hoàn thành.

05:50.060 --> 05:52.040
Vì vậy, chúng ta hãy nhìn vào những gì đang xảy ra.

05:52.040 --> 05:56.360
Vì vậy, đây là trạng thái trống của chúng ta về mê cung.

05:56.360 --> 05:58.100
Chúng tôi không có bất kỳ giá trị gợi ý nào.

05:58.100 --> 05:58.880
Hãy xem nào.

05:58.880 --> 06:01.610
Hoặc chúng ta có thể, nhưng chúng ta hãy để trống cho đến bây giờ.

06:01.610 --> 06:04.310
Hãy chỉ nhìn vào một trong các trạng thái.

06:04.310 --> 06:06.620
Vì vậy, một trong những ô, đặc biệt là ô này.

06:07.640 --> 06:14.240
Và ở đây, chúng ta có, ví dụ, đối với hành động đi lên, chúng ta có một giá trị Q mà chúng ta đã tính toán.

06:14.240 --> 06:16.910
Vì vậy, không phải là chúng ta chưa có bất kỳ giá trị Q nào.

06:16.910 --> 06:19.850
Chúng tôi có, chúng tôi làm, nhưng chúng tôi không minh họa bất cứ điều gì.

06:19.850 --> 06:22.400
Chúng tôi chỉ để trống vì mục đích đơn giản.

06:22.400 --> 06:25.490
Nhưng chúng ta có một thời đại đã quay quanh một thời gian.

06:25.490 --> 06:33.830
Và giả sử, bằng cách nào đó, anh ta đã tính toán giá trị Q này là đi lên hoặc

06:33.830 --> 06:41.870
về phía bắc từ trạng thái này, từ ô cụ thể này, và giá trị là Q As

06:41.870 --> 06:42.990
và A.

06:43.010 --> 06:48.440
Đặc vụ đang ngồi trong phòng giam này và bây giờ anh ta cần phải lựa chọn xem anh ta sẽ đi đâu?

06:48.440 --> 06:55.910
Và anh ấy biết giá trị của điều này, của hành động đi lên phía bắc, và đó là Q, S và A và ở đây tôi đang nói trước đây và lý

06:55.910 --> 07:00.140
do cho điều đó là vì anh ấy đã có trước khi anh ấy thực hiện hành động.

07:00.140 --> 07:01.520
Anh ấy vẫn chưa thực hiện hành động nào.

07:01.520 --> 07:02.990
Vì vậy, anh ấy vẫn ở trong phòng giam.

07:03.170 --> 07:11.270
Và trước khi anh ta thực hiện hành động, giá trị ở đây là Q và S và bây giờ anh ta thực sự thực hiện hành động.

07:11.270 --> 07:13.580
Vì vậy, hãy nói rằng anh ấy quyết định điều này là tốt nhất.

07:13.580 --> 07:16.280
Anh ta thực hiện hành động và anh ta di chuyển đến phòng giam này.

07:16.460 --> 07:23.930
Vâng, bây giờ những gì xảy ra bây giờ đến sau vì vậy sau khi anh ta hành động, chúng ta có thể đo giá trị này là bao

07:23.930 --> 07:24.290
nhiêu?

07:24.290 --> 07:30.470
Hãy chỉ tính toán giá trị này, giá trị phần thưởng cho việc thực hiện hành động đó, cộng với gamma lần, mức

07:30.470 --> 07:35.180
tối đa của trạng thái mới này mà anh ta vừa đạt được là nguyên tố.

07:35.390 --> 07:38.480
Và do đó, mức tối đa trên tất cả các hành động có thể có trong tương lai.

07:38.840 --> 07:47.120
Và những gì chúng ta có ở đây là giá trị trước khi thực hiện hành động đó và sau đó chúng ta đã tính toán chỉ số này

07:47.120 --> 07:53.330
sau đó, nhưng như bạn có thể nhớ lại từ công thức trước đó, vì vậy nếu chúng ta quay lại

07:53.330 --> 07:58.790
rất nhanh từ công thức trước đó, những gì chúng ta vừa tính thực sự là giá trị.

07:58.790 --> 08:01.520
Đó là cách tính Q của SNR.

08:02.000 --> 08:09.470
Vì vậy, phần bên phải này, chúng tôi chỉ tính toán nó một cách riêng biệt, nhưng sau khi chúng tôi thực hiện hành động như vậy một lần nữa trước khi chúng tôi biết

08:09.470 --> 08:15.410
Q của một S và một giá trị, một cái gì đó mà chúng tôi đã tính toán qua các lần lặp lại của chúng tôi trước

08:15.410 --> 08:15.770
đây.

08:15.770 --> 08:19.940
Vì vậy, một cái gì đó rất là một giá trị được lưu trữ trong bộ nhớ của chúng ta.

08:19.940 --> 08:21.830
Vì vậy, giống như một số mà chúng ta biết.

08:21.890 --> 08:29.060
Và bây giờ sau khi các hành động được thực hiện, chúng tôi biết anh ta thực sự nhận được phần thưởng nào, phần thưởng nào mà đặc

08:29.060 --> 08:33.260
vụ thực sự nhận được và chúng tôi có thể tính toán giá trị mới này.

08:33.260 --> 08:36.860
Vì vậy, về bản chất, chúng tôi đang tính toán lại giá trị này.

08:36.860 --> 08:42.800
Nhưng bây giờ với thông tin mới, thông tin mới là phần thưởng mà chúng tôi nhận được và cộng với trạng thái

08:42.800 --> 08:49.910
mà chúng tôi đã kết thúc và mức tối đa trong trạng thái đó, giá trị mới này là gì cho trạng thái cụ thể mà chúng tôi đang

08:49.910 --> 08:50.510
xem xét.

08:50.510 --> 08:54.470
Vậy giá trị của bản thể đó ở trạng thái đó là gì.

08:54.470 --> 09:02.750
Vì vậy, về cơ bản Q của S và A nhưng được cung cấp thông tin mới và bây giờ sự khác biệt theo thời gian được định nghĩa là

09:03.260 --> 09:07.640
TD của A và của hai trong số sự khác biệt giữa hai điều này.

09:07.640 --> 09:11.540
Vì vậy, ở đây yếu tố đầu tiên là giá trị sau của bạn.

09:11.540 --> 09:18.680
Vì vậy, loại giống như Q của S và A, nhưng tính nó sau đó và Q trước đó của một bài luận và A

09:18.710 --> 09:21.530
mà bạn đã lưu trong bộ nhớ của mình.

09:21.920 --> 09:24.050
Và câu hỏi đặt ra là chúng có khác nhau không?

09:24.050 --> 09:26.030
Vì vậy, lý tưởng nhất là chúng phải giống nhau.

09:26.030 --> 09:31.610
Lý tưởng nhất là điều này phải giống như điều này đơn giản vì đây là công thức để tính toán điều này.

09:31.610 --> 09:34.970
Nhưng có điều đây không phải là thứ mà chúng tôi đã tính toán.

09:34.970 --> 09:39.770
Đây là thứ mà chúng ta có được từ bằng chứng thực nghiệm, thứ mà chúng ta có được từ việc đi qua

09:39.770 --> 09:41.240
mê cung nhiều lần và tính toán.

09:41.240 --> 09:43.940
Vì vậy, đây là một cái gì đó chúng tôi đã đưa ra cho đến nay.

09:44.240 --> 09:46.760
Nó không liên quan đến lần lặp hiện tại.

09:46.760 --> 09:51.080
Đó là thứ mà chúng tôi đã nghĩ ra trước đây rất lâu, không lâu trước đây, nhưng trong một trong những

09:51.080 --> 09:56.270
lần lặp lại trước đây của chúng tôi đi qua mê cung, trong khi đây là thứ chúng tôi đã tính toán ngay bây giờ và

09:56.270 --> 09:58.340
không có gì đảm bảo rằng chúng sẽ giống nhau.

09:59.340 --> 10:05.970
Bởi vì sự ngẫu nhiên tồn tại trong mê cung, bởi vì điều này có thể đã được tính toán và một số sự kiện ngẫu nhiên nhất định đã

10:05.970 --> 10:08.700
được kích hoạt và điều này có thể được tính toán.

10:08.700 --> 10:11.040
Các sự kiện ngẫu nhiên khác nhau đã được kích hoạt.

10:11.490 --> 10:13.980
Và vì vậy bây giờ chúng ta hãy viết lại điều đó ở đây.

10:14.010 --> 10:15.240
Hãy chuyển nó lên đó.

10:15.540 --> 10:16.790
Vậy chúng ta sử dụng cái này như thế nào?

10:16.800 --> 10:19.920
Câu hỏi là, được rồi, vì vậy chúng ta có sự khác biệt về thời gian này.

10:20.280 --> 10:23.340
Làm thế nào để chúng ta sử dụng điều này và tại sao nó được gọi là sự khác biệt theo thời gian?

10:23.370 --> 10:28.620
Chà, lý do nó được gọi là chênh lệch thời gian là vì về cơ bản bạn đang tính toán giống

10:28.620 --> 10:28.920
nhau.

10:28.920 --> 10:35.460
Bạn đang tính Q của S và vì vậy giá trị Q của hành động đó, bạn đang tính ở đây và bạn đang tính

10:35.460 --> 10:36.090
ở đây.

10:36.090 --> 10:38.110
Nhưng sự khác biệt là thời gian.

10:38.130 --> 10:41.580
Đây là Q của bạn về SNA trước đây.

10:41.580 --> 10:48.990
Đây là Q của S và A của bạn bây giờ là Q của A mới của bạn và câu hỏi là nó đã có sự khác biệt?

10:48.990 --> 10:51.270
Có sự thay đổi giữa chúng trong thời gian không?

10:51.810 --> 10:56.760
Và làm thế nào chúng ta có thể sử dụng điều này để có lợi cho mình nếu thực sự có sự thay đổi về thời gian?

10:56.760 --> 11:03.510
Chà, một điều chúng ta có thể làm là chúng ta có thể nói, được rồi, bạn biết đấy, Q trong A của chúng ta không phải giá trị mới này

11:03.510 --> 11:04.740
không bằng giá trị cũ.

11:04.740 --> 11:09.510
Vì vậy, chúng ta sẽ loại bỏ cái cũ, chúng ta sẽ quên đi cái cũ và chúng ta sẽ chỉ sử dụng giá trị này như một giá trị mới.

11:09.750 --> 11:11.820
Nhưng điều đó sẽ không thông minh.

11:11.820 --> 11:17.790
Và lý do cho điều đó là trong môi trường của chúng ta, các sự kiện ngẫu nhiên đôi khi có thể xảy ra.

11:17.790 --> 11:26.610
Và điều gì sẽ xảy ra nếu Q và A cũ của chúng ta là điều gì đó xảy ra liên tục như 80% thời gian và sau đó tương tự được thể hiện bằng

11:26.610 --> 11:28.620
điều gì xảy ra 80% thời gian?

11:28.620 --> 11:32.580
Và sau đó là cái mới này, chỉ là những gì đã xảy ra do ngẫu nhiên.

11:33.150 --> 11:39.600
Trong trường hợp đó, chúng tôi sẽ loại bỏ một thứ chịu trách nhiệm cho phần lớn tình huống.

11:39.600 --> 11:43.610
Và chúng tôi sẽ thay thế nó bằng một thứ chỉ xảy ra 10 hoặc 20% thời gian.

11:43.620 --> 11:46.920
Đó không phải là cách tốt nhất để đi.

11:46.920 --> 11:51.810
Và đó chính là lý do tại sao chúng tôi không muốn thay đổi hoàn toàn giá trị Q của mình.

11:51.810 --> 11:56.700
Chúng tôi muốn sử dụng như thay đổi từng bước một, từng chút một.

11:56.700 --> 12:00.720
Và đó là lý do tại sao chúng ta sẽ sử dụng sự khác biệt thời gian này theo một cách cụ thể.

12:00.720 --> 12:06.480
Vì vậy, chúng tôi sẽ nói, đây là một công thức mà chúng tôi sẽ sử dụng Q của và A và chúng tôi sẽ cập nhật nó theo cách

12:06.480 --> 12:07.020
như vậy.

12:07.020 --> 12:13.110
Chúng tôi sẽ lấy giá trị cũ của Krsna và chúng tôi sẽ thêm thời gian alpha của sự khác biệt theo thời gian.

12:13.110 --> 12:15.570
Vì vậy, Alpha sẽ là tỷ lệ học tập của chúng tôi.

12:15.570 --> 12:17.340
Đó là một thông số mới mà chúng tôi đang giới thiệu.

12:17.340 --> 12:19.590
Đó là cách học thuật toán nhanh chóng.

12:19.860 --> 12:26.230
Vì vậy, về cơ bản chúng tôi đang lấy sự khác biệt này và bất kể nó là gì, chúng tôi sẽ thêm nó vào Thứ Tư của Q trước đó

12:26.250 --> 12:26.940
của chúng tôi.

12:26.970 --> 12:31.680
Bây giờ, công thức này có thể không có ý nghĩa gì hoặc chỉ cần nhìn qua, nó không có ý nghĩa gì vì bạn đã có

12:31.680 --> 12:33.990
Q thứ tư ở đây và Q của S và A ở đây.

12:33.990 --> 12:36.780
Nó giống nhau, nên có lẽ nên phủ định lẫn nhau.

12:36.780 --> 12:39.900
Nhưng chúng tôi sẽ viết lại điều này theo một cách khác.

12:40.170 --> 12:41.520
Vì vậy, tôi sẽ chỉ cho bạn một lần nữa.

12:41.520 --> 12:44.070
Vì vậy, tôi chỉ thêm thời gian cho các công thức này.

12:44.070 --> 12:51.000
Vì vậy, đây là Q T trừ đi một, trước đây là Q, T trừ đi một trước, đây là mới.

12:51.030 --> 12:53.010
Cần có một vòng tròn ở đây, một vòng tròn ở đây cũng vậy.

12:53.010 --> 12:53.940
Nhưng đừng bận tâm.

12:53.940 --> 12:58.470
Và ở đây chúng ta có sự khác biệt theo thời gian alpha, sự khác biệt mới về thời gian hiện tại.

12:58.470 --> 13:00.330
Vì vậy, bạn có thể thấy những gì chúng tôi đang làm.

13:00.330 --> 13:07.770
Chúng ta đang nói, được rồi, hãy lấy Q hiện tại của chúng ta sẽ bằng Q trước đó của chúng ta cộng với bất kỳ

13:07.770 --> 13:15.480
sự khác biệt theo thời gian nào mà chúng ta tìm thấy lần alpha, công thức ở đây là trái tim và linh hồn của thuật toán

13:15.480 --> 13:16.080
học Q.

13:16.080 --> 13:21.780
Đây là cách các giá trị Q được cập nhật và thật tốt khi chúng ta đã biết giá trị Q là gì, Gamma

13:21.780 --> 13:24.960
là gì, R là gì và tất cả những thứ này là gì.

13:25.200 --> 13:30.180
Và bây giờ tất cả những gì chúng ta cần thấy là bạn có giá trị Q trước đó.

13:30.270 --> 13:31.560
Vâng, điều đó tốt.

13:31.680 --> 13:37.830
Và sau đó điều có thể xảy ra là khi bạn thực hiện hành động khi bạn thực sự hành động, khi đặc vụ hành động, anh ta

13:37.830 --> 13:42.360
sẽ biết anh ta sẽ nhận được phần thưởng và cuối cùng anh ta sẽ ở trong một trạng thái.

13:42.360 --> 13:45.840
Và như vậy dựa vào đó anh ta có thể tính toán được.

13:45.930 --> 13:46.230
Aha.

13:46.350 --> 13:52.980
Được rồi, vậy giá trị Q của nước đi mà tôi đã thực hiện là gì.

13:53.250 --> 13:56.250
Và bây giờ đó là phần này của phương trình.

13:56.250 --> 14:02.850
Trừ đi giá trị Q cũ sẽ nhận được chênh lệch thời gian của bạn và bây giờ bạn cần lấy chênh lệch thời gian theo thời

14:02.850 --> 14:03.600
gian alpha.

14:03.810 --> 14:05.760
Và đó là cách bạn sẽ điều chỉnh giá trị Q của mình.

14:05.760 --> 14:07.590
Đó là những gì bạn sẽ điều chỉnh giá trị Q của mình.

14:08.010 --> 14:12.750
Và bây giờ chỉ để kết thúc điều này, đại loại như thế này là đủ để hiểu chuyện gì đang xảy ra,

14:12.750 --> 14:18.780
nhưng chỉ để làm rõ mọi thứ hơn nữa hoặc có thể làm mọi thứ rối hơn nữa, những gì chúng ta sẽ làm là chúng ta sẽ thực hiện

14:18.780 --> 14:22.500
sự khác biệt về thời gian này hoặc sự khác biệt về thời gian này ở đây.

14:22.530 --> 14:24.120
Chúng tôi sẽ gắn nó vào công thức này.

14:24.120 --> 14:29.760
Vì vậy, chúng tôi sẽ lấy tất cả phần này và gắn nó vào công thức này và kết thúc với một phương trình lớn.

14:29.760 --> 14:31.470
Vì vậy, chúng ta bắt đầu.

14:31.470 --> 14:32.520
Có phương trình của chúng tôi.

14:32.520 --> 14:38.370
Vì vậy, đây là phương trình đầy đủ với sự khác biệt thời gian được viết ra hoàn toàn.

14:38.370 --> 14:43.500
Và lý do tôi viết ra điều này là, trước hết, bạn có thể sẽ tìm thấy điều này trong các tài

14:43.500 --> 14:45.180
liệu khác nếu bạn nghiên cứu nó.

14:45.510 --> 14:48.510
Và điều thứ hai là nó làm cho một số thứ phức tạp hơn một chút.

14:48.510 --> 14:52.050
Anh ấy có các công thức dài hơn, nhưng cũng làm cho một số điều rõ ràng hơn một chút.

14:52.050 --> 14:55.860
Ví dụ, bạn có thể thấy ở đây vai trò của alpha.

14:55.860 --> 14:58.500
Bạn có thể thấy nó tốt hơn bởi vì bạn hãy nhìn vào điều này ở đây.

14:58.850 --> 15:00.470
Q T trừ một.

15:00.470 --> 15:01.250
Và bạn đây.

15:01.370 --> 15:03.470
Q T trừ một bằng dấu âm.

15:03.470 --> 15:12.110
Vì vậy, nếu bạn cắm alpha bằng một, nếu bạn đặt một cái ở đây, thì điều này sẽ phủ định với điều này.

15:12.110 --> 15:13.550
Vì vậy, chúng sẽ tiêu diệt lẫn nhau.

15:13.550 --> 15:15.920
Và tất cả những gì bạn còn lại là phần này.

15:16.190 --> 15:22.760
Và điều đó có nghĩa là chính xác tình huống mà chúng tôi đã nói, được rồi, vì vậy chúng tôi đã có một giá trị mới,

15:22.760 --> 15:24.650
mà lẽ ra nó phải như vậy.

15:24.650 --> 15:29.380
Hãy cập nhật giá trị Q của chúng ta với giá trị mới và quên đi những gì chúng ta đã có trước đó.

15:29.390 --> 15:34.940
Và như chúng ta đã thảo luận, đó không phải là cách tiếp cận tốt nhất vì có những sự kiện ngẫu nhiên ở đây và chúng

15:34.940 --> 15:36.740
tôi muốn cập nhật mọi thứ từng bước.

15:37.340 --> 15:43.250
Và mặt khác, nếu bạn đặt Alpha bằng 0, điều xảy ra sau đó là bạn hoàn toàn quên mất toàn

15:43.250 --> 15:48.890
bộ phần này và q t của bạn cho phần mới hoặc phần hiện tại sẽ luôn bằng phần

15:48.890 --> 15:49.430
trước.

15:49.430 --> 15:51.440
Vì vậy, bạn sẽ không học được bất cứ điều gì.

15:51.440 --> 15:57.020
Và điều đó có nghĩa là bất cứ điều gì đang xảy ra trong mê cung đều không quan trọng bởi vì bạn đã quyết định giá trị

15:57.020 --> 15:58.820
của mình từ lâu và bạn sẽ giữ nó.

15:59.150 --> 16:01.670
Vì vậy, đó là lý do tại sao Alpha không nên bằng 0 hoặc không nên là một.

16:01.820 --> 16:03.140
Nó phải ở đâu đó ở giữa.

16:03.140 --> 16:08.920
Và nó sẽ cho phép bạn học từ từ, từng bước sẽ cho phép bạn, như của bạn hoặc người đại diện khi nó

16:08.930 --> 16:12.680
đi qua mê cung, sẽ có được sự khác biệt theo thời gian này.

16:12.680 --> 16:17.120
Và từ từ nhưng chắc chắn giá trị này sẽ được cập nhật và cập nhật.

16:17.120 --> 16:17.720
Đã cập nhật.

16:17.720 --> 16:25.400
Và điều gì sẽ xảy ra cuối cùng là đến một lúc nào đó, hy vọng thuật toán sẽ hội tụ.

16:25.400 --> 16:30.890
Và điều đó có nghĩa là sự khác biệt theo thời gian này sẽ bắt đầu ngày càng trở nên gần hơn

16:30.890 --> 16:35.300
với 0 và cuối cùng chỉ là, tốt, rất gần với 0 hoặc thậm chí là 0000.

16:35.300 --> 16:43.490
Và điều đó có nghĩa là mỗi khi giá trị mới của bạn hoặc giá trị mới được tính toán của bạn, giá trị lẽ ra không phải là

16:43.490 --> 16:47.720
giá trị này, mà giá trị giả định phải có sau khi bạn thực hiện

16:47.720 --> 16:50.930
bước này sẽ chỉ bằng giá trị trước đó của bạn.

16:50.930 --> 16:52.280
Và sau đó một và sau đó là số không.

16:52.280 --> 16:57.950
Và điều đó có nghĩa là khi chênh lệch thời gian của bạn bằng 0, điều đó có nghĩa là thuật toán của bạn

16:57.950 --> 17:04.730
đã hội tụ và không thực sự cần thiết phải tiếp tục cập nhật những gì đang xảy ra, không nhất thiết phải tiếp tục cập nhật các giá

17:04.730 --> 17:05.720
trị Q của bạn.

17:06.110 --> 17:11.990
Lưu ý ở đây là lần duy nhất bạn có lẽ là một trong những lần duy nhất bạn vẫn

17:11.990 --> 17:19.070
muốn tiếp tục thực hiện việc cập nhật toàn bộ giá trị hàng đợi của mình nếu môi trường liên tục thay đổi, nếu không

17:19.070 --> 17:24.500
phải nó chỉ có một số ngẫu nhiên ngẫu nhiên. các sự kiện trong đó, nhưng bản thân môi

17:24.500 --> 17:28.610
trường đang sửa đổi, đang biến đổi, đang thay đổi theo thời gian.

17:28.880 --> 17:34.190
Vì vậy, bạn liên tục cần phải học hỏi bởi vì bạn không thể tìm hiểu tất cả mọi thứ và đưa

17:34.190 --> 17:38.930
ra chính sách tối ưu bởi vì chính sách tối ưu cũng luôn thay đổi theo môi trường.

17:38.930 --> 17:43.790
Trong trường hợp đó, bạn sẽ cần tiếp tục tính toán chênh lệch thời gian và tính các giá trị Q.

17:44.570 --> 17:46.760
Nhưng ngoài ra, điều đó giống như một sự phức tạp thêm.

17:46.760 --> 17:49.310
Ngoài ra, đây là cách các giá trị Q được cập nhật.

17:49.310 --> 17:56.180
Vì vậy, đây là công thức chính của thuật toán học Q, và đây giống như phiên bản mở rộng của thuật toán đó.

17:56.180 --> 18:02.120
Và bây giờ tất cả sẽ kết hợp lại với nhau và có ý nghĩa tại sao chúng ta có phương trình bellman và

18:02.120 --> 18:10.400
không chỉ những gì nó đại diện, các giá trị Q, mà còn cả cách tác nhân cập nhật các giá trị Q của nó và tìm ra chính xác những gì đang

18:10.400 --> 18:14.090
diễn ra trong môi trường đó. có thể đưa ra chính sách tối ưu.

18:14.390 --> 18:20.540
Vì vậy, tôi biết điều này là khá nhiều thứ để tiếp thu, nhưng hy vọng bạn thích hướng dẫn hôm nay và hy vọng

18:20.540 --> 18:25.790
bạn có thể loại bỏ các khái niệm cơ bản và trực giác đằng sau các giá trị cốt lõi.

18:25.790 --> 18:33.440
Và toàn bộ khái niệm về sự khác biệt theo thời gian là gì và tại sao nó lại quan trọng, tại sao nó lại giúp chúng tôi từ từ đào

18:33.440 --> 18:38.750
tạo các đại lý của mình và khiến họ hiểu được môi trường của họ mà họ đang hoạt động.

18:39.020 --> 18:45.470
Và nếu bạn muốn tìm hiểu thêm một chút về sự khác biệt theo thời gian, thì một bài báo rất phổ biến là học dự đoán

18:45.470 --> 18:48.320
bằng các phương pháp của sự khác biệt theo thời gian.

18:48.320 --> 18:52.220
Của Richard Sutton năm 1988.

18:52.490 --> 18:56.330
Chúng tôi cũng đã có tài liệu tham khảo của Richard Sutton, nhưng đây là một tài liệu tham khảo khác.

18:56.330 --> 18:57.470
Và thực ra anh ấy có một cuốn sách.

18:57.470 --> 19:04.760
Vì vậy, nếu bạn hiểu phong cách viết và phong cách giao tiếp của anh ấy, thì hãy xem cuốn sách của anh ấy cũng giống

19:04.760 --> 19:08.570
như một phiên bản mở rộng hơn của tất cả những điều này.

19:08.570 --> 19:11.480
Tôi chưa đọc cuốn sách, nhưng đó là những gì tôi đang tưởng tượng.

19:11.630 --> 19:17.840
Đồng thời, đây là liên kết đến bài báo và bạn có thể tìm hiểu thêm một chút về hoặc có thể

19:17.840 --> 19:20.810
nhiều hơn về sự khác biệt thời gian ở đó.

19:21.050 --> 19:24.140
Và tôi hy vọng bạn thích hướng dẫn hôm nay và mong được gặp bạn lần sau.

19:24.140 --> 19:26.360
Cho đến lúc đó, hãy tận hưởng tôi.