WEBVTT

00:00.510 --> 00:03.280
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:03.300 --> 00:08.640
Trong hướng dẫn hôm nay, chúng ta sẽ đề cập đến một hướng dẫn khá phức tạp có tên là Truy tìm tính đủ

00:08.640 --> 00:10.440
điều kiện hoặc và học bước Q.

00:10.440 --> 00:14.490
Và đây là một cái gì đó mà chúng tôi sẽ thực hiện trong khía cạnh thực tế của mọi thứ.

00:14.490 --> 00:15.870
Vì vậy, đó là lý do tại sao chúng ta cần phải che nó đi.

00:15.870 --> 00:18.390
Và đồng thời nó là một chủ đề khá phức tạp.

00:18.390 --> 00:24.840
Vì vậy, tôi có một cách tiếp cận rất thú vị để giúp chúng ta bắt kịp tốc độ với trực giác đằng sau nó.

00:24.840 --> 00:28.230
Vì vậy, tôi thích một cách tiếp cận khác với chúng tôi đã từng làm.

00:28.230 --> 00:30.480
Vì vậy, chúng ta hãy nhìn vào đó và xem nó diễn ra như thế nào.

00:30.480 --> 00:33.950
Vì vậy, tôi sẽ cung cấp cho bạn một ví dụ để bắt đầu.

00:34.140 --> 00:39.720
Tôi sẽ cung cấp cho bạn một ví dụ trong hướng dẫn này và điều đó sẽ chứng minh sức mạnh của sự lựa chọn đủ điều kiện

00:39.720 --> 00:42.240
và cung cấp cho chúng ta trực giác đằng sau mọi thứ.

00:42.240 --> 00:47.700
Và sau đó, nếu bạn muốn nghiên cứu sâu hơn về các đặc điểm đủ điều kiện, tôi sẽ cung cấp cho bạn nơi tốt nhất để bạn

00:47.700 --> 00:48.750
có thể đọc về nó.

00:49.230 --> 00:52.440
Tôi sẽ cung cấp cho bạn tài liệu tham khảo về một cuốn sách, nhưng nếu không.

00:52.440 --> 00:54.690
Vì vậy, tại sao điều này sẽ khác là bởi vì chúng tôi sẽ đi trước.

00:54.990 --> 00:59.610
Thay vì đi sâu vào trực giác, chúng ta sẽ xem xét một ví dụ và trực giác sẽ trở nên hiển

00:59.610 --> 01:01.530
nhiên sau khi chúng ta nói về nó.

01:01.530 --> 01:03.090
Và đó là hy vọng của tôi cho hướng dẫn này.

01:03.090 --> 01:03.780
Vì vậy, chúng ta hãy xem xét.

01:03.780 --> 01:05.760
Hãy xem, chúng ta hãy xem liệu chúng ta có thể làm được điều này không nhé.

01:05.760 --> 01:12.720
Vì vậy, ở đây chúng ta có hai đặc vụ và họ đang điều hướng trong cùng một môi trường và chúng ta sẽ xem hai đặc vụ này hoạt động

01:12.720 --> 01:13.570
như thế nào.

01:13.680 --> 01:16.020
Điều đầu tiên sẽ làm việc với các khay đủ điều kiện của chúng tôi.

01:16.030 --> 01:22.170
Cái thứ hai sẽ làm việc với dấu vết đủ điều kiện và hy vọng chúng ta sẽ thấy lý do tại sao cái thứ hai

01:22.170 --> 01:24.360
sẽ mạnh hơn nhiều so với cái thứ nhất.

01:24.360 --> 01:26.040
Vì vậy, chúng ta hãy xem xét.

01:26.070 --> 01:27.900
Chúng ta sẽ xem xét đại lý này trước.

01:27.990 --> 01:33.900
Và cách anh ấy vận hành là cách chính xác mà chúng ta đã thảo luận về học sâu cho đến nay.

01:34.320 --> 01:40.110
Vì vậy, tác nhân sẽ thực hiện một bước hoặc sẽ di chuyển, thực hiện một hành động, chuyển sang một trạng thái mới.

01:40.110 --> 01:41.610
Nó sẽ nhận được một phần thưởng nhất định.

01:41.610 --> 01:47.280
Nó sẽ đưa phần thưởng đó thông qua thuật toán của nó, cập nhật mạng nơ-ron đang chạy tác nhân này

01:47.280 --> 01:50.460
hoặc tác nhân đang chạy trong tâm trí tác nhân này.

01:50.460 --> 01:54.810
Vì vậy, về cơ bản đó là cách nó học hỏi từ môi trường sẽ có một bước tiến mới.

01:54.810 --> 01:59.400
Vì vậy, từ trạng thái mới này, nó sẽ thực hiện một hành động mới dựa trên những gì mạng lưới thần kinh của

01:59.400 --> 02:03.630
nó đang yêu cầu nó làm, sẽ nhận được phần thưởng, sẽ cập nhật, v.v. và sẽ tiếp tục làm điều đó.

02:03.720 --> 02:08.910
Vì vậy, rõ ràng tác nhân này sẽ làm khá tốt công việc và như chúng ta đã thấy trước đây từ các hướng dẫn

02:08.910 --> 02:13.950
về điểm thực hành trước đó, chúng ta sẽ nhận được một số kết quả khá tốt ở đây, nhưng bây giờ chúng ta

02:13.950 --> 02:15.270
sẽ thêm một tính năng mới.

02:15.270 --> 02:22.110
Bây giờ, đặc vụ số hai này, anh chàng này ở đây, anh ta sẽ điều hướng trong cùng một môi trường, nhưng anh ta sẽ sử dụng dấu vết

02:22.110 --> 02:24.930
tính đủ điều kiện và đây là ý nghĩa của nó.

02:24.930 --> 02:30.120
Những gì anh ấy sẽ làm là anh ấy sẽ thực hiện bất kỳ bước nào anh ấy sẽ thực hiện trong trường hợp này, ghi lại bốn bước.

02:30.120 --> 02:31.650
Anh ấy sẽ đi bốn bước.

02:31.650 --> 02:39.750
Và chỉ sau khi thực hiện các bước này, anh ta sẽ tính được tổng phần thưởng mà anh ta nhận được từ các bước

02:39.750 --> 02:40.380
đó.

02:40.380 --> 02:42.660
Và anh ấy sẽ đưa nó qua mạng của mình.

02:42.660 --> 02:48.360
Anh ta sẽ đưa nó thông qua mạng nơ-ron điều chỉnh quá trình ra quyết định và sau đó mạng

02:48.360 --> 02:50.220
nơ-ron sẽ học hỏi từ đó.

02:50.520 --> 02:51.990
Vì vậy, một trong những ngay lập tức?

02:51.990 --> 02:53.940
Như bạn nghĩ cái nào mạnh hơn?

02:53.940 --> 02:58.980
Anh chàng chỉ bước từng bước một và giống như chọc vào người mù hoặc trong bóng tối.

02:58.980 --> 03:01.340
Và anh ấy giống như, được rồi, vì vậy tôi sẽ đi một bước, xem điều gì sẽ xảy ra.

03:01.350 --> 03:02.580
Tôi sẽ đi một bước, xem điều gì sẽ xảy ra.

03:02.580 --> 03:03.900
Tôi sẽ đi một bước, xem điều gì sẽ xảy ra.

03:03.900 --> 03:10.800
Anh chàng đứng đầu hoặc anh chàng chỉ cần rất can đảm bước qua bốn bước liên tiếp, rồi anh ta quyết định xem đó có

03:10.800 --> 03:17.580
phải là những bước tốt hay không và tại sao bạn có thể thấy ở đây hoặc tại sao bạn có thể hiểu được lý do

03:17.580 --> 03:22.800
tại sao bước thứ hai anh chàng tốt hơn hoặc mạnh mẽ hơn là bởi vì anh chàng thứ hai

03:22.800 --> 03:24.990
thực sự biết những gì cuối cùng.

03:24.990 --> 03:29.730
Chàng trai đầu tiên, khi đánh giá xem bước này có tốt hay không, anh ấy chỉ nhìn vào phần

03:29.730 --> 03:31.170
thưởng mà anh ấy nhận được.

03:31.170 --> 03:34.200
Và vì vậy anh ấy chỉ được hướng dẫn bởi phần thưởng mà môi trường đang trao cho anh ấy.

03:34.200 --> 03:35.100
Điều tương tự ở đây.

03:35.100 --> 03:38.850
Anh ấy chỉ được hướng dẫn bởi phần thưởng mà môi trường này đang trao cho anh ấy ở đây.

03:39.450 --> 03:45.570
Vì vậy, mỗi khi đó là loại la bàn duy nhất của anh ta, anh ta có phần thưởng, phần thưởng, phần thưởng.

03:46.350 --> 03:51.720
Trong khi ở đây, anh ta thực sự có thể đánh giá sau khi thực hiện tất cả các bước này, anh ta có thể đánh giá.

03:51.720 --> 03:52.200
Ờ được rồi.

03:52.200 --> 03:53.730
Vì vậy, tôi đã về đích.

03:53.730 --> 04:00.450
Vì vậy, sự kết hợp của các bước này là tốt, tất cả chúng đều tốt hoặc ồ không, tôi đã kết thúc trong ống cứu hỏa

04:00.450 --> 04:07.020
hoặc ồ không, tôi, tôi đã không thắng, ô, của tôi đã không về đích hoặc tôi vượt qua bức tường cát hoặc tôi đã thua trò

04:07.020 --> 04:09.180
chơi Doom hoặc thứ gì đó tương tự.

04:09.240 --> 04:15.480
Và sau đó anh ta tự quyết định rằng toàn bộ sự kết hợp các bước này là không tốt, và do đó

04:15.480 --> 04:22.620
đối với những bước trước đó, anh ta có nhiều thông tin hơn, anh ta có nhiều hiểu biết hơn, giống như trong một cách tiếp cận rất

04:22.620 --> 04:23.190
trực quan.

04:23.190 --> 04:27.450
Đây, một lần nữa, đây là một chủ đề phức tạp hơn nhiều so với những gì chúng ta đang mô tả ở đây, nhưng theo một cách trực quan.

04:27.450 --> 04:32.400
Ví dụ: nếu chúng tôi thực hiện bước này, bước này chỉ có thông tin để bạn cập nhật nó.

04:32.400 --> 04:34.890
Bạn chỉ có thông tin quay lại từ phần thưởng này ở đây.

04:34.890 --> 04:39.690
Và đối với bước này trong trường hợp này, bước chính xác thứ hai, nó có nhiều thông tin hơn.

04:39.690 --> 04:41.670
Nó có thông tin đến từ tất cả các cách.

04:41.670 --> 04:45.090
Được rồi, vậy kết quả sau bốn bước hoặc năm bước hoặc bất cứ điều gì?

04:45.300 --> 04:45.630
Ừ.

04:45.630 --> 04:51.900
Vì vậy, đó là cách nó hoạt động và tại sao nó được gọi là theo dõi tính đủ điều kiện là bởi vì trong suốt quá trình này, anh

04:51.900 --> 04:57.720
ta không chỉ nhìn vào phần thưởng tích lũy của điều này, những gì đang xảy ra và sau đó là khoản lỗ tích lũy, và sau đó

04:57.720 --> 05:00.000
tất cả những điều đó là nhân giống ở đó.

05:00.370 --> 05:03.730
Nhưng thực sự có một dấu vết về tính đủ điều kiện.

05:03.730 --> 05:05.000
Đó là lý do tại sao nó được gọi là dấu vết đủ điều kiện.

05:05.020 --> 05:14.710
Có một dấu vết được lưu giữ trong thuật toán cho biết, được rồi, vì vậy nếu chúng ta nhận được một dấu vết, giả sử chúng ta nhận được một hình phạt, chúng

05:14.710 --> 05:20.770
ta nhận được phần thưởng âm, thì bước nào trong số những bước này có nhiều khả năng đủ điều kiện cho

05:20.770 --> 05:23.010
điều đó, điều đó hình phạt đó?

05:23.020 --> 05:29.620
Vì vậy, chúng tôi không chỉ biết tổng thể toàn bộ mô hình này hoặc sự kết hợp các bước này là gì, mà chúng tôi

05:29.620 --> 05:32.440
còn lưu giữ dấu vết về tính đủ điều kiện.

05:32.440 --> 05:36.250
Chúng tôi sẽ cập nhật các bước nào nếu chúng tôi nhận được phần thưởng?

05:36.460 --> 05:40.960
Ví dụ: nếu đó là phần thưởng tiêu cực, chúng tôi có thể có dấu vết về tính đủ điều kiện

05:40.960 --> 05:47.050
cho chúng tôi thấy rằng đây là bước chịu trách nhiệm cao nhất cho những gì chúng tôi nhận được cuối cùng hoặc nếu đó là phần thưởng tích cực.

05:47.050 --> 05:51.580
Một lần nữa, chúng ta có thể biết thuật toán giúp chúng ta theo dõi.

05:51.580 --> 05:58.630
Thuật toán theo dõi tính đủ điều kiện này giúp chúng tôi theo dõi bước nào hoặc hành động nào cần thực hiện

05:58.630 --> 06:03.700
để đủ điều kiện được cập nhật dựa trên phần thưởng mà chúng tôi nhận được.

06:03.720 --> 06:05.560
Đó là lý do tại sao nó được gọi là dấu vết đủ điều kiện.

06:05.980 --> 06:08.800
Và đó là trực giác cơ bản đằng sau dấu vết tính đủ điều kiện.

06:08.800 --> 06:16.300
Và hy vọng hai ví dụ về hai tác nhân này làm cho nó khá rõ ràng hoặc khá trực quan về lý do tại sao các đặc điểm đủ điều

06:16.300 --> 06:18.100
kiện có thể mạnh mẽ đến vậy.

06:18.100 --> 06:25.180
Và nếu, như đã hứa, nếu bạn muốn đi sâu hơn vào chủ đề về dấu vết đủ điều kiện hoặc học

06:25.180 --> 06:31.960
từng bước, thì một cuốn sách tuyệt vời, tuyệt vời mà bạn có thể tìm thấy có tên là Học

06:31.960 --> 06:36.580
củng cố và Giới thiệu của Richard Sutton và Andrew Barto, 1998 .

06:36.580 --> 06:40.710
Tôi nghĩ rằng họ đang trong quá trình tạo ấn bản thứ hai hoặc

06:40.720 --> 06:49.270
họ đã tạo ra sự công nhận, nhưng đây là cuốn sách phổ biến nhất hoặc phổ biến nhất hoặc được tham khảo nhiều nhất về học tăng cường.

06:49.270 --> 06:56.530
Tôi nghĩ nó có một số lượng trích dẫn vô lý, giống như hàng chục nghìn, nếu tôi không nhầm.

06:56.530 --> 07:00.910
Và cũng là chương bạn cần cho đây là chương bảy.

07:00.910 --> 07:05.740
Vì vậy, để xem xét dấu vết đủ điều kiện, có cả một chương về nó.

07:05.740 --> 07:12.040
Chương bảy, bạn có thể đọc về nó và nó đi vào rất nhiều chi tiết về tính đủ điều kiện tiến, lùi

07:12.040 --> 07:18.280
và cũng như cách bạn có sự khác biệt theo thời gian ở một bên và đầu kia của quang phổ.

07:18.280 --> 07:19.990
Bạn có phương pháp Monte Carlo.

07:19.990 --> 07:22.330
Ở giữa bạn có dấu vết đủ điều kiện.

07:22.330 --> 07:27.070
Vì vậy, dấu vết tính đủ điều kiện là liên kết của bạn để đi từ sự khác biệt tạm thời đến phương pháp Monte Carlo.

07:27.070 --> 07:28.270
Rất thú vị.

07:28.270 --> 07:31.540
Đọc rất nhiều hình ảnh mà tôi thực sự, thực sự đánh giá cao nó.

07:31.540 --> 07:34.030
Giải thích rất trực quan.

07:34.030 --> 07:40.480
Vì vậy, có rất nhiều điều mà bạn có thể học được từ cuốn sách này về trí tuệ nhân tạo và học tập

07:40.480 --> 07:41.050
củng cố.

07:41.050 --> 07:48.190
Nhưng cụ thể, dấu vết tư cách giống như một nơi rất tốt để đến là cuốn sách này để tìm dấu vết tư

07:48.190 --> 07:48.760
cách?

07:49.030 --> 07:56.500
Và tài liệu tham khảo thứ hai cho ngày hôm nay là thứ mà Adlon sẽ cho bạn xem trong tài liệu

07:56.500 --> 08:04.450
thực tế, học sâu hoặc tài liệu nghiên cứu Deep Mind của Google về các phương pháp không đồng bộ để học tăng cường

08:04.450 --> 08:05.050
sâu.

08:05.050 --> 08:06.730
Vâng, đó là tờ giấy.

08:06.730 --> 08:12.160
Đó là một bài báo mà bài báo a3c mà chúng ta sẽ thảo luận sâu hơn trong khóa học này.

08:12.160 --> 08:14.230
Chúng tôi đang ngày càng tiến gần hơn đến nó.

08:14.230 --> 08:18.280
Và như bạn có thể nói, chúng tôi khá vui mừng về điều này.

08:18.280 --> 08:25.150
Vì vậy, chúng ta sẽ xem xét một chút về cách họ triển khai các dấu vết tính đủ điều kiện trong bài báo

08:25.150 --> 08:25.510
này.

08:25.510 --> 08:29.020
Vì vậy, chúng tôi sẽ sử dụng điều này nhiều hơn cho khía cạnh thực tế của mọi thứ.

08:29.110 --> 08:33.730
Vì vậy, hy vọng bạn thích hướng dẫn hôm nay và bây giờ bạn cảm thấy thoải mái hơn một chút với các dấu vết đủ điều

08:33.730 --> 08:35.800
kiện và tôi rất nóng lòng được gặp bạn lần sau.

08:35.800 --> 08:37.210
Cho đến lúc đó, hãy tận hưởng.

08:37.210 --> 08:37.780
TÔI.
