WEBVTT

00:00.590 --> 00:03.110
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.110 --> 00:08.150
Hôm nay chúng ta đang nói về phần đầu tiên của a3c, phần phê bình diễn viên.

00:08.150 --> 00:13.880
Vì vậy, ở đây chúng ta có một thuật toán phê bình tác nhân lợi thế đồng bộ và chúng ta sẽ nói về tác

00:13.880 --> 00:15.050
nhân được gạch chân đó.

00:15.500 --> 00:17.150
Đó là nơi chúng ta sẽ bắt đầu.

00:17.150 --> 00:21.470
Về mặt kỹ thuật, bạn có thể bắt đầu ở bất cứ đâu, nhưng sẽ có ý nghĩa hơn rất nhiều

00:21.470 --> 00:29.180
nếu bắt đầu từ hành động đến phê bình, bởi vì theo cách đó chúng ta sẽ có một lời giải thích liên tiếp hoặc sự hiểu biết trực quan về những gì đang diễn ra sẽ

00:29.180 --> 00:30.320
tạo điều kiện thuận lợi.

00:30.410 --> 00:33.980
Nhưng nếu chúng ta bắt đầu một cách đáng ngạc nhiên ở cuối chữ viết tắt này.

00:33.980 --> 00:41.740
Được rồi, cho đến nay trong khóa học này, chúng tôi đã đưa ra phương pháp học tích hợp sâu sắc, được minh họa ngay tại

00:41.750 --> 00:42.200
đây.

00:42.200 --> 00:46.160
Vì vậy, chúng tôi đã có máy tính nhìn thấy các pixel.

00:46.160 --> 00:48.710
Vì vậy, hình ảnh và pixel thực tế, không chỉ là vector.

00:48.710 --> 00:49.580
Vì vậy, nó không gian lận.

00:49.580 --> 00:52.040
Nó thực sự nhìn thấy chính xác những gì con người nhìn thấy.

00:52.040 --> 00:58.550
Nó nhìn thấy những con quái vật, nó nhìn thấy sức khỏe, nó nhìn thấy các thông số ở phía dưới, nó nhìn thấy hành lang, nó nhìn

00:58.550 --> 00:59.240
thấy súng.

00:59.240 --> 01:02.960
Nó nhìn thấy chính xác những thứ giống như con người sẽ thấy khi chơi trò chơi này.

01:02.960 --> 01:09.260
Sau đó, hình ảnh đó được chuyển qua một lớp phức hợp, sau đó nó được chuyển qua một lớp tổng

01:09.260 --> 01:12.860
hợp và nó được làm phẳng và đi vào mạng nơ-ron.

01:12.860 --> 01:17.450
Và sau đó ở đầu ra, chúng tôi có các hành động, như bạn nhớ, chúng tôi có các giá trị dấu hiệu đó.

01:17.570 --> 01:20.120
Sau đó, chúng tôi áp dụng chính sách lựa chọn hành động cho họ.

01:20.120 --> 01:24.290
Vì vậy, ví dụ: chúng tôi áp dụng giá thầu tối đa mềm và chúng tôi tìm ra hành động mà chúng tôi muốn thực hiện.

01:24.290 --> 01:29.480
Và do đó, có một số khám phá cộng với khai thác đang diễn ra ở đó, sự kết hợp của cả hai.

01:30.140 --> 01:33.200
Vì vậy, đó là cách học tập tích hợp sâu đã hoạt động.

01:33.380 --> 01:34.880
Nhưng bây giờ hãy xem chúng ta sẽ làm gì với điều này.

01:34.880 --> 01:38.690
Vì vậy, vì mục đích đơn giản, để chúng ta thao tác với điều này dễ dàng hơn

01:38.690 --> 01:44.240
vì chúng ta sẽ điều chỉnh hình ảnh này và di chuyển nó xung quanh, chúng ta sẽ thay thế các hình tròn bằng hình vuông bằng

01:44.240 --> 01:46.400
những hình này bằng những hình hộp chữ nhật này.

01:46.400 --> 01:48.680
Và chúng tôi cũng sẽ loại bỏ những ranh giới đó ở giữa.

01:48.680 --> 01:51.140
Chỉ cần thay đổi chúng thành mũi tên.

01:51.140 --> 01:54.260
Vì vậy, điều này không thay đổi bản chất.

01:54.290 --> 01:56.330
Đây chỉ là đại diện trên biểu đồ này.

01:56.360 --> 01:59.600
Điều này vẫn còn thậm chí sự biểu diễn này vẫn còn sâu sắc, phức tạp.

01:59.630 --> 02:05.240
Q Học sẽ dễ dàng hơn để chúng tôi sửa đổi nó và hiển thị chính xác ba chìa khóa là gì.

02:05.240 --> 02:11.630
Vì vậy, đó chỉ là cách chúng tôi sẽ đại diện cho mọi thứ từ đây và những gì một phím ba làm hoặc phần cụ thể

02:11.630 --> 02:11.870
này.

02:11.870 --> 02:15.020
Vì vậy, chúng tôi đang bắt đầu nhớ rằng, chúng tôi đang bắt đầu giống như từng bước một.

02:15.030 --> 02:16.610
Chúng tôi đang bắt đầu với phần phê bình tích cực.

02:16.610 --> 02:23.180
Vì vậy, chúng ta sẽ xem làm thế nào chúng ta đi từ việc học tích hợp sâu sắc đến ba bước quan trọng từng bước và bước đầu

02:23.180 --> 02:23.420
tiên.

02:23.420 --> 02:26.150
Chúng tôi sẽ giới thiệu phần phê bình tích cực này ngay tại đây.

02:26.150 --> 02:27.380
Vì vậy, chúng ta sẽ nói về điều đó.

02:27.470 --> 02:34.730
Vì vậy, điều đầu tiên xảy ra là bit cuối cùng này, đầu ra thực sự là chúng tôi sẽ vẽ lại nó như thế

02:34.730 --> 02:35.090
này.

02:35.090 --> 02:40.280
Vì vậy, nó chính xác cùng một đầu ra, chính xác các giá trị cue giống nhau hoặc chính xác các hành động giống nhau.

02:40.280 --> 02:44.540
Vì vậy, nếu anh ta nếu bạn có tám hành động khả thi, bạn vẫn có tám hành động có thể.

02:44.540 --> 02:47.180
Chúng tôi sẽ đặt chúng ở trên cùng để chúng chiếm ít không gian hơn.

02:47.180 --> 02:49.100
Vì vậy, không có gì cho đến nay, không có gì thay đổi.

02:49.100 --> 02:51.890
Cho đến nay điều này và điều này hoàn toàn giống nhau.

02:51.890 --> 02:54.860
Nhưng bây giờ đây là nơi mà bộ phận phê bình tích cực hoạt động.

02:54.860 --> 02:57.590
Chúng ta sẽ có đầu ra thứ hai mà chúng ta sẽ có.

02:58.040 --> 02:59.870
Vì vậy, đầu tiên là một tập hợp các đầu ra.

02:59.870 --> 03:02.690
Và ở đây chúng ta sẽ có một đầu ra riêng lẻ.

03:02.690 --> 03:05.960
Vì vậy, về mặt kỹ thuật, chúng ta sẽ sử dụng mạng nơ-ron của chúng ta?

03:05.960 --> 03:14.090
Vì vậy, một lần và bây giờ hình ảnh và mọi thứ như giá trị đi qua mạng từ trái sang phải ở

03:14.090 --> 03:14.570
đây.

03:14.570 --> 03:16.490
Họ không chỉ đưa ra một bộ giá trị.

03:16.490 --> 03:17.780
Họ thực sự chia ra hai bộ.

03:17.780 --> 03:20.570
Và vì vậy tập hợp hàng đầu, chúng ta đã biết nó là gì.

03:20.570 --> 03:22.700
Đó là những hành động khả thi.

03:22.700 --> 03:25.280
Nhưng ở đây chúng ta thực sự sẽ có một giá trị bổ sung khác.

03:25.280 --> 03:26.480
Vì vậy, chúng ta hãy xem xét điều đó.

03:26.480 --> 03:28.340
Giá trị đó như thế nào?

03:28.340 --> 03:29.810
Vì vậy, chúng ta bắt đầu.

03:29.810 --> 03:31.190
Đó là hàng đầu.

03:31.190 --> 03:34.940
Vì vậy, chúng tôi chỉ muốn giảm kích thước của hình minh họa này.

03:35.180 --> 03:41.090
Đầu ra trên cùng là các giá trị Q, như chúng ta đã thảo luận trước đây cho các hành động.

03:41.090 --> 03:42.410
Vì vậy, chúng giống nhau.

03:42.410 --> 03:43.190
Mọi thứ đều giống nhau.

03:43.190 --> 03:45.140
Nhưng sau đó bây giờ phần dưới cùng này.

03:45.140 --> 03:47.030
Ồ, và phần trên cùng thực sự được gọi là diễn viên.

03:47.030 --> 03:47.780
Chúng tôi sẽ đặt tên cho nó.

03:47.780 --> 03:53.570
Đó là diễn viên bởi vì đó là phần mà tác nhân chọn những gì họ muốn làm để giống như họ

03:53.570 --> 03:54.380
đang diễn.

03:54.380 --> 03:59.780
Nó như thể nó đang biểu diễn trên sân khấu và nó sẽ có ý nghĩa hơn khi chúng tôi cũng có tên thứ hai

03:59.780 --> 04:00.590
trên màn hình.

04:00.590 --> 04:07.310
Và sau đó đầu ra thứ hai giống như một giá trị và đó là V của SE, vì vậy đó là giá trị của

04:07.310 --> 04:07.940
trạng thái.

04:07.940 --> 04:15.140
Vì vậy, nếu Q của S là Q của S và A là giá trị Q của một hành động nhất định.

04:15.140 --> 04:19.940
Và như bạn có thể thấy, đó là lý do tại sao có hành động một hành động, hai hành động ba cho đến hành động sáu hoặc tuy

04:19.940 --> 04:21.890
nhiên nhiều hành động có thể có ở trạng thái đó.

04:21.890 --> 04:23.030
Vì vậy, trong một trạng thái nhất định.

04:23.030 --> 04:25.250
SE Giá trị Q của hành động là gì?

04:25.250 --> 04:28.130
Một Hành động để hành động một, hành động hai, v.v.

04:28.130 --> 04:34.850
Sau đó, ở đây chúng tôi cũng dự đoán chúng tôi cũng đang sử dụng mạng nơ-ron để dự đoán đâu là giá trị của trạng thái mà

04:34.850 --> 04:36.350
chúng tôi thực sự đang ở.

04:36.350 --> 04:40.430
Và phần này được gọi là phần phê bình.

04:40.610 --> 04:45.710
Và đó là trực quan hoặc thậm chí không trực quan đầy đủ.

04:45.710 --> 04:51.290
Điều đó giống như sự khởi đầu của trực giác đằng sau nhà phê bình diễn viên rằng bây giờ có hai đầu ra từ mạng nơ-ron,

04:51.290 --> 04:56.360
không chỉ một, mà trước đây chúng ta chỉ có một đầu ra đó, mà bây giờ chúng ta gọi là diễn viên.

04:56.360 --> 04:58.940
Nhưng bây giờ chúng ta có hai đầu ra, diễn viên và nhà phê bình.

04:58.940 --> 04:59.810
Và sẽ có một.

04:59.900 --> 05:02.150
Động giữa chúng, mà chúng ta sẽ khám phá thêm.

05:02.150 --> 05:08.390
Nhưng hiện tại, điều quan trọng là phải hiểu rằng chúng tôi không chỉ dự đoán các giá trị Q của các hành động mà tác nhân

05:08.390 --> 05:10.970
có thể thực hiện từ trạng thái nhất định này.

05:10.970 --> 05:15.680
Nhưng nó cũng dự đoán giá trị ở trạng thái hiện tại này, sử dụng cùng một mạng nơ-ron đó.

05:15.680 --> 05:20.570
Vì vậy, đó là cốt lõi của bước đầu tiên trở thành nhà phê bình thực tế.

05:20.570 --> 05:24.050
Và bây giờ chúng ta sẽ cần nói về sự đồng bộ, điều mà chúng ta sẽ thực hiện trong hướng dẫn

05:24.050 --> 05:26.640
tiếp theo để hiểu chính xác điều gì đang xảy ra giữa lý thuyết hành động.

05:26.810 --> 05:32.570
Và điều cuối cùng cho ngày hôm nay là tất cả các giá trị quan trọng này, như chúng ta biết, đó còn được gọi là chính sách.

05:32.570 --> 05:39.470
Vì vậy, trong một số tài liệu và một số blog và một số cuộc thảo luận bạn có thể tìm thấy ở nhà phê bình tích

05:39.470 --> 05:44.720
cực, bạn có thể thấy tác giả nói về các giá trị Q ở khía cạnh này của tác nhân.

05:44.750 --> 05:51.230
Trong một số tài liệu và các bài đăng trên blog và các cuộc thảo luận khác, bạn sẽ thấy tác giả nói về chính

05:51.230 --> 05:51.860
sách này.

05:51.860 --> 05:58.190
Vì vậy, và thường thì nó sử dụng người dùng như một chữ cái Hy Lạp P để đại diện cho chính sách hoặc bạn có thể chỉ

05:58.190 --> 05:59.720
nói chính sách của nhà nước.

05:59.930 --> 06:05.540
Vì vậy, đây hoàn toàn là chính sách của văn phòng nhà nước bởi vì như chúng ta nhớ, chính sách là nếu bạn tập

06:05.540 --> 06:11.570
hợp tất cả các hành động lại với nhau, các hành động có thể xảy ra và sau đó là quyết định hành động nào cần thực hiện.

06:11.570 --> 06:14.210
Vì vậy, những điều này sẽ giống như xác suất của mỗi hành động.

06:14.210 --> 06:15.260
Vì vậy, đó là chính sách.

06:15.260 --> 06:20.720
Vì vậy, đừng vội bỏ qua nếu bạn nhìn thấy cái này hay cái kia, về cơ bản chúng có nghĩa giống nhau.

06:20.960 --> 06:24.410
Vì vậy, một mặt ở đây bạn đã có chính sách hoặc các giá trị Q, mặt khác,

06:24.410 --> 06:27.560
bạn có giá trị thực của trạng thái và chúng được dự đoán từ mạng nơ-ron.

06:27.560 --> 06:29.120
Vì vậy, đó là bước khởi đầu của nhà phê bình tích cực.

06:29.120 --> 06:33.620
Chúng ta sẽ tiếp tục vấn đề này trong hướng dẫn tiếp theo khi chúng ta nói về đồng bộ và tôi mong được gặp

06:33.620 --> 06:34.250
bạn ở đó.

06:34.250 --> 06:35.990
Cho đến lúc đó hãy tận hưởng tôi.