WEBVTT

00:00.470 --> 00:03.370
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:03.380 --> 00:08.720
Trong hướng dẫn hôm nay, chúng ta đang thực hiện bước đầu tiên của mình trong thế giới của a3c và ở bước đầu tiên,

00:08.720 --> 00:11.120
chúng ta sẽ tìm hiểu chữ viết tắt này là gì.

00:11.120 --> 00:15.890
Vì vậy, a3c là viết tắt của một thuật toán phê bình tác nhân lợi thế đồng bộ.

00:16.190 --> 00:23.270
Đây là một thuật toán được phát triển tại Google DeepMind vào năm 2016 bởi một nhóm các nhà nghiên cứu và

00:23.270 --> 00:28.430
nó là thuật toán tiên tiến nhất cho trí tuệ nhân tạo cho đến nay.

00:28.460 --> 00:34.160
Bây giờ nó có nhiều sửa đổi, và chúng ta sẽ thảo luận thêm về điều đó trong khóa học, đặc biệt là trong các hướng

00:34.160 --> 00:34.970
dẫn thực hành.

00:34.970 --> 00:42.080
Nhưng tuy nhiên, thuật toán này thổi bay mọi thứ khác, bao gồm cả các mạng học tập phức hợp sâu ra khỏi mặt

00:42.080 --> 00:44.180
nước, hoàn toàn ra khỏi mặt nước.

00:44.180 --> 00:45.710
Và nó nhanh hơn.

00:45.710 --> 00:49.910
Mất ít thời gian hơn cho việc đào tạo và đạt được kết quả tốt hơn.

00:50.150 --> 00:55.520
Vì vậy, trong suốt phần này của khóa học, chúng tôi sẽ tham khảo và chúng tôi đã tham khảo,

00:55.520 --> 01:01.700
nhưng chúng tôi sẽ tham khảo nhiều hơn một bài báo hoặc bài báo đã được xuất bản lần đầu tiên giới thiệu a3c.

01:01.730 --> 01:08.690
Nó được gọi là Phương pháp không đồng bộ của Học tập củng cố sâu của Vladimir Munich và những người khác từ

01:08.690 --> 01:09.320
Google DeepMind.

01:09.320 --> 01:14.540
Vì vậy, bây giờ tôi sẽ cho bạn xem bài báo này để bạn có một giới thiệu về nó.

01:14.540 --> 01:17.810
Vì vậy, đây là bài báo này.

01:17.810 --> 01:24.680
Tôi muốn giới thiệu nó cho bạn để bạn có thể cảm nhận nó và sẵn sàng làm quen với nó một

01:24.680 --> 01:25.130
chút.

01:25.130 --> 01:33.200
Và tất nhiên, chúng tôi rất khuyến khích bạn nên đọc qua bài báo và hiểu chính xác những gì họ đang

01:33.200 --> 01:34.070
nói về.

01:34.070 --> 01:41.420
Và bạn sẽ thấy rằng trong suốt các hướng dẫn thực hành tại Lund sẽ đưa bạn qua một số phần

01:41.420 --> 01:50.210
nhất định của bài báo, thông qua các đoạn hoặc phần nhất định có liên quan đến những gì chúng ta sẽ lập trình tại

01:50.210 --> 01:51.590
thời điểm đó.

01:51.710 --> 01:57.740
Và điều tôi muốn chỉ ra ở đây là, như bạn có thể thấy, rất nhiều nghiên cứu đã đi vào vấn đề này, nhưng và

01:57.740 --> 02:02.870
cũng có rất nhiều tài liệu tham khảo, nhưng giống như một phần mà tôi thực sự thích ở phần cuối?

02:03.280 --> 02:07.970
Cuối cùng, họ so sánh các thuật toán khác nhau, so sánh kết quả.

02:07.970 --> 02:09.860
Và đây là những gì tôi muốn chỉ ra ở đây.

02:09.860 --> 02:11.360
Vì vậy, hãy phóng to một chút.

02:11.360 --> 02:17.390
Vì vậy, ở đây, như bạn có thể thấy ở đó, ngay cả trong Google DeepMind, họ đang đào tạo hoặc họ đang đánh giá các thuật toán

02:17.390 --> 02:20.420
trên trò chơi giống như chúng tôi đang làm trong khóa học này.

02:20.420 --> 02:27.650
Vì vậy, nguyên tắc hoàn toàn giống nhau bởi vì trò chơi là một môi trường mô phỏng hoặc một môi trường nhỏ, một môi trường hạn chế với những quy

02:27.650 --> 02:32.540
tắc nhất định và họ muốn hiểu trí thông minh nhân tạo này hoạt động tốt như thế nào trong những

02:32.540 --> 02:33.320
trò chơi đó.

02:33.320 --> 02:41.120
Và ở đây chúng tôi có chính xác tất cả những trò chơi mà bạn có thể tìm thấy rất nhiều trong số đó bạn có thể tìm thấy ở phòng tập thể dục ngoài

02:41.150 --> 02:44.210
trời và những trò chơi mà chúng tôi đã và đang làm việc.

02:44.210 --> 02:46.760
Ví dụ, trong phần này, chúng tôi đang làm việc với Breakout.

02:46.760 --> 02:47.660
Vì vậy, nó cũng ở đây.

02:48.500 --> 02:53.840
Vì vậy, bạn có thể thấy rằng đối với Breakout, họ đã in đậm, họ đã đánh dấu thuật toán tốt nhất.

02:53.840 --> 02:58.400
Vì vậy, DCN đó là thuật toán chúng tôi đang làm việc và sau đó là một số thuật toán khác.

02:58.400 --> 03:03.470
Và ở đây bạn đã có a3c, a3c với bộ nhớ ngắn hạn dài hạn lshtm.

03:03.470 --> 03:06.170
Vì vậy, đó là một trong những chúng tôi sẽ thực hiện trong phần này của khóa học.

03:06.170 --> 03:10.130
Chúng tôi sẽ có a3c với LSHTM, làm cho nó thậm chí còn mạnh hơn.

03:10.130 --> 03:15.560
Vì vậy, như bạn có thể thấy, đột phá là kết quả tốt nhất đạt được bởi hệ thống ba chìa khóa.

03:15.560 --> 03:19.670
Vì vậy, đó là âm thanh số 66. 8 so với những người khác.

03:19.670 --> 03:23.990
Và bạn cũng có thể thấy điều đó đối với hầu hết chúng.

03:23.990 --> 03:30.620
Vì vậy, nếu bây giờ chúng ta thích xem một bức tranh lớn hơn, bạn có thể thấy rằng hầu hết những cái in đậm thực sự nằm trong

03:30.620 --> 03:31.760
cột cuối cùng này.

03:31.760 --> 03:36.110
Vì vậy, có, thực sự, có một số trò chơi mà các thuật toán khác đang hoạt động tốt hơn.

03:36.110 --> 03:42.440
Nhưng như bạn có thể thấy, DCN thực sự không hoạt động tốt hơn trong bất kỳ trò chơi nào.

03:42.440 --> 03:44.720
Nhưng bạn có thể thấy rằng có những thuật toán khác.

03:45.200 --> 03:51.740
Các thuật toán khác đôi khi hoạt động tốt hơn, nhưng một nhóm hoạt động tốt nhất trong hầu hết các trường hợp.

03:51.740 --> 03:52.970
Vì vậy, bạn có thể thấy rằng điều này là táo bạo.

03:52.970 --> 03:57.500
Cái này in đậm, cái này, cái này, cái này, v.v.

03:57.500 --> 04:01.820
Vì vậy, bạn có thể thấy rằng hệ thống a3c là một thuật toán thực sự mạnh mẽ.

04:01.820 --> 04:08.360
Nó thực sự đi đầu trong trí tuệ nhân tạo và đó chính xác là những gì chúng tôi sẽ triển khai.

04:08.360 --> 04:09.980
Vì vậy, phần rất thú vị phía trước.

04:09.980 --> 04:17.060
Rất khuyến khích bạn xem qua bài báo này và cảm nhận về những gì chúng ta sẽ nói

04:17.060 --> 04:17.750
đến.

04:18.260 --> 04:24.650
Và sau đó trong suốt phần này và trong suốt đặc biệt là khía cạnh thực tế của sự vật, bộ ống hút thực tế, chúng ta

04:24.650 --> 04:27.020
sẽ đi qua vấn đề này một cách chi tiết.

04:27.020 --> 04:32.510
Chúng tôi thực sự sẽ làm việc với mã giả của họ ở đây, mã này có sẵn.

04:32.510 --> 04:36.380
Và chúng tôi sẽ tinh tế và chúng tôi sẽ chỉ cho bạn cách thực hiện điều đó và cách chúng tôi sẽ làm việc với

04:36.380 --> 04:36.800
điều đó.

04:37.190 --> 04:42.560
Và trên ghi chú đó, tôi hy vọng bạn sẽ thích bài báo này và tôi mong được gặp bạn lần sau.

04:42.560 --> 04:44.360
Và cho đến lúc đó, hãy tận hưởng tôi.
