WEBVTT

00:00.700 --> 00:04.350
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:04.360 --> 00:09.460
Tôi hy vọng bạn hào hứng với hướng dẫn hôm nay bởi vì chúng ta đang bước một bước đầu tiên

00:09.460 --> 00:13.120
vào thế giới AI và hôm nay chúng ta đang nói về học tăng cường.

00:13.120 --> 00:17.650
Đó là một hướng dẫn rất quan trọng vì nó sẽ làm nền tảng cho mọi thứ khác sẽ diễn ra trong

00:17.650 --> 00:18.340
khóa học này.

00:18.610 --> 00:20.950
Vì vậy, chúng ta hãy bắt đầu ở đây.

00:20.950 --> 00:27.100
Chúng tôi có một mê cung nhỏ và mê cung này là đại diện của chúng tôi về một môi trường và đó là những gì chúng

00:27.100 --> 00:29.140
tôi sẽ giải quyết trong khóa học này.

00:29.140 --> 00:33.970
Chúng tôi sẽ đối phó với một số môi trường nhất định mà trí tuệ nhân tạo của chúng

00:33.970 --> 00:35.080
tôi sẽ hoạt động.

00:35.080 --> 00:36.790
Nó sẽ được thực hiện các hành động.

00:36.790 --> 00:41.770
Nó sẽ tìm cách đánh bại những môi trường này, sẽ tìm cách chiến thắng trong những môi trường này.

00:42.100 --> 00:44.140
Và ở đây chúng tôi có một đại lý.

00:44.140 --> 00:46.930
Tác nhân là trí tuệ nhân tạo của chúng tôi.

00:46.930 --> 00:52.900
Đó là con người hoặc đó là tâm trí sẽ điều hướng các môi trường này và học hỏi từ phản hồi mà

00:52.900 --> 00:56.860
tâm trí của họ sẽ đưa ra để thực hiện các hành động nhất định.

00:56.860 --> 01:03.520
Và do đó, cách nó hoạt động là tác nhân thực hiện các hành động nhất định trong môi trường này, và kết

01:03.520 --> 01:06.160
quả là trạng thái của nó sẽ thay đổi.

01:06.160 --> 01:10.000
Vì vậy, nó có thể xa hơn hoặc gần hơn hoặc nhiều hơn ở bên trái, nhiều hơn ở bên phải.

01:10.000 --> 01:15.070
Nó có thể có một số tham số khác mô tả trạng thái của nó và các tham số đó sẽ thay đổi.

01:15.070 --> 01:20.590
Vì vậy, trạng thái sẽ thay đổi do hành động thực hiện và nó cũng sẽ nhận được phần thưởng dựa trên hành động

01:20.590 --> 01:20.920
đó.

01:20.930 --> 01:24.670
Vì vậy, mỗi khi thực hiện một hành động, trạng thái sẽ thay đổi và nó sẽ nhận được phần thưởng.

01:24.670 --> 01:29.050
Bây giờ, hãy nhớ rằng, đôi khi nó có thể xảy ra rằng nó không thay đổi trạng thái, hành động

01:29.050 --> 01:33.970
sẽ không thay đổi trạng thái hoặc sẽ không có phần thưởng cho việc thực hiện hành động đó ở trạng thái nhất định.

01:33.970 --> 01:34.380
Nó không phải.

01:34.450 --> 01:38.020
Nhưng tuy nhiên, tác nhân sẽ tiếp tục làm điều đó, sẽ thực hiện các hành động,

01:38.020 --> 01:42.400
thay đổi trạng thái, nhận phần thưởng, thay đổi hành động, thực hiện hành động, thay đổi trạng thái và nhận phần thưởng.

01:42.580 --> 01:47.200
Và bằng cách thực hiện quá trình đó, nó sẽ học về môi trường sẽ khám phá môi

01:47.200 --> 01:53.050
trường, hiểu những hành động nào dẫn đến phần thưởng tốt và trạng thái thuận lợi, và những hành động nào dẫn đến phần

01:53.050 --> 01:55.180
thưởng xấu và trạng thái không thuận lợi.

01:55.750 --> 01:59.590
Và đây là một cách thể hiện rất đơn giản của một vấn đề toàn cầu.

01:59.590 --> 02:04.330
Vì vậy, nếu bạn nghĩ về nó, môi trường thực sự không phải chỉ là mê cung.

02:04.330 --> 02:08.350
Không chỉ là ra khỏi mê cung hay tìm kho báu trong mê cung.

02:08.980 --> 02:11.680
Một môi trường có thể là bất cứ điều gì trong cuộc sống.

02:11.680 --> 02:15.100
Vì vậy, hãy tưởng tượng bạn thức dậy vào buổi sáng và nấu một món trứng tráng.

02:15.100 --> 02:19.750
Vì vậy, để làm được món trứng tráng đó, bạn cần phải trải qua một số bước nhất định.

02:19.750 --> 02:25.060
Bạn cần lấy muối, lấy trứng, lấy chảo, bật lửa, v.v.

02:25.060 --> 02:29.200
Và nó nghe có vẻ giống như một việc thường ngày, nhưng nó đã trở thành một thói quen bởi vì bạn đã làm nó

02:29.200 --> 02:29.740
rất nhiều lần.

02:29.740 --> 02:34.390
Nhưng trong thực tế, đó là một môi trường mà bạn đang thực hiện một số hành động mà bạn đang

02:34.390 --> 02:37.310
thực hiện, bạn đang châm lửa, bạn đang đặt chảo vào lửa.

02:37.310 --> 02:41.710
Bạn cho tất cả trứng vào chảo rán và bạn cho một ít muối vào trứng và bạn đang lật chúng lại

02:41.710 --> 02:42.940
và cứ tiếp tục như vậy.

02:42.940 --> 02:49.510
Vì vậy, như bạn có thể thấy, có những hành động nhất định, những hành động đang thực hiện ở những trạng thái nhất định, và những hành động đó dẫn

02:49.510 --> 02:52.390
đến những trạng thái nhất định khác và đôi khi là phần thưởng.

02:52.390 --> 02:56.860
Vì vậy, ví dụ, khi bạn châm lửa và bạn đợi, đợi, đợi, đợi, đợi, bạn đang thực hiện

02:56.860 --> 02:58.960
hành động chờ, đợi, đợi, đợi quá lâu.

02:58.960 --> 03:01.750
Và sau đó bạn cho trứng vào chảo chiên.

03:01.780 --> 03:03.490
Phần thưởng sẽ rất tiêu cực.

03:03.490 --> 03:04.540
Nó sẽ cháy.

03:04.960 --> 03:08.920
Mặt khác, nếu bạn thực hiện tất cả các hành động chính xác trong thời gian chính xác.

03:08.920 --> 03:13.780
Vì vậy, điều rất quan trọng là phải hiểu rằng các hành động cần được thực hiện vào đúng thời điểm.

03:13.780 --> 03:20.020
Vì vậy, ví dụ, cho muối vào chảo rán trước khi bạn cho trứng vào có thể không phải là ý tưởng

03:20.020 --> 03:20.590
tốt nhất.

03:20.590 --> 03:26.140
Bạn có thể muốn thực hiện hành động đó là cho muối vào chảo rán sau khi trứng ở trong đó.

03:26.140 --> 03:28.150
Vì vậy, trong các trạng thái khác nhau.

03:28.150 --> 03:29.500
Vì vậy, điều quan trọng là phải nhớ điều đó.

03:29.500 --> 03:33.550
Và đồng thời, vì vậy nếu bạn thực hiện tất cả các hành động chính xác theo đúng thứ tự, ở

03:33.550 --> 03:38.230
các trạng thái chính xác, phần thưởng cuối cùng của bạn có thể là bạn nhận được một món trứng tráng, mà bạn có thể ăn.

03:38.830 --> 03:41.950
Và đó là một hoạt động rất cơ bản trong cuộc sống của bạn.

03:41.950 --> 03:47.800
Nhưng nếu bạn nghĩ về nó, nó thực sự là một môi trường và bạn là tác nhân đi qua môi trường này và thực

03:47.800 --> 03:48.750
hiện một nhiệm vụ.

03:48.760 --> 03:52.060
Bạn không thực sự cần phải học bất cứ điều gì bởi vì bạn đã biết nó khá rõ.

03:52.060 --> 03:55.990
Nhưng đồng thời bạn có thể học, có thể bạn có thể học cách làm món trứng tráng ngon hơn, hoặc đặc biệt nếu

03:55.990 --> 03:58.900
bạn là món trứng tráng đầu tiên mà bạn làm, có thể bạn sẽ làm hỏng nó.

03:58.900 --> 04:04.090
Nhưng bạn sẽ học được từ điều đó bởi vì bạn sẽ hiểu những hành động dẫn đến trạng thái và phần thưởng cũng như bất

04:04.240 --> 04:05.770
cứ điều gì khác trong cuộc sống.

04:05.890 --> 04:11.830
Ví dụ, ngay cả giao dịch trên thị trường chứng khoán và mua bán và nhận được phản hồi nhất

04:11.830 --> 04:16.300
định từ thị trường theo nghĩa trả lại lợi nhuận tích cực hoặc tiêu cực.

04:16.300 --> 04:20.020
Đó cũng là một môi trường và bạn tham gia vào môi trường đó với tư cách là một đại lý.

04:20.020 --> 04:25.030
Lái xe ô tô cũng là một môi trường mà bạn có thể bẻ lái, bạn có thể tăng tốc, bạn có thể bẻ

04:25.030 --> 04:27.700
lái, v.v. và bạn đang nhận được phản hồi từ môi trường.

04:27.700 --> 04:34.600
Và một trong những phản hồi đó là cảnh sát phạt bạn chạy quá tốc độ nếu bạn đi quá tốc độ cho phép hoặc

04:34.600 --> 04:36.820
cho phép trên đường cao tốc đó.

04:36.820 --> 04:41.830
Và từ đó bạn học được rằng đó không phải là điều nên làm vì nó dẫn đến

04:41.830 --> 04:42.970
phần thưởng tiêu cực.

04:42.970 --> 04:45.520
Vì vậy, phần thưởng không nhất thiết phải ở cuối quá trình.

04:45.520 --> 04:47.740
Chúng có thể trong suốt hành trình, trong suốt quá trình.

04:47.740 --> 04:49.420
Vì vậy, đó là một vài ví dụ.

04:49.420 --> 04:54.670
Và đối với tôi, cách đơn giản nhất để nghĩ về việc học tăng cường cũng giống như huấn luyện một con chó.

04:54.670 --> 04:58.120
Khi bạn huấn luyện một con chó, bạn ra lệnh cho nó.

04:58.120 --> 05:00.220
Và nếu nó tuân theo những lệnh đó, thì bạn cho nó một.

05:00.600 --> 05:02.260
Bạn cho nó giống như một cái bánh quy hoặc một cái gì đó.

05:02.260 --> 05:06.510
Nếu nó không tuân theo những mệnh lệnh đó, bạn sẽ nói với nó rằng nó là một con chó xấu hoặc bạn không xử lý nó.

05:06.520 --> 05:13.570
Và thông qua quá trình đó, nó học được những lệnh nhất định hoặc những gì nó cần làm, hành động nào nó cần thực hiện ở

05:13.570 --> 05:14.890
những trạng thái nhất định.

05:14.890 --> 05:18.310
Và các trạng thái là các lệnh mà bạn đưa ra.

05:18.310 --> 05:21.100
Và dựa vào đó sẽ nhận được những phần thưởng nhất định.

05:21.400 --> 05:24.520
Tất nhiên, trong thế giới của AI, nó không phức tạp như vậy.

05:24.520 --> 05:26.860
Bạn không cần phải cho AI xử lý.

05:26.860 --> 05:29.620
Bạn không nhất thiết phải luôn có một túi bánh quy bên mình.

05:29.980 --> 05:32.170
Bạn chỉ cần cho nó một cộng một hoặc một trừ một.

05:32.170 --> 05:37.210
Vì vậy, đó là một lợi thế to lớn mà trong thế giới AI, chúng tôi đã tự tạo ra những AIS này.

05:37.210 --> 05:41.320
Vì vậy, phần thưởng mà chúng tôi đang trao cho họ, nếu bạn nghĩ về nó, điều này thực sự tuyệt vời.

05:41.530 --> 05:43.450
Phần thưởng bạn đang trao cho họ, chúng không thực sự tồn tại.

05:43.450 --> 05:48.430
Chúng chỉ là một cộng hoặc một trừ một hoặc một hoặc một hoặc không hoặc những thứ tương tự.

05:48.430 --> 05:52.990
Vì vậy, đó là tất cả những gì không tồn tại, tất cả những thứ tưởng tượng, nhưng đồng thời nó cũng dẫn đến những kết quả tuyệt vời.

05:53.110 --> 05:58.990
Chúng ta có thể tạo ra những điều tuyệt vời này, những trí tuệ nhân tạo tuyệt vời này bằng trí tuệ nhân tạo tuyệt vời này,

05:58.990 --> 06:02.740
bằng cách chỉ cung cấp những phần thưởng không thực sự tồn tại cộng và trừ một.

06:02.770 --> 06:03.700
Chúng tôi không mất bất cứ chi phí nào.

06:03.700 --> 06:09.700
Nhưng đồng thời, những kết quả này rất giống với Thế giới thực và ví dụ về loài chó.

06:09.700 --> 06:14.650
Nhưng ở đây phần thưởng là kỹ thuật số và chỉ là những con số.

06:14.890 --> 06:18.730
Và với suy nghĩ đó, chúng ta có thể nói một chút về những chú chó robot.

06:18.730 --> 06:19.420
Tôi thích ví dụ này.

06:19.420 --> 06:21.250
Vì vậy, đây chỉ là một bức tranh ngẫu nhiên.

06:21.250 --> 06:27.310
Không nhất thiết phải là chú chó robot chính xác được huấn luyện thông qua học tập củng cố, một số chú chó robot, đặc

06:27.310 --> 06:28.870
biệt là những con lớn hơn.

06:28.870 --> 06:30.850
Bạn sẽ có một thuật toán trong đó.

06:31.180 --> 06:39.190
Và đây thực sự là một ví dụ điển hình về sự khác biệt giữa tác nhân được lập trình trước và tác nhân học tăng

06:39.190 --> 06:39.820
cường.

06:39.820 --> 06:45.100
Vì vậy, bạn có thể có một con chó robot được lập trình sẵn cách đi bộ.

06:45.130 --> 06:49.030
Nó sẽ nói như vậy trong thuật toán đằng sau con chó trong phần mềm, giả sử.

06:49.030 --> 06:49.200
Được chứ.

06:49.240 --> 06:56.230
Vì vậy, để đi bộ, bạn cần đưa chân trái về phía trước, chân trái trước về phía trước, sau đó đưa chân phải ra sau, sau đó đến chân trước,

06:56.230 --> 07:00.220
chân phải về phía trước rồi đến lưng, chân trái về phía trước và lặp lại động

07:00.220 --> 07:00.700
tác đó.

07:00.700 --> 07:04.720
Và đó là định nghĩa của việc đi bộ là một chức năng bên trong chú chó này.

07:05.120 --> 07:08.830
Sau đó, nó có thể có cách ngồi, cách đứng và những thứ tương tự.

07:09.460 --> 07:16.570
Trong khi ở một chú chó robot được huấn luyện thông qua học tập củng cố, điều xảy ra là bạn không lập trình trước cho nó.

07:16.570 --> 07:23.740
Đây là khái niệm chính cho mọi thứ ở đây mà bạn không có bất kỳ thuật toán nào bên trong được mã hóa cứng

07:23.740 --> 07:24.670
vào con chó.

07:24.670 --> 07:28.240
Thay vào đó, bạn có những gì chúng ta sẽ thảo luận trong tương lai.

07:28.240 --> 07:36.160
Bạn có thuật toán học tăng cường này được cho biết rằng, được rồi, vì vậy mục tiêu là đi từ vị trí

07:36.160 --> 07:41.860
hiện tại của bạn, chẳng hạn như không biết gì về điều đó đến cuối phòng.

07:41.860 --> 07:44.170
Và đây là những hành động nhất định bạn có thể thực hiện.

07:44.170 --> 07:47.920
Bạn có thể di chuyển chân phải của bạn, bạn có thể di chuyển chân trái của bạn, bạn có thể di chuyển chân sau phải,

07:48.130 --> 07:49.300
chân phải hoặc chân trái của bạn.

07:49.300 --> 07:51.220
Vì vậy, đây là tất cả các bậc tự do mà bạn có thể làm.

07:51.220 --> 07:52.390
Bạn có thể di chuyển chúng như thế này.

07:52.390 --> 07:53.050
Bạn thực sự có thể thích điều đó.

07:53.050 --> 07:59.230
Vì vậy, giống như danh sách các hành động bạn có thể thực hiện và phần thưởng của bạn là mỗi khi bạn tiến lên một bước, bạn sẽ nhận

07:59.230 --> 08:00.160
được một điểm cộng.

08:00.160 --> 08:03.970
Mỗi khi bạn ngã, bạn sẽ bị trừ một điểm và đó là tất cả những gì cần thiết.

08:03.970 --> 08:07.180
Và sau đó họ chỉ để lại con chó và để nó tự tìm hiểu nó.

08:07.180 --> 08:13.390
Vì vậy, con chó cố gắng đứng lên, nó bị ngã, và nó nhận ra rằng tôi không nên làm hành động đó dẫn đến việc tôi ngã vì mỗi lần

08:13.390 --> 08:17.590
tôi ngã, tôi đều bị trừ một điểm, điều này không tốt cho tôi thì con khác cũng vậy. hành

08:17.590 --> 08:18.940
động đã giúp nó đứng lên.

08:18.940 --> 08:23.470
Và sau đó nó tìm ra nó chỉ là thí nghiệm, thí nghiệm, thí nghiệm, thử mọi thứ một cách ngẫu nhiên và

08:23.470 --> 08:29.290
sau đó tìm ra rằng nó có thể đạt được một bước tiến bằng cách di chuyển chân trước bên phải của nó và nó được cộng một và nó nhận

08:29.290 --> 08:31.330
ra, Ồ, tôi nên làm nhiều hơn của điều đó.

08:31.330 --> 08:31.900
Được, tuyệt đấy.

08:31.900 --> 08:35.530
Vì vậy, bây giờ nó học được rằng nó nên làm nhiều việc này hơn và ít việc kia hơn.

08:35.530 --> 08:42.160
Và thông qua quá trình học hỏi này, nó nhanh chóng, rất nhanh chóng hiểu cách nó có thể đi bộ.

08:42.160 --> 08:49.060
Và những con chó tự tìm ra nó đôi khi có thể đi bộ tốt hơn những con chó được lập

08:49.060 --> 08:49.810
trình trước.

08:49.810 --> 08:55.120
Bởi vì khi chúng tôi lập trình trước mọi thứ, chúng tôi nhìn những con chó sống thực sự và hoặc chúng tôi sử dụng trí tưởng tượng của riêng mình để

08:55.120 --> 08:55.630
làm điều đó.

08:55.630 --> 09:02.170
Trong khi đó, một chú chó học tập tăng cường có thể tự tối ưu hóa mọi thứ và vì đó là một AI nên đôi khi nó có thể thu

09:02.170 --> 09:03.400
được kết quả tốt hơn.

09:03.400 --> 09:07.150
Và đó là cách họ có thể huấn luyện những chú chó robot này chơi bóng đá.

09:07.270 --> 09:12.910
Bạn không thể huấn luyện một con chó bình thường để chơi bóng đá vì đơn giản là toàn bộ cách tiếp cận là khác nhau.

09:12.910 --> 09:21.340
Và nó không phải là điều mà có lẽ một con chó bình thường đã được huấn luyện để làm hoặc đã từng làm trong quá trình tiến

09:21.520 --> 09:22.750
hóa của nó.

09:22.750 --> 09:28.090
Trong khi đó, những chú chó robot học tăng cường có thể rất dễ dàng hiểu cách chơi bóng đá miễn là bạn cho

09:28.090 --> 09:32.560
chúng biết phần thưởng là gì, mục tiêu là gì, những hành động chúng có thể thực hiện là gì.

09:32.830 --> 09:36.880
Vì vậy, đó là cách học tăng cường hoạt động nói chung.

09:36.880 --> 09:39.070
Đó là tổng quan nhanh về học tăng cường.

09:39.070 --> 09:44.560
Tôi hy vọng điều đó khiến bạn rất hào hứng về những gì sẽ xảy ra tiếp theo vì đó là một thế

09:44.560 --> 09:50.800
giới hoàn toàn khác so với các giải pháp được lập trình sẵn hoặc chương trình cứng, các giải pháp được mã hóa cứng mà bạn có

09:50.800 --> 09:51.880
điều kiện, nếu có,.

09:51.880 --> 09:55.900
Điều này rất khác và chúng ta sẽ nói nhiều hơn về điều đó.

09:55.900 --> 09:59.140
Trong thời gian chờ đợi, chúng tôi có một số bài đọc bổ sung cho bạn.

09:59.140 --> 09:59.710
Vì thế.

09:59.940 --> 10:06.760
Nếu bạn muốn có một số tài liệu hỗ trợ, đây là một bài viết tuyệt vời mà bạn có thể xem và xem xét.

10:06.780 --> 10:09.180
Nó được gọi là Học tăng cường đơn giản với TensorFlow.

10:09.210 --> 10:10.500
Nó có mười phần.

10:10.500 --> 10:15.660
Liên kết ở đây và bạn sẽ tìm thấy liên kết đầy đủ có thể nhấp vào trong khóa học.

10:15.660 --> 10:17.750
Tài nguyên là của Arthur Giuliani.

10:17.760 --> 10:24.180
Đó là một bài báo năm 2016 và bạn có thể theo dõi khóa học này và cũng nhận được thông tin bổ sung từ bài báo

10:24.180 --> 10:24.660
đó.

10:24.660 --> 10:29.640
Nhưng hãy nhớ rằng bài viết đó là với TensorFlow, trong khi trong khóa học này, chúng tôi đang

10:29.640 --> 10:33.150
sử dụng PyTorch, do đó, một triển khai khác nhưng triển khai.

10:33.150 --> 10:39.840
Nhưng đồng thời, bạn có thể nhận ra một số điều ở đây và ở đó có thể bổ sung cho việc học của bạn mà chúng ta sẽ thực

10:39.870 --> 10:41.190
hiện trong khóa học này.

10:41.190 --> 10:44.700
Vì vậy, các bài báo tuyệt vời theo sau, ngay cả khi bạn không xem xét việc theo dõi nó một cách chắc chắn.

10:44.700 --> 10:49.860
Chỉ đề phòng thôi, hãy xem phần đầu tiên đó và xem bạn có thích nó không, xem bạn có

10:49.860 --> 10:51.750
muốn đọc thêm một chút không.

10:51.900 --> 10:56.580
Và sau đó chúng tôi có hướng dẫn cụ thể về học tăng cường này.

10:56.580 --> 11:02.370
Có một bài báo của Richard Sutton, được gọi là Giới thiệu một bài học tăng cường.

11:02.370 --> 11:04.590
Đó là một tờ báo năm 1998, rất cũ.

11:04.680 --> 11:08.850
Nhưng đồng thời, bạn có thể học một chút về học tăng cường.

11:09.090 --> 11:14.040
Một số ví dụ như ví dụ về món trứng tráng đó và các ví dụ khác về nơi có thể áp dụng phương

11:14.040 --> 11:14.880
pháp học củng cố.

11:14.880 --> 11:20.520
Và chỉ là tổng quan chung về học tăng cường nếu bạn đang tìm kiếm một số bài đọc bổ sung.

11:20.520 --> 11:23.130
Và trên lưu ý đó, chúng tôi sẽ kết thúc hướng dẫn này.

11:23.130 --> 11:24.570
Rất nóng lòng được gặp lại bạn lần sau.

11:24.570 --> 11:26.100
Và cho đến khi đó, hãy tận hưởng.

11:26.100 --> 11:26.670
TÔI.