WEBVTT

00:00.090 --> 00:00.923
Người hướng dẫn:

00:00.923 --> 00:03.870
Xin chào các bạn của tôi và chào mừng bạn đến với trường hợp sử

00:03.870 --> 00:07.560
dụng khoa học dữ liệu mới này với ChatGPT, lần này sẽ là về học tăng cường.

00:07.560 --> 00:09.420
Vì vậy, chúng tôi sẽ nói với ChatGPT

00:09.420 --> 00:13.260
ngay bây giờ rằng chúng tôi đã lập trình một chiếc ô tô tự lái ảo mà chưa

00:13.260 --> 00:14.730
có bất kỳ AI nào.

00:14.730 --> 00:19.020
Vì vậy, chúng tôi vừa triển khai khả năng tiến lên, rẽ

00:19.020 --> 00:21.300
trái, rẽ phải và dừng lại.

00:21.300 --> 00:25.050
Và chúng ta sẽ nói rằng chiếc xe tự lái này sẽ được thưởng

00:25.050 --> 00:27.540
nếu nó đến được một điểm đến nhất định

00:27.540 --> 00:30.420
và bị phạt nếu nó đi ra khỏi điểm đến này hoặc

00:30.420 --> 00:33.360
nếu nó gặp phải một số chướng ngại vật.

00:33.360 --> 00:35.460
Được rồi, sau đó chúng ta sẽ hỏi ChatGPT

00:35.460 --> 00:37.680
nên triển khai mô hình AI nào cho ô tô

00:37.680 --> 00:40.020
tự lái và triển khai như thế nào.

00:40.020 --> 00:40.853
Được rồi?

00:40.853 --> 00:41.686
Vì vậy, hãy làm điều này.

00:41.686 --> 00:43.530
Tôi sẽ mở một cuộc trò chuyện mới ở đây.

00:43.530 --> 00:45.637
Và bên trong chúng

00:45.637 --> 00:49.110
ta sẽ nói chính xác, "Này,

00:49.110 --> 00:53.550
tôi đã lập trình một chiếc ô tô

00:53.550 --> 00:57.000
tự lái ảo với các hành động

00:57.000 --> 01:04.710
là tiến lên, rẽ trái, rẽ phải và dừng lại.

01:04.710 --> 01:08.370
Và sau đó chiếc xe này sẽ được

01:08.370 --> 01:13.370
thưởng khi nó đến một điểm đến nhất

01:13.890 --> 01:16.080
định và bị phạt

01:16.080 --> 01:19.980
nếu nó đi xa hơn điểm đến này

01:19.980 --> 01:23.070
hoặc nếu nó gặp phải một

01:23.070 --> 01:28.070
số chướng ngại vật. Được rồi, bây giờ, hãy tham lam hơn.

01:28.650 --> 01:29.760
Tôi chỉ muốn hỏi một số

01:29.760 --> 01:31.530
đề xuất về cách xây dựng mô hình học

01:31.530 --> 01:34.110
tăng cường cho xe tự lái, nhưng thực ra chúng ta hãy

01:34.110 --> 01:35.490
trực tiếp xây dựng nó.

01:35.490 --> 01:38.700
Tại sao không?

01:38.700 --> 01:39.533
Hãy xem ChatGPT có khả năng gì.

01:39.533 --> 01:41.730
Vì vậy, tôi sẽ hỏi, "Bạn

01:41.730 --> 01:44.650
có thể vui lòng viết cho tôi

01:45.750 --> 01:49.230
một mã Python bằng cách sử dụng các

01:49.230 --> 01:53.580
thư viện tốt nhất để xây dựng mô hình học

01:53.580 --> 01:58.580
tăng cường triển khai AI bên trong chiếc xe tự

01:59.340 --> 02:01.770
lái đó không? Được rồi, hỏi điều này hơi

02:01.770 --> 02:06.750
tham lam, nhưng chúng ta không bao giờ biết được.

02:08.010 --> 02:09.870
ChatGPT có thể cung cấp cho chúng tôi chính xác những gì chúng tôi muốn.

02:09.870 --> 02:11.160
Vì vậy, hãy thử và nếu

02:11.160 --> 02:14.010
nó gặp bất kỳ rắc rối nào, chúng tôi sẽ giúp nó.

02:14.010 --> 02:16.500
Được rồi, vậy hãy nhấn Enter và chúng ta bắt đầu.

02:16.500 --> 02:17.340
Chắc chắn rồi, được rồi, đó lại là một khởi đầu tuyệt vời.

02:17.340 --> 02:20.670
"Tôi có thể giúp bạn bắt đầu triển khai mô hình học

02:20.670 --> 02:22.477
tăng cường cho ô tô tự lái của

02:22.477 --> 02:24.180
bạn bằng Python. Tuyệt vời.

02:24.180 --> 02:25.230
"Đây là một số mã minh họa cách

02:25.230 --> 02:26.700
bạn có thể sử dụng, thư viện OpenAI Gym. Tuyệt vời.

02:26.700 --> 02:27.533
"Để đào tạo một mô

02:27.533 --> 02:29.730
hình học tăng cường cho ô tô tự lái của bạn. Được rồi, điều đó thực sự tuyệt vời, tôi không ngờ rằng ChatGPT lại làm được điều

02:29.730 --> 02:30.960
đó một cách dễ dàng như vậy và những gì nó đang

02:30.960 --> 02:31.793
làm hiện giờ đều có ý nghĩa.

02:31.793 --> 02:33.180
Nó đang khởi tạo, bảng Q, số lượng

02:33.180 --> 02:34.920
trạng thái, số lượng hành động, tỷ lệ học

02:34.920 --> 02:36.330
tập được khởi tạo thành 0. 1, hệ số

02:36.330 --> 02:40.050
chiết khấu về 0. 95.

02:40.050 --> 02:43.230
Điều này thực sự tuyệt vời, tôi rất kinh ngạc.

02:43.230 --> 02:45.600
Tỷ lệ thăm dò về 0. 5, số tập tối đa là 1.000,

02:45.600 --> 02:47.670
số bước tối đa cho mỗi tập

02:47.670 --> 02:49.920
là 100.

02:49.920 --> 02:51.660
Sau đó, nó đào tạo mô hình Q-learning, thật tuyệt vời.

02:51.660 --> 02:54.270
Sau đó, tôi sẽ thách thức anh ấy triển khai một mô hình tiên

02:54.270 --> 02:55.743
tiến hơn như mô hình

02:56.610 --> 02:58.950
deep Q-learning hoặc A3C nhưng hãy xem nào.

02:58.950 --> 03:01.950
Nó thực hiện mọi thứ từ đầu với Vòng lặp For.

03:01.950 --> 03:04.770
Nó bắt đầu bằng cách chọn một hành động, sau

03:04.770 --> 03:07.140
đó nó thực hiện bước mà AI thực hiện

03:07.140 --> 03:09.810
hành động, sau đó nó cập nhật bảng Q và sau

03:09.810 --> 03:12.720
đó đặt trạng thái cho ngày tiếp theo.

03:12.720 --> 03:16.380
Đây thực sự là quá trình học tăng cường, quá trình Q-learning,

03:16.380 --> 03:18.030
điều này thật tuyệt vời.

03:18.030 --> 03:21.690
Sau đó, nó thậm chí còn triển khai cách kiểm tra mô hình

03:21.690 --> 03:25.410
Q-learning, và cuối cùng, nó đóng môi trường.

03:25.410 --> 03:26.243
Wow, điều đó thực sự tuyệt vời.

03:26.243 --> 03:28.260
Được rồi, tôi không mong đợi nhiều như vậy.

03:28.260 --> 03:30.510
Vì vậy, vì nó đã làm điều đó quá dễ dàng, hãy

03:30.510 --> 03:33.450
thực sự thử thách nó nhiều hơn, thậm chí khó hơn.

03:33.450 --> 03:36.960
Vì vậy, trước tiên, tất nhiên, hãy nói, "Cảm ơn

03:36.960 --> 03:39.780
rất nhiều, điều đó thực sự hữu ích.

03:39.780 --> 03:41.430
Tuy nhiên, tôi

03:41.430 --> 03:43.080
đã biết cách triển

03:43.080 --> 03:46.470
khai Q-learning.

03:46.470 --> 03:48.247
Vì vậy, bạn có

03:48.247 --> 03:52.593
thể vui lòng làm điều tương tự với

03:54.690 --> 03:56.040
mô hình học

03:56.040 --> 03:59.700
tăng cường nâng cao hơn chẳng

03:59.700 --> 04:04.260
hạn như deep Q-learning không. Hoặc thậm chí tốt hơn, hãy siêu tham lam.

04:04.260 --> 04:06.210
"Một mô hình học tập củng cố hiện đại. Được rồi, sẵn sàng cho việc này chưa?

04:06.210 --> 04:09.030
Chúng ta đi đây.

04:09.030 --> 04:11.280
Và tất nhiên. Anh ấy luôn nói, "Chắc chắn rồi. Thật ngạc nhiên.

04:11.280 --> 04:16.280
"Đây là một số mã chứng minh cách bạn có thể

04:18.720 --> 04:21.990
sử dụng thư viện đường cơ sở OpenAI

04:21.990 --> 04:25.297
để đào tạo mô hình Q-learning

04:25.297 --> 04:30.297
sâu, DQN, cho ô tô tự lái của bạn. Và ở đây chúng tôi đi một lần nữa.

04:32.340 --> 04:33.420
Nó cung cấp cho chúng tôi mã.

04:33.420 --> 04:34.980
Điều đó thực sự tuyệt vời.

04:34.980 --> 04:36.420
Được rồi, vâng, bây giờ nó sử dụng thư viện Wrap

04:36.420 --> 04:37.800
DeepMind từ thư viện Atari chung của đường

04:37.800 --> 04:38.633
cơ sở và lần này nó triển khai

04:38.633 --> 04:39.870
lại AI với mô hình Q-learning sâu.

04:39.870 --> 04:42.180
Điều đó thực sự, thực sự tuyệt vời.

04:42.180 --> 04:44.760
"Mã này sử dụng thuật toán DQN để đào tạo mô hình Q-learning

04:44.760 --> 04:45.900
sâu cho ô tô tự lái của bạn.

04:45.900 --> 04:47.310
Mô hình sẽ học cách thực hiện hành động tốt

04:47.310 --> 04:49.140
nhất ở mỗi trạng thái để tối đa hóa phần thưởng.

04:49.140 --> 04:50.820
Ngoài ra, nếu muốn sử

04:50.820 --> 04:55.820
dụng mô hình học tăng cường nâng cao hơn, bạn có thể sử dụng thư

04:57.300 --> 05:01.260
viện OpenAI Spinning Up, nơi cung cấp triển khai

05:01.260 --> 05:03.270
các thuật toán học tăng cường

05:03.270 --> 05:05.040
tiên tiến nhất.

05:05.040 --> 05:07.117
Đây là một số mã minh họa cách bạn có thể

05:07.117 --> 05:09.450
sử dụng thư viện Spinning Up để huấn luyện

05:09.450 --> 05:12.120
tối ưu hóa chính sách gần nhất, mô hình PPO. Thật vậy, đó là một mô hình tuyệt vời.

05:12.120 --> 05:15.450
"Đối với xe tự lái của bạn. Và đây, nó cung cấp lại cho bạn mô hình

05:15.450 --> 05:17.430
với toàn bộ mã.

05:17.430 --> 05:20.460
Ồ, thật là một cuộc cách mạng, ChatGPT này.

05:20.460 --> 05:21.930
Nghiêm túc mà nói, tôi thực sự ấn tượng.

05:21.930 --> 05:24.450
Phải rồi, bạn đã có mã.

05:24.450 --> 05:26.790
"Mã này sử dụng thuật toán PPO để

05:26.790 --> 05:28.380
đào tạo mô hình học tăng

05:28.380 --> 05:30.960
cường cho ô tô tự lái của bạn.

05:30.960 --> 05:32.250
Mô hình sẽ học cách thực hiện các

05:32.250 --> 05:34.950
hành động để tối đa hóa tổng phần thưởng chiết khấu dự kiến.

05:34.950 --> 05:36.097
Tôi hi vọng cái này giúp được.

05:36.097 --> 05:37.290
Hãy cho tôi biết nếu bạn có bất

05:37.290 --> 05:39.690
kỳ câu hỏi nào, hoặc nếu bạn muốn được hỗ trợ thêm. Chà, ngay cả tôi cũng không mong đợi nhiều như

05:39.690 --> 05:40.950
vậy, vì vậy tôi chỉ ấn tượng

05:40.950 --> 05:44.430
giống như bạn, cùng một lúc làm tất cả những điều này.

05:44.430 --> 05:47.220
Vì vậy, chúng tôi sẽ nói, "Xin chân thành cảm ơn, điều đó thật tuyệt vời. Và thực hiện.

05:47.220 --> 05:49.357
Một lần nữa xin cảm ơn bạn đã xem trường hợp sử

05:49.357 --> 05:51.210
dụng khoa học dữ liệu này với ChatGPT.

05:51.210 --> 05:52.530
Bây giờ chúng ta hãy chuyển sang cái tiếp theo.

05:52.530 --> 05:53.940
Và cho đến lúc đó, hãy tận hưởng việc học máy.