WEBVTT

00:00.440 --> 00:02.280
Xin chào và chào mừng đến với hướng dẫn này.

00:02.300 --> 00:07.180
Bây giờ chúng ta sẽ tạo một vòng lặp đầy đủ sẽ tính toán tổn thất chính sách và tổn thất giá trị.

00:07.190 --> 00:12.380
Và một khi chúng tôi có hai khoản lỗ này, chúng tôi sẽ có thể sử dụng trình tối ưu hóa của mình để áp dụng

00:12.380 --> 00:14.270
giảm độ dốc ngẫu nhiên để giảm tổn thất.

00:14.660 --> 00:14.960
Được rồi.

00:14.960 --> 00:15.780
Vậy là xong.

00:15.800 --> 00:17.480
Chúng ta bắt đầu ở đây.

00:17.480 --> 00:23.240
Nhân tiện, trong hướng dẫn trước, chúng tôi đã triển khai phần này và tôi đã quên loại bỏ các thụt lề.

00:23.240 --> 00:24.200
Xin lỗi vì điều đó.

00:24.200 --> 00:30.350
Vì vậy, bắt đầu từ r ở đây không có trong vòng lặp for và bây giờ chúng ta đang bắt đầu một vòng lặp for mới.

00:30.350 --> 00:35.810
Vì vậy, tôi bắt đầu ở đây với bốn và bây giờ những gì chúng tôi sẽ làm là chúng tôi sẽ bắt đầu từ

00:35.810 --> 00:40.220
bước cuối cùng đã được thực hiện trong thời gian hết hạn và chúng tôi sẽ lùi lại thời gian.

00:40.220 --> 00:51.050
Vì vậy, đó là lý do tại sao ở đây tôi đang làm bốn Tôi trong phạm vi đảo ngược Len Phần thưởng vì phần thưởng là danh sách.

00:51.050 --> 00:57.050
Và vì mỗi bước của cuộc khám phá được liên kết với một phần thưởng vì ở mỗi bước chúng ta nhận được phần

00:57.050 --> 01:03.970
thưởng khi Len phần thưởng là số bước này và điều này ngược lại ở đây được sử dụng để chúng ta có thể quay ngược thời gian.

01:03.980 --> 01:04.970
Vậy là xong.

01:04.970 --> 01:10.880
Và bây giờ những gì chúng tôi sẽ làm là cập nhật phần thưởng tích lũy là R và chúng tôi sẽ cập nhật nó theo

01:10.880 --> 01:11.510
cách này.

01:11.510 --> 01:13.790
Điều đó thực sự giống như những gì chúng tôi đã làm cho Doom.

01:13.940 --> 01:18.290
Nó sẽ bằng gamma, mà chúng tôi nhận được từ các tham số của mình.

01:18.290 --> 01:27.650
Tôi đang sử dụng các thông số đầu tiên có gamma nhân với R cộng với phần thưởng của bước, mà chúng ta có thể nhận được bằng cách

01:27.650 --> 01:31.220
lấy phần thưởng danh sách và lấy chỉ số cao.

01:31.250 --> 01:35.930
Vì vậy, đầu tiên, đây sẽ là phần thưởng của bước cuối cùng, sau

01:35.930 --> 01:42.740
đó sẽ là phần thưởng của bước trước và v.v. Và mỗi lần chúng tôi cập nhật bằng cách nhân nó với gamma và sau đó cộng phần thưởng này ở

01:42.740 --> 01:43.250
bước này.

01:43.340 --> 01:47.000
Và vì vậy khi làm điều này, hãy nhớ rằng, cuối cùng thì chúng ta cũng sẽ đạt được.

01:47.000 --> 01:48.860
Vì vậy, tôi sẽ viết nó như một bình luận.

01:48.890 --> 01:56.510
Chúng ta sẽ nhận được phần thưởng tích lũy sẽ bằng ở cuối vòng lặp với

01:56.510 --> 02:08.450
r không, phần thưởng của bước 0 cộng với gamma lần r một, phần thưởng của bước đầu tiên cộng với gamma bình phương nhân với

02:08.450 --> 02:20.600
R cho phần thưởng của bước thứ hai cộng với gamma đó cộng với lũy thừa của n trừ đi một lần phần thưởng thu được

02:20.600 --> 02:25.880
ở bước và trừ đi một với n là số bước.

02:25.880 --> 02:27.290
Nhưng sau đó hãy cẩn thận.

02:27.290 --> 02:32.210
Cuối cùng, chúng ta sẽ có gamma theo lũy thừa của số bước.

02:33.460 --> 02:39.640
Nhân lần giá trị giá trị của hàm V được áp dụng cho trạng thái cuối cùng.

02:39.970 --> 02:47.410
Đây là những gì chúng ta sẽ nhận được ở cuối và điều này chúng ta sẽ nhận được điều đó bởi vì hãy nhớ ở đây chúng ta đã lấy giá trị này của bước cuối

02:47.410 --> 02:50.740
cùng vì điều này đã được thực hiện ở cuối vòng lặp for này ở đây.

02:50.920 --> 02:56.050
Và vì vậy chúng tôi đã nhận được giá trị và chúng tôi đặt giá trị của chúng tôi bằng với giá trị đó.

02:56.140 --> 03:02.650
Vì vậy, ngay bây giờ ở đầu vòng lặp thứ hai này ở đây sẽ bằng giá trị này của trạng thái

03:02.660 --> 03:03.310
nhỏ hơn.

03:03.310 --> 03:10.150
Nhưng sau đó, bằng cách này, đây là những gì chúng ta sẽ nhận được cuối cùng hoặc bằng hoặc không cộng với gamma r một cộng với

03:10.150 --> 03:16.570
gamma bình phương hoặc hai cộng gamma với lũy thừa của n trừ một lần phần thưởng ở bước n trừ một cộng với gamma

03:16.570 --> 03:20.700
là lũy thừa của số bước, nhân với giá trị này của trạng thái nhỏ hơn.

03:20.710 --> 03:25.840
Vì vậy, đó là điều chính cần hiểu trong cách tính phần thưởng tích lũy này.

03:25.840 --> 03:32.740
Và đó là lý do tại sao điều quan trọng là phải bắt đầu từ nó bằng cách khởi tạo của chúng tôi với giá trị ở đây và

03:32.740 --> 03:37.270
thực hiện điều này đảo ngược vòng lặp for để có được phương trình cuối cùng này hoàn hảo.

03:37.270 --> 03:43.570
Và bây giờ chúng ta đã có giá trị phù hợp cho phần thưởng tích lũy, chúng ta sẽ tính toán lợi thế.

03:43.600 --> 03:48.940
Và lợi thế ở đây chỉ là lợi thế khi nhận được phần thưởng này so với giá trị.

03:48.940 --> 03:56.080
Vì vậy, tôi sẽ giới thiệu một lợi thế biến mới và do đó nó sẽ bằng phần thưởng tích

03:56.080 --> 04:01.390
lũy này trừ đi giá trị của hàm V thu được ở Bước II.

04:01.390 --> 04:07.570
Vì vậy, đó là lỗi trừ các giá trị tức là hoàn hảo.

04:07.570 --> 04:13.010
Và bây giờ chúng ta có phần thưởng tích lũy và lợi thế, sau đó chúng ta có thể nhận được khoản lỗ giá trị.

04:13.030 --> 04:19.090
Đây là lớp đầu tiên chúng ta có thể nhận được ngay bây giờ, vì vậy chúng ta sẽ lấy biến mất giá trị của mình và biến

04:19.090 --> 04:20.830
này sẽ được cập nhật theo cách sau.

04:20.830 --> 04:26.980
Hãy nhớ cho đến nay rằng tổn thất giá trị đã được khởi tạo bằng 0 và vì vậy chúng

04:26.980 --> 04:35.320
ta sẽ lấy mất giá trị một lần nữa và thêm 0. 5 lần căn bậc hai của lợi thế để chúng ta có thể nhận được nó theo cách này.

04:35.320 --> 04:39.190
Lợi thế chấm POW hai.

04:39.220 --> 04:43.120
Vì vậy, điều đó chỉ có nghĩa là bình phương của lợi thế, lợi thế ở sức mạnh của hai.

04:43.210 --> 04:50.710
Và đó chính xác là tổn thất giá trị, tổn thất được tạo ra bởi các dự đoán về giá trị của đầu ra hàm

04:50.710 --> 04:52.390
V của nhà phê bình.

04:52.870 --> 04:59.710
Và do đó, nó có ý nghĩa rằng đây là mất giá trị bởi vì hãy nhớ lợi ích a của hành động A ở trạng

04:59.710 --> 05:04.600
thái trạng thái là sự khác biệt giữa giá trị Q và giá trị của hàm V.

05:04.600 --> 05:11.140
Và vì vậy, khi chúng ta chơi tốt các pha hành động tối ưu, chúng ta sẽ có được trạng thái tĩnh.

05:11.170 --> 05:17.530
Q tối ưu của hành động tối ưu mà một ngôi sao chơi ở trạng thái như.

05:18.330 --> 05:21.960
Bằng giá trị tối ưu mà chúng tôi lưu trữ của các trạng thái.

05:21.960 --> 05:28.230
Vì vậy, khá trực quan để hiểu rằng khi lợi thế không bằng 0, thì sẽ có sự khác biệt

05:28.230 --> 05:32.700
giữa hai điều này và do đó đó là cách đo lường tổn thất.

05:33.870 --> 05:37.200
Vì vậy, tổn thất giá trị được tính ít hơn một chút.

05:37.200 --> 05:38.850
Bây giờ chúng ta còn một cái nữa để đi.

05:38.850 --> 05:42.690
Đó là sự mất mát về chính sách và đó chính xác là những gì chúng tôi sẽ tính toán ngay bây giờ.

05:42.690 --> 05:49.530
Và để tính toán nó, chúng ta cần xem xét lại ước tính lợi thế tổng quát, bởi vì để tính toán tổn thất chính sách,

05:49.530 --> 05:55.500
chúng ta cần ước tính lợi thế tổng quát và để có được ước tính lợi thế tổng quát, trước tiên chúng

05:55.500 --> 05:59.610
ta cần sự khác biệt theo thời gian của các giá trị trạng thái.

05:59.610 --> 06:02.940
Vì vậy, chúng tôi có nhiều thứ để tính toán ở đây.

06:02.940 --> 06:05.640
Và chúng ta sẽ bắt đầu với sự khác biệt về thời gian này.

06:05.640 --> 06:10.290
Khi chúng tôi có được sự khác biệt theo thời gian, chúng tôi sẽ có được ước tính lợi thế tổng quát.

06:10.290 --> 06:14.700
Và một khi chúng tôi nhận được ước tính lợi thế tổng quát, chúng tôi sẽ nhận được phần thiệt hại về chính sách.

06:14.700 --> 06:15.390
Được rồi.

06:15.390 --> 06:18.510
Vì vậy, hãy bắt đầu với sự khác biệt về thời gian.

06:18.570 --> 06:31.620
T so t bằng phần thưởng của bước II cộng với gamma mà chúng ta nhận được nhờ vào danh sách tham số của chúng ta.

06:31.620 --> 06:42.660
Vì vậy, tham số gamma nhân với giá trị của Bước II cộng với một và chúng tôi thêm dữ liệu đó để truy cập nó

06:42.660 --> 06:45.900
trừ đi giá trị của bước i.

06:46.740 --> 06:49.380
Và chúng tôi cũng thêm dữ liệu đó.

06:50.150 --> 06:50.480
Được rồi.

06:50.480 --> 06:53.880
Vì vậy, đó là công thức của sự khác biệt theo thời gian của các giá trị trạng thái.

06:53.900 --> 06:58.310
Và bây giờ chúng tôi có thể cập nhật lên ước tính lợi thế tổng quát.

06:58.310 --> 07:08.560
Và nó được cập nhật như thế nào khi chúng ta lấy khí của mình và chúng ta nhân nó với tham số gamma, ô thời gian gamma, mà chúng tôi cũng đã truy

07:08.570 --> 07:10.760
cập bằng các tham số của mình.

07:10.760 --> 07:18.320
Vì vậy, chúng tôi lấy ô tham số và chúng tôi thêm sự khác biệt theo thời gian này của các giá trị trạng thái.

07:18.320 --> 07:19.670
Vì vậy, hãy cẩn thận.

07:19.670 --> 07:26.930
Chúng ta đang ở trong một vòng lặp for và mỗi lần chúng ta nhân khí với gamma và với tau và chúng ta cộng thêm sự chênh lệch thời gian.

07:26.930 --> 07:33.800
Vì vậy, điều quan trọng là phải hiểu rằng ở cuối vòng lặp này, tốt, ước

07:33.950 --> 07:41.630
tính lợi thế tổng quát này sẽ bằng với mặt trời trên tất cả các bước của thời gian gamma.

07:41.630 --> 07:44.810
Tau trước sức mạnh của thời đại AI.

07:44.990 --> 07:47.390
Sự khác biệt về thời gian ở từng bước.

07:48.110 --> 07:48.440
Được rồi.

07:48.440 --> 07:50.300
Vì vậy, điều quan trọng cần ghi nhớ.

07:50.390 --> 07:56.930
Và bây giờ chúng ta có lợi thế tổng quát, ước tính và sự khác biệt theo thời gian, cuối cùng chúng ta có thể

07:56.930 --> 07:58.810
tính toán tổn thất chính sách.

07:58.820 --> 07:59.990
Vì vậy, chúng ta hãy làm điều này.

08:00.020 --> 08:10.070
Chúng tôi sẽ cập nhật tổn thất chính sách của mình theo cách sau đây bằng cách lấy tổn thất chính sách cũ và chúng tôi trừ

08:10.070 --> 08:20.210
xác suất log thu được ở Bước II mà chúng tôi nhân với ước tính lợi thế tổng quát này mà chúng tôi phải đưa vào một biến,

08:20.210 --> 08:23.870
vì khi đó chúng tôi sẽ tính toán gradient.

08:23.870 --> 08:26.930
Vì vậy, nó phải được gắn với một gradient trong đồ thị động.

08:26.930 --> 08:36.470
Và sau đó chúng tôi cộng trừ 0. 01 lần entropi, entropi thu được ở bước II trong vòng lặp for.

08:37.040 --> 08:39.200
Và một lần nữa, bây giờ hãy cẩn thận.

08:39.290 --> 08:45.110
Đây là tính toán bên trong vòng lặp for, có nghĩa là khi kết thúc vòng lặp for, những gì

08:45.110 --> 08:48.140
chúng ta sẽ nhận được là mất chính sách.

08:50.100 --> 08:54.180
Bằng tổng trừ qua các bước.

08:55.060 --> 09:05.050
Trong nhật ký sản phẩm của chính sách ở Bước II nhân với ước tính lợi thế tổng quát cộng với 0

09:05.050 --> 09:06.130
này. 01 cái.

09:07.010 --> 09:09.890
Đôi khi entropy ở bậc cao.

09:09.920 --> 09:10.640
Vậy là xong.

09:10.640 --> 09:12.890
Và bây giờ chính sách ở bước là gì?

09:12.890 --> 09:18.200
Tôi tốt đó là xác suất tối đa mềm của các hành động và entropy ở bước.

09:18.200 --> 09:22.760
Tôi Chà, bạn biết đó là gì, đó là những gì chúng tôi đã tính toán trước đó và những gì chúng tôi đã thêm vào danh sách.

09:22.760 --> 09:24.050
Vì vậy, chúng tôi đã có điều đó.

09:24.050 --> 09:29.420
Nhưng chiếc bánh này ở đây là xác suất tối đa mềm của các hành động.

09:29.960 --> 09:31.990
Và tại sao chúng ta lại đặt dấu trừ ở đây?

09:32.000 --> 09:36.980
Đó là bởi vì log của xác suất và entropy là các giá trị âm.

09:36.980 --> 09:43.280
Và vì chúng ta muốn giảm thiểu giá trị tuyệt đối của chúng, chúng ta phải xem điều này cuối cùng là khả năng xảy ra của nhật ký

09:43.280 --> 09:44.180
thay vì khoảng cách.

09:44.180 --> 09:51.230
Bạn biết đấy, chúng tôi muốn tối đa hóa xác suất chơi hành động sẽ tối đa hóa lợi thế.

09:51.260 --> 09:52.940
Đó là toàn bộ ý tưởng đằng sau nó.

09:52.940 --> 09:57.950
Chúng tôi muốn tối đa hóa xác suất chơi hành động sẽ tối đa hóa lợi thế.

09:57.980 --> 10:03.860
Và đối với những người trong số các bạn có thể tự hỏi mục đích của hệ số entropy là hệ số 0

10:03.860 --> 10:05.630
này là gì. 01 đây?

10:05.660 --> 10:13.370
Chà, mục đích của nó chỉ là để tránh rơi quá nhanh vào một cái bẫy trong đó chúng ta có phân phối xác suất

10:13.370 --> 10:19.280
bằng số không cho tất cả các hành động ngoại trừ một hành động có xác suất là một.

10:19.280 --> 10:22.310
Và nếu điều đó xảy ra, điều đó sẽ giảm thiểu entropy.

10:22.310 --> 10:29.000
Vì vậy, đó là lý do tại sao chúng tôi thêm hệ số 0 nhỏ này. 01 ở đây sẽ làm cho entropy tăng lên trong sự

10:29.000 --> 10:29.990
giảm dần gradient.

10:30.910 --> 10:31.320
Được chứ.

10:31.420 --> 10:35.220
Vì vậy, bây giờ tin tốt là phần khó khăn nhất đã được thực hiện.

10:35.230 --> 10:40.990
Chúng tôi có hai khoản lỗ và do đó điều chúng tôi chỉ cần làm bây giờ và chúng tôi đã biết cách làm

10:40.990 --> 10:44.560
là thực hiện giảm độ dốc ngẫu nhiên để giảm hai khoản lỗ này.

10:44.950 --> 10:51.430
Và vì vậy những gì chúng ta sẽ làm bây giờ là thoát ra khỏi vòng lặp này và chúng ta sẽ sử dụng trình tối ưu hóa của mình, công

10:51.430 --> 10:53.110
cụ mà chúng tôi đã tạo riêng.

10:53.290 --> 10:58.420
Sau đó, hãy nhớ rằng, điều đầu tiên chúng ta phải làm là khởi tạo tất cả các tham số gradient về 0.

10:58.420 --> 11:04.210
Và để làm điều này, chúng tôi thêm dấu chấm rồi đến phương pháp lưới không gạch dưới.

11:04.690 --> 11:06.790
Được rồi, vậy là xong.

11:06.790 --> 11:11.680
Bây giờ chúng ta sẽ thực hiện tuyên truyền ngược, nhưng chúng ta sẽ đánh giá tầm quan trọng của chính sách

11:11.680 --> 11:15.490
nhiều gấp đôi so với giá trị bị mất vì tổn thất chính sách nhỏ hơn.

11:15.730 --> 11:25.630
Vì vậy, để làm điều này, chúng ta sẽ đưa vào chính sách dấu ngoặc đơn, dấu gạch dưới mất cộng với 0. Giảm giá trị 5.

11:26.620 --> 11:30.160
Vì vậy, 4. Giảm giá trị gấp 5 lần.

11:30.430 --> 11:38.260
Và chúng tôi sẽ thêm dấu chấm ở đây và chúng tôi đã áp dụng phương pháp quay ngược để thực hiện truyền ngược.

11:38.260 --> 11:44.110
Và nhờ thủ thuật này ở đây với khoản lỗ chính sách cộng với một nửa phần giá trị bị mất, chúng tôi đánh giá tầm quan trọng

11:44.110 --> 11:46.870
của chính sách ít hơn gấp đôi so với giá trị bị mất.

11:47.680 --> 11:53.560
Sau đó, chúng ta sẽ sử dụng một thủ thuật khác, đó là ngăn không cho gradient nhận các giá trị

11:53.560 --> 11:56.770
cực lớn và do đó để tạo ra thuật toán.

11:56.770 --> 12:03.700
Và mẹo để làm điều đó là đầu tiên lấy thư viện ngọn đuốc của chúng ta, sau đó là mô-đun bên trong từ

12:03.970 --> 12:07.210
thư viện ngọn đuốc, sau đó là mô-đun phụ utils.

12:07.210 --> 12:14.080
Và bây giờ chúng ta sẽ sử dụng clip chức năng, gạch dưới điểm số trên tiêu chuẩn điểm số và

12:14.080 --> 12:20.740
chúng ta sẽ nhập các thông số mô hình của mình với đầu vào thứ hai sẽ là 40.

12:20.980 --> 12:26.530
Và thủ thuật đó về cơ bản sẽ đảm bảo rằng gradient sẽ không nhận các giá trị cực lớn và

12:26.530 --> 12:27.850
thuật toán tạo ra.

12:28.000 --> 12:31.480
Và đối với những người trong số các bạn, những người có thể tự hỏi 40 năm này chính xác là gì.

12:31.570 --> 12:37.540
Điều đó chỉ có nghĩa là chúng ta đang sử dụng giá trị này để tiêu chuẩn của gradient nằm trong khoảng từ

12:37.540 --> 12:38.410
0 đến 40.

12:38.410 --> 12:42.220
Và do đó, đó là cách chúng tôi ngăn không cho gradient nhận các giá trị quá lớn.

12:43.660 --> 12:44.980
Vì vậy, bây giờ chúng tôi gần như hoàn thành.

12:44.980 --> 12:52.750
Hãy nhớ rằng, chúng tôi đã thực hiện chức năng đảm bảo chia sẻ này ở đầu tệp, nghĩa là để đảm bảo rằng tác nhân và mô

12:52.750 --> 12:59.650
hình được chia sẻ chia sẻ cùng một gradient và làm điều này để đảm bảo rằng chúng tôi có thể áp dụng chức năng

12:59.650 --> 13:00.610
này tại đây.

13:01.030 --> 13:13.240
Và vì vậy, chúng tôi sẽ thêm các mạng chung đảm bảo để đảm bảo rằng mô hình và mô hình được chia sẻ có cùng

13:13.240 --> 13:14.290
độ dốc.

13:14.500 --> 13:14.830
Được rồi.

13:14.830 --> 13:16.450
Vì vậy, đó chỉ là một biện pháp phòng ngừa.

13:16.450 --> 13:21.310
Tôi không chắc điều đó có hoàn toàn cần thiết hay không, nhưng bạn biết đấy, ít nhất chúng tôi sẽ không gặp bất kỳ vấn đề nào ở đây.

13:22.440 --> 13:29.730
Và cuối cùng, dòng mã cuối cùng, tất nhiên, chúng tôi sẽ thực hiện bước tối ưu hóa để giảm tổn thất

13:29.730 --> 13:32.040
và bạn biết cách thực hiện.

13:32.070 --> 13:40.310
Tất nhiên, chúng tôi sử dụng trình tối ưu hóa của mình và chúng tôi thêm bước đó với dấu ngoặc đơn và chúng tôi bắt đầu.

13:40.320 --> 13:43.210
Quá trình đào tạo bộ não của chúng ta đã kết thúc.

13:43.260 --> 13:44.670
Vì vậy, xin chúc mừng.

13:44.670 --> 13:46.820
Tôi hy vọng điều này không quá áp đảo.

13:46.830 --> 13:49.410
Đừng lo lắng, tôi sẽ cung cấp mã với tất cả các ý kiến.

13:49.410 --> 13:53.190
Vì vậy, nếu bạn bỏ lỡ bất kỳ chi tiết, bạn có thể xem các ý kiến.

13:53.190 --> 13:55.860
Và đừng lo lắng nếu bạn chưa hiểu gì.

13:55.860 --> 13:57.180
Điều này là rất tiên tiến.

13:57.180 --> 14:00.600
Nhưng yên tâm, đây cũng là loại mạnh nhất.

14:00.600 --> 14:03.930
Hãy nhớ rằng, nó được tạo ra từ người tạo ra PyTorch là ai.

14:03.930 --> 14:07.800
Vì vậy, chúng tôi đang thực sự làm việc với những gì tốt nhất ở đây, hiện đại nhất.

14:07.800 --> 14:13.560
Vì vậy, điều đó là hoàn toàn bình thường nếu bạn không đạt được mọi thứ trong lần đầu tiên, nhưng bằng cách làm việc nhiều lần, bạn

14:13.560 --> 14:15.840
chắc chắn sẽ ngày càng cảm thấy thoải mái hơn.

14:16.260 --> 14:18.960
Vì vậy, bây giờ chúng ta đã hoàn thành khóa đào tạo.

14:18.960 --> 14:22.770
Vì vậy, về cơ bản chúng tôi đã làm tất cả những thứ quan trọng nhất.

14:22.770 --> 14:28.080
Bạn biết đấy, chúng tôi đã tạo ra bộ não bằng cách xây dựng kiến trúc của mạng nơ-ron với các lớp chập,

14:28.080 --> 14:30.360
lshtm và các lớp được kết nối đầy đủ.

14:30.360 --> 14:34.290
Chúng tôi đào tạo bộ não này bằng cách tạo mã tàu này ở đây.

14:34.290 --> 14:37.080
Vậy là cơ bản đã xong phần trung tâm của thuật toán.

14:37.080 --> 14:39.510
Bạn đã làm được a3c, xin chúc mừng.

14:39.510 --> 14:43.830
Bây giờ chúng tôi có một số việc phải làm nữa, nhưng đó chỉ là để có được một phần thú vị.

14:43.830 --> 14:52.290
Bạn biết đấy, chúng tôi cần thực hiện thử nghiệm này mà mọi người thất bại, điều này sẽ kiểm tra tác nhân và cung cấp video về

14:52.290 --> 14:53.970
sự đột phá của AI.

14:53.970 --> 14:55.980
Vì vậy, điều này sẽ rất thú vị để xem.

14:56.010 --> 15:02.190
Chúng tôi sẽ không viết mã tất cả các dòng của bài kiểm tra này trên tệp PI vì như chúng tôi đã nói, chúng tôi đã làm điều quan

15:02.190 --> 15:02.700
trọng nhất.

15:02.700 --> 15:06.870
Tôi sẽ liên hệ nó với a3c, nhưng tất nhiên tôi sẽ giải thích mã.

15:06.870 --> 15:11.670
Và cuối cùng chúng ta có tệp da pi chính này sẽ thực thi mã.

15:11.670 --> 15:15.840
Và kể từ thời điểm chúng tôi thực thi mã này, tất cả các mã sẽ được tạo.

15:15.840 --> 15:21.960
Vì vậy, bộ não sẽ được tạo ra, quá trình đào tạo sẽ diễn ra và AI sẽ chơi các trò chơi đột phá mới và chúng

15:21.960 --> 15:23.790
tôi sẽ nhận được tất cả các video.

15:23.790 --> 15:26.370
Vì vậy, tôi không thể chờ đợi để cuối cùng xem chúng.

15:26.370 --> 15:29.720
Chúng ta sẽ xem liệu AI có đủ thông minh để bắt bóng hay không.

15:29.730 --> 15:36.390
Vì vậy, bây giờ tôi sẽ gặp bạn trong hướng dẫn tiếp theo cho bài kiểm tra PI này để chúng ta có thể kiểm tra AI trên một số trò

15:36.390 --> 15:39.000
chơi mới và cho đến lúc đó, hãy tận hưởng AI.