WEBVTT

00:00.240 --> 00:05.250
Xin chào và chào mừng bạn đến với Phần hai đào tạo AI với phương pháp học tích hợp sâu sắc.

00:05.250 --> 00:06.090
Đúng rồi.

00:06.090 --> 00:11.460
Bây giờ chúng tôi đã xây dựng AI với kiến trúc của mạng nơ-ron, cơ thể, cách các hành

00:11.460 --> 00:16.980
động được thực hiện và mọi thứ, đã đến lúc đào tạo AI này bằng cách học sâu và phức hợp.

00:16.980 --> 00:22.740
Vì vậy, đó là kể từ bây giờ chúng tôi sẽ triển khai phát lại trải nghiệm, làm việc với các giá

00:22.740 --> 00:28.950
trị gợi ý, làm việc với phần thưởng và thậm chí sẽ có phần thưởng sẽ cải thiện rất nhiều quy trình đào tạo và

00:28.950 --> 00:31.410
đó được gọi là dấu vết đủ điều kiện.

00:31.530 --> 00:38.940
Theo dõi tính đủ điều kiện là một kỹ thuật mạnh mẽ bao gồm tích lũy phần thưởng qua một số bước và các giá trị tín hiệu được học

00:38.940 --> 00:44.700
trên phần tích lũy phần thưởng này trái ngược với trước đây, trong đó các giá trị tín hiệu được học sau mỗi

00:44.700 --> 00:50.250
lần chuyển đổi, do đó, sau khi nhận được mỗi phần thưởng, điều này thời gian chúng ta sẽ học các giá

00:50.250 --> 00:54.390
trị gợi ý sau khi nhận được nhiều phần thưởng thay vì chỉ một phần thưởng.

00:54.390 --> 01:01.020
Vì vậy, thay vì có quá trình chuyển đổi này đến chuyển đổi khác và cập nhật giá trị dấu hiệu mỗi lần, tốt, các giá trị

01:01.020 --> 01:07.590
dấu hiệu sẽ được cập nhật theo từng bước bởi vì dấu vết tính đủ điều kiện được gọi đúng hơn và các bước theo dõi

01:07.590 --> 01:12.570
tính đủ điều kiện và MN là số này sau đó giá trị dấu hiệu sẽ được cập nhật.

01:12.570 --> 01:15.390
Và trong mô hình của chúng tôi ở đây, chúng tôi sẽ có một số bằng mười.

01:15.390 --> 01:20.910
Vì vậy, điều đó có nghĩa là chúng tôi sẽ theo dõi tính đủ điều kiện mười bước và do đó, chúng tôi sẽ cập nhật và

01:20.910 --> 01:25.470
tìm hiểu các giá trị gợi ý sau mỗi mười bước sau khi tích lũy phần thưởng trên mười bước này.

01:25.470 --> 01:29.490
Vì vậy, đó là một phần thưởng sẽ làm cho mô hình của chúng tôi thậm chí còn mạnh mẽ hơn.

01:29.490 --> 01:33.000
Và bạn sẽ thấy rằng cuối cùng chúng ta sẽ nhận được kết quả vượt trội.

01:33.000 --> 01:35.820
Tôi thực sự ngạc nhiên khi xem kết quả cuối cùng.

01:35.820 --> 01:40.200
Tôi đã từng làm việc trên các mô hình mất rất nhiều thời gian để thực hiện.

01:40.200 --> 01:44.280
Bạn biết đấy, AI mất rất nhiều thời gian để đào tạo, nhưng bạn sẽ thấy điều đó với cái này.

01:44.280 --> 01:50.400
Cộng với mạng lưới thần kinh mà chúng tôi đã tạo ra, đó là bộ não và cơ thể của chúng tôi ở đây với những thứ, Max, chúng tôi

01:50.400 --> 01:56.460
sẽ có được một trí tuệ nhân tạo rất mạnh mẽ và do đó rất mạnh mẽ bởi vì bạn sẽ thấy rằng nó sẽ phát triển triệt để.

01:56.490 --> 01:58.920
Bạn có hiểu tôi đang nói gì không?

01:59.100 --> 02:04.980
Vì vậy, như bạn có thể thấy trong phần hai này, chúng ta đang bắt đầu bằng cách tạo môi trường diệt vong và tôi thực sự

02:04.980 --> 02:06.510
chuẩn bị các dòng mã cho bạn.

02:06.540 --> 02:12.690
Chúng tôi chỉ đang sử dụng tệp bên ngoài xử lý trước hình ảnh từ thư mục thư mục làm việc của chúng tôi.

02:12.690 --> 02:19.980
Vì vậy, về cơ bản, thứ tự trước tiên là lấy dòng mã này Jim làm cho mã pachyderm bằng không.

02:19.980 --> 02:24.270
Vì vậy, mã doom của số 0 là tên của môi trường của trò chơi chúng ta đang chơi.

02:24.270 --> 02:26.910
Vì vậy, đầu tiên chúng ta nhập môi trường với cái này.

02:26.910 --> 02:35.250
Jim tạo ra đó là những gì bạn có thể tìm thấy trên hướng dẫn Jim đang mở nhưng sau đó chúng tôi sử dụng lớp hình

02:35.250 --> 02:42.300
ảnh tiền xử lý này là lớp từ tiền xử lý hình ảnh đến xử lý trước các hình ảnh sẽ đi vào

02:42.300 --> 02:48.930
mạng nơ-ron và chúng tôi xử lý trước để chúng có định dạng hình vuông có kích thước 80 x 80.

02:48.930 --> 02:56.400
Và điều đó ghi nhớ bởi vì trong mạng nơ-ron của chúng tôi, nơi chúng tôi đặt hình ảnh đầu vào có kích thước

02:56.400 --> 03:00.360
lần lượt là 80 x 80, hãy nhớ một là số kênh.

03:00.360 --> 03:03.360
Và một nghĩa là chúng ta đang làm việc với hình ảnh đen trắng.

03:03.420 --> 03:06.150
Vì vậy, đó là thang màu xám ở đây.

03:06.600 --> 03:13.920
Và 80 x 80 có nghĩa là kích thước của hình ảnh đầu vào của chúng ta sẽ là 80 x 80 và đó là những gì chúng ta thiết lập

03:13.920 --> 03:14.670
trong mạng nơ-ron.

03:14.670 --> 03:21.000
Nhưng tất nhiên sau đó chúng ta cần chỉ định điều này khi nhập hình ảnh, đó chính xác là những gì chúng ta làm ở đây

03:21.000 --> 03:22.950
với lớp hình ảnh tiền xử lý này.

03:23.400 --> 03:29.370
Và sau khi chúng tôi nhập môi trường với định dạng phù hợp của hình ảnh đầu vào, tốt, chúng tôi nhập toàn

03:29.370 --> 03:32.250
bộ trò chơi với các video có dòng mã này.

03:32.250 --> 03:37.650
Và hãy nhớ điều thú vị về điều này là cuối cùng chúng ta sẽ thấy các video về AI của chúng ta đang chơi trò diệt vong.

03:37.650 --> 03:41.880
Vì vậy, chúng ta sẽ xem nó sẽ giết những con quái vật như thế nào, cố gắng tiếp cận chiếc áo quan và mọi thứ.

03:41.910 --> 03:43.290
Vì vậy, đó sẽ là siêu thú vị.

03:43.290 --> 03:47.940
Và hãy nhớ rằng những video này sẽ đi vào thư mục video này.

03:48.480 --> 03:49.050
Được rồi.

03:49.050 --> 03:52.980
Và dòng cuối cùng ở đây, nhưng tôi muốn cho bạn xem, bởi vì điều đó quan trọng.

03:52.980 --> 03:56.610
Điều đó hiện liên quan nhiều hơn đến AI mà chúng tôi đang xây dựng.

03:56.610 --> 04:02.610
Chà, hãy nhớ rằng mạng nơ-ron của chúng ta coi như các hành động số đầu vào.

04:02.610 --> 04:07.710
Đó là bởi vì, bạn biết đấy, chúng tôi muốn tạo ra một AI mà chúng tôi có thể thử nghiệm dễ dàng trên một số môi

04:07.710 --> 04:09.390
trường, trên một số môi trường diệt vong.

04:09.390 --> 04:15.040
Và vì các môi trường diệt vong khác nhau có số lượng hành động khác nhau nên chúng tôi chỉ

04:15.060 --> 04:19.080
định biến số hành động này làm đầu vào của CNN, bộ não.

04:19.080 --> 04:26.160
Và do đó bây giờ những gì chúng ta sẽ làm là lấy biến số hành động này bằng cách sử dụng môi trường doom

04:26.160 --> 04:29.040
mà chúng ta vừa nhập và tạo vào biến này.

04:29.040 --> 04:34.410
Và sau này, biến số hành động mà chúng ta sắp tạo ra sẽ là đầu vào của bộ não.

04:34.620 --> 04:35.820
Vì vậy, chúng ta hãy làm điều này.

04:35.820 --> 04:40.230
Tôi đang giới thiệu số lượng hành động có thể thay đổi thực tế này.

04:40.230 --> 04:42.420
Vì vậy, số lượng hành động bằng.

04:42.450 --> 04:45.630
Bây giờ chúng ta sẽ lấy môi trường diệt vong của chúng ta.

04:45.630 --> 04:47.730
Đó là biến mà chúng tôi đã tạo.

04:47.880 --> 04:52.590
Vì vậy, môi trường diệt vong, sau đó chúng tôi thêm vào đây dấu chấm và sau đó tốt ở đây chúng tôi bắt đầu.

04:52.590 --> 04:54.780
Chúng tôi lấy không gian hành động đầu tiên ở đây.

04:54.780 --> 04:56.970
Đó là tập hợp các hành động của bạn.

04:56.970 --> 04:59.910
Tôi khuyến khích bạn nên xem phần mở đầu.

05:00.060 --> 05:05.430
Bạn biết đấy, hãy tích cực xem nó hoạt động như thế nào để hiểu cách hoạt động của môi trường phòng tập thể dục ngoài trời.

05:05.430 --> 05:07.800
Nhưng về cơ bản đây là tập hợp các hành động.

05:07.800 --> 05:12.750
Và từ tập hợp các hành động này, chúng ta có thể truy cập số lượng các hành động trong môi trường.

05:12.750 --> 05:21.000
Và để làm điều này, chúng tôi đã thêm rằng ở đây và DN là số hành động và do đó diệt vong và không gian hành

05:21.000 --> 05:23.790
động đó chấm n sẽ trả về bảy.

05:23.790 --> 05:26.520
Nó sẽ trả về bảy vì có bảy hành động.

05:26.520 --> 05:32.250
Tôi biết rằng chúng ta có thể thấy sáu hành động trong môi trường diệt vong trên trang mở đầu, nhưng tôi nghĩ chúng ta

05:32.250 --> 05:38.820
cũng có thể chạy và vì vậy chúng ta có thể tiến lên phía trước, di chuyển sang trái, di chuyển sang phải, rẽ trái, rẽ phải và bắn.

05:38.820 --> 05:39.990
Và bên cạnh đó, chúng ta có thể chạy.

05:39.990 --> 05:41.370
Vì vậy, điều đó tạo ra bảy hành động.

05:42.140 --> 05:42.520
Được rồi.

05:42.530 --> 05:47.750
Và đó là để có được môi trường diệt vong mà chúng ta có, môi trường diệt vong mà chúng ta có số lượng

05:47.750 --> 05:48.350
hành động.

05:48.350 --> 05:52.640
Vì vậy, cho đến nay chúng ta có mọi thứ mà chúng ta cần cho bộ não của mình.

05:52.640 --> 05:58.220
Sau đó, chúng tôi sẽ chỉ tạo một đối tượng, một đối tượng não, mà chúng tôi sẽ gọi là CNN và các chữ cái tối thiểu.

05:58.220 --> 06:03.860
Và vì hàm init có một số hành động làm đối số, nên chúng tôi sẽ nhập số hành

06:03.860 --> 06:06.890
động vào đối tượng CNN mà chúng tôi sẽ tạo.

06:07.310 --> 06:11.630
Và tất nhiên sau đó, chúng ta sẽ tạo ra cơ thể và cuối cùng là chết.

06:11.630 --> 06:17.570
Và đó là lý do tại sao phần tiếp theo, tôi sẽ gọi nó là xây dựng AI, bởi vì bây giờ chúng ta có thể xây dựng

06:17.570 --> 06:18.940
bao nhiêu con mắt tùy thích.

06:18.950 --> 06:21.950
Đó là điều tuyệt vời về lập trình hướng đối tượng.

06:21.950 --> 06:28.280
Chúng ta có thể xây dựng bất kỳ đôi mắt nào theo ý muốn và vì vậy chúng ta sẽ xây dựng AI của mình có bộ não tinh vi, và

06:28.280 --> 06:31.370
đó chính xác là những gì chúng ta sẽ làm trong hướng dẫn tiếp theo.

06:31.670 --> 06:32.930
Cho đến lúc đó, hãy tận hưởng.

06:32.930 --> 06:33.320
TÔI.