WEBVTT

00:00.180 --> 00:04.930
Xin chào và chào mừng bạn đến với hướng dẫn thú vị của mô-đun đầu tiên Xe tự lái này.

00:04.950 --> 00:06.160
Nó sẽ rất hoành tráng.

00:06.180 --> 00:11.600
Chúng tôi sẽ kiểm tra con mắt của chúng tôi về môi trường và chúng tôi sẽ kiểm tra nó ở bốn cấp độ khác nhau.

00:11.610 --> 00:13.290
Đó là, chúng ta sẽ chơi một trò chơi.

00:13.290 --> 00:18.150
Trò chơi sẽ có đầy đủ các cấp độ khó và AI sẽ phải vượt qua bốn cấp độ này.

00:18.160 --> 00:20.460
Vì vậy, những gì sẽ là bốn cấp độ này?

00:20.460 --> 00:27.420
Đầu tiên cấp độ một, cấp độ đầu tiên sẽ là để đến sân bay và sau đó thực hiện một số chuyến đi khứ hồi giữa sân

00:27.420 --> 00:29.100
bay và trung tâm thành phố.

00:29.100 --> 00:34.470
Vì vậy, ngay khi chúng ta nhìn thấy chiếc xe thực hiện các chuyến đi vòng quanh, chúng ta sẽ vượt qua cấp độ một, sau đó là cấp độ hai.

00:34.470 --> 00:40.920
Cấp độ hai sẽ là vẫn thực hiện những chuyến đi vòng quanh này, nhưng trên một con đường cụ thể mà chúng ta tự vẽ ra.

00:40.920 --> 00:47.370
Nhưng nó sẽ là một con đường dễ dàng vì nó là cấp hai và tất nhiên chiếc xe sẽ phải tự lái bằng cách

00:47.370 --> 00:48.960
ở trên con đường đó.

00:48.960 --> 00:53.190
Vì vậy, nó sẽ là một con đường đi từ sân bay đến trung tâm thành phố và sau đó là các chiều ngược lại.

00:53.190 --> 00:56.970
Và như vậy ô tô sẽ phải thực hiện những chuyến đi khứ hồi này bằng cách giữ nguyên trên con đường đó.

00:57.000 --> 01:00.810
Nếu đạt, chúng ta sẽ vượt qua cấp hai, rồi cấp ba.

01:00.810 --> 01:07.050
Cấp độ ba sẽ là vẽ một số chướng ngại vật trên bản đồ để xem liệu chiếc xe có tránh được chướng ngại vật và vẫn

01:07.050 --> 01:08.640
đạt được mục tiêu hay không.

01:08.640 --> 01:09.540
Vì vậy, không phải lo lắng.

01:09.540 --> 01:14.280
Chúng tôi sẽ vẽ ra một số chướng ngại vật khó khăn mà chiếc xe sẽ phải tránh và chúng tôi sẽ xem liệu nó

01:14.280 --> 01:16.650
có đến được sân bay và trung tâm thành phố hay không.

01:16.830 --> 01:23.820
Và cuối cùng là cấp độ bốn, cấp độ thử thách nhất đối với chiếc xe sẽ là vẽ một con đường rất khó để đến

01:23.820 --> 01:25.170
trung tâm thành phố.

01:25.170 --> 01:28.020
Vì vậy, tôi không biết, bạn biết đấy, nó sẽ là một con đường giống như một con đường ngoằn ngoèo.

01:28.020 --> 01:31.560
Tôi không phải là một kiến trúc sư xuất sắc, nhưng tôi sẽ cố gắng đi trên một con đường đầy thử thách.

01:31.650 --> 01:35.220
Vì vậy, chúng ta hãy hy vọng chúng ta vượt qua ít nhất là cấp độ đầu tiên.

01:35.220 --> 01:36.150
Điều đó sẽ thật tuyệt.

01:36.150 --> 01:39.120
Sau đó, chúng ta hãy hy vọng chúng ta cũng có thể vượt qua cấp độ hai và ba.

01:39.120 --> 01:41.880
Và nếu chúng ta vượt qua cấp độ bốn, điều đó thật tuyệt vời.

01:41.880 --> 01:43.080
Vì vậy, chúng ta hãy làm điều này.

01:43.080 --> 01:44.400
Hãy thử thách.

01:44.400 --> 01:49.290
Thật ra, ô tô tự lái sẽ gặp thử thách, nhưng chúng tôi là bộ não đằng sau điều này, vì

01:49.290 --> 01:51.630
vậy chúng ta hãy hy vọng nó hoạt động.

01:51.900 --> 01:52.410
Được rồi.

01:52.410 --> 01:57.060
Vì vậy, điều đầu tiên tôi sẽ làm chỉ là cung cấp cho bạn một lời nhắc nhanh về bản đồ.

01:57.060 --> 01:58.950
Vì vậy, đó là bản đồ.

01:58.950 --> 02:00.870
Và trước tiên, chúng ta sẽ xem bản đồ.

02:00.870 --> 02:03.930
Chúng ta sẽ xem xét xe hơi tự lái mà không có AI.

02:03.960 --> 02:09.240
Vì vậy, nó sẽ chỉ là một chiếc xe có những hành động ngẫu nhiên mà bạn đã thấy ở phần đầu của mô-đun này.

02:09.330 --> 02:10.830
Vì vậy, làm thế nào chúng ta có thể nhìn vào đó?

02:10.830 --> 02:18.720
Chà, chúng ta phải tắt AI và để kích hoạt AI, chúng ta chỉ cần đặt nhiệt độ bằng

02:18.720 --> 02:19.380
0.

02:19.380 --> 02:24.090
Hãy nhớ rằng tham số ở đây là nhiệt độ và ngay bây giờ nó bằng bảy.

02:24.090 --> 02:25.560
Vì vậy, đó là một nhiệt độ thấp.

02:25.560 --> 02:27.270
Chúng tôi sẽ tăng điều đó sau đó.

02:27.270 --> 02:32.520
Nhưng nếu chúng ta không muốn chiếc xe có bộ não, tức là nếu chúng ta không muốn kích hoạt

02:32.520 --> 02:35.970
AI, chúng ta chỉ cần đặt nhiệt độ về 0 t bằng 0.

02:35.970 --> 02:36.810
Và ở đây cũng vậy.

02:36.810 --> 02:39.600
Tất nhiên, đó là nhiệt độ thực trong mã.

02:39.600 --> 02:40.380
Vậy là xong.

02:40.380 --> 02:45.390
Và sau đó chúng ta không được quên lưu vì nếu không sẽ không bao gồm tiền thay đổi.

02:45.630 --> 02:47.400
Được rồi, vì vậy bây giờ chúng tôi không có bất kỳ AI nào.

02:47.430 --> 02:49.020
AI được kích hoạt.

02:49.020 --> 02:54.660
Vì vậy, chúng ta hãy xem bản đồ chỉ để cập nhật nhanh cho chúng tôi, một lời nhắc nhở nhanh về nó trông như

02:54.660 --> 02:55.260
thế nào.

02:55.260 --> 03:00.030
Vì vậy, tôi sẽ chọn mọi thứ và nhấn enter.

03:00.960 --> 03:01.470
Được rồi.

03:01.470 --> 03:03.630
Và có bản đồ của chúng tôi và có ô tô của chúng tôi.

03:03.630 --> 03:09.120
Như bạn có thể thấy, chiếc xe đang có những hành động hoàn toàn ngẫu nhiên, bạn biết đấy, đi sang trái, đi thẳng hay

03:09.120 --> 03:10.020
đi sang phải.

03:10.020 --> 03:16.650
Và do đó, nó không đến được sân bay, điều mà tôi nhắc ở phía trên bên trái của bản đồ và không

03:16.650 --> 03:17.430
đến được.

03:17.430 --> 03:18.210
Chà, nó vừa rồi.

03:18.210 --> 03:19.620
Nhưng đó hoàn toàn là ngẫu nhiên.

03:20.130 --> 03:26.610
Bạn thấy đấy, ngay bây giờ nó đang ở sân bay và nó không đạt được mục tiêu khác, đó là trung tâm thành phố ở phía

03:26.610 --> 03:28.110
dưới bên phải của bản đồ.

03:28.200 --> 03:29.670
Vì vậy, chúng tôi đã giống như ở đây.

03:29.670 --> 03:33.900
Nhưng bây giờ chúng ta có thể thấy rõ ràng rằng các hành động là hoàn toàn ngẫu nhiên.

03:33.900 --> 03:39.240
Nó chẳng đi đến đâu và chắc chắn là không có trí tuệ nhân tạo.

03:39.240 --> 03:40.170
Nhưng đừng lo lắng.

03:40.170 --> 03:41.880
Chúng tôi sẽ kích hoạt nó ngay bây giờ.

03:42.090 --> 03:44.400
Tôi sẽ đóng bản đồ.

03:45.100 --> 03:49.450
Và sau đó tôi sẽ khởi động lại hạt nhân, khởi động lại hạt nhân.

03:49.480 --> 03:51.460
Bạn bấm vào nút công cụ này tại đây và sau đó.

03:51.460 --> 03:54.550
Vâng, và bây giờ là thời gian cho chương trình.

03:54.590 --> 04:01.360
Cuối cùng, chúng tôi sẽ đặt bộ não mà chúng tôi đã tạo ra này trong xe hơi và kích hoạt AI.

04:01.480 --> 04:03.920
Tôi rất vui mừng để xem điều gì sẽ xảy ra.

04:03.940 --> 04:08.920
Chúng tôi sẽ kích hoạt AI ngay bây giờ và để làm điều này, chúng tôi cần tăng nhiệt độ.

04:09.280 --> 04:16.270
Vì vậy, để thay đổi nhiệt độ, chúng ta chỉ cần thay thế số 0 đó, hãy bắt đầu với bảy như chúng ta đã

04:16.270 --> 04:17.220
có trước đây.

04:17.230 --> 04:19.450
Vì vậy, hãy xác định bảy ở đây.

04:19.480 --> 04:20.050
Được rồi.

04:20.050 --> 04:21.430
Chúng ta đừng quên tiết kiệm.

04:21.430 --> 04:23.380
Và bây giờ chúng ta hãy quay lại bản đồ của chúng ta.

04:23.380 --> 04:27.460
Và bây giờ chúng ta có thể thực thi lại điều này một lần nữa vì chúng ta đã khởi động lại hạt nhân.

04:27.640 --> 04:30.670
Vì vậy, hãy thực hiện và chúng ta bắt đầu.

04:30.670 --> 04:33.490
Chúng tôi có chiếc xe và nó đang làm gì?

04:33.580 --> 04:36.550
Chà, nó đang cố gắng tìm đường.

04:36.550 --> 04:39.700
Nó đang khám phá, nó hiểu những gì nó phải làm.

04:39.700 --> 04:41.920
Và nó sắp đến sân bay.

04:41.920 --> 04:43.090
Và chúng ta bắt đầu.

04:43.090 --> 04:44.560
Mục tiêu đầu tiên đã đạt được.

04:44.560 --> 04:45.400
Tuyệt vời.

04:45.430 --> 04:47.920
Và bây giờ mục tiêu tiếp theo là đến trung tâm thành phố.

04:47.920 --> 04:50.500
Và ở đó nó đã đến trung tâm thành phố.

04:50.500 --> 04:54.070
Và bây giờ nó đang cố gắng tìm lại sân bay, đi đến sân bay.

04:54.070 --> 04:55.660
Và nó đã xảy ra một lần nữa.

04:55.660 --> 04:56.380
Tuyệt vời.

04:56.380 --> 04:57.310
Vì vậy, nó hoạt động.

04:57.310 --> 05:01.150
Thật ra, không mất thời gian để khám phá, học hỏi từ sai lầm.

05:01.150 --> 05:04.270
Bạn biết đấy, sai lầm ở đây là đi xa hơn mục tiêu.

05:04.300 --> 05:08.680
Đó là nơi chúng tôi trừng phạt chiếc xe bằng cách thưởng cho nó một phần thưởng hơi tiêu cực.

05:08.890 --> 05:10.240
Nó là -0. 2.

05:10.240 --> 05:12.430
Vì vậy, nó đã học được từ sai lầm đó.

05:12.430 --> 05:18.460
Và bằng cách học hỏi từ sai lầm đó, nó đã quản lý để nhận được phần thưởng tích cực bằng cách tiến gần hơn đến mục

05:18.460 --> 05:18.850
tiêu.

05:19.060 --> 05:21.760
Và bây giờ nó cuối cùng đã hiểu nó phải làm gì.

05:21.760 --> 05:27.740
Nó chắc chắn đến sân bay và sau đó đến trung tâm thành phố và sau đó thực hiện các chuyến đi khứ hồi.

05:28.230 --> 05:29.620
Vì vậy, đó là hoàn hảo.

05:29.740 --> 05:35.800
Chúng tôi có một chiếc ô tô tự lái, nhưng tôi không thể không nhận thấy nó trông giống như một con côn trùng.

05:35.980 --> 05:40.480
Bạn biết đấy, chiếc xe dường như không thực sự chắc chắn về bản thân, bạn biết đấy, nó không có chuyển động tự tin cho lắm.

05:40.480 --> 05:42.520
Nó giống như đi bên trái và bên phải.

05:42.520 --> 05:44.500
Đó không phải là một chuyển động của ô tô.

05:44.500 --> 05:45.940
Nó trông giống một con bọ hơn.

05:46.210 --> 05:47.710
Vì vậy, chúng tôi sẽ khắc phục điều đó.

05:47.710 --> 05:52.570
Và như bạn có thể đoán, cách để khắc phục điều đó là tăng nhiệt độ.

05:52.570 --> 05:57.880
Vì hãy nhớ rằng, nhiệt độ là thông số trong chức năng soft mac mà chúng ta có thể tăng lên để

05:57.880 --> 06:00.430
hành động được trả về một cách chắc chắn hơn.

06:00.610 --> 06:05.200
Vì vậy, điều đó có ý nghĩa rằng nếu chúng ta tăng nhiệt độ, tốt, chúng ta có thể khiến một chiếc ô

06:05.200 --> 06:09.610
tô chắc chắn hơn về chính nó vì AI sẽ chắc chắn hơn về hành động mà nó sẽ thực hiện.

06:10.000 --> 06:15.070
Và điều đó, hãy nhớ, là bởi vì hành động sẽ được thực hiện với xác suất cao hơn.

06:15.100 --> 06:20.740
Vấn đề duy nhất với việc tăng nhiệt độ này là hãy nhớ rằng, AI ít khám phá các hành

06:20.740 --> 06:26.020
động khác hơn bởi vì khi tăng nhiệt độ, các hành động khác sẽ có xác suất thấp.

06:26.140 --> 06:31.690
Nhưng hiện tại điều đó dường như không phải là vấn đề vì chiếc xe dường như không có vấn đề gì khi đạt được mục

06:31.690 --> 06:33.820
tiêu là sân bay ở trung tâm thành phố.

06:33.820 --> 06:36.910
Vì vậy chúng ta hoàn toàn có thể tăng nhiệt độ lên nếu muốn.

06:36.910 --> 06:40.930
Thứ mà cho đến nay trông giống như một con côn trùng, trông giống như một chiếc xe hơi.

06:41.140 --> 06:42.400
Vì vậy, chúng ta hãy làm điều này.

06:42.400 --> 06:44.800
Tôi sẽ đóng nó ngay bây giờ.

06:45.370 --> 06:46.180
Chúng ta bắt đầu.

06:46.180 --> 06:48.280
Khởi động lại kernel một lần nữa.

06:49.300 --> 06:49.750
Và hãy nhấn.

06:49.750 --> 06:50.350
Đúng.

06:50.530 --> 06:52.690
Và bây giờ chúng ta sẽ tăng nhiệt độ.

06:52.990 --> 06:53.950
Vì vậy, chúng ta hãy làm điều này.

06:53.950 --> 06:56.290
Tôi sẽ quay lại hồ sơ của mình.

06:56.290 --> 06:59.980
Sau đó thay t này bằng bảy bằng 100.

07:01.200 --> 07:02.090
Chúng ta bắt đầu.

07:02.100 --> 07:03.240
Sau đó, chúng tôi tiết kiệm.

07:03.450 --> 07:06.270
Và bây giờ chúng ta có một chiếc xe hơi tự lái.

07:06.270 --> 07:07.590
Chắc chắn về chính nó.

07:07.590 --> 07:11.850
Vì vậy, chúng tôi có thể đạt được kết quả tốt hơn và chúng tôi có thể nhận được thứ gì đó trông giống một chiếc ô tô hơn.

07:11.880 --> 07:15.630
Vì vậy, chúng ta hãy nhấp vào một bản đồ và sau đó hãy thực hiện lại điều đó một lần nữa.

07:16.480 --> 07:17.270
Được rồi.

07:17.290 --> 07:18.830
Chuyện gì đã xảy ra thế?

07:18.930 --> 07:21.190
Och, nó đã làm một số kiểu kiệt sức.

07:21.220 --> 07:25.850
Không chắc tại sao, nhưng dù sao, bây giờ chúng ta có một cái gì đó trông giống một chiếc ô tô hơn.

07:25.870 --> 07:28.090
Bạn có thể thấy rằng nó đang đi thẳng hơn.

07:28.120 --> 07:30.960
Nó không thực hiện những chuyển động nhanh sang trái và phải này.

07:30.970 --> 07:35.620
Đó là bởi vì bây giờ chiếc xe chắc chắn hơn về hướng đi vào mỗi thời điểm.

07:35.860 --> 07:40.600
Nó muốn đi theo hướng tốt nhất để đến sân bay và sau đó đến trung tâm thành phố.

07:40.750 --> 07:44.260
Rõ ràng là bây giờ chúng ta có thể nói rằng chúng ta đã vượt qua cấp độ một.

07:44.290 --> 07:47.770
Xe đang thực hiện các chuyến khứ hồi giữa sân bay và trung tâm thành phố.

07:47.770 --> 07:49.330
Vì vậy, chúng tôi sẽ tiết kiệm điều đó.

07:49.630 --> 07:52.370
Đó là tôi sẽ chỉ cho bạn cách cứu não.

07:52.390 --> 07:54.760
Chúng ta chỉ cần nhấp vào nút lưu này.

07:54.880 --> 07:56.770
Và nếu chúng ta.

07:58.340 --> 07:59.450
Nhìn vào những gì xảy ra ở đây.

07:59.450 --> 08:02.300
Chà, chúng ta có đường cong của phần thưởng ở phần đầu.

08:02.300 --> 08:04.570
Chúng ta có thể quan sát thấy một số sai lầm mà nó đã thực hiện.

08:04.580 --> 08:06.920
Vì vậy, đó là nơi mà phần thưởng là tiêu cực.

08:06.920 --> 08:14.210
Nhưng sau đó nó đã học được từ những sai lầm của mình và phần thưởng tăng lên từng chút một cho đến khi phần thưởng dương

08:14.210 --> 08:16.610
không đổi bằng 0. 1.

08:16.610 --> 08:21.410
Nhưng đó là phần thưởng tối đa mà chúng tôi đặt ra và đó là vì nó đã kết thúc việc khám phá.

08:21.650 --> 08:23.420
Đó là giai đoạn thăm dò.

08:23.420 --> 08:25.910
Và sau đó nó chỉ biết những gì nó phải làm.

08:25.910 --> 08:32.000
Và đó là nơi nó đã thực hiện những chuyến khứ hồi giữa sân bay và trung tâm thành phố mà không mắc bất kỳ sai lầm nào.

08:32.390 --> 08:33.350
Vậy là xong.

08:33.350 --> 08:34.400
Chúng tôi đã vượt qua cấp độ một.

08:34.400 --> 08:35.600
Xin chúc mừng.

08:35.630 --> 08:38.000
Bây giờ chúng ta hãy làm mọi thứ khó khăn hơn.

08:38.000 --> 08:39.860
Hãy xem mọi thứ ở cấp độ tiếp theo.

08:39.860 --> 08:45.890
Hãy cố gắng vượt qua cấp độ hai, điều mà tôi nhắc nhở sẽ là thực hiện những chuyến đi vòng quanh con đường cụ thể mà chúng

08:45.890 --> 08:46.970
ta sẽ tự vẽ ra.

08:46.970 --> 08:49.010
Vì vậy, hãy kiểm tra điều đó trong hướng dẫn tiếp theo.

08:49.010 --> 08:50.840
Và cho đến khi đó, hãy tận hưởng tôi.
