WEBVTT

00:00.330 --> 00:02.850
Xin chào và chào mừng bạn đến với hướng dẫn Python này.

00:03.000 --> 00:08.220
Được rồi, vì vậy bây giờ chúng ta sẽ tạo ra chức năng chuyển tiếp sẽ truyền tín hiệu đầu ra

00:08.220 --> 00:13.530
của não chúng ta đến cơ quan của AI để nó thực hiện hành động phù hợp để tiếp cận chiếc áo quan.

00:13.530 --> 00:17.160
Nhưng vẫn chưa có hành động đúng vì chưa được đào tạo.

00:17.160 --> 00:23.160
Chúng tôi vẫn chưa đào tạo mắt, nhưng đây chính xác là những gì chúng tôi sẽ làm trong phần

00:23.160 --> 00:29.670
hai khi triển khai học tích chập sâu, nhân tiện, tôi sẽ đổi tên đào tạo AI với học phức hợp sâu.

00:29.670 --> 00:35.220
Nhưng ngay bây giờ chúng ta cần chuyển tiếp tín hiệu từ lớp đầu ra của não bộ đến cơ thể.

00:35.220 --> 00:39.960
Và đó chính xác là những gì chúng ta sẽ làm với chức năng chuyển tiếp này, đây là chức năng cuối cùng của cơ

00:39.960 --> 00:40.590
thể chúng ta.

00:41.170 --> 00:42.460
Vì vậy, chúng ta hãy làm điều này.

00:42.610 --> 00:45.640
Chúng tôi bắt đầu với Geoff Ford.

00:46.150 --> 00:50.020
Và theo bạn, nó sẽ diễn ra cuộc tranh luận nào?

00:50.050 --> 00:53.050
Chà, tất nhiên, nó sẽ là bản thân đầu tiên.

00:53.050 --> 00:54.940
Và sau đó là một cái khác?

00:54.970 --> 00:56.680
Vâng, vâng, có.

00:56.680 --> 00:58.030
Và nó sẽ như thế nào?

00:58.060 --> 01:04.510
Rất tự nhiên, chúng ta muốn chuyển tiếp tín hiệu đầu ra của não đến cơ thể, và do đó đầu vào

01:04.510 --> 01:07.270
sẽ là tín hiệu đầu ra của não.

01:07.540 --> 01:10.390
Và vì vậy bây giờ chúng ta cần đặt tên cho các tín hiệu đầu ra này.

01:10.390 --> 01:14.260
Và vì vậy tôi sẽ thêm vào đây lập luận đã đưa ra.

01:14.380 --> 01:14.860
Được rồi.

01:14.860 --> 01:21.400
Vì vậy, điều đó tương ứng với các tín hiệu đầu ra của não sau khi hình ảnh đầu vào được truyền qua tất cả các bộ

01:21.400 --> 01:27.100
não để đến lớp đầu ra, ở đây là X, trả về bởi chức năng chuyển tiếp của não và bây giờ tín hiệu

01:27.100 --> 01:32.380
đầu ra này của não sẽ được chuyển tiếp. cho cơ thể với chức năng chuyển tiếp mới này mà chúng

01:32.380 --> 01:34.750
tôi tạo ra trong lớp thân mềm tiếp theo.

01:35.260 --> 01:36.490
Vì vậy, chúng ta hãy làm điều này.

01:36.490 --> 01:38.560
Hãy thêm một số màu vào đây.

01:38.560 --> 01:43.870
Và bây giờ, như bạn đã hiểu, chúng tôi sẽ sử dụng phương pháp soft max để chơi hành động.

01:43.870 --> 01:49.420
Điều đó có nghĩa là cơ quan của mắt chúng ta, sau khi nhận được tín hiệu đầu ra của não sẽ thực hiện các

01:49.420 --> 01:51.230
hành động với kỹ thuật soft max.

01:51.250 --> 01:56.310
Vì vậy, về cơ bản bây giờ những gì chúng ta phải làm giống hệt như những gì chúng ta đã làm đối với xe tự lái.

01:56.320 --> 01:59.310
Chúng ta sẽ nhận được sự phân phối các xác suất của chúng ta.

01:59.320 --> 02:05.730
Đó là bước đầu tiên, và sau đó chúng ta sẽ lấy mẫu một hành động theo phân phối xác suất này.

02:05.740 --> 02:11.440
Vì vậy, về cơ bản những gì chúng ta có thể làm bây giờ là lấy tệp xe tự lái và sao chép, dán những gì chúng

02:11.440 --> 02:14.560
ta đã triển khai cho chức năng hành động chọn trong xe tự lái.

02:14.560 --> 02:15.610
Nhưng chúng ta hãy làm điều đó một lần nữa.

02:15.610 --> 02:19.390
Nó sẽ là một thực hành tốt và thực sự bạn có thể thử gõ nó trước tôi.

02:20.020 --> 02:20.250
Được chứ.

02:20.260 --> 02:23.620
Vì vậy, điều đầu tiên chúng ta sẽ làm là xác định các xác suất của chúng ta.

02:23.620 --> 02:29.500
Vì vậy, tôi nhắc nhở đây là phân phối xác suất cho mỗi giá trị Q, điều này phụ thuộc vào đầu

02:29.500 --> 02:31.720
vào, hình ảnh và từng hành động.

02:31.720 --> 02:38.050
Vì vậy, chúng tôi có một giá trị Q cho mỗi trong số sáu hoặc bảy hành động có thể xảy ra, và do đó chúng tôi nhận

02:38.050 --> 02:39.700
được phân phối của bảy xác suất.

02:39.700 --> 02:44.920
Tôi đang nói bảy vì tôi nghĩ có bảy hành động thay vì sáu, bởi vì ngoài di chuyển về

02:44.920 --> 02:48.190
phía trước, trái, phải hoặc bắn, chúng ta cũng có thể chạy.

02:48.250 --> 02:53.860
Điều đó tạo ra bảy hành động khả thi và do đó chúng tôi nhận được phân phối của bảy xác suất, một xác

02:53.860 --> 02:56.680
suất cho mỗi giá trị Q liên quan đến mỗi hành động.

02:57.010 --> 02:58.840
Vì vậy, đạo cụ bằng.

02:58.840 --> 03:00.580
Và bây giờ hãy nhớ những gì chúng ta phải làm.

03:00.610 --> 03:06.400
Về cơ bản, chúng ta phải sử dụng hàm set max từ mô-đun chức năng.

03:06.400 --> 03:07.330
Vì vậy, điều đó rất đơn giản.

03:07.330 --> 03:13.630
Chúng tôi lấy mô-đun chức năng của chúng tôi trước, sau đó chấm, và sau đó chúng tôi lấy hàm max mềm của chúng tôi.

03:13.630 --> 03:14.380
Nó đây.

03:14.380 --> 03:22.000
Chúng tôi nhấn enter và bây giờ chúng tôi nhập các đối số của hàm max, mà tôi nhắc nhở là các phần

03:22.000 --> 03:25.270
tử mà bạn muốn tạo phân phối xác suất.

03:25.270 --> 03:31.510
Và tất nhiên đó là các giá trị Q, đó là đầu ra của mạng nơ-ron, đó là đầu

03:31.510 --> 03:35.770
ra của mạng nơ-ron mà bạn muốn tạo phân phối xác suất.

03:35.770 --> 03:41.200
Và tôi nhắc rằng chúng ta muốn tạo phân phối xác suất này để có thể khám phá các hành

03:41.200 --> 03:45.730
động khác nhau thay vì chọn trực tiếp hành động có giá trị Q lớn nhất.

03:45.730 --> 03:51.100
Nếu chúng tôi trực tiếp chọn một hành động có giá trị Q tối đa, nơi chúng tôi không khám phá nhiều các hành động

03:51.100 --> 03:57.220
khác và chúng tôi có thể bỏ lỡ điều gì đó, nhưng với phương pháp self max, chúng tôi có thể thực hiện thêm một số khám phá và

03:57.220 --> 04:01.330
do đó có thể tìm thấy một số giải pháp ẩn trong những mẫu có thể tốt hơn nhiều.

04:01.600 --> 04:07.720
Vì vậy, một lần nữa, tôi thực sự khuyên bạn nên tự max và do đó bây giờ những gì chúng ta phải làm là nhập các giá trị Q.

04:07.720 --> 04:11.140
Đó là đầu ra của chúng ta ở đây, đầu ra của não chúng ta.

04:11.140 --> 04:13.720
Vì vậy, kết quả đầu ra, chúng ta sẽ bắt đầu.

04:13.720 --> 04:21.520
Nhưng sau đó chúng tôi có thông số nhiệt độ này mà chúng tôi có thể sử dụng mà chúng tôi có thể cấu hình để tùy chỉnh việc thăm dò.

04:21.520 --> 04:27.190
Hãy nhớ rằng chúng ta đặt nhiệt độ càng cao thì chúng ta càng ít khám phá các hành động

04:27.190 --> 04:32.860
khác, bởi vì hành động tốt nhất sẽ được chọn với xác suất cao hơn so với các hành động

04:32.860 --> 04:35.740
khác sẽ được chọn với xác suất thấp hơn.

04:35.740 --> 04:41.830
Vì vậy, nó chính xác giống như ô tô tự lái, và do đó chúng tôi phải nhân đầu ra ở đây với

04:41.830 --> 04:44.770
nhiệm vụ tự thông số nhiệt độ của chúng tôi.

04:45.560 --> 04:46.310
Chúng ta bắt đầu.

04:47.140 --> 04:47.770
Hoàn hảo.

04:47.800 --> 04:53.050
Bây giờ chúng tôi nhận được một cảnh báo nhỏ vì chúng tôi chưa sử dụng đạo cụ, nhưng chúng tôi sắp sử dụng nó ngay bây giờ.

04:53.050 --> 04:55.330
Và điều đó đưa chúng ta đến điều tiếp theo mà chúng ta phải làm.

04:55.360 --> 04:57.640
Chúng ta sẽ sử dụng những xác suất này như thế nào?

04:57.670 --> 05:03.460
Chà, chúng ta sẽ lấy mẫu hành động cuối cùng để chơi từ phân phối xác suất này.

05:03.460 --> 05:10.030
Và do đó, những gì chúng ta phải làm bây giờ là sử dụng hàm đa chuẩn để lấy mẫu hành động

05:10.030 --> 05:11.950
theo phân phối xác suất này.

05:12.070 --> 05:14.710
Vì vậy, bây giờ chúng tôi đã sẵn sàng để thực hiện các hành động của mình.

05:14.950 --> 05:20.140
Vì vậy, tôi đang tạo một biến mới ở đây vì đó sẽ trở thành các hành động sẽ được thực hiện bởi cơ

05:20.140 --> 05:21.250
quan mắt của chúng ta.

05:21.280 --> 05:29.440
Và vì vậy, bây giờ chúng ta thực hiện phân phối xác suất, đạo cụ mà chúng ta thêm dấu chấm và sau đó

05:29.440 --> 05:31.480
là phương pháp đa số.

05:32.050 --> 05:32.680
Được rồi.

05:32.680 --> 05:34.870
Và bây giờ chúng ta có những thao tác cuối cùng để chơi.

05:34.870 --> 05:37.810
Chúng được lấy mẫu từ bản phân phối đạo cụ của chúng tôi.

05:38.200 --> 05:39.400
Được rồi, hoàn hảo.

05:39.400 --> 05:42.220
Vì vậy, bây giờ chúng tôi đã sẵn sàng để trả lại những gì chúng tôi muốn.

05:42.220 --> 05:44.360
Đó là các hành động để chơi.

05:44.380 --> 05:46.870
Và tất nhiên, đây là những hành động.

05:46.870 --> 05:48.580
Và bây giờ cảnh báo sẽ biến mất.

05:48.580 --> 05:50.220
Chúng tôi sử dụng mọi thứ chúng tôi muốn.

05:50.230 --> 05:51.070
Chúng ta bắt đầu.

05:51.100 --> 05:51.900
Hoàn hảo.

05:51.910 --> 05:53.860
Vì vậy, bây giờ chức năng chuyển tiếp đã sẵn sàng.

05:53.860 --> 05:55.630
Và xin chúc mừng.

05:55.630 --> 05:57.240
Cơ thể cũng đã sẵn sàng.

05:57.250 --> 05:58.960
Vì vậy, bây giờ chúng ta có bộ não của chúng ta.

05:58.960 --> 06:05.200
Chúng tôi có cơ thể của mình, và do đó, chúng tôi sẵn sàng lắp ráp chúng để biến tôi trở thành tương lai của chúng tôi.

06:05.200 --> 06:08.740
Tôi sẽ được cấu tạo bởi không gì khác ngoài bộ não và cơ thể.

06:08.740 --> 06:14.110
Và do đó, nó sẽ có trí thông minh và cơ thể để chơi các hành động, đó sẽ là những hành động đúng

06:14.110 --> 06:16.390
để chơi nhờ vào trí thông minh của nó.

06:16.390 --> 06:22.030
Nhưng hãy nhớ rằng, trước khi chúng ta phải đào tạo trí thông minh của nó, và đó là những gì chúng ta sẽ làm trong phần hai, đào

06:22.030 --> 06:24.400
tạo AI với khả năng học tập phức hợp và sâu sắc.

06:25.030 --> 06:28.300
Được rồi, hãy cùng tạo AI trong các bài hướng dẫn tiếp theo.

06:28.300 --> 06:31.690
Nó lại là một lớp gồm hai hàm, tôi nghĩ vậy.

06:31.690 --> 06:34.390
Và vì vậy điều này sẽ yêu cầu chúng tôi hai hoặc ba hướng dẫn.

06:34.390 --> 06:35.520
Vì vậy, tôi không thể chờ đợi.

06:35.530 --> 06:36.640
Điều này sẽ rất thú vị.

06:36.640 --> 06:37.840
Và cho đến khi đó, hãy tận hưởng.

06:37.840 --> 06:38.380
TÔI.