WEBVTT

00:00.470 --> 00:03.750
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:03.770 --> 00:09.140
Trong hướng dẫn hôm nay, chúng ta sẽ bắt đầu phần tìm hiểu sâu về khóa phức hợp.

00:09.140 --> 00:10.820
Vì vậy, chúng ta hãy xem xét tất cả về những gì nó.

00:10.820 --> 00:18.890
Trước đây chúng ta đã nói về học sâu, vì vậy chúng ta có một môi trường với một tác nhân và chúng ta có một

00:18.890 --> 00:23.030
vectơ mô tả môi trường đó được đưa vào một mạng nơ-ron.

00:23.030 --> 00:26.090
Và cuối cùng, chúng tôi nhận các giá trị Q làm đầu ra của chúng tôi.

00:26.120 --> 00:29.210
Và tất nhiên sau đó chúng tôi tìm ra cách mạng được đào tạo như thế nào.

00:29.210 --> 00:29.870
Phần học tập.

00:29.870 --> 00:32.900
Chúng tôi đã tìm ra cách các hành động được quyết định dựa trên các giá trị gợi ý đó.

00:32.900 --> 00:34.370
Đó là một phần hành động.

00:34.370 --> 00:42.140
Và chúng tôi đã nói về các chính sách lựa chọn hành động và những điều khác nhau về cách hoạt động của học sâu.

00:42.140 --> 00:51.200
Nhưng ở đây, khái niệm chính cho tất cả những điều này là làm cách nào để chúng ta có được điều này, từ môi trường

00:51.200 --> 00:54.410
thực tế và trạng thái đến mạng nơ-ron?

00:54.410 --> 00:57.800
Chà, quá trình chuyển đổi đã kết thúc ở đây, vector đầu vào.

00:57.800 --> 01:02.180
Vì vậy, lớp đầu vào của mạng nơ-ron của chúng ta và nó là một vectơ.

01:02.180 --> 01:07.490
Vì vậy, những gì chúng tôi đang xem xét là OC vì vậy chúng tôi thực sự không phải là, nó không phải là thuật ngữ chính xác, chúng tôi không

01:07.490 --> 01:08.720
nhìn vào bất cứ thứ gì.

01:08.720 --> 01:12.230
Về cơ bản đại lý đã có thông tin này.

01:12.230 --> 01:17.600
Vì vậy, môi trường đang truyền cho nó thông tin này nói rằng, được rồi, bạn là tác nhân, bạn hiện

01:17.900 --> 01:24.530
đang ở trong đó, trạng thái của bạn được mô tả bằng vectơ này và ví dụ đơn giản này, nó được mô tả bởi vectơ này

01:24.530 --> 01:26.660
x một trong một, x hai trong hai.

01:26.690 --> 01:30.020
Vì vậy, tọa độ của bạn là một và đó là toàn bộ trạng thái của bạn.

01:30.020 --> 01:36.020
Trong một môi trường phức tạp hơn, trạng thái có thể liên quan đến những thứ khác mà tác nhân có thể quan sát được.

01:36.020 --> 01:39.050
Nhưng vấn đề ở đây là nó được đặt dưới dạng một vector.

01:39.050 --> 01:45.740
Và có một điều là điều đó không xảy ra trong đời thực, ngoài đời thực, ngoại trừ hệ thống GPS và những thứ khác

01:45.740 --> 01:46.310
tương tự.

01:46.310 --> 01:48.350
Nhưng trong cuộc sống thực, chúng ta sử dụng những gì?

01:48.350 --> 01:48.890
Hầu hết thời gian?

01:48.890 --> 01:50.840
Chúng tôi sử dụng các giác quan của chúng tôi, chúng tôi sử dụng đôi mắt của chúng tôi.

01:50.840 --> 01:53.600
Ngay cả trong GPS, nó cũng không được tích hợp sẵn trong não của chúng ta.

01:53.600 --> 01:56.060
Nó không cho chúng ta biết tọa độ thông qua bộ não của chúng ta.

01:56.060 --> 02:02.540
Và vì vậy chúng tôi vẫn đang dùng mắt để nhìn vào GPS và hiểu chuyện gì đang xảy ra ở đó.

02:02.720 --> 02:09.230
Và do đó, đây là một kiểu gian lận để AI có thể lấy thông tin như một vectơ về môi

02:09.230 --> 02:09.560
trường.

02:09.560 --> 02:10.520
Nó quá đơn giản.

02:10.520 --> 02:11.960
Đó không phải là cách nó hoạt động trong cuộc sống thực.

02:11.960 --> 02:13.790
Đó không phải là cách chúng ta hoạt động như con người.

02:13.880 --> 02:19.010
Và cuối cùng, chúng tôi muốn tạo ra trí tuệ nhân tạo, có thể hoạt động theo cách tương tự như

02:19.010 --> 02:23.240
con người, giống như nó có thể đương đầu với những thách thức giống như con người.

02:23.240 --> 02:28.130
Và vì vậy trong thế giới loài người, chúng ta không có cái đó, chúng ta không có cái đó, chúng ta không có

02:28.130 --> 02:33.560
những tọa độ này hoặc các loại vectơ khác được đặt cho chúng ta để giải thích trạng thái chúng ta đang ở trong môi trường đó.

02:33.560 --> 02:37.250
Vì vậy, chúng tôi sẽ phải loại bỏ điều đó để làm cho nó thực tế hơn.

02:37.250 --> 02:38.750
Và sau đó chúng ta có thể thay thế nó bằng gì?

02:38.750 --> 02:42.110
Chúng ta nhìn thấy gì hoặc chúng ta làm gì với tư cách là một con người để có được thông tin?

02:42.110 --> 02:46.070
Tất nhiên, hầu hết thời gian chúng ta nhìn thấy, chúng ta sử dụng tất cả các giác

02:46.070 --> 02:51.260
quan của mình, nhưng hầu hết thông tin chúng ta nhận được về thế giới xung quanh đều đến qua thị giác của chúng ta.

02:51.260 --> 02:59.270
Và đó là lý do tại sao chúng ta sẽ thay đổi mũi tên nhỏ mà chúng ta đã có thành một mạng nơ-ron phức hợp

02:59.270 --> 02:59.930
toàn bộ.

02:59.930 --> 03:03.680
Vì vậy, đây là từ phụ lục số hai của chúng tôi.

03:03.830 --> 03:09.170
Chúng tôi đã có lớp tích chập, và đó là lý do tại sao điều quan trọng là phải khá thoải mái với các mạng

03:09.260 --> 03:11.030
nơ-ron tích chập và cách chúng hoạt động.

03:11.030 --> 03:14.840
Vì vậy, nếu bạn đã thực hiện khóa học học sâu của chúng tôi, thì bạn nên thoải mái với điều đó.

03:14.840 --> 03:16.880
Hoặc bạn có thể xem qua phần phụ lục.

03:16.880 --> 03:20.390
Thứ hai, chúng tôi có một số hướng dẫn trực giác rất tốt ở đó.

03:20.390 --> 03:24.260
Vì vậy, ở đây chúng ta có phép toán tích chập xảy ra.

03:24.260 --> 03:27.230
Vì vậy, chúng tôi thực sự sẽ xem xét điều này như một hình ảnh.

03:27.230 --> 03:31.250
Vì vậy, đây là một hình ảnh của môi trường net.

03:31.250 --> 03:33.920
Và vì vậy đại lý thực sự đang xem xét môi trường.

03:33.920 --> 03:40.610
Vì vậy, trong trường hợp này, không phải anh ấy thích nhìn từ bên trong, anh ấy giống như giả sử anh ấy đang chơi trò chơi này trên máy

03:40.610 --> 03:45.380
tính và anh ấy có thể nhìn thấy môi trường này và do đó anh ấy có thể nhìn thấy hình

03:45.740 --> 03:48.350
ảnh đại diện cho đặc vụ thực sự đang ở đâu.

03:48.350 --> 03:53.150
Vì vậy, bạn có thể nhìn thấy toàn bộ môi trường này hoặc bất cứ điều gì con người sẽ thấy nếu đó là mê cung thực sự và con người sẽ

03:53.150 --> 03:54.200
nhìn thấy mê cung từ bên trong.

03:54.200 --> 03:56.390
Và do đó, các đại lý sẽ có thể nhìn thấy chính xác những điều tương tự.

03:56.390 --> 04:02.030
Vì vậy, bất cứ điều gì anh ta thấy được thực hiện đều đi qua một lớp tích chập và đi qua một lớp tổng hợp đầy đủ.

04:02.030 --> 04:03.230
Nó trải qua quá trình làm phẳng một lần nữa.

04:03.230 --> 04:09.950
Bạn có thể tìm hiểu thêm về các phần khác nhau này của mạng nơ-ron phức hợp trong phần phụ

04:09.950 --> 04:10.640
lục.

04:10.640 --> 04:16.730
Và sau khi nó được làm phẳng, sau đó chúng ta có các đầu vào đi vào mạng nơ-ron.

04:16.730 --> 04:24.530
Và cách này thực tế hơn vì tác nhân phải sử dụng các trang web của họ và hoặc phải xử lý hình

04:24.530 --> 04:31.340
ảnh mà môi trường đang cung cấp cho tác nhân, giống như con người sẽ xử lý hình ảnh.

04:31.340 --> 04:37.430
Và vẻ đẹp của điều này không chỉ là nó thực tế hơn và nó giống như ở đây, các đặc vụ thực

04:37.430 --> 04:43.130
sự giống con người hơn, nhưng nó cho phép chúng ta xử lý các môi trường phức tạp hơn nhiều.

04:43.130 --> 04:48.890
Ví dụ, đây là cách chúng ta có thể chơi Doom hoặc các trò chơi khác tương tự, bởi vì thay

04:48.890 --> 04:56.000
vì chỉ nhận được một vectơ thông tin như ai đó đã tạo ra cho chúng ta trong môi trường này, chúng ta có thể kết nối

04:56.000 --> 05:00.020
trí tuệ nhân tạo với một môi trường như con người , chúng tôi.

05:00.060 --> 05:01.970
Chúng tôi sẽ có một tầm nhìn về môi trường này.

05:01.970 --> 05:07.550
Vì vậy, là một con người, khi bạn chơi trò chơi này, bạn có thể nhìn thấy chính xác bức tranh này

05:07.550 --> 05:11.780
và đó chính xác là những gì mạng nơ-ron nhân tạo hoặc tác nhân sẽ thấy.

05:11.780 --> 05:16.970
Bây giờ, vì vậy, trong phần này của khóa học, khi bạn lập trình các tài liệu thực hành, người đại diện sẽ thực sự

05:16.970 --> 05:19.700
nhìn thấy bức tranh chính xác này, bạn sẽ thấy các pixel.

05:19.700 --> 05:25.130
Nó sẽ có được hình ảnh chính xác về tất cả các pixel với người này, với thứ này với khẩu súng này, với khuôn mặt

05:25.130 --> 05:27.440
này, với tỷ lệ phần trăm này, với mọi thứ.

05:27.440 --> 05:28.580
Chính xác những gì chúng ta thấy ở đây.

05:28.580 --> 05:30.350
Đó chính xác là những gì đại lý sẽ thấy.

05:30.590 --> 05:36.230
Sau đó, nó sẽ phải phân tích điều đó thông qua kéo chập, làm phẳng lớp, và sau đó nó sẽ

05:36.230 --> 05:37.370
đi vào mạng nơ-ron.

05:37.370 --> 05:40.940
Và không cần phải nói rằng mạng nơ-ron thực sự sẽ phức tạp hơn thế nhiều.

05:40.940 --> 05:42.700
Vì vậy, chúng ta hãy thay thế nó bằng một cái gì đó như thế này.

05:42.710 --> 05:44.330
Điều này không phức tạp hơn nhiều.

05:44.330 --> 05:46.430
Điều này có vẻ phức tạp hơn một chút.

05:46.430 --> 05:51.050
Nhưng trên thực tế, các mạng nơ-ron mà bạn sẽ làm việc và tạo ra với

05:51.050 --> 05:52.580
Atlan sẽ khá thú vị.

05:52.580 --> 05:54.050
Chúng sẽ phức tạp hơn nhiều so với thế này.

05:54.050 --> 05:59.870
Nhưng như bạn có thể thấy ở đây, ngay cả khi chúng ta chỉ có năm đầu vào thay vì hai, mọi thứ trở nên phức

05:59.870 --> 06:00.770
tạp hơn nhiều.

06:00.770 --> 06:04.310
Và ở đây bạn có thể thấy chúng tôi có nhiều hành động khác mà đại lý có thể thực hiện.

06:04.310 --> 06:11.900
Vì vậy, trong trò chơi diệt vong và quay trái và phải, nhìn xuống, nhìn lên, chạy, bắn, tải lại hoặc tất cả những hành động khác

06:11.900 --> 06:16.220
nhau có thể có trong game bắn súng góc nhìn thứ nhất như diệt vong.

06:16.220 --> 06:23.030
Và hơn nữa, không nhất thiết bạn có thể gắn tác nhân này với một loại trò chơi khác.

06:23.030 --> 06:29.840
Đó là vẻ đẹp của nó, mà sau đó nó nhận ra rằng giờ đây nó có thể vận hành bất kỳ loại môi trường nào mà bạn gắn

06:29.840 --> 06:33.740
nó vào, bởi vì miễn là có một hình ảnh đại diện trực quan về môi trường,

06:33.740 --> 06:36.920
về môi trường đó, nó đã có toàn bộ cơ sở hạ tầng.

06:36.950 --> 06:39.740
Toàn bộ cấu trúc đã sẵn sàng để xử lý điều đó.

06:39.740 --> 06:43.910
Vì vậy, đó là tất cả những gì học sâu, phức hợp là về.

06:43.910 --> 06:46.160
Vì vậy, chúng tôi đang thực hiện ngay cả bước tiếp theo.

06:46.160 --> 06:54.410
Bây giờ chúng tôi đang thêm sự phức tạp vào tất cả các lớp phức hợp vào bộ não đặc vụ của chúng tôi, và chúng tôi đang làm cho nó

06:54.410 --> 06:55.580
phức tạp hơn nữa.

06:55.580 --> 07:01.160
Và do đó, chúng ta có thể được thưởng khi có thể giải quyết những thách thức thậm chí còn phức tạp hơn.

07:01.160 --> 07:06.830
Vì vậy, tôi hy vọng bạn rất hào hứng về việc đây sẽ là một phần sử thi và chúng tôi sẽ tạo ra một

07:06.830 --> 07:07.760
số điều tuyệt vời.

07:07.760 --> 07:10.100
Và tôi rất nóng lòng được gặp các bạn ở câu chuyện tiếp theo.

07:10.340 --> 07:11.690
Và cho đến khi đó, hãy tận hưởng.

07:11.720 --> 07:12.230
TÔI.
