WEBVTT

00:00.270 --> 00:02.730
Xin chào và chào mừng bạn đến với hướng dẫn Python này.

00:03.000 --> 00:07.740
Được rồi, vì vậy trong hướng dẫn này, chúng ta sẽ tạo hàm sẽ chọn hành động phù hợp tại

00:07.740 --> 00:08.580
mỗi thời điểm.

00:08.580 --> 00:14.430
Vì vậy, về cơ bản, chúng ta sẽ thực hiện phần làm cho chiếc xe di chuyển bên phải tại mỗi thời điểm

00:14.430 --> 00:19.410
đi sang trái, đi thẳng hoặc đi sang phải để đạt được mục tiêu và tránh các chướng ngại

00:19.410 --> 00:20.520
vật đang đổ xuống.

00:20.730 --> 00:22.200
Vì vậy, chúng ta hãy làm điều này ngay bây giờ.

00:22.200 --> 00:28.260
Chúng ta sẽ bắt đầu như bình thường với một định nghĩa để xác định một hàm và sau đó chúng ta đặt tên cho hàm

00:28.260 --> 00:30.360
của mình, chúng ta sẽ gọi là select.

00:31.170 --> 00:31.830
Hoạt động.

00:32.370 --> 00:37.320
Sau đó, một số dấu ngoặc và hàm hành động chọn này sẽ có hai đối số.

00:37.320 --> 00:41.130
Cái đầu tiên là self như thường lệ để chỉ đối tượng.

00:41.130 --> 00:46.020
Và đối số thứ hai, theo bạn sẽ là đối số nào?

00:46.170 --> 00:47.580
Chà, nó có thể là gì?

00:47.610 --> 00:53.520
Nếu bạn nghĩ về nó, hành động chúng tôi chọn đến từ đầu ra của mạng nơ-ron, vì đầu ra của mạng

00:53.520 --> 00:59.340
nơ-ron là giá trị gợi ý cho mỗi trong ba hành động có thể xảy ra và do đó hành động

00:59.340 --> 01:04.830
mà chúng tôi thực hiện, hành động sẽ là đầu ra của mạng nơ-ron phụ thuộc vào trạng thái

01:04.830 --> 01:05.550
đầu vào.

01:05.550 --> 01:11.340
Và trạng thái đầu vào chính xác là đối số thứ hai mà chúng ta cần cho hàm hành động chọn.

01:11.670 --> 01:16.260
Đó là bởi vì chúng ta thực sự sẽ lấy đầu ra của mạng nơ-ron.

01:16.260 --> 01:22.140
Và tất nhiên đầu ra của mạng nơ-ron trực tiếp phụ thuộc vào đầu vào của mạng nơ-ron.

01:22.140 --> 01:23.970
Vì vậy, đó sẽ là lập luận của chúng tôi.

01:23.970 --> 01:26.430
Và bây giờ chúng ta có thể đặt cho nó bất kỳ cái tên nào.

01:26.430 --> 01:33.870
Chúng ta thực sự sẽ gọi nó là trạng thái bởi vì đầu vào của mạng nơ-ron là trạng thái đầu vào

01:33.870 --> 01:39.810
được mã hóa bởi một vectơ năm chiều, hướng ba tín hiệu và định hướng trừ.

01:39.810 --> 01:41.940
Và vì vậy bây giờ mọi thứ sẽ trở nên dễ dàng.

01:41.940 --> 01:47.790
Chúng ta sẽ cung cấp trạng thái đầu vào vào mạng nơ-ron, trạng thái mà chúng ta đã xây dựng ở trên, ngay

01:47.790 --> 01:49.320
tại đây với lớp mạng.

01:49.320 --> 01:55.260
Và sau đó chúng ta sẽ nhận được các kết quả đầu ra, là các giá trị cue cho mỗi hành động trong số ba hành

01:55.260 --> 01:55.950
động có thể.

01:55.950 --> 02:01.110
Và sau đó sử dụng phương pháp soft max, mà tôi sẽ giải thích trong hướng dẫn này, chúng ta sẽ thực hiện

02:01.110 --> 02:02.640
hành động cuối cùng để chơi.

02:03.030 --> 02:04.290
Vì vậy, chúng ta hãy làm điều này.

02:04.290 --> 02:07.740
Hãy đi vào hàm và thực hiện tất cả những điều này.

02:08.220 --> 02:13.020
Vì vậy, điều đầu tiên chúng ta cần bắt đầu là về những gì tôi vừa đề cập đến nhồi bông.

02:13.020 --> 02:20.460
Tối đa Ý tưởng về mức tối đa mềm là chúng tôi sẽ cố gắng có được hành động tốt nhất để chơi tại mỗi thời

02:20.460 --> 02:24.480
điểm, nhưng đồng thời chúng tôi sẽ khám phá các hành động khác nhau.

02:24.720 --> 02:25.890
Và làm thế nào chúng ta có thể làm điều đó?

02:25.890 --> 02:30.990
Làm thế nào chúng ta có thể có được hành động tốt nhất để chơi trong khi vẫn khám phá các hành động khác?

02:30.990 --> 02:38.850
Chà, chúng tôi sử dụng ý tưởng này về max mềm, bao gồm việc tạo ra phân phối xác suất cho mỗi

02:38.850 --> 02:41.880
giá trị Q hành động Trạng thái Q.

02:41.880 --> 02:44.970
Bạn biết đấy, chúng tôi có một giá trị Q cho mỗi hành động.

02:44.970 --> 02:46.590
Đi sang trái, đi thẳng hoặc đi sang phải.

02:46.590 --> 02:49.470
Nhưng giá trị Q này cũng phụ thuộc vào trạng thái đầu vào.

02:49.470 --> 02:52.650
Đó chính xác là hàm Q mà bạn đã thấy và các bài giảng về trực giác.

02:52.650 --> 02:55.980
Hàm Q này là một hàm của trạng thái và hành động.

02:56.010 --> 03:02.190
Vì vậy, vì ở đây chúng ta có một trạng thái đầu vào, là trạng thái ở đây, và ba hành động có thể xảy ra, nên chúng ta có

03:02.190 --> 03:02.460
ba.

03:02.460 --> 03:03.270
Giá trị Q.

03:03.270 --> 03:04.470
Q Trạng thái hành động một.

03:04.470 --> 03:07.230
Q Trạng thái hành động hai và Q Trạng thái hành động ba.

03:07.230 --> 03:13.710
Và chúng tôi sẽ tạo ra một phân phối xác suất đối với ba giá trị Q này.

03:13.710 --> 03:18.900
Nghĩa là, chúng ta sẽ có một xác suất cho giá trị Q đầu tiên, một xác suất khác cho giá trị

03:18.900 --> 03:22.590
Q thứ hai và một xác suất thứ ba cho giá trị Q thứ ba.

03:22.590 --> 03:25.230
Và tất cả ba xác suất này sẽ cộng lại thành một.

03:25.440 --> 03:32.250
Và vì vậy chúng ta sẽ làm tất cả điều này với Max mềm và Max mềm sẽ quy ra một xác suất lớn cho giá

03:32.250 --> 03:33.420
trị Q cao nhất.

03:33.570 --> 03:40.290
Đó là lý do tại sao một giải pháp thay thế cho tự tối đa là giá trị tối đa đơn giản, bạn biết đấy, trực tiếp lấy giá

03:40.290 --> 03:41.220
trị tối đa Q.

03:41.220 --> 03:44.640
Nhưng trong trường hợp đó, chúng tôi không khám phá các hành động khác.

03:44.850 --> 03:50.430
Nhờ những xác suất này, chúng ta có thể khám phá một nơi khác bằng cách sử dụng một thông số nhiệt độ mà chúng

03:50.430 --> 03:51.690
ta sẽ thấy rất nhanh.

03:51.990 --> 03:55.740
Chúng ta vẫn có thể khám phá chúng bằng cách cấu hình thông số nhiệt độ này.

03:55.770 --> 04:02.250
Đó là lý do tại sao nói chung, đối với học sâu, tôi thực sự khuyên bạn nên sử dụng soft max hơn là arg

04:02.250 --> 04:03.060
max đơn giản.

04:03.240 --> 04:05.130
Được rồi, hãy triển khai soft max.

04:05.130 --> 04:10.980
Và do đó, như bạn đã hiểu, vì Soft Max trả về xác suất của mỗi trong ba giá

04:10.980 --> 04:17.640
trị Q cho ba hành động có thể xảy ra, nên biến đầu tiên chúng ta sẽ tạo là các probs đề

04:17.640 --> 04:20.160
cập tất nhiên, đến các xác suất này.

04:20.160 --> 04:22.080
Vì vậy, đạo cụ bằng.

04:22.080 --> 04:24.660
Và bây giờ chúng ta sẽ sử dụng hàm max mềm của chúng ta.

04:24.810 --> 04:27.930
Và theo bạn, chúng ta sẽ lấy nó từ đâu?

04:28.050 --> 04:29.490
Tất nhiên.

04:29.490 --> 04:35.730
Hãy nhớ rằng, chúng tôi đã nhập mô-đun phụ chức năng chấm ngọn đuốc và chấm, mà tôi nhắc nhở là

04:35.730 --> 04:39.630
mô-đun chứa hầu hết các hành động để triển khai mạng nơ-ron.

04:39.630 --> 04:40.830
Chúng tôi đã cho nó đường tắt.

04:40.830 --> 04:46.920
F Và đó chính xác là từ mô-đun phụ chức năng này mà chúng ta sẽ sử dụng chức năng tự tối đa của chúng ta.

04:47.070 --> 04:53.880
Nhưng vì chúng tôi đã cho nó phím tắt f, chúng tôi bắt đầu ở đây với một F đại diện cho chức năng mà từ đó chúng

04:53.880 --> 04:56.010
tôi lấy hàm max mềm của chúng tôi.

04:56.010 --> 04:56.730
Nó đây.

04:56.730 --> 04:57.990
Đó là cái đầu tiên.

04:57.990 --> 04:59.250
Và dấu ngoặc đơn.

04:59.580 --> 05:00.030
Được rồi.

05:00.030 --> 05:03.840
Và bây giờ chúng ta cần nhập những gì trong hàm self max này?

05:03.840 --> 05:09.900
Tất nhiên, đó là các thực thể mà chúng ta muốn tạo phân phối xác suất.

05:09.900 --> 05:11.400
Và những thực thể này là gì?

05:11.400 --> 05:13.590
Tất nhiên, đây là các giá trị Q.

05:13.590 --> 05:16.710
Vì vậy, bây giờ câu hỏi là, làm thế nào chúng ta có thể nhận được các giá trị Q?

05:16.710 --> 05:20.970
Tất nhiên, các giá trị Q là đầu ra của mạng nơ-ron.

05:20.970 --> 05:24.420
Và để có được những đầu ra này của mạng nơ-ron, chúng ta bắt đầu.

05:24.420 --> 05:26.880
Chúng ta cần sử dụng mạng nơ-ron của mình.

05:26.880 --> 05:30.420
Nhưng trên thực tế, chúng tôi đã có nó bởi vì đó là những gì.

05:30.910 --> 05:38.230
Được khởi tạo trong hàm init, chúng tôi đã tạo mô hình self dot, không có gì khác ngoài mạng nơ-ron của chúng tôi

05:38.230 --> 05:41.350
vì nó là một đối tượng của lớp mạng.

05:41.350 --> 05:42.600
Và vì vậy điều đó thật hoàn hảo.

05:42.610 --> 05:48.970
Chúng ta chỉ có thể lấy mô hình của mình ở đây và tự áp dụng tối đa mô hình này cho trạng thái đầu vào, đó là đối số

05:48.970 --> 05:52.870
ở đây và điều đó sẽ trả về kết quả đầu ra mà chúng ta đang tìm kiếm.

05:52.900 --> 05:54.280
Đó là các giá trị Q.

05:54.280 --> 06:00.010
Và bây giờ trực giác của bạn tại sao chúng tôi phải lấy mô hình ở đây để giới thiệu nó trong hàm init có thể trở

06:00.010 --> 06:00.730
nên tốt hơn.

06:00.730 --> 06:05.920
Đối với những bạn bắt đầu với lập trình hướng đối tượng, bạn sẽ thấy rằng tất cả những điều này sẽ trở nên

06:05.920 --> 06:06.550
tự nhiên.

06:06.940 --> 06:08.680
Vậy tự max rồi.

06:08.680 --> 06:16.660
Vì vậy, chúng tôi lấy mô hình tự chấm mô hình của chúng tôi bởi vì đây phải là mô hình của đối tượng mà chúng tôi đã tạo ở đây.

06:16.990 --> 06:23.860
Nhưng sau đó chúng ta cần lấy đầu ra của mô hình mạng nơ-ron và do đó chúng ta sẽ thêm vào đây một

06:23.860 --> 06:30.340
số dấu ngoặc đơn mà chúng ta sẽ nhập tốt, trạng thái đầu vào có tên là trạng thái ở đây.

06:30.340 --> 06:37.690
Vì vậy, những gì chúng tôi muốn làm lúc đầu là nhập trạng thái, nhưng bây giờ chúng tôi phải cẩn thận với một số thứ.

06:37.690 --> 06:43.930
Trạng thái trông giống như một trạng thái đơn giản ngay bây giờ, nhưng hãy nhớ rằng trạng thái đó thực sự sẽ trở

06:43.930 --> 06:51.040
thành một bó đuốc bởi vì sau này chúng ta sẽ sử dụng trạng thái self less này để đặt nó làm đối số của hàm hành động

06:51.040 --> 06:56.510
chọn, đối số trạng thái đó là ở đây thực sự sẽ trở thành sau này tự này, trạng thái ít

06:56.530 --> 06:57.280
hơn đó.

06:57.430 --> 07:02.590
Và vì đây là một máy căng đuốc, nên mô hình sẽ chấp nhận nó, vì vậy điều đó tốt.

07:02.590 --> 07:04.720
Nhưng bây giờ chúng tôi có thể cải thiện thuật toán.

07:04.870 --> 07:08.290
Vì vậy, như bạn đã hiểu, State là một ngọn đuốc.

07:08.290 --> 07:15.250
Và như chúng tôi đã nói trước đó, hầu hết các cảm biến được bao bọc thành một biến cũng sẽ chứa một gradient.

07:15.430 --> 07:22.540
Vì vậy, ngay bây giờ những gì chúng ta sẽ làm đầu tiên là quấn trạng thái đầu vào này là một tensor vào một biến ngọn đuốc.

07:22.570 --> 07:27.910
Nhưng vì đây là trạng thái đầu vào, nên sẽ không có sự khác biệt nào.

07:27.910 --> 07:33.610
Chúng tôi sẽ không sử dụng gradient của trạng thái này đối với biến trong các tính toán.

07:33.610 --> 07:42.700
Và do đó những gì chúng ta sẽ làm bây giờ là chuyển đổi trạng thái tensor ngọn đuốc này thành một biến ngọn đuốc.

07:44.670 --> 07:45.480
Như vậy.

07:45.600 --> 07:51.600
Nhưng sau đó để xác định rằng chúng tôi không muốn các gradient trong đồ thị của tất cả các tính toán của

07:51.600 --> 07:52.320
mô-đun PN.

07:52.320 --> 07:57.660
Vâng, chúng tôi sẽ thêm ở đây đưa ra giá trị biến động bằng true.

07:57.930 --> 08:03.120
Vì vậy, bây giờ chúng ta có tensor ngọn đuốc trạng thái của chúng ta thành một biến ngọn đuốc.

08:03.210 --> 08:10.500
Nhưng nhờ tham số bằng true dễ bay hơi này, chúng tôi sẽ không đưa gradient liên quan đến trạng

08:10.500 --> 08:16.380
thái đầu vào này vào biểu đồ của tất cả các phép tính của mô-đun.

08:16.650 --> 08:18.390
Vì vậy, đó là một thủ thuật kỹ thuật khác.

08:18.390 --> 08:22.920
Điều này sẽ giúp chúng ta tiết kiệm một số bộ nhớ và do đó điều này sẽ cải thiện hiệu suất.

08:22.920 --> 08:27.690
Vì vậy, tôi thực sự khuyên bạn nên làm điều này và bây giờ chúng ta sẽ thêm một cái gì đó thú vị hơn.

08:27.690 --> 08:30.600
Đó là về thông số nhiệt độ này mà tôi vừa đề cập.

08:30.600 --> 08:36.090
Vì vậy, tham số nhiệt độ này là tham số cho phép chúng ta điều chỉnh cách mạng

08:36.090 --> 08:39.960
nơ-ron chắc chắn về hành động mà nó sẽ quyết định phát.

08:39.960 --> 08:46.980
Vì vậy, tham số nhiệt độ này sẽ là một số dương, và càng gần 0, mạng nơ-ron càng kém chắc

08:47.010 --> 08:49.500
chắn khi thực hiện một hành động.

08:49.500 --> 08:55.290
Và thông số nhiệt độ này càng cao thì mạng nơ-ron càng chắc chắn về hành động mà nó

08:55.290 --> 08:56.400
quyết định phát.

08:56.670 --> 09:04.410
Và để thêm thông số này, tôi sẽ nhân các đầu ra, là giá trị cue với thông số nhiệt độ

09:04.410 --> 09:05.100
này.

09:05.250 --> 09:13.230
Vì vậy, hãy bắt đầu ví dụ, với bảy và tôi sẽ chỉ rõ ở đây nhận xét nhỏ T bằng bảy.

09:13.350 --> 09:17.010
Vì vậy, đó là thông số nhiệt độ mà tôi đang đặt bằng bảy.

09:17.010 --> 09:20.880
Chúng tôi sẽ thử một số cái khác, nhưng tôi chỉ muốn bắt đầu với một cái nhỏ vì bạn sẽ

09:20.880 --> 09:22.320
thấy điều đó với một cái nhỏ.

09:22.320 --> 09:25.680
Xe của chúng ta vẫn sẽ hoạt động như một loại côn trùng nào đó.

09:25.680 --> 09:30.180
Nhưng sau đó bằng cách tăng thông số nhiệt độ này, mã của chúng ta sẽ giống một chiếc ô tô hơn.

09:30.180 --> 09:33.990
Và bên cạnh đó, việc điều khiển ô sẽ tốt hơn rất nhiều.

09:34.200 --> 09:40.380
Và điều đó có ý nghĩa vì thông số nhiệt độ này càng cao thì xác suất giá trị Q

09:40.380 --> 09:41.670
thắng sẽ càng cao.

09:42.000 --> 09:49.410
Vì ví dụ, nếu chúng ta có max mềm của các giá trị Q, hãy lấy một số con số đơn giản.

09:49.410 --> 09:51.660
Một hai ba.

09:52.020 --> 10:00.930
Ví dụ: nếu nhồi tối đa từ 1 đến 3 bằng 0. 04, oh điểm 11 và 0. 85.

10:01.020 --> 10:06.720
Sau đó, bằng cách tăng nhiệt độ bằng cách lấy nhiệt độ cao hơn, ngay bây giờ nhiệt độ bằng

10:06.720 --> 10:07.260
một.

10:07.350 --> 10:10.320
Bằng cách lấy nhiệt độ cao hơn chẳng hạn như hai.

10:10.350 --> 10:11.910
Vì vậy, tối đa mềm.

10:13.020 --> 10:15.810
Hãy sao chép nó và nhân nó với.

10:15.810 --> 10:22.800
Ví dụ: hai hoặc ba máy Mac nhồi bông có cùng giá trị Q, nhưng nhân với thông số nhiệt độ

10:22.800 --> 10:23.940
này của ba.

10:24.060 --> 10:30.900
Chà, chúng ta sẽ nhận được một cái gì đó giống như 0 cho giá trị Q đầu tiên vì điều này có xác suất rất thấp.

10:30.930 --> 10:37.500
Vì vậy, đó là một cái gì đó xung quanh 0 sau đó là một cái gì đó rất nhỏ đối với xác suất thứ hai bởi vì

10:37.500 --> 10:39.180
đây vẫn là một xác suất thấp.

10:39.180 --> 10:48.810
Vì vậy, giả sử, ví dụ, 0. 02 nhưng sau đó là xác suất thứ ba vì nó là xác suất lớn nhất

10:48.810 --> 10:54.420
và khá cao, bằng cách tăng nhiệt độ, xác suất này sẽ còn lớn hơn vì chúng ta sẽ

10:54.420 --> 11:00.120
chắc chắn hơn rằng đây là giá trị Q phù hợp tương ứng với hành động chúng ta phải

11:00.120 --> 11:00.600
chơi.

11:00.600 --> 11:05.340
Và do đó đây sẽ là một cái gì đó giống như điểm 98.

11:05.760 --> 11:11.760
Bây giờ bằng cách tăng thông số nhiệt độ này, nơi chúng tôi thậm chí còn chắc chắn hơn rằng hành động thứ ba

11:11.760 --> 11:17.460
ở đây phải là hành động để chơi, bởi vì xác suất cho giá trị Q của hành động này không chỉ

11:17.460 --> 11:19.530
là lớn nhất mà còn rất cao.

11:19.560 --> 11:22.470
Vì vậy, đó là những gì thông số nhiệt độ này là tất cả về.

11:22.470 --> 11:26.880
Đó là về sự chắc chắn của hành động mà chúng ta nên quyết định chơi.

11:27.180 --> 11:27.510
Được rồi.

11:27.510 --> 11:29.340
Vì vậy, tôi sẽ xóa bình luận này.

11:29.340 --> 11:30.720
Điều này chỉ để giải thích.

11:30.990 --> 11:33.150
Và bây giờ chúng ta hãy bắt đầu hành động.

11:33.240 --> 11:35.310
Vì vậy, làm thế nào chúng ta sẽ làm điều đó?

11:35.310 --> 11:41.310
Chà, nguyên tắc của phương pháp soft max không chỉ là tạo ra phân phối xác suất cho từng giá trị

11:41.310 --> 11:46.080
Q, mà còn và đó là bước thứ hai của phương pháp soft max này.

11:46.170 --> 11:51.630
Chúng tôi rút thăm ngẫu nhiên từ phân phối này để có hành động cuối cùng của chúng tôi.

11:51.780 --> 11:57.240
Và tất nhiên, chúng ta sẽ có cơ hội cao để nhận được hành động tương ứng với giá trị Q có xác

11:57.240 --> 12:01.050
suất cao nhất, bởi vì đó chính xác là cách hoạt động của một phân phối.

12:01.500 --> 12:02.400
Vậy là xong.

12:02.400 --> 12:03.930
Hãy bắt đầu hành động của chúng tôi.

12:03.930 --> 12:07.860
Vì vậy, chúng tôi sẽ giới thiệu một biến mới mà chúng tôi sẽ gọi là hành động.

12:08.610 --> 12:16.230
Và hành động này sẽ là một phép rút ngẫu nhiên của phân phối xác suất mà chúng ta vừa tạo ở dòng này

12:16.230 --> 12:17.160
trước đó.

12:17.250 --> 12:19.980
Và vậy làm thế nào để chúng ta có được một lượt rút thăm ngẫu nhiên như vậy?

12:19.980 --> 12:24.270
Chà, chúng ta sẽ tính xác suất đạo cụ của mỗi giá trị Q.

12:24.270 --> 12:32.160
Chúng tôi lấy đạo cụ và sau đó chấm, và sau đó chúng tôi sẽ sử dụng chức năng đa danh nghĩa và điều đó sẽ cho chúng tôi

12:32.160 --> 12:35.940
một lượt rút thăm ngẫu nhiên từ các đạo cụ phân phối này.

12:35.940 --> 12:36.840
Vậy đó là tất cả.

12:36.840 --> 12:38.310
Đó là những gì mang lại cho chúng tôi hành động.

12:38.310 --> 12:39.210
Hoàn hảo.

12:39.210 --> 12:44.580
Và tất nhiên bây giờ, chúng ta sẽ quay lại hành động mà có một mẹo nhỏ ở đây.

12:44.580 --> 12:51.300
Chà, thực tế là đạo cụ này trả về nhiều năm cho biến pytorch với một lô giả mà bạn biết thứ

12:51.300 --> 12:57.270
nguyên giả này tương ứng với lô và do đó, để có được kết quả phù hợp mà chúng ta

12:57.270 --> 13:00.390
muốn, đó là hành động không một hoặc hai.

13:00.630 --> 13:08.490
Chúng tôi chỉ cần thêm vào đây dữ liệu và sau đó một số dấu ngoặc và hành động không một hoặc hai mà chúng tôi

13:08.490 --> 13:12.840
đang tìm kiếm được chứa trong các chỉ mục, số không và số không.

13:13.410 --> 13:13.920
Được rồi.

13:13.920 --> 13:14.640
Và chúng ta bắt đầu.

13:14.640 --> 13:16.590
Bây giờ chúng tôi có hành động của chúng tôi.

13:16.740 --> 13:22.200
Nhờ chức năng hành động được chọn này, AI giờ đây sẽ biết hành động nào cần thực hiện tại mỗi thời điểm.

13:22.560 --> 13:23.370
Khủng khiếp.

13:23.370 --> 13:27.300
Vì vậy, bây giờ chúng ta có thể chuyển sang hàm tiếp theo, đó sẽ là hàm học.

13:27.300 --> 13:32.610
Và đó là nơi chúng ta sẽ đào tạo toàn bộ mạng nơ-ron với tất cả sự lan truyền về phía trước và sau đó

13:32.610 --> 13:35.670
là sự lan truyền trở lại bằng cách sử dụng descent gradient ngẫu nhiên.

13:35.670 --> 13:41.460
Về cơ bản, chúng tôi sẽ triển khai toàn bộ quá trình đào tạo mô hình học sâu, vốn là trung tâm của trí

13:41.460 --> 13:43.170
tuệ nhân tạo của chúng tôi.

13:43.170 --> 13:44.610
Vì vậy, tôi không thể chờ đợi để làm điều đó.

13:44.610 --> 13:49.260
Đây sẽ là một hướng dẫn thú vị và vì vậy tôi sẽ gặp lại bạn trong hướng dẫn tiếp theo.

13:49.260 --> 13:50.520
Cho đến lúc đó, hãy tận hưởng.

13:50.520 --> 13:51.000
TÔI.