WEBVTT

00:00.270 --> 00:02.880
Xin chào và chào mừng bạn trở lại khóa học về Học sâu.

00:02.880 --> 00:08.360
Đây là một hướng dẫn bổ sung để nói về máy Mac mềm và các hàm entropy chéo.

00:08.370 --> 00:15.570
Nó không cần thiết 100% để bạn có thể xem qua tất cả các phần mà chúng ta đã xem qua

00:15.570 --> 00:21.120
trong phần chính của phần này, nơi chúng ta đang nói về mạng nơ-ron phức hợp.

00:21.120 --> 00:26.490
Nhưng đồng thời, tôi nghĩ nó sẽ là một bổ sung tốt cho hành trang kiến thức và kỹ năng của bạn.

00:26.490 --> 00:30.450
Vì vậy, chúng ta hãy tiếp tục và đi sâu vào các chức năng này.

00:30.570 --> 00:37.470
Vì vậy, để bắt đầu, những gì chúng ta có ở đây là mạng nơ-ron tích tụ mà chúng ta đã xây dựng trong phần chính của phần này, và sau

00:37.470 --> 00:46.560
đó ở phần cuối, nó đưa ra một số xác suất cho 0. 95 cho một con chó và 0. 055 hoặc 5% cho một

00:46.560 --> 00:47.790
con mèo.

00:47.820 --> 00:52.530
Cho rằng bức ảnh bên trái làm đầu vào, đây là ảnh sau khi chuyến tàu được tiến hành.

00:52.530 --> 00:57.120
Đây thực sự là nó đang chạy và nó đang phân loại một hình ảnh nhất định.

00:57.120 --> 01:00.690
Và câu hỏi đặt ra ở đây là, tại sao hai giá trị này lại cộng lại thành một?

01:00.690 --> 01:06.150
Bởi vì theo những gì chúng ta biết, từ tất cả những gì chúng ta đã học về mạng nơ-ron

01:06.150 --> 01:11.490
nhân tạo, không có gì để nói rằng hai nơ-ron cuối cùng này được kết nối với nhau.

01:11.490 --> 01:16.680
Vậy làm thế nào họ biết được giá trị của mỗi người trong số họ biết, giá trị của người kia là gì, và làm

01:16.680 --> 01:20.070
thế nào họ biết để cộng các giá trị của mình lên một giá trị?

01:20.070 --> 01:26.010
Chà, câu trả lời là chúng không có trong phiên bản cổ điển của mạng nơ-ron nhân tạo.

01:26.100 --> 01:31.650
Và cách duy nhất mà họ làm là vì chúng tôi giới thiệu một hàm đặc biệt được gọi là hàm soft max để

01:31.650 --> 01:33.720
giúp chúng tôi thoát khỏi tình huống này.

01:33.720 --> 01:40.620
Vì vậy, thông thường những gì sẽ xảy ra là các tế bào thần kinh của chó và mèo sẽ có bất kỳ loại giá trị thực nào.

01:41.400 --> 01:44.910
Họ không cần phải là B, họ không cần phải thêm vào một.

01:44.910 --> 01:51.510
Nhưng sau đó, chúng ta sẽ áp dụng hàm soft max, được viết ở trên cùng ở trên cùng, và điều đó sẽ đưa các giá trị

01:51.510 --> 01:56.100
này nằm trong khoảng từ 0 đến 1 và nó sẽ làm cho chúng cộng lại thành một.

01:56.100 --> 02:03.180
Và để trích dẫn Wikipedia, hàm cực đại nguồn hoặc hàm mũ chuẩn hóa là một tổng quát của hàm logistic mà trích

02:03.180 --> 02:10.200
dẫn chưa trích dẫn nhấp nháy một vectơ k chiều của các giá trị thực tùy ý thành một vectơ k chiều

02:10.200 --> 02:15.240
của các giá trị thực trong phạm vi từ 0 đến 1 cộng lại một.

02:15.240 --> 02:17.460
Vì vậy, về cơ bản nó làm chính xác những gì chúng ta muốn.

02:17.460 --> 02:22.650
Nó đưa các giá trị này nằm trong khoảng từ 0 đến 1 và đảm bảo rằng chúng cộng lại thành một.

02:22.650 --> 02:26.400
Và cách nó hoạt động là cách mà điều này là có thể.

02:26.400 --> 02:29.790
Đó là bởi vì ở phía dưới đây, bạn có thể thấy rằng có một tổng kết.

02:29.790 --> 02:36.480
Vì vậy, nó lấy số mũ và đặt nó theo lũy thừa của Z và cộng nó lên.

02:36.480 --> 02:39.690
Vì vậy, Z một là một trong tất cả các lớp của bạn, tất cả các giá trị này.

02:39.690 --> 02:43.470
Và đó là quá trình bình thường của bạn đang diễn ra ngay tại đó.

02:44.130 --> 02:47.310
Vì vậy, đó là cách hoạt động của hàm soft max.

02:47.310 --> 02:54.810
Và sẽ rất hợp lý khi đưa một hàm soft max vào các mạng nơ-ron phức hợp, bởi vì sẽ thật

02:54.810 --> 03:02.370
kỳ lạ nếu bạn có các lớp có thể là chó và mèo, và đối với lớp chó, bạn có xác suất

03:03.450 --> 03:08.250
là 80% và đối với mèo lớp bạn có xác suất là 45%.

03:08.250 --> 03:08.610
Đúng?

03:08.610 --> 03:11.190
Nó chỉ không có ý nghĩa như thế.

03:11.190 --> 03:15.810
Và do đó, sẽ tốt hơn nhiều khi bạn giới thiệu chức năng tắt tối đa này và đó

03:15.810 --> 03:19.230
là điều bạn sẽ thấy thường xuyên xảy ra trong mạng nơ-ron phức hợp.

03:19.530 --> 03:25.980
Bây giờ, điều khác là hàm soft max đi đôi với một thứ gọi là hàm

03:25.980 --> 03:27.240
cross entropy.

03:27.240 --> 03:28.950
Và đó là một thứ rất tiện dụng cho chúng tôi.

03:28.950 --> 03:30.450
Vì vậy, trước tiên chúng ta hãy nhìn vào công thức.

03:30.480 --> 03:32.730
Đây là hàm entropy chéo trông như thế nào.

03:32.910 --> 03:36.930
Chúng tôi thực sự sẽ sử dụng một phép tính khác.

03:36.930 --> 03:40.590
Chúng tôi sẽ sử dụng biểu diễn này của mục nhập chéo, nhưng kết quả về cơ bản là giống nhau.

03:40.590 --> 03:42.150
Điều này chỉ là dễ dàng hơn để tính toán.

03:42.270 --> 03:48.990
Và những gì tôi biết, điều này nghe có vẻ không liên quan đến bất kỳ thứ gì ngay bây giờ, chỉ là các công thức trên màn hình của

03:48.990 --> 03:53.010
bạn, nhưng sẽ có một số bài đọc được đề xuất bổ sung ở cuối phần này.

03:53.010 --> 03:58.290
Vì vậy, đừng lo lắng nếu bạn không hiểu bài toán, giống như tôi nếu chúng ta chưa giải thích toán học ngay bây giờ.

03:58.290 --> 04:01.710
Nhưng vấn đề ở đây là entropy chéo là gì?

04:01.710 --> 04:03.540
Vâng, một hàm entropy chéo.

04:03.540 --> 04:11.460
Hãy nhớ cách chúng ta trước đây trong mạng nơ-ron nhân tạo, chúng ta có một hàm được gọi là hàm lỗi bình phương trung

04:11.460 --> 04:17.700
bình, mà chúng ta sử dụng làm hàm chi phí để đánh giá hiệu suất mạng của chúng ta.

04:17.700 --> 04:23.670
Và mục tiêu của chúng tôi là giảm thiểu MSI để tối ưu hóa hiệu suất mạng của chúng tôi.

04:23.670 --> 04:26.700
Chà, đó là hàm chi phí của chúng tôi sau đó ở đó, ở đó.

04:26.700 --> 04:34.500
Và trong mạng nơron chập, chúng ta vẫn có thể sử dụng MSI, nhưng một lựa chọn tốt hơn trong mạng nơron chập

04:34.500 --> 04:39.600
sau khi bạn áp dụng hàm soft max hóa ra là hàm entropy chéo.

04:39.600 --> 04:45.540
Và trong mạng nơ ron tích tụ, khi bạn áp dụng các hàm entropy chéo, không được gọi là hàm chi phí

04:45.540 --> 04:49.410
nữa, nó được gọi là hàm mất mát, và chúng rất giống nhau.

04:49.410 --> 04:55.440
Chúng chỉ là những khác biệt nhỏ về thuật ngữ và giống như một chút khác biệt về ý nghĩa của chúng.

04:55.440 --> 04:58.920
Nhưng đối với mục đích của chúng tôi, nó khá giống nhau và.

04:59.750 --> 05:07.460
Điều xảy ra là hàm mất mát, một lần nữa, là thứ mà chúng tôi muốn giảm thiểu để tối đa hóa hiệu

05:07.460 --> 05:09.430
suất mạng của chúng tôi.

05:09.440 --> 05:15.170
Vì vậy, chúng ta hãy xem một ví dụ nhanh về cách hàm này có thể được áp dụng.

05:15.170 --> 05:19.070
Vì vậy, giả sử chúng tôi đã đưa hình ảnh một con chó vào mạng của mình.

05:19.550 --> 05:24.410
Giá trị dự đoán cho con chó là 0. 9 và đây là trong quá trình đào tạo.

05:24.410 --> 05:27.020
Vì vậy, chúng tôi biết rằng chúng tôi biết nhãn đó là một con chó.

05:27.020 --> 05:29.320
Vì vậy, giá trị dự đoán là 0. 9.

05:29.330 --> 05:32.180
Giá trị dự đoán cho mèo là 0. 1.

05:32.180 --> 05:33.650
Sau đó, ở đây chúng tôi có nhãn.

05:33.650 --> 05:37.700
Vì vậy, chúng tôi biết đó là một con chó bởi vì đây là huấn luyện và một cho chó, không cho mèo.

05:37.700 --> 05:42.410
Và vì vậy trong trường hợp này, bạn cần phải sử dụng.

05:43.330 --> 05:47.510
Bạn nên thêm những con số này vào công thức của bạn cho entropy chéo.

05:47.530 --> 05:52.780
Vì vậy, làm thế nào bạn làm điều đó là các giá trị bên trái sẽ đi đến biến?

05:52.780 --> 05:58.870
Q Giá trị dưới logarit ở phía bên phải và các giá trị từ bên phải sẽ chuyển thành P Và vì vậy,

05:58.870 --> 06:03.940
điều quan trọng là phải nhớ cái nào sẽ đến đó ở đâu bởi vì nếu bạn làm

06:03.940 --> 06:09.460
sai, bạn sẽ không muốn lấy một logarit từ a, từ một giá trị 0 và hoặc một log từ một.

06:09.460 --> 06:16.450
Vì vậy, bạn chỉ muốn cắm chúng vào, hãy đảm bảo rằng bạn cắm chúng vào đúng vị trí và sau đó về cơ bản bạn sẽ thêm

06:16.450 --> 06:16.960
chúng.

06:16.960 --> 06:19.390
Vì vậy, đó là cách hoạt động của mục nhập chéo.

06:19.390 --> 06:25.150
Và chúng ta sẽ xem xét một thực tế ngay bây giờ chúng ta sẽ xem xét một ví dụ cụ thể từng bước về việc áp dụng

06:25.150 --> 06:26.650
chức năng này trong cuộc sống thực.

06:26.650 --> 06:30.220
Và nó sẽ có ý nghĩa hơn entropy chéo là gì.

06:30.220 --> 06:36.340
Và nó sẽ không giống như mục tiêu của tôi trong hướng dẫn này là giúp bạn thoải mái

06:36.340 --> 06:45.580
hơn với entropy chéo, bởi vì nó có thể nghe rất phức tạp và không có ý định chơi chữ, nó có thể giống như các mạng nơ-ron phức

06:45.850 --> 06:48.190
tạp, nghe có vẻ rất phức tạp.

06:48.190 --> 06:48.690
Đúng.

06:48.790 --> 06:50.740
Đáng sợ, nhưng nó không phải.

06:50.740 --> 06:51.550
Đó là vấn đề.

06:51.550 --> 06:54.010
Vì vậy, hãy tiếp tục và áp dụng nó để chúng ta biết rằng nó không đáng sợ.

06:54.010 --> 06:56.290
Vì vậy, đây là mạng thần kinh.

06:56.290 --> 07:01.510
Và điều này cũng sẽ giải thích lý do tại sao chúng tôi làm điều này, tại sao chúng tôi đang xem xét các hàm lớp khác nhau.

07:01.510 --> 07:06.280
Vì vậy, mạng thần kinh một, mạng thần kinh hai, giả sử chúng ta có hai mạng thần kinh và sau đó

07:06.280 --> 07:11.890
chúng ta chuyển một hình ảnh của một con chó và chúng ta biết rằng đây là một con chó chứ không phải một con mèo.

07:11.890 --> 07:16.840
Và sau đó chúng ta có một hình ảnh khác của một con mèo, lần này là một con vật.

07:16.840 --> 07:17.830
Và đó là một con mèo, không phải một con chó.

07:17.830 --> 07:22.960
Và ở đây chúng ta có một con vật trông rất kỳ lạ, trên thực tế, đó là một con chó, không phải một con mèo, nếu

07:22.960 --> 07:23.590
bạn nhìn kỹ.

07:24.100 --> 07:26.280
Vì vậy, chúng tôi muốn xem mạng nơ-ron của chúng tôi là gì.

07:26.470 --> 07:32.290
Sẽ dự đoán trong trường hợp đầu tiên, mạng thần kinh một 90% chó 10% mèo.

07:32.290 --> 07:33.160
Chính xác.

07:33.160 --> 07:37.510
Mạng nơ-ron số hai 60% chó 40% mèo vẫn đúng.

07:37.510 --> 07:39.040
Tệ hơn nhưng đúng.

07:40.120 --> 07:46.810
Phương án thứ hai mạng nơron thứ nhất 10% con chó mèo 90% con mèo đúng.

07:47.160 --> 07:51.010
Và bạn chỉ đang nói về hai con số 30% là chó, 70% là mèo.

07:51.280 --> 07:53.260
Tệ hơn, nhưng vẫn đúng.

07:53.260 --> 07:58.930
Và cuối cùng, mạng nơ-ron một trong hình ảnh ba mạng nơ-ron một 40%.

07:58.930 --> 08:08.020
Con chó 60% con mèo không chính xác mạng thần kinh số hai 10% con chó 90% con mèo không chính xác và tệ hơn.

08:08.020 --> 08:15.430
Vì vậy, mấu chốt ở đây là mặc dù cả hai mạng đều mắc sai lầm trong lần trước, nhưng thông qua cả ba hình ảnh, mạng

08:15.430 --> 08:18.820
nơ-ron, một mạng hoạt động tốt hơn mạng nơ-ron thứ hai.

08:18.820 --> 08:27.310
Vì vậy, ngay cả trong trường hợp cuối cùng, nó đã cho chó giống như 40% cơ hội, trái ngược với mạng thần kinh chỉ

08:27.310 --> 08:29.050
cho chó 10% cơ hội.

08:29.050 --> 08:34.990
Vì vậy, mạng nơ-ron một đang vượt trội hơn so với mạng nơ-ron hai.

08:35.440 --> 08:41.710
Và bây giờ chúng ta sẽ xem xét các chức năng mà chúng có thể đo lường hiệu suất mà chúng ta

08:41.710 --> 08:42.730
đã nói đến.

08:42.730 --> 08:44.770
Vì vậy, chúng ta hãy đặt chúng vào một bảng.

08:44.770 --> 08:46.180
Vì vậy, có một mạng nơ-ron.

08:46.630 --> 08:49.360
Bạn có số hàng, vì vậy đó là số hình ảnh.

08:49.360 --> 08:53.830
Và sau đó đối với hình ảnh một, bạn có những gì nó dự đoán, 90% là chó, 10% là mèo.

08:53.830 --> 08:57.250
Vì vậy, đó là các biến mũ và sau đó bạn có các giá trị thực tế.

08:57.250 --> 08:57.430
Vì thế.

08:57.430 --> 08:59.140
Con chó đúng.

08:59.140 --> 09:00.340
Mèo không chính xác.

09:00.340 --> 09:07.630
Điều tương tự đối với hình ảnh số hai và điều tương tự đối với hình ảnh số ba và điều tương tự đối với mạng nơ-ron số hai.

09:07.630 --> 09:12.010
Vì vậy, con chó 60%, con mèo 40% trong hình ảnh đầu tiên, đó là những gì nó dự đoán.

09:12.070 --> 09:14.440
Câu trả lời đúng là con chó không phải con mèo và như vậy.

09:15.010 --> 09:17.950
Và vì vậy bây giờ chúng ta hãy xem những lỗi mà chúng ta thực sự có thể mắc phải.

09:17.950 --> 09:24.550
Vì vậy, những lỗi nào chúng tôi có thể tính toán để ước tính hiệu suất và theo dõi hiệu suất của mạng của chúng tôi.

09:24.640 --> 09:32.800
Vì vậy, một loại lỗi được gọi là lỗi phân loại, và về cơ bản bạn chỉ cần hỏi nó, bạn đã hiểu

09:32.860 --> 09:33.940
đúng hay chưa?

09:33.940 --> 09:37.870
Bất kể xác suất xảy ra, chỉ là bạn đã làm đúng hay chưa đúng?

09:37.870 --> 09:44.980
Vì vậy, trong cả hai trường hợp, đối với cả hai mạng nơ-ron, mỗi mạng đều có một hoặc lâu hơn.

09:44.980 --> 09:46.240
Đây là cách họ đã sai.

09:46.240 --> 09:48.400
Vì vậy, họ có một trong ba sai.

09:48.400 --> 09:54.940
Vì vậy, tỷ lệ lỗi 33% cho mạng nơ-ron một và tỷ lệ lỗi 33% cho mạng nơ-ron hai.

09:54.940 --> 09:59.080
Và về cơ bản từ quan điểm này, cả hai mạng nơ-ron đều hoạt động ở cùng một mức độ.

09:59.080 --> 10:00.100
Nhưng chúng tôi biết điều đó không đúng.

10:00.100 --> 10:04.150
Chúng ta biết rằng mạng nơ-ron một đang tốt hơn mạng nơ-ron hai.

10:04.930 --> 10:10.990
Đó là lý do tại sao lỗi phân loại không phải là một thước đo tốt, đặc biệt là cho mục đích lan truyền ngược có

10:11.680 --> 10:13.690
nghĩa là sai số bình phương khác nhau.

10:13.690 --> 10:16.720
Và nhân tiện, tôi đã thực hiện các phép tính này trong Excel.

10:16.930 --> 10:18.340
Tôi chỉ không muốn làm phiền bạn với họ.

10:18.340 --> 10:21.940
Nhưng bạn hoàn toàn có thể chỉ cần ngồi xuống và thực hiện chúng trên giấy hoặc trong Excel.

10:21.940 --> 10:23.620
Đây là những tính toán rất đơn giản.

10:23.620 --> 10:32.020
Về cơ bản, chỉ cần lấy tổng các sai số bình phương và sau đó chỉ lấy giá trị trung bình trên các quan sát

10:32.020 --> 10:32.800
của bạn.

10:32.800 --> 10:34.240
Và đó là khá nhiều.

10:34.840 --> 10:38.840
Vì vậy, đối với mạng nơ-ron một, bạn nhận được 25%.

10:38.890 --> 10:42.530
Đối với mạng nơ-ron, hai, bạn nhận được 71%.

10:42.780 --> 10:43.260
Tỷ lệ lỗi.

10:43.260 --> 10:45.840
Vì vậy, như bạn có thể thấy, điều này chính xác hơn.

10:45.840 --> 10:51.750
Nó cho chúng ta biết rằng mạng nơ-ron một có tỷ lệ lỗi thấp hơn nhiều so với mạng nơ-ron hai và sau

10:51.750 --> 10:52.890
đó lại qua entropy.

10:52.890 --> 10:53.760
Chúng tôi đã thấy công thức.

10:53.760 --> 10:54.900
Bạn cũng có thể tính toán điều này.

10:54.900 --> 10:57.900
Điều này thực sự thậm chí còn dễ dàng hơn để tính toán so với sai số trung bình bình phương.

10:57.900 --> 11:05.280
Entropy lỗi chéo mang lại cho bạn 38% đối với mạng nơ-ron 1 và 1. 06 cho mạng nơron hai.

11:05.280 --> 11:10.140
Vì vậy, bạn có thể thấy kết quả hơi khác một chút khi bạn nhìn vào chúng như vậy.

11:10.140 --> 11:19.950
Khi bạn xem xét sai số trung bình bình phương và entropy chéo, câu hỏi tại sao bạn lại sử dụng entropy chéo thay cho sai

11:19.950 --> 11:27.390
số bình phương trung bình không chỉ về loại giống như những con số mà họ đưa ra.

11:27.390 --> 11:32.430
Những tính toán này chỉ để cho bạn thấy rằng đây là tất cả những gì có thể làm được.

11:32.430 --> 11:33.630
Bạn chỉ có thể làm điều đó trên một tờ giấy.

11:33.630 --> 11:37.800
Đó không phải là những thứ toán học không quá căng thẳng.

11:37.800 --> 11:40.920
Đây là những thứ đẹp đẽ, khá đơn giản, dễ hiểu.

11:40.920 --> 11:46.140
Nhưng câu hỏi tại sao bạn lại sử dụng entropy chéo trung bình thay vì sai số bình phương trung bình?

11:46.140 --> 11:48.150
Đó là một câu hỏi rất, rất hay để hỏi.

11:48.150 --> 11:49.200
Tôi rất vui vì bạn đã hỏi nó.

11:49.920 --> 12:00.420
Câu trả lời cho điều đó giống như có một số lợi thế của entropy chéo so với sai số bình phương trung bình, điều này không

12:00.420 --> 12:01.320
rõ ràng.

12:01.320 --> 12:07.080
Và vì vậy, tôi sẽ đề cập đến một vài, nhưng sau đó tôi sẽ cho bạn biết nơi bạn có thể tìm hiểu thêm.

12:07.080 --> 12:16.830
Vì vậy, một trong số đó là nếu, ví dụ, nếu bạn đang ở giai đoạn đầu của quá trình truyền ngược, giá trị đầu

12:16.830 --> 12:22.110
ra của bạn là rất rất rất rất rất nhỏ, rất nhỏ.

12:22.110 --> 12:25.470
Vì vậy, nó nhỏ hơn nhiều so với giá trị thực tế mà bạn muốn.

12:25.470 --> 12:32.850
Sau đó, ngay từ đầu, gradient trong gốc gradient của bạn sẽ rất rất thấp và bạn sẽ

12:32.850 --> 12:33.750
không đủ.

12:33.780 --> 12:40.470
Sẽ rất khó để mạng nơ-ron thực sự bắt đầu làm điều gì đó và bắt đầu di chuyển xung quanh và bắt đầu điều chỉnh

12:40.470 --> 12:44.910
các trọng số đó và bắt đầu bắt đầu thực sự di chuyển theo đúng hướng.

12:44.910 --> 12:51.000
Trong khi khi bạn sử dụng một thứ gì đó như entropy chéo vì nó có logarit trong đó, nó thực

12:51.270 --> 12:57.120
sự giúp mạng đánh giá ngay cả một lỗi nhỏ như vậy và làm điều gì đó với nó.

12:57.420 --> 12:58.410
Đây là cách nghĩ về nó.

12:58.410 --> 13:03.180
Vì vậy, hãy nói lại một lần nữa, đây là cách tiếp cận rất trực quan.

13:03.180 --> 13:08.190
Ở đó, sẽ có một liên kết với toán học và bạn có thể rút ra những điều này thông qua toán học một

13:08.190 --> 13:10.980
cách chi tiết hơn, nhưng một cách tiếp cận rất trực quan.

13:10.980 --> 13:17.520
Giả sử bạn thích, kết quả bạn muốn là một.

13:17.520 --> 13:23.070
Và ngay bây giờ bạn đang ở 1/1000000 của một, phải không?

13:23.070 --> 13:24.900
A 0. 000001.

13:25.020 --> 13:32.570
Và sau đó bạn cải thiện trong lần tiếp theo bạn cải thiện kết quả của mình từ thứ một phần triệu đến thứ 1.000.

13:32.580 --> 13:40.200
Và về mặt nếu bạn tính toán sai số bình phương, bạn chỉ cần trừ một trường hợp khác hoặc về cơ bản trong mỗi trường hợp, bạn đang tính

13:40.200 --> 13:44.910
sai số bình phương và bạn sẽ thấy rằng sai số bình phương là khi bạn so sánh trường

13:44.910 --> 13:46.620
hợp này với trường hợp khác.

13:46.620 --> 13:48.090
Nó không thay đổi nhiều như vậy.

13:48.150 --> 13:51.840
Bạn đã không cải thiện mạng của mình nhiều như vậy khi bạn đang xem xét lỗi bình phương trung bình.

13:51.840 --> 13:58.710
Nhưng nếu bạn đang nhìn vào entropy chéo bởi vì bạn đang lấy logarit và sau đó bạn đang so sánh

13:58.710 --> 14:06.090
hai phép chia cho nhau, bạn sẽ thấy rằng bạn đã thực sự cải thiện mạng của mình đáng kể để chuyển từ

14:06.090 --> 14:12.750
một phần triệu đến Thứ 1.000 trong các thuật ngữ sai số bình phương trung bình sẽ rất thấp.

14:12.750 --> 14:20.850
Nó sẽ không đáng kể và nó sẽ không hướng dẫn quá trình tăng độ dốc của bạn hoặc sự lan truyền ngược của bạn

14:20.850 --> 14:21.990
đi đúng hướng.

14:21.990 --> 14:26.640
Nó sẽ hướng dẫn nó đi đúng hướng, nhưng nó sẽ giống như một hướng dẫn rất chậm.

14:26.640 --> 14:29.280
Nó sẽ không có đủ sức mạnh.

14:29.490 --> 14:34.620
Trong khi nếu bạn làm điều đó thông qua entropy chéo, entropy chéo sẽ hiểu rằng, ồ, mặc

14:34.620 --> 14:41.970
dù đây là những điều chỉnh rất nhỏ chỉ tạo ra một thay đổi nhỏ về mặt tuyệt đối, nhưng về mặt tương đối, đó là

14:41.970 --> 14:46.020
một cải tiến rất lớn và chúng tôi chắc chắn sẽ đúng hướng.

14:46.020 --> 14:47.160
Hãy tiếp tục theo cách đó.

14:47.160 --> 14:56.040
Vì vậy entropy chéo sẽ giúp mạng nơ-ron của bạn đi đúng hướng, đạt trạng thái tối ưu.

14:56.760 --> 15:01.020
Đó là một cách tốt hơn để mạng nơ-ron đạt được trạng thái tối ưu.

15:01.020 --> 15:08.160
Nhưng hãy nhớ rằng điều này chỉ hoạt động khi entropy chéo là phương pháp được ưu tiên chỉ để phân loại.

15:08.160 --> 15:13.590
Vì vậy, nếu bạn đang nói về những thứ như hồi quy, giống như chúng ta đã có trong mạng nơ-ron

15:13.740 --> 15:17.280
nhân tạo, thì bạn thà đi với tôi và sai số bình phương.

15:17.280 --> 15:22.860
Trong khi entropy chéo thì tốt hơn cho việc phân loại và một lần nữa nó liên quan đến thực tế là chúng ta đang sử dụng

15:22.860 --> 15:23.610
hàm soft mac.

15:23.610 --> 15:26.640
Vì vậy, đó là một loại giải thích trực quan về điều đó.

15:26.880 --> 15:29.280
Một nơi tốt để tìm hiểu thêm một chút về điều đó.

15:29.280 --> 15:34.440
Nếu bạn thực sự quan tâm đến lý do tại sao chúng tôi sử dụng entropy chéo so với sai số trung bình bình phương?

15:35.190 --> 15:42.150
Google Video của Geoffrey Hinton gọi là chức năng đầu ra tối đa mềm và ông giải thích về nó.

15:42.250 --> 15:42.850
Rất tốt.

15:42.850 --> 15:47.800
Và, bạn biết đấy, là cha đỡ đầu của học sâu, ai có thể giải thích nó tốt hơn.

15:48.580 --> 15:51.610
Và nhân tiện, bất kỳ video nào của Geoffrey Hinton đều là vàng.

15:51.610 --> 15:54.220
Anh ấy chỉ có một tài năng tuyệt vời để giải thích mọi thứ.

15:55.120 --> 15:58.540
Dù sao, đó là giá trị max mềm so với entropy chéo.

15:58.540 --> 16:03.100
Tôi hy vọng điều đó mang lại cho bạn một sự hiểu biết trực quan về những gì đang diễn ra ở

16:03.100 --> 16:08.980
đây, nhưng quan trọng hơn là bạn không bị hạn chế bởi thuật ngữ entropy chéo, bởi vì Adlon sẽ đề cập đến nó trong các hướng dẫn thực hành.

16:08.980 --> 16:11.020
Và tôi muốn đảm bảo rằng bạn đã chuẩn bị cho điều đó.

16:11.020 --> 16:17.170
Và đó chỉ là một cách khác để tính toán hàm mất mát của bạn và một cách khác

16:17.170 --> 16:23.560
để tối ưu hóa mạng của bạn, được điều chỉnh cụ thể cho các vấn đề phân loại và do

16:23.560 --> 16:27.730
đó mạng nơ-ron phức hợp và đi kèm với hàm max mềm.

16:28.060 --> 16:35.230
Vì vậy, hãy đọc thêm, nếu bạn muốn giới thiệu nhẹ về entropy chéo, nếu bạn quan tâm đến entropy chéo

16:35.230 --> 16:36.370
hơn một chút.

16:36.400 --> 16:42.250
Tất nhiên, một bài báo hay để xem có tên là Giới thiệu Thân thiện về Mất mát Entropy Chéo của

16:42.250 --> 16:43.410
Rob de Pietro.

16:44.110 --> 16:46.660
2016 Đây là liên kết bên dưới.

16:47.020 --> 16:48.190
Rất rất tốt.

16:49.030 --> 16:50.410
Rất mềm mại.

16:50.440 --> 16:51.210
Không?

16:51.220 --> 16:52.060
Không không.

16:52.060 --> 16:53.770
Toán siêu phức tạp.

16:54.130 --> 16:56.110
Một ví dụ điển hình là một ví dụ điển hình.

16:56.110 --> 17:01.120
Sử dụng phép tương tự về ô tô và bạn nhìn vào ô tô và nói về thông tin cũng như các bit và hạn chế.

17:01.900 --> 17:03.220
Và bạn sẽ mã hóa nó như thế nào?

17:03.220 --> 17:03.880
Bạn sẽ mã hóa nó như thế nào?

17:03.890 --> 17:05.770
Đó là một bài báo tốt để xem qua.

17:05.770 --> 17:08.800
Và chúng tôi sẽ cung cấp cho bạn một cái nhìn tổng quan về entropy chéo.

17:09.580 --> 17:15.340
Giống như từ quan điểm mở đầu, nếu bạn muốn tìm hiểu sâu về toán học nặng như những gì bạn

17:15.820 --> 17:21.370
thấy ở đây, thì hãy xem một bài viết của hoặc blog về Cách triển khai mạng thần kinh.

17:21.370 --> 17:29.320
Intermezzo hai Vì vậy, intermezzo giống như một thứ trung gian, giống như một thứ gián đoạn, giống như khi bạn đến một

17:29.320 --> 17:36.100
rạp hát và bạn giống như một khoảng thời gian nghỉ giữa phần đầu tiên và phần thứ hai.

17:36.100 --> 17:40.300
Vì vậy, bởi vì anh ấy muốn trải qua tất cả các bước này và sau đó anh ấy thích và sau đó anh ấy nói, Ồ,

17:40.300 --> 17:41.440
tôi phải giải thích điều này trước.

17:42.250 --> 17:44.020
Và vâng, đó là lý do tại sao nó được gọi là Intermezzo.

17:44.020 --> 17:46.000
Không có lý do nào khác, theo như tôi hiểu.

17:46.540 --> 17:50.650
Bài báo của Peter Rollins 2016 cũng vậy.

17:50.650 --> 17:52.270
Vì vậy, cả hai đều khá gần đây.

17:52.270 --> 18:00.020
Và vâng, hãy kiểm tra điều này nếu bạn muốn đi sâu vào toán học đằng sau entropy chéo, đằng sau entropy cực đại mềm và entropy

18:00.020 --> 18:02.370
chéo trong thực tế bài viết này.

18:02.680 --> 18:03.730
Vậy là xong.

18:03.730 --> 18:07.210
Đó là tất cả những gì có cho hai người này.

18:07.240 --> 18:12.670
Hy vọng rằng tôi đã có thể thêm một số rõ ràng bổ sung và chúc may mắn với điều đó.

18:12.670 --> 18:16.870
Nó sẽ rất vui và tận hưởng các hướng dẫn thực tế.

18:16.870 --> 18:17.950
Tôi se gặp bạn lân sau.

18:17.950 --> 18:19.840
Cho đến lúc đó, hãy tận hưởng việc học sâu.
