WEBVTT

00:00.530 --> 00:03.020
Xin chào và chào mừng bạn trở lại khóa học về Học sâu.

00:03.020 --> 00:07.910
Trong hướng dẫn trước, chúng ta đã tìm hiểu xem mạng nơ-ron tích chập là gì, và

00:07.910 --> 00:10.820
hôm nay chúng ta sẽ đi sâu vào bước một.

00:10.820 --> 00:14.780
Vì vậy, đây là hàm tích chập.

00:14.780 --> 00:20.720
Tôi biết chúng tôi cố gắng tránh xa toán học và giữ mọi thứ trực quan, nhưng tôi không thể không chia sẻ công

00:20.720 --> 00:23.090
thức này với bạn vì nó quá đơn giản.

00:23.090 --> 00:30.320
Phép chập về cơ bản là sự tích hợp kết hợp của hai hàm và nó cho bạn thấy cách một hàm sửa đổi hàm kia

00:30.320 --> 00:32.630
hoặc sửa đổi hình dạng của hàm kia.

00:32.630 --> 00:38.360
Và nếu bạn đã thực hiện bất kỳ công việc xử lý tín hiệu hoặc kỹ thuật điện hoặc nghề nào

00:38.360 --> 00:42.350
cần xử lý tín hiệu, bạn chắc chắn sẽ bắt gặp hàm tích chập.

00:42.350 --> 00:44.030
Nó là khá phổ biến bây giờ.

00:44.030 --> 00:49.400
Một lần nữa, chúng ta sẽ giữ cho toán học nhẹ nhàng hoặc tách chúng ra.

00:49.400 --> 00:55.850
Và nếu bạn muốn tìm hiểu về toán học đằng sau các mạng nơ-ron tích tụ, thì

00:55.850 --> 01:04.370
một bài đọc bổ sung tuyệt vời là Giới thiệu về Mạng nơ-ron hình học của Janson Wu, giáo sư tại Đại học Nam

01:04.370 --> 01:05.630
Kinh, Trung Quốc.

01:05.630 --> 01:12.710
Bài báo này đã được xuất bản cách đây đúng vài ngày, như 5 hoặc 6 ngày trước, và nó được định hướng đặc biệt vào những người

01:12.710 --> 01:17.330
bắt đầu từ người mới bắt đầu, những người đang làm quen với mạng nơ-ron phức tạp.

01:17.330 --> 01:20.090
Vì vậy, toán học ở đó nên có thể truy cập được.

01:20.090 --> 01:30.170
Tôi thực sự đã gửi email cho Giáo sư Johnson Wu và vâng, ông ấy nói mục tiêu toàn bộ của mình là giải quyết những vấn đề phức tạp để những người mới

01:30.170 --> 01:33.260
làm quen với lĩnh vực này có thể hiểu được.

01:33.260 --> 01:38.900
Và anh ấy cũng đề cập rằng anh ấy có một số tài liệu có sẵn trên trang chủ của mình.

01:38.900 --> 01:46.310
Vì vậy, nếu bạn trong URL, nếu bạn chỉ xóa hai phần cuối cùng và bạn chỉ cần gạch chéo WJ X vào phần đó, đó là trang chủ của anh

01:46.310 --> 01:51.440
ấy và bạn sẽ có thể tìm thấy thêm các hướng dẫn và tài liệu khác chưa được được xuất bản

01:51.440 --> 01:57.860
dưới dạng bài báo, nhưng anh ấy sử dụng chúng trong các hướng dẫn của mình, vì vậy bạn có thể thấy những điều đó hữu ích.

01:57.860 --> 02:03.650
Vì vậy, hãy duyệt xung quanh đó nếu bạn muốn được giới thiệu về toán học đằng sau mạng nơ-ron

02:03.650 --> 02:08.180
tích tụ và xây dựng một cơ sở vững chắc xung quanh khu vực đó.

02:08.300 --> 02:12.440
Nhưng chúng ta sẽ tiếp tục và chúng ta sẽ nói về tích chập.

02:12.440 --> 02:15.980
Vì vậy, một tích chập trong thuật ngữ trực quan là gì?

02:16.340 --> 02:18.890
Ở đây, bên trái, chúng ta có một hình ảnh đầu vào như chúng ta đã thảo luận.

02:18.890 --> 02:22.670
Đó là cách chúng ta sẽ xem xét hình ảnh, chỉ những cái và số không để đơn giản hóa mọi thứ.

02:22.670 --> 02:24.770
Và bạn có thể nhìn thấy khuôn mặt cười đó ở đó.

02:24.770 --> 02:26.300
Sau đó, chúng tôi đã có một máy dò tính năng.

02:26.300 --> 02:28.400
Vì vậy, một bộ dò tính năng là một ma trận ba x ba.

02:28.670 --> 02:30.050
Nó có phải là ba của ba?

02:30.050 --> 02:31.040
Không, nó không.

02:31.760 --> 02:39.260
Tôi nghĩ Alex net sử dụng bảy x bảy và sau đó một số khác trong số những người nổi tiếng khác sử dụng như công cụ dò tìm

02:39.290 --> 02:40.640
tính năng năm x năm.

02:41.480 --> 02:48.380
Chúng có thể khác nhau, nhưng thông thường bạn sẽ thấy rằng chúng giống nhau từ ba đến ba và đó là lý do để làm

02:48.380 --> 02:49.310
ba bằng ba.

02:49.310 --> 02:53.900
Vì vậy, chúng tôi sẽ bám vào quy ước có một bộ dò tìm ba tính năng.

02:54.470 --> 02:59.180
Ngoài ra, bộ phát hiện tính năng được gọi là đây là những thuật ngữ quan trọng vì bạn có thể bắt gặp chúng là

02:59.330 --> 03:04.040
nhiều thuật ngữ khác nhau cho bộ phát hiện tính năng, nhưng những thuật ngữ phổ biến nhất là bộ phát hiện tính năng.

03:04.040 --> 03:09.290
Hoặc bạn có thể nghe thấy nó được gọi là hạt nhân hoặc bạn có thể nghe thấy nó được gọi là bộ lọc.

03:09.290 --> 03:14.240
Vì vậy, trong khóa học này, chúng ta sẽ sử dụng bộ lọc hoặc bộ dò tính năng thay thế cho nhau.

03:14.360 --> 03:22.100
Nhưng chỉ cần lưu ý rằng nó có những cái tên đó và phép toán tích chập được ký hiệu bằng dấu X trong một vòng tròn,

03:22.100 --> 03:26.480
giống như bạn đã thấy trong các công thức trước đây và ở đây.

03:26.510 --> 03:33.110
Những gì xảy ra là ở mức độ trực quan, tất cả hoặc chỉ để nghĩ về nó dưới dạng những gì thực sự đang xảy ra trong

03:33.110 --> 03:34.820
nền chứ không phải là toán học.

03:34.820 --> 03:40.520
Chà, bạn lấy bộ phát hiện hoặc bộ lọc tính năng này và bạn đặt nó trên hình ảnh của mình như bạn thấy ở bên trái.

03:40.520 --> 03:47.570
Vì vậy, bạn che ví dụ, trong trường hợp này, góc trên cùng bên trái, có chín pixel ở góc trên cùng bên

03:47.570 --> 03:48.170
trái.

03:48.170 --> 03:54.050
Và về cơ bản bạn nhân từng giá trị với từng giá trị.

03:54.050 --> 03:54.920
Vì vậy các giá trị tương ứng.

03:54.920 --> 04:02.540
Vì vậy, số 0 trên cùng của giá trị trên cùng bên trái bằng giá trị trên cùng bên trái, sau đó về cơ bản là vị trí số một,

04:02.540 --> 04:08.600
một theo vị trí số một, một vị trí bởi một số hoặc số 0 một bởi 0, 102 bởi không hai, v.v.

04:08.600 --> 04:14.390
Vì vậy, chỉ cần nhân phần tử khôn ngoan của các ma trận này và sau đó bạn cộng các kết quả.

04:14.390 --> 04:16.610
Vì vậy, trong trường hợp này, không có gì phù hợp.

04:16.610 --> 04:19.760
Vì vậy, nó luôn luôn là số 0 x 0 0 x 1.

04:19.760 --> 04:21.050
Vì vậy, kết quả là số không.

04:21.620 --> 04:26.480
Ở đây, bạn có thể thấy rằng một trong số chúng đã khớp với nhau, cái bên trái đã khớp với nhau.

04:26.480 --> 04:28.060
Và do đó chúng tôi có một cái ở đây.

04:28.070 --> 04:30.680
Không có gì phù hợp với nhau, không có gì phù hợp với nhau, không có gì phù hợp với nhau.

04:30.680 --> 04:32.060
Sau đó, chúng ta chuyển sang hàng tiếp theo.

04:32.060 --> 04:38.510
Vì vậy, bước mà chúng ta đang di chuyển toàn bộ bộ lọc này được gọi là bước tiến.

04:38.510 --> 04:40.460
Vì vậy, ở đây chúng ta có một bước đi là một pixel.

04:40.460 --> 04:45.650
Vì vậy, ở đây bạn có thể thấy lại thứ gì đó khớp ở góc dưới cùng bên phải khớp với sải chân, nhưng một thứ ở

04:45.650 --> 04:50.800
dưới cùng ở giữa khớp với ở đây, trên cùng bên phải, một thứ khớp với nhau, sau đó không có thứ gì khớp với nhau.

04:50.840 --> 04:51.980
Sải chân là một.

04:52.070 --> 04:57.290
Bạn có thể thay đổi sải chân, bạn có thể biến nó thành một, hai, bạn có thể biến nó thành ba.

04:57.290 --> 04:59.510
Bất cứ điều gì bạn thích.

04:59.920 --> 05:02.670
Cuối cùng, một trong những hoạt động tốt thường là một hai.

05:02.670 --> 05:04.260
Vì vậy, đó là những gì mọi người dính vào.

05:04.260 --> 05:08.940
Và chúng ta sẽ nói về những bước tiến ở cuối hướng dẫn này.

05:09.420 --> 05:11.700
Vì vậy, ở đây chúng tôi có chúng tôi đang đối sánh.

05:11.700 --> 05:12.570
Vì vậy, chúng tôi chỉ tiếp tục ở đây.

05:12.570 --> 05:17.640
Bạn có thể thấy chúng tôi có một hai vì hai trong số họ khớp với nhau, vân vân và vân vân.

05:17.640 --> 05:18.180
Và chúng ta bắt đầu.

05:18.180 --> 05:19.530
Có một cái khác phù hợp với.

05:21.330 --> 05:22.500
Chúng ta bắt đầu.

05:23.560 --> 05:24.570
Và chúng đã được thực hiện.

05:24.580 --> 05:26.300
Vậy thì sao?

05:26.320 --> 05:27.660
Chúng tôi đã tạo ra những gì?

05:27.670 --> 05:28.270
Đúng.

05:28.630 --> 05:31.240
Một vài điều quan trọng ở đây.

05:31.870 --> 05:34.900
Hình ảnh bên phải được gọi là bản đồ đối tượng.

05:35.170 --> 05:36.610
Cũng có một số điều khoản.

05:36.610 --> 05:40.190
Đôi khi nó cũng có thể được gọi là một tính năng được kiểm soát.

05:40.750 --> 05:45.880
Vì vậy, khi bạn áp dụng một toán tử phép toán tích chập cho một cái gì đó, nó sẽ không trở nên phức tạp,

05:45.880 --> 05:46.930
mà nó có liên quan.

05:46.930 --> 05:53.530
Và vâng, đôi khi tôi thích, tôi nghĩ với bản thân mình theo cách sai, nhưng đó là thuật ngữ chính xác.

05:53.530 --> 05:57.820
Nó có liên quan, nó là một loại tính năng cũ, hoặc nó cũng có thể được gọi là bản đồ kích hoạt.

05:57.820 --> 06:02.650
Nhưng chúng tôi sẽ gọi nó là một bản đồ tính năng trong khóa học này để nó có thể được gọi là bất kỳ một trong những thứ đó.

06:03.280 --> 06:06.250
Và chúng ta đã làm gì ở đây?

06:06.250 --> 06:09.820
Như bạn có thể thấy, chúng tôi đã giảm kích thước của hình ảnh.

06:09.820 --> 06:10.540
Đó là số một.

06:10.540 --> 06:16.060
Và đó là điều quan trọng mà tôi muốn đề cập về hình ảnh đầu vào của bạn và tính năng phát hiện và

06:16.060 --> 06:17.110
bước tiến, phải không?

06:17.290 --> 06:21.160
Nếu bạn có một sải chân, bạn có thể thấy hình ảnh giảm đi một chút, nhưng nếu bạn có một

06:21.160 --> 06:23.110
hoặc hai sải chân, hình ảnh sẽ giảm nhiều hơn.

06:23.110 --> 06:30.880
Vì vậy, bản đồ tính năng sẽ còn nhỏ hơn và đó là một chức năng rất quan trọng của bộ

06:30.880 --> 06:38.320
phát hiện tính năng của toàn bộ bước tích chập này là làm cho hình ảnh nhỏ hơn vì như

06:38.320 --> 06:42.040
vậy sẽ dễ xử lý hơn và nhanh hơn.

06:42.040 --> 06:43.600
Nó sẽ và.

06:45.990 --> 06:51.780
Anh ấy sẽ chỉ là người nuôi dưỡng bởi vì hãy tưởng tượng như ở đây chúng ta có một cái gì đó, một hình ảnh bảy x bảy.

06:51.780 --> 06:55.080
Nhưng hãy tưởng tượng nếu bạn có một bức ảnh thích hợp, phải không?

06:55.590 --> 06:59.220
Hoặc bạn có một hình ảnh 256 x 256 pixel.

06:59.220 --> 07:06.720
Đó là một số lượng pixel khổng lồ như 256 bình phương hoặc giống như giả sử bạn có 300 x 300 pixel.

07:06.720 --> 07:09.810
Vì vậy, chúng tôi không bị nhầm lẫn với 256 GB.

07:09.810 --> 07:14.550
Giả sử chúng ta có một hình ảnh 300 x 300 về kích thước và pixel.

07:14.550 --> 07:18.690
Sau đó, bạn có 300 pixel bình phương, đó là một con số khổng lồ.

07:18.900 --> 07:26.490
Và do đó, các bộ dò tính năng sẽ làm giảm kích thước của hình ảnh và do đó sải chân của hai người thực

07:26.490 --> 07:27.480
sự có lợi.

07:27.480 --> 07:33.450
Nhưng câu hỏi đặt ra là chúng ta mất thông tin hay chúng ta mất thông tin khi áp dụng tính

07:33.450 --> 07:34.350
năng dò tìm?

07:34.350 --> 07:40.470
Tất nhiên, một số thông tin mà chúng ta đang mất, vì chúng ta có ít giá trị hơn trong ma trận kết quả của mình.

07:40.470 --> 07:45.870
Nhưng đồng thời, mục đích của bộ dò đặc điểm là để phát hiện một số đặc điểm, một số phần nhất

07:45.870 --> 07:47.910
định của hình ảnh được tích hợp.

07:48.420 --> 07:52.920
Và vì vậy, chẳng hạn, nếu bạn nghĩ về nó theo cách này, giống như trình phát hiện đối tượng địa lý có

07:52.920 --> 07:57.870
một mẫu nhất định trên đó, con số cao nhất trong bản đồ đối tượng địa lý của bạn là khi mẫu đó khớp với nhau.

07:57.870 --> 08:05.100
Trên thực tế, con số cao nhất mà bạn có thể nhận được trong một ví dụ đơn giản hiện nay là khi tính năng khớp với nhau.

08:05.100 --> 08:05.490
Một cách chính xác.

08:05.490 --> 08:09.330
Và bạn có thể thấy với số bốn mà chúng tôi có trong bản đồ tính năng của chúng tôi.

08:09.330 --> 08:10.470
Đó là chính xác.

08:10.470 --> 08:16.860
Vì vậy, nếu bạn nhìn qua đây, đó chính xác là nơi phát hiện tính năng này, bởi vì chỉ có

08:16.860 --> 08:19.020
bốn cái trong đó khớp hoàn hảo.

08:19.020 --> 08:21.240
Vì vậy, bạn có thể xem phần này ở đây.

08:21.240 --> 08:27.300
Vì vậy, tính năng đã được phát hiện ở đây và như chúng ta đã thảo luận ở phần đầu của phần này.

08:28.160 --> 08:33.020
Đặc điểm đó là cách chúng ta nhìn mọi thứ, là cách chúng ta nhận ra mọi thứ.

08:33.020 --> 08:40.190
Có thể nói, chúng tôi không nhìn vào từng pixel đơn lẻ trong những gì chúng tôi nhìn thấy trên một hình ảnh hoặc trong cuộc sống thực.

08:40.190 --> 08:41.750
Chúng tôi không nhìn vào từng bức tranh đơn lẻ.

08:41.750 --> 08:50.150
Chúng ta nhìn vào đặc điểm, chúng ta nhìn vào mũi, mũ, lông, mắt dưới hoặc một ít vết đen dưới mắt của

08:50.150 --> 08:56.540
báo gêpa để phân biệt giữa báo gêpa và báo hoa mai hoặc hình dạng của đoàn

08:56.540 --> 08:57.320
tàu.

08:57.320 --> 09:00.620
Chúng ta không phân biệt nó giữa tàu cao tốc và tàu bình thường, v.v.

09:00.620 --> 09:02.510
Vì vậy, chúng tôi không nhìn vào tất cả mọi thứ.

09:02.510 --> 09:08.030
Chúng tôi xem xét các đối tượng địa lý và đó là những gì chúng tôi đang bảo tồn và đó là những gì bản đồ đối tượng địa lý giúp chúng tôi bảo tồn.

09:08.030 --> 09:15.410
Trên thực tế, đó là những gì nó cho phép chúng tôi mang lại và loại bỏ tất cả những thứ không cần thiết mà ngay cả với

09:15.410 --> 09:22.550
tư cách là con người, chúng tôi không xử lý quá nhiều thông tin này đi vào mắt bạn vào bất kỳ thời điểm nào, chẳng hạn

09:22.550 --> 09:28.430
như hàng gigabyte thông tin, nếu bạn nhìn ở mỗi dấu chấm, nếu không phải là hàng terabyte thông tin đi

09:28.430 --> 09:35.330
vào mắt bạn mỗi giây và chúng tôi vẫn có thể xử lý điều đó vì chúng tôi loại bỏ những gì không cần thiết.

09:35.330 --> 09:36.920
Chỉ tập trung vào các tính năng quan trọng.

09:36.980 --> 09:42.050
Các đối tượng địa lý rất quan trọng đối với chúng tôi và đó chính xác là những gì mà bản đồ đối tượng địa lý thực hiện.

09:42.050 --> 09:49.430
Vì vậy, bây giờ tiếp tục, đây là hình ảnh đầu vào của chúng tôi và bạn tạo một bản đồ đặc trưng.

09:49.430 --> 09:52.490
Vì vậy, cái phía trước, giả sử cái phía trước là cái chúng ta vừa tạo.

09:52.490 --> 09:59.630
Nhưng tại sao có rất nhiều trong số chúng, nhưng chúng ta tạo ra nhiều bản đồ đối tượng địa lý bởi vì chúng ta sử dụng các bộ lọc khác

09:59.630 --> 10:00.500
nhau, phải không?

10:00.500 --> 10:03.770
Và đó là một cách khác mà chúng tôi lưu giữ nhiều thông tin.

10:03.770 --> 10:10.550
Vì vậy, chúng tôi không chỉ có một bản đồ tính năng, chúng tôi tìm kiếm các tính năng nhất định và sau đó hoặc về cơ bản mạng

10:10.550 --> 10:14.570
sẽ quyết định thông qua đào tạo của nó và đây là điều chúng ta sẽ thảo

10:14.570 --> 10:21.740
luận ở cuối phần này, thông qua đào tạo, nó quyết định các tính năng nào quan trọng đối với một số loại hoặc danh mục nhất định và nó sẽ

10:21.740 --> 10:22.490
tìm kiếm chúng.

10:22.490 --> 10:26.750
Và do đó chúng ta sẽ có các bộ lọc khác nhau và chúng ta sẽ nói về các bộ lọc ngay bây giờ, nhưng về cơ bản nó sẽ

10:26.750 --> 10:27.710
áp dụng các bộ lọc này.

10:27.710 --> 10:32.480
Vì vậy, để có được bản đồ tính năng này, nó đã áp dụng một bộ lọc giống như bộ lọc mà chúng ta đã thấy.

10:32.480 --> 10:36.200
Nhưng sau đó để có được bản đồ đối tượng địa lý này nhưng áp dụng một bộ lọc khác để lập bản đồ đối tượng địa lý

10:36.200 --> 10:37.460
này, hãy áp dụng một bộ lọc khác, v.v.

10:38.150 --> 10:43.370
Và về cơ bản, nó chỉ tạo ra các bản đồ tính năng này.

10:43.370 --> 10:49.520
Và thực sự đó là lý do tại sao cá nhân tôi nghĩ rằng thuật ngữ máy dò tính năng tốt hơn bộ lọc.

10:49.520 --> 10:55.010
Vì vậy, hãy nhớ ở đây chúng tôi có bộ lọc này mà chúng tôi cũng có thể gọi là bộ phát hiện tính năng.

10:55.010 --> 10:59.330
Chà, thực ra, công cụ dò tìm đặc điểm từ mà tôi nghĩ là phù hợp hơn.

10:59.330 --> 11:03.110
Và lý do cho điều đó là mục đích của nó.

11:03.110 --> 11:03.320
Đúng.

11:03.320 --> 11:06.440
Chúng tôi không muốn chỉ là chúng tôi không muốn lọc ra hình ảnh của mình.

11:06.440 --> 11:10.130
Nhưng mặc dù đó là toàn bộ thì vẫn giống nhau chỉ là một câu hỏi về thuật ngữ.

11:10.130 --> 11:11.930
Nhưng về cơ bản, chúng tôi muốn phát hiện các tính năng.

11:11.930 --> 11:12.200
Được rồi.

11:12.200 --> 11:19.610
Trong lớp này, chúng ta sẽ kiếm được bản đồ đối tượng này mà chúng ta đã phát hiện ra vị trí của các đối tượng địa lý nhất định trong hình ảnh trong bản đồ đối tượng địa lý

11:19.610 --> 11:23.750
này mà chúng tôi đã phát hiện, vị trí của một số đối tượng địa lý nhất định, vị trí của đối

11:23.750 --> 11:25.280
tượng địa lý cụ thể nhất định.

11:25.310 --> 11:30.890
Trong bản đồ đối tượng địa lý này, chúng tôi đã phát hiện thấy vị trí của một đối tượng địa lý nhất định khác trên hình ảnh.

11:31.190 --> 11:33.320
Vì vậy, đó là những gì chúng tôi đang làm.

11:33.320 --> 11:34.550
Và chúng ta hãy xem một vài ví dụ.

11:34.550 --> 11:44.360
Vì vậy, ở đây chúng tôi đang sử dụng và đây là từ Ingeborg, tài liệu của họ, nó giống như một loại công cụ miễn phí như sơn và bạn có thể

11:44.360 --> 11:49.460
sử dụng nó để điều chỉnh hình ảnh hoặc làm việc với hình ảnh của bạn.

11:49.460 --> 11:56.420
Nhưng về cơ bản họ có một số ví dụ có giá trị trong tài liệu của họ và ở đây họ có hình ảnh của Taj Mahal

11:56.420 --> 11:59.720
và bạn có thể chọn bộ lọc nào bạn muốn áp dụng.

11:59.720 --> 12:06.080
Vì vậy, nếu bạn tải xuống chương trình này và bạn tải một bức ảnh lên đó và sau đó bạn thực sự có thể bắt đầu một

12:06.080 --> 12:12.080
ma trận tích chập và áp dụng các bộ lọc, và bạn sẽ thấy rằng những điều này, những ma trận tích chập này thực sự

12:12.080 --> 12:15.140
được áp dụng trong xử lý và thiết kế hình ảnh, v.v.

12:15.140 --> 12:16.700
Vì vậy, chúng ta hãy nhìn vào những gì chúng ta nhận được, những gì chúng ta nhận được.

12:16.700 --> 12:21.440
Vì vậy, nếu chúng ta áp dụng bộ lọc này năm ở giữa, trừ một, trừ một, trừ một, trừ một, bạn có

12:21.440 --> 12:23.540
thể thấy rằng nó làm sắc nét hình ảnh.

12:23.540 --> 12:28.820
Và vâng, đây là, nó khá trực quan nếu bạn nghĩ về nó.

12:28.820 --> 12:36.350
Vì vậy, năm là pixel, pixel chính như ở giữa bộ lọc hoặc bộ phát hiện tính năng và sau đó trừ

12:36.350 --> 12:42.250
đi một, trừ đi một, trừ đi một điểm giống như bạn làm giảm các pixel xung

12:42.290 --> 12:44.960
quanh nó theo một nghĩa trực quan.

12:46.100 --> 12:46.850
Sau đó, mờ.

12:46.880 --> 12:53.960
Vì vậy, về cơ bản, nó có ý nghĩa như nhau mang lại ý nghĩa như nhau cho tất cả các điểm ảnh xung quanh điểm ảnh ở

12:53.960 --> 12:54.500
trung tâm.

12:54.500 --> 12:58.940
Và do đó, nó kết hợp chúng lại với nhau và bạn sẽ có được một nét mờ, góc cạnh trong tay.

12:58.940 --> 13:03.770
Vì vậy, ở đây bạn có thể thấy rằng trừ một và một, và sau đó bạn nhận được số không, phải không?

13:03.770 --> 13:11.210
Vì vậy, bạn xóa, loại bỏ các pixel xung quanh cái chính ở giữa và bạn chỉ giữ cái này ở mức trừ và nó mang lại

13:11.210 --> 13:12.740
cho bạn một lợi thế.

13:12.740 --> 13:14.960
Và điều này hơi khó hiểu hơn về cách nó hoạt động.

13:15.900 --> 13:19.070
Giống như có lẽ khó hơn nếu chỉ nghĩ về nó bằng trực giác.

13:19.460 --> 13:20.800
Phát hiện cạnh phải.

13:20.810 --> 13:23.510
Vì vậy, điều này có lẽ có ý nghĩa hơn, phải không?

13:23.510 --> 13:32.450
Bạn lấy điểm giữa, bạn giảm điểm giữa, có lẽ giống như độ mạnh của pixel giữa.

13:32.450 --> 13:41.510
Và sau đó bạn tìm kiếm những thứ, bạn tìm kiếm những thứ này, bạn tăng sức mạnh của những người xung quanh họ.

13:42.020 --> 13:43.310
Vì vậy, bạn có những cái ở đó.

13:44.420 --> 13:44.810
Ừ.

13:44.810 --> 13:50.360
Vì vậy, điều đó cung cấp cho bạn giống như một phát hiện cạnh và bạn có thể thấy những gì bạn đạt được ở đó và xử lý một cái

13:50.360 --> 13:50.630
khác.

13:50.630 --> 13:58.070
Vì vậy, mấu chốt ở đây là nó không đối xứng và bạn có thể thấy hình ảnh cũng trở nên không đối xứng.

13:58.070 --> 14:05.000
Vì vậy, bạn có loại cảm giác rằng nó nổi bật về phía bạn và đó là những gì bạn nhận được khi bạn có những điểm

14:05.000 --> 14:07.100
cộng ở đây và điểm cộng ở đây.

14:07.100 --> 14:12.320
Một lần nữa, đây là điều này hiện đang có một chút kỹ thuật, nhưng ít nhất chúng ta có thể có được một số loại trực quan, hiểu được, chúng

14:12.320 --> 14:14.090
ta hãy nhanh chóng lướt qua chúng một lần nữa.

14:14.090 --> 14:20.690
Vì vậy, có làm sắc nét, có mờ, có tăng cường cạnh, có phát hiện cạnh, có dập nổi.

14:20.690 --> 14:27.230
Và như bạn có thể thấy, đây là những ví dụ tuyệt vời về cùng một hình ảnh, nhưng chúng tôi đang nhận được bản đồ đối tượng, vì vậy chúng tôi sử dụng các trình

14:27.230 --> 14:31.640
phát hiện đối tượng địa lý khác nhau để có được các bản đồ đối tượng khác nhau của cùng một hình ảnh.

14:31.640 --> 14:39.770
Và do đó, bây giờ chúng tôi có rất nhiều phiên bản này của hình ảnh này, trong đó mỗi phiên bản, chúng tôi đã cố gắng phát hiện

14:39.770 --> 14:46.640
một số điều nhất định, các thuật ngữ này không áp dụng cho chúng tôi ở đó ngoại trừ như sếp có thể không

14:46.640 --> 14:49.910
áp dụng cho chúng tôi về mạng nơ-ron phức hợp.

14:49.910 --> 14:51.530
Nhưng phát hiện cạnh, đó là điều quan trọng.

14:51.530 --> 14:56.360
Chúng tôi muốn phát hiện các cạnh, tăng cường cạnh, chắc chắn không làm mờ sắc nét.

14:56.360 --> 15:02.390
Vì vậy, những thứ nhất định như cạnh có lẽ là thứ quan trọng nhất đối với loại công việc của chúng tôi.

15:02.390 --> 15:07.100
Và ở khía cạnh hiểu biết như máy tính, chúng sẽ tự quyết định, mạng nơ-ron của chúng sẽ tự quyết định,

15:07.100 --> 15:08.930
cái gì quan trọng và cái gì không.

15:08.930 --> 15:12.800
Và nó có lẽ sẽ không thể nhận ra được bằng mắt người.

15:12.830 --> 15:17.060
Bạn sẽ không thể hiểu những tính năng đó có nghĩa là gì, nhưng máy

15:17.060 --> 15:24.410
tính sẽ quyết định, và đó là vẻ đẹp của mạng thần kinh, chúng có thể xử lý rất nhiều thứ khác nhau và hiểu mà

15:24.410 --> 15:30.620
không cần có trực giác đó, mà không cần giải thích lý do tại sao chúng sẽ hiểu những tính năng nào

15:30.620 --> 15:37.340
quan trọng đối với chúng, cho dù chúng ta có đặt tên cho chúng hay không, đó là một câu hỏi không liên quan

15:37.340 --> 15:39.230
đối với mạng nơ-ron nhân tạo.

15:39.800 --> 15:48.500
Và bức ảnh yêu thích của tôi, đây là hình ảnh của Geoffrey Hinton Ảnh của Geoffrey Hinton được chuyển qua một trong những

15:49.430 --> 15:50.660
bộ lọc này.

15:50.810 --> 15:51.110
Được rồi.

15:51.110 --> 15:52.970
Vì vậy, chúng ta sẽ kết thúc hướng dẫn ngày hôm nay.

15:52.970 --> 15:55.220
Tôi hy vọng bạn thích học về tích chập.

15:55.220 --> 16:02.270
Điểm mấu chốt là một phép chập, mục đích chính của phép chập là để tìm các đối tượng trong hình ảnh của bạn bằng cách sử

16:02.270 --> 16:08.000
dụng bộ phát hiện đối tượng, đưa chúng vào bản đồ đối tượng và bằng cách đưa chúng vào bản đồ trong

16:08.000 --> 16:15.200
tương lai, nó vẫn bảo toàn các mối quan hệ không gian giữa các pixel , điều này rất quan trọng mà chúng tôi cần biết vì nếu

16:15.530 --> 16:19.130
chúng hoàn toàn lộn xộn, thì chúng tôi đã đánh mất khuôn mẫu.

16:19.130 --> 16:25.040
Và đồng thời, điều quan trọng là phải hiểu rằng hầu hết thời gian các tính năng mà mạng nơ-ron sẽ phát

16:25.040 --> 16:32.360
hiện và sử dụng để nhận ra một số hình ảnh và lớp nhất định sẽ không có ý nghĩa gì đối với con người, nhưng chúng vẫn

16:32.360 --> 16:32.930
hoạt động.

16:32.930 --> 16:34.280
Và đó là tích chập.

16:34.280 --> 16:36.140
Và tôi mong được gặp bạn trên đường xích đạo.

16:36.140 --> 16:38.090
Cho đến lúc đó, hãy tận hưởng việc học sâu.
