WEBVTT

00:00.300 --> 00:05.790
Xin chào và chào mừng bạn trở lại với khóa học về Học sâu hôm nay, chúng tôi đang khởi động mạng nơ-ron phức hợp

00:05.790 --> 00:06.840
sẽ rất thú vị.

00:06.840 --> 00:08.340
Hãy đi sâu vào nó.

00:08.340 --> 00:10.350
Chúng ta sẽ bắt đầu với một hình ảnh.

00:10.620 --> 00:12.690
Bạn thấy gì khi nhìn vào hình ảnh này?

00:13.440 --> 00:17.610
Bạn có thấy một người đang nhìn mình hay bạn thấy một người đang nhìn sang bên phải?

00:18.000 --> 00:21.570
Bạn có thể thấy rằng bộ não của bạn đang gặp khó khăn.

00:21.570 --> 00:23.970
Nó đang đấu tranh để điều chỉnh.

00:23.970 --> 00:27.330
Nếu bạn nhìn sang phía bên phải của hình ảnh, chỉ cần nhìn vào đường viền bên phải của hình ảnh.

00:27.330 --> 00:29.040
Bạn sẽ thấy một người đang nhìn sang bên phải.

00:29.040 --> 00:32.970
Nếu bạn nhìn vào đường viền bên trái của hình ảnh, bạn sẽ thấy một người đang nhìn bạn.

00:33.540 --> 00:42.690
Và điều này chỉ chứng minh rằng những gì bộ não của chúng ta đang tìm kiếm khi chúng ta nhìn thấy mọi thứ là các đặc điểm tùy thuộc vào các tính năng mà nó

00:42.690 --> 00:48.000
nhìn thấy, tùy thuộc vào các tính năng mà bạn xử lý, bạn phân loại mọi thứ theo những cách nhất

00:48.000 --> 00:48.480
định.

00:48.480 --> 00:53.760
Vì vậy, khi bạn nhìn vào phía bên phải của hình ảnh, bạn sẽ thấy một số đặc điểm nhất định của

00:53.760 --> 00:59.850
một người đang nhìn sang bên phải vì họ gần tâm điểm của bạn hơn và do đó não của bạn phân loại là người nhìn

00:59.850 --> 01:00.720
sang bên phải.

01:00.720 --> 01:06.750
Khi bạn nhìn sang phía bên trái của hình ảnh, bạn sẽ thấy nhiều đặc điểm hơn của một người đang nhìn bạn và

01:06.750 --> 01:09.270
do đó não của bạn phân loại nó như vậy.

01:09.270 --> 01:10.740
Vì vậy, chúng ta hãy xem xét một cái khác.

01:10.980 --> 01:12.720
Đây là một hình ảnh rất nổi tiếng.

01:12.720 --> 01:15.810
Bạn có thể đã nhìn thấy nó, nhưng bạn thấy gì ở đây?

01:16.590 --> 01:23.640
Vì vậy, một số người sẽ nói rằng họ nhìn thấy một cô gái trẻ mặc váy, đang nhìn đi chỗ khác.

01:23.640 --> 01:29.760
Một số người sẽ nói rằng họ nhìn thấy một bà già đội khăn trên đầu đang nhìn xuống.

01:29.970 --> 01:34.200
Vì vậy, tôi sẽ chỉ ra những tính năng này và bạn sẽ thấy rằng nó sẽ trở nên rất rõ ràng.

01:34.200 --> 01:37.440
Vì vậy, đây là khuôn mặt của cô gái trẻ đang nhìn đi chỗ khác.

01:37.440 --> 01:40.290
Cô ấy đang nhìn vào khoảng không như chiếc áo khoác của mình.

01:40.290 --> 01:43.380
Đó là tóc của cô ấy, đó là chiếc lông nhỏ trên tóc cô ấy.

01:43.380 --> 01:48.900
Và mặt khác, đây là đầu của bà già nhìn xuống.

01:48.900 --> 01:52.080
Đó là mũi của cô ấy, đó là miệng của cô ấy, đó là cằm của cô ấy.

01:52.080 --> 01:53.490
Đó là chiếc khăn trên đầu cô ấy.

01:53.490 --> 01:55.500
Và cô ấy đang nhìn xuống.

01:55.500 --> 01:57.840
Vì vậy, như bạn có thể thấy, hai trong một.

01:57.840 --> 02:04.890
Và tùy thuộc vào tính năng nào mà bộ não của bạn thu nhận, nó sẽ chuyển đổi giữa việc phân loại từng hình ảnh thành hình ảnh này

02:04.890 --> 02:06.090
hay hình ảnh kia.

02:06.660 --> 02:13.740
Ảo ảnh lâu đời nhất được ghi lại trong tác phẩm đã in là ảo ảnh này.

02:13.740 --> 02:15.150
Đó là con vịt hoặc con thỏ.

02:15.150 --> 02:16.860
Vậy đây là vịt hay thỏ?

02:16.860 --> 02:17.970
Một vi dụ khac.

02:18.150 --> 02:24.630
Và bây giờ tôi sẽ cho bạn xem một hình ảnh chỉ trong một giây, chỉ cần nhìn vào nó và xem bạn trải qua

02:24.660 --> 02:28.350
những cảm xúc gì hoặc loại trải nghiệm nào, trải nghiệm hình ảnh.

02:28.890 --> 02:30.930
Vậy bạn thấy sao?

02:30.970 --> 02:37.590
Bạn có cảm thấy như không bị hoa mắt, nhưng có chút chói mắt, giống như bộ não của bạn đang cố gắng tìm

02:37.590 --> 02:43.680
hiểu xem nó là gì, nó như thế nào, nó đang cố nhảy giữa mắt cô ấy, mắt lên và xuống.

02:43.680 --> 02:51.750
Và đây là ví dụ kinh điển về việc khi có một số đặc điểm nhất định có thể là thế này, có thể là thế kia, nhưng bộ não

02:51.750 --> 02:53.640
của bạn không thể quyết định được.

02:53.850 --> 02:58.590
Và bởi vì cả hai đều có vẻ hợp lý và đúng.

02:58.590 --> 03:04.800
Vì vậy, về cơ bản tất cả những ví dụ này minh họa cho chúng ta thấy não hoạt động như thế nào, rằng nó xử lý một số

03:04.800 --> 03:10.770
tính năng nhất định trên một hình ảnh hoặc bất cứ thứ gì bạn nhìn thấy trong cuộc sống thực và nó phân loại như vậy.

03:10.770 --> 03:16.030
Và có thể bạn đang ở trong tình huống khi bạn nhìn nhanh qua vai và bạn thấy một thứ gì đó và bạn nghĩ nó,

03:16.030 --> 03:22.740
tôi không biết, nó giống như một, một, một quả bóng, nhưng hóa ra là một con mèo hoặc bạn nghĩ đó là một đó là một chiếc ô tô, nhưng hóa ra

03:22.740 --> 03:25.440
lại là một cái bóng và những thứ tương tự như vậy.

03:25.440 --> 03:29.580
Đó là bởi vì bạn không có đủ thời gian để xử lý các tính năng đó hoặc bạn không có đủ tính năng

03:29.580 --> 03:30.930
để phân loại mọi thứ như vậy.

03:30.930 --> 03:38.490
Và điều này đối với tôi, điều này rất thú vị bởi vì những gì chúng ta sẽ làm với mạng nơ-ron, với mạng

03:38.490 --> 03:40.710
nơ-ron tích tụ, rất giống nhau.

03:40.710 --> 03:46.020
Và bạn sẽ thấy rằng cách máy tính xử lý hình ảnh sẽ cực kỳ giống với cách

03:46.020 --> 03:48.120
chúng ta xử lý hình ảnh.

03:48.120 --> 03:53.520
Vì vậy, rất có giá trị để hiểu và chỉ cần ghi nhớ những điều này rằng đây là cách chúng tôi làm điều đó.

03:53.520 --> 03:57.960
Và tôi sẽ loại bỏ người phụ nữ này khỏi màn hình của bạn bởi vì cô ấy có thể đã làm bạn

03:57.960 --> 03:58.350
phát hoảng.

03:58.350 --> 04:00.870
Vì vậy, đây là một cái gì đó khác nhau.

04:00.870 --> 04:06.900
Đây là một thử nghiệm, một thử nghiệm được thực hiện trên máy tính, trên mạng nơ-ron phức hợp.

04:06.900 --> 04:10.710
Vì vậy, bây giờ chúng ta đang dần chuyển từ con người sang máy tính.

04:11.190 --> 04:14.310
Và slide này là từ một bài nói chuyện của Geoffrey Hinton.

04:15.090 --> 04:21.600
Và ở đây bạn đã có cơ bản, nó mô tả một thí nghiệm mà anh ấy đã thực hiện trên một số mạng nơ-ron phức

04:21.750 --> 04:23.820
tạp mà anh ấy đã đào tạo.

04:24.210 --> 04:29.490
Vì vậy, ở đây bạn thấy ba hình ảnh và chúng ta sẽ xem xét chúng từ trái sang phải và xem bạn sẽ phân loại chúng như thế nào và

04:29.490 --> 04:31.560
sau đó xem máy tính phân loại chúng như thế nào.

04:31.560 --> 04:34.260
Vậy ở bên trái, bạn nghĩ đây là cái gì?

04:35.340 --> 04:37.590
Bạn có thể đã nói Cheetah và bạn sẽ đúng.

04:37.590 --> 04:38.790
Và đây là những gì máy tính nói.

04:38.790 --> 04:43.860
Vì vậy, và ngay lập tức, ngay lập tức, chúng ta sẽ học cách đọc những hình ảnh này, bởi vì

04:43.860 --> 04:51.690
nếu bạn đang đi sâu vào mạng nơ-ron phức hợp, không có ý định chơi chữ, nếu bạn bắt đầu tìm hiểu thêm và thêm về chúng và sử dụng chúng, bạn

04:51.690 --> 04:53.850
sẽ thấy rất nhiều điều trong số này.

04:53.850 --> 04:57.000
Vì vậy, và tôi đã thực sự thấy mọi người đọc chúng không chính xác.

04:57.000 --> 04:58.830
Vì vậy, ở đây ở trên cùng.

04:59.620 --> 05:01.320
Qaeda thực sự là như thế nào.

05:01.320 --> 05:04.770
Vì vậy, đó là nhãn chính xác thực tế của hình ảnh.

05:04.770 --> 05:10.950
Nhãn của hình ảnh là như vậy, bất kể quá trình xử lý và thị giác máy tính nào.

05:11.520 --> 05:19.440
Và sau đây là các dự đoán, bốn hoặc năm dự đoán hàng đầu đôi khi là các dự đoán của thuật toán và chúng được đưa

05:19.440 --> 05:20.550
ra xác suất.

05:20.550 --> 05:26.370
Vì vậy, máy tính cho biết, hoặc mạng lưới thần kinh cho biết Cheetah Leopard, Snow Leopard hoặc mèo Ai Cập có thể là

05:26.370 --> 05:29.040
một trong bốn và báo gêpa có phiếu bầu cao nhất.

05:29.040 --> 05:34.200
Và trong suốt phần này của khóa học, bạn sẽ hiểu những phiếu bầu này có nghĩa là gì và chúng được tạo ra như

05:34.200 --> 05:34.650
thế nào.

05:34.650 --> 05:36.420
Nhưng bây giờ nó khá trực quan, phải không?

05:36.420 --> 05:41.970
Vì vậy, đó là một con báo trong thực tế, và mạng lưới thần kinh đã đoán đúng, nó cho biết với xác suất cao,

05:41.970 --> 05:44.100
khoảng 95, 99%, đó là một con báo gêpa.

05:45.780 --> 05:47.370
Sau đó, cái thứ hai, bạn nghĩ gì?

05:47.370 --> 05:51.030
Có phải đó là một con tàu cao tốc.

05:51.030 --> 05:57.120
Và mạng nơ-ron đã có thể phân biệt giữa tàu cao tốc, xe khách, tàu điện ngầm, đầu

05:57.120 --> 05:57.960
máy điện.

05:57.960 --> 05:58.920
Đó là những lựa chọn hàng đầu.

05:58.920 --> 06:00.360
Tất nhiên, nó có nhiều lựa chọn hơn.

06:00.360 --> 06:07.170
Các mạng nơ-ron này học cách phân biệt không chỉ bốn danh mục với hàng chục, hàng nghìn danh

06:07.170 --> 06:08.670
mục cùng một lúc.

06:08.670 --> 06:10.650
Vì vậy, đó là bốn tùy chọn mà nó đã chọn.

06:10.650 --> 06:12.720
Và đó là tàu cao tốc và đó là tàu cao tốc.

06:12.720 --> 06:18.450
Vì vậy, bạn nghĩ gì về điều cuối cùng là rất, có một vài lựa chọn ở đó.

06:18.460 --> 06:20.040
Nó không phải là rất rõ ràng nó là gì.

06:20.040 --> 06:21.390
Nó có thể là một cái chảo rán.

06:21.390 --> 06:22.740
Nó có thể là một chiếc kính lúp.

06:22.740 --> 06:27.000
Nó thậm chí có thể là một cái kéo.

06:27.000 --> 06:31.500
Một số người có thể nói, tốt, mạng lưới thần kinh nói rằng đó là một cái kéo, nhưng bạn có thể thấy cách bạn

06:31.500 --> 06:32.460
có thể sai ở đây.

06:32.460 --> 06:35.250
Trước hết, nó không phải là một hình ảnh quá rõ ràng.

06:35.250 --> 06:41.700
Và bạn cũng có thể thấy rằng các xác suất không rõ ràng ở đây.

06:41.700 --> 06:46.200
Vì vậy, mạng lưới thần kinh đã có một chút bối rối, một chút do dự, giống như chúng ta.

06:46.200 --> 06:50.910
Vì vậy, nó nói kéo có xác suất cao nhất, nhưng sau đó nó có độ bóng bàn

06:50.910 --> 06:55.650
tay, mà thực tế đã không ở vị trí thứ hai và ống nghe chảo rán cách đó không xa.

06:55.650 --> 07:01.380
Vì vậy, về cơ bản ở đây bạn có thể thấy rằng chiếc kéo là dự đoán đầu tiên của nó, nhưng lựa chọn chính xác là số hai và đó là lý do tại

07:01.380 --> 07:02.850
sao nó được đánh dấu bằng màu đỏ.

07:03.060 --> 07:03.930
Vậy là xong.

07:03.930 --> 07:06.960
Đó là những gì mạng nơ-ron đã có sẵn.

07:06.960 --> 07:08.820
Và đây thực sự là một slide cũ.

07:08.820 --> 07:10.530
Đây là vài năm trước đây.

07:10.530 --> 07:11.760
Bây giờ chúng thậm chí còn tốt hơn.

07:11.760 --> 07:16.080
Và bạn sẽ thấy rằng từ ứng dụng thực tế mà bạn sẽ cùng nhau viết mã.

07:16.080 --> 07:16.670
Puddle on.

07:16.680 --> 07:21.150
Nhưng bây giờ chúng ta hãy cố gắng hiểu rõ hơn một chút về loại mạng lưới nơ-ron phức tạp thực sự là

07:21.150 --> 07:23.730
gì và tại sao chúng lại trở nên phổ biến đến vậy?

07:23.730 --> 07:25.710
Và họ thực sự đang trở nên phổ biến.

07:25.710 --> 07:31.050
Vì vậy, bạn có thể xem ở đây so sánh Google Xu hướng mà tôi vừa thực hiện ngày hôm qua.

07:31.620 --> 07:39.360
Ở đây, bạn có thể thấy rằng các mạng nơ-ron tích tụ thậm chí đang chiếm lấy các mạng nơ-ron nhân tạo.

07:39.360 --> 07:47.880
Vì vậy, một sự gia tăng lớn và họ sẽ tiếp tục đi theo cách đó bởi vì đây là một lĩnh vực rất quan trọng, đó là

07:47.880 --> 07:52.440
nơi tất cả mọi thứ xảy ra, chẳng hạn như xe hơi tự lái.

07:52.440 --> 07:57.840
Làm sao họ nhận ra người đi đường, làm sao nhận ra biển báo dừng và những thứ tương tự?

07:57.840 --> 08:04.860
Làm thế nào để Facebook làm thế nào để Facebook có thể gắn thẻ hình ảnh hoặc người trong hình ảnh?

08:04.860 --> 08:11.820
Và không chỉ giống như, hãy nhớ những năm trước đây bạn phải tự mình gắn thẻ mọi người, sau đó nó sẽ nhận ra khuôn mặt,

08:11.820 --> 08:16.680
bạn phải thêm họ, sau đó thêm tên, và bây giờ nó chỉ nhận dạng khuôn mặt và

08:16.680 --> 08:18.240
thêm tên cùng một lúc.

08:18.330 --> 08:23.540
Chà, đó là khả năng của các mạng nơ-ron tích hợp.

08:23.550 --> 08:32.280
Và nói về Facebook, nếu Geoffrey Hinton là cha đỡ đầu của mạng nơ-ron nhân tạo và học

08:32.280 --> 08:38.910
sâu, thì Yann LeCun là ông tổ của mạng nơ-ron phức hợp.

08:38.910 --> 08:45.450
Yann LeCun là học sinh của Geoffrey Hinton, và trên thực tế, ở đây bạn có thể thấy họ cùng nhau.

08:45.450 --> 08:51.180
Và Geoffrey Hinton hiện đang đi tiên phong trong lĩnh vực học sâu tại Google.

08:51.210 --> 08:56.730
Yann LeCun là giám đốc Nghiên cứu Trí tuệ Nhân tạo của Facebook và cũng là một giáo sư tại NYU.

08:56.730 --> 09:00.030
Vì vậy, từ từ, chúng tôi tôi thích phần này của khóa học.

09:00.030 --> 09:07.380
Từ từ, chúng tôi đang xây dựng cái tên này, những cái tên này hoặc loại bức tranh về hồ sơ của những người đang

09:07.380 --> 09:09.120
thúc đẩy lĩnh vực này.

09:09.120 --> 09:14.340
Và tiếp theo trong một vài phần tiếp theo, chúng ta sẽ tìm hiểu thêm về một vài phần.

09:14.340 --> 09:20.160
Và chúng ta sẽ có toàn bộ mafia này, như họ tự gọi, hoặc Yann LeCun gọi họ là Mafia hoặc âm

09:20.160 --> 09:21.030
mưu học sâu.

09:21.030 --> 09:23.640
Và bạn sẽ tìm hiểu thêm một chút về cách toàn bộ lĩnh vực này phát triển.

09:23.640 --> 09:27.150
Và vâng, đó chỉ là một số người tuyệt vời, tuyệt vời.

09:27.150 --> 09:33.900
Và do đó, Yann LeCun trở lại những năm 80 và những năm 90 đã có những đóng góp đáng kể

09:33.900 --> 09:36.180
trong lĩnh vực mạng nơ-ron tích tụ.

09:36.180 --> 09:44.310
Và như chúng ta sẽ thấy trong suốt khóa học này, đã có thể phát triển hoặc giúp thế giới phát triển một thứ

09:44.310 --> 09:46.350
gì đó cực kỳ mạnh mẽ.

09:46.350 --> 09:52.620
Vì vậy, chuyển sang cách mạng nơ-ron tích tụ hoạt động, bạn có một đầu vào.

09:52.620 --> 09:54.210
Nó rất đơn giản, nó rất đơn giản.

09:54.210 --> 09:56.070
Vậy là bạn đã có một hình ảnh đầu vào.

09:56.070 --> 09:59.160
Nó đi qua một mạng nơ-ron phức hợp và bạn có một đầu ra.

09:59.250 --> 09:59.730
Có nhãn.

09:59.730 --> 10:06.520
Vì vậy, nó phân loại hình ảnh đó như một thứ gì đó giống như một con báo hay một đoàn tàu cao tốc hoặc một cái gì đó khác.

10:06.540 --> 10:10.320
Bây giờ giống như đi vào chi tiết hơn một chút.

10:10.710 --> 10:18.840
Ví dụ: bạn có thể sau khi mạng nơ-ron đã được đào tạo trên một số hình ảnh nhất định, trên một số hình ảnh đã phân loại

10:18.840 --> 10:25.530
hoặc hình ảnh đã phân loại đã được phân loại trước đó sau đó bạn có thể đưa ra nó, giả sử một

10:25.530 --> 10:30.270
mạng lưới thần kinh đã được đào tạo để nhận dạng nét mặt, cảm xúc .

10:30.270 --> 10:37.470
Bạn có thể đưa ra khuôn mặt của một người đang cười, không chỉ là một khuôn mặt, như hình vẽ một khuôn mặt như thế này, mà là khuôn mặt

10:37.470 --> 10:39.240
thực sự của một người đang cười.

10:39.240 --> 10:44.790
Và nó sẽ cho bạn biết rằng người đó đang hạnh phúc và bạn có thể cho nó là khuôn mặt của một người đang cau có.

10:44.820 --> 10:46.650
Nó sẽ cho bạn biết rằng người đó đang buồn.

10:47.190 --> 10:48.480
Nó có thể nhận ra những cảm xúc này.

10:48.480 --> 10:53.250
Và như bạn có thể thấy, nó đã rất mạnh về rất nhiều ứng dụng khác nhau.

10:53.250 --> 11:00.450
Chỉ với một ví dụ này bạn có thể nghĩ ra ngay lập tức và trong cả hai trường hợp, nó sẽ cung cấp cho bạn một xác suất.

11:00.450 --> 11:10.200
Vì vậy, nó sẽ không nói với 100% niềm vui hay nỗi buồn của người đó, nó sẽ là 99 hoặc 98 hoặc có thể là 80% khi không rõ chuyện

11:10.200 --> 11:11.670
gì đang xảy ra.

11:11.670 --> 11:17.370
Và cũng giống như chúng ta đúng, đôi khi chúng ta có thể nhầm lẫn mọi thứ với những gì chúng không phải, hoặc đôi khi chúng ta

11:17.370 --> 11:17.880
có thể.

11:18.690 --> 11:24.660
Đôi khi không rõ người đó đang cười hay đang cau mày hay đó là chó hay mèo,

11:24.660 --> 11:27.750
hay đó là tàu hỏa hay tàu cao tốc.

11:28.200 --> 11:28.360
Đúng.

11:28.410 --> 11:33.240
Đôi khi chúng tôi không có, chúng tôi chưa thấy đủ các tính năng và tất cả đi xuống các tính

11:33.240 --> 11:38.310
năng bởi vì đó là cách chúng tôi xử lý thông tin trực quan như chúng tôi đã thấy từ đầu hướng dẫn này.

11:38.310 --> 11:44.040
Vậy nhưng làm thế nào để một mạng nơ-ron, làm thế nào để mạng nơ-ron có thể nhận ra những đặc điểm này?

11:44.040 --> 11:48.690
Tất cả đều bắt đầu ở mức cơ bản mà bạn có.

11:48.690 --> 11:50.670
Giả sử bạn có một hình ảnh, bạn có hai hình ảnh.

11:50.760 --> 11:56.280
Một là hình ảnh đen trắng có kích thước 2 x 2 pixel và một là hình ảnh màu có kích thước 2 x 2 pixel.

11:56.280 --> 12:04.620
Chà, mạng nơ-ron tận dụng thực tế rằng hình ảnh đen trắng là một mảng hai chiều.

12:04.620 --> 12:09.560
Vì vậy, cách chúng ta nhìn thấy nó ngay bây giờ ở bên trái chỉ là hình ảnh đại diện, phải không?

12:09.600 --> 12:13.530
Vì vậy, đó là một số loại hình ảnh và vì lợi ích của đơn giản chỉ là một bức tranh hai nhân hai.

12:13.890 --> 12:18.870
Nhưng theo thuật ngữ máy tính, nó thực sự là một mảng hai chiều với mỗi một trong

12:18.870 --> 12:22.080
số các pixel đó có giá trị từ 0 đến 255.

12:22.080 --> 12:27.540
Vì vậy, đó là tám tám bit thông tin của hai với sức mạnh của tám là 256.

12:27.540 --> 12:30.240
Vì vậy, do đó các giá trị là từ 0 đến 255.

12:30.240 --> 12:32.010
Và đó là cường độ của màu sắc.

12:32.010 --> 12:33.450
Và trong trường hợp này, màu trắng.

12:33.450 --> 12:38.550
Vì vậy, số không sẽ là một pixel hoàn toàn đen, 255 sẽ là một pixel hoàn toàn trắng.

12:38.550 --> 12:44.370
Và giữa chúng, bạn có phạm vi thang màu xám của các tùy chọn có thể có cho pixel này.

12:44.370 --> 12:49.920
Và dựa trên thông tin đó, máy tính có thể làm việc với hình ảnh.

12:49.920 --> 12:55.080
Và đó giống như điểm bắt đầu mà bất kỳ hình ảnh nào thực sự đều có dạng biểu diễn

12:55.080 --> 13:02.550
kỹ thuật số, có dạng kỹ thuật số và về cơ bản chúng chỉ là những số 0 và số 0 tạo thành một số từ 0 đến 255 cho

13:02.550 --> 13:03.150
mỗi pixel.

13:03.150 --> 13:04.170
Và đó là những gì máy tính hoạt động.

13:04.170 --> 13:08.340
Nếu nó không thực sự hoạt động với màu sắc hoặc bất cứ thứ gì, hoạt động với

13:08.340 --> 13:12.390
những cái và số không, thì vào cuối ngày, đó giống như nền tảng của tất cả.

13:13.140 --> 13:17.040
Và trong một hình ảnh màu, nó thực sự là một mảng ba chiều.

13:17.040 --> 13:21.810
Bạn có pixel xanh lam, bạn có một lớp xanh lam, một lớp xanh lá cây và một lớp đỏ.

13:21.810 --> 13:29.700
Và theo nghĩa đó, bốn GB màu đỏ, xanh lá cây, xanh lam, và mỗi màu trong số đó có cường độ riêng.

13:29.700 --> 13:36.870
Vì vậy, về cơ bản pixel có ba, ba giá trị được gán cho nó.

13:36.870 --> 13:40.620
Mỗi một trong số chúng nằm trong khoảng từ 0 đến 256, 255.

13:41.160 --> 13:49.440
Và do đó, bạn có thể tìm ra hình ảnh này là gì, màu sắc chính xác của pixel này là gì bằng cách kết hợp ba giá

13:49.440 --> 13:50.220
trị đó.

13:50.220 --> 13:52.860
Và một lần nữa, máy tính sẽ hoạt động với điều đó.

13:53.280 --> 13:55.710
Vì vậy, đó là nền tảng của tất cả.

13:55.710 --> 13:58.440
Đó là Kênh Đỏ, Kênh Xanh, Kênh Xanh.

13:59.310 --> 14:07.110
Và cuối cùng, chúng ta hãy xem xét một ví dụ, một ví dụ rất đơn giản về khuôn mặt cười trong thuật ngữ

14:07.110 --> 14:16.080
máy tính, nếu chúng ta thực sự đơn giản hóa mọi thứ thay vì có từ 0 đến 255, thay vì có những giá trị đó chúng

14:16.080 --> 14:20.850
ta có thể hiểu mọi thứ tốt hơn và thực sự nắm bắt

14:20.850 --> 14:26.700
các khái niệm, chúng ta sẽ nói số không là màu trắng, một là màu đen, phải không?

14:26.700 --> 14:30.630
Vì vậy, chúng tôi sẽ đơn giản hóa mọi thứ đến cùng cực.

14:30.630 --> 14:33.780
Và bạn sẽ thấy rằng hình ảnh đó có thể được biểu diễn như vậy.

14:33.780 --> 14:38.910
Vì vậy, lý do tại sao chúng tôi đưa ra điều này là vì chúng tôi sẽ xem tất cả các hướng dẫn về

14:38.910 --> 14:43.950
trực giác của chúng tôi, chúng tôi sẽ cấu trúc trên những hình ảnh như thế này, rất đơn giản, nhưng đồng thời,

14:43.950 --> 14:49.950
tất cả các khái niệm đó có thể dịch ngược lại phạm vi giá trị từ 0 đến 256 và mọi thứ đều áp dụng theo cách tương tự

14:49.950 --> 14:50.460
ở đó.

14:50.460 --> 14:54.840
Và các bước mà chúng ta sẽ trải qua với những hình ảnh này là tích chập số một.

14:54.840 --> 14:56.760
Bước số hai, tổng hợp tối đa.

14:56.760 --> 14:59.000
Bước số ba, làm phẳng và số bước.

14:59.160 --> 15:00.330
Hoặc kết nối đầy đủ.

15:00.330 --> 15:06.780
Và tôi có thể tưởng tượng rằng có lẽ không có từ nào trong số này có nhiều ý nghĩa đối với bạn vào

15:06.780 --> 15:13.560
lúc này, nhưng khi kết thúc phần này của khóa học, bạn sẽ hiểu chúng một cách chi tiết và chính xác những gì chúng đang

15:13.560 --> 15:13.890
làm.

15:13.890 --> 15:15.920
Vì vậy, chúng ta sẽ bắt đầu trong hướng dẫn tiếp theo.

15:15.930 --> 15:23.430
Hiện tại, bài đọc bổ sung mà bạn có thể muốn xem xét là một bài báo ban đầu của

15:23.640 --> 15:27.840
Lacunes thời trẻ đã tạo ra mạng nơ-ron phức hợp.

15:28.050 --> 15:31.380
Nó được gọi là học dựa trên gradient áp dụng cho nhận dạng tài liệu.

15:31.650 --> 15:34.470
Bạn có thể đã nhìn thấy hình ảnh này trước khi trôi nổi trên Internet.

15:34.470 --> 15:35.700
Nó là từ giấy đó.

15:35.700 --> 15:42.150
Vì vậy, nếu bạn muốn quay trở lại ban đầu của tất cả như thế nào, tất cả bắt nguồn từ đâu, thì đây là bài

15:42.150 --> 15:46.230
báo để xem xét và tôi mong được gặp bạn trong phần hướng dẫn tiếp theo.

15:46.230 --> 15:48.450
Cho đến lúc đó, hãy tận hưởng việc học sâu.