WEBVTT

00:00.490 --> 00:02.980
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรการเรียนรู้ลึก

00:02.980 --> 00:06.900
วันนี้เรากำลังเริ่มต้นเครือข่ายประสาทเทียมที่น่าตื่นเต้น

00:06.910 --> 00:08.610
ลองดำดิ่งลงไป

00:08.620 --> 00:10.840
เราจะเริ่มด้วยภาพ

00:10.930 --> 00:13.210
คุณเห็นอะไรเมื่อคุณดูรูปนี้

00:13.580 --> 00:25.860
คุณเห็นคนที่มองคุณหรือคุณเห็นคนที่มองไปทางขวาคุณจะเห็นว่าสมองของคุณกำลังดิ้นรนกำลังดิ้นรนเพื่อปรับถ้าคุณมองไปทางด้านขวาของภาพ

00:25.870 --> 00:29.180
แค่มองไปที่ขอบด้านขวาตรงนั้นซึ่งคุณจะเห็นคนที่มองไปทางขวา

00:29.260 --> 00:33.320
หากคุณดูที่ขอบด้านซ้ายของภาพคุณจะเห็นคนที่กำลังมองคุณอยู่

00:33.700 --> 00:46.140
และนี่ก็พิสูจน์ได้ว่าสิ่งที่สมองของเรามองหาเมื่อเราเห็นสิ่งต่าง ๆ นั้นขึ้นอยู่กับคุณสมบัติที่มันเห็นขึ้นอยู่กับคุณสมบัติที่คุณดำเนินการ

00:46.180 --> 00:48.610
คุณจัดหมวดหมู่สิ่งต่าง ๆ ด้วยวิธีการบางอย่าง

00:48.730 --> 01:00.930
ดังนั้นเมื่อคุณมองไปทางด้านขวาของภาพคุณจะเห็นคุณสมบัติบางอย่างของคนที่มองการขับขี่เพราะมันอยู่ใกล้กับจุดศูนย์กลางการโฟกัสของคุณและทำให้สมองของคุณจำแนกเป็นคนที่มองไปทางขวา

01:01.000 --> 01:09.580
เมื่อคุณมองไปทางด้านซ้ายของภาพคุณจะเห็นคุณสมบัติเพิ่มเติมของคนที่มองคุณและทำให้สมองของคุณจำแนกมันเช่นนั้น

01:09.580 --> 01:11.150
ลองดูอีกอันกัน

01:11.230 --> 01:12.840
นี่เป็นภาพที่มีชื่อเสียงมาก

01:12.910 --> 01:14.530
คุณอาจเคยเห็นมาแล้ว

01:14.680 --> 01:16.240
แต่สิ่งที่คุณเห็นที่นี่

01:16.820 --> 01:23.830
ดังนั้นบางคนจะบอกว่าพวกเขาเห็นหญิงสาวสวมชุดที่มองออกไป

01:23.830 --> 01:29.980
บางคนบอกว่าพวกเขาเห็นหญิงชราสวมผ้าพันคอบนหัวเธอมองลงมา

01:30.280 --> 01:37.510
ดังนั้นฉันจะชี้ประเด็นนี้แล้วคุณจะเห็นว่าจะชัดเจนมากดังนั้นนี่คือใบหน้าของหญิงสาวที่มองออกไป

01:37.510 --> 01:40.450
เธอมองเข้าไปในระยะไกลเหมือนเสื้อคลุมของเธอ

01:40.440 --> 01:44.940
นั่นคือผมของเธอนั่นคือขนเล็ก ๆ ของเธอในผมของเธอและในทางกลับกัน

01:44.980 --> 01:55.560
นี่คือหัวหน้าหญิงชรามองจมูกของเธอปากของเธอคางของเธอนั่นคือผ้าพันคอบนหัวของเธอ

01:55.780 --> 02:06.710
ดังนั้นเมื่อคุณเห็นสองภาพในหนึ่งภาพและขึ้นอยู่กับว่าสมองของคุณเลือกมันจะสลับไปมาระหว่างการจำแนกภาพแต่ละภาพเป็นภาพเดียวหรืออีกภาพหนึ่ง

02:06.910 --> 02:13.930
สิ่งที่เก่าแก่ที่สุดของภาพลวงตาเหล่านี้ที่บันทึกในงานพิมพ์คือสิ่งนี้

02:13.930 --> 02:15.220
มันคือเป็ดหรือกระต่าย

02:15.230 --> 02:17.020
ดังนั้นนี่คือเป็ดหรือนี่คือกระต่าย

02:17.020 --> 02:18.330
ตัวอย่างอื่น.

02:18.430 --> 02:28.670
และตอนนี้ฉันจะแสดงภาพที่จะรอดูเพียงวินาทีและดูว่าอารมณ์หรือประสบการณ์ภาพอะไรที่คุณต้องเผชิญ

02:29.110 --> 02:36.610
ดังนั้นสิ่งที่คุณเห็นคุณรู้สึกเหมือนวิงเวียนไม่ได้ แต่นิด ๆ หน่อย ๆ

02:36.610 --> 02:40.230
ทำให้ตาพร่าเหมือนสมองของคุณพยายามที่จะลองและเข้าใจว่ามันคืออะไรมันเหมือนมันพยายาม

02:40.330 --> 02:53.850
กำลังกระโดดระหว่างดวงตาทั้งสองของเธอขึ้นและลงและนี่คือตัวอย่างคลาสสิกเมื่อมีคุณสมบัติบางอย่างที่อาจเป็นเช่นนี้มันอาจเป็นไปได้ แต่สมองของคุณไม่สามารถตัดสินใจได้

02:54.130 --> 02:58.230
และเพราะทั้งคู่ดูเหมือนจะเป็นไปได้

02:58.290 --> 03:10.970
ใช่โดยทั่วไปตัวอย่างทั้งหมดเหล่านี้แสดงให้เราเห็นว่าสมองทำงานอย่างไรในการประมวลผลคุณสมบัติบางอย่างในภาพหรือสิ่งที่คุณเห็นในชีวิตจริงและจำแนกประเภทตามที่เป็น

03:10.980 --> 03:24.030
คุณอาจเคยอยู่ในสถานการณ์เมื่อคุณมองไหล่ของคุณอย่างรวดเร็วและคุณเห็นบางสิ่งที่คุณคิดว่ามันฉันไม่รู้ว่ามันเหมือนลูกบอล แต่มันกลับกลายเป็นแมวหรือคุณคิดว่ามันเป็นรถ

03:24.070 --> 03:28.030
กลายเป็นเงาหรือสิ่งต่าง ๆ เช่นนั้นเพราะคุณไม่มีเวลาพอที่จะประมวลผลคุณสมบัติเหล่านั้นหรือคุณไม่มีคุณสมบัติเพียงพอที่จะจำแนกสิ่งต่าง

03:28.030 --> 03:31.030
ๆ เช่นนี้

03:31.240 --> 03:53.580
และนี่สำหรับฉันนี่เป็นสิ่งที่น่าสนใจมากเพราะสิ่งที่เรากำลังจะทำกับโครงข่ายประสาทเทียมที่มีโครงข่ายประสาทเทียมนั้นคล้ายกันมากและคุณจะพบว่าวิธีที่คอมพิวเตอร์กำลังประมวลผลภาพเป็นไปอย่างยิ่ง คล้ายกับวิธีที่เราประมวลผลภาพดังนั้นมันจึงมีค่ามากที่จะเข้าใจและจำสิ่งเหล่านี้ได้ว่านี่คือวิธีที่เราทำ

03:53.590 --> 03:58.450
และฉันจะกำจัดผู้หญิงคนนี้ออกหน้าจอของคุณเพราะตอนนี้เธออาจจะประหลาดใจแล้ว

03:58.630 --> 04:00.940
ดังนั้นนี่คือสิ่งที่แตกต่าง

04:00.940 --> 04:11.150
นี่คือการทดลองการทดลองที่ทำบนคอมพิวเตอร์บนเครือข่ายประสาทเทียมดังนั้นเราจึงค่อยๆย้ายจากคนสู่คอมพิวเตอร์

04:11.350 --> 04:24.440
และสไลด์นี้มาจากการบอกเล่าโดยเจฟฟรีย์ฮินตันและที่นี่คุณได้อธิบายการทดลองที่เขาทำกับเครือข่ายประสาทปกติบางอย่างที่เขาฝึกมา

04:24.460 --> 04:31.870
ดังนั้นที่นี่คุณเห็นสามภาพและเราจะผ่านพวกเขาด้วยซ้ายไปขวาและดูว่าคุณจะแบ่งพวกเขาแล้วดูว่าพวกเขาสามารถจัดประเภทใหม่ได้อย่างไร

04:31.870 --> 04:35.440
ทางซ้ายคุณคิดว่านี่คืออะไร

04:35.440 --> 04:37.710
เขาอาจพูดว่าเสือชีตาห์และคุณจะถูกต้อง

04:37.710 --> 04:54.050
และนี่คือสิ่งที่คอมพิวเตอร์พูดดังนั้นและทันทีที่เราจะได้เรียนรู้วิธีการอ่านภาพเหล่านี้เพราะถ้าคุณจะเข้าไปในเครือข่ายประสาทสนทนาทางโทรศัพท์โดยไม่ตั้งใจคุณจะเริ่มเรียนรู้ คุณจะเห็นสิ่งเหล่านี้มากมาย

04:54.070 --> 05:01.470
ดังนั้นและฉันเห็นผู้คนอ่านอย่างไม่ถูกต้องดังนั้นที่นี่ที่ Shida ด้านบนคือสิ่งที่เป็นจริง

05:01.470 --> 05:09.180
นั่นคือฉลากที่ถูกต้องจริงของรูปภาพนั่นคือสิ่งที่เป็นฉลากของรูปภาพโดยไม่คำนึงถึงการประมวลผลใด ๆ

05:09.300 --> 05:16.770
และการมองเห็นคอมพิวเตอร์แล้วนี่คือการคาดเดาสี่หรือห้าอันดับแรกที่บางครั้งเดาอัลกอริทึมและพวกเขาได้รับความน่าจะเป็นดังนั้นคอมพิวเตอร์กล่าวหรือเครือข่ายประสาทเทียมกล่าวว่าเครื่องแต่งกายส่วนตัว

05:17.370 --> 05:27.460
Chitta หรือแมวอียิปต์สามารถเป็นหนึ่งในสี่

05:27.540 --> 05:29.120
เสือชีต้ามีคะแนนสูงสุด

05:29.130 --> 05:34.820
และตลอดระยะเวลาของหลักสูตรนี้คุณเข้าใจว่าการลงคะแนนเสียงเหล่านี้มีความหมายว่าอย่างไรและได้มาอย่างไร

05:34.830 --> 05:36.600
แต่สำหรับตอนนี้มันค่อนข้างง่าย

05:36.600 --> 05:40.700
ดังนั้นเสือชีตาห์ในความเป็นจริงและเครือข่ายประสาทเทียมเดาถูกต้อง

05:40.710 --> 05:44.600
มันบอกว่ามีความสามารถมากเกินไปประมาณ 95 99 เปอร์เซ็นต์

05:45.900 --> 05:46.860
จากนั้นอันที่สอง

05:46.860 --> 05:51.050
คุณคิดว่ามันคือรถไฟหัวกระสุน

05:51.300 --> 05:58.020
และเครือข่ายประสาทก็สามารถแยกแยะความแตกต่างระหว่างรถไฟหัวกระสุนรถยนต์นั่งรถไฟหัวรถจักรรถไฟ

05:58.020 --> 05:59.380
แน่นอนว่าเป็นตัวเลือกอันดับต้น ๆ

05:59.400 --> 06:08.760
มันมีตัวเลือกมากมายอีกมากมายที่เครือข่ายประสาทเหล่านี้เรียนรู้ที่จะแยกแยะความแตกต่างจากไม่ใช่แค่สี่หมวดหมู่จากหลายหมื่นหลายพันประเภทในเวลาเดียวกัน

06:08.760 --> 06:10.750
ดังนั้นนี่คือสี่ตัวเลือกที่เลือกไว้

06:10.920 --> 06:12.750
และนั่นคือรถไฟหัวกระสุนและความมุ่งมั่น

06:12.760 --> 06:17.210
แล้วคุณคิดว่าอันสุดท้ายคืออะไร

06:17.350 --> 06:30.540
มีสองตัวเลือกหรือไม่ชัดเจนว่ามันคืออะไรกระทะอาจเป็นแว่นขยายมันอาจเป็นกรรไกรบางทีบางคู่อาจพูดในขณะที่เครือข่ายประสาทบอกว่าเป็นกรรไกร

06:30.750 --> 06:32.590
แต่คุณสามารถเห็นว่าคุณผิดพลาดได้อย่างไรที่นี่

06:32.610 --> 06:35.440
ก่อนอื่นมันไม่ใช่ภาพที่ชัดเจนมาก

06:35.520 --> 06:46.280
และคุณสามารถเห็นได้ว่าความน่าจะเป็นยังไม่ชัดเจนตรงนี้ดังนั้นโครงข่ายใยประสาทจึงสับสนเล็กน้อยไม่แน่ใจเหมือนที่เราเป็น

06:46.280 --> 06:51.710
ดังนั้นฉันจึงพูดว่ากรรไกรที่มีความน่าจะเป็นสูง แต่ก็มีกระจกมือซึ่งจริง ๆ

06:51.810 --> 06:55.760
แล้วมันไม่ได้อยู่ใกล้กับที่สอง

06:55.920 --> 07:03.050
โดยพื้นฐานแล้วที่นี่คุณจะเห็นว่ากรรไกรเป็นการเดาครั้งแรก แต่ตัวเลือกที่ถูกต้องคือหมายเลขสองและนั่นคือสาเหตุที่มันถูกเน้นด้วยสีแดง

07:03.300 --> 07:07.050
เราไปที่นั่นนั่นคือสิ่งที่ยาทุกตัวมีความสามารถอยู่แล้ว

07:07.050 --> 07:08.880
และนี่คือสไลด์ที่ค่อนข้างเก่า

07:08.880 --> 07:10.610
เมื่อหลายปีก่อน

07:10.650 --> 07:16.760
ตอนนี้มันดีกว่าและคุณจะเห็นว่าจากแอปพลิเคชันที่ใช้งานได้จริงซึ่งคุณจะได้รับการเข้ารหัสด้วยกันได้รับประทานอาหารกลางวัน

07:16.920 --> 07:18.430
แต่ตอนนี้ลองทำสิ่งนี้ให้ดีขึ้นหน่อย

07:18.430 --> 07:23.770
เครือข่ายประสาทเทียมแบบ convolutional หรือสิ่งที่จริงแล้วคืออะไรและทำไมพวกเขาถึงได้รับความนิยมอย่างมาก

07:23.970 --> 07:31.380
และพวกเขากำลังได้รับความนิยมดังนั้นคุณสามารถดูการเปรียบเทียบ Google เทรนด์ที่ฉันทำเมื่อวานนี้

07:31.770 --> 07:43.260
ที่นี่คุณจะเห็นว่าโครงข่ายประสาทเทียมแบบแผนภาพลวงตากำลังเข้ายึดครองเครือข่ายประสาทเทียมเพื่อเพิ่มจำนวนมหาศาล

07:43.260 --> 07:52.530
และนี่จะเป็นไปอย่างต่อเนื่องเพราะมันเป็นสนามที่สำคัญมากซึ่งเป็นที่ที่ทุกสิ่งเกิดขึ้นเช่นรถขับเอง

07:52.530 --> 07:59.340
พวกเขารู้จักผู้คนบนท้องถนนได้อย่างไรวิธีการจดจำป้ายหยุดและสิ่งต่าง ๆ เช่นนั้น

07:59.340 --> 08:07.680
Facebook เป็นวิธีที่ Facebook สามารถติดแท็กรูปภาพหรือผู้คนในภาพได้อย่างไรและไม่เพียง

08:07.980 --> 08:14.240
แต่จำไว้ก่อนหน้านี้เมื่อหลายปีก่อน จดจำใบหน้าที่คุณต้องเพิ่มชื่อ

08:14.250 --> 08:18.420
และตอนนี้มันก็จดจำใบหน้าและเพิ่มชื่อในเวลาเดียวกัน

08:18.630 --> 08:26.070
นั่นคือสิ่งที่เครือข่ายประสาทเทียมที่สามารถใช้บน Facebook ได้

08:26.160 --> 08:34.710
หาก Jeffrey Hinton เป็นเจ้าพ่อของโครงข่ายประสาทเทียมและการเรียนรู้เชิงลึกจากนั้น yalla Kuhn

08:34.830 --> 08:43.650
เป็นปู่ของเครือข่ายประสาท convolutional Lukken เป็นนักเรียนของ Jeffrey Hinton

08:43.650 --> 08:45.640
และในความเป็นจริงที่นี่คุณสามารถเห็นพวกเขาด้วยกัน

08:45.720 --> 08:51.950
และตอนนี้เจฟฟรีย์ฮินตันก็เป็นผู้บุกเบิกการวางผังที่ Google รุ่นเยาว์

08:52.020 --> 08:57.010
เป็นผู้อำนวยการฝ่ายวิจัยปัญญาประดิษฐ์ Facebook และเป็นอาจารย์ที่ NYU

08:57.030 --> 09:02.650
ดังนั้นเราจึงค่อยๆตระหนักถึงส่วนนี้ของแกนกลางอย่างช้าๆเรากำลังสร้างวิธีนี้ขึ้น

09:02.670 --> 09:24.140
ชื่อเหล่านี้เป็นรูปภาพประเภทนี้ของโปรไฟล์ของคนที่ขับรถในสนามนี้และต่อไปในปาร์สคู่ถัดไปจะได้รับรู้เกี่ยวกับอีกไม่กี่และเราจะมีพวกมาเฟียทั้งหมดที่พวกเขาเรียกตัวเอง พวกเขามาเฟียหรือการสมรู้ร่วมคิดของการเรียนรู้อย่างลึกซึ้งและคุณจะได้เรียนรู้เพิ่มเติมเล็กน้อยเกี่ยวกับการพัฒนาทั้งสนามนี้

09:24.480 --> 09:27.200
ใช่มันเป็นเพียงแค่บางคนที่ยอดเยี่ยม

09:27.450 --> 09:36.300
ดังนั้น RIKOON จึงย้อนกลับไปในยุค 80 และ 90 ได้มีส่วนร่วมสำคัญในด้านโครงข่ายประสาทเทียม

09:36.330 --> 09:46.650
และอย่างที่คุณจะเห็นตลอดหลักสูตรนี้สามารถพัฒนาหรือช่วยให้โลกพัฒนาสิ่งที่ทรงพลังอย่างยิ่ง

09:46.650 --> 09:51.390
ดังนั้นการย้ายไปยังเครือข่ายประสาทเทียมที่ทำงานได้อย่างไร

09:51.420 --> 09:56.150
คุณมีอินพุตมันง่ายมากตรงไปตรงมาเพื่อให้มีอินพุต

09:56.160 --> 10:01.930
มันต้องผ่านโครงข่ายประสาทเทียมที่ผิด ๆ และคุณมีป้ายกำกับดังนั้นมันจึงจัดประเภทรูปภาพนั้นเหมือนสิ่งที่มี

10:01.990 --> 10:06.630
Cheeto หรือรถไฟหัวกระสุนหรืออย่างอื่น

10:06.790 --> 10:10.780
ตอนนี้ชนิดของชอบที่จะลงรายละเอียดอีกเล็กน้อย

10:10.900 --> 10:23.600
ตัวอย่างเช่นคุณสามารถเจ้าหน้าที่เนอโรลี่ได้รับการฝึกฝนเกี่ยวกับภาพบางภาพในภาพที่จัดบางหรือภาพที่จัดหมวดหมู่ก่อนที่จะมีสูงกว่าก่อน

10:23.710 --> 10:29.510
หลังจากนั้นคุณสามารถให้มันสมมติว่าเครือข่ายประสาทได้รับการฝึกฝนให้รู้จักการแสดงออกทางสีหน้าและการเคลื่อนไหวคุณสามารถให้ใบหน้าของคนยิ้มไม่ใช่แค่ใบหน้าเหมือนภาพวาดใบหน้าเช่นนี้

10:29.510 --> 10:39.330
แต่ใบหน้าจริงของคนยิ้ม .

10:39.430 --> 10:44.910
และฉันจะบอกคุณว่าคน ๆ นั้นมีความสุขและคุณสามารถเผชิญหน้ากับคนที่ทำหน้านิ่วคิ้วขมวด

10:44.910 --> 10:47.180
ฉันจะบอกคุณว่าบุคคลนั้นเศร้า

10:47.280 --> 10:52.570
เขาสามารถรับรู้อารมณ์เหล่านี้และในขณะที่คุณเห็นว่ามีประสิทธิภาพมากแล้วในแง่ของความหมายที่แตกต่างกันมากมายเพียงแค่ตัวอย่างนี้คุณสามารถคิดได้ทันที

10:52.570 --> 11:04.970
ใหม่ 100 เปอร์เซ็นต์ของบุคคลที่มีความสุขหรือเศร้า

11:04.970 --> 11:13.000
มันจะเป็น 99 หรือ 98 หรืออาจจะ

11:13.000 --> 11:16.620
80 เปอร์เซ็นต์เมื่อมันไม่ชัดเจนว่าเกิดอะไรขึ้นและเหมือนว่าเราถูกต้องบางครั้งเราสามารถเข้าใจสิ่งที่ผิดพลาด

11:16.660 --> 11:27.910
หรือบางครั้งเราสามารถบางครั้งมันก็ไม่ชัดเจนถ้าคนยิ้มหรือขมวดคิ้วหรือถ้ามันเป็นสุนัขหรือแมวหรือถ้ามันเป็นรถไฟหรือรถไฟหัวกระสุน

11:28.110 --> 11:38.600
ถูกต้องบางครั้งเราไม่ได้มีมันเราไม่ได้เห็นคุณสมบัติเพียงพอในทุกลงไปที่คุณสมบัติเพราะนั่นคือวิธีที่เราประมวลผลข้อมูลภาพที่เราเห็นตั้งแต่เริ่มต้นของการสอน

11:38.620 --> 11:44.140
ดังนั้น แต่โครงข่ายโครงข่ายประสาทเทียมที่อยู่อาศัยสามารถสร้างคุณสมบัติเหล่านี้ได้อย่างไร

11:44.140 --> 11:48.770
ทุกอย่างเริ่มต้นในระดับพื้นฐานที่คุณมี

11:48.790 --> 12:04.690
สมมติว่าคุณมีภาพที่คุณมีสองภาพหนึ่งภาพเป็นสีดำและสีขาวของสองพิกเซลและหนึ่งคือภาพสีของสองพิกเซลในขณะที่เครือข่ายประสาทเทียมยกระดับความจริงที่ว่าภาพขาวดำเป็นอาร์เรย์สองมิติ

12:04.690 --> 12:09.610
วิธีที่เราเห็นตอนนี้ทางซ้ายเป็นเพียงการแสดงออกทางภาพ

12:09.630 --> 12:11.110
ฉันนึกภาพบางอย่าง

12:11.250 --> 12:16.600
และเพื่อความเรียบง่ายมันเป็นเพียงแค่การถ่ายภาพสองทาง แต่ในแง่ของคอมพิวเตอร์มันเป็นอาร์เรย์สองมิติที่ทุกพิกเซลมีค่าระหว่าง

12:16.600 --> 12:22.180
0 ถึง 55

12:22.360 --> 12:27.670
นั่นคือข้อมูลแปดบิตต่อสองถึงพลังของแปดคือ 256

12:27.670 --> 12:32.130
ดังนั้นค่าจาก 0 ถึง 255 และนั่นคือความเข้มของสี

12:32.260 --> 12:36.240
และในกรณีนี้สีขาวดังนั้น 0 จะเป็นพิกเซลสีดำสนิท

12:36.370 --> 12:44.490
255 จะเป็นพิกเซลสีขาวอย่างสมบูรณ์และระหว่างพวกเขาคุณมีช่วงสีเทาของตัวเลือกที่เป็นไปได้สำหรับพิกเซลนี้

12:44.650 --> 12:50.740
และจากข้อมูลคอมพิวเตอร์นั้นก็สามารถทำงานกับภาพได้และนั่นก็เหมือนกับจุดเริ่มต้นที่ภาพใด ๆ มีจริง

12:50.740 --> 12:56.510
ๆ แล้วการแสดงภาพดิจิทัลมีรูปแบบดิจิทัล

12:56.620 --> 13:04.340
และนั่นเป็นเพียงค่าศูนย์และตัวเลขที่มีค่า 0 ถึง 255 สำหรับทุกพิกเซล

13:04.340 --> 13:08.790
มันใช้งานไม่ได้จริง ๆ กับคุณรู้ว่าสีหรืออะไรก็ตามที่ใช้งานได้กับสีและศูนย์ในตอนท้ายของวัน

13:08.800 --> 13:12.820
นั่นเป็นเหมือนรากฐานของทุกสิ่ง

13:13.360 --> 13:17.110
และในภาพสีจริงๆแล้วมันเป็นอาร์เรย์สามมิติ

13:17.230 --> 13:25.130
คุณมีพิกเซลสีน้ำเงินสีน้ำเงินแลร์รีกรีนและแสงจ้าและลูกศรสีแดงและความรู้สึกนั้นสำหรับ RGV สีน้ำเงินสีเขียวสีแดง

13:25.420 --> 13:29.740
และแต่ละสีเหล่านั้นมีความเข้มของตัวเอง

13:29.740 --> 13:37.010
ดังนั้นโดยทั่วไปแล้วพิกเซลจะมีค่าสามค่า

13:37.030 --> 13:41.090
แต่ละอันอยู่ระหว่าง 0 และ 256 255

13:41.380 --> 13:48.340
และคุณสามารถค้นหาว่าภาพนี้มีสีอะไรว่าพิกเซลนี้คืออะไร

13:48.340 --> 13:53.520
ด้วยการรวมค่าทั้งสามเข้าด้วยกันแล้วคอมพิวเตอร์อีกเครื่องก็จะใช้งานได้

13:53.530 --> 13:58.930
นั่นคือรากฐานของทั้งหมดนั่นคือช่องสีแดงช่องสีเขียวช่องสีฟ้า

13:59.530 --> 14:08.590
และในที่สุดเรามาดูตัวอย่างของตัวอย่างที่น่ารำคาญของใบหน้ายิ้ม

14:08.820 --> 14:09.610
ในแง่คอมพิวเตอร์

14:09.610 --> 14:17.710
ถ้าเราแค่ทำให้สิ่งต่าง ๆ ง่ายขึ้นแทนที่จะมีค่าจาก 0

14:17.710 --> 14:26.590
ถึง 255 และมีค่าเหล่านั้นเพื่อให้เราสามารถเข้าใจสิ่งต่าง ๆ ได้ดีขึ้นและเข้าใจแนวคิดที่เราจะบอกว่าศูนย์คือสีขาวหนึ่งคือสีดำ

14:26.590 --> 14:26.800
ขวา.

14:26.800 --> 14:33.900
ดังนั้นเราจะลดความซับซ้อนของสิ่งต่าง ๆ ให้สุดขั้วและคุณจะเห็นว่าภาพนั้นสามารถนำเสนอแบบนั้นได้

14:34.000 --> 14:39.150
เหตุผลที่เรานำสิ่งนี้มาเพราะเราเข้าไปในสัญชาตญาณทั้งหมดของ Stroh

14:39.160 --> 14:44.680
เราได้โครงสร้างภาพเป็นแบบนี้ซึ่งง่ายมาก แต่ในเวลาเดียวกันแนวคิดเหล่านั้นทั้งหมดสามารถแปลกลับเป็น 0

14:44.680 --> 14:50.530
2 256 ช่วงของค่าและทุกอย่างใช้ในลักษณะเดียวกัน

14:50.740 --> 14:54.900
และขั้นตอนที่เราจะต้องผ่านหากภาพเหล่านี้เป็นวิวัฒนาการที่ดีที่สุดอย่างหนึ่ง

14:54.910 --> 14:56.820
ขั้นตอนที่สองการรวมกำไรสูงสุด

14:56.830 --> 15:02.550
ขั้นตอนที่สามการแบนและการเชื่อมต่อแบบเต็มจำนวนและฉันสามารถจินตนาการได้ว่าคำเหล่านี้อาจมีความหมายกับคุณมากในตอนนี้

15:02.560 --> 15:13.940
แต่ในตอนท้ายของส่วนนี้ของหลักสูตรคุณจะเข้าใจในรายละเอียดที่ดี การทำ

15:13.960 --> 15:16.020
ดังนั้นเราจะเริ่มต้นในบทช่วยสอนถัดไป

15:16.030 --> 15:28.200
สำหรับตอนนี้การอ่านเพิ่มเติมที่คุณอาจต้องการดูเป็นกระดาษต้นฉบับ Lukens เล็กที่ก่อให้เกิดเครือข่ายประสาทอารมณ์

15:28.200 --> 15:31.590
มันเรียกว่าการเรียนรู้แบบไล่ระดับสีนำไปใช้กับการรับรู้สารคดี

15:31.660 --> 15:34.550
คุณอาจเคยเห็นภาพนี้มาก่อนลอยอยู่บนอินเทอร์เน็ต

15:34.630 --> 15:46.420
มันมาจากบทความนั้นดังนั้นถ้าคุณต้องการย้อนกลับไปสู่จุดเริ่มต้นว่ามันเกิดขึ้นที่ไหนมันทั้งหมดมาจากที่นี่เป็นกระดาษที่มองเข้าไปและฉันหวังว่าจะได้เห็นในบทช่วยสอนต่อไป

15:46.420 --> 15:48.280
จนกว่าจะสนุกกับการเรียนรู้ลึก