WEBVTT

00:00.680 --> 00:06.600
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรการเรียนรู้อย่างลึกล้ำในแบบฝึกหัดวันนี้เรากำลังพูดถึงการไล่ระดับสี

00:06.890 --> 00:21.140
สิ่งที่เราได้เรียนรู้ก่อนหน้านี้คือเพื่อให้เครือข่ายประสาทเพื่อเรียนรู้สิ่งที่ต้องเกิดขึ้นคือการแพร่กระจายกลับและนั่นคือเมื่อข้อผิดพลาดความแตกต่างหรือผลรวมของความแตกต่างยกกำลังสองระหว่าง y หมวก

00:21.170 --> 00:28.300
จะถูกปรับตาม

00:28.520 --> 00:34.220
ดังนั้นเราจึงเห็นสิ่งนั้นและวันนี้เราจะได้เรียนรู้อย่างแม่นยำถึงวิธีการปรับน้ำหนักเหล่านี้

00:34.400 --> 00:35.930
ดังนั้นเรามาดู

00:36.080 --> 00:44.030
นี่เป็นงานง่าย ๆ

00:44.030 --> 00:52.280
ของเราในการทำงานของประสาทประสาท Trauner ซึ่งเป็นเครือข่ายนิวรัลแบบป้อนตัวอักษรและสิ่งที่เราเห็นนี่คือกระบวนการทั้งหมดนี้ในการดำเนินการ

00:52.280 --> 00:57.000
ถูกนำไปใช้

00:56.990 --> 01:01.850
เราได้รับ y hat แล้วเราเปรียบเทียบกับค่าจริงที่เราคำนวณฟังก์ชันต้นทุน

01:01.850 --> 01:05.420
ดังนั้นเราจะลดฟังก์ชั่นลดค่าใช้จ่ายลงได้อย่างไร

01:05.420 --> 01:07.370
เราทำอะไรได้บ้าง

01:07.370 --> 01:14.750
วิธีการหนึ่งในการทำมันคือวิธีการบังคับสัตว์เดรัจฉานซึ่งเราใช้น้ำหนักที่เป็นไปได้ที่แตกต่างกันมากมายและดูพวกมันและดูว่าวิธีใดที่ดูดีที่สุดและสิ่งที่เราทำคือตัวอย่างเราจะลองยกตัวอย่างเช่น

01:14.750 --> 01:26.240
และเราลองพวกมันออกมาว่าจะได้อะไรแบบนี้สำหรับฟังก์ชันต้นทุนและนี่คือแผนภูมิของแกน Y ของ

01:26.810 --> 01:34.770
cross-functional แกนตั้งในแกนนอนของแกน y

01:34.860 --> 01:39.200
และเพราะคุณเห็นสูตรที่ผมลบ Y กำลังสองได้

01:39.230 --> 01:42.470
นี่คือสิ่งที่ฟังก์ชั่นค่าใช้จ่ายจะมีลักษณะเช่นนั้น

01:42.670 --> 01:47.830
และโดยพื้นฐานแล้วคุณจะพบว่าสิ่งที่ดีที่สุดอยู่ตรงนี้

01:47.950 --> 01:50.980
วิธีการที่ง่ายมาก ๆ

01:50.980 --> 01:53.200
ทำไมไม่ทำเช่นนี้วิธีการบังคับดุร้าย

01:53.200 --> 02:03.030
ทำไมไม่ลองใช้ค่าใช้จ่ายที่แตกต่างกันหลายพันค่าสำหรับพารามิเตอร์หรืออินพุตที่แตกต่างกันหลายพันค่าสำหรับน้ำหนักและดูว่าแบบใดดีที่สุด

02:03.030 --> 02:04.230
คุณจะได้พบกับสิ่งที่ดีที่สุด

02:04.420 --> 02:10.270
ถ้าคุณมีวิธีเดียวที่จะเพิ่มประสิทธิภาพสิ่งนี้อาจใช้งานได้

02:10.480 --> 02:16.630
แต่เมื่อคุณเพิ่มจำนวนน้ำหนักเพิ่มจำนวน Synopsys ในเครือข่ายของคุณคุณจะต้องเผชิญกับคำสาปของมิติ

02:16.630 --> 02:19.370
แล้วสาเหตุของมิติข้อมูลคืออะไร

02:19.450 --> 02:24.510
วิธีที่ดีที่สุดในการอธิบายสิ่งนี้หรืออธิบายก็คือให้ดูตัวอย่างที่ใช้งานได้จริง

02:24.640 --> 02:37.120
ดังนั้นโปรดจำไว้ว่าตัวอย่างนี้เรามีเมื่อเรากำลังพูดถึงวิธีการทำงานของเครือข่ายประสาทที่เรากำลังสร้างหรือใช้เครือข่ายประสาทสำหรับการประเมินค่าทรัพย์สิน

02:37.120 --> 02:45.290
ดังนั้นนี่คือสิ่งที่ดูเหมือนว่าเมื่อฝึกแล้วดีเมื่อไม่ได้รับการฝึกฝนก่อนที่จะได้รับการฝึกฝนก่อนที่เราจะรู้ว่าสิ่งที่เป็นน้ำหนัก

02:45.550 --> 02:47.640
เครือข่ายประสาทที่แท้จริงมีลักษณะเช่นนี้

02:47.730 --> 02:54.860
ถูกต้องเพราะเรามีบทสรุปที่เป็นไปได้ที่แตกต่างกันเหล่านี้และเรายังต้องฝึกน้ำหนักและตรงนี้เรามีน้ำหนักทั้งหมด 25

02:55.280 --> 03:03.430
น้ำหนักดังนั้นสี่คูณห้าในตอนเริ่มต้นและอีกห้าจากน้ำหนักรวม 25 น้ำหนัก

03:03.680 --> 03:09.060
ลองดูกันว่าเราสามารถดุร้ายกำลัง 25 วิธีได้อย่างไร

03:09.070 --> 03:12.610
นี่คือเครือข่ายประสาทที่ง่ายมากตรงนี้

03:12.620 --> 03:21.320
ง่ายมากเพียงหนึ่งตีในนั้นและวิธีที่เราสามารถเดรัจฉานบังคับวิธีการของเราผ่านเครือข่ายประสาทขนาดนี้

03:21.320 --> 03:24.370
มีการคำนวณทางคณิตศาสตร์ง่ายๆ

03:24.410 --> 03:25.890
เรามี 25 น้ำหนัก

03:25.910 --> 03:30.410
นั่นหมายความว่าหากเรามีชุดค่าผสมหนึ่งพันชุดที่เราจะแก้ปัญหาสำหรับน้ำหนักทุกชุดจำนวนชุดค่าผสมคือ 1,000 ต่อกำลัง

03:30.410 --> 03:37.790
25 หรือหนึ่งพันหรือ 10 หรือ 10 เพื่อแยกชุดค่าผสมห้าชุด

03:37.790 --> 03:49.700
ตอนนี้เรามาดูกันว่าซันมีวิธีอย่างไรในการส่องสว่างซูเปอร์คอมพิวเตอร์ของ Fosse โลกเมื่อเดือนมิถุนายน 2559 ว่ามันจะเข้าใกล้ปัญหานี้อย่างไร

03:49.700 --> 03:52.390
ดังนั้นซันเวย์จึงผูกเน็คไทให้สว่าง

03:52.680 --> 04:00.980
ดูเหมือนว่านี่เป็นอาคารขนาดใหญ่ทั้งสวยมากสำหรับซูเปอร์คอมพิวเตอร์เครื่องนี้และได้รับ Guinness World Record สำหรับการเป็นซูเปอร์คอมพิวเตอร์

04:01.310 --> 04:04.940
Fosses

04:05.210 --> 04:12.620
ตอนนี้มันเป็นซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในโลกและบางวิธีการผูกไฟสามารถทำงานได้ที่ความเร็ว 93 จาก

04:12.620 --> 04:15.420
flops

04:15.510 --> 04:19.900
Flop ย่อมาจากการดำเนินการลอยตัวต่อวินาที

04:19.970 --> 04:23.310
ดังนั้นสามารถทำน้ำมันเก้าสิบสามได้

04:23.340 --> 04:28.010
คูณสิบสู่พลังของการลอยตัว 15 ครั้งต่อวินาที

04:28.100 --> 04:32.340
นั่นเป็นวิธีที่รวดเร็วในการเปรียบเทียบ

04:32.450 --> 04:38.210
คอมพิวเตอร์โดยเฉลี่ยตอนนี้พวกเขาชอบมากกว่า gigaflops และอื่น ๆ

04:38.210 --> 04:41.320
ดังนั้นมันจึงเหมือนกับช่วงเหล่านั้น

04:41.450 --> 04:44.290
น้อยกว่าแสงประเภท TEI Sunway

04:44.390 --> 04:47.950
ทันใดนั้นมันก็เป็นเรื่องโกหกอยู่ในระดับแนวหน้าของเทคโนโลยี

04:48.360 --> 05:09.470
และสมมุติว่ามันสามารถทำการทดสอบหนึ่งชุดหนึ่งรวมกันสี่ชุดบนเครือข่ายของคุณในฟลอปปีดิสก์เดียวและการดำเนินการแบบลอยหนึ่งที่ไม่สามารถทำได้ซึ่งคุณไม่สามารถทำได้เพราะคุณต้องการการทดสอบแบบลอยตัวหลายครั้ง น้อย

05:09.480 --> 05:11.270
แต่ถึงอย่างนั้นเรามาเริ่มกันเลยดีกว่า

05:11.270 --> 05:19.900
สมมติว่ามันสามารถทำได้ในโลกอุดมคติที่สามารถทำได้ในการดำเนินการแบบลอยตัวครั้งเดียวก็สามารถทำการทดสอบหนึ่งครั้งต่อการดำเนินการลอยหนึ่ง

05:20.120 --> 05:23.970
นั่นหมายความว่า Doddridge จะยังคงต้องมีแนวโน้มที่จะห้า

05:24.080 --> 05:34.120
หารด้วยเก้าสิบสามเท่าสิบถึงประมาณ 15 วินาทีเพื่อเข้าทดสอบทั้งหมดเหล่านี้

05:34.130 --> 05:39.860
นั่นหมายความว่าหนึ่งหรือโดยประมาณมีแนวโน้มที่จะใช้พลังงาน 58 วินาทีและนั่นก็เหมือนกับพลังงานของ 50

05:39.860 --> 05:42.120
ปี

05:42.170 --> 05:59.150
นั่นเป็นจำนวนมากที่มีความยาวมากกว่าเอกภพที่มีอยู่และนั่นจะไม่เป็นไปอย่างง่ายดายเพียงแค่จำนวนนี้มีขนาดใหญ่มากมันก็ไม่ได้ทำงานให้กับเราในการเพิ่มประสิทธิภาพของเรา

05:59.150 --> 06:00.020
ดังนั้นเราไปกันเลย

06:00.140 --> 06:01.220
นี่คือไม่ไม่

06:01.220 --> 06:05.450
แม้กระทั่งบนไฟท้ายซูเปอร์คอมพิวเตอร์ Sunway ที่เร็วที่สุดในโลก

06:05.450 --> 06:10.140
ดังนั้นเราต้องหาวิธีที่แตกต่างกันว่าเราจะหาน้ำหนักที่เหมาะสมได้อย่างไร

06:10.310 --> 06:22.740
ด้วยวิธีนี้เครือข่ายประสาทของเรานั้นง่ายมากถ้าเครือข่ายประสาทมีลักษณะเช่นนี้หรือยิ่งใหญ่กว่านั้นใช่มันจะไม่เกิดขึ้นเลย

06:22.760 --> 06:28.490
ดังนั้นวิธีการที่จะดูที่เรียกว่าการไล่ระดับสีและคุณอาจเคยได้ยินมาแล้ว

06:28.580 --> 06:30.770
ถ้าไม่เราจะหาว่ามันคืออะไรตอนนี้

06:30.840 --> 06:43.190
ดังนั้นฟังก์ชั่นค่าใช้จ่ายของเราและตอนนี้เราไปดูว่าเราสามารถส่งเสริมวิธีการที่รวดเร็วขึ้นในการค้นหาตัวเลือกที่ดีที่สุดได้อย่างไร

06:43.190 --> 06:45.920
สมมติว่าเราเริ่มต้นที่ไหนสักแห่งที่คุณกำลังจะเริ่มต้นที่ไหนสักแห่ง

06:45.920 --> 06:47.390
ดังนั้นเราเริ่มต้นตรงนั้น

06:47.390 --> 07:02.090
และจากจุดนั้นที่มุมบนซ้ายสิ่งที่เราจะทำคือเราจะดูมุมของฟังก์ชันต้นทุนของเราตรงจุดนั้น

07:02.150 --> 07:04.190
เราจะไม่ดูสมการทางคณิตศาสตร์

07:04.250 --> 07:09.370
เราจะให้คำแนะนำในการอ่านเพิ่มเติมในตอนท้ายของการบรรยายครั้งต่อไป

07:09.740 --> 07:19.330
แต่โดยพื้นฐานแล้วคุณแค่ต้องแยกความแตกต่างค้นหาว่าความชันอยู่ตรงจุดใดและหาว่าความชันนั้นเป็นบวกหรือลบ

07:19.450 --> 07:27.350
ถ้าหากความชันเป็นลบเช่นในกรณีนี้หมายความว่าคุณกำลังตกต่ำดังนั้นทางด้านขวาจะลงเนินไปทางซ้ายเป็นทางขึ้นเขา

07:27.350 --> 07:29.780
และจากที่นั่นหมายความว่าคุณต้องไปทางขวา

07:29.780 --> 07:31.510
โดยทั่วไปคุณต้องลงเขา

07:31.670 --> 07:33.070
และนั่นคือสิ่งที่เรากำลังจะทำ

07:33.090 --> 07:35.510
บูมก้าวไปข้างหน้า

07:35.510 --> 07:37.450
ลูกบอลกลิ้งลงมาอีกครั้ง

07:37.460 --> 07:38.300
สิ่งเดียวกัน

07:38.390 --> 07:46.560
คุณคำนวณความชันและความชันเป็นบวกความหมายของนักเขียนทางซ้ายขึ้นและลงคุณต้องไปทางซ้าย

07:46.790 --> 07:54.900
และอีกครั้งที่คุณคำนวณความชันและคุณก็อยู่ในนั้นได้แล้วนั่นคือวิธีที่คุณค้นหาในแง่ง่าย

07:55.040 --> 08:04.520
ๆ นั่นคือวิธีที่คุณจะได้พบกับการรอคอยที่ดีที่สุดสถานการณ์ที่ดีที่สุดที่ลดฟังก์ชันต้นทุนของคุณ

08:04.590 --> 08:14.970
แน่นอนว่ามันจะไม่เหมือนกับการกลิ้งลูกบอลจะเป็นวิธีการแบบซิกแซกมาก แต่มันง่ายกว่าที่จะจดจำหรือชนิดของมันสนุกกว่าที่จะมองว่ามันเป็นลูกบอลกลิ้ง

08:14.970 --> 08:21.920
แต่ในความเป็นจริงใช่แล้วคุณก็จะเป็นเหมือนวิธีการทีละขั้นตอนจะเป็นวิธีการซิกแซก

08:22.050 --> 08:25.020
ใช่แล้วยังมีองค์ประกอบอื่นอีกมากมาย

08:25.050 --> 08:41.950
มีหลายสิ่งหลายอย่างเช่นทำไมทำไมมันถึงลงไปทำไมมันไม่ไปทางเหนือเส้นเพื่อให้มันสามารถกระโดดออกมาจากด้านบนขึ้นด้านบนแทนที่จะเป็นด้านล่างและแบบนี้ดังนั้นจึงมีพารามิเตอร์ที่คุณสามารถปรับแต่งได้

08:41.970 --> 08:45.570
และอีกครั้งเราจะพูดถึงที่ที่คุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนั้น

08:45.580 --> 08:51.770
และบวกกับเราจะมีสิ่งนี้ในแอปพลิเคชั่นที่ใช้งานได้จริง แต่ในวิธีที่ใช้งานง่ายที่สุดนี่คือสิ่งที่เกิดขึ้น

08:51.780 --> 08:56.670
เราไปถึงจุดต่ำสุดโดยเพียงแค่ทำความเข้าใจว่าเราต้องไปทางไหน

08:56.700 --> 09:02.920
แทนที่จะเป็นสัตว์เดรัจฉานบังคับให้ผ่านพันและพันและล้านและพันล้านและ quadrillions ของชุดค่าผสม

09:03.030 --> 09:11.690
เราสามารถเพียงแค่ทุกครั้งที่ได้ดูว่ามันอยู่ที่ไหนที่มันลาดชันเหมือนคุณหรือคุณจินตนาการว่าคุณกำลังยืนอยู่บนเนินเขา

09:11.700 --> 09:15.870
วิธีใดรู้สึกว่ามันกำลังลงและไม่ว่าจะลงไปทางไหนและคุณก็เดินไปเรื่อย ๆ

09:15.870 --> 09:21.470
ในแบบที่คุณชอบเดินไป 50 ก้าวแล้วคุณประเมินอีกครั้ง

09:21.500 --> 09:24.620
ตกลงและฉันจะใช้ขั้นตอน 50 หรือน้อยกว่าใช้ขั้นตอนที่ 40

09:24.690 --> 09:28.160
ดังนั้นมันจึงน้อยลงเรื่อย ๆ เมื่อคุณเข้าใกล้

09:28.530 --> 09:32.720
นี่คือตัวอย่างของการลดลงของการไล่ระดับสีที่ใช้ในพื้นที่สองมิติ

09:32.720 --> 09:36.450
นั่นคือตัวอย่างหนึ่งมิติ

09:36.570 --> 09:53.430
ที่นี่เรามีช่องว่างสองมิติสำหรับการไล่ระดับสีตามที่คุณเห็นว่ามันเข้าใกล้ขั้นต่ำที่สุดและมันก็เรียกว่าการไล่ระดับสีแบบลาดชันเพราะคุณกำลังลดระดับลงมาที่ฟังก์ชันค่าใช้จ่ายขั้นต่ำและพบว่าเขามีการไล่ระดับสี มิติ

09:53.430 --> 09:59.600
นี่คือสิ่งที่ดูเหมือนว่าหากคุณฉายภาพลงบนมิติที่สองคุณสามารถเห็นคดเคี้ยวไปมาจนสุด

09:59.700 --> 10:03.810
คุณไปที่นั่นหรือไม่ว่ามันคือดัชนีการไล่ระดับสีของ Tauriel เราจะพูดถึง stochastic

10:03.810 --> 10:06.850
การไล่ระดับสีเป็นความต่อเนื่องของบทช่วยสอนนี้

10:07.020 --> 10:08.720
และฉันหวังว่าจะได้พบคุณที่นั่น

10:08.740 --> 10:10.610
ดังนั้นในครั้งต่อไปจึงเพลิดเพลินไปกับการเรียนรู้อย่างลึกซึ้ง
