WEBVTT

00:00.510 --> 00:02.990
สวัสดีและยินดีต้อนรับสู่การสอน Python นี้

00:03.240 --> 00:08.400
เอาล่ะตอนนี้เรากำลังจะทำหน้าที่ส่งต่อซึ่งจะแพร่กระจายสัญญาณส่งออกของสมองของเราไปยังร่างกายของ AI

00:08.400 --> 00:13.550
เพื่อที่จะเล่นการกระทำที่เหมาะสมในการเข้าถึงเสื้อกั๊ก

00:13.770 --> 00:20.100
แต่ยังไม่มีปฏิกิริยาตอบสนองเนื่องจากยังไม่มีการฝึกอบรมที่เรายังไม่ได้ฝึก AI แต่นี่เป็นสิ่งที่เราจะทำเพื่อนำไปใช้ใน curin

00:20.100 --> 00:25.920
เชิงลึกซึ่งโดยวิธีที่ฉันจะเปลี่ยนชื่อฝึกอบรม AI กับ Killary

00:25.920 --> 00:29.720
เชิงลึก

00:29.940 --> 00:35.340
แต่ตอนนี้เราต้องส่งสัญญาณจากชั้นส่งออกของสมองไปยังร่างกาย

00:35.370 --> 00:40.670
และนั่นคือสิ่งที่เราจะทำกับฟังก์ชันส่งต่อซึ่งเป็นหน้าที่สุดท้ายของร่างกายของเรา

00:41.420 --> 00:42.860
ลองทำสิ่งนี้กัน

00:42.860 --> 00:50.140
เราเริ่มต้นด้วย Teff ไปข้างหน้าและตามที่คุณจะขัดแย้งกัน

00:50.330 --> 00:55.030
ทีนี้มันจะบังคับตัวเองก่อนแล้วก็อีกอันนึง

00:55.220 --> 00:56.740
ใช่มี

00:56.870 --> 00:58.140
และมันจะเป็นอะไร

00:58.310 --> 01:07.470
ตามธรรมชาติแล้วเราต้องการส่งสัญญาณออกของสมองไปยังร่างกายดังนั้นสัญญาณจะเป็นสัญญาณส่งออกของสมอง

01:07.850 --> 01:10.480
ดังนั้นตอนนี้เราต้องตั้งชื่อให้สัญญาณภายนอกเหล่านี้

01:10.610 --> 01:14.390
ดังนั้นฉันจะเพิ่มที่นี่อาร์กิวเมนต์ออกวาง

01:14.460 --> 01:21.200
ถูกต้องเพื่อให้สอดคล้องกับสัญญาณส่งออกของสมองหลังจากภาพอินพุตถูกแพร่กระจายผ่านสมองทั้งหมดเพื่อให้ได้ผลลัพธ์ในภายหลังซึ่ง X

01:21.200 --> 01:27.170
คือผลตอบแทนที่ได้จากการทำงานไปข้างหน้าของสมอง

01:27.380 --> 01:35.410
และตอนนี้สัญญาณส่งออกของสมองจะถูกส่งต่อไปยังร่างกายด้วยฟังก์ชั่นการส่งต่อใหม่ที่เราทำในชั้นถัดไป

01:35.460 --> 01:43.940
ลองทำเพิ่มสีเข้าไปที่นี่และตอนนี้เมื่อคุณเข้าใจแล้วเราจะใช้วิธีการต่อไปที่โซดเพื่อเล่นแอ็คชั่น

01:43.940 --> 01:51.440
นั่นหมายความว่าร่างกายของ AI ของเราหลังจากได้รับสัญญาณจากสมองจะเล่นการกระทำด้วยเทคนิคต่อไป

01:51.440 --> 01:56.510
ตอนนี้โดยทั่วไปสิ่งที่เราต้องทำก็เหมือนกับสิ่งที่เราทำกับรถ

01:56.600 --> 01:59.390
เราจะได้การแจกแจงความน่าจะเป็น

01:59.540 --> 02:05.960
นั่นคือขั้นตอนแรกจากนั้นเราจะสุ่มตัวอย่างการกระทำตามการแจกแจงความน่าจะเป็นนี้

02:05.960 --> 02:14.570
ดังนั้นโดยทั่วไปสิ่งที่เราสามารถทำได้ตอนนี้คือรับไฟล์รถยนต์ขับเคลื่อนด้วยตนเองของเราและคัดลอกวางสิ่งที่เรานำไปใช้กับการเลือกใช้งานจริงในรถยนต์ขับเคลื่อนด้วยตนเอง

02:14.810 --> 02:15.700
แต่ขอทำอีกครั้ง

02:15.710 --> 02:19.710
มันจะเป็นการฝึกฝนที่ดีและจริง ๆ แล้วคุณสามารถลองพิมพ์มันต่อหน้าฉันได้

02:20.150 --> 02:23.870
ตกลงก่อนอื่นสิ่งที่เราจะทำคือรับความน่าจะเป็นของเรา

02:23.870 --> 02:31.790
ดังนั้นฉันจึงเตือนว่านี่เป็นการกระจายความน่าจะเป็นสำหรับค่า q แต่ละค่าซึ่งขึ้นอยู่กับอิมเมจอินพุตและแต่ละแอ็คชัน

02:31.790 --> 02:38.120
ดังนั้นเราจึงมีค่าหนึ่งที่สำคัญสำหรับแต่ละการกระทำที่เป็นไปได้หกหรือเจ็ดและดังนั้นเราจึงได้รับการกระจายของความน่าจะเป็นเจ็ดแล้ว 7

02:38.120 --> 02:43.600
เพราะฉันคิดว่ามีเจ็ดการกระทำแทนที่จะเป็นหก

02:43.670 --> 02:50.010
เพราะนอกจากการเลื่อนไปทางซ้ายขวาหรือการถ่ายภาพเรายังสามารถเรียกใช้ที่ทำให้เกิดเจ็ดการกระทำที่เป็นไปได้ดังนั้นเราจึงได้รับการแจกแจงความน่าจะเป็นที่เจ็ดหนึ่งสำหรับแต่ละค่า

02:50.420 --> 02:57.260
q ที่เกี่ยวข้องกับการกระทำแต่ละอย่าง

02:57.260 --> 02:58.930
Propst เท่ากับ

02:59.040 --> 03:00.670
และตอนนี้จำสิ่งที่เราต้องทำ

03:00.860 --> 03:06.650
โดยพื้นฐานแล้วเราต้องใช้ฟังก์ชันสูงสุด soughed จากโมดูลการทำงาน

03:06.680 --> 03:13.700
นั่นง่ายมากที่เราจะใช้โมดูลการทำงานของเราก่อนจากนั้นทำและจากนั้นเราก็จะทำหน้าที่ต่อไปของเรา

03:13.700 --> 03:14.480
นี่มันคือ

03:14.570 --> 03:25.290
เรากด enter และตอนนี้เราใส่อาร์กิวเมนต์ของฟังก์ชันถัดไปซึ่งฉันเตือนว่าเป็นองค์ประกอบที่คุณต้องการสร้างการแจกแจงความน่าจะเป็น

03:25.550 --> 03:30.560
และนั่นก็คือค่า q ที่เป็นผลลัพธ์ของโครงข่ายประสาท

03:30.680 --> 03:35.830
นั่นคือผลลัพธ์ของโครงข่ายประสาทที่คุณต้องการสร้างการแจกแจงความน่าจะเป็น

03:35.990 --> 03:41.270
ตอนนี้เตือนเราว่าเราต้องการสร้างการกระจายตัวของความน่าจะเป็นนี้เพื่อให้สามารถสำรวจการกระทำที่แตกต่างกันแทนที่จะเลือกสิ่งที่มีค่า Q

03:41.270 --> 03:45.760
สูงสุดโดยตรง

03:46.010 --> 03:51.020
หากเราเลือกหนึ่งโดยตรงที่มีค่า Q สูงสุดที่เราไม่ได้สำรวจการกระทำอื่น ๆ

03:51.350 --> 03:52.650
มากและเราอาจจะพลาดบางสิ่งบางอย่าง

03:52.880 --> 04:01.520
แต่ด้วยวิธีการถัดไปที่ทำให้แห้งเราสามารถทำการสำรวจเพิ่มเติมและดังนั้นอาจจะหาวิธีการแก้ปัญหาที่ซ่อนอยู่ในรูปแบบที่อาจจะดีกว่ามาก

04:01.850 --> 04:09.560
ดังนั้นอีกครั้งฉันขอแนะนำสิ่ง Nax แล้วจากนี้สิ่งที่เราต้องทำคือการป้อนค่าที่เป็นผลลัพธ์ของเราที่นี่

04:09.560 --> 04:13.860
ผลลัพธ์ของสมองของเราดังนั้นเอาท์พุทที่เราไป

04:13.970 --> 04:21.710
แต่เรามีพารามิเตอร์อุณหภูมินี้ที่เราสามารถใช้เพื่อกำหนดค่าการสำรวจ

04:21.710 --> 04:28.130
โปรดจำไว้ว่ายิ่งเราตั้งค่าอุณหภูมิมากเท่าไรการสำรวจอื่น ๆ

04:28.130 --> 04:35.910
ที่น้อยลงจะทำเพราะการกระทำที่ดีที่สุดจะถูกเลือกด้วยความน่าจะเป็นที่สูงขึ้นเมื่อเทียบกับการกระทำอื่น ๆ ซึ่งจะถูกเลือกด้วยความน่าจะเป็นต่ำกว่า

04:35.930 --> 04:53.220
มันเหมือนกับในรถและเราต้องคูณผลลัพธ์ที่นี่ด้วยพารามิเตอร์อุณหภูมิของเราที่เราสมบูรณ์แบบตอนนี้เราได้รับคำเตือนเล็กน้อยเพราะเรายังไม่ได้ใช้ preps

04:53.260 --> 04:55.540
และนั่นจะนำเราไปสู่สิ่งต่อไปที่เราต้องทำ

04:55.540 --> 04:57.750
เราจะใช้ความน่าจะเป็นเหล่านี้ได้อย่างไร

04:57.910 --> 05:12.080
ทีนี้เราจะสุ่มตัวอย่างการกระทำขั้นสุดท้ายเพื่อเล่นจากการกระจายตัวของความน่าจะเป็นนี้และสิ่งที่เราต้องทำตอนนี้คือใช้ฟังก์ชันมัลติโนเมียลเพื่อสุ่มตัวอย่างการกระทำตามการแจกแจงความน่าจะเป็นนี้

05:12.370 --> 05:15.030
ดังนั้นตอนนี้เราพร้อมที่จะรับการกระทำของเราแล้ว

05:15.190 --> 05:21.490
ดังนั้นฉันจึงสร้าง Voivode ใหม่ที่นี่เพราะนั่นจะเป็นการกระทำที่ร่างกายของ AI ของเราเล่น

05:21.520 --> 05:31.480
ทีนี้เราก็ใช้การแจกแจงความน่าจะเป็นที่เราเพิ่มจุดแล้วก็เป็นวิธีปกติหลายค่า

05:32.220 --> 05:38.030
ถูกต้องและตอนนี้เราได้รับการกระทำสุดท้ายของเราที่จะเล่นที่นั่นประกอบจากการกระจายอุปกรณ์ของเรา

05:38.430 --> 05:39.570
โอเคสมบูรณ์แบบ

05:39.570 --> 05:42.300
ดังนั้นตอนนี้เราพร้อมที่จะคืนสิ่งที่เราต้องการ

05:42.360 --> 05:44.450
นั่นคือการกระทำที่จะเล่น

05:44.670 --> 05:48.720
และนี่คือการกระทำที่แน่นอนและตอนนี้คำเตือนควรหายไป

05:48.840 --> 05:50.440
เราใช้ทุกสิ่งที่เราต้องการ

05:50.460 --> 05:51.270
เราจะไปที่นั่น.

05:51.270 --> 05:52.020
สมบูรณ์

05:52.210 --> 05:53.950
ดังนั้นตอนนี้ฟังก์ชั่นการส่งต่อก็พร้อมใช้งาน

05:54.080 --> 05:55.740
และขอแสดงความยินดี

05:55.800 --> 05:57.300
ร่างกายก็พร้อม

05:57.540 --> 05:59.070
ตอนนี้เรามีสมองแล้ว

05:59.190 --> 06:05.760
เรามีร่างกายของเราและดังนั้นเราจึงพร้อมที่จะรวมตัวกันเพื่อสร้างอนาคตของ AI ในอนาคต AI

06:05.760 --> 06:08.900
ของเราในอนาคตฉันจะประกอบไปด้วยสมองและร่างกาย

06:08.970 --> 06:16.610
และดังนั้นจึงเป็นสิ่งที่มีสติปัญญาและร่างกายในการเล่นการกระทำซึ่งจะเป็นการกระทำที่ถูกต้องในการเล่นต้องขอบคุณสติปัญญาของมัน

06:16.620 --> 06:25.180
แต่จำไว้ก่อนที่เราจะต้องฝึกสติปัญญาและนั่นคือสิ่งที่เราจะทำในการฝึกสายตาด้วยการเรียนรู้ที่สนุกสนาน

06:25.200 --> 06:25.500
เอาล่ะ

06:25.500 --> 06:28.470
งั้นลองสร้าง AI ในความเหน็ดเหนื่อย

06:28.490 --> 06:31.810
มันจะเป็นคลาสที่มีฟังก์ชั่นสองอย่างที่ฉันคิด

06:31.950 --> 06:34.510
ดังนั้นอันนี้ต้องใช้สองหรือสามบทเรียน

06:34.680 --> 06:35.660
ดังนั้นฉันรอไม่ไหว

06:35.670 --> 06:36.780
มันจะน่าตื่นเต้น

06:36.780 --> 06:37.930
และจนกว่าจะถึงตอนนั้น