WEBVTT

00:00.650 --> 00:05.690
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรในฉันฉันในส่วนก่อนหน้านี้เราพูดคุยเกี่ยวกับสัญชาตญาณ Killary

00:05.750 --> 00:08.360
การเรียนรู้ลึกที่เราเริ่ม

00:08.360 --> 00:18.200
และในความเป็นจริงเราได้ไปถึงส่วนนี้และที่เราพูดคุยเกี่ยวกับการเรียนรู้และตอนนี้เรากำลังจะไปยังส่วนการแสดงจริง

00:18.200 --> 00:22.250
มีสองส่วนที่แตกต่างกันที่เราต้องจำ

00:22.250 --> 00:25.520
นั่นคือส่วนการเรียนรู้ แต่ตอนนี้เขาจริง ๆ แล้วเขาทำทั้งหมดนี้

00:25.520 --> 00:26.390
นั่นเป็นสิ่งที่สวยงาม

00:26.390 --> 00:31.710
ตอนนี้จริง ๆ แล้วเขาต้องทำการกระทำที่เขาต้องตัดสินใจว่าเขาจะทำอะไรกำลังจะทำการกระทำหนึ่งสองสามหรือสี่

00:31.740 --> 00:32.860
แล้วเขาจะทำอย่างไร

00:33.020 --> 00:39.370
อย่างที่เขาทำตอนนี้ได้รับค่าเดียวกันเหล่านั้นดังนั้นค่าจะไม่เปลี่ยนแปลงหลังจากเราเรามีค่าเหล่านี้เพื่อเปรียบเทียบพวกเขากับ Calcott

00:39.370 --> 00:45.950
สองอันสุดท้ายตามยุคสมัยเราได้อัปเดตน้ำหนัก แต่ค่าไม่ได้ การเปลี่ยนแปลงในกระบวนการทั้งหมดนั้น

00:45.990 --> 00:47.410
เพื่อให้ได้ค่าลูกบาศก์ที่นั่น

00:47.430 --> 00:48.380
พวกเขากำลังแก้ไข

00:48.380 --> 00:49.440
เรารู้ว่าพวกเขาคืออะไร

00:49.440 --> 00:50.480
ทั้งหมดนี้เกิดขึ้นแม้ว่า

00:50.510 --> 00:53.820
เครือข่ายอัปเดตและออกโดยใช้ค่าเดียวกับที่เรามี

00:53.960 --> 00:58.600
สิ่งที่เราจะทำคือเราจะแยกพวกมันผ่านฟังก์ชั่น soft max

00:58.610 --> 01:00.580
และอ่อนนุ่มสูงสุดอีกครั้งตามที่อธิบายไว้

01:00.620 --> 01:05.160
ฉันคิดว่าภาคผนวก 2 และเราจะพูดถึงอีกเล็กน้อยเกี่ยวกับ soft max

01:05.180 --> 01:12.070
เพิ่มเติมในหรือเราจะพูดคุยเกี่ยวกับนโยบายการเลือกการกระทำนี้ลงในส่วนที่เหลือของส่วนนี้

01:12.140 --> 01:13.610
ดังนั้นในบทเรียนเพียงไม่กี่

01:13.730 --> 01:17.270
แต่สำหรับตอนนี้เราแค่บอกว่าเราส่งผ่านฟังก์ชั่นต่อไปที่นุ่มนวล

01:17.270 --> 01:22.150
โดยพื้นฐานแล้วสิ่งที่ทำคือช่วยให้สามารถเลือกสิ่งที่ดีที่สุดได้

01:22.250 --> 01:23.650
และมีข้อแม้เล็ก ๆ

01:23.660 --> 01:26.120
มันไม่ใช่แค่สิ่งที่ดีที่สุดเท่าที่จะเป็นไปได้

01:26.120 --> 01:28.940
เราจะพูดถึงเรื่องนี้ในการสอนการเลือกนโยบายการดำเนินการ

01:28.940 --> 01:35.890
แต่สำหรับตอนนี้สมมติว่ามันเลือกการกระทำที่ดีที่สุดจากที่นี่มันบอกว่าตกลงเพื่อ Q1 คุณรู้ว่าโอกาส

01:36.140 --> 01:41.960
โดยทั่วไปเรารู้ว่าค่า q ทำนายค่า Q เพื่อให้สามารถดูได้และพูดว่าตกลงดังนั้นค่า Q

01:41.960 --> 01:46.280
สูงสุดของสิ่งเหล่านี้เช่นเดียวกับที่เราทำในอัลกอริทึมการเรียนรู้ Q ง่าย

01:46.280 --> 01:50.860
ฉันแค่ดูที่ทั้งหมดนี้เพื่อบอกว่าค่าสูงสุดตัวนี้ฉันจะเลือกการกระทำที่เราจะรับ

01:50.900 --> 01:52.180
และนั่นมันสวยมาก

01:52.220 --> 01:57.300
นั่นคือวิธีที่เขาเลือกว่าการกระทำใดที่จะทำและจากนั้นกระบวนการทั้งหมดนี้จะเกิดขึ้นอีกครั้ง

01:57.290 --> 02:02.120
สำหรับขั้นตอนต่อไปตัวแทนจะสิ้นสุดลงในกรณีของเราและจัตุรัสถัดไปของเขาวงกต

02:02.120 --> 02:04.540
แต่โดยทั่วไปแล้วการพูดในสถานะต่อไป

02:04.640 --> 02:05.420
ดังนั้นเราไปกันเลย

02:05.420 --> 02:16.160
นั่นคือวิธีที่เราป้อนในปัญหาการเรียนรู้การเสริมแรงเข้าสู่เครือข่ายประสาทผ่านเวกเตอร์ที่อธิบายถึงสถานะที่เราเข้ามา

02:16.160 --> 02:17.510
และเมื่อเราพอดี

02:17.510 --> 02:22.210
มีสองส่วนของกระบวนการที่เกิดขึ้นส่วนที่หนึ่งคือการเรียนรู้

02:22.400 --> 02:34.830
ดังนั้นโปรดจำไว้ว่าส่วนที่เราเปรียบเทียบค่าคิวแต่ละค่ากับเป้าหมายแล้วเรากลับเผยแพร่การสูญเสียผ่านเครือข่ายเพื่ออัปเดตน้ำหนักเพื่อให้เครือข่ายของเราเรียนรู้เมื่อเราผ่านเขาวงกตนี้หรือผ่านสภาพแวดล้อมนี้

02:35.210 --> 02:41.120
และส่วนที่สองคือแน่นอนว่าเราต้องทำหน้าที่เราต้องเลือกการกระทำและนั่นคือสิ่งที่เราส่งค่าผ่านฟังก์ชั่น

02:41.120 --> 02:48.330
soft max และหรือโดยทั่วไปคือนโยบายการเลือกการกระทำที่เราจะพูดถึงต่อไป

02:48.470 --> 02:54.580
จากนั้นเราก็เลือกการกระทำที่เราต้องการและเราทำการกระทำนั้นแล้วกระบวนการทั้งหมดนี้จะเริ่มขึ้นอีกครั้ง

02:54.770 --> 02:59.570
และจากนั้นอาจได้รับตัวแทนแล้วบางทีตัวแทนไม่ได้หยุดเกม

02:59.630 --> 03:01.250
ไม่ว่าในกรณีใดเกมจะจบลง

03:01.250 --> 03:16.680
และจากนั้นอีกครั้งกระบวนการทั้งหมดจะทำซ้ำเอเจนต์จะเล่นทั้งเกมอีกครั้งแล้วหยุดโดยทั่วไปนั่นคือสนามบินอีกแห่งหนึ่งทุกครั้งที่เอเจนต์ที่คุณรู้จักทุกครั้งที่เกมจบลงด้วยความโปรดปรานเหนือแฟร์นี่

03:16.700 --> 03:19.560
จากนั้นเขาก็เริ่มใหม่อีกครั้งจากนั้นเขาก็เริ่มอีกครั้งและจากนั้นเขาก็เริ่มอีกครั้ง

03:19.790 --> 03:20.420
และอื่น ๆ

03:20.420 --> 03:33.020
ดังนั้นสิ่งนี้จึงเกิดขึ้นและกระบวนการนี้เกิดขึ้นทุกครั้งที่ตัวแทนอยู่ในสถานะใหม่ของคุณดังนั้นสถานะจะถูกเข้ารหัสที่นี่ดังนั้นสิ่งสำคัญไม่ใช่เพียงสำหรับทุกเกมที่เขาเล่น แต่สำหรับทุกรัฐ

03:33.020 --> 03:38.030
ดังนั้นเขาจึงอยู่ในสถานะที่ต้องผ่านกระบวนการของเขาและอื่น ๆ และเกิดขึ้นทุกครั้ง

03:38.150 --> 03:41.410
ดังนั้นการเรียนรู้จึงเกิดขึ้นและการแสดงก็เกิดขึ้นเช่นกัน

03:41.720 --> 03:47.090
นั่นคือการเรียนรู้อย่างลึกซึ้งในสัญชาตญาณที่อยู่เบื้องหลังการเรียนรู้ลึก

03:47.090 --> 03:56.720
เรามีจำนวนมากขึ้นที่จะปิดและแน่นอนในทางปฏิบัติและในระหว่างนี้หากคุณต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับการเรียนรู้อย่างต่อเนื่อง

03:56.720 --> 04:05.200
เราได้รับการแนะนำให้อ่านดังนั้นเราจึงได้พูดเกี่ยวกับบทความบล็อกของ Arthur Giuliani แล้ว

04:05.210 --> 04:14.260
หากคุณดูการเรียนรู้อย่างไม่เป็นทางการตอนที่ 4 ของโฟลตันคุณจะพบส่วนที่เกี่ยวข้องกับสิ่งที่เราพูดถึงในวันนี้

04:14.270 --> 04:23.650
โปรดทราบว่าที่นี่เขาพูดถึงการโน้มน้าวใจที่เราไม่ได้ครอบคลุมถึงการปฏิวัติในส่วนนี้เราจะพูดถึงพวกเขาในส่วนถัดไปของหลักสูตร

04:23.720 --> 04:32.850
ดังนั้นความแตกต่างที่นี่ก็คือมันเป็นเพียงแค่ข้ามข้อสรุปตอนนี้และเราจะพูดถึงพวกเขาในส่วนต่อไปของหลักสูตร แต่ความแตกต่างในการวิวัฒนาการ

04:32.850 --> 04:39.170
คุณดูเหมือนว่าตัวแทนมองภาพและดังนั้นเขาจึงต้องดำเนินการกับภาพความยุ่งยากเพิ่มเติมสำหรับตอนนี้ที่เราค่อย ๆ

04:39.170 --> 04:43.540
สร้างมันขึ้นมา

04:43.580 --> 04:58.700
สำหรับตอนนี้เรากำลังเข้ารหัสสภาพแวดล้อมของเราผ่านคุณดูที่นี่เรากำลังเข้ารหัสสภาพแวดล้อมของเราหรืออาจจะดูที่สิ่งนี้อาจเป็นการเข้ารหัสสภาพแวดล้อมของเราในฐานะที่เป็นหรือในการระบุตัวแทนอยู่ในฐานะเวกเตอร์

04:58.700 --> 05:01.330
ในกรณีของเราคือเวกเตอร์ค่าง่าย ๆ

05:01.490 --> 05:06.190
บางครั้งผู้คนถึงกับเป็นแบบนั้นในบางครั้งอาจจะหรือตามที่คุณเห็นจากโพสต์บล็อกนี้

05:06.290 --> 05:10.180
บางครั้งคนชอบรุ่นที่ร้อนและรหัสของรัฐนั้น

05:10.180 --> 05:13.380
ดังนั้นโดยทั่วไปที่เขาวงกตทุกกล่องมี

05:13.620 --> 05:17.780
คุณมีเวกเตอร์ของสำหรับกรณีว่างจะเป็น 12 ค่าสามต่อสี่

05:17.800 --> 05:22.130
ดังนั้นจึงไม่เหมือนทั้ง 1 หรือ 0 ขึ้นอยู่กับองค์ประกอบและกล่องที่คุณอยู่

05:22.160 --> 05:22.990
ในสภาพแวดล้อม

05:23.060 --> 05:31.520
ดังนั้นในวิธีใดก็ตามที่คุณตัดสินใจที่จะเขียนโค้ดสภาพแวดล้อมและสถานะของสภาพแวดล้อมของคุณนั่นคือวิธีในการเขียนโค้ด

05:31.520 --> 05:37.810
กุญแจสำคัญในที่นี้คือมันไม่ใช่การสนทนาดังนั้นจึงไม่เหมือนภาพและไม่มีโวลต์การสนทนาดังนั้นส่วนนี้จะมาในภายหลัง

05:37.820 --> 05:43.410
สำหรับพวกเรามันเริ่มต้นตรงนี้แล้วมันทำให้กระบวนการง่ายขึ้นสำหรับเราที่จะค่อยๆเข้าใจดีขึ้น

05:43.550 --> 05:50.090
และแน่นอนอย่าลืมว่าโพสต์นี้หยาบคายและมีแนวโน้มไหลและเราใช้ pi torche ในแบบฝึกหัดของเรา

05:50.090 --> 05:51.910
หวังว่าคุณจะสนุกกับเรื่องนี้

05:51.920 --> 05:59.220
บทนำอย่างรวดเร็วในการเรียนรู้เชิงลึกที่ลึกล้ำ

05:59.310 --> 06:02.910
และในบันทึกนั้นฉันหวังว่าจะได้พบคุณต่อไป

06:02.930 --> 06:05.430
และเพลิดเพลินไปกับปัญญาประดิษฐ์