WEBVTT

00:00.660 --> 00:03.540
สวัสดียินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.540 --> 00:09.500
ในบทช่วยสอนของวันนี้เราจะปกปิดการสอนที่ซับซ้อนที่เรียกว่าการมีสิทธิ์ติดตามหรือและขั้นตอน

00:09.500 --> 00:14.970
ถามการเรียนรู้และนี่คือสิ่งที่ฉันจะนำไปใช้ในทางปฏิบัติของสิ่งต่าง

00:14.970 --> 00:24.880
ๆ ดังนั้นเราจึงจำเป็นต้องออกมาและที่ศูนย์มันเป็นหัวข้อที่ค่อนข้างซับซ้อนดังนั้นเราจึงมีวิธีการที่น่าสนใจมากในการทำให้เราเร่งความเร็วด้วย สัญชาตญาณที่อยู่เบื้องหลัง

00:24.890 --> 00:30.560
ดังนั้นฉันจึงชอบแนวทางที่แตกต่างในใจมากกว่าที่เราคุ้นเคยเพื่อดูอย่างง่าย ๆ และดูว่ามันจะไปอย่างไร

00:30.780 --> 00:34.190
ดังนั้นฉันต้องการให้คุณตัวอย่างเพื่อเริ่มต้นด้วย

00:34.260 --> 00:39.990
ฉันจะให้คุณตัวอย่างในการกวดวิชานี้และที่จะแสดงให้เห็นถึงพลังของการมีสิทธิ์

00:40.020 --> 00:42.470
และทำให้เรามีสัญชาตญาณเบื้องหลังสิ่งต่าง ๆ

00:42.540 --> 00:49.210
และถ้าคุณชอบที่จะเจาะลึกถึงคุณสมบัติที่เหมาะสมเพิ่มเติมฉันจะให้สถานที่ที่ดีที่สุดที่คุณสามารถอ่านได้

00:49.290 --> 00:52.560
ฉันจะให้คุณอ้างอิงถึงหนังสือ แต่อย่างอื่น

00:52.560 --> 01:01.580
ดังนั้นในขณะที่สิ่งนี้จะแตกต่างกันเพราะเราเข้าสู่มันก่อนแทนที่จะเจาะลึกลงไปในสัญชาตญาณเราจะดูตัวอย่างและสัญชาตญาณชัดเจนหลังจากเราพูดถึง

01:01.580 --> 01:03.010
และนั่นคือความหวังของฉัน

01:03.130 --> 01:03.860
ดังนั้นเรามาดู

01:03.860 --> 01:06.000
เรามาดูกันว่าเราสามารถทำสิ่งนี้ได้ไหม

01:06.000 --> 01:13.740
ดังนั้นที่นี่เรามีตัวแทนสองคนและพวกเขากำลังสำรวจสภาพแวดล้อมเดียวกันและเราจะดูว่าตัวแทนสองคนนี้ทำงานอย่างไร

01:13.740 --> 01:16.260
สิ่งแรกคือการทำงานกับการมีสิทธิ์ติดตามของเรา

01:16.260 --> 01:24.450
อันที่สองจะทำงานร่วมกับการติดตามอย่างผิดกฎหมายและหวังว่าเราจะเห็นว่าทำไมอันที่สองจะมีประสิทธิภาพมากกว่าอันแรก

01:24.630 --> 01:26.240
ดังนั้นเรามาดู

01:26.250 --> 01:28.040
เราจะดูที่ตัวแทนนี้ก่อน

01:28.320 --> 01:34.170
และวิธีการทำงานของเขาเป็นวิธีที่แน่นอนที่เราได้พูดถึงสิ่งที่วงกลมลึกจนถึง

01:34.530 --> 01:40.230
ดังนั้นตัวแทนกำลังจะก้าวไปหรือกำลังจะย้ายทำการเคลื่อนไหวเข้าสู่สถานะใหม่

01:40.260 --> 01:50.610
สิ่งที่ดีที่จะได้รับรางวัลแน่นอนคือการทำให้ผ่านหรือผ่านอัลกอริทึมของการปรับปรุงเครือข่ายประสาทที่ใช้ตัวแทนนี้หรือที่ทำงานอยู่ในใจของตัวแทนนี้

01:50.610 --> 01:54.870
นั่นเป็นเพียงวิธีการเรียนรู้จากช่วงเวลานั้นจะเป็นขั้นตอนใหม่

01:54.870 --> 01:59.550
ดังนั้นจากสถานะใหม่นี้จะมีการดำเนินการใหม่ตามสิ่งที่เครือข่ายประสาทของมันกำลังบอกให้ทำคือจะได้รับรางวัลที่จะได้รับการอัพเดทและอื่น ๆ

01:59.550 --> 02:03.930
และจะทำเช่นนั้นต่อไป

02:03.930 --> 02:09.370
เห็นได้ชัดว่านี่จะเป็นงานที่ดีมากและอย่างที่เราได้เห็นก่อนหน้านี้จาก Squire

02:09.400 --> 02:15.450
ที่ใช้งานจริงไปจนถึง DROs ก่อนหน้านี้เราจะได้ผลลัพธ์ที่ดีพอสมควร แต่ตอนนี้เรากำลังจะเพิ่มคุณสมบัติใหม่

02:15.480 --> 02:21.380
ตอนนี้เอเจนต์นี้หมายเลขสองเจ้านี่ตรงนี้เขาจะไปสำรวจสภาพแวดล้อมเดียวกัน

02:21.570 --> 02:23.770
สิ่งที่เขาจะใช้ความชัดเจนของต้นไม้

02:23.940 --> 02:25.170
และนี่คือความหมาย

02:25.170 --> 02:30.280
สิ่งที่เขาจะทำคือเขาจะทำตามขั้นตอนใด

02:30.300 --> 02:42.730
ๆ ที่เขาจะทำในกรณีนี้ห้าคีมจะทำสี่ขั้นตอนและหลังจากทำตามขั้นตอนเหล่านี้แล้วเขาจะได้รับรางวัลทั้งหมดที่เขาได้รับจากขั้นตอนเหล่านั้น ใส่มันผ่านเครือข่ายของเขา

02:42.730 --> 02:50.690
เขาจะใส่มันผ่านเครือข่ายประสาทของเขาที่ควบคุมกระบวนการตัดสินใจจากนั้นเครือข่ายประสาทเทียมจะเรียนรู้จากสิ่งนั้น

02:50.700 --> 02:51.600
ดังนั้นอันไหน

02:51.630 --> 02:54.050
ทันทีเช่นที่คุณคิดว่ามีประสิทธิภาพมากขึ้น

02:54.150 --> 03:01.550
คนที่เพิ่งก้าวไปทีละขั้นและชอบโผล่ในที่มืดหรือในที่มืดและเขาก็โอเคฉันจะก้าวไปดูว่าเกิดอะไรขึ้น

03:01.620 --> 03:02.830
ทำตามขั้นตอนเพื่อดูว่าเกิดอะไรขึ้น

03:02.850 --> 03:03.480
ทำตามขั้นตอน

03:03.480 --> 03:04.020
เกิดอะไรขึ้น.

03:04.020 --> 03:10.680
คนที่อยู่ด้านบนหรือคนที่ใช้ Marsha

03:11.130 --> 03:17.610
อย่างกล้าหาญผ่านสี่ขั้นตอนในแถวและจากนั้นเขาตัดสินใจว่าสิ่งเหล่านั้นเป็นขั้นตอนที่ดีหรือไม่ทั้งหมดและทำไมคุณสามารถดูที่นี่หรือทำไมคุณอาจรู้สึกว่าทำไม

03:17.610 --> 03:25.160
ผู้ชายคนที่สองนั้นดีกว่าหรือมีพลังมากกว่าก็เพราะผู้ชายคนที่สองรู้จริง ๆ ว่าอะไรคือจุดสิ้นสุด

03:25.170 --> 03:31.170
ผู้ชายคนแรกเมื่อเขาเมื่อเขาประเมินว่าขั้นตอนนี้ดีหรือไม่เขาแค่ดูรางวัลที่เขาได้รับเท่านั้น

03:31.280 --> 03:34.430
ดังนั้นเขาจึงได้รับคำแนะนำจากรางวัลเท่านั้นที่สิ่งแวดล้อมมอบให้เขา

03:34.440 --> 03:39.570
สิ่งเดียวกันที่นี่เขาแนะนำโดยเฉพาะรางวัลที่สภาพแวดล้อมนี้ให้เขาที่นี่

03:39.620 --> 03:46.490
ดังนั้นทุกครั้งที่เป็นเข็มทิศชนิดเดียวของเขาที่เขามีรางวัลรางวัลรางวัล

03:46.560 --> 03:51.800
ในขณะที่ที่นี่เขาสามารถประเมินได้จริงหลังจากทำตามขั้นตอนที่เขาสามารถประเมินได้

03:51.820 --> 03:53.960
ตกลงฉันก็เลยไปถึงเส้นชัย

03:54.000 --> 03:56.640
ดังนั้นการผสมผสานของขั้นตอนนี้จึงเป็นเรื่องที่ดี

03:56.700 --> 03:57.680
พวกเขาทั้งหมดดี

03:57.840 --> 04:01.410
หรือโอ้ไม่ฉันลงเอยใน firepit หรือ Ohno I.

04:01.500 --> 04:09.340
ฉันทำและเมื่อรถของฉันไม่ไปถึงเส้นชัยหรือฉันข้ามกำแพงทรายหรือฉันแพ้เกมแห่งความหายนะหรือบางสิ่งบางอย่าง

04:09.450 --> 04:13.330
จากนั้นเขาก็ตัดสินใจจากการรวมกันของขั้นตอนทั้งหมดนี้ไม่ดี

04:13.650 --> 04:18.180
และดังนั้นสำหรับขั้นตอนเหล่านี้ที่ก่อนหน้านี้เขามีข้อมูลเพิ่มเติม

04:18.180 --> 04:23.490
เขามีข้อมูลเชิงลึกมากขึ้นเช่นในวิธีการที่ใช้งานง่ายมาก

04:23.490 --> 04:26.000
นี่เป็นหัวข้อที่ซับซ้อนกว่าที่เราแสดงที่นี่

04:26.010 --> 04:34.990
แต่ในวิธีที่ใช้งานง่ายเช่นถ้าคุณทำตามขั้นตอนนี้ขั้นตอนนี้จะมีข้อมูลให้คุณเท่านั้นที่จะได้รับมันคุณจะมีข้อมูลกลับมาจากรางวัลนี้ที่นี่

04:35.070 --> 04:38.580
และสำหรับขั้นตอนนี้ในกรณีนี้ขั้นตอนที่แน่นอนเหมือนกัน

04:38.640 --> 04:41.670
มีข้อมูลเพิ่มเติมที่มีข้อมูลมาตลอดทาง

04:41.820 --> 04:45.500
ตกลงดังนั้นผลลัพธ์คืออะไรหลังจากสี่ขั้นตอนหรือห้าขั้นตอนหรืออะไรก็ตาม

04:45.520 --> 05:00.460
ใช่นั่นคือวิธีการทำงานและสาเหตุที่เรียกว่าการติดตามคุณสมบัติเนื่องจากในระหว่างกระบวนการนี้ไม่เพียง แต่เขาจะดูรางวัลคอมพิวเตอร์ของสิ่งที่เกิดขึ้นแล้วจากการสูญเสียสะสมและจากนั้นทั้งหมดที่เหมาะสม

05:00.620 --> 05:05.210
แต่ที่จริงแล้วมีร่องรอยของการมีสิทธิ์ตามที่เรียกว่าความไว้วางใจความพิการ

05:05.210 --> 05:23.060
มีร่องรอยที่ถูกเก็บไว้ในอัลกอริทึมที่บอกว่าตกลงดังนั้นถ้าเราได้รับสมมติว่าเราได้รับการลงโทษเราได้รับรางวัลเชิงลบซึ่งขั้นตอนเหล่านี้น่าจะมีสิทธิ์สำหรับการลงโทษนั้น

05:23.090 --> 05:29.690
ดังนั้นไม่เพียง

05:29.690 --> 05:36.350
แต่เราจะรู้ว่ารูปแบบทั้งหมดนี้หรือการรวมกันของขั้นตอนของโรงเรียนโดยรวม แต่เรายังคงมีร่องรอยของการมีสิทธิ์ซึ่งขั้นตอนที่เราจะอัปเดตถ้าเราได้รับทุกคน

05:36.350 --> 06:03.820
ตัวอย่างเช่นหากเป็นรางวัลเชิงลบเราอาจมีการติดตามสิทธิ์ที่ระบุถึงเราว่านี่เป็นขั้นตอนที่รับผิดชอบมากที่สุดสำหรับสิ่งที่เราได้รับในตอนท้ายหรือหากเป็นรางวัลเชิงบวกอีกครั้งเราอาจรู้ว่าอัลกอริทึมช่วยให้เราติดตาม อัลกอริทึมการมีสิทธิ์นี้ยังช่วยให้เราติดตามว่าขั้นตอนใดหรือสิ่งที่การกระทำที่จำเป็นต้องมีสิทธิ์ได้รับการอัปเดตตามรางวัลที่เราได้รับ

06:03.860 --> 06:05.820
และนั่นคือสาเหตุที่เรียกว่าการติดตามคุณสมบัติ

06:06.160 --> 06:18.260
และนั่นคือสัญชาตญาณพื้นฐานที่อยู่เบื้องหลังการมีสิทธิ์และหวังว่าตัวอย่างทั้งสองของตัวแทนเหล่านี้จะทำให้เห็นได้ชัดหรือค่อนข้างเข้าใจง่ายในขณะที่ความสามารถเหล่านี้มีประสิทธิภาพมาก

06:18.440 --> 06:31.220
และหากสัญญาไว้หากคุณต้องการที่จะเจาะลึกลงไปในร่องรอยคุณสมบัติเฉพาะหรือการเรียนรู้ขั้นตอนหนังสือที่น่าอัศจรรย์ซึ่งคุณสามารถหาได้เรียกว่าการเรียนรู้แบบเสริม

06:31.220 --> 06:36.590
การแนะนำคือ Richard Sutton Andrew Barto 1998

06:36.740 --> 06:40.770
ฉันคิดว่าพวกเขากำลังอยู่ระหว่างการสร้างรุ่นที่สองหรือปัญหาที่สำคัญมาก

06:40.790 --> 06:53.050
แต่นี่เป็นหนังสือที่ได้รับความนิยมสูงสุดหรือเป็นที่นิยมมากที่สุดหรือเป็นหนังสืออ้างอิงที่มีผู้อ้างอิงมากที่สุดในการเรียนรู้เรื่องการบังคับใช้

06:53.300 --> 06:56.630
ฉันคิดเหมือนหมื่นถ้าฉันไม่ผิด

06:56.810 --> 07:01.120
และบทที่คุณต้องการสำหรับบทนี้คือบทที่ 7

07:01.130 --> 07:06.900
ดังนั้นเพื่อดูตัวเลือกที่เหมาะสมจึงมีบททั้งหมดเกี่ยวกับบทที่ 7

07:06.920 --> 07:10.100
คุณสามารถอ่านเกี่ยวกับมันและมันจะลงรายละเอียดมากมาย

07:10.220 --> 07:27.280
ส่งต่อคุณสมบัติการติดตามย้อนหลังและความแตกต่างชั่วคราวในมือข้างหนึ่งและอีกด้านหนึ่งของสเปกตรัมที่คุณมีวิธีมอนติคาร์โลระหว่างที่คุณมีร่องรอยของคุณสมบัติที่ถูกกล่าวหาหรือคุณเชื่อมโยงเพื่อไปจากความแตกต่างชั่วคราว

07:27.290 --> 07:34.190
อ่านภาพที่น่าสนใจมาก ๆ ซึ่งฉันชอบคำอธิบายที่เข้าใจง่ายมาก ๆ

07:34.250 --> 07:49.190
มีหลายสิ่งที่คุณสามารถเรียนรู้จากหนังสือเล่มนี้เกี่ยวกับปัญญาประดิษฐ์และการเรียนรู้การเสริมแรง แต่การมีสิทธิ์โดยเฉพาะนั้นเป็นเหมือนสถานที่ที่ดีมากที่จะไปเป็นหนังสือสำหรับร่องรอยการมีสิทธิ์

07:49.350 --> 07:57.070
และการอ้างอิงที่สองสำหรับวันนี้คือสิ่งที่จะแสดงให้คุณเห็นในการทดลองเชิงลึกเกี่ยวกับการเรียนรู้อย่างลึกล้ำหรือรายงานวิจัยเชิงลึกของ Google

07:57.440 --> 08:05.120
เกี่ยวกับวิธีการซิงโครนัสสำหรับการเรียนรู้การเสริมแรงที่ลึกซึ้งยิ่งขึ้น

08:05.270 --> 08:12.240
ใช่นั่นคือกระดาษซึ่งเป็นกระดาษแผ่นเดียวที่ A-3 เห็นกระดาษที่เราจะพูดถึงต่อไปในคะแนน

08:12.240 --> 08:14.410
เราใกล้เข้ามาแล้ว

08:14.510 --> 08:29.420
และอย่างที่คุณบอกได้ว่าเราค่อนข้างตื่นเต้นกับเรื่องนี้ดังนั้นนี่จะเป็นการดูเล็กน้อยเกี่ยวกับวิธีที่พวกเขาใช้คุณสมบัติการมีสิทธิ์ในเอกสารนี้

08:29.420 --> 08:35.920
หวังว่าคุณจะสนุกกับการกวดวิชาของวันนี้และรู้ว่าคุณสบายใจขึ้นกับร่องรอยของคุณสมบัติและฉันไม่สามารถรอที่จะพบคุณในครั้งต่อไป

08:35.930 --> 08:37.680
จนกว่าจะเพลิดเพลินไปกับ