WEBVTT

00:00.940 --> 00:04.150
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.150 --> 00:09.070
เอาล่ะฉันหวังว่าคุณจะสนุกกับการสอนจนถึงตอนนี้เราเกือบจะปรีชาคุณเร็ว ๆ

00:09.070 --> 00:13.390
นี้ในไม่ช้าเราก็จะไปถึงด้านที่สามารถนำไปปฏิบัติได้

00:13.510 --> 00:20.320
ถูกต้องก่อนหน้านี้เราได้พูดคุยเกี่ยวกับวิธีการที่เราเพิ่มโครงข่ายประสาทเทียมลงในสมการทั้งหมดของการเรียนรู้ CULE และนำ

00:20.350 --> 00:25.360
ular ไปสู่ขั้นตอนต่อไปและเปลี่ยนเป็นการเรียนรู้อย่างลึกซึ้ง

00:25.690 --> 00:33.130
และวันนี้เรากำลังจะเพิ่มฟีเจอร์สำคัญพิเศษซึ่งจะเขียนโค้ดในด้านการปฏิบัติของสิ่งต่าง ๆ ดังนั้นพาดหัวและฉันตัดสินใจว่ามันเป็นสิ่งสำคัญสำหรับเราที่จะครอบคลุมบ่อยครั้งในด้านปรีชาของสิ่งต่าง ๆ

00:33.130 --> 00:39.100
เพื่อให้คุณเตรียมพร้อมมากขึ้น เพราะเมื่อมันมาในด้านการเข้ารหัสของสิ่งต่าง

00:39.100 --> 00:42.430
ๆ

00:42.430 --> 00:47.950
ดังนั้นเมื่อเราพูดถึงเรามีเครือข่ายมีสองส่วนที่เกิดขึ้น

00:47.950 --> 00:53.110
ประการแรกคือการเรียนรู้เพื่อให้เครือข่ายเรียนรู้กับทุกสถานะใหม่

00:53.270 --> 00:58.870
มันค่อยๆอัปเดตรอให้ดีขึ้นและดีขึ้นและดีขึ้นเมื่อจัดการกับสภาพแวดล้อมนี้

00:58.870 --> 01:08.220
จากนั้นก็มีการแสดงภายในสถานะดังนั้นหลังจากค่า q ถูกนับในสถานะแล้วเมื่อคุณเลือก

01:08.230 --> 01:20.050
ดังนั้นวันนี้เรายังจะพูดถึงส่วนการเรียนรู้ที่เรากำลังจะเกิดขึ้นพร้อมกับคุณสมบัติที่น่าสนใจที่จะช่วยในการเรียนปริญญาตรีเพื่อให้ได้คุณสมบัตินี้ด้วยตัวเราเอง แต่เราจะพูดถึงคุณสมบัติที่สำคัญมากสำหรับ

01:20.080 --> 01:29.690
การเรียนรู้ที่ยอดเยี่ยมและคุณสมบัตินี้เรียกว่าประสบการณ์การเล่นซ้ำ

01:29.710 --> 01:30.030
เอาล่ะ

01:30.040 --> 01:34.570
ดังนั้นนี่คือเครือข่ายของเราดังนั้นเราเพิ่งคัดลอกมาตรงนี้

01:34.570 --> 01:39.000
เราได้สูญเสียที่ Calcott ที่ด้านล่างเป็น back propagator ผ่านเครือข่าย

01:39.100 --> 01:45.670
และลองมาดูตัวอย่างของสิ่งที่เกิดขึ้นเพื่อทำความเข้าใจกับปัญหาที่เรากำลังเผชิญอยู่ด้วยดีขึ้นเล็กน้อย

01:45.670 --> 01:49.120
นี่คือตัวอย่างจริง ๆ จากคะแนน

01:49.120 --> 01:54.820
นี่คือภาพหน้าจอที่ถ่ายจากหลักสูตรนี้อย่างแน่นอนนี่คือสิ่งที่คุณจะเขียนโปรแกรม

01:54.820 --> 02:03.780
นี่คือรถยนต์ที่ขับเคลื่อนด้วยตนเองที่ขับผ่านไปตามถนนสายนี้และต้องเรียนรู้วิธีนำทางบนถนนสายนี้

02:03.820 --> 02:09.290
และมันคืออะไรที่เราพูดถึงก่อนหน้านี้อะไรคือสิ่งนี้ในสถานะนี้

02:09.320 --> 02:15.850
และแน่นอนว่ารัฐจะไม่เป็น x1

02:15.850 --> 02:26.490
x2 Lundell เพียงแค่อธิบายในรายละเอียดเพิ่มเติมว่าสถานะคืออะไรมันจะเป็นพารามิเตอร์สองสามตัวที่สัมพันธ์กับมุมของรถ การอ่านและอื่น ๆ

02:26.490 --> 02:29.820
ดังนั้นจะมีพารามิเตอร์มากกว่านั้นเพื่ออธิบายสถานะ

02:29.830 --> 02:34.120
แต่อย่างไรก็ตามมันจะเป็นเวกเตอร์ของค่าที่จะผ่านโครงข่ายประสาทและจากนั้นคุณจะได้ค่า ACU

02:34.120 --> 02:36.520
บางส่วน

02:36.520 --> 02:39.850
อีกครั้งจะมีความแตกต่างขึ้นอยู่กับสภาพแวดล้อม

02:39.850 --> 02:44.380
อาจเป็นจำนวนการกระทำที่เป็นไปได้ที่แตกต่างกัน

02:44.460 --> 02:50.830
แต่เราจะทำเพื่อความเรียบง่ายทิ้งไว้เพื่อเราจะสามารถเข้าใจได้ดีขึ้นว่าเกิดอะไรขึ้นที่นี่

02:50.830 --> 02:55.710
ดังนั้นในกรณีนี้คำถามคืออะไรจนถึงตอนนี้คืออะไร

02:55.730 --> 03:03.510
ข้อมูลนี้เข้าสู่โครงข่ายประสาทเทียมนี้หรือเฉพาะเจาะจงมากขึ้นว่าเราเรียกใช้โครงข่ายประสาทนี้บ่อยแค่ไหน

03:03.520 --> 03:05.080
การเติบโตของโครงข่ายประสาทบ่อยแค่ไหน

03:05.110 --> 03:12.650
ทุกครั้งที่รถสิ้นสุดในสถานะใหม่ดังนั้นรถจะทำการเคลื่อนที่ในสภาพใหม่และจากนั้นทุกอย่างจะไป

03:12.670 --> 03:18.200
ข้อมูลทั้งหมดจากข้อมูลเกี่ยวกับสถานะผ่านเครือข่ายทำให้อลิซมีข้อผิดพลาดที่คำนวณได้

03:18.280 --> 03:22.960
ข้อผิดพลาดนี้คำนวณจากสิ่งที่เรากล่าวถึงในบทช่วยสอนก่อนหน้า

03:22.990 --> 03:26.080
นี่คือการแพร่กระจายกลับผ่านและน้ำหนักของพวกเขามีการปรับปรุง

03:26.080 --> 03:32.570
จากนั้นรถจะเลือกการกระทำที่จะทำให้การเคลื่อนไหวนั้นจบลงในสถานะใหม่ในสถานะใหม่

03:32.590 --> 03:34.390
ทุกอย่างเริ่มต้นใหม่อีกครั้ง

03:34.450 --> 03:39.880
และโดยทั่วไปสิ่งนี้จะเกิดขึ้นทุกครั้งที่มีรถเข้ามาและคุณบอกว่าได้ดูตัวอย่างนี้

03:39.880 --> 03:52.730
ฉันถ่ายภาพหน้าจอโดยเฉพาะเพราะมันดูดีมากแสดงให้เห็นถึงปัญหาที่ได้รับการแก้ไขผ่านการเล่นซ้ำและค่าใช้จ่ายไกลไม่ใช่แค่สิ่งที่เราใช้ในหลักสูตรนี้หรือในปัญหาเฉพาะนี้

03:52.810 --> 03:57.190
มันเป็นสิ่งที่คุณจะเห็นใช้ตลอด

03:57.340 --> 04:05.140
เพิ่มขึ้นเรื่อย ๆ ในอัลกอริธึมปัญญาประดิษฐ์เพราะมันทรงพลังและมันสำคัญมาก

04:05.140 --> 04:12.440
ดังนั้นเมื่อมองไปที่รถคันนี้รถคันนี้ในปัญหานี้หรือในสภาพแวดล้อมนี้เป้าหมายมาจากที่นี่จากที่นี่ถึงที่นี่และย้อนกลับ

04:12.440 --> 04:17.540
เป้าหมายคือเพื่อนำทางมาที่นี่โดยไม่ต้องข้ามกำแพงที่ทำจากทราย

04:17.790 --> 04:25.120
และรถก็เริ่มจากตรงนี้มันก็ลงไปและเหมือนรางวัลที่ได้จากคุณรู้ว่ามันใกล้แค่ไหนที่จะเริ่ม

04:25.120 --> 04:31.490
รถก็เลยลงมาจากที่นี่มันลงไปเรื่อย ๆ แบบนี้เช่นนี้แบบนี้หรือตามกำแพงนี้ตามทางเดินทะเล

04:31.570 --> 04:34.990
และสิ่งที่จะทำต่อไปก็คือการเลี้ยวจะดำเนินต่อไป

04:34.990 --> 04:37.450
สิ่งที่เราต้องการจะทำคือไปที่นี่ต่อไป

04:37.690 --> 04:39.490
แต่ลองคิดดูสักครู่

04:39.580 --> 04:44.240
เมื่อมันมาถึงกำแพงนี้ทุกครั้งที่มันเคลื่อนที่ไปข้างหน้ามันจะเคลื่อนที่ไปข้างหน้า

04:44.260 --> 04:48.570
มันก้าวไปข้างหน้ามันก้าวไปข้างหน้าก้าวไปข้างหน้าก้าวไปข้างหน้าก้าวไปข้างหน้าและอื่น ๆ มันก้าวไปข้างหน้า

04:48.580 --> 04:53.320
ดังนั้นอาจมีขึ้นอยู่กับสภาพแวดล้อมของโครงสร้างอาจเป็นร้อย ๆ การเคลื่อนไหวที่นี่หรือ 50

04:53.320 --> 04:54.710
การเคลื่อนไหวที่นี่

04:54.990 --> 04:59.100
มันแค่เดินหน้าต่อไปข้างหน้าไปข้างหน้ามันและไม่มีอะไรเปลี่ยนแปลง

04:59.160 --> 05:03.310
ไม่ได้เปลี่ยนแปลงจริงๆ แต่จะได้รับเพิ่มเติมจากนี้เริ่มใกล้ชิดกับเรื่องนี้

05:03.310 --> 05:04.060
น่ารัก.

05:04.210 --> 05:09.990
แต่ในแง่ของสภาพแวดล้อมโดยรอบไม่ค่อยมีสิ่งใดเปลี่ยนแปลงมันยังคงเป็นกำแพงเดียวกัน

05:10.090 --> 05:21.840
หากคุณนั่งอยู่ในรถคุณอาจเห็นสถานการณ์เมื่อคุณขับรถในสิ่งที่คุณเห็นเหมือนสภาพแวดล้อมเป็นสิ่งที่น่าเบื่อจนคุณเพิ่งเห็นชนิดของสิ่งเดียวกันกำลังผ่านไป

05:21.840 --> 05:29.100
แต่อย่างที่ฉันคิดคุณกำลังขับรถผ่านทะเลทรายและคุณเพิ่งเห็นสิ่งเดียวกันมันเป็นเสียงเดียวกันมันเป็นเสียงเดียวกันที่ไม่มีอะไรเกิดขึ้น

05:29.100 --> 05:30.340
ไม่มีอะไรเปลี่ยนแปลง

05:30.550 --> 05:36.820
แต่ทุกครั้งที่เราใส่สถานะนั้นเข้าสู่สถานะใหม่

05:37.000 --> 05:43.530
แน่นอนว่ามีบางอย่างอาจเปลี่ยนแปลงไปสำหรับเราเมื่อคุณกำลังขับรถและ GPS ของคุณแสดงว่าคุณอยู่ใกล้กับปลายทางของคุณมากขึ้น

05:43.540 --> 05:49.300
ดังนั้นหนึ่งในอินพุตเหล่านี้แปลก

05:49.300 --> 05:55.850
แต่มีอินพุตอื่น ๆ

05:55.850 --> 06:03.220
มากมายเช่นเซ็นเซอร์ซึ่งอยู่บนรถที่พวกเขาไม่ได้เปลี่ยนดังนั้นเมื่อคุณขับรถช้าในวันนี้เพื่อใส่อินพุตของคุณเองที่นี่ ที่นี่ที่นี่ที่นี่ที่นี่ที่นี่ที่นี่และที่นี่ที่นี่ตลอดเวลาอินพุตเหมือนกันมาก

06:03.250 --> 06:14.240
และถ้าคุณยังคงใส่ค่าเดียวกันใส่ค่าเดียวกันในเวกเตอร์หรือเวกเตอร์ที่คล้ายกันมากในเครือข่ายของคุณเพราะไม่มีความหลากหลาย

06:14.320 --> 06:16.840
รถจะเรียนรู้ได้ดีมาก

06:16.870 --> 06:28.570
สิ่งหนึ่งที่คุณจะได้เรียนรู้วิธีขับรถตามกำแพงนี้ซึ่งอยู่ทางด้านขวานั้นเป็นวิธีที่เครือข่ายจะอัปเดตและมันจะได้รับรางวัลจะค่อยๆเริ่มได้รับรางวัลสำหรับการขับรถอย่างดี

06:28.580 --> 06:33.980
ตกลงจากตรงนี้ฉันจะได้เรียนรู้ทุกอย่างที่ฉันทำได้ดีฉันทำได้ดีขึ้นฉันทำได้ดีกว่า

06:34.050 --> 06:34.420
ทั้งหมด.

06:34.480 --> 06:41.920
มันจะมีการรับรู้ผิด ๆ นี้ว่ามันทำได้ดีมากแม้ว่ามันจะเรียนรู้วิธีการขับรถรวมทั้งเครือข่ายประสาทอื่น

06:41.920 --> 06:47.560
ๆ เท่านั้นที่จะได้รับการปรับให้เข้ากับการขับรถไปตามบ่อน้ำนี้

06:47.560 --> 06:51.100
ไม่รู้จะทำยังไง

06:51.310 --> 06:55.240
และมันก็ไม่เหมาะกับโครงข่ายประสาทนี้

06:55.420 --> 07:02.250
และแม้ว่ามันจะเป็นอย่างใดอย่างหนึ่งสมมุติว่าผ่านจุดหนึ่งแล้วมันก็จบลงบนผนังนี้

07:02.260 --> 07:05.320
สิ่งเดียวกันกำลังจะเกิดขึ้นกำลังขับรถจากที่นี่ตรงนี้

07:05.320 --> 07:10.870
ตกลงตอนนี้โครงข่ายใยประสาทเทียมกำลังปรับโครงสร้างตัวเองเพื่อปรับให้เข้ากับผนังนี้แล้วแบสิ่งนี้เกิดขึ้น

07:10.900 --> 07:16.260
และแม้ว่ามันจะผ่านไปก็ตามมันก็จะขับผ่านสิ่งนี้แล้วก็เหมือนกันตามเส้นเหล่านี้

07:16.260 --> 07:45.550
ดังนั้นโดยทั่วไปนี่เป็นตัวอย่างที่ชัดเจนมากของปัญหาที่เราเป็นคือสิ่งที่เรามีเพราะวิธีที่เราใช้การปรับปรุงโครงข่ายประสาทเทียมทุกรัฐเมื่อเรามีสิ่งต่อเนื่องมากมายพวกเขาไม่จำเป็นต้องเป็น เหมือนกัน แต่มีอยู่ในสภาพแวดล้อมที่เป็นเรื่องปกติที่รัฐติดต่อกันนั้นมีความสัมพันธ์กันอย่างใดอย่างหนึ่งหรือมีการพึ่งพาซึ่งกันและกันและเราไม่ต้องการการพึ่งพาซึ่งกันและกันเพื่ออคติเครือข่ายของเรา

07:45.550 --> 08:01.750
เราไม่ต้องการให้รถเรียนรู้วิธีขับรถเป็นเส้นตรงหรือเส้นโค้งยาวหรืออะไรก็ตามที่คุณคิดว่าคุณสามารถคิดได้ในชีวิตที่ตัวแทนจะเป็นสภาพแวดล้อม Navigant ที่เราสามารถคิดมีความสัมพันธ์

08:01.780 --> 08:12.130
หรือรัฐซึ่งพึ่งพาซึ่งกันและกันซึ่งสามารถทำให้เครือข่ายประสาทของคุณยุ่งเหยิงได้

08:12.190 --> 08:15.270
ถ้าคุณแค่ปล่อยให้ตัวแทนเรียนรู้จากสิ่งนั้น

08:15.430 --> 08:17.600
และนั่นคือที่มาของการเล่นซ้ำประสบการณ์

08:17.620 --> 08:24.850
สิ่งที่เกิดขึ้นในประสบการณ์การเล่นซ้ำคือประสบการณ์เหล่านี้ดังนั้นรัฐเหล่านี้จึงอยู่ในหนึ่งสองสามอย่างไรก็ตาม 50

08:24.850 --> 08:31.040
รัฐในระบบประสาทที่พวกเขาไม่ได้รับผ่านเครือข่ายทันที

08:31.350 --> 08:35.980
พวกเขาจะถูกบันทึกลงในหน่วยความจำของตัวแทน

08:36.160 --> 08:44.940
ตัวอย่างเช่นมันบันทึกสิ่งเหล่านี้และบันทึกสิ่งเหล่านี้และบางอย่างเมื่อถึงเกณฑ์ที่คุณจะสามารถใช้รหัสและแอตแลนตาจะแสดงวิธีการทำเช่นนั้น

08:45.100 --> 08:51.310
เมื่อถึงเกณฑ์ที่กำหนดเอเจนต์จะตัดสินใจด้วยตัวเองตกลงได้เวลาเรียนรู้แล้ว

08:51.310 --> 09:06.460
ฉันมีชุดของประสบการณ์นี้ที่ฉันมีฉันจะไม่เรียนรู้จากที่และเลือกสุ่มกระจายอย่างสม่ำเสมอและความสม่ำเสมอเป็นกุญแจสำคัญที่นี่เพราะนั่นคือสิ่งที่เราจะพูดถึงในสไลด์ถัดไป

09:06.820 --> 09:08.140
เราจะจองจะพูดถึงว่า

09:08.140 --> 09:12.400
แต่ใช้ตัวอย่างที่กระจายอย่างสม่ำเสมอ

09:12.460 --> 09:15.660
ดังนั้นโดยพื้นฐานแล้วประสบการณ์ทั้งหมดถือว่ามีความเท่าเทียมกัน

09:15.670 --> 09:33.130
ใช้ตัวอย่างที่กระจายอย่างสม่ำเสมอจากชุดของประสบการณ์ที่มีและจากนั้นจะผ่านพวกเขาและเรียนรู้จากพวกเขาดังนั้นมันจึงไม่ใช้ประสบการณ์ทั้งหมดหรือเพียงแค่ใช้มันอย่างสม่ำเสมอกระจายตัวอย่างมันอาจใช้เวลาสองสามจากที่นี่

09:33.130 --> 09:54.660
ที่นี่สองสามจากที่นี่และประสบการณ์แต่ละอย่างมีลักษณะโดยรัฐในการดำเนินการที่จะเอารัฐมันลงเอยในและรางวัลมันสำเร็จผ่านการกระทำในรัฐนั้นดังนั้นองค์ประกอบสี่ในแต่ละประสบการณ์หนึ่ง แอ็คชั่นที่สองและให้รางวัลและดังนั้นจึงใช้ประสบการณ์เหล่านั้นทั้งหมดจากนั้นผ่านพวกเขาผ่านเครือข่ายและเรียนรู้

09:54.660 --> 10:08.110
และด้วยวิธีนี้มันแบ่งรูปแบบของความลำเอียงนั้นซึ่งมาจากลักษณะตามลำดับของประสบการณ์ราวกับว่าคุณจะทำให้พวกมันผ่านเครือข่าย

10:08.340 --> 10:11.930
นั่นคือจุดสนใจหลักของประสบการณ์ที่เราเล่น

10:11.930 --> 10:22.400
นั่นคือสิ่งที่เป็นปัญหาและที่อยู่และประโยชน์ของประสบการณ์การเล่นซ้ำคือบางครั้งในสภาพแวดล้อมเช่นนี้คุณอาจมีประสบการณ์ที่หายากที่มีค่ามาก

10:22.410 --> 10:28.340
ตัวอย่างเช่นฉันไม่รู้ว่าสมมุติว่าลองดูที่มุมนี่ตรงนี้นี่คือมุมฉาก

10:28.440 --> 10:28.730
ขวา.

10:28.740 --> 10:30.880
และหนึ่งที่คมชัดมากคือคม

10:30.900 --> 10:35.640
ดังนั้นมันจะมาจากที่นี่โดยสมมติว่ามันกำลังจะกอดมุมนี้

10:35.640 --> 10:43.410
เรามีมุมที่แหลมตรงนี้ทั้งหมดนี้เราจะได้หนึ่งมุมขวาตรงนี้และมุมขวาหนึ่งตรงนี้

10:43.680 --> 10:46.240
ใช่แล้วเมื่อมันมาทางนี้นั่นคือมุมที่ถูกต้อง

10:46.380 --> 10:48.630
และเมื่อมันกลับไปมันเป็นมุมฉากตรงนี้

10:48.620 --> 10:56.770
ดังนั้นและคนนี้ไม่คมวิธีนี้ในร้านค้าดังนั้นมีเพียงโอกาสเดียวในสภาพแวดล้อมทั้งหมดที่จะเรียนรู้จากมุมขวาที่คมชัด

10:56.970 --> 11:03.050
และนั่นเป็นประสบการณ์ที่สำคัญมากเพราะมันอาจทำให้การขับขี่ในแนวเส้นตรงทำได้ดีมาก ๆ เช่นทำมุมนุ่ม ๆ

11:03.060 --> 11:06.990
แบบนั้น แต่

11:07.170 --> 11:14.070
และจากนั้นมันก็จะทำให้มุมที่แหลมคมนี้เรียบง่ายเพราะเพียงเพราะมันไม่มีโอกาสมากมายที่จะเรียนรู้จากมันดังนั้นมันจะเรียนรู้ทุกอย่างอย่างรวดเร็ว แต่มันใช้เวลานานในการเรียนรู้สิ่งที่ถูกต้อง

11:14.070 --> 11:20.180
หลักสูตร

11:20.180 --> 11:30.140
มันเป็นตัวอย่างที่ง่ายมากคือคำอธิบายที่ง่ายมาก แต่มันแสดงให้เห็นถึงแนวคิดที่บางครั้งพวกเขาเป็นประสบการณ์ที่หายากซึ่งมีค่า

11:30.270 --> 11:46.640
และถ้าคุณเพียงแค่ทำโครงข่ายประสาทอย่างง่ายที่คุณใส่ค่าของคุณที่นี่และคุณรู้ว่าพวกเขากำลังผ่านและคุณรู้ว่าแม้ว่าคุณจะลืมปัญหาของการเรียงลำดับของประสบการณ์และวิธีที่พวกเขา การพึ่งพาอาศัยซึ่งกันและกันและทิมพูที่มีความสัมพันธ์กันทั้งหมดแม้จะลืมเรื่องนั้นไปชั่ววินาที

11:46.800 --> 11:53.370
จะเกิดอะไรขึ้นเมื่อคุณใส่ประสบการณ์ผ่านเครือข่ายข้อมูลแล้วคุณลืมได้ทันที แต่ลืมเกี่ยวกับประสบการณ์นั้น

11:53.370 --> 11:54.380
คุณย้ายไปยังหน้าถัดไป

11:54.420 --> 11:56.180
นั่นเป็นเพียงวิธีการทำงานของเครือข่ายประสาท

11:56.220 --> 11:59.710
จากนั้นคุณย้ายไปยังสถานะถัดไปขั้นตอนถัดไปขั้นตอนถัดไปประสบการณ์ X ประสบการณ์ถัดไปประสบการณ์นั้นและอื่น

11:59.780 --> 12:01.170
ๆ

12:01.170 --> 12:07.450
ดังนั้นมุมนี้ทันทีที่ผ่านเครือข่ายและคุณไม่มีความทรงจำเกี่ยวกับประสบการณ์อันมีค่านั้น

12:07.560 --> 12:14.220
ในขณะที่เราได้รับประสบการณ์การเล่นซ้ำเพราะคุณใส่ประสบการณ์เหล่านี้ไว้ในแบทช์คุณสามารถจัดระเบียบ bash

12:14.220 --> 12:19.920
ของคุณเป็นหน้าต่างกลิ้งดังนั้นตัวอย่างเช่นคุณอาจมี

12:19.920 --> 12:27.380
100 แบทช์ดังนั้นประสบการณ์นับร้อยในแบทช์ของคุณ มันมีการบันทึกประสบการณ์นี้ในชุดของมัน

12:27.390 --> 12:37.980
ในบางครั้งมันก็วิ่งออกมาจากชุดของประสบการณ์และมีหน้าต่างกลิ้งดังนั้นมันจึงลืมประสบการณ์เหล่านี้ แต่แล้วมันก็เก็บประสบการณ์เหล่านี้ไว้

12:37.980 --> 12:45.410
จากนั้นอีกครั้งมันจะเรียนรู้จากเมื่อมันมาถึงที่นี่มันเรียนรู้จากชุดนี้และเมื่อมันมาถึงที่นี่มันจะลืมทุกอย่างจนถึงที่นี่

12:45.420 --> 12:50.550
แต่มันก็มีชุดของประสบการณ์เช่นนั้นดังนั้นจึงไม่ได้เรียนรู้จากประสบการณ์เหล่านี้

12:50.730 --> 12:58.380
และสิ่งที่คุณได้คือมุมทางขวามือนี้อาจเกิดขึ้นหลายครั้งในกระบวนการเรียนรู้ของมันเพราะมันอยู่ในกลุ่มนั้นเมื่อแบทช์เป็นแบบนี้อยู่ตรงนั้นมากกว่าที่มีอยู่ในแบทช์ตรงนี้ ในหลาย

12:58.380 --> 13:03.480
ๆ

13:03.480 --> 13:11.430
แบตเนื่องจาก abash อาจถูกอัพเดตเป็นหน้าต่างการหมุนของประสบการณ์

13:11.430 --> 13:16.290
ดังนั้นประสบการณ์ที่เก่ากว่าจะถูกขับออกจากประสบการณ์ใหม่ ๆ ที่เพิ่มเข้ามา

13:16.440 --> 13:24.100
ดังนั้นและประสบการณ์มันอยู่ในแบตช์ค่อนข้างนานและรถยนต์หรือตัวแทนสามารถเรียนรู้จากประสบการณ์นั้นหลายครั้ง

13:24.210 --> 13:27.430
นั่นคือข้อดีอีกอย่างของการเล่นซ้ำประสบการณ์

13:27.570 --> 13:39.290
และแน่นอนว่าข้อได้เปรียบสุดท้ายคือประสบการณ์การเล่นซ้ำเปิดโอกาสให้คุณเรียนรู้จากประสบการณ์มากกว่าที่คุณเพิ่งเรียนรู้ทีละครั้งเพราะคุณมีชุดนั้นและดังนั้นและมันเป็นหน้าต่างกลิ้งและแม้ว่าสภาพแวดล้อมของคุณจะถูก จำกัด

13:39.300 --> 13:49.260
เพื่อรับประสบการณ์วิธีการเล่นซ้ำของคุณจะช่วยให้คุณเรียนรู้ได้เร็วขึ้น

13:49.410 --> 13:55.710
และแทนที่จะทำซ้ำมีหลาย ๆ ครั้งที่คุณสามารถเรียนรู้ได้อย่างรวดเร็วเพราะคุณไม่ต้องทำซ้ำ

13:55.710 --> 13:57.440
คุณมีประสบการณ์เหล่านั้นที่บันทึกไว้

13:57.810 --> 13:59.850
ดังนั้นสิ่งเหล่านี้จึงเป็นข้อได้เปรียบหลักของประสบการณ์

13:59.910 --> 14:01.760
ขอปะยางรถที่เรามี

14:01.840 --> 14:09.280
เรากำลังทำลายรูปแบบนั้นผ่านความเป็นอิสระและความสัมพันธ์ของประสบการณ์ตามลำดับที่เราบันทึกประสบการณ์ที่หายากซึ่งอาจสำคัญดังนั้นเราสามารถเรียนรู้จากพวกเขาบ่อยขึ้นและเราสามารถเรียนรู้ในสภาพแวดล้อมที่เราสามารถเรียนรู้สภาพแวดล้อม

14:09.280 --> 14:21.260
Fosler ซึ่งเป็นประสบการณ์

14:21.520 --> 14:29.180
เรามีปัญหาการขาดแคลนซึ่งไม่มีประสบการณ์มากมายที่ตัวแทนต้องผ่านและยังคงสามารถเรียนรู้ได้

14:29.380 --> 14:32.470
นั่นคือสิ่งที่ประสบการณ์ถ่ายทอดไปมา

14:32.470 --> 14:34.530
หากคุณต้องการอ่านมากกว่านี้

14:34.630 --> 14:41.290
มีบทความที่น่าสนใจที่ตีพิมพ์โดยใจลึก ๆ ในปี 2016

14:41.560 --> 14:44.380
เรียกว่าการเล่นซ้ำลำดับความสำคัญและพูดถึงว่าทำไม

14:44.410 --> 14:50.860
เหตุใดเราจึงใช้การแจกจ่ายแบบสม่ำเสมอเพื่อเลือกประสบการณ์ของเราจากประสบการณ์ Bachche

14:50.860 --> 14:57.160
ทำไมเราไม่หาวิธีที่ดีกว่าในการเลือกประสบการณ์ของเราและจัดลำดับความสำคัญของประสบการณ์ที่เรารู้สึกว่ามีความสำคัญ

14:57.220 --> 15:03.880
มันค่อนข้างเป็นเรื่องที่น่าสนใจ

15:03.880 --> 15:12.660
แต่ในกรณีนี้คุณจะสามารถเสริมกำลังหรือไม่เพียง แต่เสริมความรู้ของคุณในการเล่นซ้ำ แต่คุณจะสามารถก้าวไปพร้อมกับเทคโนโลยีที่ทันสมัย

15:12.660 --> 15:15.120
ดังนั้นนี่คือ 2016 และเผยแพร่โดยจิตใจที่ลึกซึ้ง

15:15.120 --> 15:24.530
มันเป็นกระดาษที่ทรงพลังมากเมื่อไม่นานมานี้ดังนั้นคุณจะสามารถสำรวจขีด จำกัด หรือสำรวจอัลกอริทึมนี้ให้ดียิ่งขึ้นและนำไปใช้ในระดับต่อไป

15:24.550 --> 15:33.810
ดังนั้นฉันจะปล่อยมันขึ้นอยู่กับคุณเพื่อหาสาเหตุและวิธีการที่เราสามารถเปลี่ยนชุดเป็นวิธีการที่แตกต่างกันเพื่อประสบการณ์การเล่นซ้ำจากบทความนี้หากคุณต้องการ

15:33.940 --> 15:35.270
และฉันหวังว่าคุณจะสนุกกับเรื่องนี้

15:35.270 --> 15:42.860
ทอเรียลและตอนนี้เรารู้ว่าจริงๆแล้วประสบการณ์คืออะไรและเราสามารถใช้มันได้อย่างมั่นใจในแวดวงภาคปฏิบัติของเราและฉันมองหาคุณในครั้งต่อไป

15:42.940 --> 15:44.550
จนกว่าจะสนุกกับ AI