WEBVTT

00:01.060 --> 00:04.460
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.460 --> 00:07.630
วันนี้เราจะพูดถึงสมการเบลแมน

00:07.630 --> 00:23.250
เป็นหัวข้อที่ค่อนข้างซับซ้อนและเราจะแนะนำอย่างเป็นขั้นเป็นตอนตลอดทั้งส่วนของหลักสูตรนี้ดังนั้นฉันจะไม่กระโดดลงไปในสมการเบลมอนต์ที่ซับซ้อนที่สุดในทันที จะแนะนำให้ช้าลงเพื่อที่จะค่อยๆเข้าใจว่ามันทำงานอย่างไร

00:23.410 --> 00:28.480
และฉันหวังว่าเป้าหมายของคุณด้วยวิธีการนี้หากคุณเป็น G อาร์ ลองตรงเข้าไปดู

00:28.690 --> 00:34.430
ดังนั้นเราจะมีแนวคิดหลักสองสามข้อที่เราจะดำเนินการด้วยและแนวคิดเหล่านี้คือ

00:34.600 --> 00:41.110
S หมายถึงรัฐดังนั้นรัฐที่ตัวแทนของเราเป็นหรือรัฐอื่น ๆ

00:41.740 --> 00:45.490
ที่เป็นไปได้ซึ่งสามารถเป็นตัวแทนของการกระทำที่ตัวแทนสามารถดำเนินการได้

00:45.490 --> 00:53.610
ดังนั้นตัวแทนจึงสามารถเข้าถึงรายการการกระทำและการกระทำบางอย่างมีความสำคัญมากเมื่อพวกเขาดูในการรวมสถานะ

00:53.620 --> 01:16.980
ดังนั้นเมื่อคุณอยู่ในสถานะแกว่งจากนั้นคุณดูการกระทำและเริ่มเข้าใจว่าอะไรจะเป็นผลมาจากการกระทำเหล่านั้นเพราะคุณจะดูการกระทำด้วยตัวเองหรือรัฐไม่เหมาะสมเพราะคุณ ไม่รู้ว่าคุณอยู่ที่ไหนและคุณจะอยู่ที่ไหนและจากนั้นเราจะมีของเราซึ่งหมายถึงรางวัลและนั่นคือผ่านวอร์ดที่ตัวแทนรับเข้าสู่สถานะที่แน่นอนและแกมม่าเป็นปัจจัยลดราคา

01:16.990 --> 01:21.810
และเราจะพูดถึงส่วนลดในอีกไม่กี่วินาทีตอนนี้ แต่พวกเขากำลังจดบันทึก

01:21.820 --> 01:26.300
ทำให้ทราบว่าเรากำลังจะมีจดหมายนี้ Gamelin ที่จะใช้ในภายหลัง

01:26.620 --> 01:31.230
ดังนั้นคนที่อยู่เบื้องหลังสมการ Bellman คือ Richard Ernest bellman

01:31.360 --> 01:43.790
เขาเป็นนักคณิตศาสตร์การบินและมากับแนวคิดของการเขียนโปรแกรมแบบไดนามิกซึ่งตอนนี้เราตอนนี้ที่เราเรียกว่าการเรียนรู้การเสริมแรง

01:44.110 --> 01:45.490
นั่นคือสิ่งที่เราเรียกตอนนี้

01:45.490 --> 01:52.350
และในปี 1953 เขาเกิดแนวคิดนี้ขึ้นและนั่นคือเมื่อสมการเบลมอนต์เบลแมนมาหาฉัน

01:52.630 --> 01:56.530
ดังนั้นเรามาดูวิธีการทำงานทั้งหมดนี้

01:56.540 --> 02:13.800
มีตัวแทนที่น่ารักของเราที่มุมล่างซ้ายและเขาอยู่ในเขาวงกตและนี่เป็นเขาวงกตแบบคลาสสิคที่คุณมีบล็อกบ้างบล็อกกว้างเป็นบล็อกซึ่งเอเจนต์สามารถก้าวเข้าไปในบล็อกสีเทาได้ ไม่สามารถเข้าถึงได้พูดเหมือนกำแพงในเขาวงกตนี้

02:13.900 --> 02:20.910
สีเขียวคือจุดที่เอเจนต์ควรจะตั้งเป้าหมายว่าจะจบที่ใด

02:21.220 --> 02:25.050
และสีแดงคือ firepits หรือเครื่องยนต์ตกลงไปในหลุมไฟ

02:25.060 --> 02:26.660
เขาจะแพ้ในเกม

02:26.950 --> 02:31.330
ดังนั้นในหลุมไฟรางวัลซึ่งเป็น R คือลบ 1

02:31.330 --> 02:36.330
นั่นคือวิธีการบอกตัวแทนของเราว่าไม่ใช่สิ่งที่เราต้องการให้คุณทำ

02:36.430 --> 02:46.030
เช่นจำไว้ในตัวอย่างเมื่อเราฝึกสุนัขเราต้องการบอกพวกเขาเหมือนสุนัขเลว ๆ ถ้ามันไม่ได้ทำสิ่งที่ถูกต้องที่ต้องการทำสิ่งเดียวกันที่นี่เราบอกตัวแทนว่านี่ไม่ใช่สิ่งที่คุณควร

02:46.030 --> 02:53.300
การทำคุณไม่ควรจบลงที่จัตุรัสดังนั้นทุกครั้งที่กระรอกไม่ได้รับรางวัลลบหนึ่งรางวัลดังนั้นคุณจะถูกลงโทษด้วยการลบรางวัลหนึ่งรางวัล

02:53.530 --> 02:59.330
ในทางตรงกันข้ามถ้ามันจบลงในกรีนสแควร์มันจะได้รับรางวัลบวกหนึ่งความหมายว่านั่นคือสิ่งที่เราต้องการจะทำ

02:59.590 --> 03:02.470
ดังนั้นนี่คือรางวัลสองอย่างที่เอเจนต์ไม่สามารถทำได้

03:02.470 --> 03:06.210
และมันเรียนรู้วิธีการทำงานในเขาวงกตนี้ได้อย่างไร

03:06.370 --> 03:12.490
เหมือนในตัวอย่างของสุนัขหุ่นยนต์ที่เรียนรู้ที่จะเดินซึ่งจะบอกให้รู้ว่ามันจะบอกว่าการกระทำที่คุณทำได้

03:12.490 --> 03:18.360
คุณสามารถขึ้นไปทางซ้ายหรือขวาซึ่งเป็นการกระทำสี่อย่างที่เป็นไปได้ที่คุณสามารถทำได้

03:18.360 --> 03:21.430
มีการเล่นรอบกับที่ดูว่าคุณสามารถมาด้วย

03:21.430 --> 03:31.160
ดังนั้นตัวแทนอาจไปทางขวาจากนั้นพวกเขาอาจไปอีกสองทางด้านขวาพวกเขาอาจกลับไปทางซ้ายเพียงแค่กดปุ่มสุ่มและพวกเขากำลังพยายามดูว่าเกิดอะไรขึ้น

03:31.180 --> 03:34.660
พวกเขาขึ้นไปขึ้นไปลงไปขึ้นไปทางขวา

03:34.660 --> 03:38.450
ดังนั้นสำหรับตอนนี้พวกเขาไม่ได้เรียนรู้อะไรเลยพวกเขาไม่มีอะไรเกิดขึ้น

03:38.470 --> 03:41.790
พวกเขาไปทางขวาแล้วปังพวกเขาจบลงที่กรีนสแคว

03:41.830 --> 03:49.040
ดังนั้นพวกเขาจึงรู้ว่าฉันเพิ่งได้รับบวกอีกหนึ่ง awar ทันทีที่ฉันก้าวเข้าไปในกรีนสแควร์พวกเขาได้รับรางวัลบวกหนึ่ง

03:49.090 --> 03:53.560
และนั่นก็ทริกเกอร์อัลกอริทึมให้บอกว่าโอเคมันเจ๋งจริงๆ

03:53.830 --> 03:58.920
ฉันได้รับรางวัลสำหรับการสิ้นสุดในตารางดังนั้นฉันต้องการที่จะจบลงในตาราง

03:58.930 --> 04:00.650
ดังนั้นหมายความว่าสำหรับตัวแทน

04:00.910 --> 04:04.310
นั่นหมายความว่ามันเริ่มถามคำถามว่าฉันไปถึงจัตุรัสนี้ได้อย่างไร

04:04.300 --> 04:14.810
สถานะก่อนหน้านี้ที่ฉันอยู่คืออะไรและการกระทำใดที่ฉันทำเพื่อให้ได้สแควร์แล้วมองย้อนกลับไปและพูดว่าตกลงดังนั้นสถานะก่อนหน้านี้คือสถานะนี้

04:14.950 --> 04:17.400
มันกลับกลายเป็นว่ามีคุณค่าในสถานะนั้น

04:17.410 --> 04:19.240
หนึ่งที่จุดประกายของลูกศรสีแดง

04:19.270 --> 04:33.210
เพราะจากสถานะนั้นคุณเป็นฉันฉันอยู่ห่างออกไปเพียงหนึ่งก้าวจากการได้รับรางวัลสูงสุดฉันอาจจะฝันถึงบวกหนึ่งอย่างเช่นบิสกิตสำหรับสุนัขทันทีที่ฉันรู้ว่าฉันเคยอยู่ในสถานะนั้น

04:33.250 --> 04:35.150
สี่เหลี่ยมนั้นทำเครื่องหมายด้วยลูกศรสีแดง

04:35.200 --> 04:36.740
สิ่งที่ฉันต้องทำคือกดขวา

04:37.030 --> 04:41.440
ดังนั้นฉันจะบอกตัวเองให้จำได้อย่างไรว่ารัฐนั้นมีค่า

04:41.440 --> 04:45.170
สำหรับฉันแล้วไม่มีความแตกต่างในฐานะตัวแทน

04:45.170 --> 04:51.610
ไม่มีความแตกต่างไม่ว่าฉันจะอยู่ในกรีนสแควร์หรือในไวท์สแควร์ขวาในกรีนสแควร์ฉันได้รับรางวัลหนึ่ง

04:51.610 --> 04:58.810
ดังนั้นฉันจะทำเครื่องหมายสำหรับตัวเองว่า Y Square ได้รับสำหรับฉันแล้วมันมีค่าเท่ากับ

04:58.810 --> 05:03.280
1 เพราะมันจะนำไปสู่การให้รางวัลหนึ่งทันทีที่ฉันอยู่ในจัตุรัสสีขาวที่ฉันรู้ว่าฉันจะดำเนินการอีกครั้ง

05:03.350 --> 05:22.430
ฉันจะอยู่ในกรีนสแควร์และฉันจะได้รับรางวัลหรืออย่างใดอย่างหนึ่งนั่นคือเหตุผลที่ฉันจะบอกว่ามูลค่าของสแควร์นี้มีค่าเท่ากับหนึ่งเพราะมันจะนำไปสู่ ฉันหมายถึงที่นี่ฉันรู้ว่ารางวัลของฉันจะเป็นหนึ่งดังนั้นฉันจะทำเครื่องหมายสแควร์นี้เป็นการเรียกไปยังหนึ่งที่เป็นค่าที่เป็นมูลค่าการรับรู้ของการอยู่ในสถานะ

05:22.430 --> 05:24.740
ถัดไปตัวแทนจะเป็นไปได้

05:24.800 --> 05:26.930
แล้วฉันจะเข้าไปในจตุรัสนี้ได้อย่างไร

05:27.050 --> 05:29.990
และคุณรู้ว่าเขาอาจเดินไปรอบ ๆ อีกครั้งและอื่น ๆ

05:29.990 --> 05:33.800
และเพิ่มขึ้นในจตุรัสอีกครั้งและเป็นเช่นนั้นฉันจะเข้าไปในจัตุรัสนี้ก่อนหน้านั้นได้อย่างไร

05:33.800 --> 05:36.860
และวิธีที่ฉันเข้าไปในจตุรัสนี้มาจากจตุรัสนี้

05:36.860 --> 05:37.530
น่าสนใจ

05:37.550 --> 05:42.980
ตกลงทันทีที่ฉันเข้าไปในจัตุรัสนี้ฉันรู้ว่าสิ่งที่ฉันต้องทำคือไปทางขวา

05:42.980 --> 05:45.640
แล้วจากที่นี่ฉันรู้แล้วว่าฉันจะชนะ

05:45.650 --> 05:50.970
ฉันรู้ว่าทุกอย่างจะคลี่คลายจากที่นี่และฉันรู้ว่าคุณค่าของการอยู่ในสถานะนี้จะเท่ากับ

05:51.020 --> 06:04.640
และเนื่องจากไม่มีอะไรหยุดยั้งฉันจากการเติบโตจากที่นี่มาถึงที่นี่คุณค่าในสิ่งนี้จะเป็นค่าที่รับรู้ฉันจึงเป็นสิ่งที่มีค่ามากเพราะฉันต้องการที่นี่

06:04.650 --> 06:06.660
อยู่ที่นี่และฉันจะอยู่ที่นี่อย่างรวดเร็ว

06:06.740 --> 06:07.980
ดังนั้นฉันจะชนะ

06:08.180 --> 06:10.490
แล้วคุณจะเข้าไปในจัตุรัสนี้ได้อย่างไรก่อนหน้านั้น

06:10.490 --> 06:12.940
ทีนี้ฉันได้สแควร์นี้จากสแควร์นี้

06:13.070 --> 06:19.670
ดังนั้นค่าจึงคล้ายกันค่าของการอยู่ที่นี่ก็เท่ากับหนึ่งและอื่น ๆ ดังนั้นค่าของการอยู่ที่นี่เท่ากับหนึ่งค่าของการอยู่ที่นี่เท่ากับหนึ่งเพราะแต่ละคนนำไปสู่อีกอัน

06:19.670 --> 06:25.710
เส้นชัย

06:26.240 --> 06:29.850
นั่นคือทั้งหมดที่ชอบตรรกะที่สวยงามในขั้นตอนนี้

06:29.960 --> 06:33.410
นี่คือเราออกแบบสมการเบลแมนตอนนี้

06:33.410 --> 06:40.460
ดังนั้นนี่คือเราอาจคิดเกี่ยวกับการออกแบบสมการที่ช่วยให้ตัวแทนผ่านเขาวงกต

06:40.490 --> 06:51.920
ดังนั้นดูที่รางวัลจากนั้นรัฐก่อนหน้าให้คุณค่าเท่ากับการให้รางวัลการดำเนินคดีและสิ่งเหล่านั้นเช่นสร้างเส้นทางที่ดีและดี แต่ปัญหาที่นี่ก็โอเคเกิดอะไรขึ้นถ้าตัวแทนของเราด้วยเหตุผลบางอย่างเริ่ม

06:52.010 --> 07:00.480
สถานะนี้แทนที่จะเริ่มต้นที่นี่และดำเนินการเหล่านี้และมันเริ่มต้นจริงในรัฐ

07:00.650 --> 07:08.540
มันจะรู้ได้อย่างไรว่ามันจำได้ว่าการกระทำใดที่ควรทำมันควรจะไปทางขวาหรือควรลงไปหรืออาจจะไปทางซ้ายหรือควรขึ้นไป

07:08.540 --> 07:13.220
จำได้อย่างไรว่านี่คือความต่อเนื่องต่อไปจากที่นี่

07:13.220 --> 07:18.660
หากค่าเดียวที่มีคือค่าเหล่านี้เท่ากับเมื่อชนิดนั้นไม่สามารถมองเห็นสิ่งที่อยู่ไกล

07:18.660 --> 07:19.700
มันสามารถดูได้

07:19.700 --> 07:20.030
เอาล่ะ

07:20.030 --> 07:21.940
สิ่งที่ฉันมีที่นี่และสิ่งที่ฉันมีที่นี่

07:21.980 --> 07:23.530
มันรู้ได้อย่างไรว่าจะไปทางไหน

07:23.660 --> 07:27.920
ในขั้นตอนนี้มันไม่ได้สวยเหมือนกันสำหรับอายุและวิธีการที่จะไป

07:27.960 --> 07:30.770
และนั่นคือสาเหตุที่วิธีการนี้ใช้ไม่ได้ผล

07:30.790 --> 07:32.930
มันเป็นคำอธิบายที่ง่ายมาก

07:32.930 --> 07:34.500
แน่นอนมันมีมากกว่านั้น

07:34.520 --> 07:40.550
แต่ในวิธีที่เข้าใจง่ายนั่นคือสาเหตุที่เราไม่สามารถกำหนดค่าเพียงแค่ดำเนินการกับค่านี้ย้อนหลังได้

07:40.790 --> 07:46.210
เนื่องจากหนึ่งในเหตุผลคือเมื่อ Agent อยู่ระหว่างค่าสองค่านี้ซึ่งมันจะไปที่ไหน

07:46.210 --> 07:48.560
มันไม่ได้สับสนเช่นนั้น

07:48.620 --> 07:52.350
แล้วเราจะแก้ปัญหานี้ได้อย่างไรว่าเราจะทำอะไร

07:52.400 --> 07:58.640
และนี่คือที่ที่เราจะเริ่มแนะนำสมการ Belman ในรูปแบบที่แท้จริงอย่างช้าๆทีละขั้นตอน

07:58.670 --> 08:01.510
สมการของเบลแมนมีลักษณะดังนี้

08:01.640 --> 08:10.250
ดังนั้นเราจึงได้พูดคุยเกี่ยวกับคุณค่าของการอยู่ในสถานะหนึ่งเช่นเดียวกับสถานะปัจจุบันของคุณหรือสถานะที่กำหนดและมีเช่นกัน

08:10.370 --> 08:18.990
และในฐานะนายกรัฐมนตรีคือรัฐรัฐต่อไปนี้รัฐที่คุณจะได้รับหลังจากรัฐและดำเนินการร่วมกัน

08:19.000 --> 08:24.160
แต่เรารู้ว่ามีการดำเนินการหลายอย่างและตัวแทนสามารถรับได้และนั่นคือเหตุผลที่เรามีแม็กซ์นี่ตรงนี้

08:24.260 --> 08:32.700
ดังนั้นโดยการดำเนินการสิ่งที่จะเกิดขึ้นกับตัวแทนดังนั้นสมมติว่าเราอยู่ในสถานะโดยการดำเนินการในสินทรัพย์ของรัฐและเราดำเนินการ

08:32.780 --> 08:36.690
สิ่งที่จะเกิดขึ้นคือจะได้รับรางวัลทันทีโดยเข้าสู่สถานะใหม่

08:36.770 --> 08:46.240
และจำไว้ว่ารางวัลอาจเป็นหนึ่งหรือบวกหนึ่งหรือลบหนึ่งถ้ามันจบเกมหรืออาจเป็นศูนย์ถ้ามันตลอดเกมในกรณีนี้รางวัลของเราตลอดทั้งเกมนั้นจะเป็นศูนย์

08:46.280 --> 08:55.160
นั่นคือรางวัลที่บวกเราจะเข้าสู่สถานะใหม่ซึ่งมีค่าของนายก

08:55.160 --> 08:57.820
นั่นคือคุณค่าของสถานะใหม่และแกมม่า

08:57.820 --> 08:58.820
เราจะพูดถึงมันในไม่ช้า

08:58.820 --> 09:05.810
แต่ประเด็นที่ฉันพยายามเพิ่มที่นี่หรือจุดที่ฉันเพิ่มที่นี่คือคุณมีการกระทำที่แตกต่างกันมากมายที่เราสามารถทำได้และนั่นคือสาเหตุที่เราได้รับประโยชน์สูงสุด

09:05.810 --> 09:09.630
ดังนั้นเมื่อลงมือทำเราก็จะได้รับรางวัลบวกกับเราก็อยู่ในสถานะใหม่

09:09.740 --> 09:14.660
ดังนั้นสำหรับทุกการเคลื่อนไหวในกรณีของเราก่อนการกระทำที่เป็นไปได้สำหรับการกระทำที่เป็นไปได้ 4

09:14.660 --> 09:17.810
อย่างเราจะได้สมการเช่นนี้

09:17.810 --> 09:22.980
ดังนั้นนี่จะมีค่าสำหรับพวกเขาจะมีค่าแตกต่างกันสำหรับทุก

09:23.480 --> 09:28.750
ๆ การกระทำสี่อย่างและเราจะดูเฉพาะสูงสุดเพราะแน่นอนว่าตัวแทนต้องการสถานะที่ดีที่สุด

09:28.760 --> 09:37.500
ดังนั้นถ้าเขาอยู่ในสถานะเขาจะดูค่าเหล่านี้เขาจะหาค่าสูงสุดตามการกระทำและไปดำเนินการนั้นที่ต้องการค่าสูงสุดเหล่านี้

09:37.640 --> 09:41.480
หวังว่านั่นจะเป็นเหตุผลว่าทำไมเราถึงได้สูงสุดที่นี่

09:41.660 --> 09:45.400
จากนั้นเมื่อเราได้รับรางวัลและค่าที่บอกว่าทำไมเราถึงมีพารามิเตอร์ Gabaa ที่นี่

09:45.650 --> 09:52.850
มีวิธีแก้ไขปัญหาตรงที่ตัวแทนไม่ทราบว่าต้องไปทางไหนเพราะไม่สามารถทำได้

09:52.950 --> 09:56.600
มันเป็นการเปรียบเทียบค่าของสองสถานะทั้งสองด้านและพวกมันเหมือนกัน

09:56.810 --> 10:02.050
นั่นเป็นเหตุผลที่นักการพนันเรียกว่าปัจจัยลดราคาดังนั้นเราจะได้ดูและเข้าใจได้ดียิ่งขึ้น

10:02.060 --> 10:04.680
งั้นลองสูตรที่ฉันจะวางไว้ที่นี่ด้านบนขวา

10:04.760 --> 10:09.100
และตอนนี้เราจะวิเคราะห์ว่าคุณค่าของรัฐต่าง ๆ คืออะไร

10:09.140 --> 10:11.470
และทุกรัฐที่นี่คือจตุรัส

10:11.470 --> 10:11.820
เลขที่

10:11.840 --> 10:18.290
หนึ่งในสี่เหลี่ยมสีขาวเหล่านี้อันใดอันหนึ่งคือสถานะที่ฉันหมายความว่าเราจะคำนวณค่าของการอยู่ในสถานะนั้น

10:18.290 --> 10:19.770
งั้นเริ่มจากสแควร์กัน

10:19.790 --> 10:21.610
คุณค่าของการอยู่ในสถานะนี้คืออะไร

10:21.860 --> 10:25.830
ทีนี้เราต้องใช้ค่าสูงสุดของค่านี้ในทุกการกระทำ

10:26.120 --> 10:40.900
และเรารู้ว่าค่านี้หมายถึงการขยายใหญ่สุดเมื่อเราเข้าใกล้เส้นชัยมากขึ้นและนั่นเป็นวิธีที่สร้างขึ้นและเพียงแค่มองดูคุณจะเห็นได้เพราะนี่คือรางวัลและนี่คือปัจจัยลดราคาคูณด้วยมูลค่าของสิ่งต่อไป สถานะ.

10:41.060 --> 10:50.350
และมันก็สมเหตุสมผลแล้วนั่นคือวิธีที่เราจะสร้างสมการนั้นดังนั้นมันจึงสมเหตุสมผลที่นี่ค่าสูงสุดนี้จะเป็นถ้าเราเลื่อนไปทางขวา

10:50.360 --> 10:57.470
นั่นคือวิธีที่เราคำนวณค่าที่ค่าของสถานะนี้คือเขาเรียกค่าสูงสุดหรือเท่ากับค่านี้

10:57.500 --> 11:01.000
หากเราไปทางขวาหากเราทำการเคลื่อนไหวทางขวา

11:01.010 --> 11:02.330
ค่านี้จะเป็นเท่าไหร่

11:02.360 --> 11:04.850
ผลตอบแทนจากการเลื่อนไปทางขวาเท่ากับ 1

11:05.090 --> 11:11.720
และไม่ว่าแกมมาสีใดที่เราไม่มีค่าในสถานะเพราะเราอยู่ในสถานะที่ดีที่สุดแล้ว

11:11.720 --> 11:12.880
ดังนั้นนี่คือขั้นตอนสุดท้าย

11:12.890 --> 11:16.280
มันจะไม่คุ้มค่าที่เราเพิ่งได้รับรางวัลที่นี่และนั่นคือจุดสิ้นสุดของเกม

11:16.280 --> 11:20.300
ดังนั้นค่าจะเท่ากับค่าสูงสุดนี้เท่ากับ 1

11:20.510 --> 11:23.870
และนั่นคือเหตุผลว่าทำไมมูลค่าของรัฐที่นี่เท่ากับ 1

11:23.870 --> 11:27.970
ตอนนี้สิ่งต่าง ๆ น่าสนใจเมื่อเราย้ายไปทางซ้ายเมื่อเราย้อนกลับไปเล็กน้อย

11:28.010 --> 11:34.060
ตอนนี้คำนวณค่าของการอยู่ในสถานะนี้และเราจะต้องใช้กาบา

11:34.070 --> 11:40.960
สมมุติว่าปัจจัยลดของเราคือศูนย์จุดเก้าและมันสมเหตุสมผลว่าปัจจัยลดคืออะไรเมื่อเราคำนวณสิ่งนั้น

11:40.960 --> 11:47.410
ดังนั้นจากที่นี่เพียงแค่ใช้สัญชาตญาณของเราและเพราะเรารู้ว่ามันทำงานอย่างไร

11:47.450 --> 11:51.340
เรารู้ว่าการกระทำที่ดีที่สุดคือไปทางขวาเพราะจากที่นี่เราไปที่นี่

11:51.530 --> 11:56.120
นั่นหมายความว่าคุณจะไปถึงจุดสูงสุดได้ในสถานะนี้

11:56.270 --> 11:58.970
ลองดูว่าจะเกิดอะไรขึ้นถ้าเราเสียบเข้าไปที่นี่

11:58.970 --> 12:02.650
ดังนั้นถ้าคุณไปจากที่นี่ไปที่นี่คุณจะไม่ได้รับรางวัลเลยเท่ากับศูนย์

12:02.720 --> 12:07.440
แต่จากนั้นคุณจะได้คามิที่รับจุดศูนย์เก้าเท่าของค่าสถานะใหม่ซึ่งก็คือ

12:07.640 --> 12:14.030
ดังนั้นในกรณีนี้ค่าผลลัพธ์ทั้งหมดของนี่คือ 1 คูณ a 0 9 คูณหนึ่งเท่ากับ 2 9

12:14.030 --> 12:15.890
นั่นคือค่าทั้งหมดต่อ

12:16.250 --> 12:18.570
ถ้าเราคำนวณนี่ตอนนี้คุณจะเห็นมันจากตรงนี้

12:18.620 --> 12:23.990
เรารู้เพียงแค่มองเขาวงกตที่เรารู้เพราะเราเป็นมนุษย์เพราะเราเข้าใจว่าสมการนี้ทำงานแน่นอนตัวแทน AI

12:23.990 --> 12:28.450
จะต้องทดลองกับสิ่งเหล่านี้

12:28.460 --> 12:32.180
แต่เนื่องจากเรามีเหมือนลูกบอลคริสตัลเราจึงเห็นเขาวงกตทั้งหมดนี้

12:32.180 --> 12:33.860
เราชอบมุมมองของนกในตอนนี้

12:33.860 --> 12:36.170
เรารู้ว่าการกระทำที่ดีที่สุดไปเพื่อไปทางขวา

12:36.320 --> 12:45.530
ดังนั้นถ้าเราเสียบมันทั้งหมดเข้าไปที่นี่มันจะไม่มีรางวัลเลยบวกกับรายงานเก้าครั้งของมูลค่าในสถานะ 0

12:45.530 --> 12:45.530
9 คือศูนย์จุดแปดสิบเอ็ดและอื่น ๆ

12:45.530 --> 12:50.420
ดังนั้นที่นี่จะเป็น 0 23 และเขาจะเป็น 0 66

12:50.420 --> 12:58.610
ดังนั้นคุณจะเห็นได้ว่าวิธีการทำงานของปัจจัยลดคือลดมูลค่าของรัฐเมื่อคุณอยู่ไกล

12:58.610 --> 13:05.810
ดังนั้นหากคุณคุ้นเคยกับทฤษฎีทางการเงินมันก็คล้ายกับมูลค่าเวลาของเงินอย่างที่คุณคิดเกี่ยวกับมันด้วยวิธีนี้สิ่งที่คุณต้องการมี $ 5 วันนี้หรือ $

13:05.810 --> 13:12.990
5 ใน 10 วันจากนี้

13:13.050 --> 13:18.280
ถ้ามีคนให้คุณเลือกฉันจะให้คุณห้าดอลลาร์ในวันนี้ทั้งหมดคุณ $ 5 10 วันจากทั้งหมด

13:18.390 --> 13:20.300
แน่นอนคุณจะเลือก $ 5 วันนี้

13:20.300 --> 13:20.850
ทำไมเป็นอย่างนั้น

13:20.870 --> 13:27.470
เพราะคุณสามารถรับ $ 5 และคุณสามารถลงทุนในอัตราดอกเบี้ยที่คล้ายกับแกมม่า

13:27.680 --> 13:33.950
และ $ 5 ของคุณใน 10 วันจะเติบโตเป็น 5 ดอลลาร์และ 73 เซนต์หรืออะไรทำนองนั้น

13:34.070 --> 13:36.410
และนั่นคือวิธีเวลาของเงิน

13:36.410 --> 13:38.310
และแนวคิดที่คล้ายกันมากที่นี่

13:38.330 --> 13:43.250
และสิ่งสำคัญที่ต้องทำความเข้าใจที่นี่นี่เป็นเพียงทฤษฎีที่เป็นวิธีที่เสริมการเรียนรู้

13:43.260 --> 13:45.850
ดังนั้นริชาร์ดเบลแมนจึงได้สมการนี้ขึ้นมา

13:46.190 --> 13:48.880
และจากนั้นตอนนี้เป็นวิธีที่เราใช้

13:48.880 --> 13:51.430
ดังนั้นคุณสามารถไปข้างหน้าและสร้างสมการอื่น

13:51.430 --> 13:54.820
มันไม่จำเป็นต้องมี Gamla มันอาจมีปัจจัยอื่น ๆ ที่คุณอาจไม่รู้ว่ามีปัจจัย

13:54.950 --> 14:06.670
แต่วิธีนี้ใช้งานได้และนั่นเป็นเหตุผลที่เราใช้งานอยู่และนี่คือสิ่งที่ดูเหมือนดังนั้นยิ่งคุณอยู่ไกลเท่าไรมูลค่าของการอยู่ในสถานะและในแง่ของเวลาและเงิน

14:06.680 --> 14:09.850
ถ้าฉันสามารถบอกคุณได้ว่าคุณอยากอยู่ที่นี่มากแค่ไหน

14:09.950 --> 14:11.200
คุณอยากอยู่ที่นี่ไหม

14:11.350 --> 14:12.920
คุณบอกว่าฉันอยากจะอยู่ที่นี่

14:12.920 --> 14:24.680
ดังนั้นเราจึงสร้างปรากฏการณ์นั้นขึ้นมาเช่นเดียวกับมูลค่าเวลาของเงินเรากำลังสร้างมันขึ้นมาผ่านแกมมาเพื่อที่จะสร้างแรงจูงใจให้กับตัวแทนหรือสร้างแรงบันดาลใจให้ตัวแทนใกล้เคียงกับเส้นชัย

14:24.680 --> 14:31.590
ดังนั้นถ้าจะถามตัวแทนคุณควรมาที่นี่หรือที่นี่เพราะวิธีการทำงานของสมการนี้

14:31.640 --> 14:33.380
ไม่มีอะไรมากไปกว่าการไม่ทำอะไรเลย

14:33.380 --> 14:35.810
ไม่ใช่สิ่งที่โลกทำเช่นนี้

14:35.810 --> 14:42.630
ไม่มันเป็นเพียงสิ่งที่เราสร้างขึ้นเพื่อให้ตัวแทนของเราเข้าใจว่านี่เป็นสิ่งที่ดีนี่คือสิ่งที่ดีนี่เป็นสิ่งที่เก่าดี

14:42.750 --> 14:50.030
แต่อันนี้ดีกว่าอันนี้ ได้รับในนี้

14:50.120 --> 14:54.790
และด้วยวิธีนี้คุณจะเห็นตัวแทนทั้งหมดสามารถดูทิศทางที่ต้องการได้

14:54.800 --> 15:05.130
ดังนั้นจะเห็นได้ว่าถ้าฉันยืนอยู่ที่นี่โปรดจำไว้ว่าปัญหาที่เรามีหรือเขากำลังยืนอยู่ที่นี่ดังนั้นถ้าคุณยืนอยู่ที่นี่ฉันจะลงหรือถ้าฉันอยู่ที่นี่เพื่อขึ้นหรือฉันลงไป

15:05.250 --> 15:11.480
ทีนี้ตอนนี้ก็ไม่มีปัญหาอีกต่อไปเพราะเขาเห็นว่ามันดีกว่าที่จะขึ้นไปเพราะค่าอยู่

15:11.550 --> 15:14.490
แล้วจากตรงนี้เขาต้องไปทางขวาเพราะค่ายิ่งกว่าตรงนี้

15:14.550 --> 15:17.480
และจากที่นี่ก็คือ Bertschi ไปทางขวาเพราะค่าที่นี่ใหญ่กว่าที่คุณรู้

15:17.670 --> 15:22.620
และจากตรงนี้เขารู้แล้วว่าเขาต้องไปถูกเพราะเขาจะได้รับรางวัลที่นี่

15:22.680 --> 15:24.960
นั่นคือวิธีการทำงานทั้งหมดนี้

15:24.960 --> 15:27.600
ทีนี้ลองดูที่ส่วนที่เหลือของสแควร์กัน

15:27.600 --> 15:29.800
แล้วเราจะคำนวณค่าในตารางนี้อย่างไร

15:30.030 --> 15:32.450
นี่คือสิ่งที่หากิน

15:32.460 --> 15:41.360
ดังนั้นจากตรงนี้คุณอาจไม่ไปทางขวาคุณอาจไปทางขวาเพื่อที่เราจะได้ทำแบบนั้นต่อไป

15:41.520 --> 15:44.720
สิ่งที่เราจะทำคือเราจะคำนวณค่าในสแควร์ก่อน

15:45.000 --> 15:48.200
และเพราะจากที่นี่วิธีที่ดีที่สุดที่จะขึ้นคือ

15:48.240 --> 15:52.740
อีกครั้งนั่นเป็นเพราะเราเห็นทีมงานที่เรามีลูกบอลคริสตัลที่เราสามารถเห็นสิ่งต่าง

15:52.740 --> 15:58.030
ๆ และคุณจะเห็นต่อไปในส่วนที่คุณจะเห็นว่าตัวแทนสำรวจจริงนี้เข้าใจสิ่งที่พวกเขาชอบผ่านการทดลอง

15:58.080 --> 16:06.410
แต่สำหรับพวกเราเรารู้ว่ามันจะดีกว่าถ้าจะไปทางนี้เราจะคำนวณค่าตรงนี้และนั่นคือสาเหตุที่เราจะคำนวณค่าในตารางนี้ก่อน

16:06.420 --> 16:09.230
ดังนั้นที่นี่เรามีสามการกระทำที่เป็นไปได้

16:09.270 --> 16:11.590
ในความเป็นจริงเรามีสี่ตัวที่เหลืออยู่

16:11.610 --> 16:15.330
ตัวแทนสามารถกดซ้ายและชนเข้ากับผนังได้โดยบังเอิญ

16:15.420 --> 16:26.780
แต่สำหรับชุดความเรียบง่ายซึ่งจะแสดงการกระทำที่เรารู้ว่าเรารู้และมีลูกบอลคริสตัลเรารู้ว่าการกระทำใดที่นำไปสู่สิ่งที่นอกเหนือไปจากรัฐเดียวกัน

16:26.850 --> 16:37.500
จากตรงนี้เรารู้อีกครั้งเพราะเรามีลูกบอลคริสตัลเรารู้ว่าวิธีที่ดีที่สุดคือวิธีที่ตัวแทนแน่นอนต้องทำการทดสอบและหาวิธีที่ดีที่สุดและคุณจะเห็นว่ามันเกิดขึ้นได้อย่างไร

16:37.560 --> 16:42.270
ยิ่งลงไปในส่วนที่คุณจะเห็นจริง ๆ ว่าตัวแทนเดินไปรอบ ๆ

16:42.360 --> 16:43.610
และวิธีที่คุณจะทดลองพยายามหาค่าเหล่านี้

16:43.620 --> 16:45.190
แต่สำหรับเราเรารู้ว่ามันเป็นอย่างนั้น

16:45.360 --> 16:50.420
ดังนั้นที่นี่ถ้าเราเสียบทุกอย่างเข้าด้วยกันดังนั้นค่าสูงสุดที่ดีที่สุดคือเมื่อคุณขึ้นไป

16:50.510 --> 16:53.820
และนี่คือรายงาน 9: 0 คุณก็ใส่มันเข้าไป

16:53.820 --> 16:55.870
คุณจะได้ศูนย์จุดเก้า

16:56.220 --> 16:58.730
ตกลงดังนั้นมันกะ Kalika ที่หนึ่งที่คำนวณอันนี้

16:58.770 --> 16:59.810
แนวทางเดียวกัน

16:59.820 --> 17:02.070
นี่คือคุณมีสามวิธีที่คุณสามารถไปได้

17:02.070 --> 17:05.580
จริง ๆ แล้วสี่สำหรับตัวแทน แต่สำหรับเราเราสามารถดูได้เพียงสาม

17:05.880 --> 17:10.780
ดังนั้นจุดศูนย์แปดสิบเอ็ดจากที่นี่คุณมีจุดศูนย์เจ็ดสิบสาม

17:11.130 --> 17:20.120
และมันผูกกับค่านี้เพราะคุณถ้าคุณลดอีกคุณใส่ 66 และตรงนี้คุณมี 0

17:20.120 --> 17:20.120
23 เพราะนี่คือเส้นทางที่ดีที่สุด

17:20.130 --> 17:21.190
ดังนั้นคุณไป

17:21.210 --> 17:23.750
นั่นคือค่าทั้งหมดของรัฐเหล่านี้

17:23.760 --> 17:41.840
และตอนนี้คุณสามารถเห็นได้ว่าเพราะเราได้สร้างสมการนี้หรือเราได้สร้างแนวความคิดทั้งหมดของการเข้าใกล้คุณถึงเส้นชัยที่มีคุณค่ามากกว่าที่รัฐไม่ได้เพราะเรากลัวว่า ตัวแทนที่ควรไป

17:41.970 --> 17:44.230
และเราจะพูดถึงสิ่งนี้เพิ่มเติมในอนาคต

17:44.910 --> 17:56.590
ฉันหวังว่าคุณจะสนุกกับเซสชั่นของวันนี้และฉันรู้ว่ามันอาจจะฟังดูธรรมดามากในขั้นตอนนี้ แต่เมื่อเราอ่านบทนี้

17:56.700 --> 18:01.500
ในเวลาเดียวกันถ้าคุณไม่สามารถรอถ้าคุณต้องการที่จะกระโดดลงไปในนั้นมีกระดาษที่คุณสามารถดูและมันเป็นกระดาษต้นฉบับโดย Richard

18:01.500 --> 18:04.290
Belman

18:04.290 --> 18:08.130
มันเรียกว่าทฤษฎีของการเขียนโปรแกรมแบบไดนามิกจาก 1954

18:08.370 --> 18:10.200
และคุณสามารถค้นหาได้ที่ลิงค์นี้

18:10.320 --> 18:16.490
และคุณก็ไปที่นั่นเพื่อที่คุณจะได้กระโดดลงไปและอ่านจากผู้เขียนสมการเบลแมน

18:16.620 --> 18:20.860
แต่โปรดจำไว้ว่านี่เป็นบทความที่ค่อนข้างหนักทางคณิตศาสตร์

18:20.970 --> 18:22.820
และในบันทึกนั้นฉันจะตามหาคุณต่อไป

18:22.850 --> 18:24.590
และจนกว่าจะสนุกกับ AI