WEBVTT

00:01.090 --> 00:04.270
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.290 --> 00:07.260
วันนี้เรากำลังพูดถึงโทษประหารชีวิต

00:07.600 --> 00:13.540
เอาล่ะที่นี่เรามีสมการเบลแมนทั้งหมดและเมื่อเราได้ผ่านหลักสูตรนี้เราจะค่อยๆสร้างความซับซ้อนมากขึ้นเรื่อย

00:13.540 --> 00:20.030
ๆ จนถึงตอนนี้เราได้เพิ่มความน่าจะเป็นเหล่านี้ที่นี่

00:20.200 --> 00:22.930
และเราได้เพิ่มปัจจัยลดราคาลง

00:22.930 --> 00:28.440
ตอนนี้เราจะดูรายละเอียดเพิ่มเติมที่ด้านนี้ของคำถามที่เรามีรางวัลตอนนี้

00:28.480 --> 00:45.600
จำไว้ก่อนหน้านี้เมื่อเราพูดคุยเกี่ยวกับวิธีการเรียนรู้การเสริมแรงที่เราพูดว่าเรามีตัวแทนและดำเนินการในสภาพแวดล้อมและในการแลกเปลี่ยนหรือเป็นผลมาจากการที่มันได้รับสถานะใหม่และตอนนี้และเป็นรางวัลสำหรับการกระทำนั้น

00:45.610 --> 00:58.640
ในตัวอย่างของเราจนถึงตอนนี้เราเพิ่งได้รับรางวัลเมื่อสิ้นสุดอย่างใดอย่างหนึ่งเช่นถ้าเราไปถึงเส้นชัยหรือถ้าเราสำหรับตัวแทนจบลงในหลุมไฟเขาได้รับรางวัลบวกหนึ่งหรือหนึ่งลบ

00:58.960 --> 01:11.380
แต่นั่นเป็นวิธีการที่ง่ายมากในการเสริมการเรียนรู้และในสถานการณ์ที่เหมือนจริงมากขึ้นคุณจะได้รับรางวัลตลอดการเดินทางไม่ใช่แค่ในตอนท้ายคุณอาจมีรางวัลตลอดการเดินทาง

01:11.380 --> 01:20.680
ตัวอย่างเช่นถ้าเป็น AI

01:20.680 --> 01:26.320
ที่เล่นเกมและถ้าเป็นเช่นการยิงใครสักคนในการลงโทษมันอาจได้รับคะแนนจากการฆ่าศัตรูนั้นหรืออาจเป็นเกมอื่น

01:26.470 --> 01:32.260
ถ้ามันแซงรถคันอื่นหรืออะไรทำนองนั้นเพียงเพราะกฎของเกมไม่ใช่เพราะมันเป็นวิธีการวิเคราะห์เกม

01:32.260 --> 01:43.230
แต่จริงๆแล้วเกมนั้นมีโครงสร้างในแบบที่มันตอกย้ำให้คะแนนสำหรับการกระทำบางอย่างก่อนที่เกมจะ เกิน.

01:43.540 --> 01:49.570
ดังนั้น Sinatras

01:49.570 --> 01:55.120
เช่นนั้นเป็นเรื่องธรรมดามากและไม่ใช่แค่ในเกมและในชีวิตจริงและนั่นเป็นสาเหตุที่เราจะแนะนำสิ่งที่คล้ายกับตัวอย่างของเราในเวอร์ชั่นที่เรียบง่าย

01:55.330 --> 02:04.450
แต่ก็เป็นรางวัลที่มอบให้ตัวแทนตลอดเกม ไม่เพียงแค่ตอนจบและวิธีที่เราจะทำก็คือการดูกระเบื้องอื่น ๆ

02:04.450 --> 02:10.060
ตอนนี้เรามีรางวัลบวกหนึ่งเท่านั้นที่ไทล์สุดท้ายและรางวัลลบ 1 ที่ไทล์สุดท้ายอื่น ๆ ของ

02:10.060 --> 02:11.530
firepit

02:11.800 --> 02:14.310
แต่ตอนนี้เรากำลังจะเพิ่มรางวัลในทุก ๆ ครั้ง

02:14.430 --> 02:17.770
เราจะเพิ่มรางวัลเล็กมาก ๆ ให้เท่ากับลบ 0 04

02:17.770 --> 02:31.000
และอย่างที่คุณเห็นมันเป็นลบดังนั้นทุกครั้งที่ตัวแทนเขาจะได้รับรางวัลเชิงลบและนั่นคือสิ่งที่เรียกว่าโทษชีวิตเพราะไม่ว่าเขาจะไปที่ไหนเขาจะได้รับรางวัลเชิงลบนี้เสมอยกเว้นกระเบื้องสุดท้ายเพราะนั่นคือจุดสิ้นสุดของ เกม.

02:31.300 --> 02:35.120
และเพื่อให้คุณสามารถเห็นรางวัลแม้บนกระเบื้องนี้เป็นความบ้าคลั่งหรือปริศนา

02:35.170 --> 02:37.960
แต่นั่นไม่ได้หมายความว่าเขาเริ่มต้นด้วยรางวัลนั้น

02:37.960 --> 02:39.470
เขาได้รับรางวัลนี้เท่านั้น

02:39.760 --> 02:51.110
และนี่เป็นสิ่งสำคัญที่ต้องจำไว้ว่าเขาจะได้รับรางวัลของเขาเมื่อเขาเข้ามาในไพ่เท่านั้นดังนั้นเมื่อใดก็ตามที่เขาสัญญาว่าจะไปที่นี่จากนั้นเขาจะได้รับรางวัลนี้เป็นลบ 0

02:51.130 --> 02:53.650
04 จากนั้นเขากลับมาที่สไตล์นี้เขาจะได้รับใจอีกคนและ 0 04 คำ

02:53.770 --> 03:00.370
และยิ่งเขาเดินไปรอบ ๆ

03:00.370 --> 03:03.870
นานเท่าไหร่เขาก็ยิ่งสะสมของรางวัลติดลบดังนั้นเขาจึงเป็นแรงจูงใจให้เขาเล่นเกมให้จบเร็วที่สุดเท่าที่จะทำได้

03:03.890 --> 03:14.150
ตอนนี้เรามาดูกันว่านโยบายของเราหรือนโยบายของตัวแทนจะเปลี่ยนแปลงอย่างไรขึ้นอยู่กับมูลค่าที่เรากำหนดไว้สำหรับรางวัลนี้

03:14.410 --> 03:18.730
ดังนั้นที่นี่มีสี่สภาพแวดล้อมและในแต่ละคนเราจะสำรวจที่แตกต่างกัน

03:18.770 --> 03:21.070
เราจะไม่ทำการคำนวณ

03:21.130 --> 03:25.690
เราแค่จะฉายผลลัพธ์และคุณจะเห็นว่าพวกมันใช้งานได้จริง

03:25.690 --> 03:31.820
ดังนั้นที่นี่เราได้รับรางวัลสำหรับขั้นตอนใด ๆ ที่เสนอเพื่อเข้าสู่สถานะใด ๆ

03:32.050 --> 03:32.830
เท่ากับศูนย์

03:32.830 --> 03:36.890
อย่างที่เราเห็นมาก่อนหน้านี้รางวัลจะเป็น 0 ของ Mei 0

03:36.910 --> 03:43.150
สำหรับสิ่งที่เราเพิ่งทำไปตอนนี้คุณรู้แล้วว่ารางวัลจะอยู่ที่ลบ 0 5

03:43.150 --> 03:47.690
หรือระดับของการลงโทษจะเป็นของฉันเปิดไฟสูงกว่ามากคุณสามารถดูได้ที่นี่มากกว่า 10 ครั้ง

03:47.800 --> 03:50.170
และนี่คือห้องโถงที่มีชีวิตมันจะถูกลบด้วยสอง

03:50.170 --> 04:00.700
ดังนั้นยิ่งกว่าของรางวัลที่คุณได้รับสำหรับการกระโดดหรือแม้แต่น้อยกว่าของรางวัลที่คุณเป็นตัวแทนได้รับสำหรับการสิ้นสุดในหลุมไฟ

04:00.700 --> 04:09.160
ดังนั้นเรามาดูกันว่าการกระทำหรือนโยบายที่เหมาะสมที่สุดสำหรับการผ่านสภาพแวดล้อมนี้จะเปลี่ยนไปอย่างไรขึ้นอยู่กับรางวัลนี้

04:09.170 --> 04:11.560
นี่คือนโยบายดั้งเดิมของเรา

04:11.920 --> 04:18.280
และอย่างที่คุณสามารถจำได้ว่าเรามีสองสิ่งที่น่าสนใจและแม้แต่การตัดสินใจแปลก ๆ

04:18.280 --> 04:23.950
โดยตัวแทน

04:23.950 --> 04:30.430
หากคุณสามารถเดินทางไปรอบ ๆ ตราบเท่าที่เขาต้องการโดยไม่ถูกลงโทษสำหรับการมีชีวิตอยู่นานมาก

04:30.670 --> 04:38.470
เขาทำไมไม่ทำไมเขาไม่ไปที่มุมกำแพงตรงนี้และทำต่อไปจนกว่ามันจะเกิดขึ้น

04:38.470 --> 04:41.300
มันเกิดขึ้นที่เขาไปทางนี้แล้วเขาจะเดินไปรอบ ๆ

04:41.500 --> 04:53.680
และสิ่งเดียวกันที่นี่มันปลอดภัยกว่าสำหรับเขาที่จะกระโดดเข้าไปในกำแพงโดยหวังว่าสิ่งเหล่านี้จะเกิดขึ้นในที่สุดและจากนั้นเขาก็จะไปที่เส้นชัยต่อไปเพราะการเลือกสองสิ่งนี้ .

04:53.690 --> 04:59.950
ตอนนี้เรามาดูกันว่าจะเกิดอะไรขึ้นถ้าเราเพิ่มรางวัลเชิงลบสำหรับการเป็นเพียงชีวิต

05:00.270 --> 05:04.960
ย้ายมาที่นี่คุณจะเห็นว่าทั้งสองเปลี่ยนแปลงทันที

05:04.970 --> 05:07.940
ตอนนี้ตัวแทนไม่ต้องการกระโดดเข้าไปในกำแพง

05:07.940 --> 05:13.490
เขามีแนวโน้มที่จะเสี่ยงต่อการถูกไฟไหม้โดยมีโอกาสกระโดดถึง 10 เปอร์เซ็นต์

05:13.490 --> 05:19.400
แต่เขาจะเดินหน้าต่อไปเพราะทุกครั้งที่เขามาดูที่นี่ถ้าเขาจะทำที่นี่เช่นกันทุกครั้งที่เขากระโดดเข้าเขา ทำการกระทำที่เขาเข้าสู่สถานะนี้ด้วยโอกาส 80

05:19.850 --> 05:24.990
เปอร์เซ็นต์

05:25.010 --> 05:31.180
และนั่นหมายถึงโอกาส 80 เปอร์เซ็นต์ที่คุณจะได้รับลบ 0

05:31.190 --> 05:34.940
04 รางวัลหมายความว่าหลายครั้งที่เขาจะได้รับสิ่งนี้สะสมรางวัลเชิงลบนี้

05:34.940 --> 05:42.780
สิ่งเดียวกันที่นี่ถ้าเขากระโดดเข้าไปในกำแพงรอช่วงเวลานั้นเมื่อเขาจะถูกย้ายแบบสุ่มไปทางขวา

05:42.980 --> 06:02.840
หากเขายังคงทำเช่นนั้นเขาจะสะสมรางวัลเชิงลบนี้และผลลัพธ์ของการที่ถ้าคุณทำการคำนวณคุณจะเห็นว่าผลลัพธ์ของค่าที่คาดหวังของวิธีการที่กระโดดไปที่กำแพงนั้นแย่กว่าการเสี่ยงต่อการก้าวไปข้างหน้า และจบลงด้วยการอยู่ในกองไฟ

06:02.840 --> 06:18.830
ดังนั้นเขาจึงเปลี่ยนการตัดสินใจของเขาในบล็อกทั้งสองนี้เพื่อย้ายไปข้างหน้าแทนและที่นี่ย้ายไปทางซ้ายแม้จะรู้ว่ามีความเสี่ยงของการเกิดเพลิงไหม้เพียงเพราะตอนนี้เขายิ่งมีชีวิตอยู่นานขึ้นอีกต่อไป

06:18.830 --> 06:24.590
ตอนนี้เรากำลังเพิ่มค่า Pouncey ที่มีชีวิตเป็นจำนวน Meinzer ที่มากขึ้นซึ่งเป็นจุดห้า

06:24.860 --> 06:27.220
ดังนั้นตอนนี้คุณจะเห็นว่าเมื่อเทียบกับสภาพแวดล้อมนี้

06:27.260 --> 06:31.740
สิ่งเดียวที่เปลี่ยนแปลงที่นี่คือลูกศรนี้ชี้ไปทางขวา

06:32.060 --> 06:42.340
และนั่นหมายความว่าตอนนี้มันไม่มีทางเลือกที่ดีอีกต่อไปสำหรับเอเจนต์หรือที่จริงแล้วลูกศรชี้นี้ชี้ไปทางซ้ายและจมูกชี้ขึ้น

06:42.350 --> 06:48.740
ดังนั้นตอนนี้จึงไม่ใช่ความคิดที่ดีอีกต่อไปที่ตัวแทนจะเดินไปรอบ ๆ จากที่นี่หรือไปรอบ

06:49.100 --> 06:54.030
ๆ เพราะถ้าเขาทำผิดไปตลอดทางใช่เขาปลอดภัยหรือมีโอกาสน้อยกว่าที่จะไม่มีไฟ

06:54.320 --> 06:57.640
แต่ในเวลาเดียวกันหรือมีโอกาสน้อยที่จะเกิดขึ้น

06:57.710 --> 07:03.140
แต่ในเวลาเดียวกันเขาจะสะสมรางวัลลบมากมายเมื่อเขาเดินไปรอบ ๆ

07:03.140 --> 07:05.540
ดังนั้นมันเป็นเพียงเส้นทางที่ยาวเกินไป

07:05.540 --> 07:12.350
ดังนั้นมันจึงบังคับให้เขาไม่ว่าเขาจะอยู่ที่นี่หรือที่นี่เพื่อใช้เส้นทางที่สั้นกว่าเพื่อมาที่นี่แม้ว่าเขาจะมีความเสี่ยงสูงกว่าที่จะเข้าไปใน firepit

07:12.350 --> 07:19.350
เพราะทันทีที่เขาเข้ามาในจัตุรัสมีโอกาส 10 เปอร์เซ็นต์ที่จะลุกไหม้ .

07:20.120 --> 07:21.760
ตามการคำนวณของเขา

07:21.800 --> 07:30.480
เป็นเพียงมูลค่าที่คาดหวังของวิธีการนี้ดีกว่ามูลค่าที่คาดว่าจะเกิดขึ้นเพียงเพราะเราได้เพิ่มบทลงโทษชีวิต

07:30.710 --> 07:37.130
และในที่สุดเราก็ถึงตัวอย่างพร้อมกับโทษชีวิตลบสองจุดศูนย์

07:37.130 --> 07:44.430
ดังนั้นที่นี่ฉันขอแนะนำให้คุณโพสต์วิดีโอทันทีที่คุณได้เห็นว่านโยบายมีการเปลี่ยนแปลงอย่างไรเมื่อเราเพิ่มการลงโทษถ่อถ่อ

07:44.450 --> 07:49.850
ฉันขอแนะนำให้คุณหยุดวิดีโอชั่วคราวและคิดด้วยตัวเองว่าจะเกิดอะไรขึ้นในสถานการณ์นี้

07:49.850 --> 07:58.280
คุณคิดอย่างไรกับนโยบายที่ดีที่สุดจะได้รับโทษประหารชีวิตสูงมากดังนั้นวิดีโอทั้งหมดนี้หากคุณต้องการ

07:58.490 --> 08:13.460
และตอนนี้ฉันจะข้ามไปแสดงวิธีแก้ปัญหาให้คุณในกรณีนี้ถ้าคุณเพิ่มบทลงโทษเป็นลบ 2

08:13.460 --> 08:13.460
0 มันสูงมากโปรดจำไว้ว่าบทลงโทษนี้มีค่าลบ 1 เท่านั้น

08:13.680 --> 08:18.540
0 มันสูงมากจนเอเจนต์ต้องการออกจากเกมในทางที่เป็นไปได้แม้ว่ามันจะเป็นเพียงแค่กระโดดลงไปในหลุมไฟ

08:18.560 --> 08:19.200
เขาจะทำมัน

08:19.220 --> 08:30.020
เขาจะเป็นเหมือนทุกครั้งที่ฉันทำขั้นตอนทุกครั้งที่ฉันจบใหม่ในรัฐของคุณหรือทุกครั้งที่ฉันทำการกระทำฉันท้ายได้รับรางวัลลบสอง

08:30.020 --> 08:36.280
ดังนั้นสิ่งที่เป็นจุดของการพยายามที่จะไปถึงเส้นชัยถ้าจากที่นี่จะพาฉันสองขั้นตอนพิเศษ

08:36.350 --> 08:49.190
ฉันแค่จะไปที่นี่แล้วตรงเข้าไปใน firepit เพราะวิธีการที่รางวัลของฉันจะน้อยกว่ารางวัลเชิงลบจะเลวร้ายเหมือนในกรณีที่ทำตามขั้นตอนเพิ่มเติมดังนั้นคุณจะเห็นว่าการเพิ่มชีวิต

08:49.190 --> 08:59.270
รางวัลและขึ้นอยู่กับมูลค่าของรางวัลการดำรงชีวิตที่เรากำลังเพิ่มผลลัพธ์จะแตกต่างกัน

08:59.270 --> 09:13.790
และเอเจนต์จะเลือกนโยบายที่แตกต่างกันและนั่นคือสิ่งที่ว่ามูลค่าของรางวัลสามารถรวมเข้ากับสมการเบลมอนต์ได้แม้ว่ามันจะไม่ใช่แค่ที่เส้นชัยหรือในตอนท้ายของเกม แต่ก็ตลอดทั้งเกม

09:13.790 --> 09:20.180
และอีกครั้งไม่จำเป็นต้องอยู่ทุก ๆ ครั้งในทุก ๆ รัฐขึ้นอยู่กับสภาพแวดล้อม

09:20.180 --> 09:26.540
มันอาจมอบให้กับตัวแทนในบางรัฐไม่ได้ที่ทุกรัฐ แต่ในตัวอย่างง่าย ๆ

09:26.540 --> 09:29.880
ของเราเราเพียงแค่ใช้รางวัลในทุกรัฐ

09:30.050 --> 09:34.470
เพื่อแสดงแนวคิดนี้ดังนั้นฉันหวังว่าคุณจะสนุกกับการสอนวันนี้

09:34.580 --> 09:40.550
และอย่างที่คุณเห็นเราได้ทำสมการ Belman

09:40.550 --> 09:44.340
ของเราค่อนข้างซับซ้อนและตอนนี้มันสามารถนำไปใช้กับสถานการณ์ที่แตกต่างกันมากมายและฉันไม่สามารถรอดูในบทช่วยสอนถัดไป

09:44.360 --> 09:46.200
และจนกว่าจะสนุกกับ
