WEBVTT

00:00.930 --> 00:03.970
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.990 --> 00:08.480
ดังนั้นเราจึงได้พูดถึงสมการเบลแมนและเราได้วิเคราะห์เขาวงกตเล็ก ๆ ของเรา

00:08.520 --> 00:11.100
ลองดูที่แผน

00:11.100 --> 00:12.400
แผนคืออะไร.

00:12.750 --> 00:14.650
นี่คือการวิเคราะห์หลักของเรา

00:14.670 --> 00:20.970
และเรารู้ว่าเราสามารถเห็นจริง ๆ แล้วระบุค่าของแต่ละรัฐที่เราเห็นว่าคุณค่าของการมีอยู่ในทุก ๆ

00:20.970 --> 00:23.310
รัฐคืออะไร

00:23.400 --> 00:27.810
ดังนั้น AI สามารถหรือตัวแทนสามารถนำทางเขาวงกตนี้

00:27.840 --> 00:28.770
ดังนั้นแผนคืออะไร

00:28.770 --> 00:41.420
แผนเป็นเหมือนแผนที่ขุมสมบัติสำหรับปัญญาประดิษฐ์แทนที่จะมองค่าเหล่านี้ซึ่งแทนที่พวกเขาด้วยลูกศรซึ่งระบุทิศทางที่ตัวแทนควรไป

00:41.490 --> 00:43.360
เพราะสิ่งเหล่านั้นเพราะมันรู้ค่าเหล่านั้น

00:43.350 --> 00:47.230
ดังนั้นสถานการณ์ที่สมบูรณ์แบบหลังจากที่ได้สำรวจสภาพแวดล้อมนี้

00:47.250 --> 00:50.860
มันรู้คุณค่าของการอยู่ในแต่ละรัฐดังนั้นคุณจึงสามารถสร้างแผนที่นี้ขึ้นมาได้

00:50.870 --> 00:52.330
ลองดูอีกครั้ง

00:52.380 --> 01:02.010
เรารู้ว่าคุณค่าของคุณดังนั้นถ้าคุณอยู่ที่นี่จากค่าที่ดีกว่าคือนี่เมื่อคุณไปจากที่นี่จากสองอันนี้คืออันที่ดีกว่าอันนี้ดีกว่า

01:02.010 --> 01:02.750
อันนี้ดีกว่า

01:02.760 --> 01:04.740
หรือจากตรงนี้คุณมีสองทางเลือก

01:04.770 --> 01:18.390
ดังนั้นเขาจึงเป็นเหมือนเน็คไทดังนั้นเพียงแค่เลือกแบบสุ่มไม่สำคัญเพราะค่าในกรณีนี้จะเหมือนกันและมากกว่าดังนั้นแม้ว่าคุณจะมองผ่านมันจะใช้จำนวนก้าวเท่ากัน ขั้นตอนเพื่อไปยังจุดสิ้นสุด

01:18.690 --> 01:22.520
จากที่นี่คุณมีสามตัวเลือก แต่อันนี้คุ้มค่ากว่าที่นี่

01:22.530 --> 01:24.360
อันนี้คุ้มค่าดีกว่าจากที่นี่

01:24.360 --> 01:29.380
เห็นได้ชัดว่านี่เป็นค่าที่ดีกว่าเพราะคุณรู้ว่าคุณเพิ่งได้รับมันลบหนึ่งรางวัล

01:29.590 --> 01:35.250
และจากตรงนี้คุณมีสามอย่างจริง ๆ แต่อันนี้เป็นค่าที่ดีที่สุดของรัฐ

01:35.400 --> 01:44.570
ดังนั้นถ้าเราแทนที่พวกมันด้วยลูกศรมันก็สมเหตุสมผลว่านี่เป็นวิธีที่เอเจนต์จะไปถ้ามันเป็นดาวที่นี่หรือแก้ด้วยเหตุผลบางอย่างที่มันสิ้นสุดลงในตารางนี้

01:44.580 --> 01:46.070
มันรู้วิธีออกไปจากที่นี่

01:46.280 --> 01:48.980
ดาวและสี่เหลี่ยมจัตุรัสรู้วิธีเดินทางต่อไปเรื่อย ๆ

01:48.980 --> 01:51.440
นั่นคือแผนคืออะไร

01:51.440 --> 02:02.380
และอย่าสับสนแผนกับนโยบายเพราะเรากำลังจะพูดถึงนโยบายของอิหร่านมีลักษณะคล้ายกับแผน แต่พวกเขามีกลอุบายเล็กน้อยกับพวกเขาเพราะสภาพแวดล้อมจะแตกต่างกันเล็กน้อย

02:02.420 --> 02:07.560
มันจะสุ่มและนั่นคือสิ่งที่เรากำลังจะพูดถึงในบทช่วยสอนถัดไป

02:07.910 --> 02:10.000
ดังนั้นจงมาหาคุณในวันต่อไป

02:10.020 --> 02:12.060
และจนกว่าจะถึงตอนนั้น
