WEBVTT

00:01.040 --> 00:04.020
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.040 --> 00:07.040
วันนี้เรากำลังพูดถึง Kule learning

00:07.070 --> 00:13.120
เอาล่ะเราได้สมการนี้มาแล้วสมการของเบลเมนที่เราได้เพิ่มส่วนประกอบเข้าไปมากมาย

00:13.130 --> 00:19.910
เราได้รับรางวัลที่นี่ซึ่งไม่ได้เป็นเพียงแค่จุดจบ แต่มันอาจเป็นไปได้ในทุกขั้นตอน

00:19.940 --> 00:21.920
เราได้ส่วนลดมาแล้ว

00:21.950 --> 00:26.880
เรามีความน่าจะเป็นเพราะตอนนี้เรากำลังมองหากระบวนการตัดสินใจ

00:26.900 --> 00:35.210
และที่นี่เรามีความเป็นไปได้ที่จะสิ้นสุดในรัฐต่าง ๆ ไม่ว่าเราจะทำอะไรหรือได้รับการกระทำที่เราทำ

00:35.210 --> 00:40.670
อาจมีหลายสถานะที่เราสามารถลงเอยได้แล้วเราก็จะได้คุณค่าของสถานะถัดไปเพราะเขาเป็นเหมือนฟังก์ชันแบบเรียกซ้ำและอื่น

00:40.670 --> 00:46.790
ๆ แต่คุณอาจมีคำถามหนึ่งข้อ

00:46.820 --> 00:53.560
คำถามคือที่ใดทั้งหมดนี้ไม่มีจดหมายถามทำไมจึงเรียกว่า q

00:53.750 --> 00:54.270
การเรียนรู้

00:54.350 --> 00:55.790
ดังนั้นจุดที่อยู่ที่ไหน

00:55.910 --> 00:58.940
และนั่นคือคำถามที่เราจะตอบในวันนี้

00:58.940 --> 01:09.820
จนถึงตอนนี้เราได้จัดการกับคุณค่าของการอยู่ในสถานะที่แน่นอนและตอนนี้เรากำลังจะดูว่า Q เหมาะสมกับสิ่งนั้นทั้งหมดอย่างไร

01:10.070 --> 01:16.360
ดังนั้นที่นี่เรามีสองตัวอย่างทางซ้ายคือสิ่งที่เราจะทำจนถึงตอนนี้ตัวแทนของเรากำลังวิเคราะห์

01:16.400 --> 01:18.170
ตกลงฉันอยู่ตรงนี้

01:18.230 --> 01:21.640
นี่เป็นสัญลักษณ์ของกระบวนการตัดสินใจดังนั้นไม่สำคัญว่าฉันจะมาที่นี่ได้อย่างไร

01:21.770 --> 01:28.250
สภาพแวดล้อมที่เหลือไม่ได้สนใจขั้นตอนใดที่ทำให้ฉันต้องมาที่นี่ตั้งแต่นี้เป็นต้นไป

01:28.460 --> 01:32.050
ฉันต้องตัดสินใจอย่างดีที่สุดว่าจะไปที่นี่หรือที่นี่

01:32.060 --> 01:37.280
ขึ้นอยู่กับสถานะปัจจุบันและรัฐในอนาคตทั้งหมดที่มาจากที่นี่ แต่ไม่ได้มาจากอดีต

01:37.490 --> 01:42.010
และเพื่อให้เขาเห็นว่ามีสามตัวเลือกมีสถานะหนึ่งรัฐเป็นสามรัฐ

01:42.260 --> 01:49.880
และจากประสบการณ์ของเขาเขาได้คำนวณค่าในรัฐเหล่านี้และตอนนี้เขาจะใช้สมการ Bellmen

01:49.880 --> 01:54.260
ดังนั้นแม้ว่านี่จะเป็น Proceso แบบคลาสสิกที่เขารู้ว่าเขาจะไปที่นี่ แต่ก็มีโอกาสที่เขาจะออกไปทางขวาและอื่น

01:54.260 --> 01:56.120
ๆ

01:56.110 --> 02:03.470
จากค่านิยมเหล่านี้ที่จะทำการตัดสินใจนั่นคือสิ่งที่เราทำจนถึงตอนนี้และนี่คือแนวทางที่ถูกต้องตามกฎหมายทั้งหมด

02:03.560 --> 02:05.640
แต่ตอนนี้เราได้รับการแก้ไขเล็กน้อย

02:05.660 --> 02:21.440
เราจะนำแนวคิดที่แน่นอนเหมือนกันปัญหาที่แน่นอนเหมือนกัน แต่ที่นี่แทนที่จะดูค่าของแต่ละรัฐว่าเขาสามารถลงเอยด้วยการที่เราจะดูค่าหรือมูลค่าของแต่ละการกระทำ

02:21.440 --> 02:25.640
ดังนั้นเราจะไม่ใช้ตัวอักษร V

02:25.640 --> 02:30.740
อีกต่อไปเพราะคุณค่าของรัฐเราจะใช้คิวและคุณอาจมีคำถามว่าทำไมตัวอักษร Q ดี

02:30.740 --> 02:32.300
Q บางคนคิดว่า

02:32.300 --> 02:33.760
ถามฉันจะอ่านสิ่งนี้ไหม

02:33.770 --> 02:35.420
ฉันคิดถึง Quora

02:35.420 --> 02:41.480
บางคนกล่าวว่า Q เป็นเพราะคุณภาพ

02:41.480 --> 02:45.520
แต่ในขณะเดียวกันฉันไม่สามารถหาการอ้างอิงอื่น

02:45.920 --> 02:50.750
ๆ ได้ดังนั้นจึงอาจไม่ใช่เพราะนั่นอาจเป็นเพราะนั่นคือจดหมายที่ใช้ในเวลานั้น ทั้งหมดเรียกว่าการเรียนรู้ที่สำคัญเพราะสิ่งนั้น

02:50.780 --> 02:52.520
ดังนั้นจึงไม่มีเหตุผลที่แน่นอนถูกระงับ

02:52.530 --> 02:58.830
Q แต่อย่างน้อยก็ช่วยให้เราแยกแยะความแตกต่างระหว่าง V และ Q ดังนั้น Q ที่นี่

02:58.850 --> 03:03.340
มีของขวัญมากกว่าคุณค่าของรัฐที่แสดงถึงการปล่อยให้มีคุณภาพ

03:03.410 --> 03:06.260
มันหมายถึงคุณภาพของการกระทำที่แสดงถึง

03:06.260 --> 03:07.980
ตกลงฉันมีสี่การกระทำ

03:08.300 --> 03:10.860
อะไรคือคุณสมบัติที่แตกต่างของการกระทำเหล่านี้

03:10.860 --> 03:16.340
มูลค่าของการกระทำหรือคุณภาพของการกระทำใดที่การกระทำนั้นมีกำไรมากขึ้นดังนั้นฉันต้องการตัวชี้วัดที่บอกฉันอย่างถูกต้องว่าฉันจะหาจำนวนการกระทำนี้แล้วจากนั้นฉันสามารถเปรียบเทียบพวกเขาและนั่นคือสิ่งที่

03:16.340 --> 03:23.200
Q คือ

03:23.470 --> 03:26.240
ดังนั้นเขาจึงมีการกระทำสี่อย่างที่เป็นไปได้

03:26.360 --> 03:29.240
ขึ้นไปทางซ้ายหรือขวาเสมอ

03:29.240 --> 03:38.410
และจากการกระทำนั้นจะมีสูตรที่บอกให้เราทราบค่าเชิงปริมาณของการกระทำนั้นซึ่งเราเรียกค่าคิวคิวของการกระทำนั้น

03:38.630 --> 03:41.700
ลองมาดูกันว่าเราจะได้สูตรนี้มาอย่างไร

03:41.710 --> 03:44.510
Q มันเกี่ยวข้องกับสิ่งเหล่านี้อย่างไร

03:44.510 --> 03:51.850
เพราะอย่างที่คุณสามารถจินตนาการได้เพราะการกระทำที่นำไปสู่รัฐต้องมีการเชื่อมโยงบางอย่างระหว่างทั้งสอง

03:51.870 --> 03:56.060
ถูกต้องแล้วเราได้กำหนดวิธีคำนวณนี้ไว้แล้วและเราทำได้ดีทีเดียว

03:56.060 --> 04:02.030
เรารู้วิธีใช้สมการของเบลแมนในสภาพแวดล้อมที่แตกต่างกันมากและมีภาวะแทรกซ้อนต่าง ๆ มากมาย

04:02.270 --> 04:06.080
ลองมายกระดับความรู้นั้นเพื่อทำความเข้าใจว่าตอนนี้เราสามารถคำนวณได้อย่างไร

04:06.080 --> 04:16.530
Q เพื่อให้การคาดการณ์เหมือนกันเพราะคุณสามารถจินตนาการถึงสภาพแวดล้อมที่ไม่เปลี่ยนแปลงขึ้นอยู่กับว่าเราใช้สภาพแวดล้อมแบบใดจะเป็นแบบเดียวกันโดยไม่คำนึงถึง

04:16.550 --> 04:24.690
ดังนั้นวิธีการนี้และวิธีการนี้ควรให้ผลลัพธ์เดียวกันเสมอและนั่นคืออีกเหตุผลว่าทำไมทั้งสองควรเชื่อมโยง

04:25.100 --> 04:26.290
ดังนั้นเรามาดู

04:26.300 --> 04:32.260
นี่คือวิธีการมองของเราที่เราเพิ่งจะดูค่าของสถานะใด ๆ ที่ระบุรัฐนี้หรือรัฐอื่น

04:32.420 --> 04:37.190
และที่นี่เราไปสู่เราเพียงแค่ใช้ลูกค้าเป้าหมายที่นี่เพราะนั่นคือสถานะปัจจุบัน

04:37.190 --> 04:43.730
ดังนั้นคำศัพท์จะเหมือนกันทั้งสองสมการและที่นี่เราใช้ q เป็น q

04:43.790 --> 04:45.520
เป็นของรัฐและการกระทำ

04:45.540 --> 04:51.970
A เพราะการกระทำนั้นขึ้นอยู่กับการที่เราทำการกระทำนั้น ๆ

04:53.000 --> 04:57.230
ตกลงดังนั้นตอนนี้เรากำลังจะออกสมการ

04:57.230 --> 05:08.660
Belman สำหรับวิธีแรกในขณะที่คุณเห็นที่นี่เรามีของหรือมูลค่าของรัฐใด ๆ ที่เป็นสูงสุดของรางวัลที่คุณได้รับเดิมพันสูงสุดตาม ในการกระทำที่คุณมีสาม

05:08.690 --> 05:29.420
ในกรณีนี้คุณมีสี่การกระทำเพื่อให้ได้ประโยชน์สูงสุดจากการกระทำที่เป็นไปได้ทั้งหมดของส่วนนี้ซึ่งเราได้ยินมาแล้วหลายต่อหลายครั้งดังนั้นนี่คือรางวัลของเราที่เราได้รับจากการกระทำนั้น คุณค่าของสถานะใหม่ที่เรากำลังจะอยู่ในค่าที่คาดหวังเพราะมันเป็นกระบวนการสุ่ม

05:29.420 --> 05:36.050
เราไม่รู้แน่ชัดว่าเราจะลงเอยที่นี่เราอาจลงเอยทางซ้ายหรือขวาของความน่าจะเป็น

05:36.050 --> 05:38.230
นั่นเป็นเหตุผลที่ความน่าจะเป็นเหล่านี้อยู่ในตัวคุณ

05:38.240 --> 05:40.290
เอาล่ะนั่นคือคุณค่าของเรา

05:40.350 --> 05:41.150
ทีนี้มาดูกัน

05:41.150 --> 05:43.530
ถามดังนั้นคิวจะถูกนิยาม

05:43.580 --> 05:50.640
เราจะใช้สิ่งนี้เพื่อนิยาม Q สมมุติว่าตัวแทนจากตำแหน่งนี้จากสถานะนี้ทำการกระทำ

05:50.840 --> 05:54.350
ค่า q จะถูกเรียกว่าเป็นอะไร

05:54.500 --> 05:59.320
ก่อนอื่นเรามาดูกันว่าเขาจะได้รับตอบแทนอะไรจากการกระทำนี้

05:59.420 --> 06:02.160
สิ่งแรกที่คุณจะได้รับคือรางวัลที่ถูกต้อง

06:02.360 --> 06:04.180
ไม่มีข้อสงสัยเกี่ยวกับมัน

06:04.250 --> 06:15.770
จะมีกฎบางอย่างหรืออาจเป็นศูนย์ แต่เรารู้ว่าทั้งหมดเป็นวิธีการที่กระบวนการเรียนรู้การเสริมกำลังนี้คือเมืองบางแห่งกำลังดำเนินการบางอย่างจากรัฐหนึ่งหรือสองแห่ง

06:15.840 --> 06:17.140
ดังนั้นฉันจะเพิ่มที่นี่

06:17.480 --> 06:19.680
แล้วเราจะบวกสิ่งที่เราจะเพิ่ม

06:19.850 --> 06:21.090
ลองคิดดู

06:21.110 --> 06:24.640
อะไรคือสิ่งต่อไปที่จะเกิดขึ้นหลังจากเขาไปที่นั่น

06:24.860 --> 06:34.640
สิ่งต่อไปที่เกิดขึ้นก็คือตอนนี้ตัวแทนอยู่ในสถานะที่แน่นอนเขาสามารถจบลงที่นี่ด้วยความน่าจะเป็น 80 เปอร์เซ็นต์หรือความน่าจะเป็นบางอย่าง

06:34.730 --> 06:36.670
แต่ที่นี่จริง ๆ ตรงนี้

06:36.800 --> 06:43.940
แต่ไม่ว่าเขาจะจบที่ใดตอนนี้เรามีตัวชี้วัดเชิงปริมาณสำหรับสถานะที่เขาเข้ามาแล้ว

06:44.210 --> 06:47.100
และนั่นคือคุณค่าของรัฐนั้น

06:47.180 --> 06:55.730
แต่เนื่องจากเขาเข้ามาในหลายรัฐและสามรัฐที่แตกต่างกันที่เป็นไปได้เราต้องดูค่าที่คาดหวังของรัฐที่เขาจะเข้ามา

06:56.210 --> 06:58.610
แล้วเราจะบวกมันเข้าไปในสิ่งที่เรากำลังจะเพิ่ม

06:58.610 --> 07:04.020
แน่นอนว่าปัจจัยลดเช่นเดียวกับที่เราเคยมีเพราะนั่นคือบางแห่งในอนาคต

07:04.190 --> 07:12.910
จากนั้นเราจะเพิ่มจำนวนของสถานะที่เป็นไปได้ทั้งหมดในทุกสถานะที่เป็นไปได้ที่เขาสามารถลงเอยด้วยการกระทำนี้

07:12.910 --> 07:14.240
เงื่อนไขความน่าจะเป็น

07:14.240 --> 07:22.700
ดังนั้นสิ่งที่เรากำลังพูดที่นี่คือตกลงดังนั้นโดยการดำเนินการที่คุณจะได้รับรางวัล Plus ซึ่งเป็นตัวชี้วัดเชิงปริมาณบวกคุณจะได้รับ

07:22.730 --> 07:25.820
คุณอยู่ในสถานะที่เราไม่รู้ว่ามันจะอยู่ที่นี่

07:25.850 --> 07:26.950
อาจจะอยู่ที่นี่มันอาจจะอยู่ที่นี่

07:27.050 --> 07:32.240
แต่นี่คือค่าคาดหวังของรัฐที่คุณกำลังจะไป

07:32.270 --> 07:36.290
และตอนนี้เรากำลังจะคูณด้วยปัจจัยลดเพราะนั่นคือหนึ่งย้าย

07:36.380 --> 07:44.730
นั่นคือค่า Q ของเราสำหรับส่วนประสิทธิภาพและสิ่งที่คุณจะสังเกตเห็นได้ทันทีคือ

07:44.760 --> 07:51.470
Q ค่า Q นั้นเหมือนกับสิ่งที่อยู่ในวงเล็บนี่ตรงนี้

07:51.950 --> 07:52.660
และทำไมเป็นอย่างนั้น

07:52.670 --> 08:10.500
ทีนี้ถ้าคุณคิดเกี่ยวกับมันที่นี่เราจะได้ผลลัพธ์สูงสุดจะได้รับประโยชน์สูงสุดจากการกระทำที่เป็นไปได้ทั้งหมดดังนั้นเราจึงได้ทำการกระทำให้มากที่สุดในการกระทำที่เป็นไปได้ทั้งหมดของผลลัพธ์ที่เราจะทำได้ และเข้าคิวเรากำลังกำหนด

08:10.610 --> 08:11.160
น่าสนใจ

08:11.160 --> 08:14.000
เราจะได้อะไรจากการกระทำบางอย่าง

08:14.000 --> 08:19.340
ดังนั้นถ้าคุณคิดเกี่ยวกับมันมันทำให้รู้สึกว่าคุณค่าของรัฐ

08:19.370 --> 08:25.720
ตัวอย่างเช่นสถานะนี้คือค่าสูงสุดของค่า Q ที่เป็นไปได้ทั้งหมด

08:25.790 --> 08:32.870
ที่นี่ในรัฐโดยอยู่ในสถานะตัวแทนมีค่าคีย์หนึ่งค่าเพื่อเก็บค่า 3Q สำหรับค่า q

08:32.870 --> 08:37.760
ดังนั้นใช่เป็นค่าบวกสำหรับค่า Q

08:37.760 --> 08:42.460
ที่เป็นไปได้ในขณะที่ค่าของการเข้าพักมันทำให้รู้สึกว่าค่าของรัฐคือสูงสุดของค่าคีย์ทั้งสี่

08:42.490 --> 08:44.420
นั่นคือสิ่งที่เราเห็นตรงนี้

08:44.420 --> 08:48.060
เป็นการยืนยันที่ดีสำหรับสูตรใหม่นี้ที่เราได้รับ

08:48.080 --> 08:53.080
หากไม่เป็นเช่นนั้นถ้าหากไม่ตรงกันเราก็จะมีคำถามเช่นกัน

08:53.270 --> 08:55.150
เหตุใดจึงไม่ตรงกัน

08:55.160 --> 08:57.510
ทำไมมันไม่ตรงกันถ้า

08:57.690 --> 09:05.810
ค่า Q เป็นตัวชี้วัดเชิงปริมาณของการดำเนินการและ V ขึ้นอยู่กับพื้น

09:05.930 --> 09:12.970
คือชอบคือผลลัพธ์สูงสุดที่เป็นไปได้ของการกระทำสี่อย่างที่เขาสามารถทำได้มากกว่าที่เหมาะสม

09:12.980 --> 09:21.050
และนั่นเป็นการยืนยันสูตรที่เราเพิ่งได้มาและตอนนี้เรากำลังจะทำให้มันน่าสนใจยิ่งขึ้น

09:21.080 --> 09:26.620
เราจะกำจัด Wii ทั้งหมดเพราะคุณจะเห็นว่าคุณมี Wii เป็นฟังก์ชั่นวนซ้ำ

09:26.810 --> 09:29.750
แล้วคุณก็มีฉันแล้วก็ B แล้วก็ B แล้วก็ B เป็นต้น

09:29.760 --> 09:36.830
ดังนั้นคุณสามารถแสดงมุมมองนี้ผ่าน Vee ที่เหมาะสมที่สุดที่จะเกิดขึ้นที่นี่

09:36.840 --> 09:43.210
เราคาดหวังว่า Q ในฐานะฟังก์ชั่นฟังก์ชั่นแบบเรียกซ้ำของ OR ในฐานะฟังก์ชันของ V ตัวถัดไปจากนั้นคุณจะต้องเสียบ V

09:43.250 --> 09:45.200
นี้แล้วเรากลับไปที่ B

09:45.200 --> 09:51.110
ดังนั้นสิ่งที่เราจะทำคือเราจะใช้ V นี้จริง ๆ แล้วเราจะแทนที่ด้วย Q

09:51.230 --> 09:54.280
Right ดังนั้นเรามาดูกันดีกว่า

09:54.930 --> 10:01.410
เราจะใช้ V ของสถานะถัดไปและเราจะเสียบมันเข้ากับสูตรนั่นตรงนี้

10:01.570 --> 10:07.180
และอย่างที่คุณเห็นตอนนี้ส่วนนี้ไม่เปลี่ยนความน่าจะเป็นนี้จะไม่เปลี่ยน

10:07.180 --> 10:16.950
แต่ตามที่เราเพิ่งพูดถึงของ s คือค่าสูงสุดโดยการกระทำทั้งหมดของ q of S และนี่ตรงนี้

10:16.990 --> 10:19.180
นั่นคือสิ่งที่เราจะแทนที่ที่นี่

10:19.180 --> 10:26.760
ดังนั้นเราจะบอกได้ว่าแน่นอนที่สุดคือแอ็คชั่นใหม่ที่เราจะทำเพราะที่นี่เรามี Wii เป็นตัวละครหลัก

10:26.770 --> 10:30.700
ดังนั้นที่นี่ตอนนี้เรามีคอนโซลสูงสุดที่สำคัญ

10:30.700 --> 10:34.510
ดังนั้นการกระทำที่เราจะรับจากรัฐนี้มาจากที่ใดก็ตามที่รัฐอื่น

10:34.510 --> 10:41.200
ๆ ที่เราลงเอย

10:41.260 --> 10:50.170
แต่การกระทำที่เราจะดำเนินการจากที่นั่นและ Maxima สำหรับทุกสิ่งและสูงสุดคือค่าลูกบาศก์ทั้งหมดที่จะ ที่มีให้สำหรับเราในสถานะใหม่นั้นในฐานะนายกจุลภาคเป็นนายก

10:50.170 --> 10:51.280
และนั่นคือการกระทำ

10:51.280 --> 10:52.140
นั่นคือ

10:52.210 --> 10:53.500
จะมีอีกสี่ตัว

10:53.500 --> 10:54.530
ค่า Q นั้น

10:54.610 --> 10:56.700
ตอนนี้อย่างที่คุณเห็นอีกครั้ง

10:57.040 --> 11:02.740
ดังนั้นจากสิ่งที่เราได้มาคำนี้จะเกิดจากตรรกะและสัญชาตญาณเพื่อให้เราเห็นว่า VNS เป็นมุมมองของ AS

11:02.740 --> 11:07.400
และของและ a เชื่อมโยงกัน

11:07.400 --> 11:12.400
The S เป็นจำนวนสูงสุดของการกระทำทั้งหมดของ Cuba S

11:12.400 --> 11:13.820
และคุณสามารถดูได้ที่นี่เพื่อให้ส่วนนี้เหมือนกับส่วนนี้

11:14.290 --> 11:20.740
แล้วเราจะใช้ประโยชน์จากนั้นและเราจะแทนที่บิตนี้ด้วย VNS จากที่นี่

11:20.740 --> 11:25.730
แต่ไม่ใช่ช่องทางที่แน่นอนนี้เราจะใช้ส่วนภายในนี้และแทนที่มันด้วยการฆ่าผู้บริสุทธิ์

11:26.080 --> 11:36.810
ดังนั้นเราจะเสียบมันเข้าไปที่นี่และส่วนนี้จะเป็นคิวไพรม์คิวบ์สูงสุดสูงสุดของคิวบ์โดย Crucell ไพรม์ของคิวรัมในฐานะนายกรัฐมนตรี

11:37.060 --> 11:39.790
และตอนนี้เรามีสูตรของเรา

11:39.790 --> 11:50.310
ดังนั้นตอนนี้เรามีสูตรแบบเรียกซ้ำสำหรับค่า q ดังนั้นตัวแทนสามารถคิดว่าค่าของส่วนคืออะไรคุณภาพของส่วนนี้คือค่าใหม่ของการกระทำนี้

11:50.470 --> 11:56.570
มันขึ้นอยู่กับรางวัลที่ฉันได้รับในขั้นตอนทันทีหลังจากนั้นบวกมันขึ้นอยู่กับปัจจัยที่มีส่วนลดคูณด้วยจำนวนสูงสุดของการกระทำ Q

11:56.590 --> 12:02.410
ที่เป็นไปได้ทั้งหมดในรัฐนั้น

12:02.410 --> 12:13.300
แต่ฉันไม่รู้ว่าฉันจะได้รับด้านของพวกเขาต้องดูสถานะนั้นในสถานะนั้นหรือไม่และนั่นเป็นสาเหตุที่เรามีค่าคาดหวังตรงนี้

12:13.450 --> 12:18.010
ดังนั้นสูตรที่คล้ายกันอย่างที่คุณเห็น แต่คราวนี้เราแสดงสิ่งต่าง

12:18.490 --> 12:27.310
ๆ ผ่านค่า q และนั่นคือสาเหตุที่อัลกอริธึมทั้งหมดนี้เรียกว่าการเรียนรู้การฆ่าเพราะนี่คือสิ่งที่มองนี่คือสิ่งที่ตัวแทนใช้จริง

12:27.310 --> 12:32.020
ที่สถานะมองไปที่การกระทำที่เป็นไปได้ของพวกเขาและจากนั้นขึ้นอยู่กับการดำเนินการกับค่า q

12:32.020 --> 12:35.760
ของการกระทำที่พวกเขาจะตัดสินใจว่าจะดำเนินการใด

12:35.760 --> 12:40.330
ดังนั้นพวกเขาจะดูค่า Q สูงสุดในสถานะที่กำหนดนี้ซึ่งมีสี่การกระทำ

12:40.330 --> 12:57.440
การดำเนินการที่ดีที่สุดคืออะไรเพื่อให้สามารถเปรียบเทียบการเรียงลำดับของการเปรียบเทียบสถานะต่างๆที่สามารถจบลงด้วยการจะเปรียบเทียบการกระทำที่เป็นไปได้ที่ขณะนี้มีอยู่แล้วโดยการค้นหาสิ่งที่ดีที่สุดที่จะดำเนินการนั้น กำลังจะทำซ้ำกระบวนการนั้นทำซ้ำกระบวนการนั้นและอื่น ๆ

12:57.580 --> 13:03.940
ดังนั้นตอนนี้คุณสามารถดูได้ว่าทั้งหมดนี้มารวมกันอย่างไรว่าจะให้รางวัลข้อเท็จจริงลดราคาหรือกระบวนการตัดสินใจตลาดแบบสุ่มและค่านิยมและค่า q

13:04.360 --> 13:10.330
ทั้งหมดมารวมกันเพื่อร่วมพิสูจน์สมการ

13:10.690 --> 13:20.410
Belman อันทรงพลังหนึ่งเดียว และให้ตัวแทนของเราเรียนรู้วิธีเอาชนะสภาพแวดล้อม

13:20.410 --> 13:23.380
และนั่นคือคำอธิบายที่เข้าใจง่ายเกี่ยวกับสิ่งที่เกิดขึ้น

13:23.380 --> 13:28.510
ฉันรู้ว่าเราผ่านสูตรไปแล้ว

13:28.510 --> 13:34.730
แต่มีความจำเป็นเพราะนี่เป็นสูตรของเราที่เราได้ผ่านบทนี้มาทั้งหมดและฉันคิดว่ามันเป็นการเปลี่ยนแปลงที่ดีจาก To

13:34.780 --> 13:43.450
Q และมันแสดงให้เห็นว่ามีการเชื่อมโยงระหว่าง Yishun อย่างไรและถ้าคุณต้องการได้วิธีการทางคณิตศาสตร์ที่เข้มงวดกว่านี้และคุณเห็นคณิตศาสตร์อยู่ข้างหลังและเรียนรู้เพิ่มเติมเกี่ยวกับค่า

13:43.450 --> 13:51.600
q และวิธีการทำงานของมัน

13:51.640 --> 13:54.090
จากนั้นเราก็มีการอ่านเพิ่มเติมสำหรับคุณ

13:54.130 --> 14:02.980
บทความนี้เรียกว่าแนวคิดและขั้นตอนวิธีการตัดสินใจของมาร์คอฟโดยmartín von Autor low 2009

14:02.980 --> 14:09.610
ดังนั้นคุณตัดการเชื่อมโยงที่นี่เช่นเคยและที่นี่คุณสามารถอ่านรายละเอียดเพิ่มเติมเล็กน้อยเพื่อทำความเข้าใจ nitty

14:09.820 --> 14:15.220
gritty

14:15.220 --> 14:21.660
ทั้งหมดที่อยู่เบื้องหลังค่าฮิวจ์และอื่น ๆ

14:21.790 --> 14:27.670
และตอนนี้เราได้พูดถึงสิ่งเหล่านี้ทั้งหมดที่เกี่ยวข้องกับสมการ ดูสิ่งที่ซับซ้อนกว่านี้เช่นบทความนี้ถ้าเราต้องการข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้เพื่อทำความเข้าใจให้ลึกซึ้งยิ่งขึ้น

14:27.670 --> 14:40.850
แต่แม้ว่าคุณจะไม่ได้อ่านหนังสือพิมพ์หรือวิทยุคุณควรมีความรู้ในการทำงานที่ดีเกี่ยวกับสิ่งที่การเรียนรู้เป็นเรื่องเกี่ยวกับวิธีการที่ตัวแทนมาพร้อมกับการกระทำที่พวกเขาต้องใช้ในสภาพแวดล้อมที่แน่นอน

14:40.870 --> 14:43.980
ดังนั้นฉันหวังว่าคุณจะสนุกกับ Statoil วันนี้และฉันหวังว่าจะได้พวกเขาต่อไป

14:43.990 --> 14:45.360
จนกว่าจะสนุกแล้ว

14:45.390 --> 14:45.620
ผม.
