WEBVTT

00:01.050 --> 00:03.770
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.810 --> 00:08.280
และวันนี้เรากำลังพูดถึงกระบวนการตัดสินใจของมาร์คหรือเอ็ม D ..

00:08.760 --> 00:11.120
มาดูกันว่าวันนี้เรามีอะไรกัน

00:11.430 --> 00:14.060
ครั้งสุดท้ายที่เราหยุดคิดเกี่ยวกับแผนที่

00:14.070 --> 00:21.060
ดังนั้นเนื่องจากเราได้คำนวณค่าตามสมการของเบลแมนเราจึงได้แผนที่นี้สำหรับตัวแทนของเราบนเขาวงกตนี้

00:21.240 --> 00:27.570
และโดยทั่วไปสิ่งที่มีความหมายก็คือทุกที่ที่แองเจลเริ่มทำงานสมมติว่ามันเริ่มต้นตรงนั้น

00:27.570 --> 00:33.270
มันรู้ขั้นตอนที่ต้องปฏิบัติเพื่อที่จะไปถึงเส้นชัยดังนั้นมันจึงขึ้นไปทางขวา

00:33.270 --> 00:35.040
ถูกต้องและทำ

00:35.070 --> 00:37.540
และคำถามที่นี่ก็คือมัน

00:37.590 --> 00:39.780
มันง่ายจริงๆหรือ

00:39.780 --> 00:44.690
เป็นการเสริมกำลังการเรียนรู้ที่คุณรู้จริงเพราะขาดคำที่น่าเบื่อกว่า

00:44.790 --> 00:46.420
มันคือใช่

00:46.440 --> 00:50.830
เมื่อคุณมีคณิตศาสตร์นั่นคือทั้งหมดที่คุณต้องทำคือคุณได้ทำมันเต็มไปด้วยพวกเขา

00:51.090 --> 00:55.460
ความจริงก็คือว่ามันไม่ง่ายอย่างนั้น

00:55.500 --> 01:02.610
และนั่นเป็นสิ่งที่ดีเพราะมันทำให้หลักสูตรนี้น่าสนใจยิ่งขึ้นสำหรับเราและเราสามารถแก้ปัญหาที่ซับซ้อนได้มากขึ้น

01:02.610 --> 01:05.460
ดังนั้นนี่คือที่มาของกระบวนการ

01:05.490 --> 01:07.770
แต่ก่อนอื่นเราจะพูดถึงสองสิ่ง

01:07.760 --> 01:11.450
เราอยู่ในนั้นการค้นหาที่กำหนดและการค้นหาที่ไม่กำหนด

01:11.700 --> 01:14.750
ถ้าอย่างนั้นเรามาพูดถึงแนวคิดของการค้นหาที่กำหนดขึ้นมา

01:14.820 --> 01:21.570
นี่คือตัวแทนของเราในการค้นหาเขาวงกตและกำหนดขึ้นหมายความว่าหากตัวแทนตัดสินใจที่จะขึ้นไปแล้วสิ่งที่จะเกิดขึ้นคือความน่าจะเป็นร้อยละ 100

01:21.570 --> 01:26.980
มันจะขึ้นไป

01:27.030 --> 01:28.700
นั่นคือสิ่งที่จะเกิดขึ้น

01:28.700 --> 01:29.740
ไม่มีตัวเลือกอื่น

01:29.740 --> 01:33.690
เมื่อมันบอกว่าขึ้นไปหรือคลิกที่ลูกศรขึ้นมันจะขึ้นไป

01:33.690 --> 01:35.070
ไม่มีตัวเลือกอื่น

01:35.250 --> 01:41.950
ในทางตรงกันข้ามการค้นหาแบบไม่ระบุชื่อก็คือเมื่อตัวแทนของเราบอกว่ามันต้องการขึ้นไป

01:42.130 --> 01:44.430
พวกเขาเป็นตัวเลือกที่สอง

01:44.460 --> 01:48.820
ตัวอย่างอาจมีสามตัวเลือกและเราจะดูตัวอย่างที่มีสามตัวเลือก

01:48.830 --> 01:53.400
แต่ไม่จำเป็นต้องมีข้อ จำกัด

01:53.400 --> 02:01.640
ถึงสามก่อนที่มันจะแตกต่างกันขึ้นอยู่กับปัญหาที่สุ่มอาจแตกต่าง ในกรณีของเรามันอาจเป็นสามตัวเลือกโดยมีโอกาส 80 เปอร์เซ็นต์ที่เขาจะขึ้นไป

02:01.860 --> 02:07.500
แต่มีโอกาส 10 เปอร์เซ็นต์เมื่อเขาต้องการขึ้นเขาจะไปทางซ้ายเพราะ

02:07.500 --> 02:11.080
เพราะนั่นคือวิธีการทำงานของสภาพแวดล้อมนั่นคือโลกที่เขาอาศัยอยู่

02:11.430 --> 02:14.840
และเมื่อมีโอกาสอีก 10% ที่เช็คอินเขาจะไปทางขวา

02:14.880 --> 02:17.770
และในกรณีนี้เขาจะตกลงไปในกองไฟ

02:17.850 --> 02:20.730
นั่นคือวิธีการทำงานทั้งหมด

02:20.760 --> 02:35.370
นั่นคือตัวอย่างของ nondeterministic แน่ใจว่าค้นหากระบวนการสุ่มและสิ่งที่จุดนี้คือการทำให้แบบจำลองที่เหมือนจริงมากขึ้นของสิ่งที่อาจเกิดขึ้นจริงในโลกแห่งความจริงในปัญหาโลกแห่งความจริงเพราะคุณไม่ค่อยได้รับสถานการณ์เช่นนี้

02:35.370 --> 02:41.390
เมื่อคุณทำอะไรและมันเกิดขึ้นอย่างนั้น

02:41.520 --> 02:46.560
และแม้ว่าคุณจะคิดในแง่ของเกมสมมติว่าคุณมีตัวแทนเล่น Pac-Man

02:46.740 --> 02:51.270
ไม่ใช่กรณีที่ถ้าเขายืนอยู่ในจัตุรัสเขาจะขึ้นไป

02:51.360 --> 02:54.260
เขาจะได้ผลลัพธ์ที่แน่นอนเหมือนกันทุกครั้ง

02:54.460 --> 02:59.820
เขาจะขึ้นไปแน่นอน แต่อาจเป็นกรณีหนึ่งที่คุณจะไม่ถูกผีเข้าสิงกินไม่ว่ากรณีใด

02:59.820 --> 03:01.570
เขาจะถูกผีดูดกิน

03:01.590 --> 03:07.350
ดังนั้นคุณจะเห็นว่ามีบางอย่างที่สุ่มเพราะมันขึ้นอยู่กับว่าผีกำลังเคลื่อนไหวอย่างไรและพวกมันจะไม่เคลื่อนไหวเหมือนเดิม

03:07.350 --> 03:09.370
พวกเขาไม่ได้เริ่มในที่เดียวกันเสมอไป

03:09.510 --> 03:29.010
มันมีเหตุผลมากที่ยุติธรรมว่ามีการสุ่มมีบางสิ่งที่ไม่ได้อยู่ภายใต้การควบคุมของตัวแทนและนี่คือวิธีที่เราจะนำเสนอเพื่อให้เราเรียนรู้วิธีที่เราสามารถจัดการกับมัน ที่ส่งผลต่อสมการของเบลแมนว่ามันส่งผลต่อกระบวนการเรียนรู้การเสริมแรงทั้งหมดอย่างไร

03:29.070 --> 03:33.780
แต่ในเวลาเดียวกันการสุ่มนั้นไม่ จำกัด หากคุณขึ้นไปมีโอกาส 10

03:33.780 --> 03:38.400
เปอร์เซ็นต์ที่คุณจะไปทางขวาหรืออุณหภูมิและเพิ่งไปทางซ้ายหรือถ้าคุณลงไป 10 เปอร์เซ็นต์โอกาสที่คุณจะไปทางขวาหรือซ้ายหรือคุณ อีกครั้งมีโอกาส

03:38.400 --> 03:42.840
10 เปอร์เซ็นต์ที่จะ จำกัด

03:42.840 --> 03:45.550
หรือซ่อนเร้นที่คุณกำลังจะจบลงบางครั้งคุณอาจมีปัญหาที่แน่นอน

03:45.570 --> 03:47.390
บางครั้งความเป็นไปได้อาจแตกต่างกัน

03:47.430 --> 03:52.990
บางครั้งการสุ่มอาจต้มลงไปอย่างอื่นมันอาจจะต้มลงไปเช่นนั้น

03:52.980 --> 03:58.890
Pacman Ghosts กำลังกินคุณไม่ได้กินคุณไม่เช่นนั้นมันอาจต้มลงไปในบางอย่าง

03:58.890 --> 04:05.550
ยกตัวอย่างเช่นมีของมันอยู่เหมือนกันถ้าเอเจนต์กำลังเล่น

04:05.700 --> 04:14.380
Doom และมีบางอย่างที่เหมือนสัตว์ประหลาดที่จะยิงเขาในกรณีหนึ่งและอีกกรณีหนึ่งมีความน่าจะเป็นถ้าเราทุกคนควรได้รับการยิงและเราจะไม่ถูกยิง

04:14.550 --> 04:19.710
และสิ่งที่เกินความควบคุมของตัวแทนก็เป็นสิ่งที่ฉันไม่สามารถคาดการณ์ได้

04:19.710 --> 04:25.740
นั่นคือสิ่งที่เรากำลังสร้างแบบจำลองที่นี่ในการค้นหาแบบ

04:25.950 --> 04:34.130
nondeterministic และนี่คือสิ่งที่เราได้เข้าใกล้แนวคิดใหม่สองอย่างคือเครื่องหมายของกระบวนการและหรือเครื่องหมายของกระบวนการและเครื่องหมายของกระบวนการตัดสินใจดังนั้นเรามาดูสิ่งเหล่านี้

04:34.150 --> 04:39.080
และคุณรู้ว่าฉันไม่ชอบที่จะใส่คำจำกัดความและข้อความจำนวนมากที่ด้านข้าง

04:39.090 --> 04:42.280
แต่ในกรณีนี้มันเป็นสิ่งจำเป็นสำหรับเราที่จะผ่านมันไป

04:42.280 --> 04:46.220
งั้นลองมาดูกระบวนการสโตแคสติกมีเครื่องหมายของทรัพย์สิน

04:46.240 --> 04:58.200
หากการกระจายความน่าจะเป็นแบบมีเงื่อนไขของสถานะในอนาคตของกระบวนการตามเงื่อนไขและทั้งในอดีตและปัจจุบันขึ้นอยู่กับสถานะปัจจุบันเท่านั้นที่ไม่ได้อยู่ในลำดับเหตุการณ์ที่เกิดขึ้นก่อนหน้านี้

04:58.230 --> 05:00.410
กระบวนการที่มีคุณสมบัตินี้เรียกว่าเครื่องหมาย

05:01.040 --> 05:06.470
คำจำกัดความที่ซับซ้อนมากและมันเหมือนกับที่คุณแนะนำเล็กน้อยไม่เพียง แต่ขัดแย้งกับตัวเอง

05:06.470 --> 05:11.450
แต่รู้สึกว่ามันขัดแย้งกับตัวเองดังนั้นที่นี่มีเงื่อนไขสำหรับการปรากฏตัวในเชิงบวกที่ขึ้นอยู่กับจุดของคุณ

05:11.480 --> 05:14.450
แต่ในขณะเดียวกันก็ขึ้นอยู่กับสถานะปัจจุบันเท่านั้น

05:14.510 --> 05:17.510
ดังนั้นอย่าจมดิ่งเกินไป

05:17.670 --> 05:23.050
ฉันจะทำลายมันลงในคำศัพท์ง่ายๆดังนั้นเครื่องหมายของทรัพย์สินคือเมื่อรัฐในอนาคตของคุณ

05:23.060 --> 05:25.310
ดังนั้นไม่ใช่แค่ทางเลือกของคุณ แต่ทั้งหมด

05:25.310 --> 05:33.900
ทางเลือกและสภาพแวดล้อมของคุณจะชอบผลการดำเนินการทั้งหมดที่คุณทำในสภาพแวดล้อมนั้นขึ้นอยู่กับว่าคุณอยู่ที่ไหนในตอนนี้

05:33.920 --> 05:35.770
มันจะไม่ขึ้นอยู่กับว่าคุณไปถึงที่นั่น

05:36.110 --> 05:36.560
และนั่นคือมัน

05:36.560 --> 05:40.630
นั่นเป็นเรื่องของสาธารณะและกระบวนการที่มีคุณสมบัตินี้เรียกว่ากระบวนการตลาด

05:40.880 --> 05:48.030
ดังนั้นเพื่อให้เป็นตัวอย่างดังนั้นหากตัวแทนของคุณอยู่ที่นี่และถ้าเขาไปถ้าเขาตัดสินใจที่จะขึ้นไปเขาอาจไป

05:48.040 --> 05:52.940
เขาในกรณีของเราในตัวอย่างการค้นหา nondeterministic ของเราเขาอาจไปทางซ้ายและขวา

05:53.000 --> 05:53.680
เอาล่ะ

05:53.690 --> 05:59.710
นั่นเป็นเพราะเรายึดติดกับเมืองนี้ในสภาพแวดล้อมของเราเรามีการสุ่มในสภาพแวดล้อมของเรา

05:59.810 --> 06:01.820
ดังนั้นสิ่งใดสิ่งหนึ่งเหล่านี้อาจเกิดขึ้น

06:01.820 --> 06:07.250
แต่ที่สำคัญคือที่นี่เป็นสัญลักษณ์ของกระบวนการเพราะเราไม่สนใจว่าคุณมาที่นี่ได้อย่างไร

06:07.250 --> 06:12.370
เขาอาจมาจากด้านบนสุดที่นี่เขามาจากทางซ้ายและที่นี่คุณอาจมาจากด้านล่างและจบที่นี่

06:12.380 --> 06:16.640
เขาน่าจะชอบเล่นที่นี่ประมาณ 100,000 ครั้งแล้วก็มาถึงที่นี่

06:16.700 --> 06:22.490
มันไม่สำคัญว่าจะเกิดอะไรขึ้นก่อนหน้านี้เพียง แต่เขากำลังอยู่ในสภาวะใด

06:22.520 --> 06:32.250
และความน่าจะเป็นที่จะไปทางซ้ายหรือขวาหรือเพิ่มขึ้นพวกเขาจะเหมือนกันเสมอถ้าเขาอยู่ในสถานะนี้

06:32.690 --> 06:37.530
และนั่นเป็นเพียงการบอกว่ามันไม่สำคัญว่าจะเกิดอะไรขึ้นก่อนที่เราจะอยู่ที่นี่ตอนนี้

06:37.640 --> 06:39.150
นี่คือสถานะที่คุณอยู่

06:39.200 --> 06:42.320
และอย่าลืมว่ารัฐไม่ได้หมายความว่าเขายืนอยู่เท่านั้น

06:42.320 --> 06:54.530
สถานะคือสถานะของตัวแทนทั้งหมดในสภาพแวดล้อมดังนั้นจึงมีสัตว์ประหลาดอยู่ทางขวาหรือสัตว์ประหลาดทางซ้ายหรือที่คุณรู้ว่าเป็นผีที่มาจากด้านบนหรือล่าง .

06:54.560 --> 06:58.790
ไม่สำคัญว่าคุณจะไปถึงที่นั่นได้อย่างไรไม่ว่าอย่างไรและทุกอย่างมาจากการที่คุณอยู่ในสถานะนั้น

06:58.790 --> 07:02.990
สิ่งที่จะเกิดขึ้นในอนาคตจะถูกกำหนดโดยรัฐที่คุณอยู่เท่านั้น

07:02.990 --> 07:07.440
รวมถึงการกระทำที่คุณจะได้รับรวมถึงการสุ่มที่วางทับอยู่ด้านบน

07:07.460 --> 07:14.280
นั่นเป็นเครื่องหมายของกระบวนการและกระบวนการตัดสินใจเครื่องหมายหรือ MVP หรือกระบวนการตัดสินใจเครื่องหมาย

07:14.390 --> 07:23.430
จัดทำกรอบทางคณิตศาสตร์สำหรับการสร้างแบบจำลองการตัดสินใจในสถานการณ์ที่ผลลัพธ์ส่วนหนึ่งถูกสุ่มและบางส่วนอยู่ภายใต้การควบคุมการตัดสินใจ

07:23.570 --> 07:32.210
ดังนั้นสิ่งสำคัญคือต้องเข้าใจว่ากระบวนการของกระบวนการตัดสินใจนั้นแตกต่างกันและแตกต่างกันทั้งแนวคิดของกระบวนการเพื่อทำเครื่องหมายของกระบวนการ

07:32.340 --> 07:34.810
มีเหมือนกรอบคณิตศาสตร์ดังนั้น

07:34.970 --> 07:46.130
แต่ในเวลาเดียวกันฉันคิดว่ามันเป็นสิ่งสำคัญสำหรับเราที่จะเข้าใจว่าเครื่องหมายของกระบวนการคืออะไรเพราะฉันคิดว่ามันยังช่วยในการทำความเข้าใจกับเครื่องหมายของกระบวนการตัดสินใจ

07:46.230 --> 07:57.530
นี่คือสิ่งที่เราได้พูดคุยกันมาจนถึงตอนนี้เพื่อให้ตัวแทนอาศัยอยู่ในสภาพแวดล้อมที่ซึ่งเขามีการควบคุมเหมือนเขาก่อนหน้านี้และมีการควบคุมอย่างเต็มที่ว่าเกิดอะไรขึ้น

07:57.590 --> 08:00.270
มันสามารถตัดสินใจที่จะขึ้นไป แต่มันก็รู้จริง ๆ

08:00.290 --> 08:06.170
ตกลงดังนั้นถ้าฉันขึ้นไปมีโอกาสที่ลิงจะเพิ่มขึ้นความพยายามนี้และโอกาสที่จะไปทางซ้ายและโอกาสที่จะไปทางขวา

08:06.170 --> 08:08.930
ดังนั้นไม่ใช่ทุกอย่างที่อยู่ภายใต้การควบคุมของมัน

08:08.930 --> 08:19.400
มีการสุ่มในสภาพแวดล้อมนี้และนั่นคือสิ่งที่กระบวนการตัดสินใจและกระบวนการตัดสินใจของมาร์คอฟเป็นกรอบที่เอเจนต์จะใช้เพื่อทำความเข้าใจว่าจะทำอย่างไรในสภาพแวดล้อมนี้

08:19.400 --> 08:22.400
ดังนั้นเราจึงมีสภาพแวดล้อมที่มีความเป็นพิษบ้างแบบสุ่ม

08:22.550 --> 08:27.000
และตอนนี้ตัวแทนต้องเลือกตัวอย่างเช่นควรขึ้นลงไปทางซ้ายหรือขวา

08:27.370 --> 08:28.530
เขาต้องทำการตัดสินใจ

08:28.520 --> 08:29.820
เขาไม่รู้จะทำอย่างไร

08:30.140 --> 08:40.960
และเพื่อที่จะทำให้การตัดสินใจนั้นจะใช้กรอบการทำงานนั้นจะต้องใช้เครื่องหมายของกระบวนการตัดสินใจเพื่อที่จะทำการตัดสินใจสิ่งที่จะเกิดขึ้นในที่ที่มันกำลังจะไป

08:40.970 --> 08:55.810
ดังนั้นโดยทั่วไปสภาพแวดล้อมนี้ที่โพสปัญหานี้มันถูกอ้างถึงเครื่องหมายของกระบวนการตัดสินใจดังนั้นมันเป็นกรอบที่ตัวแทนใช้ในเวลาเดียวกันสภาพแวดล้อมที่มีการอ้างถึงตัวแทนที่ทำงานในสภาพแวดล้อมกระบวนการตัดสินใจตลาด

08:56.280 --> 09:01.190
ดังนั้นโดยพื้นฐานแล้วที่นี่เรามีสองแนวคิดที่เราได้รับเครื่องหมายของกระบวนการคือวิธีที่สภาพแวดล้อมนี้ได้รับการออกแบบให้ PA

09:01.190 --> 09:03.740
ทำงาน

09:03.770 --> 09:07.020
สิ่งที่เกิดขึ้นจากการที่คุณอยู่ในขณะนี้ไม่ได้ขึ้นอยู่กับอดีต

09:07.130 --> 09:13.630
และในเวลาเดียวกันเราได้รับเครื่องหมายของกระบวนการตัดสินใจคือกรอบการทำงานที่เอเจนต์จะใช้เพื่อแก้ไขสภาพแวดล้อมนี้

09:13.970 --> 09:24.730
และข่าวดีก็คือว่ากระบวนการตัดสินใจหรือกรอบการทำงานที่เรากำลังพูดถึงนั้นเป็นเพียงส่วนเสริมของคำถามสมการของเบลแมนคือสมการของเบลแมน

09:24.740 --> 09:26.960
ลองดูที่นั่น

09:27.050 --> 09:28.910
นี่คือสมการ Belman ของเราจนถึงขณะนี้

09:29.030 --> 09:31.030
มันเป็นการกระทำที่เป็นไปได้สูงสุด

09:31.040 --> 09:35.990
ดังนั้นคุณค่าของการอยู่ในสถานะคือจำนวนสูงสุดของการกระทำที่เป็นไปได้ทั้งหมดที่คุณสามารถทำได้จากสถานะนั้น

09:36.260 --> 09:45.410
จำนวนสูงสุดนั้นมาจากรางวัลที่คุณจะได้รับจากการดำเนินการนั้นในสถานะนั้นบวกกับอัตราส่วนลดคูณด้วยมูลค่าของสถานะถัดไปซึ่งสำคัญที่สุด

09:45.410 --> 09:47.390
นั่นคือสิ่งที่เรามีจนถึงตอนนี้

09:47.400 --> 09:57.620
ตอนนี้เพราะเรามีการสุ่มในกระบวนการทั้งหมดของเราส่วนนี้จะเปลี่ยนไปเพราะเราไม่รู้จริง ๆ ว่ารัฐจะลงเอยอย่างไรและเราไม่รู้ว่านายกจะเป็นเช่นไร

09:57.630 --> 10:04.960
ขึ้นหรือจะถูกทิ้งจะถูกต้องดังนั้นเราต้องวางสิ่งนี้ด้วยค่าที่คาดหวังของวันที่ถัดไป

10:04.970 --> 10:08.810
ดังนั้นที่นี่เราจะแทนที่สิ่งนี้เพื่อให้มีสามสถานะที่เป็นไปได้ที่เราสามารถท้าย

10:08.810 --> 10:15.480
แล้วเราจะแทนที่มันด้วยค่าบางอย่างที่รัฐมีค่าเป็นนายกรัฐมนตรีหนึ่ง

10:15.520 --> 10:18.190
ว่ามันมีมุมมองของการเป็นนายกถึงนายก

10:18.470 --> 10:22.490
และรัฐนี้มีค่าของเราสามไบรน์

10:22.640 --> 10:28.790
ตอนนี้เราจะคูณรัฐที่เราตั้งใจจะเข้าไป

10:28.790 --> 10:39.800
80% เพราะนั่นคือความน่าจะเป็นที่จะได้สถานะนั้นบวกความน่าจะเป็นที่จะได้สถานะนี้คือ

10:39.800 --> 10:52.040
10 เปอร์เซ็นต์บวกผู้คนที่เข้ารัฐดังนั้นนี่คือ เพียงค่าคาดหวังของเราดังนั้นหากจากสถิติหากเรานำค่าที่คาดหวังจากการเข้าสู่สถานะที่เราจะได้รับสิ่งเหล่านี้เป็นเหมือนค่าเฉลี่ยค่าเฉลี่ยของสิ่งที่เราจะได้รับแล้วเราแทนที่ค่าตรงนี้

10:52.040 --> 10:59.930
จากนั้นเราจะได้รับการรุกรานนี้และกระโดดอย่างรวดเร็วเพียงเพราะมีขนาดใหญ่ แต่ถ้าคุณดูอย่างระมัดระวังคุณจะเห็นสิ่งเดียวกันพูดเกี่ยวกับแม็กซ์ที่นี่แม็กซ์ที่นี่

10:59.960 --> 11:06.340
ถ้างั้นคุณก็มี r ของ S และ A R ของ S แล้วคุณก็มีแกมม่าที่คุณมีแกมม่า

11:06.410 --> 11:08.600
แล้วสุดท้ายตรงนี้คุณจะได้ v

11:08.630 --> 11:13.640
ดังนั้นคุณจะรู้ว่ามันเป็นการค้นหาที่กำหนดไว้อย่างชัดเจนซึ่งคุณรู้ว่าคุณจะเข้าไปเกี่ยวข้องกับอะไร

11:13.640 --> 11:16.120
ตอนนี้คุณไม่ทราบว่าคุณจะเข้าสู่สถานะใดนับตั้งแต่การรับ V.

11:16.120 --> 11:25.920
คุณใช้ค่าคาดหวังของรัฐที่คุณจะได้รับหรือสถานะในอนาคตหรือเพียงแค่ในแง่ที่ง่ายกว่า

11:26.060 --> 11:32.900
คุณก็รู้ว่ามันเหมือนเป็นโอกาส 30 บวก 3 เปอร์เซ็นต์มันจะเป็นเช่นนี้หารด้วยสามนี่

11:32.900 --> 11:37.130
แต่ในกรณีนี้ไม่ใช่ว่ามันไม่เหมือนกับค่าเฉลี่ยโดยเฉลี่ย

11:37.130 --> 11:40.410
มันเป็นค่าเฉลี่ยถ่วงน้ำหนักเนื่องจากความน่าจะเป็นที่นี่

11:40.430 --> 11:51.830
ดังนั้นที่นี่คุณมีโอกาสที่จะเป็นเมื่อคุณอยู่ในขั้นตอนนี้เพื่อดำเนินการของการเข้าสู่สถานะเป็นเวลาที่สำคัญมูลค่าของนายกและบางส่วนเพื่อข้ามช่วงเวลาเหล่านี้ทั้งหมดที่คุณอาจจะเป็นเรา

11:51.830 --> 11:54.690
สิ่งที่เรามีสามตรงนี้หนึ่งสองสาม

11:54.890 --> 11:57.330
เพิ่มให้ทวีคูณ

11:57.330 --> 11:58.040
เหมือนกันที่นี่

11:58.040 --> 11:58.820
หนึ่งสองสาม.

11:58.820 --> 12:01.660
ทวีคูณพวกมันด้วยความน่าจะเป็นและเพิ่มมันเข้าไป

12:02.090 --> 12:05.180
และนั่นคือสมการ Belman ใหม่ของคุณ

12:05.180 --> 12:06.440
ขอแสดงความยินดี

12:06.470 --> 12:08.990
นี่คือสิ่งที่เรากำลังจะทำงานกับการก้าวไปข้างหน้า

12:09.140 --> 12:16.490
และนั่นคือกรอบการทำงานที่ใช้ในกระบวนการตัดสินใจดังนั้นจึงเป็นกรอบการทำงานที่แก้ปัญหานี้

12:16.620 --> 12:25.460
เอเจนต์นั้นใช้ในการแก้ปัญหาการค้นหาแบบเอนโดเทรินติกแบบสุ่มทั้งหมดซึ่งมีเหตุการณ์สุ่มที่เกิดขึ้นซึ่งพวกเขาไม่สามารถควบคุม

12:25.460 --> 12:26.920
มันซับซ้อนกว่ามาก

12:26.930 --> 12:30.150
แต่อย่างที่คุณเห็นเพราะเราสร้างมันขึ้นมาอย่างช้าๆ

12:30.290 --> 12:33.120
ตอนนี้เรารู้แล้วเกี่ยวกับสิ่งนี้เรารู้เกี่ยวกับ

12:33.130 --> 12:35.090
มีความกังวลเกี่ยวกับเรื่องนี้

12:35.090 --> 12:36.160
เรารู้เรื่องนี้

12:36.170 --> 12:36.710
เรารู้ว่าพวกเขาคืออะไร

12:36.710 --> 12:49.000
ดังนั้นสิ่งที่เราทำก็คือเราเพิ่งแนะนำส่วนนี้ตรงนี้เพราะมีความน่าจะเป็นที่เกี่ยวข้องกับการกระทำหรือผลที่ตามมาของการกระทำของคุณกับ

12:49.220 --> 12:50.600
เราไปกันที่นั่น

12:50.600 --> 12:58.280
นั่นเป็นวิธีที่เครื่องบ่งชี้กระบวนการตัดสินใจทำงานและสมการพื้นฐานที่อยู่เบื้องหลัง

12:58.330 --> 13:04.630
อีกครั้งมันเป็นสิ่งที่คล้ายกันมากขึ้นคล้ายกับปัญหาโลกแห่งความจริงหรือ Sinatras

13:04.670 --> 13:08.690
หรือสถานการณ์เกมเพราะไม่ทุกอย่างตรงไปตรงมา

13:08.690 --> 13:18.810
มีการสุ่มของทุกคนที่เกี่ยวข้องและจะไม่ดำเนินการในสถานะที่แน่นอนเสมอ Nawal จะไม่นำไปสู่ผลลัพธ์เดียวกัน

13:18.890 --> 13:24.310
และนี่คือสิ่งที่เรากำลังจะจัดการกับการก้าวไปข้างหน้าและนั่นจะทำให้สิ่งต่าง ๆ น่าสนใจยิ่งขึ้น

13:24.380 --> 13:29.290
ดังนั้นหวังว่าคุณจะตื่นเต้นและยินดีที่ได้เห็นว่าจะเกิดอะไรขึ้นต่อไป

13:29.690 --> 13:35.870
และในขณะเดียวกันฉันก็พบกระดาษที่เจ๋ง ๆ สำหรับคุณที่จะดูในเวลานี้

13:35.870 --> 13:37.460
มันเป็นกระดาษที่ใช้มาก

13:37.460 --> 13:40.150
ดังนั้นอันนี้น่าสนใจจริงๆที่จะอ่าน

13:40.160 --> 13:47.970
มันเรียกว่าการสำรวจการประยุกต์ใช้กระบวนการตัดสินใจของ Mark of กระบวนการและมันถูกเขียนโดยสีขาวในปี 1993

13:47.990 --> 13:59.560
มีการเชื่อมโยงและแสดงตัวอย่างให้คุณเห็นว่ากระบวนการตัดสินใจของมาร์คอฟใช้เพื่อจำลองชีวิตจริงของ Sinatras อย่างไรฉันคิดว่าฉันตื่นเต้นมาก

13:59.560 --> 14:03.880
ฉันประทับใจตัวอย่างของการเก็บเกี่ยวประชากรเช่น

14:03.880 --> 14:12.910
สมมุติว่าคุณมีปลาบ้างและคุณรู้ว่าประชากรปลาคืออะไรคุณต้องตัดสินใจว่าเราจะจับปลาได้กี่ตัวในปีนี้

14:13.250 --> 14:14.330
นั่นคือสถานะปัจจุบันของคุณ

14:14.330 --> 14:17.220
นั่นคือการกระทำที่คุณกำลังทำในปีนี้ที่เราสามารถถ่ายทำได้

14:17.230 --> 14:20.420
ดังนั้นอะไรคือสิ่งที่เกิดขึ้นผลลัพธ์ที่เป็นไปได้ของสิ่งนั้น

14:20.540 --> 14:22.100
เราจะมีปลากี่ตัวในปีหน้า

14:22.160 --> 14:25.210
เราจะมีปลากี่ตัวต่อปีและปีต่อ ๆ ไปเรื่อย ๆ

14:25.250 --> 14:30.230
และมันไม่ได้กำหนดขึ้นเพราะมันไม่เหมือนกับว่าคุณใช้เวลาหนึ่งชั่วโมงกับ 90 เปอร์เซ็นต์ของประชากรในปีหน้าคุณจะได้รู้ว่า

14:30.230 --> 14:34.640
100% ไม่ใช่การเทศนา

14:34.640 --> 14:46.060
มีปัจจัยสุ่มบางอย่างที่เกี่ยวข้องซึ่งอยู่นอกเหนือการควบคุมของเราและดังนั้นเราต้องเข้าใจสิ่งที่จะเกิดขึ้นเราต้องสร้างแบบจำลองสิ่งที่จะเกิดขึ้นนั่นคือการตัดสินใจของตลาดในการทำเกษตรกรรม

14:46.070 --> 14:51.440
มีตัวอย่างเช่นการเก็บเกี่ยวพืชผลที่เราเก็บเกี่ยวได้จำนวนเงินที่เราไม่เก็บเกี่ยว

14:51.470 --> 14:58.190
อีกอันหนึ่งที่ฉันดูทางการเงินและการลงทุนเหมือน

14:58.190 --> 15:06.490
บริษัท ประกันภัยจำเป็นต้องตัดสินใจว่าจะลงทุนในเงินเท่าไหร่ฉันคิดว่าวันหรือปีหรือช่วงระยะเวลาหนึ่งและมีปัจจัยบางอย่างอยู่ในการควบคุมของเขา

15:06.490 --> 15:12.070
ตัวอย่างเช่นคุณรู้ว่าการเคลื่อนไหวของตลาดมันไม่รู้ว่าจะเกิดอะไรขึ้น

15:12.110 --> 15:14.350
เครื่องหมายของกระบวนการตัดสินใจที่ใช้สำหรับสิ่งนั้น

15:14.350 --> 15:16.890
ดังนั้นที่นี่คุณสามารถเห็นตัวอย่างมากมาย

15:16.900 --> 15:20.340
และนี่คือจำนวนตัวอย่างที่ฉันคิดสำหรับแต่ละคน

15:20.650 --> 15:31.030
และเพื่อให้คุณรู้ว่าแม้แต่ตัวอย่างกีฬาสำหรับกีฬาและโรคระบาดและประกันภัยรถยนต์เรียกร้องการตรวจสอบและบำรุงรักษาและซ่อมแซมก็น่าสนใจมาก

15:31.030 --> 15:31.900
ลองดูที่

15:31.930 --> 15:41.130
เพียงเพื่อให้คุณเข้าใจเฮ้นี่ไม่ใช่แค่ทุกสิ่งที่สร้างขึ้นตามสมมุติฐานประเภทของเมทริกซ์

15:41.140 --> 15:50.410
นี่คือสถานการณ์จริงของโลกดังนั้นป่วยให้ความเข้าใจที่ดีขึ้นและนี่คือสิ่งที่เราพูดถึงในวิดีโอส่งเสริมการขายสำหรับคะแนนที่หรือคำอธิบายของหลักสูตรที่เราจะสร้างแรงบันดาลใจให้คุณและสัญชาตญาณของคุณเพื่อให้แนวคิด สำหรับการใช้ AI

15:50.410 --> 15:55.900
ในชีวิตจริง

15:55.900 --> 15:57.820
นี่คือโอกาสของคุณ

15:57.820 --> 15:59.790
ดูกระดาษนี้เพื่อทำความเข้าใจ

15:59.900 --> 16:02.890
ตกลงดังนั้นเราจะต้องจัดการกับกระบวนการตัดสินใจในอนาคต

16:02.890 --> 16:07.210
มันยอดเยี่ยมจริง

16:07.210 --> 16:13.650
ๆ สิ่งที่พวกเขามีลักษณะเหมือนในชีวิตจริงและสิ่งนี้อาจทำให้คุณมีความคิดสำหรับคุณว่าคุณสามารถนำไปใช้ในอนาคตเพื่อให้โลกเป็นสถานที่ที่ดีกว่าและเรามีความสุขสุด ๆ

16:13.690 --> 16:18.560
เรายินดีหากคุณสามารถใช้สิ่งที่คุณเรียนรู้ในหลักสูตรนี้เพื่อทำให้โลกน่าอยู่ขึ้น

16:18.730 --> 16:20.050
ช่างยอดเยี่ยมเหลือเกิน

16:20.380 --> 16:23.170
ดังนั้นในบันทึกย่อฉันหวังว่าคุณจะสนุกกับการกวดวิชาของวันนี้

16:23.170 --> 16:24.540
ฉันหวังว่าจะได้พบคุณในครั้งต่อไป

16:24.610 --> 16:26.420
และจนกว่าจะสนุกกับ AI