WEBVTT

00:00.950 --> 00:03.650
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.650 --> 00:07.640
واليوم نتحدث عن عمليات قرار ماركوف أو MDP.

00:08.570 --> 00:10.880
دعونا نلقي نظرة على ما لدينا اليوم.

00:11.210 --> 00:13.970
لذا في المرة الأخيرة توقفنا عن مفهوم الخريطة.

00:13.970 --> 00:19.400
لذلك نظرًا لأننا حسبنا القيم بناءً على معادلة بلمونت ، يمكننا اشتقاق هذه الخريطة لوكيلنا

00:19.400 --> 00:20.930
في هذه المتاهة.

00:20.930 --> 00:27.080
وما يعنيه ذلك أساسًا هو المكان الذي يبدأ فيه وكيل التغيير ، فلنفترض أنه يبدأ من هناك.

00:27.260 --> 00:30.800
إنه يعرف بالضبط الخطوات التي يجب اتخاذها للوصول إلى خط النهاية.

00:30.800 --> 00:32.210
لذلك يرتفع فقط.

00:32.210 --> 00:33.800
لأعلى ، صحيح ، صحيح.

00:33.800 --> 00:34.750
وفعلت.

00:34.760 --> 00:39.710
والسؤال هنا ، هل الأمر بهذه البساطة حقًا؟

00:39.710 --> 00:44.630
هل التعلم المعزز حقاً ، كما تعلمون ، ممل بسبب عدم وجود كلمة أفضل؟

00:44.630 --> 00:47.390
إنها بمجرد أن تحصل على الخريطة ، هذا كل شيء.

00:47.390 --> 00:49.280
كل ما عليك فعله هو الانتهاء.

00:49.640 --> 00:50.660
أنت فقط تتبع الخريطة.

00:50.810 --> 00:55.400
حسنًا ، الحقيقة هي أنه ليس بهذه البساطة في الواقع.

00:55.400 --> 01:00.950
وهذا شيء جيد ، لأنه يجعل هذه الدورة أكثر تشويقًا بالنسبة لنا ويمكننا في الواقع حل مشاكل

01:00.950 --> 01:02.360
أكثر تعقيدًا.

01:02.360 --> 01:05.390
هذا هو المكان الذي تأتي فيه عمليات ماركوف.

01:05.390 --> 01:07.640
لكن أولاً ، سنتحدث عن شيئين.

01:07.640 --> 01:11.300
سوف نتحدث عن البحث الحتمي مقابل البحث غير الحتمي.

01:11.390 --> 01:14.330
لذلك دعونا نتحدث عن مفهوم البحث الحتمي.

01:14.510 --> 01:16.430
هذا هو وكيلنا في المتاهة.

01:16.430 --> 01:24.320
والبحث الحتمي يعني أنه إذا قرر الوكيل الصعود ، فإن ما سيحدث هو احتمال

01:24.320 --> 01:26.660
100٪ أنه سيرتفع.

01:26.780 --> 01:28.610
هذا بالضبط ما سيحدث.

01:28.610 --> 01:29.630
لا توجد خيارات أخرى.

01:29.630 --> 01:33.590
مرة واحدة ، بمجرد أن تقول إصعد أو انقر فوق السهم لأعلى ، سترتفع.

01:33.590 --> 01:34.640
لا توجد خيارات أخرى.

01:35.060 --> 01:41.450
الآن ، من ناحية أخرى ، البحث غير الحتمي هو عندما يقول وكيلنا إنه يريد الصعود.

01:41.930 --> 01:44.210
هم في الواقع خياران.

01:44.210 --> 01:48.500
على سبيل المثال ، يمكن أن يكون هناك ثلاثة خيارات وسنلقي نظرة على مثال به ثلاثة خيارات

01:48.500 --> 01:50.180
، لكن لا يجب أن يقتصر على ثلاثة.

01:50.180 --> 01:54.200
يمكن أن يكون أربعة أو قد يكون مختلفًا اعتمادًا على المشكلة.

01:54.200 --> 02:00.530
يمكن أن تكون العشوائية مختلفة ، ولكن في حالتنا يمكن أن تكون ثلاثة خيارات مع فرصة بنسبة 80٪ أن يرتفع

02:00.530 --> 02:07.400
، ولكن بعد ذلك مع وجود فرصة بنسبة 10٪ عندما يريد الصعود ، سيذهب بالفعل إلى اليسار لمجرد أنه هذه هي الطريقة

02:07.400 --> 02:09.230
التي تعمل بها البيئة.

02:09.230 --> 02:10.820
هذا هو العالم الذي يعيش فيه.

02:11.180 --> 02:14.690
ومع وجود فرصة أخرى بنسبة 10٪ ، سوف يسير في الاتجاه الصحيح.

02:14.690 --> 02:17.090
وفي هذه الحالة ، سوف يسقط في حفرة النار.

02:17.660 --> 02:20.600
هكذا يعمل كل شيء.

02:20.660 --> 02:24.830
هذا مثال على بحث غير حتمي ، عملية عشوائية.

02:24.830 --> 02:33.370
والهدف من ذلك ، هو عمل نموذج أكثر واقعية لما يمكن أن يحدث في الواقع في عالم حقيقي ، في مشكلة

02:33.380 --> 02:36.290
من نوع العالم الحقيقي.

02:36.290 --> 02:41.270
لأنه نادرًا ما تحصل على مثل هذه المواقف عندما تفعل شيئًا ويحدث بالطريقة بالضبط.

02:41.270 --> 02:46.430
وحتى إذا فكرت في الأمر من حيث الألعاب ، فلنفترض أن لديك وكيلًا يلعب لعبة Pac-Man.

02:46.430 --> 02:48.410
حسنًا ، ليس دائمًا.

02:48.410 --> 02:53.000
هل هو أنه إذا كان يقف في المربع ، فقد صعد ، سيحصل على نفس النتيجة

02:53.000 --> 02:59.090
بالضبط في كل مرة سيصعد فيها بالفعل ، ولكن قد يكون في حالة واحدة لن يأكله شبح ، وفي

02:59.090 --> 03:01.340
حالة أخرى سيأكله شبح.

03:01.340 --> 03:05.870
لذا كما ترون ، هناك بعض العشوائية في الأمر لأنها تعتمد على كيفية تحرك الأشباح ولا تتحرك

03:05.870 --> 03:07.280
دائمًا بنفس الطريقة.

03:07.280 --> 03:09.260
لا يبدأون دائمًا في نفس المواقع.

03:09.260 --> 03:11.060
لذلك فمن المنطقي جدا.

03:11.060 --> 03:14.270
من العدل أن يكون هناك بعض العشوائية.

03:14.270 --> 03:19.760
هناك شيء لا يخضع لسيطرة الوكيل ، وهذا هو مجرد وسيلة بالنسبة لنا لتمثيل ذلك

03:19.760 --> 03:25.310
حتى نتعلم كيف يمكننا التعامل معه وكيف يؤثر ذلك على معادلة بيلمان ، وكيف يؤثر

03:25.310 --> 03:28.070
على الكل. عملية التعلم التعزيزي.

03:28.970 --> 03:33.680
ولكن في الوقت نفسه ، لا تقتصر العشوائية بالطبع على إذا ارتفعت ، فهناك احتمال بنسبة 10٪ أن تتجه

03:33.680 --> 03:35.510
يمينًا أو فرصة 10٪ لتتجه يسارًا.

03:35.510 --> 03:38.300
أو إذا هبطت ، فهناك احتمال 10٪ أن تذهب يمينًا أو يسارًا.

03:38.300 --> 03:40.490
أو إذا اتجهت إلى اليمين ، فهناك فرصة بنسبة 10٪ للارتفاع أو الانخفاض.

03:40.500 --> 03:42.890
لا يقتصر الأمر على المكان الذي ستنتهي إليه.

03:42.890 --> 03:44.420
في بعض الأحيان قد يكون لديك مشكلة.

03:44.420 --> 03:47.180
هذا هو بالضبط في بعض الأحيان قد تكون الاحتمالات مختلفة.

03:47.180 --> 03:51.050
في بعض الأحيان قد تتلخص العشوائية في شيء آخر.

03:51.050 --> 03:55.610
قد يكون مغليًا كما في مثال بكمن ، عن الأشباح التي تأكلك أو لا تأكلك.

03:55.610 --> 03:58.760
أو قد يتلخص في شيء مختلف.

03:58.760 --> 04:05.510
على سبيل المثال ، كما هو الحال ، هناك مثل ما إذا كان العميل يلعب الموت ثم هناك شيء مثل الوحش الذي

04:05.510 --> 04:08.900
سيطلق النار عليه في حالة واحدة ، لعبة أخرى.

04:08.990 --> 04:14.840
هناك مثل احتمال أن يتم تصويره ولن يتم تصويره وما إلى ذلك.

04:14.840 --> 04:19.460
إذاً شيء خارج عن سيطرة الفاعل ، شيء لا يمكنه التنبؤ به.

04:19.460 --> 04:22.790
هذا ما نصممه هنا في بحث غير حتمي.

04:22.790 --> 04:30.320
وهذا هو المكان الذي تعاملنا فيه مباشرة مع مفهومين جديدين ، عمليات ماركوف و / أو عملية ماركوف وعملية

04:30.320 --> 04:32.720
قرار ماركوف المميزة.

04:32.720 --> 04:38.600
لذلك دعونا نلقي نظرة على هذه ، وأنت تعرف كم لا أحب وضع التعريفات والكثير من النصوص على الشرائح

04:38.600 --> 04:42.230
، ولكن في هذه الحالة من الضروري بالنسبة لنا استعراضها.

04:42.230 --> 04:43.250
لذلك دعونا نلقي نظرة.

04:43.280 --> 04:46.160
العملية العشوائية لها علامة الملكية.

04:46.160 --> 04:51.710
إذا كان التوزيع الاحتمالي المشروط للحالات المستقبلية للعملية مشروطًا بالحالات

04:51.710 --> 04:58.040
الماضية والحالية ، يعتمد فقط على الحالة الحالية ، وليس على تسلسل الأحداث التي سبقتها.

04:58.070 --> 05:00.320
تسمى عملية هذه الخاصية عملية الترميز.

05:00.820 --> 05:06.670
تعريف معقد للغاية وهو نوع يشبه حتى قليلاً لا يتعارض مع نفسه ، لكنه يبدو أنه

05:06.670 --> 05:07.840
يناقض نفسه.

05:07.840 --> 05:11.950
إذن هنا يقول مشروطًا على كل من الماضي والحاضر يعتمد فقط على الحالة الحالية ، ولكنه

05:11.950 --> 05:14.250
في نفس الوقت يعتمد فقط على الحالة الحالية.

05:14.260 --> 05:17.530
لذلك لا تتورط في ذلك.

05:17.590 --> 05:19.270
سوف أقسمها بعبارات بسيطة.

05:19.270 --> 05:22.930
لذا فإن علامة الملكية هي عندما تكون دولتك المستقبلية.

05:22.930 --> 05:26.920
لذلك ليس اختيارك فحسب ، بل الأمر برمته ، اختيارك والبيئة.

05:27.130 --> 05:33.250
ستعجب نتائج الإجراء الذي تتخذه في تلك البيئة فقط على مكان وجودك

05:33.250 --> 05:33.850
الآن.

05:33.850 --> 05:35.650
لن يعتمد الأمر على كيفية وصولك إلى هناك.

05:35.860 --> 05:36.460
وهذا كل شيء.

05:36.460 --> 05:40.510
إذن هذا سوق للعقارات والعملية التي لها هذه الخاصية تسمى عملية السوق.

05:40.600 --> 05:47.230
لنضعها في مثال ، لذلك إذا كان وكيلك هنا وإذا ذهب ، إذا قرر الصعود ، فقد

05:47.230 --> 05:47.950
يذهب.

05:47.950 --> 05:52.810
هو في حالتنا ، في مثال البحث غير الحتمي ، قد يتجه في الواقع إلى اليسار واليمين.

05:52.810 --> 05:53.560
حسنا.

05:53.560 --> 05:57.490
هذا لأن لدينا تلك النظرية العشوائية داخل بيئتنا.

05:57.490 --> 05:59.560
لدينا تلك العشوائية داخل بيئتنا.

05:59.560 --> 06:01.630
لذلك أي واحد من هؤلاء الثلاثة قد يحدث.

06:01.630 --> 06:07.030
لكن المفتاح هنا هو أن هذه علامة على العملية لأننا لا نهتم بكيفية وصوله إلى هنا.

06:07.030 --> 06:10.060
كان من الممكن أن يأتي من الأعلى ، وينتهي به الأمر هنا ، كان يمكن أن يأتي من اليسار.

06:10.060 --> 06:12.190
ومن ثم هنا كان يمكن أن يأتي من القاع ، وانتهى به الأمر هنا.

06:12.190 --> 06:16.420
كان من الممكن أن يتحرك هنا مثل 100000 مرة ثم وصل إلى هنا.

06:16.420 --> 06:18.670
لا يهم ما حدث من قبل.

06:18.670 --> 06:22.120
فقط ما يهم هو في أي دولة هو الآن.

06:22.210 --> 06:30.790
وبالتالي فإن احتمالات التحرك يسارًا أو يمينًا أو لأعلى ، ستكون دائمًا كما هي إذا كان في هذه الحالة

06:30.790 --> 06:31.960
الآن.

06:32.530 --> 06:37.480
وهذا يعني ببساطة أنه لا يهم ما حدث قبل أن نكون هنا الآن.

06:37.570 --> 06:39.040
هذه هي الحالة التي أنت فيها.

06:39.040 --> 06:42.250
ولا تنس أن هذه الحالة لا تعني فقط أين يقف.

06:42.250 --> 06:46.570
الدولة هي حالة كل العامل في البيئة.

06:46.570 --> 06:49.900
فهل هناك مثل الوحوش على اليمين أم أنها وحوش على اليسار؟

06:49.900 --> 06:52.660
أم أن الشبح قادم من أعلى القاع؟

06:52.660 --> 06:55.480
مهما كانت الحالة التي أنت فيها الآن ، لا يهم كيف وصلت إلى هناك.

06:55.480 --> 06:58.720
لا يهم كيف حدث أن تكون هناك في تلك الحالة.

06:58.720 --> 07:03.730
الآن ، ما سيحدث في المستقبل يتم تحديده فقط من خلال الحالة التي أنت فيها الآن ، بالإضافة إلى الإجراءات التي ستتخذها

07:03.730 --> 07:07.030
بعد ذلك ، بالإضافة إلى ، بالطبع ، العشوائية المتراكبة فوق ذلك.

07:07.210 --> 07:14.650
إذن فهذه علامة للعملية وعلامة لعملية اتخاذ القرار أو تقدم عمليات قرار MDP أو Markov إطارًا رياضيًا

07:14.650 --> 07:20.320
لنمذجة صنع القرار في المواقف التي تكون فيها النتائج عشوائية جزئيًا وجزئيًا

07:20.320 --> 07:23.290
تحت سيطرة صانع القرار.

07:23.290 --> 07:29.470
من المهم جدًا أن نفهم أن عمليات عملية اتخاذ القرار في ماركوف هي مفهوم مختلف أو مختلف تمامًا عن

07:29.470 --> 07:34.210
عملية ماركوف ، بالنسبة لعملية ماركوف ، فهي تشبه نوعًا ما إطار رياضي.

07:34.210 --> 07:38.770
لذا ولكن في نفس الوقت ، اعتقدت أنه من المهم بالنسبة لنا أن نفهم ما هي عملية ماركوف

07:38.770 --> 07:43.060
، لأنني أعتقد أنها لا تزال تساعد في فهم علامة عملية اتخاذ القرار.

07:43.060 --> 07:48.730
لذا فإن علامة عملية اتخاذ القرار هي أن هذا هو بالضبط ما كنا نناقشه حتى الآن بحيث

07:48.730 --> 07:52.060
يعيش الوكيل في هذه البيئة حيث يتحكم فيه.

07:52.060 --> 07:56.320
مثل ، تذكر ، في السابق كان لديه سيطرة كاملة على ما يجري ، لكنه الآن لديه

07:56.320 --> 07:57.400
تحكم أقل قليلاً.

07:57.400 --> 08:00.160
يمكنها أن تقرر الصعود ، لكنها تعرف في الواقع.

08:00.160 --> 08:03.490
حسنًا ، إذا صعدت ، فهناك فرصة بنسبة 80٪ لأرتفع.

08:03.490 --> 08:05.950
هناك فرصة بنسبة 10٪ لليسار ، و 10٪ فرصة أن أذهب لليمين.

08:05.950 --> 08:08.860
لذلك ليس كل شيء تحت سيطرتها بالكامل.

08:08.860 --> 08:10.660
هناك بعض العشوائية في هذه البيئة.

08:10.660 --> 08:12.970
هذا هو بالضبط علامة على عملية اتخاذ القرار.

08:12.970 --> 08:18.670
عملية اتخاذ القرار ماركوف هي إطار العمل الذي سيستخدمه الوكيل لفهم ما يجب القيام به في هذه

08:18.670 --> 08:19.330
البيئة.

08:19.330 --> 08:23.740
إذن لدينا بيئة بها بعض العشوائية ، وبعض العشوائية ، والآن على الوكيل أن يختار ،

08:23.740 --> 08:28.480
على سبيل المثال ، يجب أن يرتفع أو ينخفض ، يسارًا أو يمينًا ، عليه أن يتخذ هذا القرار.

08:28.480 --> 08:29.680
لا تعرف ماذا تفعل.

08:29.830 --> 08:36.130
ومن أجل اتخاذ هذا القرار ، سوف يتم تطبيق إطار عمل سوف يستخدم عملية قرار ماركوف

08:36.130 --> 08:40.690
من أجل اتخاذ هذا القرار ، ما الذي سيحدث ، إلى أين سيذهب.

08:40.810 --> 08:47.530
وبالتالي فإن هذه البيئة التي تطرح هذه المشكلة ، يشار إليها بشكل أساسي بعلامة عملية اتخاذ القرار.

08:47.530 --> 08:49.900
لذلك فهو الإطار الذي يستخدمه الوكيل.

08:49.900 --> 08:54.790
في الوقت نفسه ، يُشار إلى البيئة إلى أن الوكيل يعمل في بيئة عملية اتخاذ القرار

08:54.790 --> 08:55.450
ماركوف.

08:56.110 --> 08:57.910
ولذا لدينا هنا مفهومان.

08:57.910 --> 09:04.450
لدينا عملية ماركوف هي الطريقة التي يتم بها تصميم هذه البيئة ، والتي تقوم بما يحدث من حيث

09:04.450 --> 09:06.820
أنت الآن لا تعتمد على الماضي.

09:06.820 --> 09:11.080
ثم في نفس الوقت الذي حصلنا فيه على علامة عملية اتخاذ القرار هو الإطار

09:11.080 --> 09:13.510
الذي سيستخدمه الوكيل لحل هذه البيئة.

09:13.720 --> 09:18.760
والخبر السار هو أن علامة عملية اتخاذ القرار أو إطار العمل الذي نتحدث عنه هو

09:18.760 --> 09:24.670
في الواقع مجرد إضافة إلى معادلة بيلمان لدينا هي معادلة بيلمان ، ولكنها أكثر تعقيدًا.

09:24.670 --> 09:26.500
لذلك دعونا نلقي نظرة على ذلك.

09:26.890 --> 09:28.180
هذه هي معادلة بيلمان الخاصة بنا.

09:28.180 --> 09:30.970
حتى الآن ، هذا هو الحد الأقصى لجميع الإجراءات الممكنة.

09:30.970 --> 09:35.080
لذا فإن قيمة أن تكون في حالة هي الحد الأقصى لجميع الإجراءات الممكنة التي يمكنك اتخاذها من تلك

09:35.080 --> 09:35.620
الحالة.

09:36.100 --> 09:41.500
يتم أخذ الحد الأقصى من المكافأة التي ستحصل عليها من خلال اتخاذ هذا الإجراء في تلك الحالة ، بالإضافة إلى

09:41.500 --> 09:45.160
عامل الخصم مضروبًا في قيمة الحالة التالية ، وهي القيمة الأولية.

09:45.160 --> 09:50.380
هذا ما حصلنا عليه حتى الآن لأن لدينا بعض العشوائية في عمليتنا بأكملها.

09:50.380 --> 09:54.790
هذا ، هذا الجزء سيتغير لأننا لا نعرف في الواقع الحالة التي ستنتهي ولا نعرف

09:54.790 --> 09:56.050
ما هو العدد الأولي.

09:56.050 --> 09:59.170
هل سيكون الأمر إذا كنا نصعد ، هل يرتفع أم أننا نترك؟

09:59.170 --> 09:59.770
هل سنكون على حق؟

09:59.830 --> 10:04.660
لذا فعلينا أن نضع هذا في القيمة المتوقعة للحالة التالية.

10:04.660 --> 10:06.340
لذلك سنقوم هنا باستبدال هذا.

10:06.340 --> 10:08.350
إذن ، هناك ثلاث حالات محتملة يمكن أن ينتهي بنا المطاف فيها.

10:08.530 --> 10:12.340
ولذا سنستبدل ذلك ببعض القيمة.

10:12.670 --> 10:19.450
هذه الحالة لها قيمة شرطة واحدة ، وهذه الحالة بها شرطة ، واثنين كرقمتين ، وهذه الحالة

10:19.450 --> 10:22.180
لها قيمة V لـ S ثلاثة شرطة.

10:22.420 --> 10:28.690
سنقوم الآن بضرب الحالة التي نعتزم الدخول فيها بنسبة 80٪ ، لأن هذا هو احتمال وصولنا إلى هذه الحالة

10:28.690 --> 10:33.970
، بالإضافة إلى احتمال الوصول إلى هذه الحالة بنسبة 10٪ بالإضافة إلى كل فاتورة دخول

10:33.970 --> 10:35.260
في الحالة.

10:35.260 --> 10:37.960
إذن هذه هي القيمة المتوقعة فقط.

10:37.960 --> 10:45.220
لذلك إذا أخذنا من الإحصائيات القيمة المتوقعة للدخول إلى الدولة ، فسنصل إليها.

10:45.790 --> 10:50.650
نوعًا ما يشبه المتوسط ما هو متوسط ما سنحصل عليه ثم نستبدل ذلك

10:50.650 --> 10:51.370
هنا.

10:51.790 --> 10:52.870
ثم نحصل على هذه المعادلة.

10:52.870 --> 10:55.570
الآن يقفز بسرعة كبيرة فقط لأن هذه المعادلة أكبر.

10:55.570 --> 10:57.850
ولكن إذا نظرت إليها بعناية ، سترى أنها نفس الشيء تمامًا.

10:57.850 --> 11:04.570
إذاً لديك أجهزة Mac هنا ، وأجهزة Mac جيدة هنا ، ثم لديك R من S و A ، لديك R من SE ، وهنا لديك

11:04.570 --> 11:06.220
جاما ، لديك جاما.

11:06.220 --> 11:08.530
ثم أخيرًا هنا لديك V.

11:08.530 --> 11:11.590
لذلك كنت تعرف بالضبط أنه كان بحثًا حتميًا.

11:11.590 --> 11:13.360
كنت تعرف الدولة التي ستدخل فيها.

11:13.390 --> 11:15.010
الآن أنت لا تعرف أي ولاية ستدخل.

11:15.010 --> 11:20.530
لذا بدلاً من أخذ V ، فأنت تأخذ القيمة المتوقعة للحالة التي ستدخلها أو للحالة

11:20.530 --> 11:25.790
المستقبلية ، أو بعبارات أبسط ، فأنت تأخذ فقط متوسط ما ستدخل إليه.

11:25.810 --> 11:31.810
لذا ، إذا كانت قيمة a في a in a like كانت فرصة 33٪ ستكون هكذا ، زائد هذا زائد هذه القسمة على ثلاثة

11:31.810 --> 11:32.830
أساسًا.

11:32.830 --> 11:37.060
لكن في هذه الحالة ، ليس الأمر مختلفًا تمامًا مثل المتوسط المتوسط.

11:37.060 --> 11:40.120
إنه متوسط مرجح بسبب احتمالاتك هنا.

11:40.120 --> 11:46.000
إذاً هنا لديك احتمالية عندما تكون في هذه الحالة ، فإنك تتخذ هذا الإجراء الخاص بالوصول إلى الحالة

11:46.000 --> 11:50.590
كأضرب قيمة لـ s الأولية ويتم تلخيصها عبر كل هذه الأعداد الأولية التي يمكنك الوصول

11:50.590 --> 11:51.760
إليها هنا.

11:51.760 --> 11:53.590
إذن بالضبط ما كان لدينا ثلاثة هنا.

11:53.590 --> 11:54.640
واحد اثنين ثلاثة.

11:54.640 --> 11:56.470
اجمعها مضروبًا في الاحتمالات.

11:56.470 --> 11:57.130
أضفهم.

11:57.130 --> 11:57.790
نفس الشيء هنا.

11:57.790 --> 11:58.750
واحد اثنين ثلاثة.

11:58.750 --> 12:01.480
اضربهم في الاحتمالات واجمعهم.

12:01.840 --> 12:04.930
وهذه هي معادلة بلمونت الجديدة الخاصة بك.

12:05.020 --> 12:06.220
تهانينا.

12:06.220 --> 12:12.280
هذا ما سنعمل معه للمضي قدمًا ، وهذا هو الإطار المستخدم في عمليات اتخاذ قرارات

12:12.280 --> 12:13.510
ماركوف.

12:13.510 --> 12:20.710
إذن هذا هو الإطار الذي يحل هذا الذي يستخدمه الوكلاء لحل مشكلة البحث العشوائية غير الحتمية بأكملها

12:20.710 --> 12:25.300
حيث توجد أحداث عشوائية تحدث ولا يمكنهم التحكم فيها.

12:25.300 --> 12:26.830
لذا فالأمر أكثر تعقيدًا.

12:26.830 --> 12:32.680
لكن كما ترون ، لأننا بنينا عليها ببطء الآن نحن نعرف بالفعل عن هذا ،

12:32.680 --> 12:36.670
نقرأ عنه ، ونقرأ عنه ، ونعرف عنه ، ونعرف عنه.

12:36.670 --> 12:42.700
لذلك كل ما فعلناه هو أننا قدمنا هذا الجزء هنا لأن هناك احتمالات متضمنة

12:42.880 --> 12:45.520
في الإجراء أو عواقب أفعالك.

12:46.030 --> 12:48.550
وعلى الحتمية ، فهي تستند إلى احتمالات معينة.

12:49.060 --> 12:50.470
وها نحن ذاهبون

12:50.470 --> 12:57.820
هذه هي الطريقة التي تعمل بها عملية قرار السوق والمعادلة الأساسية الكامنة وراءها.

12:58.240 --> 13:04.600
مرة أخرى ، إنه شيء يشبه إلى حد كبير مشاكل العالم الحقيقي أو سيناريوهات العالم الحقيقي

13:04.600 --> 13:08.650
أو حتى سيناريوهات اللعبة ، لأنه ليس كل شيء مباشرًا.

13:08.650 --> 13:15.670
هناك بعض العشوائية لجميع المعنيين ولن يتخذوا دائمًا إجراءً في حالة معينة.

13:15.670 --> 13:16.360
لن دائما.

13:16.360 --> 13:18.610
حسنًا ، لن يؤدي ذلك دائمًا إلى نفس النتيجة.

13:18.610 --> 13:23.080
وهذا ما سنتعامل معه للمضي قدمًا ، وهذا سيجعل الأمور أكثر إثارة

13:23.080 --> 13:24.100
للاهتمام.

13:24.100 --> 13:29.170
لذا آمل أن تكون متحمسًا لذلك ومتحمسًا لرؤية ما سيحدث بعد ذلك.

13:29.410 --> 13:35.800
وفي غضون ذلك ، وجدت ورقة رائعة حقًا لكي تلقي نظرة عليها في هذا الوقت.

13:35.800 --> 13:39.820
إنها ورقة مطبقة للغاية ، لذا فإن قراءة هذا المقال ممتعة حقًا.

13:40.000 --> 13:46.000
يطلق عليه مسح تطبيقات عمليات اتخاذ القرار ماركوف ، وقد كتبه

13:46.000 --> 13:47.890
وايت في عام 1993.

13:47.890 --> 13:55.900
هناك رابط وسيُظهر لك أمثلة على المكان الذي تُستخدم فيه عمليات اتخاذ قرار ماركوف فعليًا لنمذجة سيناريوهات الحياة

13:55.900 --> 13:56.950
الواقعية.

13:56.950 --> 13:59.470
أعتقد أنني كنت متحمسًا جدًا لهذا.

13:59.470 --> 14:00.940
لقد تأثرت ببعض الأمثلة.

14:00.940 --> 14:03.430
لذا فإن حصاد السكان ، على سبيل المثال.

14:03.610 --> 14:09.220
لنفترض أن لديك بعض الأسماك وما هو عدد الأسماك ، فأنت بحاجة إلى تحديد

14:09.220 --> 14:13.210
عدد الأسماك التي يمكننا صيدها هذا العام وماذا؟

14:13.210 --> 14:14.260
إذن هذه هي حالتك الحالية.

14:14.260 --> 14:15.550
هذا هو الإجراء الذي تقوم به.

14:15.550 --> 14:19.930
كم عددًا يمكننا تصويره هذا العام ، فما هي النتائج المحتملة لذلك؟

14:20.470 --> 14:22.000
كم عدد الأسماك التي سنمتلكها العام القادم؟

14:22.000 --> 14:24.850
كم عدد الأسماك التي سنمتلكها في العام الذي يليه والسنة التي تليها وما إلى ذلك؟

14:24.850 --> 14:30.490
وهي ليست حتمية لأنها ليست كما لو كنت قد استبعدت و 90٪ من السكان في العام

14:30.490 --> 14:32.800
المقبل ، فستعود إلى 100٪.

14:32.800 --> 14:34.570
انها ليست حتمية بالضبط.

14:34.570 --> 14:37.600
هناك عوامل عشوائية معينة خارجة عن سيطرتنا.

14:37.600 --> 14:41.230
وبالتالي علينا أن نفهم ما الذي سيحدث.

14:41.230 --> 14:42.580
علينا أن نصمم ما سيحدث.

14:42.580 --> 14:44.490
هذا هو المكان الذي يتم فيه استخدام عملية اتخاذ قرار ماركوف.

14:44.800 --> 14:48.160
الزراعة ، هناك مثال مشابه للشيء نفسه ، مثل حصاد المحاصيل.

14:48.160 --> 14:49.330
كم من المحاصيل نحصد؟

14:49.330 --> 14:49.900
كم الثمن؟

14:49.900 --> 14:51.220
كم لا نحصد؟

14:51.220 --> 14:57.910
واحد آخر ، والذي نظرت فيه إلى التمويل والاستثمار مثل شركة التأمين بحاجة إلى تحديد مقدار الأموال

14:57.910 --> 14:59.710
التي ستستثمر فيها.

14:59.770 --> 15:02.860
معطى ، على ما أعتقد ، يوم أو سنة أو فترة زمنية معينة.

15:02.860 --> 15:06.400
وهناك عوامل معينة خارجة عن سيطرتها.

15:06.400 --> 15:09.130
على سبيل المثال ، حركات السوق ، لا تعرف ما يمكن أن يحدث.

15:09.130 --> 15:14.080
لذلك يحتاج إلى نموذج فعلي لذلك بطريقة ما ويتم استخدام عملية قرار السوق من أجل ذلك.

15:14.080 --> 15:19.780
هنا يمكنك أن ترى الكثير والكثير من الأمثلة وهذا هو عدد الأمثلة المعطاة على ما أعتقد لكل

15:19.780 --> 15:20.260
منها.

15:20.380 --> 15:27.970
وهكذا حتى الرياضة ، مثالان للرياضة والأوبئة ومطالبات التأمين على السيارات والتفتيش والصيانة والإصلاح

15:27.970 --> 15:29.500
وما إلى ذلك.

15:29.500 --> 15:30.940
مثير جدا للاهتمام.

15:30.970 --> 15:31.810
الق نظرة على ذلك.

15:31.810 --> 15:39.790
فقط لإعطائك فهمًا ، هذا ليس فقط كل الأشياء المكونة ، الافتراضية ، نوع المصفوفة

15:39.790 --> 15:40.960
للأشياء.

15:40.960 --> 15:42.520
هذا في الواقع سيناريو العالم الحقيقي.

15:42.520 --> 15:44.710
لذلك سوف يمنحك فهمًا أفضل.

15:44.710 --> 15:49.240
وهذا ما تحدثنا عنه في الفيديو الترويجي لهذه الدورة التدريبية أو وصف الدورة

15:49.240 --> 15:55.810
الذي سنلهمك وحدسك لإعطائك أفكارًا حول كيفية استخدام الذكاء الاصطناعي في الحياة الواقعية.

15:55.810 --> 15:57.490
هذه فرصتك.

15:57.760 --> 16:01.960
انظر إلى هذه الورقة لفهم ، حسنًا ، لذلك سنتعامل مع عمليات اتخاذ قرار ماركوف للمضي

16:01.960 --> 16:02.680
قدمًا.

16:02.680 --> 16:03.790
هذا رائع حقا.

16:03.790 --> 16:05.170
كيف يبدون في الحياة الواقعية؟

16:05.170 --> 16:10.090
وقد يثير هذا بعض الأفكار لك حول كيفية تطبيق الذكاء الاصطناعي في المستقبل لجعل العالم

16:10.090 --> 16:11.110
مكانًا أفضل.

16:11.500 --> 16:13.600
وسنكون سعداء جدًا بذلك.

16:13.600 --> 16:18.640
سيكون من دواعي سروري أن تتمكن من استخدام ما تعلمته في هذه الدورة لجعل العالم مكانًا أفضل باستخدام الذكاء الاصطناعي.

16:18.670 --> 16:19.870
كم سيكون ذلك رائعا؟

16:20.170 --> 16:23.050
في هذه الملاحظة ، أتمنى أن تكون قد استمتعت ببرنامج اليوم التعليمي.

16:23.050 --> 16:24.460
أنا أتطلع إلى رؤيتك في المرة القادمة.

16:24.460 --> 16:26.470
وحتى ذلك الحين ، استمتع بـ i.