WEBVTT

00:00.830 --> 00:03.830
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.830 --> 00:08.120
لذلك تحدثنا عن معادلة بلمونت وقمنا بتحليل متاهةنا الصغيرة.

00:08.300 --> 00:10.760
دعونا نلقي نظرة على الخطة.

00:10.880 --> 00:12.200
ما هي الخطة؟

00:12.500 --> 00:14.570
حسنًا ، إليك تحليل المتاهة.

00:14.570 --> 00:19.430
ونعلم أنه يمكننا أن نرى في الواقع الحالات ، قيم كل حالة.

00:19.430 --> 00:22.760
يمكننا أن نرى ما هي قيمة الوجود في كل دولة.

00:23.060 --> 00:27.530
وبالتالي ، يمكنني أو يمكن للوكيل التنقل في هذه المتاهة.

00:27.530 --> 00:28.730
إذن ماهي الخطة؟

00:28.730 --> 00:33.830
حسنًا ، الخطة تشبه ببساطة خريطة كنز للذكاء الاصطناعي.

00:34.190 --> 00:40.400
بدلاً من النظر إلى هذه القيم ، دعنا فقط نستبدلها بأسهم تشير إلى الاتجاه الذي يجب أن يسلكه الوكيل

00:40.400 --> 00:43.340
بسبب هذه القيم ، لأنه يعرف هذه القيم.

00:43.340 --> 00:49.070
إذن ، سيناريو مثالي ، بعد استكشاف هذه البيئة ، يعرف قيم الوجود في كل ولاية ، وبالتالي يمكنه

00:49.070 --> 00:50.810
الخروج بهذه الخريطة.

00:50.810 --> 00:51.800
لذلك دعونا نلقي نظرة.

00:51.800 --> 00:54.260
مرة أخرى ، نعلم أن القيمة هنا هي واحد.

00:54.260 --> 00:57.770
لذا إذا كنت هنا من بين الاثنين ، فالأفضل هو هذا.

00:57.770 --> 01:00.080
لذلك تذهب مباشرة من هنا للخروج من الاثنين.

01:00.110 --> 01:00.890
هذا هو أفضل واحد.

01:00.890 --> 01:01.790
هذا هو أفضل واحد.

01:01.820 --> 01:02.690
هذا هو أفضل واحد.

01:02.690 --> 01:04.660
أو في الواقع ، من هنا لديك خياران ، أليس كذلك؟

01:04.670 --> 01:06.830
لذلك هنا نوع من ربطة عنق.

01:06.860 --> 01:12.200
لذا ، تختار واحدًا عشوائيًا ، لا يهم أيهما ، لأن القيمة في كلتا الحالتين هي

01:12.200 --> 01:12.860
نفسها.

01:12.860 --> 01:17.540
والأكثر من ذلك ، حتى إذا نظرنا إلى الأمر ، فسوف يستغرق الأمر نفس القدر من الخطوات ، ونفس عدد الخطوات للوصول

01:17.540 --> 01:18.290
إلى النهاية.

01:18.500 --> 01:22.490
من هنا لديك ثلاثة خيارات ، ولكن هذا هو أفضل قيمة من هنا.

01:22.490 --> 01:24.170
هذا هو أفضل قيمة من هنا.

01:24.200 --> 01:28.880
من الواضح أن هذه القيمة أفضل لأنك هنا تحصل على مكافأة ناقص واحدة على الفور.

01:29.480 --> 01:31.880
وهنا من هنا لديك مثل ثلاثة في الواقع.

01:31.880 --> 01:35.150
إذن ، هذا هو الأفضل منهم ، أفضل قيمة للدولة.

01:35.240 --> 01:41.000
وبالتالي ، إذا استبدلناها بأسهم ، فمن المنطقي أن تكون هذه هي الطريقة التي سيذهب بها الوكيل

01:41.000 --> 01:45.890
إذا بدأ هنا أو إذا انتهى لسبب ما في هذا المربع ، فهو يعرف كيفية الخروج من هنا ويبدأ

01:45.890 --> 01:46.990
في ميدان.

01:46.990 --> 01:48.890
يعرف كيف يخرج من هنا وهكذا.

01:48.890 --> 01:51.350
إذن هذا ما هي الخطة.

01:51.350 --> 01:56.300
ولا تخلط بين الخطة والسياسة لأننا سنتحدث عن السياسات بشكل أكبر.

01:56.300 --> 02:01.220
السياسات شبيهة جدًا بالخطط ، ولكن لديها القليل من الحيلة لأن البيئة ستكون

02:01.220 --> 02:05.600
مختلفة بعض الشيء ، وستكون عشوائية ، وهذا ما سنتحدث عنه في البرنامج

02:05.600 --> 02:07.430
التعليمي التالي.

02:07.760 --> 02:09.950
لذلك لا استطيع الانتظار لرؤيتك في المرحلة التالية.

02:09.950 --> 02:11.600
وحتى ذلك الحين ، استمتع.

02:11.600 --> 02:12.110
أنا.
