WEBVTT

00:00.930 --> 00:04.190
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:04.200 --> 00:07.050
سنتحدث اليوم عن معادلة بلمونت.

00:07.440 --> 00:12.510
إنه موضوع معقد للغاية وسنقوم بتقديمه خطوة بخطوة خلال هذا القسم بأكمله من

00:12.510 --> 00:13.920
الدورة التدريبية.

00:13.920 --> 00:18.090
لذلك لن ننتقل مباشرة إلى أكثر نسخة معقدة من معادلة بلمونت.

00:18.090 --> 00:23.160
لكن بدلاً من ذلك ، سنقوم بتقديمه ببطء من أجل فهم كيفية عمله تدريجيًا.

00:23.160 --> 00:25.350
وآمل أن تكون رائعًا مع هذا النهج.

00:25.350 --> 00:28.380
إذا كنت كذلك ، دعنا ندخلها مباشرة.

00:28.380 --> 00:32.610
لذلك سيكون لدينا بعض المفاهيم الأساسية التي سنتعامل معها.

00:32.610 --> 00:36.090
وهذه المفاهيم هي SSE لتقف على الدولة.

00:36.090 --> 00:42.990
لذا فإن الحالة التي يكون فيها وكيلنا أو أي حالة أخرى محتملة يمكن أن يكون فيها يمثل فعلًا

00:42.990 --> 00:45.330
يمكن للفاعل أن يتخذه.

00:45.330 --> 00:48.240
لذلك يمكن للوكيل الوصول إلى قائمة معينة من الإجراءات.

00:48.240 --> 00:53.520
والأفعال مهمة جدًا عندما يتم النظر إليها في مجموعة الحالة.

00:53.520 --> 00:57.030
لذلك عندما تكون في حالة معينة ثم تنظر إلى الأفعال ، عندها يبدأ الأمر في أن يكون منطقيًا.

00:57.030 --> 00:59.010
ماذا ستكون نتيجة تلك الإجراءات؟

00:59.010 --> 01:02.700
لأنك إذا نظرت إلى فعل ما بمفرده بدون حالة فهذا لا معنى له حقًا لأنك

01:02.700 --> 01:05.310
لا تعرف مكانك وأين يمكن أن ينتهي بك الأمر.

01:05.310 --> 01:12.000
وبعد ذلك ، سيكون لدينا ما يمثل المكافأة ، وهذه هي المكافأة التي يحصل عليها الوكيل لدخوله

01:12.000 --> 01:13.800
في حالة معينة.

01:14.040 --> 01:16.890
وجاما هي عامل الخصم.

01:16.890 --> 01:18.630
وسنتحدث عن عامل الخصم في ثانية.

01:18.630 --> 01:24.330
أصبح كل شيء منطقيًا الآن ، ولكن فقط دون ملاحظة ، قم بتدوين ملاحظة ذهنية بأننا سنحصل على هذه الرسالة ،

01:24.330 --> 01:26.100
جاما ، التي سنعمل معها لاحقًا.

01:26.340 --> 01:30.990
إذن الشخص الذي يقف وراء معادلة بيلمان هو ريتشارد إرنست بيلمان.

01:31.170 --> 01:39.090
لقد كان عالمًا في الرياضيات التطبيقية وتوصل إلى مفهوم البرمجة الديناميكية ، وهو ما نحن عليه الآن ، والذي نسميه

01:39.090 --> 01:42.930
الآن التعلم المعزز أو الذي نسميه معادلة بلمونت.

01:42.930 --> 01:45.420
حسنًا ، هذا ما نسميه الآن.

01:45.420 --> 01:52.170
وفي عام 1953 ، توصل إلى هذا المفهوم ، وذلك عندما جاءتني معادلة بلمونت.

01:52.380 --> 01:55.920
لذلك دعونا نلقي نظرة على كيفية عمل كل هذا.

01:56.310 --> 02:00.780
هناك وكيلنا الجميل في الزاوية اليسرى السفلية وهو في متاهة.

02:00.780 --> 02:06.360
وهذه متاهة كلاسيكية حيث لديك بعض الكتل ، والكتل البيضاء عبارة عن كتل يمكن

02:06.360 --> 02:08.040
للعميل أن يتدخل فيها.

02:08.040 --> 02:11.610
الكتلة الرمادية هي التي لا يمكن الوصول إليها.

02:11.610 --> 02:13.650
هذا مثل جدار في هذه المتاهة.

02:13.650 --> 02:18.140
اللون الأخضر هو المكان الذي يجب أن يهدف الوكيل إلى الوصول إليه.

02:18.150 --> 02:19.860
هذا هو المكان الذي نريد أن يذهب إليه الوكيل.

02:19.860 --> 02:20.880
هذه هي النهاية.

02:20.880 --> 02:23.040
والأحمر حفرة نار.

02:23.040 --> 02:26.520
لذلك إذا سقط المحرك في حفرة النار ، فسيخسر اللعبة.

02:26.640 --> 02:31.230
لذا في حفرة النار المكافأة R ناقص واحد.

02:31.230 --> 02:36.360
هذه طريقتنا في إخبار الوكيل بأن هذا ليس شيئًا نريدك أن تفعله.

02:36.360 --> 02:41.100
مثل ، تذكر مثالًا عندما نقوم بتدريب الكلاب ، نريد إخبارهم مثل الكلاب الشريرة إذا لم يفعل الشيء

02:41.100 --> 02:42.720
الصحيح الذي أردنا القيام به.

02:42.720 --> 02:43.260
نفس الشيء هنا.

02:43.260 --> 02:46.920
نريد إخبار الوكيل أن هذا ليس شيئًا يجب عليك فعله.

02:46.920 --> 02:48.210
لا يجب أن ينتهي بك الأمر في الميدان.

02:48.210 --> 02:51.120
لذلك في كل مرة لا تظهر فيها في المربع ستحصل على مكافأة ناقص واحد.

02:51.120 --> 02:53.100
لذلك سوف يعاقب ناقص مكافأة واحدة.

02:53.310 --> 02:57.300
من ناحية أخرى ، إذا انتهى الأمر بالمربع الأخضر ، فسيحصل على مكافأة إضافية واحدة

02:57.300 --> 02:59.220
، مما يعني أن هذا ما نريده أن يفعله.

02:59.280 --> 03:02.190
هذه هي المكافأتان اللتان يمكن أن يحصل عليهما الوكيل.

03:02.190 --> 03:06.150
وكيف تتعلم كيف تعمل في هذه المتاهة؟

03:06.180 --> 03:10.500
تمامًا كما في هذا المثال من الكلاب الآلية التي تتعلم المشي ، سنخبرها فقط.

03:10.500 --> 03:12.390
سنخبرها فقط أن هذه هي الإجراءات التي يمكنك القيام بها.

03:12.420 --> 03:14.550
يمكنك الصعود إلى اليمين أو اليسار أو الأسفل.

03:14.550 --> 03:16.590
هذه هي الإجراءات الأربعة التي يمكنك القيام بها.

03:16.590 --> 03:18.120
وهذا كل شيء.

03:18.120 --> 03:21.180
قم بالتلاعب في ذلك ، انظر ما يمكنك التوصل إليه.

03:21.180 --> 03:26.580
لذلك قد يتجه الوكيل إلى اليمين ، ثم قد يتجه إلى المزيد جهة اليمين ، وقد يعود إلى اليسار.

03:26.580 --> 03:30.090
إنهم يضغطون بشكل عشوائي على هذه الأزرار ويحاولون معرفة ما سيحدث.

03:30.090 --> 03:34.560
ثم يعودون إلى هنا ، يصعدون ، يصعدون ، ينزلون ، يصعدون ، يذهبون يمينًا.

03:34.560 --> 03:36.090
حتى الآن ، لم يتعلموا أي شيء.

03:36.090 --> 03:38.160
لم يحدث شيء حتى الآن.

03:38.160 --> 03:41.580
يذهبون لليمين ثم بام ، ينتهي بهم الأمر في الساحة الخضراء.

03:41.580 --> 03:45.450
لذلك أدركوا ، واو ، لقد حصلت للتو على مكافأة واحدة.

03:45.450 --> 03:48.960
وبمجرد دخولهم الساحة الخضراء ، حصلوا على مكافأة إضافية.

03:48.960 --> 03:53.130
وهذا يدفع الخوارزمية لتقول ، حسنًا ، هذا رائع حقًا.

03:53.580 --> 03:58.710
تمت مكافأتي لأنني انتهى بي المطاف في الميدان ، لذلك أريد أن ينتهي بي المطاف في الميدان.

03:58.710 --> 04:00.420
إذن ماذا يعني ذلك بالنسبة للوكيل؟

04:00.660 --> 04:04.230
هذا يعني أنه يبدأ في طرح السؤال ، كيف وصلت إلى هذا المربع؟

04:04.260 --> 04:09.840
ما هي الحالة السابقة التي كنت فيها وما الإجراء الذي اتخذته لدخول الميدان؟

04:09.840 --> 04:14.520
ثم تنظر إلى الوراء وتقول ، حسنًا ، لذلك كانت الحالة السابقة هي هذه.

04:14.730 --> 04:19.050
اتضح أن يكون ذا قيمة في تلك الحالة ، تلك التي أطلقت شرارة السهم الأحمر.

04:19.050 --> 04:26.190
لأنه من هذه الحالة ، فأنا على بعد خطوة واحدة فقط من الحصول على أقصى مكافأة يمكنني أن أحلم بها

04:26.190 --> 04:33.480
بالإضافة إلى واحدة مثل بسكويت لكلب بمجرد أن أعرف ما إذا كنت في هذه الحالة من قبل ، هذا المربع المميز

04:33.480 --> 04:35.070
بسهم أحمر.

04:35.070 --> 04:36.540
كل ما علي فعله هو الضغط على اليمين.

04:36.810 --> 04:39.030
فكيف أقول لنفسي؟

04:39.030 --> 04:41.370
كيف أتذكر أن تلك الحالة ذات قيمة؟

04:41.370 --> 04:46.500
حسنًا ، بالنسبة لي ، لا يوجد فرق ، في الواقع ، بصفتي الوكيل ، لا يوجد فرق فيما إذا

04:46.500 --> 04:49.620
كنت في الساحة الخضراء أو في المربع الأبيض.

04:49.620 --> 04:51.540
في الساحة الخضراء ، حصلت على مكافأة واحدة.

04:51.540 --> 04:57.960
لذلك سأحدد بنفسي أن المربع الأبيض مخصص لي ، وله قيمة واحدة لأنه يؤدي بالضبط

04:57.960 --> 05:00.120
إلى مكافأة واحد.

05:00.120 --> 05:00.240
لذا.

05:00.310 --> 05:03.220
بمجرد أن أكون في White Square ، أعلم أنني سأقوم بعمل واحد آخر.

05:03.220 --> 05:05.320
سأكون في الساحة الخضراء وسأحصل على مكافأة واحدة.

05:05.320 --> 05:11.260
لهذا السبب سأقول إن قيمة هذا المربع تساوي واحدًا ، لأنه يؤدي مباشرة

05:11.260 --> 05:14.190
دون أي نوع من عمليات الطرح.

05:14.200 --> 05:16.090
بمجرد وصولي إلى هنا ، أعرف أن مكافأتي ستكون واحدة.

05:16.090 --> 05:18.490
لذلك سأضع علامة على هذا المربع على أنه يساوي واحدًا.

05:18.490 --> 05:19.330
هذه هي القيمة.

05:19.330 --> 05:21.670
هذه هي القيمة المتصورة لوجودك في هذه الحالة.

05:22.210 --> 05:26.860
بعد ذلك ، سيكون الوكيل مثل ، حسنًا ، فكيف دخلت هذا المربع؟

05:26.860 --> 05:30.880
وقد يتجول مرة أخرى وهكذا ينتهي به الأمر في الساحة مرة أخرى.

05:30.880 --> 05:33.520
وسأقول ، حسنًا ، كيف دخلت إلى هذا المربع قبل ذلك؟

05:33.520 --> 05:36.610
والطريقة التي دخلت بها إلى هذا المربع كانت من هذا المربع.

05:36.700 --> 05:37.480
مثير للإعجاب.

05:37.750 --> 05:42.790
وبمجرد وصولي إلى هذا المربع ، أعلم أن كل ما علي فعله هو السير في الاتجاه الصحيح.

05:42.790 --> 05:45.520
وبعد ذلك من هنا ، أعلم بالفعل أنني سأفوز.

05:45.520 --> 05:48.190
أعرف بالضبط كيف سينهار كل شيء من هنا.

05:48.190 --> 05:50.770
وأنا أعلم أن قيمة الوجود في هذه الحالة تساوي واحدًا.

05:50.770 --> 05:58.300
وبما أنه لا يوجد شيء يمنعني من الانتقال من هنا إلى هنا ، فإن القيمة في هذا ستعود إلى القيمة

05:58.300 --> 05:59.350
المتصورة.

05:59.350 --> 06:04.480
سأقيم هنا حيث أن V تساوي واحدًا أيضًا ، لأنه بمجرد وصولي إلى هنا ، أعلم أنني

06:04.480 --> 06:06.550
سأكون هنا وسأكون هنا سريعًا.

06:06.550 --> 06:07.660
لذا سأفوز.

06:07.960 --> 06:10.330
ثم كيف أصل إلى هذا المربع قبل ذلك؟

06:10.330 --> 06:12.850
حسنًا ، دخلت هذا المربع من هذه الساحة.

06:12.850 --> 06:15.700
لذا فإن القيمة هي نهج مماثل.

06:15.700 --> 06:19.120
قيمة الوجود هنا تساوي أيضًا واحدًا وهكذا.

06:19.120 --> 06:22.900
لذا فإن قيمة الوجود هنا تساوي واحدًا وقيمة الوجود هنا تساوي واحدًا لأن كل واحد منهما

06:22.900 --> 06:25.210
يؤدي إلى القيمة التالية ويؤدي إلى خط النهاية.

06:26.020 --> 06:29.770
لذلك كل هذا منطقي جدًا في هذه المرحلة.

06:29.770 --> 06:33.340
هذا هو تصميم معادلة بلمونت إلى حد كبير الآن.

06:33.340 --> 06:40.240
لذلك يمكننا التفكير في تصميم معادلة تساعد الوكيل على اجتياز المتاهة.

06:40.240 --> 06:41.650
لذا انظر إلى المكافأة.

06:41.650 --> 06:46.100
ثم تمنحها الحالة السابقة قيمة مساوية لمكافأة الحالة السابقة وما إلى ذلك.

06:46.120 --> 06:47.560
لذا فهو نوع من يخلق هذا المسار.

06:48.070 --> 06:54.040
كل شيء رائع وجيد ، لكن المشكلة هنا ، حسنًا ، ماذا يحدث إذا بدأ وكيلنا لسبب ما في هذه

06:54.040 --> 07:00.370
الحالة بدلاً من البدء هنا واتخاذ هذه الإجراءات ، ولكنه في الواقع يبدأ في الحالة؟

07:00.400 --> 07:01.840
كيف تعرف؟

07:01.870 --> 07:04.210
كيف يتذكر الإجراء الذي يجب اتخاذه؟

07:04.210 --> 07:06.130
هل يجب أن تسير بشكل صحيح أم تنخفض؟

07:06.550 --> 07:07.720
أم ينبغي أن تذهب إلى اليسار؟

07:07.720 --> 07:08.470
أم يجب أن ترتفع؟

07:08.470 --> 07:16.570
كيف تتذكر الاستمرارية التالية من هنا إذا كانت القيم الوحيدة لديها هي هذه القيم التي تساوي واحدًا؟

07:16.570 --> 07:18.580
لذلك لا يمكنك رؤية ما هو أبعد.

07:18.580 --> 07:23.470
يمكنه فقط أن يرى ، حسنًا ، ما لدي هنا وما لدي هنا ، كيف يعرف الطريق الذي يجب أن يسلكه؟

07:23.470 --> 07:24.790
حسنًا ، في هذه المرحلة ، لا يحدث ذلك.

07:24.790 --> 07:27.700
إنها متطابقة تمامًا بالنسبة للوكيل في أي اتجاه يسلكه.

07:27.700 --> 07:30.400
ولهذا السبب لا يعمل هذا النهج حقًا.

07:30.670 --> 07:32.800
إنه تفسير بسيط للغاية.

07:32.830 --> 07:36.040
بالطبع ، هناك الكثير منها ، ولكن بطريقة بديهية.

07:36.040 --> 07:40.450
هذا هو السبب في أننا نوعًا ما نخصص فقط الاستمرار في هذه القيمة إلى الوراء على هذا النحو.

07:40.630 --> 07:46.150
لأن أحد الأسباب هو أنه بمجرد أن يكون الوكيل بين هاتين القيمتين ، فأين يذهب؟

07:46.150 --> 07:48.250
لا يمكن الخلط بين هذا القبيل.

07:48.340 --> 07:50.980
فكيف نحل هذه المشكلة؟

07:50.980 --> 07:52.120
ماذا سنفعل هنا؟

07:52.120 --> 07:57.520
وهذا هو المكان الذي سنبدأ فيه تقديم معادلة بلمونت في صورتها الفعلية ، ببطء ، خطوة

07:57.580 --> 07:58.390
بخطوة.

07:58.390 --> 08:01.450
لذا تبدو معادلة بلمونت شيئًا كهذا.

08:01.450 --> 08:06.820
لقد تحدثنا بالفعل عن V قيمة الوجود في حالة معينة ، كما هو الحال بالنسبة لحالتك الحالية

08:06.820 --> 08:07.960
أو أي حالة معينة.

08:07.960 --> 08:10.180
وهناك أيضا s.

08:10.180 --> 08:16.600
وحيث أن Prime هي الدولة ، الحالة التالية ، الحالة التي ستنتهي بها بعد هذه الحالة وباتخاذ

08:16.780 --> 08:18.730
إجراءات السرطان.

08:18.730 --> 08:23.650
لكننا نعلم أن هناك العديد من الإجراءات التي يمكن للوكيل اتخاذها ، ولهذا السبب لدينا هذا الحد الأقصى

08:23.650 --> 08:24.040
هنا.

08:24.040 --> 08:27.160
إذن ، من خلال اتخاذ إجراء ، ماذا سيحدث للوكيل؟

08:27.160 --> 08:32.440
لذلك لنفترض أننا في حالة من خلال اتخاذ إجراء في الدولة ونتخذ إجراءً.

08:32.440 --> 08:36.490
ج ما سيحدث هو أننا سنحصل على الفور على مكافأة من خلال الدخول في حالة جديدة.

08:36.550 --> 08:41.770
وتذكر أن هذه المكافأة يمكن أن تكون واحدة أو زائد واحد أو ناقص واحدة إذا كانت في نهاية اللعبة ، أو يمكن أن

08:41.770 --> 08:43.570
تكون صفرًا إذا كانت طوال اللعبة.

08:43.570 --> 08:46.150
في هذه الحالة ، مكافأتنا طوال اللعبة هي صفر.

08:46.150 --> 08:47.650
إذن هذه هي المكافأة.

08:47.680 --> 08:55.030
بالإضافة إلى ذلك ، سوف ندخل إلى حالة جديدة لها قيمة أولية.

08:55.030 --> 08:57.010
إذن هذه هي قيمة الدولة الجديدة.

08:57.190 --> 08:58.720
وجاما ، سنتحدث عن جاما في ثانية.

08:58.720 --> 09:03.520
لكن النقطة التي أحاول إثارتها هنا أو النقطة التي أثيرها هنا هي أن لدينا العديد من الإجراءات المختلفة التي يمكننا

09:03.520 --> 09:05.740
اتخاذها ، وهذا هو سبب حصولنا على الحد الأقصى.

09:05.740 --> 09:09.550
لذلك من خلال اتخاذ إجراء ، نحصل على مكافأة ، بالإضافة إلى أننا في نهاية المطاف في حالة جديدة.

09:09.550 --> 09:13.300
وبالتالي ، لكل حالة في حالتنا ، لدينا أربعة إجراءات محتملة.

09:13.300 --> 09:17.680
لكل واحد من الإجراءات الأربعة الممكنة ، سيكون لدينا معادلة كهذه.

09:17.680 --> 09:23.170
إذن سيكون لهذا قيمة أربعة ، سيكون لديهم قيمة مختلفة لكل واحد من الإجراءات الأربعة.

09:23.170 --> 09:28.720
وسننظر إلى الحد الأقصى فقط لأن الوكيل يريد بالطبع اتخاذ الحالة المثلى.

09:28.720 --> 09:32.020
لذا إذا كان في دولة فسوف ينظر إلى هذه القيم.

09:32.020 --> 09:34.180
سيبحث عن الحد الأقصى بناءً على الإجراء.

09:34.180 --> 09:37.330
سوف أتخذ هذا الإجراء الذي يؤدي إلى الحد الأقصى من هذه القيم.

09:37.330 --> 09:41.290
لذا آمل أن يكون هذا منطقيًا لماذا نتخذ الحد الأقصى هنا.

09:41.380 --> 09:45.280
ثم بمجرد حصولنا على المكافأة وقيمة الحالة ، لماذا لدينا معامل جاما هذا هنا؟

09:45.460 --> 09:52.150
حسنًا ، هناك بالضبط لحل هذه المشكلة المتمثلة في أن العامل لا يعرف أي طريق يسلكه ، لأنه لا يمكنه

09:52.150 --> 09:56.590
مقارنة قيم حالتين على كلا الجانبين ، وهما متماثلان.

09:56.740 --> 09:58.810
هذا هو سبب تسمية جاما بعامل الخصم.

09:58.810 --> 09:59.860
لذلك سنلقي نظرة على ذلك في.

10:00.100 --> 10:01.450
فقط لفهمها بشكل أفضل.

10:01.840 --> 10:03.160
إذن ، لنأخذ الصيغة.

10:03.160 --> 10:04.090
سنضعه هنا في الأعلى.

10:04.090 --> 10:04.570
الصحيح.

10:04.570 --> 10:09.040
والآن سنحلل ما هي قيم هذه الحالات المختلفة.

10:09.040 --> 10:11.370
وكل ولاية هنا عبارة عن مربع.

10:11.370 --> 10:15.130
وهكذا فإن واحدة من هؤلاء في واحدة من هذه المربعات البيضاء هي دولة.

10:15.130 --> 10:17.620
وكنا بصدد حساب قيمة التواجد في تلك الحالة.

10:18.040 --> 10:19.570
فلنبدأ بهذا المربع.

10:19.600 --> 10:21.460
ما هي قيمة أن تكون في هذه الحالة؟

10:21.640 --> 10:25.660
حسنًا ، علينا أن نأخذ الحد الأقصى من هذه القيمة في جميع الإجراءات.

10:25.810 --> 10:31.090
ونعلم أن هذه القيمة التي تمثلها تتضاعف كلما اقتربنا من خط النهاية.

10:31.090 --> 10:32.290
هذه هي الطريقة التي تم بناؤها.

10:32.290 --> 10:37.030
وبالنظر فقط يمكنك أن ترى لأن هنا حصلت على المكافأة وهنا حصلنا

10:37.030 --> 10:40.600
على عامل خصم مضروبًا في قيمة الحالة التالية.

10:40.840 --> 10:44.740
ومن المنطقي أن هذه هي الطريقة التي سنبني بها تلك المعادلة.

10:44.740 --> 10:50.170
لذلك من المنطقي أن يكون الحد الأقصى لهذه القيمة من هنا إذا انتقلنا إلى اليمين.

10:50.170 --> 10:52.060
هذه هي الطريقة التي نحسب بها قيمة الحالة.

10:52.060 --> 10:57.400
هذه القيمة لهذه الحالة تساوي ، الحد الأقصى أو يساوي هذه القيمة.

10:57.400 --> 11:00.670
إذا انتقلنا إلى اليمين ، إذا اتخذنا إجراء بالانتقال إلى اليمين.

11:00.940 --> 11:02.250
إذن ماذا ستكون هذه القيمة؟

11:02.260 --> 11:04.750
حسنًا ، مكافأة الانتقال إلى اليمين تساوي واحدًا.

11:04.750 --> 11:10.330
وبغض النظر عن ماهية جاما جاما ، فليس لدينا قيمة في هذه الحالة لأننا بالفعل في أفضل

11:10.330 --> 11:11.470
حالة ممكنة.

11:11.590 --> 11:12.790
إذن هذه هي الحالة النهائية.

11:12.790 --> 11:13.810
لن يكون لها قيمة.

11:13.810 --> 11:16.180
نحن فقط نحصل على مكافأة هنا وهذه هي نهاية المباراة.

11:16.180 --> 11:20.230
إذن ، ستكون قيمة هذا الحد الأقصى تساوي واحدًا.

11:20.230 --> 11:23.410
ولهذا فإن قيمة الحالات هنا تساوي واحدًا.

11:23.680 --> 11:27.730
الآن ، تصبح الأمور ممتعة عندما ننتقل إلى اليسار ، عندما نتحرك للخلف قليلاً.

11:27.730 --> 11:32.380
لنحسب الآن قيمة هذا ، لكونك في هذه الحالة.

11:32.590 --> 11:34.000
ومن أجل ذلك سنحتاج إلى جاما.

11:34.000 --> 11:40.210
لنفترض أن عامل الخصم لدينا هو 0. 9 وسيكون من المنطقي ما هو عامل الخصم بمجرد أن

11:40.210 --> 11:40.900
نحسب هذا.

11:40.900 --> 11:46.750
إذن من هنا ، بناءً على حدسنا وقاعدتنا ، لأننا نعرف كيف تعمل هذه المتاهة ، وكيف تعمل هذه المتاهة ، نعلم

11:46.750 --> 11:51.250
أن أفضل إجراء ممكن هو الانتقال إلى اليمين ، لأننا من هنا نذهب إلى هنا.

11:51.250 --> 11:55.960
هذا يعني أنه سيتم تحقيق الحد الأقصى عندما تذهب في هذه الحالة إلى اليمين.

11:55.960 --> 11:58.750
لنرى ماذا سيحدث إذا عوضنا بها هنا.

11:58.750 --> 12:02.500
لذلك إذا انتقلت من هنا إلى هنا ، فلن تحصل على أي مكافأة ستظل صفراً.

12:02.500 --> 12:03.730
ولكن بعد ذلك ستحصل على جاما.

12:03.730 --> 12:07.360
حتى تحصل على 0. 9 أضعاف قيمة الحالة الجديدة ، أي واحد.

12:07.360 --> 12:13.990
إذن في هذه الحالة ، القيمة ، النتيجة الكاملة لهذا هي واحد في صفر ، 0. 9 في واحد يساوي 0. 9.

12:13.990 --> 12:15.670
إذن هذه هي قيمتنا ، 0. 9.

12:16.000 --> 12:18.490
لذا إذا قمنا بحساب هذا الآن ، فسترى ذلك من هنا.

12:18.490 --> 12:23.710
نحن نعلم فقط من خلال النظر إلى المتاهة ، فنحن نعرف ذلك لأننا كبشر ، لأننا نفهم كيف تعمل

12:23.710 --> 12:24.850
هذه المعادلة.

12:24.850 --> 12:29.840
بالطبع ، الذكاء الاصطناعي ، يجب على الوكيل أن يجرب هذه الأشياء ، ولكن لأن لدينا مثل كرة بلورية

12:29.860 --> 12:31.780
، يمكننا رؤية هذه المتاهة بأكملها.

12:31.930 --> 12:33.700
لدينا وجهة نظر عين الطائر الآن.

12:33.700 --> 12:36.070
نحن نعلم أن أفضل الإجراءات تذهب إلى اليمين.

12:36.070 --> 12:45.460
لذا إذا عوضنا بكل شيء هنا ، فلن يكون هناك أي مكافأة ، زائد 0. 9 أضعاف القيمة في هذه الحالة ، 0. 9 هو 0.

12:45.460 --> 12:45.460
81 وهلم جرا.

12:45.460 --> 12:49.840
إذن هنا سيكون 0. 73 وهنا سيكون 0. 66.

12:50.290 --> 12:57.550
لذلك يمكنك أن ترى أن الطريقة التي يعمل بها العامل المخفض هي أنه يقلل من قيمة الدولة لأنك بعيدًا

12:57.550 --> 12:58.540
عنك.

12:58.540 --> 13:04.480
لذلك إذا كنت معتادًا على نظرية التمويل ، فهي شيء مشابه للقيمة الزمنية للنقود.

13:04.870 --> 13:06.820
مثل ما رأيك في الأمر بهذه الطريقة؟

13:06.820 --> 13:12.700
ماذا تفضل أن يكون لديك 5 دولارات اليوم أو 5 دولارات في غضون عشرة أيام من الآن؟

13:13.180 --> 13:18.070
فقط إذا أعطاك شخص ما خيارًا ، فسأعطيك 5 دولارات اليوم أو سأعطيك 5 دولارات. بعد 10 أيام من الآن.

13:18.100 --> 13:20.170
حسنًا ، بالطبع ستختار 5 دولارات اليوم.

13:20.170 --> 13:20.770
لماذا هذا؟

13:20.770 --> 13:26.290
حسنًا ، لأنه يمكنك الحصول على هذه 5 دولارات ويمكنك استثمارها بسعر فائدة معين ، وهو مشابه

13:26.290 --> 13:27.370
جدًا لجاما.

13:27.370 --> 13:33.760
وستنمو 5 دولارات في عشرة أيام إلى 5 دولارات. 73 أو شيء من هذا القبيل.

13:33.760 --> 13:36.310
وهذه هي الطريقة التي تعمل بها القيمة الزمنية للنقود.

13:36.310 --> 13:38.200
ومفهوم مشابه جدا هنا.

13:38.200 --> 13:43.210
والشيء المهم الذي يجب فهمه هنا ، هذه مجرد نظرية ، طريقة يعمل بها التعلم المعزز.

13:43.210 --> 13:48.670
لذا جاء ريتشارد بيلمان بهذه المعادلة ومنذ ذلك الحين ، هذه هي الطريقة التي نستخدمها بها.

13:48.670 --> 13:51.340
لذا يمكنك المضي قدمًا والتوصل إلى معادلة مختلفة.

13:51.340 --> 13:52.450
ليس من الضروري لعب القمار.

13:52.450 --> 13:54.760
قد يكون له عامل آخر ، قد لا يكون له عامل.

13:54.760 --> 13:57.550
لكن هذا النهج يعمل وهذا هو سبب استخدامه.

13:57.550 --> 14:00.700
وهذا ما تبدو عليه بصريًا.

14:00.700 --> 14:04.780
لذلك كلما ابتعدت ، قلت قيمة هذا الوجود في هذه الحالة.

14:04.780 --> 14:08.680
ومن حيث القيمة الزمنية للنقود ، إذا كان بإمكاني أن أقول لك ، أين تفضل أن تكون؟

14:08.680 --> 14:09.760
هل تفضل أن تكون هنا؟

14:09.760 --> 14:11.080
هل تفضل أن تكون هنا؟

14:11.080 --> 14:12.850
يمكنك القول أنني أفضل أن أكون هنا.

14:12.850 --> 14:16.990
لذلك نحن نخلق نفس الظاهرة كما في القيمة الزمنية للنقود.

14:16.990 --> 14:23.320
نحن نصنعه بشكل مصطنع من خلال جاما لتحفيز الوكلاء أو إلهام الوكلاء ليكونوا أقرب

14:23.320 --> 14:24.610
إلى خط النهاية.

14:24.610 --> 14:29.350
لذلك إذا طُلب من وكيل ما ، هل تفضل أن تكون هنا أو هنا بسبب الطريقة التي تعمل بها هذه

14:29.350 --> 14:31.330
المعادلة ، فسيختار أن تكون هنا.

14:31.360 --> 14:33.310
لا يوجد شيء أكثر من ذلك ، ولا أقل.

14:33.310 --> 14:35.770
إنه ليس شيئًا يعمله العالم بهذه الطريقة.

14:35.770 --> 14:41.920
لا ، إنه مجرد شيء نبتكره بشكل مصطنع حتى يفهم عملاؤنا

14:41.920 --> 14:43.210
أنه كذلك.

14:43.210 --> 14:44.020
هذا جيد.

14:44.020 --> 14:44.530
هذا جيد.

14:44.530 --> 14:44.980
هذا جيد.

14:44.990 --> 14:45.670
كلهم جيدون.

14:45.670 --> 14:47.470
لكن هذا أفضل من هذا.

14:47.470 --> 14:48.790
وهذا أفضل من هذا.

14:48.790 --> 14:49.390
وهذا أفضل.

14:49.390 --> 14:49.870
و هذه.

14:49.870 --> 14:54.700
وبهذه الطريقة يمكنك رؤية العميل القديم يمكنه رؤية الاتجاه الذي يجب أن يسلكه.

14:54.700 --> 14:59.620
لذلك يمكن أن ترى أنني إذا كنت أقف هنا ، تذكر تلك المشكلة التي كانت لدينا أو كان يقف هنا؟

15:00.050 --> 15:04.910
لذا ، إذا كنت تقف هنا ، فهل أذهب للأسفل أم يعجبني إذا كنت أقف هنا لأرتفع أو أنزل؟

15:04.940 --> 15:09.410
حسنًا ، لم تعد هناك مشكلة بعد الآن ، لأنه يمكنك أن ترى أنه من الأفضل بالفعل أن ترتفع

15:09.410 --> 15:11.300
القيمة لأن القيمة أكبر هنا.

15:11.300 --> 15:14.360
ومن هنا من الأفضل أن نبدأ ، صحيح ، لأن القيمة هنا أكبر من هنا.

15:14.360 --> 15:15.680
ومن هنا من الأفضل أن نذهب ، أليس كذلك؟

15:15.680 --> 15:17.030
لأن القيمة هنا أكبر من هنا.

15:17.030 --> 15:17.420
من هنا.

15:17.420 --> 15:20.210
ومن هنا يعرف بالفعل أنه بحاجة للذهاب ، صحيح.

15:20.210 --> 15:22.130
لأنه سيحصل هنا على مكافأة واحدة.

15:22.490 --> 15:24.880
هذه هي الطريقة التي يعمل بها هذا النهج برمته.

15:24.890 --> 15:27.080
الآن ، دعنا نلقي نظرة سريعة على باقي المربع.

15:27.410 --> 15:29.750
إذن كيف نحسب قيمة هذا المربع؟

15:29.750 --> 15:32.390
حسنًا ، هنا حيث تصبح الأمور صعبة بعض الشيء.

15:32.390 --> 15:36.260
إذن من هنا ، قد لا تتجه يسارًا ، أليس كذلك؟

15:36.260 --> 15:37.280
قد تذهب في الواقع الصحيح.

15:37.280 --> 15:41.270
لذلك لا يمكننا الاستمرار على هذا المنوال لأنه قد يكون من الأقصر في الواقع السير على هذا النحو.

15:41.270 --> 15:44.510
إذن ما سنفعله هو أننا سنحسب القيمة في هذا المربع أولاً.

15:44.750 --> 15:48.410
ولأنه من الواضح أن أفضل طريقة هي الصعود مرة أخرى.

15:48.410 --> 15:52.880
هذا لأننا نرى أن لدينا كرة بلورية ، يمكننا رؤية الأشياء وسترى المزيد في

15:52.880 --> 15:57.140
هذا القسم ، سترى كيف يستكشف العامل هذا الأمر بالفعل ، ويفهم ذلك من خلال

15:57.140 --> 15:57.980
التجربة.

15:57.980 --> 16:00.110
لكن بالنسبة لنا ، نعلم أنه من الأفضل السير على هذا النحو.

16:00.110 --> 16:05.030
سنقوم بحساب القيمة هنا ، ولهذا السبب سنقوم بحساب القيمة في هذا المربع

16:05.030 --> 16:06.110
أولاً.

16:06.110 --> 16:09.080
إذن لدينا هنا ثلاثة إجراءات ممكنة.

16:09.080 --> 16:10.430
في الواقع ، لدينا أربعة.

16:10.430 --> 16:11.540
يمكننا أيضا أن نتجه يسارا.

16:11.540 --> 16:15.170
من المفترض أن يضغط العميل على اليسار ويصطدم بالحائط ويبقى هنا.

16:15.170 --> 16:20.870
ولكن من أجل البساطة ، وهو ما سيُظهر الإجراءات التي نعرفها بما نعرفه ونمتلك الكرة البلورية

16:20.870 --> 16:25.610
، فنحن نعرف أي الأفعال هي التي تؤدي في الواقع إلى شيء آخر غير الحالة نفسها مرة

16:25.610 --> 16:26.330
أخرى.

16:26.660 --> 16:31.490
وهنا ، من هنا ، نعلم ذلك مرة أخرى ، فقط لأن لدينا كرة بلورية ، نعلم أن أفضل طريقة

16:31.490 --> 16:33.110
للذهاب هي بهذه الطريقة.

16:33.110 --> 16:35.870
يجب على الوكيل ، بالطبع ، أن يجرب ويجد أفضل طريقة.

16:35.870 --> 16:38.450
وسترى كيف يحدث ذلك في هذا القسم.

16:38.450 --> 16:43.520
سترى في الواقع كيف يتجول الوكيل وكيف ستجرب محاولة العثور على هذه القيم.

16:43.520 --> 16:45.110
لكن بالنسبة لنا ، نحن نعلم أنه بهذه الطريقة.

16:45.110 --> 16:50.810
لذا هنا ، إذا قمنا بتوصيل كل شيء بواحد ، فإن الحد الأقصى ، وأفضل ناتج هو عندما ترتفع ،

16:50.810 --> 16:52.280
وهنا a10. 90.

16:52.280 --> 16:55.610
إذا قمت بتوصيل ذلك ، تحصل على 0. 9.

16:56.420 --> 16:57.410
لذلك نحسب ذلك.

16:57.410 --> 16:59.750
دعونا نحسب هذه الطريقة نفسها.

16:59.750 --> 17:04.730
هذه لديك ثلاث طرق يمكنك من خلالها استخدام أربع طرق للوكيل ، لكن بالنسبة لنا يمكننا أن نرى أنها ثلاث

17:04.730 --> 17:05.300
طرق فقط.

17:05.720 --> 17:10.670
إذن 0. 81 من هنا لديك 0. 73.

17:10.850 --> 17:16.040
وهو في الواقع يرتبط بشكل جيد بهذه القيمة لأنه إذا قمت بالخصم مرة أخرى ، فستحصل على 0. 66 وهنا لديك

17:16.040 --> 17:19.580
0. 73 لأن هذا هو الطريق الأمثل.

17:19.880 --> 17:21.110
لذا ها أنت ذا.

17:21.110 --> 17:23.690
هذه هي القيم ، كل هذه الحالات.

17:23.690 --> 17:29.660
والآن يمكنك أن ترى أنه نظرًا لأننا أنشأنا هذه المعادلة ، فقد أنشأنا بشكل

17:29.660 --> 17:36.800
تركيبي هذا المفهوم الكامل ، كلما اقتربت من خط النهاية ، زادت قيمة هذه الحالة.

17:36.800 --> 17:41.810
ليس لأننا أنشأنا ذلك الآن ، فمن الواضح جدًا للوكيل الطريقة التي يجب أن يسير بها.

17:41.810 --> 17:44.660
وسنتحدث أكثر عن ذلك في البرامج التعليمية القادمة.

17:44.660 --> 17:52.220
أتمنى أن تكون قد استمتعت بجلسة اليوم وأعلم أنها قد تبدو بسيطة بعض الشيء في هذه المرحلة ، ولكن بينما

17:52.220 --> 17:56.450
ننتقل إلى هذا القسم ، سنضيف المزيد من التعقيد إليها.

17:56.450 --> 18:01.280
في نفس الوقت ، إذا كنت لا تستطيع الانتظار ، إذا كنت تريد القفز إليه ، فهناك ورقة يمكنك إلقاء

18:01.280 --> 18:04.220
نظرة عليها ، وهي الورقة الأصلية لريتشارد بيلمان.

18:04.220 --> 18:11.210
تسمى نظرية البرمجة الديناميكية من عام 1954 ، ويمكنك أن تجدها على هذا الرابط وهناك تذهب.

18:11.210 --> 18:16.400
لذا يمكنك القفز إليها مباشرة والقراءة من مؤلف معادلة بيلمان.

18:16.400 --> 18:20.660
لكن فقط ضع في اعتبارك أن هذه ورقة ثقيلة رياضياً.

18:20.660 --> 18:22.730
وفي هذه الملاحظة ، أتطلع إلى رؤيتك في المرة القادمة.

18:22.730 --> 18:24.110
وحتى ذلك الحين ، استمتع.

18:24.140 --> 18:24.710
أنا.
