WEBVTT

00:00.990 --> 00:04.140
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:04.140 --> 00:07.110
اليوم نتحدث عن عقوبة المعيشة.

00:07.440 --> 00:07.800
حسنا.

00:07.800 --> 00:09.690
إذن لدينا هنا معادلة بيلمان.

00:09.690 --> 00:15.900
وبينما كنا نمر بهذه الدورة ، كنا ببطء نجعلها أكثر وأكثر تعقيدًا.

00:15.900 --> 00:19.890
حتى الآن ، أضفنا بالفعل هذه الاحتمالات هنا.

00:19.890 --> 00:22.670
وقمنا أيضًا بإضافة عامل الخصم.

00:22.680 --> 00:27.780
سننظر الآن بمزيد من التفصيل في هذا الجانب من المعادلة حيث لدينا المكافأة.

00:27.930 --> 00:33.840
الآن ، تذكر سابقًا عندما تحدثنا عن كيفية عمل التعلم المعزز ، قلنا أن لدينا

00:33.840 --> 00:40.440
وكيلًا ويقوم بتنفيذ إجراءات في البيئة وفي المقابل أو نتيجة لذلك ، يحصل على حالة

00:40.440 --> 00:45.060
جديدة أصبح فيها الآن ومكافأة مقابل هذا العمل.

00:45.390 --> 00:51.630
حسنًا ، حتى الآن في مثالنا ، لم نحصل على المكافآت إلا في النهاية ، إما إذا وصلنا إلى خط النهاية

00:51.630 --> 00:58.590
أو إذا وصلنا ، بالنسبة للوكيل إلى حفرة النار ، فسيحصل على زائد واحد أو ناقص مكافأة واحدة.

00:58.680 --> 01:02.640
لكن هذا نهج مبسط للغاية للتعلم المعزز.

01:02.640 --> 01:09.720
وفي سيناريوهات أكثر واقعية ، من المحتمل أن تحصل على مكافآت طوال الرحلة ، وليس فقط في نهايتها.

01:09.720 --> 01:11.310
قد تحصل على مكافآت طوال الرحلة.

01:11.310 --> 01:20.400
على سبيل المثال ، إذا كانت لعبة ذكاء اصطناعي في إحدى الألعاب ، وإذا كان الأمر ، على سبيل المثال ، يشبه إطلاق النار على شخص ما

01:20.400 --> 01:28.530
في لعبة Doom ، فقد تحصل على نقاط لقتل هذا العدو ، أو قد تكون في لعبة أخرى أخرى إذا تجاوزت سيارة أخرى أو شيء من هذا القبيل.

01:28.530 --> 01:30.090
الذي - التي.

01:30.090 --> 01:35.340
فقط بسبب قواعد اللعبة وليس بسبب طريقتها في تحليل اللعبة.

01:35.340 --> 01:41.100
ولكن في الواقع ، تم تنظيم اللعبة بطريقة تعزز نقاط منحها للقيام ببعض الإجراءات

01:41.100 --> 01:43.080
حتى قبل انتهاء اللعبة.

01:43.320 --> 01:48.180
لذا فإن مثل هذه السيناريوهات شائعة جدًا ، ليس فقط في الألعاب وكذلك في الحياة الواقعية.

01:48.270 --> 01:54.090
ولهذا السبب سنقدم شيئًا مشابهًا في مثالنا ، نسخة مبسطة من ذلك ، ولكن

01:54.090 --> 02:00.630
مع ذلك مكافأة تُمنح باستمرار للوكيل طوال اللعبة ، وليس فقط في النهاية.

02:00.630 --> 02:04.320
والطريقة التي سنقوم بها هي النظر إلى المربعات الأخرى.

02:04.320 --> 02:09.990
الآن لدينا فقط مكافأة زائد واحدة في المربع النهائي والمكافأة مطروحًا منها واحدة في القطعة النهائية

02:09.990 --> 02:11.310
الأخرى ، حفرة النار.

02:11.550 --> 02:17.700
لكننا الآن بصدد إضافة مكافآت في كل مرة سنضيف مكافأة صغيرة جدًا ، ستكون -0. 04.

02:17.700 --> 02:18.840
وكما ترون ، إنها سلبية.

02:18.840 --> 02:23.100
لذلك في كل مرة يتحرك فيها العميل ، سيحصل على مكافأة سلبية.

02:23.100 --> 02:27.570
وهذا هو السبب في أنها تسمى عقوبة حية ، لأنه بغض النظر عن المكان الذي يذهب إليه ، سيحصل دائمًا على هذه المكافأة

02:27.570 --> 02:30.780
السلبية باستثناء هذه المربعات النهائية ، لأن هذه هي نهاية اللعبة.

02:31.050 --> 02:35.100
وهنا يمكنك رؤية المكافأة حتى على هذا المربع وهي -0. 04.

02:35.100 --> 02:37.860
لكن هذا لا يعني أنه يبدأ بهذه المكافأة.

02:37.860 --> 02:39.450
هو فقط يحصل على هذه المكافأة.

02:39.450 --> 02:41.370
وهذا من المهم أن نتذكره.

02:41.370 --> 02:43.680
يحصل على هذه المكافأة فقط عندما يدخل البلاط.

02:43.680 --> 02:46.050
لذلك عندما يقوم بعمل ما ، يذهب هنا.

02:46.290 --> 02:49.770
ثم سيحصل على هذه المكافأة -0. 04.

02:49.770 --> 02:53.370
ثم إذا عاد إلى هذا البلاط ، فسيحصل على -0 أخرى. 04 مكافأة.

02:53.550 --> 02:58.080
وبالتالي كلما طالت مدة سيره ، تراكمت هذه المكافأة السلبية.

02:58.080 --> 03:03.600
وبالتالي ، يعد حافزًا له لإنهاء اللعبة مبكرًا وبأسرع وقت ممكن.

03:03.720 --> 03:10.350
والآن دعونا نلقي نظرة على كيفية تغيير سياستنا أو كيف ستتغير سياسة الوكلاء اعتمادًا

03:10.350 --> 03:14.010
على القيمة التي حددناها لهذه المكافأة.

03:14.100 --> 03:18.810
إذن هذه أربع بيئات ، وفي كل واحدة سنكتشف مكافأة مختلفة.

03:18.810 --> 03:23.700
الآن ، لن نقوم بالحسابات ، سنقوم فقط بإسقاط النتائج وسترى ذلك

03:23.700 --> 03:24.720
بشكل حدسي.

03:24.720 --> 03:25.650
إنها منطقية تمامًا.

03:25.650 --> 03:32.760
حسنًا ، لدينا هنا مكافأة عن أي خطوة أو مقابل أي خطوة للوصول إلى أي حالة تساوي صفرًا.

03:32.760 --> 03:37.230
تمامًا كما رأينا من قبل هنا ، ستكون المكافأة -0. 04.

03:37.320 --> 03:38.250
ما قدمناه للتو.

03:38.250 --> 03:44.100
الآن هنا ستكون المكافأة -0. 5 أو العقوبة الحية ستكون -0. 5.

03:44.100 --> 03:47.550
أعلى بكثير ، يمكنك أن ترى من هنا ، أكثر من عشرة أضعاف.

03:47.550 --> 03:50.070
وهنا ستكون العقوبة الحية ناقص اثنين.

03:50.100 --> 03:58.980
إذن ، أكثر من المكافأة التي تحصل عليها للقفز ، أو حتى أقل من المكافأة التي تحصل عليها أنت أو الوكيل مقابل وصولك

03:58.980 --> 04:00.630
إلى حفرة النار.

04:00.630 --> 04:07.050
لذلك دعونا نلقي نظرة على كيفية تغيير الإجراءات أو السياسة المثلى لتمرير هذه البيئة اعتمادًا

04:07.050 --> 04:09.090
على هذه المكافأة.

04:09.090 --> 04:11.160
إذن هذه هي سياستنا الأصلية.

04:11.790 --> 04:18.240
وكما يمكنك أن تتذكر ، كان لدينا هذان القراران المثيران للاهتمام للغاية وحتى الغريبان بعض الشيء

04:18.240 --> 04:23.850
من قِبل الوكيل ، ولكن هذا أمر منطقي تمامًا إذا كان بإمكانه العيش للمدة التي يحبها.

04:23.850 --> 04:29.460
إذا كان بإمكانك السفر فقط لأطول فترة ممكنة دون أن تتم معاقبته على بقائك على قيد

04:29.460 --> 04:32.040
الحياة لفترة طويلة ، فلماذا لا؟

04:32.070 --> 04:38.400
لماذا لا يذهب فقط إلى الزاوية هنا ، في الحائط ويواصل فعل ذلك حتى يحدث؟

04:38.400 --> 04:41.220
يحدث أنه يسير في هذا الطريق ثم يتجول.

04:41.220 --> 04:42.150
ونفس الشيء هنا.

04:42.150 --> 04:47.220
إنه أكثر أمانًا بالنسبة له أن يقفز إلى الحائط على أمل أن يأتي أحدهما في النهاية ثم يذهب

04:47.220 --> 04:52.410
إلى خط النهاية على أي حال ، لأنه باختياره لهذين الإجراءين ، لا يخاطر بالدخول إلى حفرة

04:52.410 --> 04:53.280
النار.

04:53.370 --> 04:59.750
لنرى الآن ما سيحدث إذا أضفنا مكافأة ، مكافأة سلبية لمجرد كوننا على قيد الحياة ، لقيامنا بخطوة.

04:59.760 --> 04:59.900
الصحيح.

05:00.070 --> 05:00.700
أنت تحرك.

05:00.970 --> 05:04.840
لذلك هنا يمكنك أن ترى أن هذين الاثنين تغير على الفور.

05:04.870 --> 05:07.660
الآن ، الوكيل لا يريد القفز إلى الحائط.

05:07.690 --> 05:10.450
من المرجح أن يخاطر بالوصول إلى حفرة النار.

05:10.480 --> 05:12.910
الحصول على فرصة 10٪ للقفز هنا.

05:12.910 --> 05:18.850
لكنه سيتقدم لأنه في كل مرة يقفز فيها على الحائط هنا ، إذا كان سيفعل ذلك هنا

05:18.850 --> 05:19.510
أيضًا.

05:19.540 --> 05:24.910
في كل مرة يقفز فيها إلى الحائط ، يقوم بعمل ينتهي به الأمر في هذه الحالة مع فرصة 80٪.

05:24.910 --> 05:31.300
وهذا يعني أنه إذا كانت هناك فرصة بنسبة 80٪ ، فسيحصل على -0. 04 مكافأة ، مما يعني أنه في كثير من الأحيان سيحصل

05:31.300 --> 05:34.270
على هذه المكافأة السلبية المتراكمة.

05:34.810 --> 05:35.470
نفس الشيء هنا.

05:35.470 --> 05:42.700
إذا قفز إلى الحائط في انتظار تلك اللحظة التي سيتم فيها نقله فعليًا بشكل عشوائي إلى اليمين

05:42.700 --> 05:48.880
، وإذا استمر في فعل ذلك ، فسوف يتراكم هذه المكافأة السلبية ، ونتيجة ذلك ، إذا

05:48.880 --> 05:55.090
أجريت الحسابات ، فسترى أن نتيجة ذلك ، فإن القيمة المتوقعة لهذا النهج للقفز

05:55.090 --> 06:02.640
إلى الحائط أسوأ من المخاطرة بالمضي قدمًا وينتهي الأمر بالفعل في حفرة النار.

06:02.650 --> 06:09.880
لذلك يغير قراراته في هاتين الكتلتين للمضي قدمًا بدلاً من ذلك ، وهنا يتحرك إلى اليسار ، على الرغم من وجود خطر

06:09.880 --> 06:14.710
من القفز في حفرة النار ، ببساطة لأنه كلما طالت مدة بقائه على قيد الحياة ،

06:14.710 --> 06:18.730
كلما طالت مدة ربح هذه العقوبة الحية. في البيئة التالية.

06:18.760 --> 06:23.980
نحن الآن نزيد عقوبة المعيشة إلى عدد أكبر ، -0. 5 ، ودعونا نرى ما الذي يتغير

06:23.980 --> 06:24.460
هنا.

06:24.580 --> 06:29.500
الآن يمكنك أن ترى أنه بالمقارنة مع هذه البيئة ، الشيء الوحيد الذي تغير هنا هو أن

06:29.500 --> 06:31.330
هذا السهم يشير إلى اليمين.

06:31.900 --> 06:36.910
وما يعنيه ذلك هو أنه لم يعد خيارًا جيدًا للوكيل الآن.

06:36.910 --> 06:41.470
أوه ، في الواقع ، أيضًا ، هذا السهم الذي يشير إلى اليسار ويشير الآن إلى

06:41.470 --> 06:42.100
الأعلى.

06:42.100 --> 06:48.100
لذا لم يعد من الجيد الآن أن يتنقل الوكيل من هنا ، ويذهب في كل مكان.

06:48.100 --> 06:51.100
لأنه إذا ذهب طوال الطريق ، نعم ، سيكون أكثر أمانًا.

06:51.100 --> 06:53.860
هناك فرصة أقل أنه لا توجد فرصة للوصول إلى حفرة النار.

06:54.100 --> 06:58.540
ولكن في نفس الوقت ، حيث تقل فرصة الدخول إلى حفرة النار ، ولكن

06:58.540 --> 07:03.070
في نفس الوقت ، سيحصل على مكافأة سلبية كبيرة أثناء تجوله.

07:03.070 --> 07:05.290
لذا فإن الأمر مجرد أن المسار طويل جدًا.

07:05.290 --> 07:11.560
وهذا يجبره ، سواء كان هنا أو هنا ، على أن يسلك الطريق الأقصر للوصول إلى هنا ، على الرغم من أنه

07:11.560 --> 07:16.840
يواجه خطرًا أكبر بكثير للدخول إلى حفرة النار ، لأنه بمجرد أن ينتهي به المطاف

07:16.840 --> 07:21.700
في الميدان ، هناك فرصة بنسبة 10٪ للوصول إلى حفرة النار ، حسب حساباته.

07:21.700 --> 07:27.910
إنها فقط القيمة المتوقعة لهذا النهج أفضل من القيمة المتوقعة للتجول ببساطة لأننا

07:27.910 --> 07:30.280
زدنا هذه العقوبة المعيشية.

07:30.460 --> 07:36.820
وأخيرًا ، نصل إلى المثال بعقوبة المعيشة -2. 0.

07:36.820 --> 07:42.580
لذا أود هنا أن أشجعك على إيقاف الفيديو مؤقتًا الآن بعد أن رأيت كيف تغيرت السياسة مع

07:42.580 --> 07:48.040
زيادة العقوبة الحية ، أشجعك على إيقاف الفيديو مؤقتًا والتفكير بنفسك فيما سيحدث

07:48.040 --> 07:49.810
في هذا السيناريو؟

07:49.810 --> 07:55.720
ما رأيك في السياسة المثلى التي ستعطى بأن عقوبة المعيشة عالية جدًا؟

07:55.720 --> 08:02.320
لذا سأدعك توقف الفيديو مؤقتًا إذا كنت ترغب في ذلك ، والآن سأنتقل إلى عرض الحل لك.

08:02.320 --> 08:09.550
لذلك في هذه الحالة ، إذا قمت بزيادة العقوبة إلى -2. 0 ، إنها عالية جدًا ، تذكر أن العقوبة هنا هي -1

08:09.550 --> 08:10.810
فقط. 0.

08:10.810 --> 08:16.750
إنه مرتفع جدًا لدرجة أن الوكيل يريد فقط الخروج من اللعبة بأي طريقة ممكنة ، حتى لو كان ذلك فقط

08:16.750 --> 08:18.310
بالقفز إلى حفرة النار.

08:18.340 --> 08:19.150
وسوف يفعل ذلك.

08:19.150 --> 08:25.780
سيكون مثل ، في كل مرة أقوم فيها بخطوة ، وفي كل مرة ينتهي بي الأمر في حالة جديدة أو في كل مرة أقوم فيها

08:25.780 --> 08:29.950
بعمل ما ، ينتهي بي الأمر بالحصول على مكافأة ناقص اثنين.

08:29.950 --> 08:36.160
إذن ما هو الهدف من محاولة الوصول إلى خط النهاية إذا كان الأمر سيستغرق مني خطوتين إضافيتين

08:36.160 --> 08:41.020
من هنا ، سأذهب هنا ثم مباشرة إلى حفرة النار ، لأنه بهذه الطريقة ستكون

08:41.020 --> 08:42.370
مكافأتي أقل.

08:42.580 --> 08:48.670
لن تكون المكافأة السلبية سيئة كما في حالة مجرد اتخاذ خطوات إضافية.

08:48.760 --> 08:56.740
لذلك يمكنك أن ترى أن إضافة هذه المكافأة الحية واعتمادًا على قيمة المكافأة الحية التي نضيفها

08:56.740 --> 09:02.410
، ستكون النتائج مختلفة وسيختار الوكيل سياسات مختلفة.

09:02.410 --> 09:09.880
وهذا هو الأساس الذي يمكن من خلاله دمج قيمة المكافأة في معادلة بيلمان ، حتى عندما لا تكون فقط عند خط النهاية

09:09.880 --> 09:13.720
أو في نهاية اللعبة ، ولكن حتى في جميع أنحاء اللعبة.

09:13.720 --> 09:18.610
ومرة أخرى ، مرة أخرى ، ليس من الضروري أن يكون في كل حالة في كل حالة ، اعتمادًا

09:18.610 --> 09:19.870
على البيئة نفسها.

09:19.870 --> 09:26.050
قد يتم إعطاؤها للوكيل في حالات معينة ، وليس في كل حالة ، ولكن في مثالنا

09:26.050 --> 09:32.530
المبسط ، نحن نستخدم المكافآت فقط في كل حالة معينة لتوضيح هذا المفهوم.

09:32.620 --> 09:34.360
لذلك أتمنى أن تكون قد استمتعت ببرنامج اليوم التعليمي.

09:34.360 --> 09:40.150
وكما ترى ، لقد جعلنا معادلة بيلمان معقدة للغاية ، والآن يمكن تطبيقها على العديد من

09:40.150 --> 09:42.100
السيناريوهات المختلفة.

09:42.100 --> 09:44.260
ولا أطيق الانتظار لرؤيتك في البرنامج التعليمي التالي.

09:44.260 --> 09:45.670
وحتى ذلك الحين ، استمتع.

09:45.670 --> 09:46.300
أنا.