WEBVTT

00:00.910 --> 00:03.850
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.850 --> 00:06.550
اليوم نتحدث أخيرًا عن التعلم في قائمة الانتظار.

00:06.940 --> 00:07.450
حسنا.

00:07.450 --> 00:13.050
لقد حصلنا بالفعل على هذه المعادلة ، معادلة بلمونت ، والتي أضفنا إليها الكثير من المكونات.

00:13.060 --> 00:19.510
لقد حصلنا على المكافأة هنا ، والتي لا يمكن أن تكون فقط في النهاية ، ولكن يمكن أن تكون في أي خطوة.

00:19.840 --> 00:26.050
لدينا عامل الخصم ، لدينا الاحتمال لأننا الآن ننظر في عمليات اتخاذ قرار ماركوف ، وهنا لدينا

00:26.110 --> 00:31.810
احتمال أن ينتهي بنا المطاف في حالة مختلفة بغض النظر عن الإجراء الذي نتخذه أو في الواقع

00:31.810 --> 00:38.230
الإجراء الذي نتخذه ، يمكن أن تكون حالات متعددة يمكن أن ينتهي بنا المطاف فيها ثم نحصل على قيمة

00:38.230 --> 00:40.180
الحالة التالية.

00:40.180 --> 00:46.600
لذا يمكنك أن ترى أنها نوعًا ما مثل دالة تكرارية وما إلى ذلك ، ولكن ربما لا يزال لديك سؤال واحد.

00:46.660 --> 00:51.250
السؤال هو أين الحرف في كل هذا؟

00:51.250 --> 00:54.220
س لماذا يسمى كل هذا التعلم Q؟

00:54.220 --> 00:55.720
إذن أين Q؟

00:55.720 --> 00:58.660
وهذا هو السؤال الذي سنجيب عليه اليوم.

00:58.660 --> 01:04.480
حتى الآن ، كنا نتعامل مع القيم ، قيمة الوجود في حالة معينة.

01:04.480 --> 01:09.700
والآن سننظر في كيفية تناسب Q مع كل ذلك أيضًا.

01:09.820 --> 01:12.040
إذن لدينا هنا مثالان.

01:12.040 --> 01:14.410
على اليسار ما كنا نفعله حتى الآن.

01:14.410 --> 01:17.950
وكيلنا كان يحلل ، حسنًا ، أنا هنا.

01:17.950 --> 01:21.520
هذه علامة على عملية اتخاذ القرار ، لذا لا يهم كيف وصلت إلى هنا.

01:21.550 --> 01:26.170
لا تهتم بقية البيئة بالخطوات التي استغرقتها للوصول إلى هنا.

01:26.170 --> 01:33.070
من الآن فصاعدًا ، يجب أن أتخذ القرار الأمثل إلى أين أذهب هنا ، هنا ، هنا ، بناءً على الوضع الحالي وجميع

01:33.070 --> 01:37.150
الحالات المستقبلية التي تأتي من هنا ، ولكن ليس من الماضي.

01:37.150 --> 01:39.580
ويمكنه أن يرى أن هناك ثلاثة خيارات.

01:39.580 --> 01:42.010
هناك دولة واحدة لدولة واحدة.

01:42.010 --> 01:48.850
وبناءً على خبرته ، قام بحساب القيم في هذه الحالات ، والآن سيستخدم معادلة

01:48.850 --> 01:49.780
بلمونت.

01:49.780 --> 01:53.950
لذا على الرغم من أن هذه عملية عشوائية ، فهو يعلم أنه سيذهب إلى هنا ، ولكن هناك احتمال

01:53.950 --> 01:56.020
أن يتجه يمينًا أو يسارًا وهكذا.

01:56.020 --> 02:00.550
بناءً على هذه القيم ، سوف نتخذ قرارًا ، هذا ما كنا نفعله حتى الآن

02:00.550 --> 02:03.280
، وهذا هو النهج الشرعي تمامًا هنا.

02:03.280 --> 02:05.590
لكننا الآن بصدد تعديله قليلاً.

02:05.590 --> 02:10.270
سنأخذ نفس المفهوم بالضبط ، نفس المشكلة بالضبط.

02:10.270 --> 02:15.970
لكن هنا ، بدلاً من النظر إلى قيم كل حالة يمكن أن ينتهي

02:15.970 --> 02:21.340
بها الأمر ، سننظر في قيم أو قيمة كل إجراء.

02:21.340 --> 02:25.240
لذلك لن نستخدم الحرف V بعد الآن لأن V لقيمة الحالة.

02:25.240 --> 02:29.710
سنستخدم Q وقد يكون لديك سؤال عن سبب هذه الرسالة؟

02:29.710 --> 02:30.460
سؤال: حسنا.

02:30.490 --> 02:32.230
سؤال: بعض الناس يتكهنون بذلك.

02:32.230 --> 02:36.280
سؤال: حسنًا ، لقد قرأت هذا ، وأعتقد أن شخصًا ما ذكر ذلك في Quora.

02:36.280 --> 02:41.650
Q بسبب الجودة ، لكن في الوقت نفسه ، لم أجد أي إشارات أخرى إلى ذلك.

02:41.650 --> 02:45.610
لذلك قد لا يكون بسبب ذلك ، قد يكون فقط لأن هذا هو الحرف الذي تم استخدامه في ذلك الوقت.

02:45.610 --> 02:50.410
والآن أصبح شائعًا للغاية لأنه يُطلق عليه اسم Q Learning بسبب ذلك.

02:50.500 --> 02:57.010
لذلك لا يوجد سبب محدد لتسميته Q ولكن مع ذلك يساعدنا على الأقل في التمييز بين V و Q.

02:57.010 --> 03:03.250
إذن ، Q هنا تمثل a بدلاً من قيمة الحالة التي تمثلها ، فلننتقل إلى الجودة.

03:03.250 --> 03:06.190
إنه يمثل جودة العمل الذي يمثله.

03:06.400 --> 03:07.840
لدي أربعة أفعال.

03:08.050 --> 03:10.750
ما هي الصفات المختلفة لهذه الأعمال؟

03:10.750 --> 03:14.200
ما هي قيمة أو قيمة الفعل أو نوعية العمل؟

03:14.200 --> 03:15.670
ما هو العمل الأكثر ربحًا؟

03:15.670 --> 03:19.600
لذا أحتاج إلى مقياس يخبرني ، حسنًا ، كيف يمكنني تحديد هذا الإجراء كميًا؟

03:19.600 --> 03:20.770
وبعد ذلك يمكنني مقارنتها.

03:20.770 --> 03:22.570
وهذا هو بالضبط ما هو Q.

03:23.170 --> 03:28.930
ولذا فقد حصل هنا على أربعة أفعال محتملة ، كالعادة ، اصعد ، يمينًا ، يسارًا أو أسفل.

03:28.930 --> 03:35.110
واستنادًا إلى الإجراء ، ستكون هناك معادلة تخبرنا بالقيمة القابلة للقياس الكمي لهذا الإجراء

03:35.110 --> 03:38.350
، والتي نسميها Q ، قيمة Q لهذا الإجراء.

03:38.350 --> 03:41.650
فلنلقِ نظرة على كيفية اشتقاق هذه الصيغة من أجل.

03:41.650 --> 03:44.110
س ما هي علاقته فعلاً؟

03:44.110 --> 03:51.220
Vي لأنه كما يمكنك أن تتخيل ، لأن الأفعال تؤدي إلى حالات ، يجب أن يكون هناك نوع من الارتباط بين الاثنين ، أليس

03:51.220 --> 03:51.940
كذلك؟

03:51.940 --> 03:55.960
لقد حددنا بالفعل كيفية حساب هذا ونحن جيدون فيه.

03:55.960 --> 04:01.960
نحن نعرف كيفية استخدام معادلة بيلمان وبيئات مختلفة جدًا مع الكثير من التعقيدات المختلفة.

04:01.960 --> 04:08.620
حسنًا ، دعنا نستفيد من هذه المعرفة لفهم كيف يمكننا الآن حساب Q من أجل عمل نفس التنبؤات ، لأنه

04:08.620 --> 04:14.210
كما يمكنك أن تتخيل ، لا تتغير البيئة اعتمادًا على النهج الذي نستخدمه.

04:14.210 --> 04:16.270
سوف تكون البيئة هي نفسها بغض النظر.

04:16.270 --> 04:22.270
لذلك يجب أن يعطي هذا النهج وهذا النهج دائمًا نفس النتيجة ، وبالتالي هذا سبب آخر لضرورة

04:22.270 --> 04:24.400
ربط هذين الأسلوبين.

04:24.880 --> 04:26.020
لذلك دعونا نلقي نظرة.

04:26.020 --> 04:31.240
إذن هذا هو نهجنا حيث سننظر فقط في قيمة أي حالة معينة ، هذه الحالة أو أي

04:31.240 --> 04:32.110
حالة أخرى.

04:32.110 --> 04:36.880
وها نحن ذاهبون إلى استخدام الحرف S هنا لأن هذه هي الحالة الحالية.

04:36.880 --> 04:40.480
وبالتالي ، فإن المصطلحين سيكونان هو نفسه في كلتا المعادلتين.

04:40.480 --> 04:45.460
وها نحن نستخدم Q كسؤال هل هو من الدول والعمل؟

04:45.460 --> 04:49.420
ج لأن الفعل قد انتهى ، ولكن في أي حالة قمنا بهذا العمل؟

04:49.420 --> 04:51.700
نقوم بهذا العمل في الدولة.

04:51.700 --> 04:56.350
S حسنًا ، سنكتب الآن معادلة الطريقة الأولى.

04:56.350 --> 05:00.370
كما ترون هنا ، لدينا V لـ SE لذا فإن قيمة.

05:00.480 --> 05:05.490
أي حالة معينة هي الحد الأقصى للمكافأة التي تحصل عليها.

05:05.500 --> 05:08.070
لذا يعتمد الحد الأقصى على الإجراءات التي لديك.

05:08.070 --> 05:10.350
ثلاثة في هذه الحالة لديك أربعة أفعال.

05:10.350 --> 05:12.690
لذلك الحد الأقصى من جميع الإجراءات الممكنة.

05:12.690 --> 05:15.240
ثم من هذا الجزء ، الذي ناقشناه بالفعل عدة مرات.

05:15.240 --> 05:22.080
إذن هذه هي مكافأتنا التي نحصل عليها من تنفيذ هذا الإجراء في تلك الحالة ، بالإضافة إلى عامل مخفض

05:22.080 --> 05:28.140
مضروبًا في القيمة المتوقعة للحالة الجديدة التي سنكون فيها والقيمة المتوقعة لأنها

05:28.140 --> 05:29.370
عملية عشوائية.

05:29.370 --> 05:32.940
لا نعرف على وجه اليقين أننا سننتهي هنا.

05:32.940 --> 05:35.820
قد ينتهي بنا المطاف على اليسار أو اليمين باحتمالية معينة.

05:35.820 --> 05:37.590
هذا هو سبب وجود هذه الاحتمالات هنا.

05:38.100 --> 05:38.430
حسنا.

05:38.430 --> 05:40.170
إذن هذه هي قيمتنا.

05:40.170 --> 05:41.370
والآن دعونا نلقي نظرة على Q.

05:41.370 --> 05:43.410
لذا سيتم تعريف Q.

05:43.410 --> 05:45.030
سنستخدم هذا لتحديد.

05:45.030 --> 05:50.550
س: لنفترض أن الوكيل من هذا الموقع ، من هذه الحالة ، نفذ الإجراء.

05:50.550 --> 05:54.290
ما هي قيمة Q التي ستكون مساوية؟

05:54.300 --> 05:59.220
حسنًا ، أولاً وقبل كل شيء ، دعنا نرى ما سيحصل عليه مقابل أداء هذا الإجراء.

05:59.220 --> 06:01.950
أول شيء ستحصل عليه هو مكافأة ، أليس كذلك؟

06:01.950 --> 06:05.500
هذا يعرف ، ولا شك في ذلك ، سيكون هناك نوع من المكافأة.

06:05.500 --> 06:06.210
قد يكون الصفر.

06:06.210 --> 06:12.540
لكننا نعلم أن كل هذه الطريقة التي تعمل بها عملية التعلم المعزز هي أنه في بعض الأحيان لأداء

06:12.540 --> 06:15.840
إجراءات معينة من حالة معينة ، هناك مكافأة.

06:15.840 --> 06:19.620
سنضيف ذلك هنا ثم نضيف ما الذي سنضيفه؟

06:19.620 --> 06:21.030
حسنًا ، دعنا نفكر في الأمر.

06:21.030 --> 06:24.570
ما هو الشيء التالي الذي سيحدث بعد حصوله على المكافأة؟

06:24.570 --> 06:29.610
حسنًا ، الشيء التالي الذي يحدث هو أن الوكيل الآن في حالة معينة.

06:29.970 --> 06:34.530
قد ينتهي به الأمر هنا مع احتمال 80٪ أو بعض الاحتمالات.

06:34.530 --> 06:36.570
لكنك في الواقع ستصعد هنا أو هنا.

06:36.570 --> 06:43.680
لكن أينما انتهى الآن ، لدينا بالفعل مقياس كمي لتلك الحالة التي هو فيها ، وهذه

06:43.920 --> 06:46.980
هي في الواقع قيمة تلك الحالة.

06:46.980 --> 06:52.080
لكن لأنه لا يمكن أن يكون في العديد من الحالات المختلفة في ثلاث من الحالات المختلفة المحتملة ،

06:52.080 --> 06:55.410
علينا أن ننظر إلى القيمة المتوقعة للحالة التي سيكون فيها.

06:55.950 --> 06:57.660
ولذا سنضيف ذلك في.

06:57.660 --> 07:03.000
سنضيف ، بالطبع ، العامل المخفض كما كان لدينا سابقًا ، لأن هذا في مكان ما في

07:03.000 --> 07:03.840
المستقبل.

07:03.840 --> 07:11.070
وبعد ذلك سنجمع مجموع جميع الحالات الممكنة ، عبر جميع الحالات الممكنة التي يمكن أن ينتهي بها الأمر باتخاذ

07:11.070 --> 07:13.920
هذا الإجراء في أوقات الاحتمال.

07:13.920 --> 07:20.100
إذن ما نقوله هنا هو أنه من خلال تنفيذ إجراء ما ، ستحصل على مكافأة إضافية ، وهي مقياس

07:20.100 --> 07:24.720
كمي ، بالإضافة إلى أنك ستنتهي في حالة لا نعرف أي منها واحد.

07:24.720 --> 07:25.680
يمكن أن يكون هنا.

07:25.680 --> 07:26.160
يمكن أن يكون هنا.

07:26.160 --> 07:26.820
يمكن أن يكون هنا.

07:26.820 --> 07:31.980
ولكن هذه هي القيمة المتوقعة للحالة التي ستنتهي بها.

07:31.980 --> 07:35.850
والآن سنضربها في عامل الخصم لأن هذا يبعد مسافة واحدة.

07:36.150 --> 07:40.860
إذن هذه هي القيمة الأساسية الخاصة بنا للقيام بهذا الإجراء.

07:41.040 --> 07:44.610
وما ستلاحظه هنا على الفور هو ذلك.

07:44.610 --> 07:51.240
Q إن قيمة Q مطابقة تمامًا لما يوجد بداخل هذه الأقواس هنا.

07:51.720 --> 07:52.590
ولما ذلك؟

07:52.590 --> 07:57.660
حسنًا ، إذا فكرت في الأمر هنا ، فإننا نأخذ الحد الأقصى من النتيجة.

07:57.660 --> 08:00.900
سنحصل على أقصى حد عبر جميع الإجراءات الممكنة.

08:00.900 --> 08:04.950
إذن لدينا أربعة إجراءات ونتخذ أقصى ما يمكن عبر جميع الإجراءات الممكنة للنتيجة

08:04.950 --> 08:07.950
التي سنحصل عليها من خلال اتخاذ كل من هذه الإجراءات.

08:08.040 --> 08:09.030
و في.

08:09.030 --> 08:11.070
س نحن نحدد المثير للاهتمام.

08:11.070 --> 08:13.710
ما الذي نحصل عليه من خلال اتخاذ إجراء معين؟

08:13.710 --> 08:21.510
لذلك إذا فكرت في الأمر ، فمن المنطقي أن تكون قيمة الحالة ، على سبيل المثال ، هذه الحالة

08:21.510 --> 08:25.870
هي الحد الأقصى لجميع قيم Q الممكنة ، أليس كذلك؟

08:25.890 --> 08:32.310
لذلك هنا في هذه الحالة ، من خلال التواجد في الحالة ، يكون للوكيل قيمة Q واحدة إلى Q بقيمة ثلاثة قيمة Q

08:32.310 --> 08:32.820
لقيم Q.

08:32.820 --> 08:34.860
إذن ، لديه أربع قيم محتملة لـ Q.

08:34.860 --> 08:41.310
حسنًا ، من المنطقي أن تكون قيمة الحالة هي الحد الأقصى لجميع

08:41.310 --> 08:42.300
قيم Q.

08:42.300 --> 08:44.340
وهذا بالضبط ما يمكننا رؤيته هنا.

08:44.340 --> 08:48.000
هذا تأكيد جيد لهذه الصيغة الجديدة التي اشتقناها.

08:48.000 --> 08:52.170
إذا لم يكن الأمر كذلك ، إذا لم يتطابق ذلك ، فسنطرح أسئلة.

08:52.170 --> 08:53.880
سنكون مثل ، فلماذا؟

08:53.880 --> 08:54.840
لماذا لا تتطابق؟

08:54.990 --> 08:56.940
لماذا لا تتطابق؟

08:56.940 --> 09:07.590
إذا كانت قيمة Q عبارة عن مقياس كمي لأداء إجراء ما ، وتعتمد V على الأربعة ، فسيكون الحد الأقصى للنتائج المحتملة للإجراءات

09:07.590 --> 09:11.640
الأربعة التي يمكنه القيام بها.

09:12.000 --> 09:16.920
نأمل أن يكون هذا منطقيًا وهذا يؤكد الصيغة التي اشتقناها للتو.

09:17.190 --> 09:20.970
والآن سنجعلها أكثر إثارة للاهتمام.

09:20.970 --> 09:26.010
سوف نتخلص من V تمامًا لأنه يمكنك أن ترى هنا أن V هي دالة تكرارية

09:26.010 --> 09:29.700
لـ V ، ومن ثم لدينا V ثم V ثم V ثم V وما إلى ذلك.

09:29.700 --> 09:35.610
لذا يمكنك التعبير عن هذا الـ V من خلال جميع الـ V التالية ، أفضل أشكال الـ V التي ستظهر

09:36.030 --> 09:36.720
هنا.

09:36.810 --> 09:43.350
نحن نعبر عن Q كدالة تكرارية لـ V أو كدالة لـ V التالية ، ثم علينا أن نعوض بهذا

09:43.350 --> 09:45.150
V ثم نعود إلى V.

09:45.150 --> 09:52.050
إذن ما سنفعله هو أننا سنأخذ هذا V وسنستبدله بـ.

09:52.200 --> 09:53.100
سؤال: صحيح.

09:53.100 --> 09:54.240
لذلك دعونا نلقي نظرة على ذلك.

09:55.050 --> 10:01.080
سنأخذ V من الحالة التالية وسنقوم بتعويضها بهذه الصيغة هنا.

10:01.320 --> 10:05.490
وكما ترى الآن ، فإن هذا الجزء لا يتغير.

10:05.490 --> 10:06.990
هذا الاحتمال لا يتغير.

10:06.990 --> 10:16.710
ولكن كما ناقشنا للتو ، فإن v لـ SE هو الحد الأقصى لكل إجراءات Q من S و A هنا.

10:16.710 --> 10:19.110
هذا ما سنستبدله هنا.

10:19.110 --> 10:23.640
لذلك سنقول أن الحد الأقصى ، بالطبع ، هو الإجراء الجديد ، الإجراء

10:23.640 --> 10:26.460
الذي سنتخذه ، لأن لدينا هنا V لـ S شرطة.

10:26.460 --> 10:30.630
حسنًا ، هنا الآن لدينا الحد الأقصى عبر جميع الأعداد الأولية.

10:30.630 --> 10:34.260
إذن الإجراءات التي سنتخذها من هذه الحالة أو

10:34.260 --> 10:39.840
من أي مكان ، أيًا كانت الحالة الأخرى التي ننتهي بها ، ولكن الإجراء الذي

10:39.840 --> 10:50.100
سنتخذه من هناك والأقصى عبر كل هؤلاء والأقصى هو كل قيم Q التي ستكون متاحة لنا في تلك الحالة الجديدة كفاصلة أولية ، عدد أولي.

10:50.100 --> 10:51.210
وهذا هو العمل.

10:51.210 --> 10:54.360
هذا هو الأمر الذي سيكون هناك أربع قيم أخرى لـ Q هناك.

10:54.360 --> 10:56.400
والآن كما ترون ، دعنا نراجع ذلك مرة أخرى.

10:56.790 --> 11:02.880
إذن من ما استنتجناه مما ناقشناه فقط من خلال المنطق والحدس حتى نتمكن من رؤية

11:02.880 --> 11:09.860
أن VMs هي في الواقع V من S و S و R المرتبطة D لـ S هي الحد الأقصى في جميع إجراءات Q من هذا.

11:09.930 --> 11:13.530
ويمكنك أن ترى هنا ، إذاً هذا ، هذا الجزء مطابق لهذا الجزء.

11:14.070 --> 11:18.900
ثم سنستفيد من ذلك وسنقوم باستبدال هذه القطعة بـ V.

11:18.900 --> 11:21.420
S من هنا ، ولكن ليس هذه الصيغة الدقيقة.

11:21.420 --> 11:26.400
سنأخذ هذا الجزء الداخلي وسنستبدله بـ Q و A ، لذلك سنقوم بتوصيله

11:26.400 --> 11:27.540
هنا.

11:27.540 --> 11:28.890
وهذا الجزء سيكون.

11:28.890 --> 11:36.570
Q لـ S شرطة ، شرطة ، لذا فإن الحد الأقصى لـ Q عبر جميع أجزاء Q هي شرطة.

11:36.810 --> 11:39.570
والآن لدينا الصيغة.

11:39.570 --> 11:43.380
إذن لدينا الآن صيغة عودية لقيم Q.

11:43.380 --> 11:47.130
الآن يمكن للوكيل أن يفكر ، ما هي قيمة هذا الفعل؟

11:47.130 --> 11:48.480
ما هي جودة هذا العمل؟

11:48.480 --> 11:50.220
ما هي قيمة Q لهذا الإجراء؟

11:50.220 --> 11:51.780
حسنًا ، هذا يعتمد على المكافأة.

11:51.780 --> 11:53.940
أحصل على خطوة فورية لذلك.

11:53.940 --> 12:02.130
بالإضافة إلى أنه يعتمد على أوقات العوامل المخصومة ، الحد الأقصى لجميع إجراءات Q الممكنة في تلك الحالة ، لكنني لا أعرف

12:02.130 --> 12:04.020
ما إذا كنت سأصل إلى هناك.

12:04.020 --> 12:08.880
لذلك أحتاج أيضًا إلى إلقاء نظرة على تلك الحالة وتلك الحالة ، ولهذا السبب لدينا هذه القيمة المتوقعة

12:08.880 --> 12:09.240
هنا.

12:09.240 --> 12:13.200
إذن لدينا مجموع احتمال ضرب الحد الأقصى ، وهذه هي القيمة المتوقعة.

12:13.200 --> 12:15.420
صيغة مشابهة جدا كما ترون.

12:15.420 --> 12:22.560
لكن هذه المرة نعبر عن الأشياء من خلال قيم Q وهذا هو السبب في أن هذه الخوارزمية بأكملها

12:22.560 --> 12:26.880
تسمى Q Learning ، لأن هذا هو ما يتم النظر إليه.

12:26.880 --> 12:28.440
هذا ما يستخدمه الوكلاء بالفعل.

12:28.440 --> 12:31.080
إنهم لا ينظرون إلى الدول ، بل ينظرون إلى أفعالهم المحتملة.

12:31.080 --> 12:35.700
وبعد ذلك بناءً على الإجراءات ، بناءً على قيم Q للإجراءات ، سيقررون الإجراء الذي يجب اتخاذه.

12:35.700 --> 12:40.230
لذلك سوف ينظرون فقط إلى الحد الأقصى لقيمة Q في هذه الحالة المعينة ، لديها أربعة إجراءات.

12:40.230 --> 12:43.350
ما هو أفضل إجراء يمكن اتخاذه للمقارنة؟

12:43.350 --> 12:48.270
بدلاً من مقارنة الحالات المختلفة التي يمكن أن ينتهي بها الأمر ، ستقوم بمقارنة الإجراءات الممكنة

12:48.270 --> 12:49.440
التي لديها حاليًا.

12:49.740 --> 12:56.010
ثم من خلال إيجاد الخيار الأمثل ، ستتخذ هذا الإجراء ثم ستكرر هذه العملية ، وتكرر تلك العملية

12:56.010 --> 12:57.300
وما إلى ذلك.

12:57.300 --> 13:04.080
الآن يمكنك أن ترى كيف يتجمع كل هذا معًا ، وكيف تتجمع المكافأة ، وعامل الخصم ، وعمليات

13:04.230 --> 13:10.440
اتخاذ قرار ماركوف العشوائية وقيم V وقيم Q معًا لتعطينا معادلة بيلمان القوية

13:10.440 --> 13:19.680
الفائقة لقيم Q ، والتي يمكننا الآن تطبيقها والسماح لوكلائنا بتعلم كيفية التغلب على البيئة.

13:20.160 --> 13:23.250
وهذا تفسير بديهي لما يحدث.

13:23.250 --> 13:28.440
أعلم أننا مررنا بالصيغ ، لكن من الضروري لأن هذه تشبه معادلتنا

13:28.440 --> 13:36.720
التي مررنا بها خلال هذا الفصل بأكمله وأعتقد أنه انتقال جيد من V إلى Q وهو يوضح كيفية ارتباطهما ببعضهما

13:36.720 --> 13:38.370
البعض.

13:38.490 --> 13:46.830
وإذا كنت ترغب في الحصول على نهج رياضي أكثر صرامة ، ومثلما ترى الرياضيات وراءها

13:46.830 --> 13:52.620
وتعلم المزيد عن قيم Q وكيف تعمل ، فلدينا بعض القراءة الإضافية

13:52.620 --> 13:53.850
لك .

13:54.030 --> 14:02.730
تسمى هذه الورقة عمليات قرار ماركوف والمفاهيم والخوارزميات من قبل مارتن فون أوتر قانون 2009.

14:02.730 --> 14:09.360
إذاً لديك الرابط هنا كما هو الحال دائمًا ، وهنا يمكنك قراءة المزيد من التفاصيل لفهم كل التفاصيل الجوهرية

14:09.360 --> 14:12.390
وراء قيم قائمة الانتظار وما إلى ذلك.

14:12.390 --> 14:17.340
والآن بعد أن ناقشنا كل هذه الأشياء المتعلقة بمعادلة بلمونت ، أصبحنا

14:17.340 --> 14:23.880
الآن مستعدين للنظر في شيء أكثر تعقيدًا ، مثل هذه الورقة إذا أردنا الحصول على بعض المعلومات

14:23.880 --> 14:27.600
الإضافية حول هذا من أجل نوع من الحصول على فهم أعمق.

14:27.600 --> 14:33.480
ولكن حتى إذا لم تقرأ هذه الورقة بالفعل ، يجب أن تكون لديك معرفة عملية جيدة بما يدور

14:33.480 --> 14:40.410
حوله التعلم وكيف يتوصل الوكلاء إلى الإجراءات التي يحتاجون إلى اتخاذها في بيئة معينة.

14:40.680 --> 14:43.890
لذلك أتمنى أن تستمتع ببرنامج اليوم التعليمي وأتطلع إلى رؤيتك في المرة القادمة.

14:43.890 --> 14:45.720
حتى ذلك الحين ، استمتع بـ i.