WEBVTT

00:01.080 --> 00:04.590
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:04.590 --> 00:07.620
نتحدث اليوم عن الاختلاف الزمني.

00:07.860 --> 00:14.280
الآن ، إنه برنامج تعليمي مهم للغاية لأن الاختلاف الزمني هو قلب وروح خوارزمية التعلم

00:14.280 --> 00:14.900
Q.

00:14.910 --> 00:22.110
هذا هو في الواقع كيف أن كل شيء تعلمناه حتى الآن يعمل معًا داخل التعلم.

00:22.110 --> 00:23.340
لذلك دعونا نلقي نظرة.

00:23.730 --> 00:29.100
تذكر الوقت الذي تحدثنا فيه عن البحث الحتمي مقابل البحث غير الحتمي وتذكر كيف

00:29.100 --> 00:34.290
قلنا في هذه الحالة أنه عندما يريد الوكيل الصعود ، فإنه بالتأكيد يرتفع.

00:34.290 --> 00:37.330
وعندما يريد في هذه الحالة الصعود ، فهناك احتمال بنسبة 10٪ أن يذهب.

00:37.440 --> 00:40.800
لدينا فرصة بنسبة 10٪ أن يسير يمينًا وفرصة بنسبة 80٪ أن يسير يمينًا.

00:41.340 --> 00:42.270
اذهب مباشرة.

00:42.270 --> 00:46.320
حسنًا ، هذه الأرقام عشوائية بالطبع ويمكن أن تكون مختلفة.

00:46.320 --> 00:50.610
وهذا المفهوم برمته هو أنه يمكن أن يكون مختلفًا في مشاكل مختلفة.

00:50.610 --> 00:55.320
لذلك لا داعي للقلق بشأن الطريقة التي يتحرك بها ، فقط أن هناك بعض العشوائية

00:55.320 --> 00:59.730
، شيء خارج عن سيطرة الوكيل يحدث داخل هذه البيئة.

00:59.730 --> 01:06.960
وما أثر ذلك ، كما تتذكر ، هو أنه في المثال الحتمي ، كان من السهل جدًا

01:06.960 --> 01:09.000
حساب القيم.

01:09.000 --> 01:10.950
حسنًا ، ليس بالضرورة دائمًا سهلًا جدًا.

01:10.950 --> 01:15.060
لكن في حالتنا ، يمكننا ببساطة حسابها باستخدام معادلة بيلمان.

01:15.060 --> 01:17.070
وكان لدينا القيم الدقيقة.

01:17.070 --> 01:24.420
وبعد ذلك ، كما تتذكر ، أشرت بعناية شديدة إلى أن هذه القيم لمثال البحث

01:24.420 --> 01:27.630
غير الحتمي تقع في أعلى رأسي.

01:27.630 --> 01:28.650
لم يتم حسابها.

01:29.130 --> 01:33.000
في ذلك الوقت أخيرًا ، قلت إننا لن نحسبها لأنها معقدة للغاية.

01:33.000 --> 01:39.510
لكن الكمبيوتر يمكن أن يفعل ذلك وقد عملنا مع هذه القيم التي هي مجرد قيم قمت بتكوينها.

01:39.510 --> 01:41.220
لكنهم أنجزوا المهمة.

01:41.220 --> 01:46.230
لقد ساعدونا في فهم المفاهيم جيدًا ، والآن سنعود إلى ذلك قليلاً ونفهم ما

01:46.380 --> 01:47.760
يجري هنا بالضبط.

01:47.760 --> 01:55.350
لماذا يصعب حساب هذه القيم في المثال غير الحتمي أو بشكل عام ، في هذه المشكلات

01:55.350 --> 01:59.520
، في هذه البيئات والعامل الذي يمر بها؟

01:59.520 --> 02:02.790
لماذا يصعب حساب هذه القيم؟

02:02.790 --> 02:08.100
حسنًا ، عندما تفكر في الأمر ، لأنه عندما ينتقل الوكيل ، على سبيل المثال ، من هنا إلى اليمين

02:08.100 --> 02:11.340
، فإنه لا يتحرك بالضرورة دائمًا بهذه الطريقة.

02:11.340 --> 02:15.930
في بعض الأحيان ، هناك احتمال أن يذهب إلى واحد بدلاً من الذهاب مباشرة.

02:15.930 --> 02:23.490
لذلك دعونا نسمي هذا الشمال الشرقي ، والجنوب الغربي ، وهكذا ، إلخ. بدلاً من الذهاب غربًا ، قد يتجه الوكيل أحيانًا

02:23.490 --> 02:24.330
جنوبًا.

02:24.480 --> 02:28.980
وعلى سبيل المثال ، من هنا ، بدلاً من التوجه شمالاً ، قد يتجه أحيانًا شرقًا.

02:29.220 --> 02:30.180
اسف جدا.

02:30.180 --> 02:32.970
لذا هنا بدلاً من الذهاب إلى الشرق ، قد يتجه أحيانًا إلى الجنوب.

02:32.970 --> 02:36.840
وهنا بدلاً من التوجه شمالاً ، قد يتجه أحياناً إلى الشرق أو الغرب.

02:36.840 --> 02:40.980
وهنا ، بدلاً من التوجه شمالاً ، قد يتجه أحيانًا إلى الغرب أو الشرق أو الغرب ، وهكذا.

02:40.980 --> 02:42.960
فلان وذا.

02:42.960 --> 02:46.290
من أجل حساب هذه القيمة ، يجب أن تعرف ما هي هذه القيمة.

02:46.470 --> 02:50.880
لكن الشيء المثير للاهتمام هو أنه من أجل حساب هذه القيمة ، عليك أن تعرف ما هي هذه القيمة.

02:50.880 --> 02:57.240
لذلك هناك الكثير من العودية التي تحدث هنا وبالتالي لا يمكنك فقط تحديد ماهية هذه القيم.

02:57.240 --> 03:01.080
وفوق كل ذلك ، هذه العودية ليست حتمية.

03:01.080 --> 03:02.910
يحدث هذا في بعض الأحيان بهذه الطريقة.

03:02.910 --> 03:04.890
في بعض الأحيان بدلاً من الصعود ، سوف يذهب إلى اليمين.

03:04.890 --> 03:07.080
في بعض الأحيان بدلاً من الصعود ، سيذهب يسارًا.

03:07.080 --> 03:10.290
أحيانًا عندما يريد الصعود ، سيصعد.

03:10.290 --> 03:12.780
لذلك فهي عرضة للصدفة.

03:12.780 --> 03:17.850
ولذا ربما يمر العميل عدة مرات بهذا المسار وسيصعد ، لأعلى ، لأعلى ، لأعلى ، لأعلى.

03:17.850 --> 03:20.730
وسيعتقد أنه من هنا يصعد دائمًا نوعًا ما.

03:20.730 --> 03:24.660
وهكذا ستذهب قيمة الحالة ، وستكون جيدة ، وفجأة سيسقط

03:24.660 --> 03:27.210
في الحفرة وستنخفض هذه القيمة.

03:27.300 --> 03:33.390
وبالتالي يمكنك أن ترى كيف يوجد بعض العشوائية أو العشوائية لهذه العملية الحسابية الكاملة لهذه

03:33.390 --> 03:35.160
القيم لأنها كلها مترابطة.

03:35.160 --> 03:40.830
بالإضافة إلى أنك حصلت على تلك العشوائية في هذا المتأصل في البيئة لأن هذه علامة على عملية

03:40.830 --> 03:41.880
اتخاذ القرار.

03:42.330 --> 03:47.640
هذا هو المكان الذي يجتمع فيه كل هذا ، وهنا سنقدم مفهوم الاختلاف

03:47.640 --> 03:52.230
الزمني ، والذي سيسمح للعامل بحساب هذه القيم.

03:52.230 --> 03:57.540
وهنا كنا نتعامل مع قيم V ، ومنذ ذلك الحين انتقلنا بالفعل إلى قيم Q.

03:57.540 --> 03:59.310
هذا ما سنعمل معه.

03:59.310 --> 04:00.840
سننظر في.

04:00.840 --> 04:01.710
Q القيم.

04:01.710 --> 04:05.910
كما تتذكر ، هذه هي معادلة بلمونت لقيم Q.

04:05.910 --> 04:14.940
لذا فإن قيمة Q أو قيمة تنفيذ إجراء معين A في الحالة تساوي المكافأة التي تحصل عليها بعد

04:14.940 --> 04:17.190
تنفيذ هذا الإجراء.

04:17.190 --> 04:25.350
لذلك فور تنفيذ هذا الإجراء ، بالإضافة إلى حصولك على الحد الأقصى ، تحصل على جاما لمجموع كل

04:25.350 --> 04:26.580
ما هو ممكن.

04:26.850 --> 04:31.170
لذلك تحصل نوعًا ما على القيمة المتوقعة للحالة التي ستنتهي بها.

04:31.590 --> 04:34.680
كما تتذكر ، كانت هذه هي صيغتنا لمعادلة البناء.

04:35.070 --> 04:41.580
والآن ، فقط من أجل البساطة ، سنقوم بإعادة كتابتها بالطريقة القديمة ، بالطريقة التي كنا نتحدث

04:41.580 --> 04:45.760
بها عن معادلة بلمونت قبل أن نعرف عن المدينة العشوائية.

04:45.780 --> 04:52.590
لذا كما تتذكر ، كانت هذه معادلة بلمونت الخاصة بنا بمعنى مثال البحث الحتمي ، لأنه هنا ليس لديك

04:52.590 --> 04:57.480
هذه القيمة المتوقعة ، وليس لديك المجموع عبر جميع الاحتمالات.

04:57.480 --> 05:00.390
لديك هذا فقط كما لو تم تحديد مكانه.

05:00.530 --> 05:02.960
هل ستنتهي في أي حالة ستنتهي؟

05:02.960 --> 05:05.270
ثم تأخذ الحد الأقصى في تلك الحالة الواحدة.

05:05.270 --> 05:12.140
والسبب في إعادة كتابته هو ببساطة السبب الوحيد لأنه من الأسهل كتابته وسيكون من الأسهل

05:12.140 --> 05:14.510
علينا التراجع مع الصيغة.

05:14.510 --> 05:21.560
لذلك سنتذكر فقط أننا استبدلنا هذا الجزء بهذا الجزء ، وستجد أيضًا هذا الترميز في الكثير من الأدبيات

05:21.560 --> 05:28.160
، لذلك سيكون من الأسهل عليك متابعتها مع المصادر الأخرى إذا كنت تدرس أولئك.

05:28.160 --> 05:33.530
لكن تذكر أنه في الواقع ، ما نعنيه هو هذا النهج الاحتمالي هنا.

05:33.530 --> 05:39.200
بدلاً من هذا الترميز ، من الأسهل بالنسبة لنا تشغيل هذا وفهم ما يحدث ، ومثل نوعًا ما ننظر

05:39.200 --> 05:42.410
إلى المعادلات بحيث لا تكون مزدحمة للغاية.

05:42.620 --> 05:47.390
لكن مرة أخرى ، فقط تذكر أنه ، في الواقع ، ما نعنيه هو هذا النهج الاحتمالي هنا.

05:48.080 --> 05:50.060
وهكذا في الواقع نحن على وشك الانتهاء.

05:50.060 --> 05:52.040
لذلك دعونا نلقي نظرة على ما يحدث.

05:52.040 --> 05:56.360
إذن ها هي حالتنا الفارغة من المتاهة.

05:56.360 --> 05:58.100
ليس لدينا أي قيم جديلة.

05:58.100 --> 05:58.880
دعونا نرى.

05:58.880 --> 06:01.610
أو ربما ، لكن دعنا نبقيه فارغًا في الوقت الحالي.

06:01.610 --> 06:04.310
دعنا فقط نلقي نظرة على إحدى الولايات.

06:04.310 --> 06:06.620
إذن إحدى الخلايا ، هذه بالتحديد.

06:07.640 --> 06:14.240
وهنا لدينا ، على سبيل المثال ، لعمل الصعود ، لدينا قيمة Q التي حسبناها.

06:14.240 --> 06:16.910
لذلك لا يعني ذلك أنه ليس لدينا أي قيم Q حتى الآن.

06:16.910 --> 06:19.850
لقد فعلنا ، فعلنا ، لكننا لا نوضح أي شيء.

06:19.850 --> 06:22.400
نحن فقط نبقيها فارغة من أجل البساطة.

06:22.400 --> 06:25.490
لكن لدينا العصر الذي كان يتجول لبعض الوقت.

06:25.490 --> 06:33.830
ودعونا نقول افتراضيًا ، بطريقة ما أنه حسب قيمة Q هذه للصعود أو الشمال من هذه الحالة ،

06:33.830 --> 06:41.870
من هذه الخلية المحددة ، والقيمة هي Q As و A والآن ما لدينا هو الآن حيث يشير هذا السهم

06:41.870 --> 06:42.990
الأزرق.

06:43.010 --> 06:48.440
العميل يجلس في هذه الزنزانة وهو الآن بحاجة إلى أن يختار أين سيذهب؟

06:48.440 --> 06:55.910
وهو يعرف قيمة هذا ، للعمل المتجه شمالًا ، وهذا هو Q و S و A وهنا أقول من قبل والسبب

06:55.910 --> 07:00.140
في ذلك هو أنه قبل أن يتخذ الإجراء.

07:00.140 --> 07:01.520
لم يتخذ الإجراء بعد.

07:01.520 --> 07:02.990
لذا فهو لا يزال في الزنزانة.

07:03.170 --> 07:11.270
وقبل أن يتخذ الإجراء ، القيمة هنا هي Q و S والآن يقوم بالفعل بالإجراء.

07:11.270 --> 07:13.580
لنفترض أنه قرر أن هذا هو الأفضل.

07:13.580 --> 07:16.280
يقوم بالعمل وينتقل إلى هذه الخلية.

07:16.460 --> 07:24.290
حسنًا ، ما يحدث الآن هو أنه يأتي بعد ذلك ، وبعد أن يتخذ إجراءً ، يمكننا قياس ما هي هذه القيمة؟

07:24.290 --> 07:30.470
لنحسب فقط هذه القيمة ، قيمة المكافأة مقابل القيام بهذا الإجراء ، بالإضافة إلى أوقات جاما

07:30.470 --> 07:35.180
، الحد الأقصى لهذه الحالة الجديدة التي وصل إليها للتو كأولية.

07:35.390 --> 07:38.480
وبالتالي فإن الحد الأقصى عبر جميع الإجراءات الممكنة في حد ذاته.

07:38.840 --> 07:47.120
إذن ما لدينا هنا هو القيمة السابقة لهذا الإجراء ثم قمنا بحساب هذا المقياس بعد ذلك ، ولكن

07:47.120 --> 07:53.330
كما يمكنك أن تتذكر من الصيغة السابقة ، إذا عدنا سريعًا جدًا من الصيغة

07:53.330 --> 07:58.790
السابقة ، فما حسبناه للتو هو في الواقع القيمة.

07:58.790 --> 08:01.520
هذه هي الطريقة التي يتم بها حساب Q لـ SNR.

08:02.000 --> 08:09.470
إذاً هذا الجزء الصحيح ، قمنا بحسابه بشكل منفصل ، ولكن بعد أن اتخذنا الإجراء ، مرة أخرى

08:09.470 --> 08:15.770
قبل أن نعرف Q لـ S وقيمة ، وهو شيء قمنا بحسابه من خلال التكرارات السابقة.

08:15.770 --> 08:19.940
لذا فهي قيمة مخزنة في ذاكرتنا.

08:19.940 --> 08:21.830
لذلك تمامًا مثل الرقم الذي نعرفه.

08:21.890 --> 08:29.060
والآن بعد تنفيذ الإجراءات ، نعرف المكافأة التي حصل عليها بالفعل ، والمكافأة التي حصل عليها

08:29.060 --> 08:33.260
الوكيل بالفعل ، ويمكننا حساب هذه القيمة الجديدة.

08:33.260 --> 08:36.860
لذا في الجوهر ، نحن نوعا ما نعيد حساب هذه القيمة.

08:36.860 --> 08:42.800
ولكن الآن مع المعلومات الجديدة ، فإن المعلومات الجديدة هي المكافأة التي حصلنا عليها بالإضافة إلى

08:42.800 --> 08:50.510
الحالة التي انتهينا بها وما هو الحد الأقصى عبر تلك الحالة ، ما هي هذه القيمة الجديدة لتلك الحالة المحددة التي نتطلع إليها.

08:50.510 --> 08:54.470
إذن ما هي قيمة هذا الوجود في تلك الحالة.

08:54.470 --> 09:02.750
إذن ، بشكل أساسي Q لـ S و A ولكن بالنظر إلى معلومات جديدة والآن يتم تعريف الاختلاف الزمني على

09:03.260 --> 09:07.640
أنه TD من A ومن هذين الاختلاف بين هذين الاثنين.

09:07.640 --> 09:11.540
لذا فإن العنصر الأول هنا هو القيمة اللاحقة.

09:11.540 --> 09:18.680
إذاً نوع مثل Q لـ S و A ، لكن احسبه بعد ذلك و Q السابق لمقال و A الذي

09:18.710 --> 09:21.530
قمت بتخزينه في ذاكرتك.

09:21.920 --> 09:24.050
والسؤال هو ، هل هم مختلفون؟

09:24.050 --> 09:26.030
لذلك من الناحية المثالية ينبغي أن تكون هي نفسها.

09:26.030 --> 09:31.610
من الناحية المثالية ، يجب أن يكون هذا هو نفسه ببساطة لأن هذه هي الصيغة لحساب هذا.

09:31.610 --> 09:34.970
لكن الشيء هو أن هذا ليس شيئًا حسبناه.

09:34.970 --> 09:39.770
هذا شيء لدينا من الأدلة التجريبية ، وهو شيء لدينا من مجرد المرور عبر المتاهة

09:39.770 --> 09:41.240
عدة مرات والحساب.

09:41.240 --> 09:43.940
لذلك هذا شيء توصلنا إليه حتى الآن.

09:44.240 --> 09:46.760
لا يتعلق بالتكرار الحالي.

09:46.760 --> 09:51.080
إنه شيء توصلنا إليه سابقًا منذ وقت طويل ، ليس منذ وقت طويل ، ولكن في إحدى

09:51.080 --> 09:56.270
تكراراتنا السابقة التي تمر عبر المتاهة ، في حين أن هذا شيء حسبناه للتو ، وليس هناك

09:56.270 --> 09:58.340
ما يضمن أنهم ستكون هي نفسها.

09:59.340 --> 10:05.970
بسبب العشوائية الموجودة في المتاهة ، لأنه كان من الممكن حساب ذلك وتم تشغيل بعض الأحداث

10:05.970 --> 10:08.700
العشوائية المحددة ويمكن حساب ذلك.

10:08.700 --> 10:11.040
تم تشغيل أحداث عشوائية مختلفة.

10:11.490 --> 10:13.980
والآن دعونا نعيد كتابته هنا.

10:14.010 --> 10:15.240
دعنا فقط ننقله هناك.

10:15.540 --> 10:16.790
فكيف نستخدم هذا؟

10:16.800 --> 10:19.920
السؤال هو ، حسنًا ، لدينا هذا الاختلاف الزمني.

10:20.280 --> 10:23.340
كيف نستخدم هذا ولماذا يسمى الاختلاف الزمني؟

10:23.370 --> 10:28.920
حسنًا ، سبب تسميته بالاختلاف الزمني هو أنك تحسب نفس الشيء أساسًا.

10:28.920 --> 10:35.460
أنت تحسب Q من S وبالتالي فإن قيمة Q لهذا الإجراء ، أنت تحسبها هنا وتحسبها

10:35.460 --> 10:36.090
هنا.

10:36.090 --> 10:38.110
لكن الاختلاف هو الوقت.

10:38.130 --> 10:41.580
هذا هو Q of SNA الخاص بك سابقًا.

10:41.580 --> 10:48.990
هذه هي Q من S و A الآن لديك Q الجديد الخاص بك والسؤال هل كان هناك فرق؟

10:48.990 --> 10:51.270
هل كان هناك تحول بينهما في الوقت المناسب؟

10:51.810 --> 10:56.760
وكيف يمكننا استخدام هذا لصالحنا إذا كان هناك بالفعل تحول في الوقت؟

10:56.760 --> 11:03.510
حسنًا ، شيء واحد يمكننا القيام به هو أنه يمكننا أن نقول ، حسنًا ، حسنًا ، كما تعلمون ، Q لـ A لا هذه القيمة الجديدة

11:03.510 --> 11:04.740
لا تساوي القديم.

11:04.740 --> 11:09.510
لذلك سوف نتخلص من القديم ، وسوف ننسى القديم وسنستخدمه فقط كقيمة جديدة.

11:09.750 --> 11:11.820
لكن هذا لن يكون ذكيًا.

11:11.820 --> 11:17.790
والسبب في ذلك هو أنه في بيئتنا ، يمكن أن تحدث أحداث عشوائية في بعض الأحيان.

11:17.790 --> 11:26.610
وماذا لو كانت الأسئلة والأجوبة القديمة شيئًا يحدث باستمرار مثل 80٪ من الوقت ، ثم تم تمثيل الإعجاب

11:26.610 --> 11:28.620
بما يحدث 80٪ من الوقت؟

11:28.620 --> 11:32.580
ثم هذا الجديد ، بالضبط ما حدث بسبب العشوائية.

11:33.150 --> 11:39.600
في هذه الحالة ، سوف نتخلص من الشخص المسؤول عن الجزء الأكبر من الموقف.

11:39.600 --> 11:43.610
وسنستبدله بشيء يحدث فقط في 10 أو 20٪ من الوقت.

11:43.620 --> 11:46.920
لن يكون هذا هو أفضل نهج للذهاب.

11:46.920 --> 11:51.810
ولهذا السبب بالضبط لا نريد تغيير قيم Q الخاصة بنا تمامًا.

11:51.810 --> 11:56.700
نريد استخدام مثل التغيير خطوة بخطوة قليلاً ، قليلاً.

11:56.700 --> 12:00.720
ولهذا السبب سنستخدم هذا الاختلاف الزمني بطريقة معينة.

12:00.720 --> 12:07.020
لذلك سنقول ، هذه معادلة سنأخذها Q لـ و A وسنقوم بتحديثها بهذه الطريقة.

12:07.020 --> 12:13.110
سنأخذ القيمة القديمة لـ Krsna وسنضيف أوقات ألفا للاختلاف الزمني.

12:13.110 --> 12:15.570
لذا سيكون ألفا معدل التعلم لدينا.

12:15.570 --> 12:17.340
هذه معلمة جديدة نقدمها.

12:17.340 --> 12:19.590
هذا هو مدى سرعة تعلم الخوارزمية.

12:19.860 --> 12:26.940
لذلك فنحن نأخذ هذا الاختلاف بشكل أساسي ومهما كان ، نضيفه إلى Q الأربعاء السابق.

12:26.970 --> 12:31.680
الآن ، ربما لا يكون لهذه الصيغة أي معنى أو مثل بمجرد النظر ، فهي غير منطقية لأنك

12:31.680 --> 12:33.990
حصلت على Q الأربعاء هنا و Q of S و A هنا.

12:33.990 --> 12:36.780
إنه نفس الشيء ، لذا من المحتمل أن ينفي كل منهما الآخر.

12:36.780 --> 12:39.900
لكننا سنقوم بإعادة كتابة هذا بطريقة مختلفة قليلاً.

12:40.170 --> 12:41.520
لذا سأريكم مرة أخرى.

12:41.520 --> 12:44.070
لذلك أنا فقط أضيف الوقت إلى هذه الصيغ.

12:44.070 --> 12:51.000
إذن هنا Q T ناقص واحد ، السابق هنا Q ، T ناقص واحد السابق ، ها هو الجديد.

12:51.030 --> 12:53.010
يجب أن تكون هناك دائرة هنا ، هنا أيضًا دائرة.

12:53.010 --> 12:53.940
لكن لا تهتم.

12:53.940 --> 12:58.470
وهنا لدينا فرق ألفا الزمني ، الجديد هو الاختلاف الزمني الحالي.

12:58.470 --> 13:00.330
لذا يمكنك أن ترى ما نفعله.

13:00.330 --> 13:07.770
نحن نقول ، حسنًا ، دعنا نأخذ أن Q الحالي الخاص بنا سيكون مساويًا لـ Q السابق بالإضافة

13:07.770 --> 13:16.080
إلى أي فرق زمني وجدنا ضرب alpha هذه الصيغة هنا هي قلب وروح خوارزمية التعلم Q.

13:16.080 --> 13:21.780
هذه هي الطريقة التي يتم بها تحديث قيم Q ، ومن الجيد أننا تعلمنا بالفعل ما هي قيم Q ،

13:21.780 --> 13:24.960
وما هي Gamma ، وما هي R ، وما هي كل هذه الأشياء.

13:25.200 --> 13:30.180
والآن كل ما نحتاج إلى رؤيته هو أن لديك قيمة Q سابقة.

13:30.270 --> 13:31.560
نعم هذا جيد.

13:31.680 --> 13:37.830
وبعد ذلك ما يمكن أن يحدث هو أنه عندما تتدخل عندما تقوم بالفعل باتخاذ الإجراء ، عندما يتخذ الوكيل

13:37.830 --> 13:42.360
إجراء ، سيعرف أنه سيحصل على مكافأة وسينتهي به الأمر في حالة.

13:42.360 --> 13:45.840
وبناءً على ذلك يمكنه الحساب.

13:45.930 --> 13:46.230
اها.

13:46.350 --> 13:52.980
حسنًا ، ما هو ، ماذا سيكون ، ما هو قيمة Q لتلك الحركة التي قمت بها.

13:53.250 --> 13:56.250
والآن هذا هو الجزء من المعادلة.

13:56.250 --> 14:02.850
قم بطرح قيمة Q القديمة للحصول على الفرق الزمني الخاص بك والآن تحتاج إلى أن تأخذ فرقًا زمنيًا مضروبًا

14:02.850 --> 14:03.600
في ألفا.

14:03.810 --> 14:05.760
وهذه هي الطريقة التي ستعدل بها قيمة Q الخاصة بك.

14:05.760 --> 14:07.590
هذا ما ستقوم بضبط قيمة Q به.

14:08.010 --> 14:12.750
والآن فقط لإنهاء هذا ، هذا نوع من هذا يكفي لفهم ما يحدث ، ولكن فقط

14:12.750 --> 14:18.780
لتوضيح الأشياء أكثر أو ربما تربك الأشياء أكثر ، ما سنفعله هو أننا سنأخذ هذا الاختلاف

14:18.780 --> 14:22.500
الزمني أو هذا الاختلاف الزمني هنا.

14:22.530 --> 14:24.120
سنقوم بالتعويض عنها في هذه الصيغة.

14:24.120 --> 14:29.760
سنأخذ كل هذا الجزء ونعوض به في هذه الصيغة وننتهي بمعادلة ضخمة.

14:29.760 --> 14:31.470
حسنا هيا بنا.

14:31.470 --> 14:32.520
هناك معادلتنا.

14:32.520 --> 14:38.370
إذن هذه هي المعادلة الكاملة مكتوبًا فيها الاختلاف الزمني بالكامل.

14:38.370 --> 14:43.500
والسبب في كتابتي لهذا هو ، حسنًا ، أولاً وقبل كل شيء ، ربما ستجد هذا في الأدبيات

14:43.500 --> 14:45.180
الأخرى إذا قمت بدراسته.

14:45.510 --> 14:48.510
والشيء الثاني هو أنه يجعل بعض الأشياء أكثر تعقيدًا.

14:48.510 --> 14:52.050
لديه الصيغ أطول ، لكنه يجعل بعض الأشياء أكثر وضوحًا أيضًا.

14:52.050 --> 14:55.860
على سبيل المثال ، يمكنك أن ترى هنا الدور الذي يلعبه ألفا.

14:55.860 --> 14:58.500
يمكنك رؤيته بشكل أفضل لأنك انظر إليه هنا.

14:58.850 --> 15:00.470
Q T ناقص واحد.

15:00.470 --> 15:01.250
وها أنت ذا.

15:01.370 --> 15:03.470
Q T ناقص واحد بعلامة سالب.

15:03.470 --> 15:12.110
لذا إذا عوضت بـ alpha يساوي واحدًا ، إذا أدخلت واحدًا هنا ، فسيؤدي ذلك إلى إلغاء هذا.

15:12.110 --> 15:13.550
لذلك سوف يدمرون بعضهم البعض.

15:13.550 --> 15:15.920
وكل ما تبقى هو هذا الجزء.

15:16.190 --> 15:22.760
وما يعنيه ذلك بالضبط هو الموقف حيث قلنا ، حسنًا ، لدينا قيمة جديدة ، والتي

15:22.760 --> 15:24.650
كان ينبغي أن تكون.

15:24.650 --> 15:29.380
دعنا نحدث قيمة Q الخاصة بنا بالقيمة الجديدة وننسى كل ما كان لدينا من قبل.

15:29.390 --> 15:34.940
وكما ناقشنا ، هذا ليس أفضل نهج لأن هناك أحداثًا عشوائية هنا ونريد تحديث

15:34.940 --> 15:36.740
الأشياء خطوة بخطوة.

15:37.340 --> 15:43.250
ومن ناحية أخرى ، إذا قمت بتعيين Alpha مساويًا للصفر ، فإن ما يحدث بعد ذلك هو أنك نسيت تمامًا

15:43.250 --> 15:49.430
هذا الجزء بالكامل وأن الجزء الجديد أو الجزء الحالي سيكون دائمًا مساويًا للجزء السابق.

15:49.430 --> 15:51.440
لذلك لن تتعلم أي شيء.

15:51.440 --> 15:57.020
وهذا يعني أن كل ما يحدث في المتاهة لا يهم لأنك قررت قيمتك منذ فترة

15:57.020 --> 15:58.820
طويلة وستحتفظ بها.

15:59.150 --> 16:01.670
لهذا السبب لا يجب أن تكون ألفا صفراً أو لا يجب أن تكون واحدة.

16:01.820 --> 16:03.140
يجب أن يكون في مكان ما بينهما.

16:03.140 --> 16:08.920
وسيسمح لك بالتعلم ببطء ، خطوة بخطوة سيسمح لك ، حيث أن وكيلك أو وكيلك أثناء مروره

16:08.930 --> 16:12.680
عبر المتاهة ، سيحصل على هذا الاختلاف الزمني.

16:12.680 --> 16:17.120
وببطء ولكن بثبات ، سيتم تحديث هذه القيمة وتحديثها.

16:17.120 --> 16:17.720
محدث.

16:17.720 --> 16:25.400
وما سيحدث في النهاية هو أنه في مرحلة ما ، نأمل أن تتقارب الخوارزمية.

16:25.400 --> 16:30.890
وما يعنيه ذلك هو أن هذا الاختلاف الزمني سيبدأ في الاقتراب أكثر فأكثر من الصفر

16:30.890 --> 16:35.300
، وفي النهاية سيكون قريبًا جدًا من الصفر أو حتى 0000.

16:35.300 --> 16:43.490
وما يعنيه ذلك هو أنه في كل مرة تكون فيها قيمتك الجديدة أو القيمة المحسوبة الجديدة الخاصة بك ، ما كان يجب أن تكون عليه

16:43.490 --> 16:47.720
ليس هذه القيمة ، ولكن ما يجب أن تكون عليه افتراضيًا بعد اتخاذ

16:47.720 --> 16:50.930
الخطوة سيكون مساويًا للقيمة السابقة.

16:50.930 --> 16:52.280
ثم واحد ثم صفر.

16:52.280 --> 16:57.950
وهذا يعني أنه عندما يكون الاختلاف الزمني لديك صفراً ، فهذا يعني أن الخوارزمية الخاصة

16:57.950 --> 17:04.730
بك قد تقاربت وليس من الضروري الاستمرار في تحديث ما يحدث ، وليس بالضرورة الاستمرار في تحديث قيم Q الخاصة

17:04.730 --> 17:05.720
بك.

17:06.110 --> 17:11.990
التحذير هنا هو أن المرة الوحيدة التي ربما تكون فيها واحدة من الأوقات الوحيدة التي لا تزال

17:11.990 --> 17:19.070
ترغب فيها في الاستمرار في إجراء هذا التحديث الكامل لقيم قائمة الانتظار الخاصة بك إذا كانت البيئة تتغير باستمرار

17:19.070 --> 17:24.500
، إن لم يكن الأمر ليس فقط أنها تحتوي على بعض العشوائية العشوائية الأحداث فيه ، ولكن

17:24.500 --> 17:28.610
البيئة نفسها تتغير ، وتتحول ، وتتغير مع مرور الوقت.

17:28.880 --> 17:34.190
لذلك فأنت بحاجة إلى التعلم باستمرار لأنه لا يمكنك تعلم كل شيء والتوصل إلى السياسة

17:34.190 --> 17:38.930
المثلى لأن السياسة المثلى تتغير أيضًا مع البيئة طوال الوقت.

17:38.930 --> 17:43.790
في هذه الحالة ، ستحتاج إلى متابعة حساب الاختلاف الزمني وحساب قيم Q.

17:44.570 --> 17:46.760
لكن بخلاف ذلك ، هذا نوع من التعقيد الإضافي.

17:46.760 --> 17:49.310
بخلاف ذلك ، هذه هي الطريقة التي يتم بها تحديث قيم Q.

17:49.310 --> 17:56.180
هذه هي الصيغة الرئيسية لخوارزمية التعلم Q ، وهذا يشبه إلى حد ما النسخة الموسعة من ذلك.

17:56.180 --> 18:02.120
والآن يجب أن يجتمع كل شيء معًا ويفهم سبب وجود معادلة بيلمان وليس فقط

18:02.120 --> 18:10.400
ما تمثله ، قيم Q ، ولكن أيضًا كيف يقوم الوكيل بتحديث قيم Q الخاصة به وإيجاد ما يحدث بالضبط في تلك

18:10.400 --> 18:14.090
البيئة. يمكن أن تأتي مع السياسة المثلى.

18:14.390 --> 18:20.540
لذلك أعلم أن هذا كثير جدًا ، ولكن آمل أن تكون قد استمتعت ببرنامج اليوم التعليمي وآمل أن تكون

18:20.540 --> 18:25.790
قادرًا على التخلص من المفاهيم الأساسية والحدس الكامن وراء القيم الأساسية.

18:25.790 --> 18:33.440
وما هو المفهوم الكامل للاختلاف الزمني ولماذا هو مهم ، ولماذا يساعدنا في تدريب وكلائنا

18:33.440 --> 18:38.750
ببطء وجعلهم يفهمون بيئاتهم التي يعملون فيها.

18:39.020 --> 18:45.470
وإذا كنت ترغب في معرفة المزيد عن الاختلافات الزمنية ، فستتعلم ورقة شائعة جدًا أن تتنبأ

18:45.470 --> 18:48.320
بأساليب الاختلافات الزمنية.

18:48.320 --> 18:52.220
بقلم ريتشارد ساتون عام 1988.

18:52.490 --> 18:56.330
لدينا بالفعل مرجع بقلم ريتشارد ساتون أيضًا ، لكن هذا مرجع آخر.

18:56.330 --> 18:57.470
وفي الحقيقة لديه كتاب.

18:57.470 --> 19:04.760
لذا ، إذا دخلت في أسلوب كتابته وأسلوبه في الاتصال ، فإن الاطلاع على كتابه أيضًا يشبه

19:04.760 --> 19:08.570
إلى حد ما نسخة موسعة من كل هذه الأشياء.

19:08.570 --> 19:11.480
لم أقرأ الكتاب ، لكن هذا ما أتخيله.

19:11.630 --> 19:17.840
في الوقت نفسه ، هذا هو الرابط إلى الورقة ويمكنك معرفة المزيد عن الاختلافات الزمنية

19:17.840 --> 19:20.810
هناك أو ربما تعلم المزيد عنها.

19:21.050 --> 19:24.140
وآمل أن تستمتع ببرنامج اليوم التعليمي وأتطلع إلى رؤيتك في المرة القادمة.

19:24.140 --> 19:26.360
حتى ذلك الحين ، استمتع بـ I.
