WEBVTT

00:00.430 --> 00:03.900
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.910 --> 00:05.350
أتمنى أن تكون مستمتعا بالدورة حتى الآن.

00:05.350 --> 00:08.500
واليوم نتحدث عن سياسات اختيار الإجراءات.

00:08.890 --> 00:09.310
حسنا.

00:09.310 --> 00:10.570
دعونا نتعمق فيه مباشرة.

00:10.870 --> 00:15.940
في السابق ، تحدثنا عن إضافة شبكة عصبية لتعلمنا البسيط.

00:15.940 --> 00:21.000
وحتى الآن نحن ندخل في التعلم العميق.

00:21.010 --> 00:26.530
لقد تحدثنا عن جزء التعلم قليلاً ، بما في ذلك إضافة بعض العناصر إليه.

00:26.530 --> 00:28.750
واليوم نتحدث عن هذا الجزء.

00:28.750 --> 00:29.880
نحن نتحدث عن التمثيل.

00:29.890 --> 00:30.880
لذلك دعونا نلقي نظرة.

00:31.060 --> 00:38.410
حسنًا ، لقد حصلنا هنا على ما ناقشناه حول التمثيل أنه بمجرد إدخال القيم أو المعلمات أو المتجه الذي يصف

00:38.410 --> 00:44.260
الحالة التي يتواجد فيها الوكيل حاليًا ، في تلك البيئة ، فهذا يعني ، بعد كل شيء ، أن

00:44.260 --> 00:47.290
التعلم قد تم أو حتى قبل أن يتم التعلم.

00:47.290 --> 00:49.420
في الأساس نحصل على جميع القيم الأساسية.

00:49.420 --> 00:51.040
لذلك نحن لسنا مهتمين بالتعلم الآن.

00:51.040 --> 00:51.940
نحن مهتمون بالتمثيل.

00:51.940 --> 00:57.060
لذا بمجرد أن نحصل على قيم الإشارات هذه ، كيف نفهم أيها نحتاج إلى استخدامه؟

00:57.070 --> 01:01.870
حسنًا ، إذا فكرت في الأمر ، فإن قيم التلميح هي ببساطة هذه التنبؤات لقيم المكعب.

01:01.870 --> 01:05.950
كما فعلنا في خوارزمية التعلم البسيطة ، ماذا فعلنا؟

01:05.950 --> 01:10.320
لقد اخترنا للتو الأفضل ، مع أعلى قيمة جديلة.

01:10.330 --> 01:15.310
بمجرد أن نحصل على الشخص الذي يحتوي على أعلى قيمة ، فإننا نتخذ هذا الإجراء فقط لأنه يجلب لنا

01:15.310 --> 01:16.000
أعلى قيمة.

01:16.240 --> 01:17.050
ونحن نعلم ذلك.

01:17.050 --> 01:21.970
يتم احتساب قيمة Q على أنها المكافأة الفورية التي نتوقع الحصول عليها ، بالإضافة إلى العامل مضروبًا في قيمة

01:21.970 --> 01:23.020
الحالة التالية.

01:23.020 --> 01:24.700
وهي عملية حسابية متكررة.

01:24.700 --> 01:25.360
اذا لما لا؟

01:25.360 --> 01:28.300
لماذا لا تأخذ أفضل قيمة لقائمة الانتظار؟

01:28.300 --> 01:30.550
وهذا نوع من نهاية الأمر.

01:30.550 --> 01:32.860
لكن كما ترون هنا ، الأمر ليس بهذه البساطة.

01:32.890 --> 01:37.660
نحن هنا نستخدم وظيفة soft max وهذا هو المكان الذي سنتحدث فيه عن سياسات اختيار الإجراء.

01:37.660 --> 01:41.110
لذلك هنا ، في الواقع ، ليس لدينا مجرد وظيفة ذاتية بحد أقصى.

01:41.110 --> 01:44.290
يمكن أن يكون لدينا سياسات مختلفة لاختيار الإجراءات.

01:44.650 --> 01:51.730
على سبيل المثال ، لدينا epsilon greedy ، و epsilon soft ، ولدينا soft max وهي تشبه سياسات

01:51.730 --> 01:54.880
اختيار الإجراء الأكثر شيوعًا.

01:54.880 --> 01:56.200
بالطبع، هناك آخرون.

01:56.200 --> 02:00.520
على سبيل المثال ، أبسط واحد هو هنا سياسة اختيار إجراء بسيطة للغاية.

02:00.520 --> 02:03.730
ما عليك سوى اختيار الأفضل ، الذي يحتوي على أعلى قيمة Q.

02:03.730 --> 02:06.250
لكن لماذا لا تطير سياسة العمل هذه؟

02:06.250 --> 02:10.300
ولماذا لدينا أنواع مختلفة من سياسة العمل وسياسات اختيار الإجراء؟

02:10.300 --> 02:19.000
حسنًا ، كل هذا يتلخص في الاستكشاف مقابل الاستغلال ، وهذا هو جوهر التعلم المعزز ، لأننا تحدثنا

02:19.000 --> 02:24.280
بالفعل عن هذا قليلاً ، أن وكيلك ، عندما يعمل في بيئة ، قد يتنبأ

02:24.280 --> 02:30.220
بقيم أساسية معينة ، والذي قد يكون جيدًا ، وقد يكون رائعًا وقد لا يكون

02:30.430 --> 02:31.780
كذلك.

02:31.780 --> 02:34.900
قد يتضح أن هذه القيم سيئة وسنضطر إلى الاستكشاف.

02:34.900 --> 02:39.460
لذلك إذا توقعنا ، على سبيل المثال ، في هذه الحالة ، أن Q اثنان هو الأفضل

02:39.460 --> 02:46.720
، ثم يأخذك اثنان ، ويتخذ الإجراء الثاني ، ومن هنا يأخذ الإجراء الثاني ثم يحصل ، مكافأة سلبية.

02:46.720 --> 02:51.910
ثم تجبر البيئة الوكيل على الذهاب والاستكشاف لأنه سيتعلم الآن ، أوه ، في الواقع

02:51.910 --> 02:56.260
اعتقدت أن Q2 سيكون جيدًا جدًا ، لكن اتضح أنه سيء للغاية.

02:56.620 --> 02:58.270
لذلك كانت النتيجة سيئة للغاية.

02:58.270 --> 02:59.830
لذلك ستقوم الشبكة بتحديث نفسها.

02:59.830 --> 03:02.950
لذلك في المرة القادمة التي يكون فيها في هذه الحالة ، ربما لا يزال بإمكانه الاختيار.

03:02.950 --> 03:06.760
س 2 ، إذا كان الأمر كذلك ، كما تعلم ، كما لو كان مواتيا للغاية.

03:06.760 --> 03:11.800
لذلك قد تعتقد أن هذا مثل ، كما تعلم ، قد يحتاج إلى بضع مرات من العقوبات أو العقوبات

03:11.920 --> 03:14.800
من أجل معرفة أن Q2 هو إجراء سيئ.

03:14.800 --> 03:17.410
لكن ربما سيتعلم ذلك قريبًا.

03:17.410 --> 03:18.430
حسنًا ، سأتخذ إجراءً مختلفًا.

03:18.430 --> 03:21.910
سأتخذ هذا الإجراء لأنه يحتوي الآن على أفضل قيمة Q.

03:21.910 --> 03:28.960
لذلك في بعض الأحيان تجبر البيئة الوكيل على اتخاذ إجراءات مختلفة لاستكشاف إجراءات مختلفة ، ولكن

03:28.960 --> 03:33.340
في بعض الأحيان قد يجد الوكيل نفسه عالقًا في حد أقصى محلي.

03:33.340 --> 03:37.870
قد تجد أنه يتبع من خلال استكشافه الأولي.

03:37.870 --> 03:42.970
لقد وجدت ، أوه ، هذا عمل رائع جدًا ، كما لو أنني سأذهب هنا وهذا عمل رائع

03:42.970 --> 03:43.750
جدًا.

03:43.810 --> 03:48.970
لكن المشكلة هي أنه يعتقد أنه أفضل إجراء لمجرد أنه لم يتم استكشافه.

03:48.970 --> 03:53.770
لقد تم استكشافه لأعلى سوف يستكشف الاتجاه إلى اليسار ، مستكشفه يمينًا ، لكنه

03:53.770 --> 03:57.310
لم يستكشف النزول من تلك الحالة المحددة التي يوجد بها.

03:57.310 --> 04:01.840
والآن بعد أن أصبح الأمر منحازًا إلى حد ما تجاه هذا الإجراء ، فإنه يعتقد أنه عمل جيد سيستمر في القيام

04:01.840 --> 04:03.370
به ، وسيستمر في الحصول عليه.

04:03.730 --> 04:06.340
سيستمر في اتخاذ هذا الإجراء وسيستمر في الحصول على مكافأة جيدة.

04:06.340 --> 04:10.300
ولكن ماذا لو كان هذا الإجراء سيكون أفضل؟

04:10.300 --> 04:16.330
إذا كان هذا الإجراء سيكون أفضل بكثير لدرجة أنه إذا كان على علم بهذا الإجراء ، فإنه سيتحول بالفعل إلى

04:16.330 --> 04:17.230
هذا الإجراء.

04:17.230 --> 04:22.180
ولكن نظرًا لتعثرها في الحد الأقصى المحلي والحصول على هذه المكافآت الجيدة ،

04:22.210 --> 04:23.500
فسيتم تعزيزها فقط.

04:23.500 --> 04:27.400
إنها ستواصل تعزيز نفسها أو ستعزز البيئة أن هذا إجراء جيد

04:27.400 --> 04:28.270
يجب اتخاذه.

04:28.270 --> 04:29.170
داوم على فعل ذلك.

04:29.230 --> 04:35.320
لكن الحقيقة هي أن هناك هذا الإجراء الآخر الذي لم يتم العثور عليه بعد أو لم يستكشفه حتى الآن وكان من الممكن

04:35.320 --> 04:36.850
أن يكون أفضل بكثير.

04:36.850 --> 04:43.120
ولذا فإن ما نريد القيام به هو أننا نريد التوصل إلى سياسة اختيار الإجراء التي تسمح لوكيلنا

04:43.120 --> 04:45.760
بعدم الوقوع في حد أقصى محلي.

04:45.760 --> 04:48.400
نعم ، من المهم الاستمرار في القيام بالأفعال الجيدة.

04:48.400 --> 04:49.990
هذا هو جزء الاستغلال.

04:49.990 --> 04:53.860
نريد استغلال ما وجدناه ، لكن في نفس الوقت ما زلنا نريد استكشافه.

04:53.860 --> 04:55.480
لا نريد التوقف عن الاستكشاف.

04:55.480 --> 04:57.730
يبدو الأمر كما في الحياة أنك لا تريد أبدًا التوقف عن التعلم.

04:57.790 --> 04:58.930
تتوقف عن التعلم ، تموت.

04:58.930 --> 04:59.220
هذا.

04:59.580 --> 05:03.300
هناك قول كهذا عندما لا تكبر ، أنت تحتضر أو شيء من هذا القبيل.

05:03.300 --> 05:07.470
لذلك تريد الاستمرار في التعلم ويريد وكيلك مواصلة التعلم.

05:07.470 --> 05:10.110
وهنا يأتي دور سياسات اختيار الإجراءات هذه.

05:10.110 --> 05:12.270
لدينا ثلاثة مدرجة هنا.

05:12.270 --> 05:14.100
أولها إبسيلون جريدي.

05:14.100 --> 05:15.540
انها بسيطة جدا.

05:15.540 --> 05:21.450
يبدو الأمر معقدًا جدًا بمعنى أنه قد حصل على اسم رائع وعادة ما تكون الأشياء التي تحمل أسماء رائعة

05:21.450 --> 05:22.060
معقدة.

05:22.240 --> 05:23.040
في الواقع ليس كذلك.

05:23.100 --> 05:31.340
لذا فإن ما تفعله بشكل أساسي هو أنها ستختار أفضل قيمة Q و epsilon مثل epsilon Greek.

05:31.350 --> 05:32.670
قد تسمعه في أماكن أخرى.

05:32.670 --> 05:34.920
إنها تمامًا مثل سياسة الاختيار.

05:34.920 --> 05:39.870
لذلك في هذه الحالة ، نستخدمها للاختيار من بين قيمنا Q ، عاطلة عن العمل.

05:39.870 --> 05:45.750
لذلك ستختار الشخص الذي يحتوي على أعلى قيمة Q طوال الوقت باستثناء نسبة إبسيلون في المائة من الوقت.

05:45.750 --> 05:52.170
لذلك ، على سبيل المثال ، إذا قمت بتعيين Epsilon على 10٪ ، فستذهب إلى 0 أو 0. 1.

05:52.170 --> 05:56.460
ثم يتم اختيار 10٪ من الوقت بشكل عشوائي.

05:56.460 --> 06:01.890
لذلك ، 90٪ من الوقت ما زلت تختار أفضل إجراء بناءً على أعلى قيمة Q.

06:01.890 --> 06:07.620
ولكن 10٪ من الوقت سيختارون زيًا عشوائيًا للعمل ، والذي سيتم اتخاذ إجراء

06:07.620 --> 06:09.390
بشكل عشوائي تمامًا.

06:09.390 --> 06:17.700
أو إذا قمت بتعيين epsilon على 0. 540. 05 ، هذا يعني أن 95٪ من الوقت سيتخذ الوكيل

06:17.700 --> 06:19.140
الإجراء بأعلى قيمة.

06:19.140 --> 06:22.290
لكن 5٪ من الوقت ، لا يزال يتم الاختيار في إجراء عشوائي.

06:22.290 --> 06:25.470
لذلك سوف يذهب هناك ويستكشف.

06:25.470 --> 06:28.140
لذا فإن إبسيلون سوفت متشابهة جدًا.

06:28.410 --> 06:34.920
أوه ، بالمناسبة ، هذا نوع من مثل سبب تسميته Epsilon greedy ، لأنك تختار الجشع الإجراء

06:34.920 --> 06:40.230
، العمل الجيد ، باستثناء نسبة إبسيلون الصغيرة من الوقت.

06:40.230 --> 06:46.920
لذلك كلما كان إبسيلون منخفضًا ، كلما كان إبسيلون أقل ، كلما قمت باختيار هذا النوع من الحركة

06:46.920 --> 06:48.180
بجشع أكبر.

06:48.180 --> 06:50.280
هذا هو العمل الأمثل.

06:50.280 --> 06:54.630
وكلما قللت من رحلتك ، قلت فرصك في المغادرة للاستكشاف.

06:54.630 --> 06:55.920
أما إبسيلون سوفت فهو عكس ذلك.

06:55.920 --> 07:01.950
لذا فأنت تختار بشكل عشوائي ، فأنت تختار واحدًا ناقصًا نسبة إبسيلون من الوقت.

07:01.950 --> 07:09.460
لذلك إذا كان إبسيلون الخاص بك مثل 0. 1 ، إذن 10٪ ، ثم 10٪ فقط من الوقت الذي تقوم فيه بهذا الإجراء و 90٪

07:09.750 --> 07:12.120
من الوقت الذي تختار فيه إجراء عشوائي.

07:12.120 --> 07:18.740
خوارزميات مقلوبة للغاية وبسيطة جدًا وخوارزميات soft max تشبه نوعًا ما الخطوة التالية من أو إنها نسخة أكثر

07:18.960 --> 07:24.000
تقدمًا ، كما يمكنني القول ، من Epsilon من خوارزمية Epsilon الجشعة ، على الرغم من أن

07:24.000 --> 07:30.810
كلاهما يتمتع بالجدارة وكلاهما الأماكن التي سنستخدمها soft max في الترميز ومجموعة الأشياء العملية.

07:30.810 --> 07:34.920
لهذا السبب سنتحدث بمزيد من التفاصيل حول Soft Max.

07:35.040 --> 07:36.300
لذلك دعونا نلقي نظرة.

07:36.300 --> 07:37.770
لذلك دعنا ننتقل إلى Soft Max.

07:37.770 --> 07:40.580
نأمل أن يكون واضحًا جدًا بشأن مكونات إبسيلون.

07:40.720 --> 07:42.720
إنها خوارزمية واضحة ومباشرة.

07:42.720 --> 07:47.640
حدد هذا في معظم الأحيان باستثناء الذهاب والاستكشاف في بعض الأحيان.

07:47.640 --> 07:53.760
والآن نرى أيضًا سبب أهمية القيام بهذا الاستكشاف حتى لا ينتهي بنا المطاف في الحدود القصوى المحلية

07:53.760 --> 07:55.950
في عملية التحسين الخاصة بنا.

07:55.950 --> 07:57.960
لذا الآن سوف نتحدث أكثر قليلاً عن سوفت ماكس.

07:58.680 --> 08:02.700
يوجد برنامج تعليمي عن Soft Max في نهاية الدورة التدريبية في.

08:02.700 --> 08:08.340
أعتقد أنه ملحق رقم 2 حيث نتحدث عن المفهوم الكامن وراء Soft Max.

08:08.340 --> 08:09.900
سأقوم بالتحديث قليلاً هنا.

08:09.900 --> 08:12.780
لذلك كانوا يتحدثون عن الشبكات العصبية التلافيفية.

08:12.780 --> 08:16.560
وبالمناسبة ، سنقوم جميعًا بتغطية تلافيفي ، فنحن لا نغطي الشبكات العصبية

08:16.560 --> 08:18.780
التلافيفية في هذا القسم من الدورة.

08:18.930 --> 08:21.360
في هذا القسم ، ما زلنا نستخدم المتجه.

08:21.570 --> 08:27.510
لكن في القسم التالي من الدورة التدريبية ، عندما نقوم بإنشاء ذكاء اصطناعي للعب الهلاك ، سنستخدم الشبكات

08:27.510 --> 08:29.310
العصبية التلافيفية.

08:29.310 --> 08:36.240
لذلك قد يكون من المفيد لك أن تنظر إلى الشبكات العصبية التلافيفية ثم تأخذ وظيفة soft max.

08:36.240 --> 08:41.820
أو يمكنك معرفة المزيد عن SOF Max بعد أن تأخذ الشبكات العصبية التلافيفية و X للدورة

08:41.820 --> 08:42.990
في وقت لاحق.

08:42.990 --> 08:45.060
ولكن إليك تحديث سريع.

08:45.060 --> 08:48.870
إذن لدينا هنا شبكة عصبية تلافيفية تقرر ما إذا كان كلبًا أم قطة.

08:48.870 --> 08:53.370
إذن لدينا هنا عملية التصويت بين هذه الخلايا العصبية.

08:53.370 --> 08:59.700
وهذا يقول أنه يحتوي على الميزات ، كما تعلمون ، الأذنين الرقيقة ، ما هو نوع

08:59.700 --> 09:01.980
الوجه المدبب والمدبب.

09:02.220 --> 09:08.850
وهذا النوع يشبه الملامح التي تشبهها الأنواع الأخرى من العيون ، العين ، شكل العيون ، كل هذه السمات التي

09:08.850 --> 09:09.870
تخص الكلب.

09:09.870 --> 09:13.620
لذا فمن المحتمل 95٪ أن يكون كلبًا واحتمال 5٪ أنه قطة.

09:13.620 --> 09:18.930
لكن السؤال هو ، كيف حصلنا عليه وفي هذا البرنامج التعليمي الذي نتحدث عنه ، كيف حصلنا على هذه القيم

09:18.930 --> 09:20.310
لتضيفها إلى واحد؟

09:20.610 --> 09:25.890
حسنًا ، مهما كانت التلافيف أو شبكاتنا العصبية بأكملها.

09:25.890 --> 09:30.630
إذاً الشبكة العصبية التلافيفية بالإضافة إلى الطبقات المتصلة بالكامل ، بغض النظر

09:30.630 --> 09:33.810
عن القيم التي تبث ، قمنا بتطبيق دالة max soft هنا.

09:33.810 --> 09:37.560
وهنا نقدم صيغة دالة soft max.

09:37.560 --> 09:38.640
هذا ما يبدو عليه.

09:38.640 --> 09:40.140
ثم حصلنا على هذه القيم.

09:40.320 --> 09:43.380
وهذا في الأساس تجديد سريع للمعلومات.

09:43.380 --> 09:45.810
هذه هي الصيغة الخاصة بـ soft max.

09:45.810 --> 09:49.440
ما يفعله هو أنه يأخذ العديد من النواتج لديك.

09:49.470 --> 09:50.370
لا يهم.

09:50.820 --> 09:58.380
سيستغرق الأمر منهم وسوف يسحقهم جميعًا في قيم بين صفر وواحد ، بغض النظر عن حجمهم.

09:58.380 --> 09:58.890
فقط.

09:59.290 --> 10:02.500
بالنظر إلى هذا بالنسبة لي ، يمكنك أن ترى أن هناك مجموعًا إجماليًا في الأسفل.

10:02.500 --> 10:04.780
إذن هذه القيم ستكون صفرًا بين صفر وواحد.

10:04.780 --> 10:08.170
وأيضًا ستجمع كل هذه القيم حتى قيمة واحدة دائمًا.

10:08.440 --> 10:16.720
وهذا مفيد جدًا بالنسبة لنا لأنه عندما نستخدم وظيفة soft max ، ما يحدث هو أننا

10:16.720 --> 10:21.340
نحصل على قيم Q هذه ، ونختار أفضل قيمة.

10:21.340 --> 10:26.650
لكن في الواقع ، ما يحدث هي قيم Q التي نحصل عليها ، إنها أرقام فعلية ، أليس كذلك؟

10:26.650 --> 10:28.510
لذا فهم نوع من الأرقام.

10:28.840 --> 10:32.560
لا يتعين عليهم الجمع حتى واحد ولا يجب أن يكونوا بين صفر وواحد ، فقط بعض الأرقام.

10:32.980 --> 10:36.040
ولكن عندما نطبق soft max ، فإننا لا نختار الأفضل فقط.

10:36.040 --> 10:38.140
في الواقع نحصل على أرقام من هذا القبيل.

10:38.140 --> 10:44.230
إذن ، نحصل على أرقام في النطاق بين صفر وواحد وهذا أيضًا يساوي واحدًا.

10:44.230 --> 10:47.140
إذن ما الشيء الآخر الذي نعرفه والذي يضيف إلى واحد؟

10:47.140 --> 10:50.110
حسنًا ، نحن نعلم أن الاحتمالات يجب أن يكون مجموعها واحدًا.

10:50.110 --> 10:56.560
لهذا السبب يمكننا أن نقول هنا أن لدينا قيم Q ، ولكن هنا فجأة أصبحنا ضعيفين أو لدينا

10:56.560 --> 10:57.910
احتمالات.

10:57.910 --> 11:02.620
لذلك يمكننا القول أن احتمالية أن يكون هذا هو الإجراء الأفضل هو 90٪.

11:02.620 --> 11:05.770
هذا هو الأفضل في أفضل قسم ، 5٪ ، 2٪ ، 3٪.

11:05.770 --> 11:09.220
لأننا نعلم أنه كلما زادت قيمة Q ، كان الإجراء أفضل.

11:09.220 --> 11:14.710
وبالتالي إذا قمنا بدفعها إلى 0 إلى 1 ، فإن هذه تصبح احتمالات ويمكننا التعامل معها على هذا النحو.

11:14.920 --> 11:20.200
وبالتالي الآن عندما يتم تحديد الإجراء.

11:20.200 --> 11:22.570
وهذه هي الطريقة التي توصلنا بها إلى السؤال الثاني.

11:22.630 --> 11:28.280
ولكن إذا نظرت إليها عن كثب ، فهذه ليست صارمة بنسبة 100٪ وهي ليست 0٪.

11:28.300 --> 11:30.550
إذن هذه 5٪ ، 2٪ ، 3٪.

11:30.550 --> 11:41.230
لذا فإن الطريقة الأكثر طبيعية لتطبيق soft max من أجل الحفاظ على الاستكشاف في الخوارزمية هي استخدام هذه

11:41.230 --> 11:48.520
الاحتمالات الدقيقة مثل عدد المرات التي سنتخذ فيها هذا الإجراء.

11:48.520 --> 11:54.400
إذن فهذه الاحتمالات تمثل في الواقع توزيع هذه الإجراءات التي نتخذها.

11:54.400 --> 12:01.660
لذا فإن Soft Max يجعل من السهل جدًا علينا التوصل إلى طريقة للجمع بين الاستغلال والاستكشاف.

12:01.660 --> 12:06.490
لذا فإن أفضل إجراء سيكون له دائمًا أعلى احتمالية لأنه يحتوي على أعلى قيمة Q.

12:06.490 --> 12:10.720
وبالتالي ، سنقوم هنا فقط باستخدام هذه كتوزيعاتنا وسنقول

12:10.720 --> 12:16.030
، حسنًا ، سنأخذ Q إلى 90٪ من الوقت ، ولكن 5٪ من الوقت الذي ما زلنا نأخذه.

12:16.030 --> 12:20.380
س 1 و 2٪ من الوقت سنفعل ثلاثة ، و 3٪ من الوقت الذي سنستغرقه.

12:20.380 --> 12:20.950
س أربعة.

12:21.220 --> 12:27.040
والجمال هنا أيضًا هو أنه مع تحديث هذه القيم ، بينما يمر الوكيل

12:27.040 --> 12:35.140
عبر الشبكة ، أكثر فأكثر ، يصبح أكثر دراية بالبيئة وبالتالي هذه التحديثات.

12:35.140 --> 12:41.200
لذلك ، قد تصبح هذه القيمة ، على سبيل المثال ، كما لو أنها قد تتأكد من أن هذه القيمة أقل بالفعل أو أن

12:41.200 --> 12:42.610
هذا في الواقع أعلى.

12:42.610 --> 12:46.840
وبالتالي فإن هذه الاحتمالات ستتغير أيضًا مع مرور العامل.

12:46.840 --> 12:52.930
لذلك ، على الرغم من أننا حصلنا على اثنين هنا ، لا أحد يقول أنه في بعض الأحيان 5٪ من الوقت ، لنكون

12:52.930 --> 12:59.290
أكثر دقة ، سنختار Q واحدًا كإجراء يجب اتخاذه وأحيانًا أو إجراء واحد سيتخذ إجراءً واحدًا في بعض

12:59.290 --> 13:05.110
الأحيان سنتخذ إجراءً من خلال إجراءين ثلاثة 2٪ من الوقت ، وسيستغرق الإجراء الرابع حوالي

13:05.110 --> 13:06.370
3٪ من الوقت.

13:06.370 --> 13:13.540
لذا فإن كل إجراء لديه فرصة للعب في هذه العملية طالما لدينا ما يكفي من التكرارات ويخوض العميل الكثير

13:13.540 --> 13:17.860
والكثير من المرات من خلال هذه الحالات التي يتواجدون فيها.

13:17.860 --> 13:23.830
وهذه هي الطريقة التي يعمل بها أي نوع من خوارزمية التعلم العميق التي تريد القيام

13:23.830 --> 13:27.100
بها مرات عديدة حتى تتعلم من التجربة.

13:27.100 --> 13:33.040
وبالتالي ، كما ترون هنا ، إنه انتقال طبيعي جدًا لأننا لسنا عشوائياً مثل خوارزمية إبسيلون

13:33.040 --> 13:34.120
الجشعة.

13:34.120 --> 13:37.330
نحن لا نختار الإجراءات بشكل عشوائي.

13:37.330 --> 13:43.990
نحن نختارها بناءً على قيمها القصوى الناعمة ، مما يجعلها تبدو وكأن لها بعض المنطق وراءها ،

13:43.990 --> 13:45.730
وليس فقط بشكل عشوائي.

13:45.730 --> 13:49.930
10٪ من الوقت نختار إجراءً عشوائيًا ، ولكن هناك بعض المنطق وراء كيفية قيامنا بذلك.

13:49.930 --> 13:52.690
واستنادًا إلى قيم Q الخاصة بهم التي اكتشفناها.

13:53.020 --> 13:58.540
وهذه هي سياسة اختيار الإجراء التي سنستخدمها في هذه الدورة التدريبية.

13:58.540 --> 14:04.180
مرحبًا بك بالتأكيد للتحقق من سياسة Epsilon Greedy Action Selection ، إذا كنت ترغب في

14:04.180 --> 14:08.470
ذلك ، لكننا سنستخدم في الغالب سياسة اختيار الإجراء soft max.

14:08.470 --> 14:11.320
ولدي قراءة ممتعة لك.

14:11.320 --> 14:17.350
لذلك يسمى هذا الاستكشاف المتكيف Epsilon Greedy في التعلم المعزز على أساس الاختلافات في القيمة.

14:17.350 --> 14:18.700
إنها مقالة عام 2010.

14:18.700 --> 14:24.010
وهذا مثير للاهتمام لأن مايك وميشيل لست متأكدًا من كيفية نطقه.

14:24.010 --> 14:31.450
يقدم ميشيل ومايكل يتحدث نوعًا مختلفًا من الخوارزمية ، لذلك تم تعديل خوارزمية

14:31.450 --> 14:38.950
إبسيلون الجشعة وتسمى خوارزمية VD VB أو خوارزمية إبسيلون الجشعة VB.

14:38.950 --> 14:39.880
يمكنك رؤيتها هنا.

14:40.270 --> 14:44.080
وهو في الواقع يقارنه بمكونات EPS الخاصة بـ Max.

14:44.080 --> 14:53.140
وهي خوارزمية إبسيلون جشعة ، والفكرة الرئيسية وراءها هي تعديل قيمة إبسيلون اعتمادًا على

14:53.140 --> 14:56.470
الحالة التي يوجد فيها الوكيل.

14:56.470 --> 14:58.830
لذلك إذا كان الوكيل قلقًا جدًا بشأن هذا الأمر.

14:59.000 --> 15:02.630
يجب أن تكون ثمانية هناك في إبسيلون أصغر ، لذلك يجب أن يكون هناك استكشاف أقل.

15:02.630 --> 15:06.110
إذا كان العامل غير مؤكد ، يجب أن يكون إبسيلون أعلى ، يجب أن يكون الاستكشاف أكثر.

15:06.110 --> 15:08.120
لذلك فهو مقال عام 2010.

15:09.020 --> 15:17.900
لست متأكدًا مما إذا كانت هذه الخوارزمية المقترحة الجديدة مستخدمة على نطاق واسع أو أنها مقبولة في المجتمع

15:17.900 --> 15:23.030
، أو إذا كان الذكاء الاصطناعي قد ابتعد عن هذا الاقتراح.

15:23.030 --> 15:30.020
ولكن مع ذلك ، سيساعدك هذا بالتأكيد على تعزيز معرفتك بسياسات اختيار الإجراءات التي ناقشناها.

15:30.020 --> 15:32.090
سيساعدك مكون إبسيلون ، سوفت ماكس.

15:32.090 --> 15:36.200
ستمنحك فرصة لمقارنتها جنبًا إلى جنب ومعرفة الاتجاه الذي يفكر فيه الناس

15:36.200 --> 15:39.230
بالفعل عندما يريدون تحسين الذكاء الاصطناعي.

15:39.230 --> 15:47.360
لذلك ، إذا كنت تخطط لإنشاء خوارزميات مثيرة للاهتمام حقًا تدفع إلى حافة الذكاء الاصطناعي وتدفع الظرف

15:47.360 --> 15:54.560
في هذا الفضاء ، فقد تكون هذه طريقة جيدة لمعرفة الاتجاه الذي يفكر فيه الناس أحيانًا عندما

15:54.560 --> 16:01.250
يحاولون لتحسين معايير الذكاء الاصطناعي أو المعايير التي كانت موجودة في ذلك الوقت

16:01.250 --> 16:03.470
في عام 2010.

16:03.800 --> 16:04.670
لذا ها نحن ذا.

16:04.700 --> 16:09.860
نأمل أن تكون قد استمتعت بالبرنامج التعليمي اليوم حول سياسات اختيار الإجراء.

16:10.040 --> 16:15.890
لقد تعلمنا عن Epsilon Greedy و Epsilon Soft و soft max ، والآن أنت أكثر استعدادًا

16:15.890 --> 16:18.050
للجانب العملي للأشياء.

16:18.050 --> 16:20.720
وفي هذه الملاحظة ، أتطلع إلى رؤيتك في المرة القادمة.

16:20.720 --> 16:22.130
وحتى ذلك الحين ، استمتع.

16:22.130 --> 16:22.670
أنا.