WEBVTT

00:00.700 --> 00:04.350
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:04.360 --> 00:09.460
أتمنى أن تكون متحمسًا بشأن البرنامج التعليمي اليوم لأننا نتخذ خطوة أولى في عالم

00:09.460 --> 00:13.120
الذكاء الاصطناعي واليوم نتحدث عن التعلم المعزز.

00:13.120 --> 00:17.650
إنه برنامج تعليمي مهم للغاية لأنه سيعزز كل شيء آخر سيحدث في هذه

00:17.650 --> 00:18.340
الدورة.

00:18.610 --> 00:20.950
لذلك دعونا نبدأ هنا.

00:20.950 --> 00:27.100
لدينا متاهة صغيرة وهذه المتاهة هي تمثيلنا للبيئة وهذا ما سنتعامل معه في

00:27.100 --> 00:29.140
هذه الدورة التدريبية.

00:29.140 --> 00:35.080
سوف نتعامل مع بيئات معينة يعمل فيها ذكاءنا الاصطناعي.

00:35.080 --> 00:36.790
ستتخذ إجراءات.

00:36.790 --> 00:41.770
سيتطلع إلى التغلب على هذه البيئات ، وسيتطلع إلى الفوز في هذه البيئات.

00:42.100 --> 00:44.140
وهنا لدينا وكيل.

00:44.140 --> 00:46.930
الوكيل هو ذكاءنا الاصطناعي.

00:46.930 --> 00:52.900
هذا هو الشخص أو هذا هو العقل الذي سيتنقل في هذه البيئات ويتعلم من الملاحظات

00:52.900 --> 00:56.860
التي ستعطيها عقولهم من أجل أداء إجراءات معينة.

00:56.860 --> 01:03.520
وبالتالي فإن الطريقة التي تعمل بها هي أن يقوم الوكيل بتنفيذ إجراءات معينة في هذه البيئة ، ونتيجة لذلك

01:03.520 --> 01:06.160
، ستتغير الحالة التي يتواجد فيها.

01:06.160 --> 01:10.000
لذلك قد يكون أبعد أو أقرب أو أكثر إلى اليسار ، أو أكثر إلى اليمين.

01:10.000 --> 01:15.070
قد تحتوي على معلمات أخرى معينة تصف حالتها ، وستتغير تلك المعلمات.

01:15.070 --> 01:20.920
لذا ستتغير الحالة بسبب الإجراء الذي ستتخذه ، وستحصل أيضًا على مكافآت بناءً على الإجراء.

01:20.930 --> 01:24.670
لذلك في كل مرة تتخذ فيها إجراءً ، ستتغير الدولة وستحصل على مكافأة.

01:24.670 --> 01:29.050
الآن ، ضع في اعتبارك أنه في بعض الأحيان قد يحدث أنه لن يغير الحالة ، ولن يغير

01:29.050 --> 01:33.970
الإجراء الحالة ، أو لن تكون هناك مكافأة لاتخاذ هذا الإجراء في تلك الحالة المعينة.

01:33.970 --> 01:34.380
لم يكن كذلك.

01:34.450 --> 01:38.020
ولكن مع ذلك ، فإن الوكيل سوف يستمر في فعل ذلك ، وسوف يتخذ الإجراءات ، ويغير الحالة

01:38.020 --> 01:42.400
، ويحصل على المكافآت ، ويغير الإجراءات ، ويتخذ الإجراءات ، ويغير الحالة ويحصل على المكافآت.

01:42.580 --> 01:47.200
ومن خلال القيام بهذه العملية ، سيكون الأمر بمثابة التعرف على البيئة التي ستستكشف

01:47.200 --> 01:53.050
البيئة ، وفهم الإجراءات التي تؤدي إلى مكافآت جيدة وحالات مواتية ، وما هي الإجراءات التي تؤدي إلى مكافآت

01:53.050 --> 01:55.180
سيئة وحالات غير مواتية.

01:55.750 --> 01:59.590
وهذا تمثيل مبسط للغاية لمشكلة عالمية للغاية.

01:59.590 --> 02:04.330
لذا إذا فكرت في الأمر ، لا يجب أن تكون البيئات في الواقع مجرد متاهات.

02:04.330 --> 02:08.350
لا يتعلق الأمر فقط بالخروج من متاهة أو العثور على كنز في متاهة.

02:08.980 --> 02:11.680
يمكن أن تكون البيئة أي شيء إلى حد كبير في الحياة.

02:11.680 --> 02:15.100
لذا تخيل أنك تستيقظ في الصباح وتطبخ عجة.

02:15.100 --> 02:19.750
لذلك من أجل صنع العجة ، عليك أن تمر ببعض الخطوات.

02:19.750 --> 02:25.060
تحتاج إلى الحصول على الملح ، والحصول على البيض ، والحصول على المقلاة ، وإشعال النار وما إلى ذلك.

02:25.060 --> 02:29.200
وهذا يبدو وكأنه شيء روتيني عادي ، لكنه أصبح روتينيًا لأنك قمت به مرات

02:29.200 --> 02:29.740
عديدة.

02:29.740 --> 02:34.390
لكن في الواقع ، إنها بيئة تؤدي فيها بعض الإجراءات التي تقوم بها ، أو

02:34.390 --> 02:37.310
تشعل النار ، أو تضع المقلاة على النار.

02:37.310 --> 02:41.710
هل تضع كل البيض في المقلاة وتضع بعض الملح على البيض وأنت

02:41.710 --> 02:42.940
تقلبه وهكذا.

02:42.940 --> 02:49.510
فكما ترى ، هناك بعض الإجراءات والإجراءات التي يتم اتخاذها في حالات معينة ، وتلك الإجراءات تؤدي

02:49.510 --> 02:52.390
إلى حالات أخرى معينة وأحيانًا مكافآت.

02:52.390 --> 02:56.860
على سبيل المثال ، عندما تشعل النار وتنتظر ، انتظر ، انتظر ، انتظر ، انتظر ، أنت تقوم بعمل الانتظار ،

02:56.860 --> 02:58.960
الانتظار ، الانتظار ، الانتظار لفترة طويلة.

02:58.960 --> 03:01.750
ثم تضع البيض في المقلاة.

03:01.780 --> 03:03.490
ستكون المكافآت سلبية للغاية.

03:03.490 --> 03:04.540
سوف تحترق.

03:04.960 --> 03:08.920
من ناحية أخرى ، إذا قمت بكل الإجراءات الصحيحة في الأوقات الصحيحة.

03:08.920 --> 03:13.780
لذلك من المهم أيضًا أن نفهم أنه يجب اتخاذ الإجراءات في النقاط الصحيحة في الوقت المناسب.

03:13.780 --> 03:20.020
لذلك ، على سبيل المثال ، قد لا يكون وضع الملح في المقلاة قبل وضع البيض فيها هو أفضل

03:20.020 --> 03:20.590
فكرة.

03:20.590 --> 03:26.140
قد ترغب في اتخاذ هذا الإجراء بوضع الملح في المقلاة بعد وضع البيض هناك.

03:26.140 --> 03:28.150
حتى في دولة مختلفة.

03:28.150 --> 03:29.500
لذلك من المهم تذكر ذلك.

03:29.500 --> 03:33.550
وفي الوقت نفسه ، إذا اتخذت جميع الإجراءات الصحيحة بالترتيب الصحيح ، في

03:33.550 --> 03:38.230
الحالات الصحيحة ، فقد تكون مكافأتك النهائية هي الحصول على عجة ، يمكنك تناولها.

03:38.830 --> 03:41.950
وهذا نشاط أساسي جدًا في حياتك.

03:41.950 --> 03:47.800
ولكن إذا فكرت في الأمر ، فهي في الواقع بيئة وأنت الوكيل الذي يمر بهذه البيئة ويؤدي

03:47.800 --> 03:48.750
مهمة.

03:48.760 --> 03:52.060
لا تحتاج حقًا إلى تعلم أي شيء لأنك تعرفه جيدًا بالفعل.

03:52.060 --> 03:55.990
لكن في نفس الوقت يمكنك أن تتعلم ، ربما يمكنك أن تتعلم كيف تصنع عجة أفضل ، أو خاصة إذا

03:55.990 --> 03:58.900
كنت أنت أول عجة تقوم بتحضيرها ، فمن المحتمل أنك ستفشلها.

03:58.900 --> 04:04.090
لكنك ستتعلم من ذلك لأنك ستفهم ما هي الإجراءات التي تؤدي إلى الدول والمكافآت

04:04.240 --> 04:05.770
وأي شيء آخر في الحياة.

04:05.890 --> 04:11.830
على سبيل المثال ، حتى التداول في سوق الأسهم والشراء والبيع والحصول على ملاحظات

04:11.830 --> 04:16.300
معينة من السوق بمعنى إرجاع عوائد إيجابية أو سلبية.

04:16.300 --> 04:20.020
هذه أيضًا بيئة وأنت تشارك في تلك البيئة كوكيل.

04:20.020 --> 04:25.030
قيادة السيارة هي أيضًا بيئة يمكنك من خلالها تدوير عجلة القيادة ، ويمكنك التسريع ، والكسر

04:25.030 --> 04:27.700
وما إلى ذلك ، وتحصل على ردود فعل من البيئة.

04:27.700 --> 04:34.600
وأحد هذه التعليقات هو أن الشرطي يعطيك غرامة إذا تجاوزت الحد الأقصى المسموح به أو المسموح به للسرعة

04:34.600 --> 04:36.820
على هذا الطريق السريع.

04:36.820 --> 04:41.830
وبالتالي من هناك تعلم أن هذا ليس شيئًا يجب القيام به لأنه يؤدي إلى

04:41.830 --> 04:42.970
مكافأة سلبية.

04:42.970 --> 04:45.520
لذلك لا يجب أن تكون المكافآت في نهاية العملية فقط.

04:45.520 --> 04:47.740
يمكن أن يكونوا طوال الرحلة ، طوال العملية.

04:47.740 --> 04:49.420
هذه بعض الأمثلة.

04:49.420 --> 04:54.670
ومن وجهة نظري ، فإن أبسط طريقة للتفكير في التعلم المعزز هي مثل تدريب الكلب.

04:54.670 --> 04:58.120
عندما تقوم بتدريب كلب ، فإنك تمنحه أوامر معينة.

04:58.120 --> 05:00.220
وإذا امتثلت لتلك الأوامر ، فأنت تعطيها.

05:00.600 --> 05:02.260
أنت تعطيه مثل البسكويت أو شيء من هذا القبيل.

05:02.260 --> 05:06.510
إذا لم يطيع هذه الأوامر ، فأنت تخبره أنه كلب سيء أو أنك لا تعطيه مكافأة.

05:06.520 --> 05:13.570
ومن خلال هذه العملية ، يتعلم ما هي الأوامر المعينة أو ما الذي يتعين عليه القيام به ، وما الإجراء الذي يتعين عليه اتخاذه

05:13.570 --> 05:14.890
في حالات معينة.

05:14.890 --> 05:18.310
والحالات هي الأوامر التي تعطيها إياها.

05:18.310 --> 05:21.100
وبناءً على ذلك ، ستحصل على مكافآت معينة.

05:21.400 --> 05:24.520
بالطبع ، في عالم الذكاء الاصطناعي ، ليس الأمر بهذا التعقيد.

05:24.520 --> 05:26.860
لست مضطرًا لإعطاء مكافآت الذكاء الاصطناعي.

05:26.860 --> 05:29.620
ليس عليك أن يكون معك كيس من البسكويت في كل مرة.

05:29.980 --> 05:32.170
أنت فقط تعطيه زائد واحد أو ناقص واحد.

05:32.170 --> 05:37.210
لذلك فهي ميزة كبيرة أنه في عالم الذكاء الاصطناعي أنشأنا أنظمة AIS بأنفسنا.

05:37.210 --> 05:41.320
لذا فإن المكافآت التي نقدمها لهم ، إذا فكرت في الأمر ، فهذا رائع حقًا.

05:41.530 --> 05:43.450
المكافآت التي تمنحها لهم ، فهي غير موجودة بالفعل.

05:43.450 --> 05:48.430
إنها مجرد علامة زائد أو ناقص واحد أو واحد أو صفر أو شيء من هذا القبيل.

05:48.430 --> 05:52.990
لذلك كل شيء غير موجود ، كل الأشياء الخيالية ، ولكن في نفس الوقت تؤدي إلى نتائج رائعة.

05:53.110 --> 05:58.990
يمكننا إنشاء هذه الأشياء المدهشة ، تلك الذكاءات الاصطناعية المذهلة من خلال هذا الذكاء الاصطناعي المذهل

05:58.990 --> 06:02.740
، فقط من خلال تقديم مكافآت غير موجودة بالفعل زائد وناقص واحد.

06:02.770 --> 06:03.700
لا يكلفنا أي شيء.

06:03.700 --> 06:09.700
ولكن في الوقت نفسه ، فإن هذه النتائج تشبه إلى حد بعيد العالم الحقيقي ونموذج الكلاب هذا.

06:09.700 --> 06:14.650
لكن المكافآت هنا رقمية وعادلة.

06:14.890 --> 06:18.730
ومع أخذ ذلك في الاعتبار ، يمكننا التحدث قليلاً عن الكلاب الآلية.

06:18.730 --> 06:19.420
أنا أحب هذا المثال.

06:19.420 --> 06:21.250
إذن هذه مجرد صورة عشوائية.

06:21.250 --> 06:27.310
ليس بالضرورة أن يتم تدريب الكلب الآلي الدقيق من خلال التعلم المعزز ، وبعض الكلاب الآلية ، وخاصة

06:27.310 --> 06:28.870
الكلاب الأكبر سنًا.

06:28.870 --> 06:30.850
سيكون لديك خوارزمية هناك.

06:31.180 --> 06:39.820
وهذا في الواقع مثال جيد على الاختلاف بين العوامل المبرمجة مسبقًا وعوامل التعلم المعزز.

06:39.820 --> 06:45.100
لذلك يمكن أن يكون لديك كلب آلي مبرمج مسبقًا لكيفية المشي.

06:45.130 --> 06:49.030
سيقول ذلك في الخوارزمية خلف الكلب في البرنامج ، دعنا نقول.

06:49.030 --> 06:49.200
تمام.

06:49.240 --> 06:56.230
لذلك من أجل المشي ، تحتاج إلى تحريك رجلك اليسرى إلى الأمام ، ثم رجلك اليسرى إلى الأمام ، ثم رجلك الخلفية اليمنى للأمام ، ثم قدمك الأمامية

06:56.230 --> 07:00.700
، ثم رجلك اليمنى إلى الأمام ، ثم ظهرك ، ورجلك اليسرى للأمام وتكرار هذا الإجراء.

07:00.700 --> 07:04.720
وهذا تعريف للمشي هو وظيفة داخل هذا الكلب.

07:05.120 --> 07:08.830
ثم قد يكون لديه كيفية الجلوس ، وكيفية الوقوف وأشياء من هذا القبيل.

07:09.460 --> 07:16.570
بينما في الكلب الآلي الذي يتم تدريبه من خلال التعلم المعزز ، ما يحدث هو أنك لا تقوم ببرمجته مسبقًا.

07:16.570 --> 07:23.740
هذا هو المفهوم الأساسي لكل شيء هنا أنه ليس لديك أي خوارزمية بداخله والتي تم تشفيرها بشكل ثابت

07:23.740 --> 07:24.670
في الكلب.

07:24.670 --> 07:28.240
بدلاً من ذلك ، لديك ما سنناقشه في المستقبل.

07:28.240 --> 07:36.160
لديك خوارزمية التعلم المعزز هذه ، والتي تُقال ، حسنًا ، لذلك الهدف هو الانتقال من مكانك الحالي

07:36.160 --> 07:41.860
، وعدم معرفة أي شيء عن ذلك إلى نهاية الغرفة ، على سبيل المثال.

07:41.860 --> 07:44.170
وإليك بعض الإجراءات التي يمكنك اتخاذها.

07:44.170 --> 07:47.920
يمكنك تحريك قدمك اليمنى ، يمكنك تحريك قدمك اليسرى ، يمكنك تحريك قدمك الخلفية اليمنى ،

07:48.130 --> 07:49.300
أو قدمك اليمنى أو اليسرى.

07:49.300 --> 07:51.220
إذن هذه هي جميع درجات الحرية التي يمكنك القيام بها.

07:51.220 --> 07:52.390
يمكنك تحريكهم هكذا.

07:52.390 --> 07:53.050
يمكنك حقا مثل ذلك.

07:53.050 --> 07:59.230
لذلك مثل قائمة الإجراءات التي يمكنك اتخاذها والمكافآت الخاصة بك في كل مرة تخطو فيها خطوة إلى الأمام ، تحصل

07:59.230 --> 08:00.160
على زائد واحد.

08:00.160 --> 08:03.970
في كل مرة تسقط فيها ، تحصل على ناقص وهذا كل ما في الأمر.

08:03.970 --> 08:07.180
وبعد ذلك يتركون الكلب ويتركوه يكتشفه من تلقاء نفسه.

08:07.180 --> 08:13.390
لذلك يحاول الكلب الوقوف ، ويسقط ، ويدرك أنه لا ينبغي أن أقوم بهذا الفعل الذي أدى إلى سقوطي لأنني في كل مرة أسقط

08:13.390 --> 08:17.590
، أحصل على ناقص واحد ، وهو أمر غير جيد بالنسبة لي ، وكذلك يفعل الآخر العمل الذي

08:17.590 --> 08:18.940
ساعده على الوقوف.

08:18.940 --> 08:23.470
وبعد ذلك يكتشف أنه مجرد تجارب وتجارب وتجارب ، ويحاول الأشياء بشكل عشوائي ، ثم

08:23.470 --> 08:29.290
يكتشف أنه يمكن أن يخطو خطوة للأمام بتحريك قدمه الأمامية اليمنى ويحصل على علامة زائد واحد ويدرك ،

08:29.290 --> 08:31.330
أوه ، يجب أن أفعل المزيد من ذلك.

08:31.330 --> 08:31.900
حسنًا ، رائع.

08:31.900 --> 08:35.530
لذلك يتعلم الآن أنه يجب أن يفعل المزيد من هذا وأقل من ذلك.

08:35.530 --> 08:42.160
ومن خلال عملية التعلم هذه ، فإنها تفهم بسرعة كبيرة كيف يمكنها المشي.

08:42.160 --> 08:49.060
ويمكن لتلك الكلاب التي تكتشف ذلك بمفردها أن تمشي في بعض الأحيان بشكل أفضل من الكلاب المبرمجة

08:49.060 --> 08:49.810
مسبقًا.

08:49.810 --> 08:55.120
لأنه عندما نقوم ببرمجة الأشياء مسبقًا ، فإننا ننظر إلى الكلاب الحية الحقيقية و / أو نستخدم خيالنا الخاص في كيفية القيام

08:55.120 --> 08:55.630
بذلك.

08:55.630 --> 09:02.170
في حين أن كلب التعلم المعزز يمكنه تحسين الأشياء من تلقاء نفسه ولأنه ذكاء اصطناعي ، فإنه في بعض الأحيان يمكنه الحصول

09:02.170 --> 09:03.400
على نتائج أفضل.

09:03.400 --> 09:07.150
وبهذه الطريقة يمكنهم تدريب هذه الروبوتات نفس الكلاب الآلية على لعب كرة القدم.

09:07.270 --> 09:12.910
لا يمكنك تدريب كلب عادي على اللعب في كرة القدم لأن الطريقة برمتها مختلفة.

09:12.910 --> 09:21.340
وهو ليس شيئًا ربما يكون كلبًا عاديًا قد تم تدريبه على القيام به أو قام به في عملية

09:21.520 --> 09:22.750
تطوره.

09:22.750 --> 09:28.090
في حين أن كلاب روبوت التعلم المعززة يمكنها بسهولة فهم كيفية لعب كرة القدم طالما أنك تخبرهم ما

09:28.090 --> 09:32.560
هي المكافآت ، وما هي الأهداف ، وما هي الإجراءات الممكنة التي يمكنهم اتخاذها.

09:32.830 --> 09:36.880
هذه هي الطريقة التي يعمل بها التعلم المعزز بشكل عام.

09:36.880 --> 09:39.070
هذه نظرة عامة سريعة على التعلم المعزز.

09:39.070 --> 09:44.560
آمل أن يكون هذا قد جعلك متحمسًا جدًا لما سيحدث بعد ذلك لأنه عالم مختلف تمامًا مقارنة بالحلول

09:44.560 --> 09:50.800
المبرمجة مسبقًا أو البرامج الثابتة ، والحلول المشفرة حيث تتوفر لديك الشروط ، إذا كانت هناك ظروف

09:50.800 --> 09:51.880
أخرى.

09:51.880 --> 09:55.900
هذا مختلف للغاية وسوف نتحدث أكثر عن ذلك.

09:55.900 --> 09:59.140
في غضون ذلك ، لدينا بعض القراءة الإضافية لك.

09:59.140 --> 09:59.710
لذا.

09:59.940 --> 10:06.760
إذا كنت ترغب في الحصول على بعض المواد الداعمة ، فإليك مقالة رائعة يمكنك الاطلاع عليها والاطلاع عليها.

10:06.780 --> 10:09.180
إنه يسمى التعلم المعزز البسيط باستخدام TensorFlow.

10:09.210 --> 10:10.500
يتكون من عشرة أجزاء.

10:10.500 --> 10:15.660
الرابط موجود هنا وستجد الرابط الكامل القابل للنقر عليه في الدورة التدريبية.

10:15.660 --> 10:17.750
الموارد بواسطة آرثر جولياني.

10:17.760 --> 10:24.660
إنها مقالة لعام 2016 ويمكنك متابعة هذه الدورة والحصول أيضًا على معلومات إضافية من تلك المقالة.

10:24.660 --> 10:29.640
لكن ضع في اعتبارك أن هذه المقالة مع TensorFlow ، بينما في هذه الدورة التدريبية

10:29.640 --> 10:33.150
نستخدم PyTorch ، لذلك تطبيق مختلف ولكن تطبيقات.

10:33.150 --> 10:39.840
لكن في الوقت نفسه ، قد تلتقط بعض الأشياء هنا وهناك والتي قد تكمل تعلمك الذي سنفعله في هذه الدورة

10:39.870 --> 10:41.190
التدريبية.

10:41.190 --> 10:44.700
تتبع مقالات رائعة ، حتى لو كنت لا تفكر في متابعتها بالتأكيد.

10:44.700 --> 10:49.860
ما زلت تحسبًا فقط ، تحقق من ذلك الجزء الأول ومعرفة ما إذا كنت ترغب في ذلك ، ومعرفة ما إذا كنت

10:49.860 --> 10:51.750
ترغب في قراءته أكثر قليلاً.

10:51.900 --> 10:56.580
وبعد ذلك لدينا محدد لهذا البرنامج التعليمي حول التعلم المعزز.

10:56.580 --> 11:02.370
هناك ورقة بقلم ريتشارد ساتون ، بعنوان Reinforcement Learning One Introduction.

11:02.370 --> 11:04.590
إنها ورقة عام 1998 ، قديمة جدًا.

11:04.680 --> 11:08.850
ولكن في نفس الوقت ، يمكنك أن تتعلم القليل عن التعلم المعزز.

11:09.090 --> 11:14.040
بعض الأمثلة مثل مثال العجة وأمثلة أخرى حيث يمكن تطبيق التعلم

11:14.040 --> 11:14.880
المعزز.

11:14.880 --> 11:20.520
ومجرد نظرة عامة على التعلم المعزز إذا كنت تبحث عن بعض القراءة الإضافية.

11:20.520 --> 11:23.130
وفي هذه الملاحظة ، سنختتم هذا البرنامج التعليمي.

11:23.130 --> 11:24.570
لا استطيع الانتظار لرؤيتك في المرة القادمة.

11:24.570 --> 11:26.100
وحتى ذلك الحين ، استمتع.

11:26.100 --> 11:26.670
أنا.