WEBVTT

00:00.510 --> 00:03.280
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.300 --> 00:08.640
في البرنامج التعليمي اليوم ، سنغطي برنامجًا تعليميًا معقدًا يسمى تتبع

00:08.640 --> 00:10.440
الأهلية أو تعلم خطوة Q.

00:10.440 --> 00:14.490
وهذا شيء سنقوم بتنفيذه في الجانب العملي للأشياء.

00:14.490 --> 00:15.870
لهذا السبب نحتاج إلى تغطيته.

00:15.870 --> 00:18.390
وهو في نفس الوقت موضوع معقد للغاية.

00:18.390 --> 00:24.840
لذلك لدي طريقة مثيرة للاهتمام لجعلنا نصل إلى السرعة مع الحدس الكامن وراءه.

00:24.840 --> 00:28.230
لذلك أحب أسلوبًا مختلفًا في ذهني عما اعتدنا عليه.

00:28.230 --> 00:30.480
لذلك دعونا نلقي نظرة على ذلك ونرى كيف ستسير الامور.

00:30.480 --> 00:33.950
لذا سأقدم لكم مثالاً لتبدأ به.

00:34.140 --> 00:39.720
سأعطيكم مثالاً في هذا البرنامج التعليمي ، والذي سيوضح قوة اختيار الأهلية ويعطينا

00:39.720 --> 00:42.240
الحدس الكامن وراء الأشياء.

00:42.240 --> 00:47.700
وبعد ذلك ، إذا كنت ترغب في التعمق أكثر في سمات الأهلية ، فسأعطيك أفضل مكان يمكنك أن

00:47.700 --> 00:48.750
تقرأ فيه عنه.

00:49.230 --> 00:52.440
سأعطيك إشارة إلى كتاب ، لكن بخلاف ذلك.

00:52.440 --> 00:54.690
إذن لماذا سيكون هذا مختلفًا لأننا نبدأ به أولاً.

00:54.990 --> 00:59.610
بدلاً من الخوض في الحدس ، سنلقي نظرة على مثال وسيصبح الحدس واضحًا

00:59.610 --> 01:01.530
بعد أن نتحدث عنه.

01:01.530 --> 01:03.090
وهذه هي آمالي في هذا البرنامج التعليمي.

01:03.090 --> 01:03.780
لذلك دعونا نلقي نظرة.

01:03.780 --> 01:05.760
دعنا نرى ، دعنا نرى ما إذا كان بإمكاننا القيام بذلك.

01:05.760 --> 01:13.570
إذن لدينا هنا عميلين وهما يتنقلان في نفس البيئة وسنرى كيف يعمل هذان العاملان.

01:13.680 --> 01:16.020
أول واحد سوف يعمل مع أدراج الأهلية الخاصة بنا.

01:16.030 --> 01:22.170
الثاني سوف يعمل مع تتبع الأهلية ونأمل أن نرى لماذا سيكون الثاني

01:22.170 --> 01:24.360
أقوى بكثير من الأول.

01:24.360 --> 01:26.040
لذلك دعونا نلقي نظرة.

01:26.070 --> 01:27.900
سننظر إلى هذا الوكيل أولاً.

01:27.990 --> 01:33.900
والطريقة التي يعمل بها هي بالضبط الطريقة التي ناقشنا بها التعلم العميق حتى الآن.

01:34.320 --> 01:40.110
لذا فإن الوكيل سوف يتخذ خطوة أو سينتقل ، يتخذ إجراء ، ينتقل إلى حالة جديدة.

01:40.110 --> 01:41.610
سوف تحصل على مكافأة معينة.

01:41.610 --> 01:47.280
ستضع تلك المكافأة من خلال الخوارزمية الخاصة بها ، وتحديث الشبكة العصبية التي تشغل

01:47.280 --> 01:50.460
هذا العامل أو التي تعمل في ذهن هذا الوكيل.

01:50.460 --> 01:54.810
إذن هذه هي الطريقة الأساسية للتعلم من البيئة التي ستتخذ خطوة جديدة.

01:54.810 --> 01:59.400
لذا من هذه الحالة الجديدة ، ستتخذ إجراءً جديدًا بناءً على ما تخبرها شبكتها العصبية بالقيام

01:59.400 --> 02:03.630
به ، وستحصل على مكافأة ، وستقوم بالتحديث وما إلى ذلك ، وستستمر في فعل ذلك.

02:03.720 --> 02:08.910
لذلك من الواضح أن هذا الوكيل سوف يقوم بعمل جيد للغاية وكما رأينا سابقًا من دروس

02:08.910 --> 02:13.950
النتائج العملية السابقة ، سنحصل على بعض النتائج الجيدة هنا ، لكننا سنضيف الآن

02:13.950 --> 02:15.270
ميزة جديدة.

02:15.270 --> 02:22.110
الآن هذا الوكيل الثاني ، هذا الرجل هنا ، سوف يتنقل في نفس البيئة ، لكنه سيستخدم

02:22.110 --> 02:24.930
تتبع الأهلية وهذا ما يعنيه.

02:24.930 --> 02:30.120
ما سيفعله هو أنه سيتخذ أي خطوات سيتخذها في هذه الحالة ، قدم أربع خطوات.

02:30.120 --> 02:31.650
سوف يتخذ أربع خطوات.

02:31.650 --> 02:40.380
وبعد ذلك فقط بعد اتخاذ هذه الخطوات سيحصل على إجمالي المكافأة التي حصل عليها من تلك الخطوات.

02:40.380 --> 02:42.660
وسيضعها من خلال شبكته.

02:42.660 --> 02:48.360
سيضعها من خلال شبكته العصبية التي تحكم عملية صنع القرار ، ومن ثم ستتعلم الشبكة

02:48.360 --> 02:50.220
العصبية من ذلك.

02:50.520 --> 02:51.990
إذن أي واحد على الفور؟

02:51.990 --> 02:53.940
مثل أي واحد تعتقد أنه أقوى؟

02:53.940 --> 02:58.980
الرجل الذي يخطو خطوة واحدة في كل مرة ويشبه نوعًا ما بدس في الأعمى أو في الظلام.

02:58.980 --> 03:01.340
وهو مثل ، حسنًا ، سأقوم بخطوة ، لنرى ما سيحدث.

03:01.350 --> 03:02.580
سوف أتخذ خطوة ، لنرى ما سيحدث.

03:02.580 --> 03:03.900
سأقوم بخطوة ، لنرى ما سيحدث.

03:03.900 --> 03:10.800
الرجل في القمة أو الرجل الذي يسير بشجاعة كبيرة من خلال أربع خطوات متتالية ، ثم يقرر

03:10.800 --> 03:17.580
ما إذا كانت هذه خطوات جيدة أم لا تمامًا ولماذا يمكنك أن ترى هنا أو لماذا ربما تفهم

03:17.580 --> 03:22.800
سبب الثانية الرجل أفضل أو أقوى لأن الرجل الثاني يعرف بالفعل

03:22.800 --> 03:24.990
ما هو في النهاية.

03:24.990 --> 03:29.730
الرجل الأول ، عندما يقوم بتقييم ما إذا كانت هذه الخطوة جيدة أم لا ، فإنه ينظر فقط إلى المكافأة

03:29.730 --> 03:31.170
التي يحصل عليها.

03:31.170 --> 03:34.200
ولذا فهو لا يسترشد إلا بالمكافأة التي تمنحها له البيئة.

03:34.200 --> 03:35.100
نفس الشيء هنا.

03:35.100 --> 03:38.850
إنه يسترشد فقط بالمكافأة التي تمنحه إياه هذه البيئة هنا.

03:39.450 --> 03:45.570
لذلك في كل مرة يكون هذا هو نوع البوصلة الوحيد لديه ، يكون لديه المكافأة ، والمكافأة ، والمكافأة.

03:46.350 --> 03:51.720
في حين أنه هنا في الواقع يمكنه التقييم بعد اتخاذ كل هذه الخطوات ، يمكنه التقييم.

03:51.720 --> 03:52.200
حسنا.

03:52.200 --> 03:53.730
لذلك وصلت إلى خط النهاية.

03:53.730 --> 04:00.450
لذا ، كانت هذه المجموعة من الخطوات جيدة ، كلها كانت جيدة أو لا ، انتهى بي المطاف في حفرة النار

04:00.450 --> 04:07.020
أو لا ، لم أفز ، لم تصل سيارتي إلى خط النهاية أو أنا عبرت الجدار الرملي أو خسرت لعبة Doom

04:07.020 --> 04:09.180
أو شيء من هذا القبيل.

04:09.240 --> 04:15.480
ثم قرر بنفسه أن هذه المجموعة الكاملة من الخطوات سيئة ، وبالتالي بالنسبة لهذه الخطوات

04:15.480 --> 04:23.190
السابقة ، لديه المزيد من المعلومات ، لديه المزيد من الأفكار ، كما هو الحال في نهج بديهي للغاية.

04:23.190 --> 04:27.450
هذا ، مرة أخرى ، هذا موضوع أكثر تعقيدًا بكثير مما نصوره هنا ، ولكن بطريقة بديهية.

04:27.450 --> 04:32.400
على سبيل المثال ، إذا اتخذنا هذه الخطوة ، فهذه الخطوة تحتوي فقط على معلومات لك لتحديثها.

04:32.400 --> 04:34.890
لديك فقط معلومات تعود من هذه المكافأة هنا.

04:34.890 --> 04:39.690
وهذه الخطوة في هذه الحالة ، الخطوة الثانية بالضبط ، تحتوي على مزيد من المعلومات.

04:39.690 --> 04:41.670
لديها معلومات قادمة على طول الطريق.

04:41.670 --> 04:45.090
حسنًا ، ماذا كانت النتيجة بعد أربع خطوات أو خمس خطوات أو أيا كان؟

04:45.300 --> 04:45.630
نعم.

04:45.630 --> 04:51.900
هذه هي الطريقة التي يعمل بها ولماذا يسمى تتبع الأهلية لأنه خلال هذه العملية

04:51.900 --> 04:57.720
، لا ينظر فقط إلى المكافأة التراكمية لهذا ، وما يحدث ثم الخسارة التراكمية

04:57.720 --> 05:00.000
، ثم كل ذلك انتشرت هناك.

05:00.370 --> 05:03.730
لكن في الواقع هناك أثر للأهلية.

05:03.730 --> 05:05.000
لهذا السبب يسمى تتبع الأهلية.

05:05.020 --> 05:14.710
هناك أثر يتم الاحتفاظ به في الخوارزمية والذي يقول ، حسنًا ، إذا حصلنا على نقول أننا حصلنا على عقوبة ، فسنحصل

05:14.710 --> 05:20.770
على مكافأة سلبية ، ثم أي من هذه الخطوات من المرجح أن تكون مؤهلة لذلك

05:20.770 --> 05:23.010
، تلك العقوبة؟

05:23.020 --> 05:29.620
لذلك لا نعرف فقط ما هو هذا النمط بأكمله أو هذا المزيج من الخطوات بشكل عام ، ولكننا

05:29.620 --> 05:32.440
نحتفظ أيضًا بتتبع الأهلية.

05:32.440 --> 05:36.250
ما هي الخطوات التي سنقوم بتحديثها إذا حصلنا على مكافأة؟

05:36.460 --> 05:40.960
على سبيل المثال ، إذا كانت المكافأة سلبية ، فقد يكون لدينا أثر أهلية يشير

05:40.960 --> 05:47.050
إلى أن هذه الخطوة هي الأكثر مسؤولية عما حصلنا عليه في النهاية ، أو ما إذا كانت مكافأة إيجابية.

05:47.050 --> 05:51.580
مرة أخرى ، قد نعلم أن الخوارزمية تساعدنا على التعقب.

05:51.580 --> 05:58.630
تساعدنا خوارزمية تتبع الأهلية هذه على تتبع ما هي الخطوة أو الإجراء الذي يجب أن يكون

05:58.630 --> 06:03.700
مؤهلاً للتحديث بناءً على تلك المكافأة التي نحصل عليها.

06:03.720 --> 06:05.560
لهذا السبب يسمى تتبع الأهلية.

06:05.980 --> 06:08.800
وهذا هو الحدس الأساسي وراء تتبع الأهلية.

06:08.800 --> 06:16.300
ونأمل أن يكون هذان المثالان لهذين الوكيلين واضحين تمامًا أو بديهيًا تمامًا في سبب

06:16.300 --> 06:18.100
قوة سمات الأهلية.

06:18.100 --> 06:25.180
وإذا كنت ترغب ، كما وعدت ، في التعمق أكثر في موضوع آثار الأهلية أو التعلم التدريجي ، فإن

06:25.180 --> 06:31.960
كتابًا رائعًا ومدهشًا يمكنك العثور عليه يسمى Reinforcement Learning and Introduction

06:31.960 --> 06:36.580
بقلم ريتشارد ساتون وأندرو بارتو ، 1998 .

06:36.580 --> 06:40.710
أعتقد أنهم بصدد إنشاء طبعة ثانية أو قاموا بالفعل بإنشاء

06:40.720 --> 06:49.270
اعتراف ، لكن هذا هو الكتاب الأكثر شيوعًا أو الأكثر شيوعًا أو الأكثر مرجعًا حول التعلم المعزز.

06:49.270 --> 06:56.530
إنه يحتوي على عدد هائل من الاستشهادات ، على ما أعتقد ، مثل عشرات الآلاف ، إذا لم أكن مخطئًا.

06:56.530 --> 07:00.910
وكذلك الفصل الذي تحتاجه لهذا هو الفصل السابع.

07:00.910 --> 07:05.740
لذا من أجل النظر في آثار الأهلية ، هناك فصل كامل حول هذا الموضوع.

07:05.740 --> 07:12.040
الفصل السابع ، يمكنك أن تقرأ عنه ويخوض في الكثير من التفاصيل إلى الأمام ، وتتبع الأهلية

07:12.040 --> 07:18.280
للخلف وأيضًا كيف حصلت على الاختلاف الزمني من جهة والطرف الآخر من الطيف.

07:18.280 --> 07:19.990
لديك طرق مونت كارلو.

07:19.990 --> 07:22.330
في ما بين ذلك لديك آثار الأهلية.

07:22.330 --> 07:27.070
لذا فإن آثار الأهلية هي رابطك للانتقال من الاختلافات الزمنية إلى أساليب مونت كارلو.

07:27.070 --> 07:28.270
مثير جدا.

07:28.270 --> 07:31.540
اقرأ الكثير من الصور التي أقدرها حقًا.

07:31.540 --> 07:34.030
تفسيرات بديهية جدا.

07:34.030 --> 07:41.050
لذلك هناك الكثير من الأشياء التي يمكنك تعلمها من هذا الكتاب حول الذكاء الاصطناعي والتعلم المعزز.

07:41.050 --> 07:48.760
لكن على وجه التحديد ، تعتبر آثار الأهلية مكانًا جيدًا جدًا للذهاب إليه هل هذا الكتاب لتتبع الأهلية؟

07:49.030 --> 07:56.500
والمرجع الثاني لهذا اليوم هو شيء سيظهره لك Adlon في المواد العملية ، التعلم

07:56.500 --> 08:05.050
العميق ، أو ورقة بحث Google Deep Mind حول الأساليب غير المتزامنة لتعلم معزز عميق.

08:05.050 --> 08:06.730
نعم ، هذه هي الورقة.

08:06.730 --> 08:12.160
هذه هي الورقة البحثية الوحيدة التي سنناقشها في a3c أكثر في هذه الدورة.

08:12.160 --> 08:14.230
نحن نقترب منه أكثر فأكثر.

08:14.230 --> 08:18.280
وكما يمكنك أن تقول ، نحن متحمسون جدًا لهذا الأمر.

08:18.280 --> 08:25.510
لذلك سوف ننظر قليلاً في كيفية تنفيذهم لتتبعات الأهلية في هذه الورقة.

08:25.510 --> 08:29.020
لذلك سنستخدم هذا أكثر للجانب العملي للأشياء.

08:29.110 --> 08:33.730
لذلك آمل أن تكون قد استمتعت بالبرنامج التعليمي اليوم وأنت الآن مرتاح أكثر قليلاً لتتبع الأهلية ولا

08:33.730 --> 08:35.800
أطيق الانتظار لرؤيتك في المرة القادمة.

08:35.800 --> 08:37.210
حتى ذلك الحين ، استمتع.

08:37.210 --> 08:37.780
أنا.