WEBVTT

00:00.470 --> 00:03.370
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.380 --> 00:08.720
في درس اليوم ، نتخذ خطوتنا الأولى في عالم a3c ، وكخطوة أولى ، سنكتشف

00:08.720 --> 00:11.120
ما يمثله هذا الاختصار.

00:11.120 --> 00:15.890
لذا فإن a3c تعني خوارزمية الناقد ذات الميزة المتزامنة.

00:16.190 --> 00:23.270
هذه خوارزمية تم تطويرها في Google DeepMind في عام 2016 من قبل مجموعة من الباحثين

00:23.270 --> 00:28.430
، وهي خوارزمية متطورة للذكاء الاصطناعي حتى الآن.

00:28.460 --> 00:34.160
الآن لديها العديد من التعديلات ، وسوف نناقش ذلك أكثر في الدورة ، خاصة في الدروس

00:34.160 --> 00:34.970
العملية.

00:34.970 --> 00:42.080
ولكن مع ذلك ، فإن هذه الخوارزمية تنفخ كل شيء آخر ، بما في ذلك شبكات التعلم التلافيفية العميقة

00:42.080 --> 00:44.180
خارج الماء تمامًا.

00:44.180 --> 00:45.710
وهو أسرع.

00:45.710 --> 00:49.910
يستغرق التدريب وقتًا أقل ويحقق نتائج أفضل.

00:50.150 --> 00:55.520
لذلك خلال هذا الجزء من الدورة التدريبية ، سنرجع إلى المرجع وقد أشرنا إليه

00:55.520 --> 01:01.700
بالفعل ، لكننا سنشير أكثر إلى ورقة أو الورقة التي تم نشرها والتي قدمت لأول مرة a3c.

01:01.730 --> 01:09.320
يطلق عليه الأساليب غير المتزامنة للتعلم المعزز العميق من قبل فلاديمير ميونيخ وآخرين من Google DeepMind.

01:09.320 --> 01:14.540
سأعرض عليكم هذه الورقة الآن حتى يكون لديكم مقدمة لها.

01:14.540 --> 01:17.810
إذن ، ها هي هذه الورقة.

01:17.810 --> 01:25.130
أردت أن أعرضه عليك حتى تتمكن من الشعور به والاستعداد للتعرّف عليه قليلاً.

01:25.130 --> 01:34.070
وبالطبع ، يوصى بشدة بقراءة الورقة وفهم ما الذي يتحدثون عنه بالضبط.

01:34.070 --> 01:41.420
وسترى أنه من خلال الدروس العملية في Lund ، ستأخذك عبر أجزاء معينة

01:41.420 --> 01:50.210
من الورقة ، من خلال فقرات أو أقسام معينة ستكون ذات صلة بما سنقوم ببرمجته في ذلك

01:50.210 --> 01:51.590
الوقت.

01:51.710 --> 01:57.740
وما أردت أن أشير إليه هنا ، كما ترون ، تم إجراء الكثير من الأبحاث حول هذا الموضوع ، ولكن هناك

01:57.740 --> 02:02.870
الكثير من المراجع أيضًا ، ولكن مثل الجزء الذي يعجبني حقًا هو أنه في النهاية؟

02:03.280 --> 02:07.970
في النهاية يقارنون الخوارزميات المختلفة ويقارنون النتائج.

02:07.970 --> 02:09.860
وهذا ما أردت أن أشير إليه هنا.

02:09.860 --> 02:11.360
لذلك دعونا نكبر قليلا.

02:11.360 --> 02:17.390
لذا هنا ، كما ترون هناك ، حتى في Google DeepMind ، هم يتدربون أو يقومون بتقييم الخوارزميات

02:17.390 --> 02:20.420
في الألعاب تمامًا كما نفعل في هذه الدورة.

02:20.420 --> 02:27.650
لذلك نفس المبدأ بالضبط لأن الألعاب عبارة عن بيئة محاكاة أو بيئة صغيرة ، بيئة محصورة بقواعد

02:27.650 --> 02:33.320
معينة ويريدون فهم مدى جودة أداء هذا الذكاء الاصطناعي في تلك الألعاب.

02:33.320 --> 02:41.120
وهنا لدينا بالضبط كل تلك الألعاب التي يمكنك أن تجد الكثير منها في صالة الألعاب الرياضية في الهواء

02:41.150 --> 02:44.210
الطلق والألعاب التي كنا نعمل معها.

02:44.210 --> 02:46.760
على سبيل المثال ، في هذا القسم نعمل مع Breakout.

02:46.760 --> 02:47.660
لذا فهي هنا أيضًا.

02:48.500 --> 02:53.840
لذلك يمكنك أن ترى ذلك بالنسبة إلى Breakout ، فقد تم تمييزهم بالخط العريض ، وتم إبراز أفضل خوارزمية.

02:53.840 --> 02:58.400
إذاً DCN هذه هي الخوارزمية التي كنا نعمل معها ومن ثم بعض الخوارزميات الأخرى.

02:58.400 --> 03:03.470
ثم هنا لديك a3c ، a3c مع ذاكرة طويلة المدى lshtm.

03:03.470 --> 03:06.170
إذن هذا هو الشيء الذي سننفذه في هذا الجزء من الدورة التدريبية.

03:06.170 --> 03:10.130
سنكون لدينا a3c مع LSHTM ، مما يجعلها أقوى.

03:10.130 --> 03:15.560
كما ترون ، الاختراق هو أفضل نتيجة يتم تحقيقها من خلال نظام ثلاثي المفاتيح.

03:15.560 --> 03:19.670
هذه هي النتيجة 66. 8 مقارنة بالآخرين.

03:19.670 --> 03:23.990
ويمكنك أيضًا رؤية ذلك لمعظمهم.

03:23.990 --> 03:30.620
لذا ، إذا أخذنا الآن طريقة عرض أكبر للصورة ، يمكنك أن ترى أن معظم الصور الجريئة موجودة بالفعل في هذا

03:30.620 --> 03:31.760
العمود الأخير.

03:31.760 --> 03:36.110
لذا ، نعم ، في الواقع ، هناك بعض الألعاب التي تعمل فيها الخوارزميات الأخرى بشكل أفضل.

03:36.110 --> 03:42.440
ولكن كما ترى ، فإن أداء DCN لا يعمل بشكل أفضل في أي من الألعاب.

03:42.440 --> 03:44.720
لكن يمكنك أن ترى أن هناك خوارزميات أخرى.

03:45.200 --> 03:51.740
تعمل الخوارزميات الأخرى بشكل أفضل في بعض الأحيان ، لكن أداء الفريق هو الأفضل في معظم الحالات.

03:51.740 --> 03:52.970
لذلك يمكنك أن ترى أن هذا جريء.

03:52.970 --> 03:57.500
هذا جريء ، هذا ، هؤلاء ، هذا ، وما إلى ذلك.

03:57.500 --> 04:01.820
لذا يمكنك أن ترى أن نظام a3c هو خوارزمية قوية حقًا.

04:01.820 --> 04:08.360
إنها بالفعل في طليعة الذكاء الاصطناعي وهذا بالضبط ما سنقوم بتنفيذه.

04:08.360 --> 04:09.980
قسم مثير للغاية في المستقبل.

04:09.980 --> 04:17.060
نشجعك بشدة على استعراض هذه الورقة والتعرف على ما سنتحدث

04:17.060 --> 04:17.750
عنه.

04:18.260 --> 04:24.650
وبعد ذلك خلال هذا القسم وخلال الجانب العملي للأشياء بشكل خاص ، مجموعة عملية من

04:24.650 --> 04:27.020
القش ، سنخوض هذا بالتفصيل.

04:27.020 --> 04:32.510
سنعمل في الواقع مع الكود الكاذب الخاص بهم هنا ، وهو متاح.

04:32.510 --> 04:36.380
وسنكون حذرين وسنوضح لك كيفية تنفيذ ذلك وكيف سنعمل

04:36.380 --> 04:36.800
معه.

04:37.190 --> 04:42.560
وفي هذه الملاحظة ، أتمنى أن تستمتع بهذه الورقة وأتطلع إلى رؤيتك في المرة القادمة.

04:42.560 --> 04:44.360
وحتى ذلك الحين ، استمتع بـ I.