WEBVTT

00:00.780 --> 00:03.990
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:04.020 --> 00:04.380
حسنا.

00:04.380 --> 00:06.960
لذلك آمل أن تكون قد استمتعت بالدروس التعليمية حتى الآن.

00:06.960 --> 00:08.460
نحن على وشك الانتهاء من الحدس.

00:08.460 --> 00:09.000
أنت قريبًا.

00:09.000 --> 00:09.340
قريبا جدا.

00:09.360 --> 00:10.470
انتقل إلى الجانب العملي للأشياء.

00:10.470 --> 00:13.290
لدينا فقط بعض الأشياء الصغيرة التي نحتاج للتستر عليها.

00:13.290 --> 00:20.220
حسنًا ، لقد تحدثنا سابقًا عن كيفية إضافة الشبكات العصبية إلى هذه المعادلة الكاملة للتعلم

00:20.310 --> 00:25.140
الأساسي ونقل تعلمك إلى الخطوة التالية وتحويله إلى تعلم عميق.

00:25.380 --> 00:33.330
واليوم سنضيف ميزة إضافية مهمة ، والتي ستقوم بتشفيرها في الجانب العملي للأشياء.

00:33.330 --> 00:39.450
لذا قررت أنا و Hudlin أنه من المهم بالنسبة لنا أن نغطيها في الجانب الحدسي من الأشياء حتى تكون أكثر استعدادًا لها

00:39.450 --> 00:42.120
عندما يتعلق الأمر بالجانب الترميزي للأشياء.

00:42.120 --> 00:46.410
لذا كما ناقشنا ، لدينا الشبكة هناك.

00:46.410 --> 00:47.880
هناك جزئين يحدثان.

00:47.880 --> 00:49.080
بادئ ذي بدء ، إنه التعلم.

00:49.080 --> 00:52.860
لذا فإن الشبكة تتعلم في الواقع مع كل دولة جديدة.

00:53.190 --> 00:58.590
يقوم ببطء بتحديث أوزانه ليصبح أفضل وأفضل وأفضل في التعامل مع هذه البيئة.

00:58.590 --> 01:01.890
ثم هناك التصرف داخل الدولة.

01:01.890 --> 01:07.980
لذلك بعد حساب قيم Q في الحالة ، يتم تحديد قيمة مفتاح واحدة.

01:07.980 --> 01:11.700
حتى اليوم ما زلنا نتحدث عن جزء التعلم.

01:11.700 --> 01:17.370
سنخرج بميزة مثيرة للاهتمام ستعمل بشكل جيد ، لن نبتكر

01:17.370 --> 01:25.860
هذه الميزة بأنفسنا ، لكننا سنتحدث عن ميزة مهمة جدًا للتعلم العميق.

01:25.860 --> 01:29.310
وتسمى هذه الميزة تجربة إعادة التشغيل.

01:29.520 --> 01:31.770
حسنًا ، ها هي شبكتنا.

01:31.770 --> 01:34.500
لذلك قمنا بنسخها هنا.

01:34.500 --> 01:38.820
لقد حصلنا على أن الخسارة المحسوبة في الأسفل يتم نشرها مرة أخرى عبر شبكتنا.

01:38.820 --> 01:44.700
ودعنا نلقي نظرة على مثال لما يحدث لفهم المشكلة التي نتعامل معها بشكل أفضل

01:44.700 --> 01:45.390
قليلاً.

01:45.390 --> 01:49.050
إذن هذا مثال بالفعل من هذه الدورة.

01:49.050 --> 01:53.010
هذه لقطة شاشة بالضبط من هذه الدورة.

01:53.010 --> 01:54.600
هذا ما ستقوم ببرمجته.

01:54.750 --> 02:03.600
هذه سيارة ذاتية القيادة تسير عبر هذا الطريق وعليها أن تتعلم كيفية التنقل في هذا الطريق.

02:03.600 --> 02:09.180
إذن ما هو ، كما ناقشنا سابقًا ، ما هذا في هذه الحالة؟

02:09.180 --> 02:12.030
وبالطبع ، لن تكون الحالة X واحد و x اثنان فقط.

02:12.030 --> 02:18.450
سيصف آلان قليلاً بتفاصيل أكثر بكثير عن الحالة التي ستكون عليها الحالة بضع

02:18.750 --> 02:26.400
معلمات تتعلق بزاوية السيارة وبعض المعلمات النسبية ، وما تقرأه المستشعرات وما إلى ذلك.

02:26.400 --> 02:30.480
لذلك سيكون هناك المزيد من المعلمات لوصف الحالة ، ولكن مع ذلك ، ستكون

02:30.480 --> 02:31.530
متجهًا للقيم.

02:31.530 --> 02:33.690
سوف يمر عبر شبكة عصبية.

02:33.690 --> 02:36.390
ثم فيما يتعلق بالإخراج ، سيكون لديك بعض قيم Q.

02:36.390 --> 02:42.600
مرة أخرى ، سيكون هناك اختلاف حسب البيئة ، يمكن أن يكون هناك عدد مختلف من الإجراءات والإجراءات

02:42.600 --> 02:44.280
الممكنة.

02:44.280 --> 02:48.960
لكننا سنقوم فقط ، من أجل البساطة ، بترك الأمر كما هو حتى نتمكن من فهم ما يجري

02:49.020 --> 02:50.550
هنا بشكل أفضل قليلاً.

02:50.550 --> 02:58.470
إذن في هذه الحالة ، ما هو السؤال حتى الآن ، ما هذا المدخل في هذه الشبكة العصبية؟

02:58.470 --> 03:03.450
أو بشكل أكثر تحديدًا ، كم مرة نقوم بتشغيل هذه الشبكة العصبية؟

03:03.450 --> 03:05.070
كم مرة تمر هذه الشبكة العصبية؟

03:05.070 --> 03:10.620
حسنًا ، في كل مرة تنتهي فيها السيارة بحالة جديدة ، وبالتالي تتحرك السيارة ، ينتهي بها الأمر في حالة جديدة.

03:10.620 --> 03:12.600
وبعد ذلك يذهب كل شيء.

03:12.600 --> 03:17.910
كل تلك البيانات ، كل تلك المعلومات من حول الحالة التي تمر عبر الشبكة هي خطأ محسوب.

03:17.910 --> 03:22.380
هل يتم حساب هذا الخطأ بناءً على ما ناقشناه في الدروس السابقة.

03:22.800 --> 03:25.260
تم نشر هذا الخطأ مرة أخرى عبر الشبكة.

03:25.260 --> 03:30.570
يتم تحديث الأوزان ، ثم تختار السيارة الإجراء الذي يجب اتخاذه ، مما يجعل هذه الخطوة تنتهي

03:30.570 --> 03:31.530
في حالة جديدة.

03:31.530 --> 03:34.050
في الحالة الجديدة يبدأ كل شيء من جديد.

03:34.230 --> 03:38.040
وهذا يحدث في الأساس في كل مرة تكون فيها السيارة في حالة جديدة.

03:38.160 --> 03:39.780
حسنًا ، ألق نظرة على هذا المثال.

03:39.780 --> 03:46.860
لقد التقطت لقطة الشاشة على وجه التحديد لأنها تبدو جيدة جدًا توضح المشكلة التي تمت معالجتها من خلال التجربة

03:46.860 --> 03:48.960
وإعادة التشغيل والخبرة.

03:48.960 --> 03:52.590
إعادة التشغيل ليست مجرد شيء نستخدمه في هذه الدورة التدريبية أو في هذه المشكلة المحددة.

03:52.590 --> 04:00.330
إنه شيء سترونه مستخدمًا طوال الوقت ، مثل مرارًا وتكرارًا في خوارزميات الذكاء

04:00.330 --> 04:05.010
الاصطناعي ، لأنه قوي جدًا ومهم جدًا.

04:05.010 --> 04:09.540
انظروا إلى هذه السيارة ، هذه السيارة في هذه المشكلة أو في هذه البيئة.

04:09.540 --> 04:12.330
هدفها هو الانتقال من هنا إلى هنا والعكس.

04:12.330 --> 04:17.400
هدفها هو الإبحار هنا ، هنا دون عبور هذه الجدران المصنوعة من الرمال.

04:17.610 --> 04:25.050
وهكذا بدأت السيارة من هنا ، نزلت ومثل مكافأتها تعتمد على مدى قربها من هدفها.

04:25.050 --> 04:26.910
لذا انطلقت السيارة من هنا.

04:26.910 --> 04:29.400
نزلت واستمرت هكذا ، مثل هذا ، مثل هذا ، مثل هذا.

04:29.450 --> 04:31.320
على طول هذا الجدار ، على طول هذا الجدار.

04:31.320 --> 04:32.580
وماذا ستفعل بعد ذلك؟

04:32.580 --> 04:34.830
سوف يستدير وسيستمر.

04:34.830 --> 04:37.410
حسنًا ، ما نريده أن يفعله هو الاستمرار هنا.

04:37.410 --> 04:39.330
لكن دعنا نفكر في الأمر لثانية.

04:39.330 --> 04:44.160
بمجرد وصوله إلى هذا الجدار ، في كل مرة يتحرك للأمام ، يتحرك للأمام.

04:44.160 --> 04:47.640
يتحرك للأمام ، يتحرك للأمام ، يتحرك للأمام ، يتحرك للأمام ، وهكذا يتحرك

04:47.640 --> 04:48.360
للأمام.

04:48.360 --> 04:53.700
لذلك قد تكون مثل اعتمادًا على بيئة الهيكل ، يمكن أن تكون مثل 100 حركة هنا أو 50

04:53.700 --> 04:54.540
حركة هنا.

04:54.840 --> 04:57.510
إنهم يواصلون المضي قدمًا ، للأمام ، للأمام ، للأمام لمدة أربعة.

04:57.510 --> 04:58.920
ولا شيء يتغير.

04:58.920 --> 04:59.520
لا شئ.

04:59.620 --> 05:00.310
حقا يتغير.

05:00.310 --> 05:03.280
نعم ، يبتعد أكثر عن هذا الهدف ، أقرب إلى هذا الهدف.

05:03.280 --> 05:03.970
هذا لطيف.

05:03.970 --> 05:08.350
ولكن فيما يتعلق بالبيئة المحيطة ، لا تتغير أشياء كثيرة.

05:08.350 --> 05:09.870
لا يزال نفس الجدار.

05:09.880 --> 05:15.220
إذا كنت جالسًا في السيارة ، فمن المحتمل أنك رأيت هذا الموقف عندما تقود سيارتك

05:15.220 --> 05:20.860
في أي شيء تراه يشبه أن البيئة رتيبة للغاية لدرجة أنك ترى نوعًا من نفس الشيء مثل مجرد

05:20.860 --> 05:21.760
المرور .

05:21.760 --> 05:26.080
لكن مثل ، تخيل أنك تقود عبر صحراء وأنت ترى نفس الشيء.

05:26.080 --> 05:27.670
إنه نفس الصوت ، إنه نفس الصوت.

05:27.670 --> 05:30.250
لا شيء يحدث ، لا شيء يتغير.

05:30.250 --> 05:37.450
وهكذا في الأساس ولكن في كل مرة نضع تلك الحالة ، تلك الحالة الجديدة هنا ، نعم ، بالطبع ،

05:37.450 --> 05:38.890
شيء ما قد يتغير.

05:38.890 --> 05:43.330
على سبيل المثال ، أنت تقود السيارة ويظهر لك نظام تحديد المواقع العالمي (GPS) أنك أقرب إلى وجهتك.

05:43.330 --> 05:45.910
لذا فإن أحد هذه المدخلات هو التغيير.

05:45.910 --> 05:51.820
لكن الكثير من هذه المدخلات الأخرى ، أجهزة الاستشعار ، على سبيل المثال ، الموجودة في السيارة ، لا تتغير.

05:51.820 --> 05:53.260
وبالتالي ، أثناء القيادة.

05:53.260 --> 05:56.530
في هذه الحالة ، تضع المدخلات في شبكتك العصبية.

05:56.530 --> 06:00.430
هنا ، هنا ، هنا ، هنا ، هنا ، هنا ، هنا وهنا وهنا.

06:00.730 --> 06:03.040
في كل وقت ، تكون المدخلات متشابهة إلى حد كبير.

06:03.040 --> 06:10.390
وبالتالي ، إذا واصلت إدخال نفس المدخلات ، أو نفس القيم ، أو نفس المتجه أو المتجهات

06:10.390 --> 06:16.570
المتشابهة جدًا في شبكتك ، لأنه لا يوجد تنوع ، ستتعلم السيارة جيدًا.

06:16.570 --> 06:21.490
هناك شيء واحد ستتعلمه جيدًا عن كيفية القيادة على طول هذا الجدار الموجود على يمينه.

06:21.490 --> 06:24.870
وهكذا سيتم تحديث الشبكة وستحصل على مكافأة.

06:24.870 --> 06:27.370
سيبدأ ببطء في الحصول على مكافأة مقابل القيادة.

06:27.370 --> 06:32.140
حسنًا ، سيكون الأمر كذلك ، حسنًا ، من هنا سيبدأ التعلم ، أوه ، أنا أقوم بعمل جيد.

06:32.140 --> 06:32.950
أنا أعمل بشكل أفضل.

06:32.950 --> 06:33.760
أنا أفعل ذلك بشكل أفضل.

06:33.760 --> 06:40.750
سيكون لديه هذا ، هذا التصور الخاطئ بأنه في الواقع يعمل بشكل جيد للغاية ، على الرغم من أنه تعلم فقط

06:40.750 --> 06:43.270
كيفية القيادة على طول هذا الجدار.

06:43.270 --> 06:47.470
وبالتالي فإن الشبكة العصبية سوف تتكيف بشكل كبير مع القيادة على طول هذا الجدار.

06:47.470 --> 06:52.960
ثم فجأة ظهر هذا المنحنى والسيارة لا تعرف ماذا تفعل ولا تتلاءم تمامًا

06:52.960 --> 06:55.180
مع هذه الشبكة العصبية.

06:55.180 --> 07:01.480
وحتى إذا تم ضبطه بطريقة ما ، فلنفترض أنه يمر بهذا الجزء ثم ينتهي به الأمر على هذا الجدار

07:01.480 --> 07:03.130
، نفس الشيء سيحدث.

07:03.130 --> 07:05.170
سيقود من هنا ، هنا ، هنا.

07:05.500 --> 07:10.780
الآن ، الشبكة العصبية تعيد هيكلة نفسها للتكيف مع هذا الجدار وبعد ذلك ، بام ، يحدث هذا الشيء.

07:10.780 --> 07:14.590
وبعد ذلك حتى لو تجاوز ذلك بطريقة ما ، فسوف يمر عبر هذا الشيء.

07:14.590 --> 07:16.180
ثم نفس الشيء على طول هذه الخطوط.

07:16.180 --> 07:22.120
لذا فهو في الأساس مثل مثال حي جدًا لمشكلة لدينا.

07:22.120 --> 07:28.150
هذا لأن الطريقة التي نستخدم بها الشبكة العصبية ، ونقوم بتحديثها مع كل حالة على حدة ، بمجرد أن يكون لدينا الكثير

07:28.150 --> 07:30.790
من الخطوات المتتالية ، لا يجب أن تكون هي نفسها.

07:30.790 --> 07:40.720
ولكن في البيئات ، من الطبيعي أن تكون الحالات المتتالية مترابطة بطريقة ما أو مترابطة بطريقة ما.

07:40.720 --> 07:45.490
ونحن لا نريد أن يؤدي هذا الاعتماد المتبادل إلى تحيز شبكتنا.

07:45.490 --> 07:52.830
لا نريد أن تتعلم السيارة فقط كيفية القيادة على طول مثل خط مستقيم أو خط منحني طويل

07:54.000 --> 08:01.330
أو مثل أي شيء تعتقد أنه يمكنك التفكير فيه في الحياة حيث يتنقل الوكيل في بيئة أينما

08:01.330 --> 08:07.810
كان يمكنك التفكير فيه الحالات المترابطة أو المترابطة التي تأتي بعد الأخرى

08:07.810 --> 08:15.190
، والتي يمكن أن تفسد شبكتك العصبية حقًا إذا كنت ستدع العامل يتعلم من ذلك.

08:15.190 --> 08:17.560
وهنا يأتي دور إعادة التجربة.

08:17.560 --> 08:21.790
ما يحدث في إعادة التجربة هو هذه التجارب.

08:21.790 --> 08:29.440
إذاً هذه تنص على أنها في 1 إلى 3 ، ولكن العديد من 50 حالة هنا على التوالي ، لا يتم وضعها في الشبكة

08:29.440 --> 08:30.760
على الفور.

08:31.330 --> 08:34.990
يتم حفظها بالفعل في ذاكرة الوكيل.

08:35.920 --> 08:40.990
وهكذا ، على سبيل المثال ، تم حفظ كل هذه الأشياء وحفظها كلها وبعضها في مرحلة

08:40.990 --> 08:45.940
ما بمجرد وصولها إلى حد معين ستتمكن من ترميزه وسيوضح لك Atlan كيفية القيام

08:45.940 --> 08:50.290
بذلك بمجرد وصوله إلى حد معين ، ثم يقرر الوكيل بنفسه.

08:50.290 --> 08:51.220
حسنًا ، حان وقت التعلم.

08:51.220 --> 08:56.500
لدي هذه المجموعة من الخبرات التي أمتلكها ، والآن سأتعلم من تلك المجموعة.

08:56.500 --> 09:03.520
ولذا فهو يختار بشكل عشوائي موزعًا موحدًا ويكون بشكل موحد أمرًا مهمًا هنا لأن هذا شيء سنتحدث

09:03.520 --> 09:05.860
عنه في الشريحة التالية.

09:06.670 --> 09:08.050
سنذكر ذلك.

09:08.050 --> 09:11.650
لكنها تأخذ عينة موزعة بشكل موحد.

09:12.280 --> 09:15.520
لذلك تعتبر جميع التجارب بشكل أساسي متساوية.

09:15.520 --> 09:20.050
يأخذ عينة موزعة بشكل موحد من تلك المجموعة من الخبرات التي لديها.

09:20.320 --> 09:24.640
ثم يمر من خلالهم ويتعلم منهم.

09:24.640 --> 09:26.710
لذلك لا يتطلب الأمر كل الخبرة.

09:26.710 --> 09:28.270
يستغرق الأمر فقط عينة موزعة بشكل موحد.

09:28.270 --> 09:31.180
لذلك قد يستغرق الأمر بضع مرات من هنا ، وزوجين من هنا ، وزوجين من هنا.

09:31.180 --> 09:34.840
و كل تجربة تتميز بها الدولة.

09:34.840 --> 09:42.970
لقد كان في الإجراء الذي اتخذته ، والحالة التي انتهى بها الأمر ، والمكافأة التي حققتها من خلال هذا الإجراء في

09:42.970 --> 09:44.740
تلك الحالة المحددة.

09:44.740 --> 09:49.750
لذلك بالنسبة للعناصر في كل تجربة ، حدد حالة عمل واحدة ومكافأة.

09:49.870 --> 09:54.580
وهكذا يأخذ كل تلك الخبرات ثم يمرها عبر الشبكة ويتعلم.

09:54.580 --> 09:59.170
وبهذه الطريقة ، فإنه يكسر نمط ذلك.

09:59.210 --> 10:06.320
إلياس ، الذي يأتي من الطبيعة المتسلسلة للتجارب ، إذا كنت ستضعها عبر الشبكة واحدة

10:06.320 --> 10:07.970
تلو الأخرى.

10:08.060 --> 10:11.820
لذلك هذا هو التركيز الرئيسي للتجربة.

10:11.840 --> 10:14.300
هذه هي المشكلة التي تتناولها.

10:14.300 --> 10:20.090
ومن المزايا الأخرى لإعادة التجربة أنه في بعض الأحيان في بيئة كهذه ، قد يكون لديك

10:20.090 --> 10:22.160
تجارب قيمة ونادرة جدًا.

10:22.160 --> 10:25.940
على سبيل المثال ، لا أعرف ، دعنا نقول لنلقي نظرة على هذه الزاوية.

10:25.940 --> 10:26.270
حق؟

10:26.270 --> 10:28.280
هذه هي الزاوية اليمنى.

10:28.310 --> 10:28.550
الصحيح.

10:28.640 --> 10:29.690
و حاد جدا.

10:29.690 --> 10:30.770
كم هو حاد؟

10:30.770 --> 10:34.970
لذلك سوف يأتي من هنا ، بافتراض أنه سيعانق هذه الزاوية.

10:35.450 --> 10:39.190
إذن كم عدد الزوايا اليمنى الحادة الموجودة في هذه الغرفة بأكملها؟

10:39.230 --> 10:42.260
لدينا ركن واحد فقط هنا وزاوية واحدة على اليمين هنا.

10:43.580 --> 10:43.850
حق؟

10:43.850 --> 10:46.130
لذلك عندما يأتي هذا الطريق ، فهذه هي الزاوية اليمنى.

10:46.130 --> 10:48.530
وبعد ذلك عندما تعود ، تكون الزاوية اليمنى الحادة هنا.

10:48.530 --> 10:49.610
إذن وهذا ليس حادًا.

10:49.610 --> 10:50.120
هذا واحد حاد.

10:50.120 --> 10:56.450
لذلك هناك فرصة واحدة فقط في البيئة بأكملها للتعلم من الزاوية اليمنى الحادة.

10:56.660 --> 11:02.720
وهذه تجربة مهمة لأنها قد تكون جيدة حقًا في القيادة على طول خطوط مستقيمة ، وتحسن حقًا في القيام

11:02.720 --> 11:06.350
بذلك مثل الزوايا الناعمة ، مثل هذا ، من هذا القبيل.

11:06.350 --> 11:13.820
ولكن بعد ذلك سوف تستمر في العبث بهذه الزاوية اليمنى الحادة لمجرد أنها ببساطة لا تملك الكثير من

11:13.820 --> 11:15.470
الفرص للتعلم منها.

11:15.470 --> 11:19.520
وبالتالي ، سيتعلم كل شيء آخر بسرعة كبيرة ، لكن الأمر سيستغرق وقتًا طويلاً لتعلم هذه الزاوية

11:19.520 --> 11:20.000
الصحيحة.

11:20.030 --> 11:21.830
إنه مثال مبسط للغاية.

11:21.830 --> 11:28.250
إنه تفسير مبسط للغاية ، لكنه يوضح مفهوم أنه في بعض الأحيان تكون تجارب نادرة يمكن

11:28.250 --> 11:29.990
أن تكون ذات قيمة.

11:29.990 --> 11:35.930
وإذا كنت تقوم فقط بشبكة عصبية بسيطة حيث تضع قيمك هنا وهي تمر بها ، كما تعلم ، حتى

11:35.930 --> 11:40.970
لو نسينا مشكلة الطبيعة المتسلسلة للتجارب وكيف يمكن أن تكون مترابطة

11:40.970 --> 11:46.250
و / أو مترابطًا وحتى تنسى ذلك لثانية واحدة ، ما يحدث هو بمجرد أن تضع تجربة

11:46.640 --> 11:53.270
، تمر عبر الشبكات المحدثة ، ثم تنسى الأمر على الفور ، وتنسى تلك التجربة.

11:53.270 --> 11:54.320
تنتقل إلى المرحلة التالية.

11:54.320 --> 11:56.000
هذه هي الطريقة التي تعمل بها الشبكة العصبية.

11:56.000 --> 11:59.150
ثم تنتقل إلى الحالة التالية ، والحالة التالية ، والحالة التالية ، والتجربة التالية ، والتجربة

11:59.150 --> 12:00.980
التالية ، والتجربة التالية ، وما إلى ذلك.

12:00.980 --> 12:05.690
إذن هذه الزاوية اليمنى ، بمجرد أن تمر عبر شبكة ، فإنها تختفي وليس لديك أي ذاكرة

12:05.690 --> 12:07.340
لتلك التجربة القيمة.

12:07.340 --> 12:14.150
بينما مع إعادة التشغيل ذات الخبرة ، نظرًا لأنك تضع هذه التجارب في مجموعات ، يمكنك تنظيم مجموعتك

12:14.150 --> 12:15.590
كنافذة متدحرجة.

12:15.590 --> 12:20.270
لذلك على سبيل المثال ، يمكن أن يكون لديك 100 دفعة ، أي 100 تجربة في مجموعتك.

12:20.270 --> 12:26.900
لذلك عندما يعود من هنا ، فإنه بمجرد أن يسجل هذه التجربة في مجموعته.

12:27.110 --> 12:33.680
ثم ، كما هو الحال في وقت ما ، يتم تشغيله ، فإنه يأخذ توزيعًا موحدًا من مجموعة الخبرات الخاصة به ومن ثم

12:33.680 --> 12:35.000
هناك نافذة متدرجة.

12:35.000 --> 12:39.560
لذلك تنسى هذه التجارب ، لكنها بعد ذلك تحافظ على هذه التجارب ومن ثم مرة أخرى تتعلم منها

12:39.560 --> 12:42.200
بمجرد وجودها هنا ، وتتعلم من هذه المجموعة.

12:42.320 --> 12:47.930
وبعد ذلك بمجرد وصولها إلى هنا ، إذا وصلت إلى هنا ، ولكن بعد ذلك لديها مجموعة من التجارب من هذا القبيل.

12:47.930 --> 12:50.450
لذلك فهي تتعلم الآن من هذه التجارب.

12:50.450 --> 12:58.670
وبهذه الطريقة ، ما تحصل عليه هو أن هذه الزاوية اليمنى قد تظهر عدة مرات في عملية التعلم الخاصة بها لأنها كانت

12:58.670 --> 13:02.990
في تلك الدفعة عندما كانت الدُفعة على هذا النحو هناك.

13:02.990 --> 13:05.090
ثم كان في الدفعة هنا ، في الدفعة هنا.

13:05.090 --> 13:11.390
لذلك تم طرحه على عدة دفعات لأنه قد يتم تحديث الدفعة كنافذة متدرجة للخبرات.

13:11.390 --> 13:15.680
لذلك يتم طرح التجارب القديمة ، تتم إضافة التجارب الأحدث ، ثم مرة أخرى تعمل التجربة الأقدم على

13:15.680 --> 13:16.150
تعزيزها.

13:16.160 --> 13:23.000
لذا فهي تجربة ، تبقى في الدفعة لبعض الوقت ويمكن للسيارة أو الوكيل التعلم من تلك التجربة

13:23.000 --> 13:23.990
عدة مرات.

13:23.990 --> 13:27.320
هذه ميزة أخرى لإعادة التجربة.

13:27.320 --> 13:29.750
وبالطبع يتم اختبار الميزة النهائية.

13:29.750 --> 13:35.510
تمنحك Replay فرصة للتعلم من تجارب أكثر مما لو كنت تتعلم منها فقط في كل مرة

13:35.510 --> 13:40.040
، لأن لديك هذه المجموعة ، وبالتالي فهي نافذة متدرجة.

13:40.040 --> 13:47.120
وبالتالي ، حتى إذا كانت بيئتك مقتصرة على التجربة ، فإن نهج إعادة التشغيل الخاص بك يمكن أن يساعدك

13:47.120 --> 13:49.130
على التعلم بشكل أسرع.

13:49.130 --> 13:54.830
وبدلاً من مجرد إعادة تكوين البيئة مرات عديدة ، يمكنك التعلم بشكل أسرع لأنك لست مضطرًا إلى

13:54.830 --> 13:55.640
إعادتها.

13:55.640 --> 13:57.230
لديك تلك التجارب المحفوظة.

13:57.590 --> 13:59.510
هذه هي المزايا الرئيسية للتجربة.

13:59.510 --> 13:59.840
اعادتها.

13:59.840 --> 14:00.560
دعونا نلخص ذلك.

14:00.560 --> 14:03.860
لدينا أننا كسرنا نمط الاستقلال و.

14:04.770 --> 14:07.230
ارتباط التجارب المتسلسلة.

14:07.680 --> 14:12.540
نحن نحفظ التجارب النادرة التي قد تكون مهمة ، وبالتالي يمكننا التعلم منها في كثير من الأحيان.

14:12.870 --> 14:16.770
ويمكننا التعلم في البيئات.

14:16.770 --> 14:24.900
يمكننا أن نتعلم البيئات الحاضنة التي هي خبرة ، والتي لديها نقص في الخبرات ، والتي لا تحتوي على الكثير من الخبرات

14:24.900 --> 14:29.100
التي يمر بها الوكيل وما زلنا قادرين على تعلمها.

14:29.100 --> 14:31.740
إذن هذا ما تدور حوله تجربة إعادة العرض.

14:32.310 --> 14:38.220
إذا كنت ترغب في قراءة أكثر من ذلك بقليل ، فهناك مقال مثير للاهتمام نشرته DeepMind في عام

14:38.220 --> 14:38.900
2016.

14:38.910 --> 14:44.300
إنه يسمى إعادة عرض التجربة ذات الأولوية ، ويتحدث عن السبب.

14:44.310 --> 14:50.420
لماذا نستخدم توزيعًا موحدًا لاختيار خبراتنا من مجموعة الخبرة؟

14:50.430 --> 14:55.470
لماذا لا نجد طريقة أفضل لاختيار تجاربنا وإعطاء الأولوية لبعض التجارب التي

14:55.470 --> 14:56.640
نشعر بأنها مهمة؟

14:56.880 --> 14:58.110
ولذا فهو شيء مثير للاهتمام.

14:58.110 --> 15:07.650
لذلك في هذه الحالة ، لن تكون قادرًا على تعزيز فقط ، وليس فقط تعزيز معرفتك بتجربة إعادة التشغيل ، ولكن

15:07.650 --> 15:12.570
ستتمكن في الواقع من التحرك بأحدث التقنيات.

15:12.570 --> 15:14.970
هذا عام 2016 ونشرته شركة Deep Mind.

15:14.970 --> 15:17.460
لذا فهي ورقة حديثة جدًا وقوية جدًا.

15:17.460 --> 15:23.520
لذلك ستكون قادرًا على استكشاف الحدود أو استكشاف المزيد من هذه الخوارزمية والانتقال بها إلى المستوى

15:23.520 --> 15:24.330
التالي.

15:24.330 --> 15:30.810
لذلك سأترك الأمر لك لمعرفة لماذا وكيف يمكننا تغيير التوزيع الموحد إلى نهج مختلف لتجربة إعادة التشغيل

15:30.810 --> 15:35.580
من هذه الورقة ، إذا كنت ترغب في ذلك ، وآمل أن تستمتع ببرنامج اليوم التعليمي.

15:35.580 --> 15:41.160
والآن نحن نعرف ما هي تجربة إعادة التشغيل ويمكننا استخدامها بثقة في دروسنا العملية.

15:41.160 --> 15:42.810
وأنا أتطلع إلى رؤيتك في المرة القادمة.

15:42.810 --> 15:44.130
حتى ذلك الحين ، استمتع.

15:44.130 --> 15:44.670
أنا.
