WEBVTT

00:00.300 --> 00:02.280
أهلا ومرحبا بكم في هذا البرنامج التعليمي.

00:02.310 --> 00:04.500
حسنًا ، الآن لدينا أعيننا.

00:04.530 --> 00:06.090
إنه جاهز للتدريب.

00:06.090 --> 00:09.610
والخطوة الأولى من التدريب هي إعداد تجربة إعادة التشغيل.

00:09.630 --> 00:11.220
لذلك نحن نصل إلى هناك ببطء.

00:11.220 --> 00:16.580
التدريب والخبر السار هو أن لدينا نسخة مطبقة من تجربة إعادة التشغيل.

00:16.590 --> 00:23.430
إلى جانب ذلك تم تكييفه لتتبع الأهلية ، والذي أذكره بأنه أسلوب بدلاً من تعلم قيم التلميح

00:23.430 --> 00:27.060
، كل انتقال يتعلمه ، كل عشر انتقالات.

00:27.060 --> 00:29.340
هذا هو بالضبط نفس الشيء من قبل.

00:29.340 --> 00:34.740
لكن بدلاً من الحصول على هدف واحد ، مكافأة واحدة لكل خطوة ، سيكون لدينا هدف تراكمي

00:34.740 --> 00:40.710
على عشر خطوات ومكافأة تراكمية على عشر خطوات ، وسنتعلم في الخطوات العشر في كل مرة.

00:40.710 --> 00:44.900
لذلك نحن نتعلم من خلال عشر انتقالات ، عشر خطوات بدلاً من خطوة واحدة كما في السابق.

00:44.910 --> 00:50.250
وبهذا ستعمل أعيننا على صنع العجائب وهذا سيجعل بعض العجائب لعملية التدريب.

00:50.250 --> 00:53.730
كما تعلم ، سيستغرق التدريب وقتًا أقل بكثير بفضل هذه التقنية.

00:53.730 --> 00:58.740
لكن علينا أن نحدد تجربة ، نعيدها إلى أننا نتعلم كل عشر خطوات.

00:58.740 --> 01:04.710
ولهذا السبب فإن إعادة هذه التجربة ليست تطبيقًا كلاسيكيًا لإعادة تشغيل التجربة مثل تلك الخاصة بالسيارة

01:04.710 --> 01:06.000
ذاتية القيادة.

01:06.030 --> 01:12.390
إنها تجربة إعادة التنفيذ مع مراعاة هذه الخطوات العشر للتعلم ، وبالتالي ستجد

01:12.390 --> 01:18.810
في هذه التجربة صفين ، فئة واحدة تجعل عينك تتقدم خلال عشر خطوات حتى تتمكن من تلخيص

01:18.810 --> 01:23.220
المكافآت التي لوحظت في هذه الخطوات العشر.

01:23.220 --> 01:24.390
هذه هي الدرجة الأولى.

01:24.390 --> 01:29.490
ونحتاج إلى هذه الفئة لأننا نحتاج إلى تضمين هذه الخطوات العشر في فئة ذاكرة إعادة التشغيل ، وهي الفئة

01:29.490 --> 01:31.560
التي نطبقها لإعادة تشغيل التجربة.

01:31.560 --> 01:36.960
وبهذه الطريقة نتأكد من أن الذاكرة تأخذ أيضًا في الحسبان حقيقة أننا نتعلم في

01:36.960 --> 01:37.770
عشر خطوات.

01:37.770 --> 01:41.610
لهذا السبب ستجد فئتين في تطبيق إعادة التجربة هذا.

01:41.610 --> 01:47.130
ولكن هذا فقط لأخذ في الاعتبار أننا نتعلم من خلال عشر خطوات ، ويجب أن يؤخذ ذلك في الاعتبار

01:47.130 --> 01:48.870
أيضًا في الذاكرة.

01:49.140 --> 01:51.780
لذا بالحديث عن ذاكرتنا ، فلنقم بإنشائها.

01:51.780 --> 01:54.600
سنقوم باستدعاء ذاكرتنا.

01:55.140 --> 02:00.270
وهكذا ستكون الذاكرة عنصرًا في فئة ذاكرة إعادة التشغيل.

02:00.270 --> 02:04.740
وفئة ذاكرة إعادة التشغيل هي فئة من هذه التجربة إعادة تشغيل الملف P.

02:04.740 --> 02:08.880
ولذا فإنني آخذ هذا الملف أولاً من ذوي الخبرة في إعادة التشغيل.

02:10.100 --> 02:10.370
ثم.

02:10.370 --> 02:15.770
Dutt وهذا هو المكان الذي آخذ فيه فصل ذاكرة إعادة التشغيل.

02:15.770 --> 02:16.610
في احسن الاحوال.

02:16.610 --> 02:19.720
والآن ، كما ترى ، لدينا مُدخلان ، وسيطان.

02:19.730 --> 02:25.580
الحجة الأولى هي والخطوات التي تتوافق تمامًا مع عدد الخطوات التي

02:25.580 --> 02:27.320
سنتعلم فيها قيم Q.

02:27.320 --> 02:31.910
إذن ، كما تعلمون ، عدد الخطوات التي نراكم عليها الهدف والمكافأة.

02:31.910 --> 02:35.630
لذلك سيكون لدينا هدف تراكمي والمكافأة التراكمية.

02:35.630 --> 02:39.620
ثم الحجة الثانية هي السعة التي تمثل حجم الذاكرة.

02:39.620 --> 02:42.560
على سبيل المثال ، يمكننا هنا رؤية 10000.

02:42.560 --> 02:47.600
لذلك إذا كانت السعة تساوي 10000 ، فهذا يعني أن الذاكرة سيكون حجمها 10000.

02:47.600 --> 02:54.140
وبالتالي هذا يعني أننا سنحصل على ذاكرة أقل بـ 10000 خطوة قام بها الذكاء الاصطناعي.

02:54.170 --> 02:57.170
لكن مرة أخرى ، لن نتعلم كل انتقال.

02:57.170 --> 03:01.700
سوف نتعلم كل عشر خطوات من بين هذه الخطوات العشرة آلاف الأخيرة للذاكرة.

03:01.700 --> 03:05.960
وهذه هي بالضبط هذه الميزة الجديدة التي نقدمها هنا مقارنة بما سبق.

03:05.960 --> 03:08.990
من قبل ، كان لدينا فقط خدعة إعادة الذاكرة هذه.

03:08.990 --> 03:13.940
وهنا لدينا خدعة إعادة تشغيل الذاكرة ، بالإضافة إلى هذه الحيلة لتعلم كل عشر خطوات.

03:13.940 --> 03:18.710
وسنتعلم كل عشر خطوات وسنقوم بذلك في الذاكرة المكونة من آخر

03:18.710 --> 03:19.940
10000 خطوة.

03:19.940 --> 03:27.290
وهذه إعادة التجربة التي يتم دمجها مع تتبع الأهلية بعشر خطوات ستؤدي إلى تحسين أداء

03:27.290 --> 03:29.090
التدريب بشكل كبير.

03:29.240 --> 03:31.040
لذلك دعونا ندخل هاتين الحجتين.

03:31.040 --> 03:38.540
الخطوة الأولى هي الخطوات والتي ستكون مساوية لما هو الآن ، دعنا نقول ، والخطوات.

03:38.540 --> 03:44.810
سنحدد ما هو وخطوة بعد ذلك مباشرةً ، سيكون في الواقع كائنًا من الفئة الأخرى لملف

03:44.810 --> 03:50.960
إعادة تشغيل التجربة ، وهو فئة MN Step Progress ، والذي يسمح بإحراز تقدم AI خلال

03:50.960 --> 03:52.070
عشر خطوات.

03:52.070 --> 03:57.920
وتذكر أنه خلال الخطوات العشر سنلخص المكافآت تحت عشر خطوات للحصول على المكافآت التراكمية

03:57.920 --> 04:01.970
على مدى عشر خطوات ، وهذا هو بالضبط تتبع الأهلية.

04:01.970 --> 04:08.930
والآن ما يتعين علينا القيام به هو إنشاء هذا والخطوات هنا وننشئه مع الفصل الثاني الذي لدينا

04:08.930 --> 04:12.830
في ملف إعادة تشغيل التجربة هذا ، وهو قيد التقدم.

04:12.830 --> 04:15.050
لذلك سنقوم الآن بإنشاء خطوات نهائية.

04:16.170 --> 04:16.980
مثله.

04:17.220 --> 04:28.200
وسيكون هذا أحد عناصر فصل MN Step Progress الذي نأخذه مرة أخرى من تجربتنا.

04:28.620 --> 04:30.450
إعادة الملف.

04:30.720 --> 04:31.570
هناك نذهب.

04:31.590 --> 04:32.570
هذه هي الخطوة النهائية.

04:32.580 --> 04:33.480
فئة التقدم.

04:33.480 --> 04:35.490
والآن علينا إدخال ثلاث حجج.

04:35.520 --> 04:40.920
كما ترون ، علينا إدخال البيئة ، وهي بيئة العذاب التي استوردناها هنا.

04:40.950 --> 04:47.520
ثم الحجة الثانية هي الذكاء الاصطناعي الخاص بنا وسيكون هذا بالطبع هو الذكاء الاصطناعي الذي أنشأناه هنا في

04:47.520 --> 04:48.600
قسم المعاينة.

04:48.840 --> 04:51.270
والحجة الأخيرة هي نهاية الخطوة.

04:51.270 --> 04:57.060
وهذا هو المكان الذي سنحدد فيه أننا نريد عشر خطوات ، كما تعلمون ، لتعلم كل عشر خطوات.

04:57.060 --> 04:58.740
أي كل عشر انتقالات.

04:58.950 --> 05:01.050
لذلك دعونا ندخل هذه الحجج.

05:01.050 --> 05:04.230
الأول هو البيئة ، وهذا هلاك.

05:04.740 --> 05:11.590
حسنًا ، الثاني هو الذكاء الاصطناعي الخاص بنا والذي أطلقناه عليه اسم الذكاء الاصطناعي.

05:11.610 --> 05:12.620
هذا هو هنا.

05:12.630 --> 05:16.530
إذن هذا هو مجرد اسم وسيطة فئة تقدم الخطوة النهائية.

05:16.530 --> 05:20.850
وهذا الذكاء الاصطناعي هنا هو الذكاء الاصطناعي الخاص بنا ، الذي بنيناه.

05:21.060 --> 05:26.610
ثم تكون الوسيطة الأخيرة هي خطوة النهاية ، وهي تساوي عشرة.

05:27.000 --> 05:27.690
حسنا.

05:27.690 --> 05:33.270
لذا في الوقت الحالي ، نحن فقط نأخذ في الاعتبار في الذاكرة أن هناك تعلمًا في عشر خطوات.

05:33.270 --> 05:36.780
وهذا التعلم على عشر خطوات يسمى تتبع الأهلية.

05:36.960 --> 05:39.450
لذلك نحن نعمل حقًا على الأشياء المتقدمة هنا.

05:39.450 --> 05:44.060
لكن تذكر أنه لأننا نحاول أن نكون أغبياء ، فهذا لا يشبه صنع قطعة من الكعكة.

05:44.070 --> 05:47.310
لذلك نحن بحاجة إلى هذه التقنيات المتقدمة لإنجاحها.

05:47.430 --> 05:53.370
لذلك نحن الآن جاهزون تقريبًا قبل الانتقال إلى الخطوة التالية ، والتي ستكون في الواقع حول تنفيذ

05:53.370 --> 05:54.610
تتبع الأهلية.

05:54.630 --> 06:01.590
الشيء الوحيد الذي يتعين علينا تضمينه هو السعة ، بالطبع ، وهذا هو ، لنقل ، 10000.

06:01.980 --> 06:09.210
سيكون حجم الذاكرة 10000 ، مما يعني أن الذاكرة ستحتوي على آخر 10000 خطوة قام بها الذكاء الاصطناعي

06:09.210 --> 06:13.740
وهذا سيسمح لنا بتوليد بعض الدفعات الصغيرة.

06:13.740 --> 06:19.470
كما تتذكر ، مع وظيفة العينة ، كما تعلم ، تحتوي الذاكرة على 10000 انتقال ، ولكن لتدريب الذكاء الاصطناعي

06:19.470 --> 06:25.560
، سنقوم بأخذ عينات من بعض المجموعات الصغيرة المكونة من عشرة انتقالات ، وليس واحدة مقارنة قبل عشر انتقالات

06:25.590 --> 06:27.000
هذه المرة.

06:27.000 --> 06:32.790
وسنقوم بتجربة هذه المجموعات الصغيرة المكونة من عشر انتقالات في الذاكرة المكونة من 10000 خطوة أخيرة.

06:33.300 --> 06:33.720
حسنا.

06:33.720 --> 06:38.730
لذا أعتقد الآن أننا مستعدون للانتقال إلى الخطوة التالية ، والتي تتعلق بتنفيذ تتبع

06:38.730 --> 06:39.330
الأهلية.

06:39.330 --> 06:41.490
لذلك سنخوض بعض المغامرة هنا.

06:41.490 --> 06:43.560
لن يكون هذا تنفيذًا بسيطًا.

06:43.560 --> 06:45.090
لذا خذ استراحة جيدة.

06:45.090 --> 06:47.580
وعندما تكون جاهزًا ، يمكننا مهاجمة هذا.

06:47.700 --> 06:48.860
حتى ذلك الحين ، استمتع.

06:48.870 --> 06:49.260
أنا.