WEBVTT

00:00.180 --> 00:02.250
أهلا ومرحبا بكم في هذا البرنامج التعليمي.

00:02.280 --> 00:08.400
سيكون هذا البرنامج التعليمي الخاص مثيرًا للغاية لأننا نقترب من خوارزمية a3c.

00:08.430 --> 00:13.890
سترى أن ما نحن بصدد تنفيذه ، والذي يسمى تتبع الأهلية أو مصدرها ، هو في الواقع

00:14.280 --> 00:19.830
خوارزمية للنقد النشط غير المتزامن ، والوكلاء ، والخوارزميات ، ولكن لا

00:19.830 --> 00:24.900
يمكننا اعتباره A3 C لأننا لا يزال لدينا وكيل واحد ، ولكن ما زلت سترى

00:24.900 --> 00:31.230
أن ما نحن بصدد تنفيذه مأخوذ بالفعل من الورقة التالية ، وهي هذه الورقة كطرق متزامنة

00:31.230 --> 00:33.690
للتعلم المعزز العميق.

00:33.690 --> 00:39.660
وفي هذه الورقة ستجد الخوارزميات الرئيسية الثلاثة التي سنطبقها كمكافأة أخيرة

00:39.660 --> 00:40.770
لهذه الدورة.

00:40.770 --> 00:47.760
لكن كما قلت ، نحن نقترب منه لأن النموذج الذي سنطبقه الآن هو في الواقع هذا النموذج

00:48.210 --> 00:50.850
، غير المتزامن والخطوة.

00:50.850 --> 00:51.600
س التعلم.

00:51.600 --> 00:52.620
هذا هو.

00:52.620 --> 00:57.930
هذا هو المفتاح الثلاثة تقريبًا ، وهو المفتاح بعد ذلك ، ولكن مع وكيل واحد.

00:57.930 --> 01:04.020
والشيء القوي في هذا هو هذا وخطوة التعلم Q ، سوف نتعلم المكافآت التراكمية ونتعلم

01:04.020 --> 01:09.420
الهدف التراكمي في خطوات النهاية بدلاً من خطوة واحدة كما في السابق.

01:09.420 --> 01:14.940
وهذا ما سيجعل التدريب أكثر أداءً وبالتالي الذكاء الاصطناعي لدينا أكثر قوة.

01:15.000 --> 01:18.750
إذن لدينا بالفعل الرمز الكاذب لهذه الخوارزمية.

01:18.750 --> 01:20.970
إنها هذه الخوارزمية هنا.

01:20.970 --> 01:23.130
لذلك دعونا نضغط عليها وها نحن ذا.

01:23.130 --> 01:25.680
هذه هي الخوارزمية التي نحن على وشك تنفيذها.

01:25.680 --> 01:32.310
لكن تذكر ، مع وكيل واحد فقط ، يتمثل الاختلاف في أنهم هنا يتخذون إجراءً ما وفقًا لسياسة

01:32.310 --> 01:37.950
Epsilon الجشعة بناءً على قيم Q للحالة الحالية والإجراء الذي تم لعبه.

01:37.950 --> 01:41.820
لكن في جميع الأحوال ، لم ننفذ سياسة إبسيلون الجشعة.

01:41.820 --> 01:45.030
قمنا بتطبيق حد أقصى ناعم ، لكن الباقي هو نفسه.

01:45.030 --> 01:50.700
كما ترى ، سنحسب المكافأة التراكمية في خطوات النهاية ، في الواقع عشر خطوات ، تذكر ذلك.

01:50.700 --> 01:52.170
والخطوات تساوي عشرة.

01:52.170 --> 01:57.930
ولذا سنقوم بتنفيذ هذا السطر من التعليمات البرمجية في الخوارزمية التي نحن على وشك تنفيذها الآن.

01:57.930 --> 02:01.920
سنحصل على هذا وفي الغالب سنقوم بتنفيذ ذلك أيضًا.

02:01.920 --> 02:07.530
سترى أننا سنحصل على الحد الأقصى لقيم Q للحالة الحالية والإجراء الحالي.

02:07.530 --> 02:10.950
وهذه ثيتا هنا هي فقط المعلمة الهدف.

02:11.160 --> 02:15.180
لنفعل هذا ، فلنهاجم هذه الخوارزمية.

02:15.180 --> 02:21.420
يُطلق على هذا التلوين غير المتزامن والتلوين التدريجي ، لكن ليس لدينا الحق في القول بأنه غير متزامن

02:21.420 --> 02:27.090
بقدر ما نشعر بالقلق ، لأن لدينا وكيلًا واحدًا فقط ، ولكن يمكننا تسميته N الخطوة Q أهلية التعلم

02:27.090 --> 02:29.220
أو التتبع أو حتى المصدر.

02:30.090 --> 02:31.620
حسنًا ، لنفعل هذا.

02:31.620 --> 02:32.880
سيكون الأمر ممتعًا جدًا.

02:32.880 --> 02:37.230
يمكننا بشكل أساسي اتباع الرمز الكاذب هنا ، وهذا ما سنفعله.

02:37.230 --> 02:43.980
وكما ترى ، فإن المعامل الذي سنحتاجه هو جاما ، معلمة جاما التي هي معامل الانحلال.

02:43.980 --> 02:50.190
وبالتالي سنبدأ بإدخال متغير لمعامل جاما واختيار قيمة.

02:50.550 --> 02:51.690
لذلك دعونا نفعل هذا.

02:51.690 --> 02:53.910
نحن في الواقع لا نحتاج إلى فصل دراسي لتنفيذ ذلك.

02:53.910 --> 02:58.740
يمكننا ببساطة تنفيذ هذا باستخدام دالة لأنك تعلم أننا لا نحتاج حقًا إلى إنشاء كائنات

02:58.740 --> 03:00.720
لنموذج تتبع الأهلية هذا.

03:00.720 --> 03:06.690
ستكون الوظيفة كافية لأن ما نريد القيام به أساسًا هو إعادة المدخلات والأهداف بحيث نكون

03:06.690 --> 03:13.170
مستعدين لاحقًا عند تدريب الذكاء الاصطناعي لتقليل المسافة بين التنبؤات والأهداف.

03:13.170 --> 03:18.390
وللحصول على التنبؤات نحتاج إلى المدخلات لأننا سنقوم بتطبيق دماغنا على المدخلات للحصول

03:18.390 --> 03:19.530
على إشارات الخرج.

03:19.530 --> 03:21.060
ستكون تلك توقعاتنا.

03:21.060 --> 03:26.700
وبعد ذلك ، بمجرد أن نحصل على توقعاتنا وأهدافنا ، سنكون مستعدين لتدريب الذكاء الاصطناعي من خلال

03:26.700 --> 03:30.420
محاولة تقليل المسافة المربعة بين التنبؤات والأهداف.

03:30.420 --> 03:32.070
هذا هو بيت القصيد من القيام بذلك.

03:32.070 --> 03:32.610
فى الحال.

03:32.610 --> 03:37.950
نحن ننفذ هذه الوظيفة لنكون قادرين على إعادة هذه المدخلات في هذه الأهداف حتى نتمكن من الاستعداد

03:37.950 --> 03:42.600
للتدريب لتقليل تنبؤات المسافة المربعة مطروحًا منها الأهداف.

03:42.840 --> 03:44.100
حسنًا ، لنفعل هذا.

03:44.100 --> 03:46.320
كما قلنا ، نريد تنفيذ وظيفة.

03:46.320 --> 03:47.430
نبدأ مع def.

03:47.430 --> 03:52.680
هذه الوظيفة ، سنسميها تتبع تسطير أسفل السطر.

03:52.680 --> 03:54.000
يمكنك أيضا تسميتها المصدر.

03:54.150 --> 03:59.670
يمكنك أيضًا تسميته وكتابة التلوين ، كل ما تريد ، ولكن دعنا نسميه تتبع الأهلية.

03:59.670 --> 04:06.030
وستأخذ هذه الوظيفة حجة واحدة والتي ستكون دفعة ولماذا تقوم بالدفعة.

04:06.060 --> 04:12.570
ذلك لأننا سنحصل على بعض المدخلات وبعض الأهداف لأننا سنقوم بتدريب الذكاء الاصطناعي على

04:12.570 --> 04:13.320
دفعات.

04:13.320 --> 04:17.190
وهكذا ستدخل المدخلات والأهداف داخل بعض الدفعات.

04:17.190 --> 04:23.430
وبالتالي ، فإن وسيطة الإدخال هنا هي هذه الدفعة التي ستحتوي على عدة مدخلات ثم عدة

04:23.430 --> 04:24.840
أهداف سنحسبها.

04:25.260 --> 04:26.670
لذا ها نحن ذا.

04:26.670 --> 04:28.230
هذه هي الحجة الوحيدة التي نحتاجها.

04:28.260 --> 04:31.860
الآن ، دعنا نذهب داخل الدالة ودعنا نحدد ما يتعين علينا القيام به.

04:32.130 --> 04:37.350
لذا كما رأينا في الشفرة الزائفة للورقة ، نحتاج إلى معلمة جاما.

04:37.350 --> 04:44.490
لذلك كما قلنا ، نبدأ بإدخال معلمة جاما هذه بحيث تساوي جاما ويمكننا بالفعل تحديد

04:44.490 --> 04:48.150
القيمة وسنختار 4. 99.

04:48.180 --> 04:50.370
هذه قيمة كلاسيكية جيدة لجاما.

04:50.370 --> 04:54.930
ولا داعي للقلق ، لقد تحققت من أن هذه قيمة جيدة للذكاء الاصطناعي الخاص بنا.

04:55.500 --> 04:56.970
حسنًا ، ثم الخطوة التالية.

04:56.970 --> 04:59.670
الخطوة التالية هي تحضير مدخلاتنا.

05:00.740 --> 05:04.950
وأهدافنا لأن هذا هو بالضبط ما نريد العودة إليه.

05:04.970 --> 05:08.300
نريد إعادة المدخلات والأهداف لإعداد التدريب.

05:08.750 --> 05:12.860
ولذا يمكننا بالفعل تهيئتها بقائمة فارغة.

05:12.860 --> 05:17.720
لأنه ، بالطبع ، في هذه المدخلات داخل الدفعة ، سيكون لدينا العديد من المدخلات في

05:17.720 --> 05:18.320
قائمة.

05:18.320 --> 05:23.660
ولهذا السبب أقوم بتهيئة المدخلات كقائمة بالإضافة إلى الأهداف.

05:24.080 --> 05:24.830
هناك نذهب.

05:24.830 --> 05:27.320
لذلك قمنا بتهيئة مدخلاتنا في هدفنا.

05:27.320 --> 05:31.430
وفي النهاية ، ستعود وظيفة تتبع الأهلية هذه.

05:31.430 --> 05:32.240
بالضبط.

05:32.240 --> 05:35.480
وبطبيعة الحال ، تم ملء هذه المدخلات وهذه الأهداف.

05:36.110 --> 05:41.360
سيكون لدينا العديد من المدخلات والأهداف العديدة المرتبطة بها في ما سيتم إرجاعه بواسطة الوظيفة.

05:42.140 --> 05:42.470
حسنا.

05:42.470 --> 05:43.130
الخطوة التالية.

05:43.130 --> 05:45.650
الخطوة التالية هي تخزين الحلقة for.

05:45.650 --> 05:51.320
وهذا بالضبط لأننا نتبع الكود الزائف للورقة ، هذه المجموعة من الأكواد.

05:51.320 --> 05:57.290
وكما ترى ، يوجد قسم الكود المكرر هذا ويكرره بالضبط في حلقة كاملة.

05:57.440 --> 06:03.710
إذن ، الكود الذي سنقوم بحساب المكافأة التراكمية هنا تراكمت عبر الخطوات العشر.

06:03.710 --> 06:05.090
وكيف يتم حسابها؟

06:05.090 --> 06:07.880
حسنًا ، في كل خطوة ، هذه ليست الخطوة الأخيرة.

06:07.880 --> 06:12.980
سنحصل على الحد الأقصى لقيم Q للحالة الحالية التي نحن فيها خلال هذا والخطوات.

06:12.980 --> 06:17.720
وإذا وصلنا إلى المجموعة الأخيرة من الخطوات العشر ، فهذا سيساوي صفرًا.

06:17.720 --> 06:19.490
أي أننا لا نريد تحديثه بعد الآن.

06:19.820 --> 06:23.210
ثم لدينا حلقة for هذه ، والتي ستكون حلقة for أخرى.

06:23.210 --> 06:25.490
لا يقولون كرر هنا ، لكن هذا هو نفسه.

06:25.490 --> 06:28.310
ستكون حلقة for ثانية في خوارزميتنا.

06:28.310 --> 06:34.640
حسنًا ، سنقوم بتحديث المكافأة بهذه الطريقة بضربها في معامل الاضمحلال جاما وإضافة

06:34.640 --> 06:35.480
المكافأة.

06:35.720 --> 06:36.830
لذلك دعونا نفعل هذا.

06:36.830 --> 06:40.250
دعنا نعود إلى بايثون ودعنا نبدأ حلقة for.

06:40.490 --> 06:44.840
إذن أربعة وماذا سيكون المتغير المتكرر؟

06:44.840 --> 06:50.180
حسنًا ، هذه ستكون سلسلة الخطوات العشر ، سلسلتنا المكونة من عشر انتقالات.

06:50.180 --> 06:57.530
لذلك سنسمي هذه السلسلة المتغيرة التي تمثل سلسلة من عشرة انتقالات مثل سلسلة من عشرة

06:57.530 --> 06:58.610
انتقالات.

06:58.610 --> 07:00.830
حتى أربع سلاسل في.

07:00.920 --> 07:02.330
ثم ما رأيك؟

07:02.330 --> 07:07.970
حسنًا ، ستنتمي سلسلتنا إلى مجموعتنا ، وهي الدُفعات التي سنقوم بتدريب الذكاء الاصطناعي عليها.

07:08.000 --> 07:14.390
وهكذا بالنسبة للسلسلة على دفعات ، هذا هو لكل سلسلة من عشر انتقالات في دفعة الإدخال الخاصة بنا.

07:14.570 --> 07:16.460
حسنا ماذا سنفعل.

07:16.940 --> 07:21.890
حسنًا للحصول على المكافأة التراكمية ، سترى في الشفرة الزائفة أننا بحاجة إلى

07:21.890 --> 07:26.480
حالة الانتقال الأول للسلسلة وأيضًا حالة الانتقال الأخير للسلسلة.

07:26.480 --> 07:29.840
إذن ما يتعين علينا فعله الآن هو الحصول على حالات الإدخال هذه.

07:29.840 --> 07:36.590
لذلك سنضع هاتين الحالتين في متغير نسميه الإدخال ، وسنحصل على حالتين

07:36.590 --> 07:42.170
الإدخال ، الأولى من المتسلسلة والأخيرة التي سنضعها

07:42.170 --> 07:45.260
في مجموعة غير حيوية.

07:45.590 --> 07:48.310
لكن لا تقلق ، لن نبقى مع مجموعة الأرقام هذه.

07:48.320 --> 07:50.900
سنحول ذلك بالطبع إلى متغير إجمالي.

07:50.900 --> 07:56.660
لكن الخطوة الأولى هي وضع هذه في حالات الإدخال ، الأولى في الأخيرة في مصفوفة.

07:57.050 --> 08:03.260
وهكذا هنا في هذه المصفوفة الصغيرة ، نضيف الإدخال الأول ، وهو حالة الإدخال

08:03.260 --> 08:06.380
لأول انتقال للسلسلة ، وهي السلسلة.

08:07.780 --> 08:11.340
ثم نأخذ الانتقال الأول ، نأخذ الفهرس صفر للسلسلة.

08:11.350 --> 08:12.820
هذا هو الانتقال الأول.

08:13.090 --> 08:17.830
ومن ثم يمكننا الوصول إليها من خلال أخذ صفتها ، وهي الدولة.

08:18.040 --> 08:24.220
وذلك لأنه في ملف إعادة التشغيل الخاص بخبرتنا ، قمنا بتعريف هيكل خاص لكل عملية انتقال

08:24.220 --> 08:29.350
وأنت تعلم ، الهيكل ، كل انتقال يتكون من حالة ، إجراء ، مكافأة.

08:29.350 --> 08:31.840
ولكن بعد ذلك العنصر الأخير الذي يتم.

08:31.840 --> 08:37.660
لذا فإن هذه البنية الخاصة التي يُسمح لنا باستخدامها الآن تأتي من الطريقة التي حددنا بها الانتقال

08:37.660 --> 08:38.830
في إعادة التجربة.

08:39.160 --> 08:39.490
حسنا.

08:39.490 --> 08:45.640
وبهذا ، نحصل على حالة الإدخال الخاصة بالانتقال الأول والآن دعنا نحصل أيضًا على حالة

08:45.640 --> 08:48.490
الإدخال لآخر انتقال في السلسلة.

08:48.490 --> 08:49.930
وللقيام بذلك ، نفس الشيء.

08:49.930 --> 08:51.910
يمكننا فقط نسخ هذا.

08:53.320 --> 09:00.310
وقم بتأسيسه واستبدال الصفر هنا بالفهرس الأخير من السلسلة ، والذي يمكننا الوصول إليه بهذه الخدعة

09:00.310 --> 09:07.420
مطروحًا منها سلسلة واحدة ، مطروحًا منها أن الحالات ستحصل على حالة الإدخال لآخر انتقال للسلسلة.

09:08.140 --> 09:14.410
حسنًا ، إذن علينا وضع هذين العنصرين داخل بعض الأقواس المربعة.

09:15.130 --> 09:18.310
لأن هذا هو ما تتوقعه وظيفة الحكم.

09:18.700 --> 09:25.300
ثم هناك شيء مهم يجب القيام به لأننا سنحول ذلك إلى موتر شعلة ومتغير

09:25.300 --> 09:26.020
شعلة.

09:26.020 --> 09:31.680
حسنًا ، تذكر أن موتر الشعلة هو بالتعريف مصفوفة خاصة تحتوي على نوع واحد.

09:31.690 --> 09:34.510
ولذا علينا فرض نوع واحد.

09:34.510 --> 09:37.540
وكالعادة ، سنختار نوع الطفو.

09:37.540 --> 09:48.520
لذا أقوم بإضافة هذه المعلمة هنا من النوع D يساوي و P dot float 32 يمكن أن تأخذ هذه المعلمة والآن يمكننا تحويلها

09:48.520 --> 09:52.300
إلى موتر شعلة ومتغير شعلة.

09:52.300 --> 09:57.340
لنفعل هذا للقيام بذلك بشكل جيد ، أولاً ، دعنا نحول ذلك إلى مستشعر شعلة.

09:57.340 --> 10:02.590
وتذكر ، يمكننا استخدام الشعلة من NumPy.

10:03.700 --> 10:10.990
ثم نذهب ونضع كل مصفوفة حالتين الإدخال داخل موتر الشعلة هذا مع الشعلة منها حسب

10:10.990 --> 10:12.220
الوظيفة.

10:12.340 --> 10:13.120
في احسن الاحوال.

10:13.120 --> 10:18.060
لذلك سيحول هذا المصفوفات من حالة الإدخال إلى مستشعر الشعلة.

10:18.070 --> 10:24.250
والآن نضع موتر الشعلة هذا في متغير شعلة باستخدام الفئة المتغيرة.

10:25.350 --> 10:28.220
لذلك سيكون الإدخال كائنًا من فئة المتغير.

10:28.230 --> 10:35.970
وفي الواقع ، كما فهمت ، تأخذ هذه الفئة المتغيرة كل هذا كوسيطة وتخلق الكائن.

10:36.510 --> 10:38.270
حسنًا ، الآن يجب أن نكون جيدين.

10:38.280 --> 10:40.770
لدينا المدخلات التي نحتاجها.

10:40.770 --> 10:45.120
هذه هي حالة الإدخال الخاصة بالانتقال الأول وحالة الإدخال الخاصة بالانتقال الأخير.

10:45.580 --> 10:48.840
والآن ، بعد أن أصبح لدينا المدخلات ، حسنًا ، ما الذي يمكننا الحصول عليه؟

10:48.870 --> 10:52.440
يمكننا الحصول على إشارة خرج دماغ العين.

10:52.470 --> 10:53.790
هذا هو التوقع.

10:53.790 --> 10:55.710
لكننا سنسميها ناتجًا.

10:56.520 --> 10:59.120
هذه هي إشارة الخرج وللحصول على الخرج.

10:59.130 --> 11:05.280
حسنًا ، هذا سهل جدًا الآن لأن لدينا دماغًا تم إنشاؤه بالفعل ، وهو شبكتنا العصبية التلافيفية.

11:05.280 --> 11:14.040
ولذا يمكننا ببساطة أن نأخذ مسح الدماغ المطبق على المدخلات التي ستعيد التنبؤ بأن

11:14.040 --> 11:16.590
الناتج بهذه البساطة.

11:16.590 --> 11:19.500
والآن نحن جاهزون بالفعل للانتقال إلى الخطوة التالية.

11:20.510 --> 11:24.810
والخطوة التالية هي البدء في حساب هذه المكافأة التراكمية.

11:24.830 --> 11:31.040
لذلك سنقوم الآن بعمل نفس خوارزمية SE الثنائية ، المصدر ، أو يجب أن نسميها والخطوات.

11:31.040 --> 11:31.820
س التعلم.

11:32.000 --> 11:38.670
سنقوم بتقديم متغير المكافأة التراكمي ، والذي سيكون المكافأة التراكمية.

11:38.690 --> 11:41.000
ودعونا نعود إلى الورقة.

11:41.030 --> 11:45.860
كما ترون الآن ، ما يتعين علينا القيام به للحصول على هذه المكافأة التراكمية ، والتي هي هنا لدينا.

11:45.860 --> 11:53.640
حسنًا ، في كل خطوة من الخطوات العشر ، نحتاج إلى تحديثها بإضافة صفر إلى هذه المكافأة التراكمية.

11:53.660 --> 12:00.020
إذا وصلنا إلى التاريخ الأخير للسلسلة أو الحد الأقصى لقيم Q ، إذا لم نصل إلى آخر حالة من السلسلة

12:00.020 --> 12:03.290
، فهذا لجميع الخطوات باستثناء الخطوة الأخيرة.

12:03.530 --> 12:05.720
لذلك دعونا ببساطة ننفذ هذا.

12:05.910 --> 12:07.130
دعنا نعود إلى بايثون.

12:07.370 --> 12:13.580
إذن هذه المكافأة التراكمية ، كما رأينا للتو ، ستساوي 0. 0.

12:13.970 --> 12:14.660
إذا.

12:15.020 --> 12:18.920
وصلنا إلى التاريخ الأخير ويمكننا ركوب هذا الشرط بهذه الطريقة.

12:19.250 --> 12:28.460
إذا كانت سلسلة من الفهرس مطروحًا منها واحدًا وهو آخر إرسال للسلسلة ، فإننا نضيف ذلك لأن تم فعلاً هو سمة من سمات

12:28.460 --> 12:34.310
بنية الانتقال هذه التي حددناها إعادة تشغيل ذات خبرة ، ملف إعادة التشغيل

12:34.310 --> 12:35.510
ذي الخبرة.

12:35.510 --> 12:42.140
وقد تم ذلك من هياكل الهواء الطلق لأننا إذا ذهبنا إلى موقع صالة الألعاب الرياضية المفتوحة ،

12:42.320 --> 12:44.990
والذي هو في الواقع هنا ، فقد أعددته.

12:44.990 --> 12:47.050
هذا هو الجذر التربيعي للصفر.

12:47.060 --> 12:53.090
وإذا ذهبنا إلى التوثيق ثم إذا كان الأمر كذلك فهذا هو البرنامج التعليمي.

12:53.090 --> 12:55.070
أنا حقا أشجعك على إلقاء نظرة عليه.

12:55.190 --> 13:01.730
يمكنك إدارة بيئة ، ولكن في الغالب يمكنك أن ترى أن ملاحظاتنا ، أي انتقالاتنا يتم

13:01.730 --> 13:05.390
تحديدها من خلال الملاحظة ، والمكافأة.

13:05.390 --> 13:11.780
وهذا يتم هنا وهذا يعني بالضبط أن الانتقال أو الخطوة قد انتهت.

13:11.840 --> 13:15.380
ولذا فإننا سنستخدم ذلك هنا لحالة if الخاصة بنا.

13:15.380 --> 13:23.120
لذلك ، إذا كانت السلسلة مطروحًا منها نقطة واحدة تعني أن الانتقال الأخير للسلسلة قد انتهى ، فهذا يعني أنه قد اكتمل.

13:23.540 --> 13:28.880
وبالتالي فإن هذه المكافأة التراكمية ستكون مساوية للصفر إذا تم الانتقال

13:28.880 --> 13:32.810
الأخير للسلسلة وإلا إذا لم نصل إلى الانتقال الأخير.

13:32.810 --> 13:40.910
حسنًا ، سيتم تحديث المكافأة التراكمية ، كما قلنا ، بالحد الأقصى لقيم Q.

13:40.910 --> 13:47.330
وبما أن هذا الناتج هنا هو ناتج الدماغ ، فهذه هي تنبؤات الشبكة العصبية.

13:47.330 --> 13:51.350
وكما تعلم ، فإن تنبؤات الشبكة العصبية هي قيم قائمة الانتظار المتوقعة.

13:51.350 --> 13:54.830
حسنًا ، يحتوي هذا الإخراج على قيم Q.

13:54.830 --> 14:01.100
ونظرًا لأننا نحتاج إلى أخذ الحد الأقصى لقيم Q ، حسنًا ، نحتاج إلى إضافة هذا الفهرس أولاً

14:01.110 --> 14:07.760
لأن البنية تحتوي على قيم Q في الفهرس الأول ، ثم نحتاج إلى إضافة بيانات للوصول إلى بيانات بنية

14:07.760 --> 14:09.320
الإخراج هذه.

14:09.320 --> 14:11.930
كما تعلم ، لديها الهيكل الخاص لمتغير الشعلة.

14:12.020 --> 14:16.940
وبهذا نحصل على قيم Q الخاصة بنا ثم نرغب في أخذ أقصى قيم Q الخاصة بنا.

14:16.940 --> 14:25.730
وببساطة نضيف Max والآن نحصل على ما نريده بالضبط كما في الورقة ، هذا الحد الأقصى لقيم

14:25.730 --> 14:29.990
Q للحالات غير النهائية مثل T مثالي.

14:29.990 --> 14:36.020
والآن ما سنفعله هو إنشاء حلقة for الثانية هذه للخطوات العشر من المتسلسلة.

14:36.020 --> 14:43.340
سنقوم بتحديث المكافأة التراكمية بهذه الطريقة بضرب معلمة الانحلال بجاما أولاً ، والتي لدينا

14:43.340 --> 14:46.130
بالفعل ، ثم إضافة المكافأة.

14:46.130 --> 14:47.360
لذلك دعونا نفعل هذا.

14:47.360 --> 14:50.840
سنفعل نفس الشيء تمامًا كما في الشفرة الزائفة.

14:50.840 --> 14:55.550
كما تلاحظ ، يبدأون من اليمين ، لذا فهم لا يبدأون بالخطوة الأولى وينتقلون إلى الخطوات

14:55.550 --> 14:56.510
الأخيرة.

14:56.510 --> 15:02.150
يبدأون بالخطوة الأخيرة ، t ناقص واحد حتى الخطوة الأولى للبدء.

15:02.150 --> 15:06.110
هذا هو بالضبط ما سنفعله وهذا لأننا نريد أن نحصل في النهاية

15:06.110 --> 15:15.590
، المكافأة التراكمية التي تساوي R تساوي R صفر زائد جاما r واحد زائد جاما تربيع أو اثنان زائد نقطة نقطة زائد جاما بقوة عشرة

15:15.590 --> 15:24.980
أو عشرة ، حيث أن واحدًا أو اثنين أو عشرة هي المكافآت التي تم الحصول عليها في كل خطوة من خطوات نهاية السلسلة.

15:25.370 --> 15:29.810
لذلك دعونا نأخذ استراحة سريعة قبل أن نأخذ الحلقة الثانية ، وسأراكم في البرنامج التعليمي التالي.

15:29.810 --> 15:31.070
حتى ذلك الحين ، استمتع.

15:31.070 --> 15:31.610
أنا.