WEBVTT

00:00.600 --> 00:02.490
أهلا ومرحبا بكم في هذا البرنامج التعليمي.

00:02.580 --> 00:09.980
لذا فقد قام الوكيل الآن باستكشافه ومن ثم ما هو على وشك القيام به هو تحديث الشبكة المشتركة.

00:09.990 --> 00:14.770
لذا فإن أول شيء سنفعله هو بدء المكافأة التراكمية.

00:14.790 --> 00:22.320
سنسميها R ، وسنقوم بتهيئتها على أنها موتر شعلة.

00:22.470 --> 00:25.920
لكن هذا سيكون له أبعاد واحدًا تلو الآخر لأنه مجرد قيمة.

00:25.920 --> 00:27.590
لكننا نريده أن يكون موترًا.

00:27.600 --> 00:33.330
ولذا أستخدم هنا نقطة الصفر ثم واحدًا.

00:33.510 --> 00:41.820
لذلك يتم تهيئة المكافأة التراكمية إلى صفر OC ثم نفس الشيء إذا لم ننتهي.

00:41.820 --> 00:43.590
هذا إذا كانت اللعبة لم تنته بعد.

00:43.590 --> 00:50.160
ما نريده الآن هو أن تكون المكافأة التراكمية مساوية لقيمة آخر مجموعة وصلت إليها الشبكة

00:50.160 --> 00:51.240
المشتركة.

00:51.630 --> 00:58.590
لذلك سنحصل على ناتج القيمة ، وقيمة ناتج الدالة V لنموذجنا ، وهذه هي القيمة التي

00:58.590 --> 01:01.410
سنعطيها للمكافأة التراكمية.

01:01.500 --> 01:03.810
لذلك دعونا أولاً نحصل على هذه القيمة.

01:04.110 --> 01:11.400
يمكننا الحصول على القيمة بهذه الطريقة بعد ذلك ، كما تعلمون ، نظرًا لأننا نريد فقط القيمة التي يمكننا إضافتها هنا ،

01:11.400 --> 01:18.150
ووضع تسطير أسفل السطر ثم تسطير أسفل السطر مرة أخرى ، ثم نحصل على نموذجنا لأنه سينتج هذه القيمة ، ولكن فقط الناتج

01:18.150 --> 01:19.590
الأول للنموذج .

01:19.620 --> 01:25.260
بفضل هذه الشرطة السفلية المزدوجة هنا وهنا ، يمكننا فقط نسخ ولصق ما لدينا هنا.

01:25.290 --> 01:32.990
هذا هو إدخال النموذج مع المدخلات والصور وجميع الحالات المخفية وحالات الخلية.

01:33.000 --> 01:37.320
لذلك أنا ألصق ذلك فقط وها نحن ذا ، سنحصل على القيمة.

01:37.620 --> 01:43.140
والآن ما سنفعله هو إعطاء هذه القيمة.

01:43.260 --> 01:47.670
لذلك سيكون الكل مساويًا للقيمة والوصول إلى القيمة.

01:47.670 --> 01:49.350
نضيف هذه البيانات هنا.

01:49.590 --> 01:50.220
حسنا.

01:50.220 --> 01:57.240
الآن تم تنفيذ شرط if والآن ما سنفعله ، نظرًا لأننا حصلنا للتو على قيمة جديدة من خلال ، كما تعلمون ،

01:57.240 --> 02:03.000
الحصول على ناتج النموذج ، الناتج الأول للنموذج ، حسنًا ، دعنا نلحق بالفعل هذه القيمة

02:03.030 --> 02:05.250
الجديدة لقوائم القيم.

02:05.250 --> 02:13.440
لذلك ، يمكننا أخذ قائمة القيم مباشرة ، ثم dot append وإدخال المتغير.

02:14.560 --> 02:19.630
آه ، لأننا يحتوي على هذه القيمة الأخيرة رائعة جدًا.

02:19.630 --> 02:25.090
الآن سنقوم بتهيئة الخسائر وتذكر محاضرات الحدس.

02:25.090 --> 02:26.200
لديك خسارتان.

02:26.200 --> 02:28.150
لقد فقدت السياسة.

02:28.150 --> 02:31.630
هذا هو آخر ما يتعلق بتوقعات الوكيل.

02:31.630 --> 02:36.010
وبعد ذلك يكون لديك خسارة في القيمة ، وهي الخسارة المتعلقة بتنبؤات الناقد.

02:36.010 --> 02:39.640
لذلك سنقدم هذين المتغيرين ونبدأهما حتى الصفر.

02:39.640 --> 02:46.420
وبالتالي ، سأأخذ هنا السياسة الأولى لخسارة السياسة المتغيرة ، وقم بتهيئتها إلى الصفر ثم

02:46.420 --> 02:51.130
خسارة القيمة ، وخسارة القيمة ونفسها ، وتهيئتها إلى الصفر.

02:51.700 --> 02:57.820
ثم دعونا لا ننسى تعيين المكافأة التراكمية كمتغير شعلة لأننا سنحتاجها لتكون متغيرًا

02:57.820 --> 03:02.740
كليًا لأننا سنحسب تدرجًا فيما يتعلق بها ، لأن المكافأة التراكمية

03:02.740 --> 03:05.650
ستكون مصطلحًا لخسارة القيمة.

03:05.650 --> 03:09.670
مع هذا المتغير ، يتم الآن إرفاقه بالرسوم البيانية الديناميكية ذات التدرج اللوني.

03:10.300 --> 03:15.610
والآن أخيرًا آخر شيء يتعين علينا القيام به قبل بدء حلقة التدريب الكبيرة ، كما

03:15.610 --> 03:20.590
تعلمون ، عندما نطبق شبكة عشوائية بهذا المعنى لتقليل هذه الخسارة بين التنبؤات

03:20.590 --> 03:28.120
والأهداف ، حسنًا ، نحتاج إلى تهيئة الميزة العامة التقدير وعدم الحصول عليه التشفير التلقائي.

03:28.120 --> 03:29.170
كن حذرا مع ذلك.

03:29.170 --> 03:35.320
J المتغير الذي نحن بصدد تهيئته الآن هو تقدير الميزة المعمم.

03:35.320 --> 03:42.460
وللتذكير ، فإن تقدير الميزة المعمم هو بحكم التعريف ميزة تشغيل الإجراء "أ"

03:42.460 --> 03:45.010
من خلال مراقبة الحالة.

03:45.010 --> 03:46.720
إذن فهي دالة للعمل.

03:46.720 --> 03:47.560
أ والدولة.

03:47.560 --> 03:54.610
S وهي تساوي الفرق بين قيم Q q a s وقيمة الدالة V.

03:54.610 --> 03:56.680
لذلك في الواقع يمكنني كتابتها هنا.

03:57.400 --> 04:04.690
تقدير الميزة المعمم هو دالة أ للإجراء والحالات والتي تساوي

04:04.690 --> 04:07.330
قيم Q للإجراء.

04:07.330 --> 04:08.260
أ والدولة.

04:08.260 --> 04:12.580
S ناقص قيمة الدالة V المطبقة على الحالة.

04:12.580 --> 04:18.940
S هذا هو تقدير الميزة المعمم ، وهذا ما نريد تهيئته الآن.

04:18.940 --> 04:20.770
وسنقوم بتهيئته على الصفر.

04:21.280 --> 04:22.930
لكن يجب أن تكون راقصة شعلة.

04:22.930 --> 04:27.410
لذلك سنستخدم نفس الحيلة مثل ما فعلناه للتو هنا.

04:27.430 --> 04:35.260
سنأخذ مكتبة الشعلة ونطبق دالة الصفر لضبطها كموتر بقيمة واحدة فقط

04:35.260 --> 04:36.640
، وهي صفر.

04:36.970 --> 04:44.490
وسنقدم هذا المتغير الجديد ، G ، والذي سيكون مساويًا لتلك الشعلة التي بها أصفار واحد

04:44.500 --> 04:46.510
عند التهيئة للصفر.

04:46.510 --> 04:48.550
لذلك سيتم تهيئته إلى الصفر.

04:48.550 --> 04:50.710
وبالتالي فإن قيم Q للإجراء.

04:50.710 --> 04:55.120
أ وستكون الحالة مساوية لقيمة الدالة V للحالة.

04:55.660 --> 04:56.170
حسنا.

04:56.170 --> 04:58.630
والآن نحن جاهزون لبدء حلقة for.

04:58.630 --> 05:00.340
لذلك سنخوض بعض المغامرة هنا.

05:00.340 --> 05:04.570
لذا خذ استراحة جيدة وسأراك في البرنامج التعليمي التالي لمهاجمة ذلك.

05:04.570 --> 05:05.710
حتى ذلك الحين ، استمتع.

05:05.710 --> 05:06.150
أنا.
