WEBVTT

00:00.580 --> 00:03.550
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.550 --> 00:09.310
في قصة اليوم ، نتحدث عن النهائي A في a3c ، نتحدث عن الميزة.

00:09.310 --> 00:10.240
إذن ها هو.

00:10.240 --> 00:17.200
لقد تحدثنا بالفعل عن الممثل والناقد وغير المتزامن سابقًا وببطء في طريقنا إلى ما سننظر

00:17.200 --> 00:18.550
إليه اليوم.

00:18.550 --> 00:21.460
ومع الميزة ، سنجمع كل شيء معًا.

00:21.460 --> 00:23.590
لذلك هذا ما لدينا حتى الآن.

00:23.590 --> 00:30.460
لدينا شبكة عصبية مشتركة بين الوكلاء ، الوكلاء غير المتزامنين ، ثم لدينا الناقد ، والذي

00:30.460 --> 00:33.160
يتم مشاركته أيضًا بين الوكلاء.

00:33.160 --> 00:36.400
إذن كيف يتم كل هذا ولماذا يتم تقاسم هذا النقد بين الوكلاء؟

00:36.430 --> 00:37.390
دعونا نلقي نظرة على ذلك.

00:37.390 --> 00:38.830
حسنًا ، افهم هذا بشكل أفضل.

00:38.830 --> 00:39.790
سنلقي نظرة على مثال.

00:39.790 --> 00:44.680
سننظر إلى هذا الوكيل ، على سبيل المثال ، ونرى ما سيحدث عندما يكون في حالة معينة ويحتاج إلى اتخاذ

00:44.680 --> 00:46.570
قرار بشأن الإجراء الذي سيلعبه.

00:46.570 --> 00:48.700
إذن هذا الوكيل في حالة.

00:48.700 --> 00:50.110
يرى هذه الصورة.

00:50.680 --> 00:55.840
ثم ما يحدث هو أن هذه المعلومات تذهب إلى الشبكة العصبية ، ثم تمر عبر الطبقة التلافيفية

00:55.840 --> 01:00.310
، ثم تنتقل إلى طبقة التجميع ، ثم تنتقل إلى طبقة التسطيح.

01:00.580 --> 01:03.790
وبعد ذلك ينتقل من هناك إلى الطبقات المخفية للشبكة العصبية.

01:03.790 --> 01:10.930
وبعد ذلك ، كمخرج ، يحصل على كل قيم السياسة هذه ، القيم أو السياسة ، وأيضًا يحصل

01:10.930 --> 01:14.110
على القيمة ، القيمة النقدية.

01:14.110 --> 01:21.010
وهكذا ، كما نعلم ، الشبكات العصبية ، لكي تعمل ، تحتاج إلى نشر بعض الأخطاء أو الخسائر مرة

01:21.010 --> 01:22.660
أخرى عبر الشبكة.

01:22.660 --> 01:28.660
وبهذه الطريقة ، من أجل تحديث الأوزان ، فما هي الأوزان أو ما هي الخسائر التي سنتعامل

01:28.660 --> 01:29.440
معها هنا؟

01:29.440 --> 01:30.460
حسنًا ، لدينا خسارتان.

01:30.460 --> 01:32.800
لدينا خسارة القيمة وخسارة السياسة.

01:32.800 --> 01:36.490
لذا فإن خسارة القيمة مرتبطة بخسارة سياسة القيمة مرتبطة بالسياسة.

01:36.730 --> 01:40.570
وبالتالي ، فإن قيمة الخسارة ، تعاملنا معها من قبل.

01:40.570 --> 01:46.360
نعلم أن لدينا مكافآت ونعلم أن لدينا عامل خصم.

01:46.360 --> 01:54.580
إذن ، هذا مشابه جدًا لما كنا نتحدث عنه في دروس التعلم العميق.

01:54.580 --> 02:02.830
بشكل أساسي ، تتوقع الشبكة قيمة معينة V وفي نفس الوقت يمكننا تقدير ما يجب أن يعتمد على ما

02:02.830 --> 02:05.440
نعرفه عن البيئة حتى الآن.

02:05.440 --> 02:10.990
يمكننا تقدير القيمة التي يجب أن تكون عليها V في الحالة وبمقارنة الاثنين يمكننا حساب خسارة القيمة

02:10.990 --> 02:13.660
ثم إعادة نشر الشبكة وتحديث الأوزان.

02:13.660 --> 02:15.070
هذا واضح ومباشر.

02:15.070 --> 02:17.350
الشيء الجديد هنا هو خسارة السياسة.

02:17.470 --> 02:21.490
إذن ما هي خسارة السياسة هذه وكيف تعمل؟

02:21.490 --> 02:28.420
حسنًا ، هذا هو الجزء الذي سيظهر فيه هذا الموقف برمته ، حيث يتم مشاركة

02:28.420 --> 02:32.320
النقد بين الممثلين أو بين الوكلاء.

02:32.320 --> 02:38.560
لفهم فقدان السياسة ، نحتاج إلى تقديم قيمة تسمى الميزة ، ومن هنا جاء اسم هذا الجزء من هذا

02:38.560 --> 02:42.520
البرنامج التعليمي وهذا الجزء الكامل من الخوارزمية.

02:42.520 --> 02:47.650
يتم حساب الميزة والميزة على أنها Q لـ S و A ناقص V لـ S.

02:47.650 --> 02:54.490
إذن ، بشكل أساسي ، قيمة Q التي اخترتها لتشغيل الإجراء الذي اخترت تشغيله في الحالة التي تكون فيها ، على سبيل

02:54.490 --> 02:57.340
المثال ، مطروحًا منها قيمة تلك الحالة.

02:57.340 --> 03:00.640
إذن هذا هو الفرق بين الاثنين وهذا ما يسمى بالميزة.

03:00.640 --> 03:04.690
ويتم استخدام الميزة في حساب خسارة السياسة.

03:04.720 --> 03:09.340
الآن ، لن ندخل في معادلة حساب خسارة السياسة لأنها معقدة للغاية.

03:09.340 --> 03:12.520
إنه يستخدم الانتروبيا أو يمكنه استخدام الانتروبيا ليس بالضرورة.

03:12.880 --> 03:16.960
لن نقوم بتشريح هذه الصيغة ، لكننا سنفهم ذلك على مستوى حدسي.

03:16.960 --> 03:17.740
لماذا نفعل ذلك؟

03:17.740 --> 03:21.430
لماذا نحسب هذه الميزة وكيف ستساعدنا؟

03:21.430 --> 03:23.950
حسنًا ، دعنا ننظر إلى هذا لثانية.

03:23.950 --> 03:30.250
تأتي قيمة Q هنا مما تنبأت به الشبكة العصبية لهذا العامل.

03:30.820 --> 03:36.430
لذلك تنبأ في هذا الإجراء المحدد ، في هذه الحالة المحددة للعمل الذي يمكن أن يلعبه.

03:36.430 --> 03:41.650
لذلك لديه هذه الإجراءات ويمكنه اختيار واحد منهم ويمكنه تشغيله بشكل جيد.

03:41.650 --> 03:46.390
في حين أن قيمة V هي القيمة التي يمليها الناقد.

03:46.390 --> 03:49.990
إنها القيمة التي لدينا هنا في هذا الجزء المشترك.

03:49.990 --> 03:52.240
وهذا هو المفتاح هنا ، أن هذا الجزء مشترك.

03:52.240 --> 03:58.660
لذا فإن الناقد لأن هذه هي الطريقة التي يلعب بها الناقد ، لأن لدينا قيمة نختارها أو الفعل الذي

03:58.660 --> 04:01.750
نختار أن نلعبه لهذا الوكيل في تلك الحالة.

04:01.750 --> 04:07.090
لكن بعد ذلك يمكن للناقد أن يخبرنا ما هي القيمة المعروفة لتلك الدولة؟

04:07.090 --> 04:13.960
ما القيمة الإجمالية المعروفة لهذه المجموعة الكاملة من العملاء الذين يؤدون أداءً معًا؟

04:13.960 --> 04:18.340
لأنهم يشاركون ليس فقط لأنهم يشاركون الطبيعة ، ولكن لأنهم يشاركون الناقد.

04:18.340 --> 04:23.170
إنهم جميعًا يساهمون في هذا في هذه القيم التي يتم حسابها لمواقع مختلفة.

04:23.170 --> 04:28.930
لذا فإن خوارزمية a3c بأكملها تقول ، حسنًا ، لذا يعرف الناقد قيمة V.

04:28.960 --> 04:35.230
ما مقدار قيمة Q التي تختارها بشكل أفضل مقارنة بقيمة V المعروفة؟

04:35.230 --> 04:36.370
هذا ما يقوله.

04:36.370 --> 04:37.840
هذا هو الأساس.

04:37.840 --> 04:44.800
حسنًا ، سأقوم بتحديد قيمة Q هنا بناءً على سياستي ، بناءً على ما إذا كان كل ما نستخدمه مثل

04:44.800 --> 04:50.710
وظيفة soft max أو سياسة جشع epsilon أو شيء من هذا القبيل ، وبالطبع سيكون هناك

04:50.740 --> 04:56.950
استكشاف بالإضافة إلى الاستغلال مجتمعين هناك ، لكننا نختار قيمة Q والآن السؤال

04:56.950 --> 04:59.170
هو ما هو الزائد؟

04:59.170 --> 04:59.640
ما هذا؟

04:59.740 --> 05:00.880
الأفضلية لفرصة الجري.

05:00.910 --> 05:07.630
ما هي الميزة التي يجلبها الإجراء الذي اخترته مقارنة بالقيمة المعروفة لتلك الحالة؟

05:07.630 --> 05:09.370
وهذا هو جوهر الميزة.

05:09.370 --> 05:16.450
وبعد ذلك يتم استخدام ذلك بشكل أساسي لحساب خسارة السياسة ومن ثم يتم إعادة نشر خسارة السياسة مرة

05:16.450 --> 05:17.860
أخرى عبر الشبكة.

05:17.860 --> 05:23.830
لذلك تم نشرهما مرة أخرى عبر الشبكة ويتم تعديل الأوزان من أجل تمثيل الشبكة

05:23.830 --> 05:26.080
بشكل أفضل لقيمة الناقد.

05:26.080 --> 05:28.180
وهذا هو الجزء العلوي أيضًا.

05:28.180 --> 05:34.450
ولكن هذا أيضًا جزء من المفتاح هنا هو أن القيمة والأوزان تعود عندما تنتشر خسائر السياسة مرة

05:34.450 --> 05:35.020
أخرى.

05:35.020 --> 05:41.170
يتم تعديل الأوزان بهذه الطريقة بحيث يتم تعظيم هذه الميزة.

05:41.170 --> 05:46.540
هذا هو الجانب البديهي للفهم البديهي لها ، أننا نعود إلى نشر خسارة

05:46.540 --> 05:51.820
السياسة هذه عبر الشبكة من أجل المساعدة في تعظيم هذه الميزة.

05:51.970 --> 05:57.580
وما يعنيه ذلك في الأساس هو أنه عندما يصادف عامل ما أفعالًا سيئة ، مثل الإجراءات التي تكون

05:57.580 --> 06:00.850
فيها قيمة Q أقل من القيمة المعروفة لهذه الحالة.

06:00.850 --> 06:07.150
لذا ، في الأساس ، تعرف الخوارزمية بأكملها أن قيمة الحالة هي شيء X ثم فجأة صادفت

06:07.150 --> 06:11.620
إجراءً سيئًا للغاية وقمت بـ ، اخترت إجراءً سيئًا.

06:11.620 --> 06:16.480
وما يعنيه ذلك لخوارزمية a3c ، حسنًا ، لماذا نفعل شيئًا كهذا عندما يكون

06:16.480 --> 06:21.850
أسوأ مما نعرفه بالفعل عن هذه البيئة بأكملها وما كان بإمكاننا فعله.

06:21.850 --> 06:23.380
لذلك لا ينبغي أن نفعل المزيد من ذلك.

06:23.380 --> 06:25.810
وبالتالي يتم تعديل الأوزان بطريقة ما.

06:25.810 --> 06:29.590
لذا فإن هذا يحدث بشكل نادر بحيث يكون أقل ندرة.

06:30.130 --> 06:33.310
إذن هذا هو التكرار الأقل تكرارًا الذي نختار فيه هذا الإجراء السيئ.

06:33.310 --> 06:38.260
من ناحية أخرى ، إذا اخترت إجراءً جيدًا للغاية حيث تكون قيمة Q أكبر من V أو

06:38.260 --> 06:42.640
أكبر بكثير مما تم الانتقال إليه أثناء هذا الانتشار الخلفي لخسارة

06:42.640 --> 06:50.320
السياسة عبر الشبكة ، فسيتم تحديث الأوزان بطريقة تعزز ذلك ، للتشجيع ، طمئن إلى حدوث ذلك مرة أخرى حتى يتم تعديل الأوزان

06:50.320 --> 06:52.150
بهذه الطريقة.

06:52.420 --> 06:55.060
لذا ستفكر خوارزمية C الثلاثة ، أوه ، واو ، كان هذا رائعًا حقًا.

06:55.060 --> 06:56.680
كانت الميزة عالية جدًا هناك.

06:56.680 --> 07:03.670
يجب أن أفعل المزيد من ذلك ، وبالتالي فإنه سيتم تحديث الأوزان بطريقة من المرجح أن يحدث هذا

07:03.670 --> 07:05.440
الإجراء في المستقبل.

07:05.440 --> 07:13.540
وهكذا ، فهذه هي الطريقة التي تسير بها الشبكة ببطء ، وتتكيف ببطء وتبدأ ببطء في بناء نفسها

07:13.840 --> 07:19.690
في شيء يحسب القيمة بشكل صحيح من ناحية ثم من ناحية أخرى ، أو بشكل

07:19.690 --> 07:21.790
صحيح قدر الإمكان.

07:21.790 --> 07:28.120
ومن ناحية أخرى ، فإنه يشجع أو لديه إجراءات لها ميزة عالية.

07:28.120 --> 07:29.200
لذا ها نحن ذا.

07:29.200 --> 07:30.490
هذا هو هذا الجزء.

07:30.490 --> 07:34.600
والآن دعونا نلقي نظرة على واحدة أخرى فقط لتعزيز ما ناقشناه للتو.

07:34.600 --> 07:35.710
لذلك دعونا نلقي نظرة على الجزء العلوي.

07:35.710 --> 07:37.180
نفس الشيء هنا.

07:37.180 --> 07:40.870
الوكيل الأعلى يرى الموقف.

07:40.870 --> 07:44.140
الدولة في حالة ومن ثم تحتاج إلى أن تقرر ما يجب القيام به.

07:44.140 --> 07:46.540
لذلك يرسل هذه المعلومات إلى الشبكة.

07:46.540 --> 07:50.970
إذن هذه الصورة تنتقل إلى الشبكة ، وتنتقل إلى طبقة تجميع الطبقات الالتفافية ، وتسطيح

07:50.980 --> 07:52.960
الطبقة ، وتذهب إلى الطبقات المخفية.

07:52.960 --> 07:58.480
ثم من هنا نحصل على مخرجات ، نحصل على قيم Q للسياسة ، نحصل على القيم مرة أخرى ، نفس

07:58.480 --> 07:59.080
الشيء.

07:59.080 --> 08:00.850
لدينا خسارتان.

08:00.850 --> 08:05.110
لقد حصلنا على خسارة القيمة هنا ، صقل الخسارة التي هي هنا خسارة القيمة.

08:05.110 --> 08:09.850
نحن نعلم بالفعل كيف يتم حسابها وناقشنا هذا في التعلم العميق وناقشنا هذا

08:09.850 --> 08:10.720
الآن أيضًا.

08:10.720 --> 08:12.730
هذه هي الطريقة التي يتم بها حساب القيمة.

08:12.730 --> 08:18.340
ثم خسارة السياسة ، مرة أخرى ، من أجل حساب ما لن نذهب إليه في المنتدى ، ولكن على

08:18.340 --> 08:25.450
المستوى البديهي نحسب الميزة وهي OC لذلك اتخذنا إجراءً معينًا ، واخترنا إجراءً معينًا بناءً

08:25.450 --> 08:30.700
على سياسة الاختيار الخاصة بنا ، سواء كانت ناعمة أو حد أقصى أو إبسيلون

08:30.700 --> 08:34.210
أو جشع أو أي سياسة اختيار أخرى نستخدمها.

08:34.300 --> 08:37.720
ثم ما هو الإجراء الذي اتخذناه؟

08:37.720 --> 08:44.500
لنقارنها الآن بالقيمة المعروفة للدولة ، والتي تأتي من الناقد المشترك.

08:44.500 --> 08:49.450
لذا فإن هذا الناقد يشبه نوعًا ما ، إذا فكرت في الأمر ، فهو نوعًا ما يراقب كل هؤلاء العملاء في

08:49.450 --> 08:50.080
نفس الوقت.

08:50.080 --> 08:51.910
إنه ينظر إلى هذا ، ينظر إلى هذا ، هذا.

08:51.910 --> 08:56.920
إنهم جميعًا يساهمون في مساعدة الناقد لجعل الناقد أكثر سرعة في التعامل

08:56.920 --> 09:02.650
مع البيئة ، للتأكد من أن الناقد يمثل ما يحدث في البيئة الفعلية بحيث تكون الأوزان

09:02.650 --> 09:08.440
التي هذا هو المكان الذي تأتي فيه خسارة القيمة في ، بحيث تعكس أوزان الشبكة العصبية

09:08.440 --> 09:16.450
الفعلية التي تعكسها بشكل جيد للغاية ، الوضع الفعلي للأشياء في البيئة بحيث يمكنهم الاعتماد على هذه القيمة

09:16.450 --> 09:20.020
ثم استخدامها هنا.

09:20.020 --> 09:26.770
وهكذا فإن كل هؤلاء العملاء ، كل هؤلاء العملاء يساهمون في هذا الناقد.

09:26.770 --> 09:32.350
ولكن بعد ذلك في نفس الوقت ، من خلال خسارة القيمة هذه ، ولكن في نفس الوقت ، فإن الناقد

09:32.350 --> 09:38.140
يراقب قرارات أو سياسات هؤلاء العملاء كما لو كنت أعود إلى الوراء كما لو كنت أحاول الرسم

09:38.140 --> 09:40.630
مثل السهم إلى السياسة ، سهم ، سهم.

09:40.630 --> 09:43.330
إنه ينظر إليهم ، في القرارات التي يتخذونها.

09:43.330 --> 09:46.120
إنه ينتقد هذه القرارات من خلال الميزة.

09:46.120 --> 09:50.140
إنه يقول ، حسنًا ، لقد اتخذت قرارًا ، واخترت هذا ، واخترت هذا الإجراء.

09:50.140 --> 09:51.010
ذلك رائع.

09:51.010 --> 09:53.350
الآن دعونا نحسب ميزة أو عيب الفرع.

09:53.350 --> 09:58.840
هذا يساوي قيمة Q لقراري الذي اتخذته أو الخيار الذي اتخذته.

09:59.260 --> 10:04.960
الإجراء الذي قمت به اختار ناقص القيمة المعروفة للناقد.

10:04.960 --> 10:06.220
القيمة المعروفة للناقد.

10:06.220 --> 10:07.630
لذا احسب الفرق.

10:07.630 --> 10:13.870
إذا كان هناك فرق بسيط في سياستك ، فعندما يتم إعادة نشر خسارة السياسة الخاصة بك عبر الشبكة ، فإن الطريقة

10:14.050 --> 10:17.890
التي سيتم تعديلها بها ستشجع على تعديل الأوزان بطريقة لا تحدث

10:17.890 --> 10:19.750
مرة أخرى ، بحيث .

10:19.750 --> 10:21.160
س قيمة أو ذاك.

10:21.160 --> 10:22.780
ستكون قيمة Q أقل.

10:22.780 --> 10:28.960
لذلك نظرًا لأن سياستنا تحدد الإجراءات بناءً على قيم Q ، فكلما ارتفعت قيمة Q ، زاد

10:28.960 --> 10:30.460
احتمال اختيارها.

10:30.460 --> 10:34.930
لذلك إذا كنا نستخدم مثل سياسة ARG max ، فسنختار دائمًا السياسة ذات الأعلى.

10:35.010 --> 10:38.950
كما تتذكر ، ناقشنا هذا ، ثم سنختار دائمًا واحدًا ذو أعلى قيمة ، لكننا

10:38.950 --> 10:44.350
في الواقع نستخدم نهجًا احتماليًا ، في حين أنهم يستخدمون سياسة جشع soft max أو epsilon؟

10:44.350 --> 10:47.440
ومن ثم فنحن نختار بشكل أساسي المكان الذي يمكننا فيه اختيار أي واحد منهم.

10:47.440 --> 10:49.150
ولكن كلما زادت قيمة Q ، كان ذلك أفضل.

10:49.150 --> 10:55.240
لذلك إذا حددنا شيئًا ثم كانت الميزة منخفضة جدًا ، ثم bam ، فسيتم تحديث الشبكة

10:55.240 --> 11:01.240
بطريقة تجعل في المرة القادمة قيمة Q هذه ، سيكون إجراء معين أقل وربما يكون هناك

11:01.240 --> 11:02.740
شيء آخر أكثر.

11:02.740 --> 11:05.980
هذه هي الطريقة التي يتم بها ذلك.

11:05.980 --> 11:11.890
ومن ناحية أخرى ، إذا حددنا شيئًا ما حيث ستكون الميزة عالية ، فسيؤدي ذلك إلى خسارة

11:11.890 --> 11:14.980
السياسة ومن ثم سيتم تحديث الشبكة.

11:14.980 --> 11:19.510
لذلك يتم ملاحظة ذلك بشكل أكثر شيوعًا مثل السيناريو.

11:19.510 --> 11:26.620
وبالتالي ، فإن هذه الخسارة الكاملة في السياسة تساعد الشبكة على التكيف أو التحول بطريقة تجعلنا نفعل المزيد من الأشياء

11:26.620 --> 11:31.570
الجيدة ، والأفعال الجيدة ، والأشياء الجيدة ، ونفعل القليل من الأشياء السيئة.

11:31.570 --> 11:34.840
وهذه هي الطريقة التي تدخل بها هاتان الخسارتان وهذه هي الطريقة التي ينتشران بها مرة أخرى.

11:34.840 --> 11:39.160
لذلك نأمل أن يتضح ذلك بطريقة بديهية للغاية.

11:39.160 --> 11:44.680
بالطبع ، لم ندخل في الصيغ إلى الرياضيات المعقدة وراء كل هذا ونحب التفاصيل

11:44.680 --> 11:46.840
المعقدة للغاية.

11:46.840 --> 11:52.000
لكن في نفس الوقت ، وبطريقة بديهية وبديهية ، كل هذا يوضح

11:52.000 --> 12:01.030
سبب وجود الممثل والناقد وكيفية تفاعلهما معًا ، أن لديك هؤلاء العملاء بشكل متزامن.

12:01.030 --> 12:03.820
إذن هذا هو الجانب المتزامن للأشياء.

12:03.970 --> 12:07.690
هذا ، كما تعلم ، هذا هو ممثلك وناقدك وهذه هي مصلحتك وكيف يلعب

12:07.690 --> 12:08.410
كل ذلك.

12:08.410 --> 12:10.720
لذا فهذه عوامل متزامنة.

12:10.720 --> 12:16.030
إنهم يلعبون هذا أو يستكشفون البيئة ويعملون من خلال البيئة.

12:16.030 --> 12:23.560
وهم جميعًا يساهمون كليًا في الناقد ، الذي يراقب سياساتهم ،

12:23.560 --> 12:30.430
ويراقب الفاعلين ، وهو ما يسمى هذا ، ومن خلال الميزة.

12:30.430 --> 12:35.560
وبالتالي ، عند الخروج بخسارة السياسة هذه ثم فقدان السياسة والقيمة

12:35.560 --> 12:43.450
، يتم نشرها مرة أخرى لتعديل الشبكة لكي تمثل ، من ناحية ، الطريقة الحقيقية للأشياء في البيئة ،

12:43.450 --> 12:47.380
من ناحية أخرى ، تحسين أداء الممثلين.

12:47.680 --> 12:48.370
لذا ها نحن ذا.

12:48.370 --> 12:52.630
هذه خلاصة سريعة للحدس الذي ناقشناه.

12:52.630 --> 12:56.920
ومرة أخرى ، آمل أن يكون كل هذا معًا على مستوى حدسي.

12:56.920 --> 13:02.530
وبالطبع ، في الدروس العملية ، سنتحدث أكثر عن كيفية عمل كل هذا.

13:02.530 --> 13:07.690
وسيرشدك أدلون خلال هذا ، عملية بناء هذا ، لكن وجود هذه الصورة في ذهنك وهذا النوع

13:07.690 --> 13:12.760
من خارطة الطريق لكل شيء ، كيف يتحد كل شيء سيكون جيدًا ، يجب أن يكون كذلك.

13:12.760 --> 13:18.010
آمل أن يكون من المفيد جدًا لك التنقل بشكل أفضل في الجانب العملي للأشياء.

13:18.010 --> 13:23.260
ومن حيث القراءة الإضافية لهذا اليوم ، لدينا عنصرين.

13:23.260 --> 13:25.600
لذا فإن الأول هو الأفضل.

13:25.600 --> 13:31.900
إذن لدينا هنا تحكم مستمر عالي الأبعاد باستخدام تقدير الميزة المعمم بواسطة

13:31.990 --> 13:33.280
جون شولمان.

13:33.280 --> 13:38.740
وهذه صورة لشكل عصا يقف ، مثل الوقوف.

13:38.740 --> 13:43.930
وهنا يمكنك العثور على المزيد حول المزايا والمزايا وستكتشف الأنواع المختلفة

13:43.930 --> 13:44.800
من المزايا.

13:44.800 --> 13:50.920
إذاً لديك تقدير الميزة العامة ، لديك مزايا تستخدمها بالفعل في ، في الصيغ

13:50.950 --> 13:52.210
، في الحساب.

13:52.210 --> 13:57.790
لذلك إذا كنت ترغب في معرفة المزيد عن الميزة وكيف تعمل بالضبط ، والصيغ

13:57.790 --> 14:07.780
التي تقف وراءها وبعض العناصر أو الصيغ العلوية أو العلوية وتعرف كيف في مساحة هذه الميزة التي ناقشناها ، فهذه هي المقالة

14:08.080 --> 14:10.060
اذهب إلى.

14:10.180 --> 14:19.960
وهناك عنصر آخر آخر أو جزء من العمل أردنا أن نذكرك به هو المدونة ، وهي سلسلة من منشورات المدونة بواسطة آرثر جولياني

14:19.990 --> 14:23.800
، والتي ذكرناها عدة مرات بالفعل.

14:24.220 --> 14:27.790
هذا هو الجزء الثامن ، الذي يتحدث بالتحديد عن a3c.

14:28.150 --> 14:33.070
لذا هنا يمكنك الحصول على تفسير آخر.

14:33.490 --> 14:38.980
لذلك مع المزيد من الرياضيات حول ما يحدث وربما يمكنك التقاط بعض الأشياء الإضافية من

14:38.980 --> 14:39.340
هنا.

14:39.370 --> 14:41.260
شيئين فقط لأخذهما في الاعتبار.

14:41.260 --> 14:45.880
بادئ ذي بدء ، كما هو الحال دائمًا ، هذه المدونة موجودة في TensorFlow ، بينما نستخدم PyTorch.

14:45.880 --> 14:46.750
لذا ضع ذلك في الاعتبار.

14:46.750 --> 14:53.470
والشيء الثاني هو أن الطريقة التي نظمنا بها نهجنا هي أننا تحدثنا عن الناقد النشط

14:53.830 --> 14:58.300
أولاً ، ثم تحدثنا عن التزامن ثم تحدثنا عن الميزة.

14:58.480 --> 15:03.820
بينما يتحدث آرثر في مدونته أولاً عن ناقد وميزة متزامنة وفعلية.

15:03.820 --> 15:05.470
لذا ضع ذلك في الاعتبار.

15:05.470 --> 15:07.150
لذا آمل أن هذا لا يرميك.

15:07.150 --> 15:12.610
لكن بخلاف ذلك ، بالطبع ، إنه جزء رائع من المحتوى ونحن نوصي بشدة بمراجعته للحصول على

15:12.610 --> 15:14.380
بعض المعلومات الإضافية.

15:14.500 --> 15:15.180
لذا ها نحن ذا.

15:15.190 --> 15:18.560
أتمنى أن تستمتع ببرنامج اليوم التعليمي وأتطلع إلى رؤيتك في المرة القادمة.

15:18.580 --> 15:20.620
حتى ذلك الحين ، استمتع بـ I.