WEBVTT

00:00.590 --> 00:03.110
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.110 --> 00:08.150
نتحدث اليوم عن الجزء الأول من a3c ، الجزء النقدي للممثل.

00:08.150 --> 00:13.880
إذن لدينا هنا خوارزمية ناقد للممثل ذي الميزة المتزامنة وسنتحدث عن ذلك الممثل

00:13.880 --> 00:15.050
المحدد.

00:15.500 --> 00:17.150
هذا هو المكان الذي سنبدأ فيه.

00:17.150 --> 00:21.470
يمكنك أن تبدأ تقنيًا في أي مكان ، ولكن من المنطقي أكثر

00:21.470 --> 00:29.180
أن تبدأ من فعل إلى نقد ، لأنه بهذه الطريقة سيكون لدينا تفسير متتالي جدًا أو فهم بديهي لما

00:29.180 --> 00:30.320
يحدث.

00:30.410 --> 00:33.980
لكن إذا بدأنا بشكل مفاجئ في نهاية هذا الاختصار.

00:33.980 --> 00:42.200
حسنًا ، حتى الآن في هذه الدورة ، توصلنا إلى تعلم تلافيفي عميق ، وهو موضح هنا.

00:42.200 --> 00:46.160
لذلك لدينا الكمبيوتر الذي يرى البكسل.

00:46.160 --> 00:48.710
إذن الصورة الفعلية والبكسل ، وليس فقط المتجه.

00:48.710 --> 00:49.580
لذا فهو ليس غشًا.

00:49.580 --> 00:52.040
إنه في الواقع يرى بالضبط ما يراه الإنسان.

00:52.040 --> 00:59.240
ترى الوحوش ، ترى الصحة ، ترى المعلمات في الأسفل ، ترى الممر ، ترى البندقية.

00:59.240 --> 01:02.960
إنه يرى بالضبط نفس الشيء الذي يراه الإنسان عند لعب هذه اللعبة.

01:02.960 --> 01:09.260
ثم يتم تمرير تلك الصورة عبر طبقة تلافيفية ، ثم يتم تمريرها عبر طبقة تجميع

01:09.260 --> 01:12.860
ويتم تسويتها وتنتقل إلى شبكة عصبية.

01:12.860 --> 01:17.450
ثم عند الإخراج لدينا إجراءات ، كما تتذكر ، لدينا قيم الإشارات هذه.

01:17.570 --> 01:20.120
ثم نطبق سياسة اختيار الإجراء عليهم.

01:20.120 --> 01:24.290
لذلك ، على سبيل المثال ، نطبق حدًا أقصى بسيطًا ونكتشف الإجراء الذي نريد اتخاذه.

01:24.290 --> 01:29.480
وهناك بعض الاستكشاف والاستغلال يحدث هناك ، مزيج من الاثنين.

01:30.140 --> 01:33.200
هذا هو مدى عمق التعلم التلافيفي.

01:33.380 --> 01:34.880
لكن الآن دعنا نرى ما سنفعله بهذا.

01:34.880 --> 01:38.690
من أجل البساطة ، فقط لتسهيل التعامل مع هذا لأننا سنقوم

01:38.690 --> 01:44.240
بتعديل هذه الصورة وتحريكها ، سنقوم باستبدال الدوائر بالمربعات بهذه الصناديق

01:44.240 --> 01:46.400
المستطيلة.

01:46.400 --> 01:48.680
وسنقوم أيضًا بالتخلص من تلك السطور الواقعة بينهما.

01:48.680 --> 01:51.140
فقط قم بتغييرهم إلى أسهم.

01:51.140 --> 01:54.260
لذلك هذا لا يغير الجوهر.

01:54.290 --> 01:56.330
هذا مجرد تمثيل على هذا الرسم البياني.

01:56.360 --> 01:59.600
هذا لا يزال حتى هذا التمثيل لا يزال عميقًا ، تلافيفيًا.

01:59.630 --> 02:05.240
س سيكون التعلم أسهل بالنسبة لنا لتعديله وإظهار بالضبط ما هو مفتاح ثلاثة.

02:05.240 --> 02:11.870
هذه هي الطريقة التي سنمثل بها الأشياء من هنا وما يفعله المفتاح الثلاثة أو هذا الجزء المحدد.

02:11.870 --> 02:15.020
لذلك بدأنا في التذكر ، لقد بدأنا خطوة بخطوة.

02:15.030 --> 02:16.610
نبدأ مع الجزء الناقد النشط.

02:16.610 --> 02:23.420
لذلك سنرى كيف ننتقل من التعلم التلافيفي العميق إلى ثلاثة مفاتيح خطوة بخطوة وخطوة أولى.

02:23.420 --> 02:26.150
سنقوم بتقديم هذا الجزء الناقد النشط هنا.

02:26.150 --> 02:27.380
لذلك سوف نتحدث عن ذلك.

02:27.470 --> 02:35.090
لذا فإن أول شيء يحدث هو الجزء الأخير ، الناتج هو أننا سنقوم بإعادة رسمه بهذا الشكل.

02:35.090 --> 02:40.280
لذلك فهي نفس المخرجات بالضبط ، نفس قيم الإشارات أو نفس الإجراءات بالضبط.

02:40.280 --> 02:44.540
لذلك إذا كان لديك ثمانية أفعال محتملة ، فلا يزال لديك ثمانية إجراءات محتملة.

02:44.540 --> 02:47.180
سنقوم فقط بوضعهم في الأعلى حتى يشغلوا مساحة أقل.

02:47.180 --> 02:49.100
لذلك لم يتغير شيء حتى الآن.

02:49.100 --> 02:51.890
حتى الآن هذا وهذا هو بالضبط نفس الشيء.

02:51.890 --> 02:54.860
ولكن الآن هذا هو المكان الذي يأتي فيه الجزء الناقد النشط.

02:54.860 --> 02:57.590
سيكون لدينا الناتج الثاني الذي سيكون لدينا.

02:58.040 --> 02:59.870
إذن أول واحد هو مجموعة من النواتج.

02:59.870 --> 03:02.690
وهنا سيكون لدينا ناتج فردي منفصل.

03:02.690 --> 03:05.960
من الناحية الفنية ، هل سنستخدم شبكتنا العصبية؟

03:05.960 --> 03:14.570
إذن ، مرة والآن ، تمر الصورة وكل شيء مثل القيم عبر الشبكة من اليسار إلى اليمين هنا.

03:14.570 --> 03:16.490
إنهم لا يبصقون فقط مجموعة واحدة من القيم.

03:16.490 --> 03:17.780
لقد انقسموا في الواقع مجموعتين.

03:17.780 --> 03:20.570
وبالتالي فإن المجموعة الأولى ، نحن نعرف بالفعل ما هي.

03:20.570 --> 03:22.700
إنها الإجراءات الممكنة.

03:22.700 --> 03:25.280
لكن هنا في الواقع سيكون لدينا قيمة إضافية أخرى.

03:25.280 --> 03:26.480
لذلك دعونا نلقي نظرة على ذلك.

03:26.480 --> 03:28.340
كيف ما هذه القيمة؟

03:28.340 --> 03:29.810
حسنا هيا بنا.

03:29.810 --> 03:31.190
هذا هو الجزء العلوي.

03:31.190 --> 03:34.940
لذلك نحن نوعًا ما نحب تقليل حجم هذا الرسم التوضيحي.

03:35.180 --> 03:41.090
الناتج الأعلى هو قيم Q ، كما ناقشنا سابقًا للإجراءات.

03:41.090 --> 03:42.410
لذا فهما نفس الشيء.

03:42.410 --> 03:43.190
كل شيء هو نفسه.

03:43.190 --> 03:45.140
ولكن بعد ذلك الآن هذا الجزء السفلي.

03:45.140 --> 03:47.030
أوه ، والجزء العلوي يسمى بالفعل الممثل.

03:47.030 --> 03:47.780
سنعطيه اسما.

03:47.780 --> 03:53.570
هذا هو الممثل لأن هذا هو الجزء الذي يختار فيه الوكيل ما يريد القيام به بحيث يكون مثل

03:53.570 --> 03:54.380
التمثيل.

03:54.380 --> 03:59.780
يبدو الأمر كما لو كان يؤدي على خشبة المسرح وسيصبح أكثر منطقية بمجرد ظهور الاسم الثاني على الشاشة

03:59.780 --> 04:00.590
أيضًا.

04:00.590 --> 04:07.940
ثم الناتج الثاني يشبه قيمة واحدة وهو V لـ SE ، لذلك هذه هي قيمة الحالة.

04:07.940 --> 04:15.140
لذلك إذا كانت Q of S هي Q لـ S و A هي قيمة Q لإجراء معين.

04:15.140 --> 04:19.940
وكما ترون ، هذا هو سبب وجود فعل واحد ، عملان ثلاثة حتى الإجراء ستة أو مهما كانت هناك العديد

04:19.940 --> 04:21.890
من الأفعال المحتملة في تلك الحالة.

04:21.890 --> 04:23.030
لذلك في حالة معينة.

04:23.030 --> 04:25.250
سراج الدين ما هي قيمة Q لاتخاذ الإجراءات؟

04:25.250 --> 04:28.130
عمل للعمل الأول ، العمل الثاني وهكذا.

04:28.130 --> 04:34.850
ثم هنا نتوقع أيضًا أننا نستخدم الشبكة العصبية أيضًا للتنبؤ بقيمة الحالة التي

04:34.850 --> 04:36.350
نحن فيها بالفعل.

04:36.350 --> 04:40.430
وهذا الجزء يسمى الناقد.

04:40.610 --> 04:45.710
وهذا هو الحدس أو حتى أنه ليس بديهيًا تمامًا.

04:45.710 --> 04:51.290
هذا تمامًا مثل بداية الحدس وراء ناقد الممثل أن هناك ناتجين الآن من الشبكة العصبية ، ليس واحدًا

04:51.290 --> 04:56.360
فقط ، ولكن قبل أن يكون لدينا هذا الناتج الوحيد ، والذي نسميه الآن الممثل.

04:56.360 --> 04:58.940
لكن الآن لدينا ناتجان ، ممثل وناقد.

04:58.940 --> 04:59.810
وستكون هناك أ.

04:59.900 --> 05:02.150
ديناميكية بينهما ، والتي سنستكشفها أكثر.

05:02.150 --> 05:08.390
لكن في الوقت الحالي ، من المهم أن نفهم أننا لا نتوقع فقط قيم Q للإجراءات التي يمكن أن يتخذها

05:08.390 --> 05:10.970
الوكيل من هذه الحالة المعينة.

05:10.970 --> 05:15.680
لكنه يتنبأ أيضًا بقيمة الوجود في هذه الحالة الحالية ، باستخدام نفس الشبكة العصبية.

05:15.680 --> 05:20.570
هذا هو جوهر الخطوة الأولى نحو الناقد الفعلي.

05:20.570 --> 05:24.050
والآن سنحتاج إلى التحدث عن التزامن ، وهو ما سنفعله في الدرس التالي

05:24.050 --> 05:26.640
لفهم ما يحدث بالضبط بين نظرية الفعل.

05:26.810 --> 05:32.570
والشيء الأخير لهذا اليوم هو أن كل هذه القيم الأساسية ، كما نعلم ، تسمى أيضًا السياسة.

05:32.570 --> 05:39.470
لذلك في بعض الأدبيات وبعض المدونات وبعض المناقشات التي قد تجدها في الناقد النشط

05:39.470 --> 05:44.720
، قد تجد المؤلف يتحدث عن قيم Q في هذا الجانب من الممثل.

05:44.750 --> 05:51.860
في بعض الأدبيات الأخرى ومنشورات ومناقشات المدونات ، ستجد المؤلف يتحدث عن السياسة.

05:51.860 --> 05:58.190
لذلك وعادة ما يستخدم المستخدم مثل الحرف اليوناني P لتمثيل السياسة أو قد تقول

05:58.190 --> 05:59.720
فقط سياسة الدولة.

05:59.930 --> 06:05.540
هذه هي سياسة مكتب الولاية لأننا نتذكر ، السياسة هي إذا جمعت كل الإجراءات

06:05.540 --> 06:11.570
معًا ، الإجراءات الممكنة ، ومن ثم تقرر الإجراء الذي يجب اتخاذه.

06:11.570 --> 06:14.210
لذلك ستكون هذه مثل احتمالات اتخاذ كل إجراء.

06:14.210 --> 06:15.260
إذن هذه هي السياسة.

06:15.260 --> 06:20.720
لذلك لا تنزعج إذا رأيت أحدهما أو الآخر ، فهما يعنيان نفس الشيء في الأساس.

06:20.960 --> 06:24.410
إذن ، من ناحية ، لديك السياسة أو قيم Q ، من ناحية أخرى ، لديك القيمة

06:24.410 --> 06:27.560
الفعلية للحالة ويتم توقعها من الشبكة العصبية.

06:27.560 --> 06:29.120
هذه بداية الناقد النشط.

06:29.120 --> 06:33.620
سنستمر في هذا في البرنامج التعليمي التالي عندما نتحدث عن متزامن وأتطلع إلى رؤيتك

06:33.620 --> 06:34.250
هناك.

06:34.250 --> 06:35.990
حتى ذلك الحين استمتع بـ I.
