WEBVTT

00:00.550 --> 00:02.770
أهلاً ومرحبًا بعودتك إلى الدورة التدريبية حول الذكاء الاصطناعي.

00:03.040 --> 00:06.910
في الجزء السابق تحدثنا عن حدس التعلم العميق القاتل.

00:06.910 --> 00:14.320
لقد بدأنا هناك وفي الواقع وصلنا إلى هذا الجزء وحيث تحدثنا عن التعلم والآن

00:14.320 --> 00:17.980
سننتقل إلى الجزء التمثيلي الفعلي.

00:18.160 --> 00:22.180
هناك جزءان ، جزءان متميزان علينا تذكرهما.

00:22.180 --> 00:23.440
هذا هو جزء التعلم.

00:23.440 --> 00:25.420
لكنه الآن فعل كل هذا في الواقع.

00:25.420 --> 00:26.230
هذا جميل.

00:26.230 --> 00:27.820
الآن عليه في الواقع اتخاذ إجراء.

00:27.820 --> 00:31.570
عليه أن يقرر ما سيفعله هو القيام بعمل واحد ، أو اثنين ، أو ثلاثة ، أو أربعة.

00:31.570 --> 00:32.770
فكيف يفعل ذلك؟

00:32.770 --> 00:37.090
حسنًا ، الطريقة التي يفعل بها الآن تُمنح نفس قيم الإشارات.

00:37.090 --> 00:41.080
لذلك لا تتغير قيم التلميح بعد أن يكون لدينا قيم الإشارات هذه لمقارنتها بحساب الخسارة

00:41.080 --> 00:45.670
التي نشرناها للخطأ ، لقد قمنا بتحديث الأوزان ، لكن قيم التلميح لا تتغير في هذه العملية برمتها.

00:45.670 --> 00:49.270
لذلك بعد أن حصلنا على قيم الإشارات هناك ، يتم إصلاحها ، ونعرف ما هي.

00:49.270 --> 00:53.710
كل هذا يحدث ، تم تحديث الشبكات ، والآن نستخدم نفس القيم الأساسية التي كانت لدينا.

00:53.710 --> 00:58.390
ما سنفعله هو أننا سنمررهم عبر دالة soft max.

00:58.390 --> 01:01.900
ومرة أخرى ، تم وصف soft max في ، على ما أعتقد ، في الملحق الثاني.

01:01.900 --> 01:09.160
وسنتحدث أكثر قليلاً عن soft max في الأسفل أو سنتحدث عن سياسة اختيار الإجراء هذه

01:09.160 --> 01:12.010
في الجزء المتبقي من هذا القسم.

01:12.010 --> 01:16.870
لذلك فقط في عدد قليل من البرامج التعليمية ، ولكن في الوقت الحالي سنقول فقط إننا نمررها عبر وظيفة soft

01:16.870 --> 01:17.140
max.

01:17.140 --> 01:22.060
وما يفعله بشكل أساسي هو أنه يسمح له بالمساعدة في اختيار الأفضل ، واختيار أفضل إجراء ممكن.

01:22.060 --> 01:23.590
وهناك تحذير صغير لذلك.

01:23.590 --> 01:25.750
إنه ليس فقط أفضل واحد ممكن.

01:25.990 --> 01:28.870
سنتحدث عن ذلك في البرنامج التعليمي لسياسة اختيار الإجراء.

01:28.870 --> 01:31.720
لكن في الوقت الحالي ، دعنا نقول فقط أنه يختار أفضل إجراء من هنا.

01:31.720 --> 01:32.500
تقول ، حسنًا ، إذن.

01:32.500 --> 01:37.540
س أولاً ، الاحتمال الأساسي أننا نعرف قيم Q.

01:37.600 --> 01:38.770
لذلك تم توقع قيم Q.

01:38.770 --> 01:43.840
لذلك يمكن أن ينظر إليهم ويقول ، حسنًا ، إذن أعلى قيمة Q من هذه ، تمامًا كما فعلنا في خوارزمية

01:43.840 --> 01:48.880
Q Learning البسيطة ، سوف ينظر فقط إلى كل هذه ، على سبيل المثال ، أعلى قيم Q هذه .

01:48.880 --> 01:50.080
وسأختار هذا الإجراء.

01:50.080 --> 01:50.770
سوف آخذ هؤلاء.

01:50.770 --> 01:51.970
وهذا كل ما في الأمر.

01:51.970 --> 01:53.800
هذه هي الطريقة التي يختار بها الإجراء الذي يتم اتخاذه.

01:54.070 --> 01:55.150
يأخذ العمل.

01:55.150 --> 02:00.730
ثم تحدث كل هذه العملية مرة أخرى بالنسبة للحالة التالية ، ينتهي عامل الإضافة في حالتنا ، في المربع

02:00.730 --> 02:02.050
التالي من المتاهة.

02:02.050 --> 02:04.240
لكن بشكل عام ، إنها الحالة التالية.

02:04.330 --> 02:05.350
لذا ها نحن ذا.

02:05.350 --> 02:14.590
هذه هي الطريقة التي نتغذى بها في مشكلة التعلم المعزز في الشبكة العصبية من خلال ناقل يصف الحالة التي

02:14.590 --> 02:15.880
نحن فيها.

02:15.880 --> 02:20.050
وبمجرد إدخالها ، هناك جزءان من العملية يحدثان.

02:20.470 --> 02:22.210
الجزء الأول هو التعلم.

02:22.240 --> 02:26.770
لذا تذكر هذا الجزء حيث نقارن كل من قيم Q بالأهداف ثم نعيد نشر الخسارة

02:26.770 --> 02:32.290
عبر الشبكة لتحديث الأوزان بحيث تتعلم شبكتنا أثناء مرورنا عبر هذه المتاهة

02:32.290 --> 02:34.720
أو من خلال هذه البيئة.

02:34.990 --> 02:40.750
وكذلك الجزء الثاني ، بالطبع ، علينا أن نتصرف ، وعلينا أن نختار إجراءً ما ، وهذا هو المكان

02:40.750 --> 02:46.720
الذي نمرر فيه قيم Q إلى دالة soft max و أو أساسًا سياسة اختيار الإجراء ، والتي سنتحدث عنها

02:46.720 --> 02:48.220
إلى الأسفل أكثر.

02:48.220 --> 02:52.780
ثم نختار ببساطة الإجراء الذي نريد أن نتخذه ونقوم بهذا الإجراء.

02:52.780 --> 02:57.130
وبعد ذلك تبدأ هذه العملية برمتها مرة أخرى ، وبعد ذلك ربما يصل الوكيل إلى ذلك

02:57.130 --> 02:59.230
، ربما لا ينتقل الوكيل إلى اللعبة.

02:59.230 --> 03:05.470
على أي حال ، تنتهي اللعبة ، ثم تتكرر العملية بأكملها مرة أخرى ، ويلعب الوكيل اللعبة

03:05.470 --> 03:08.200
بأكملها مرة أخرى ، ثم يتوقف ذلك.

03:08.200 --> 03:14.470
إذن فهذه حقبة أخرى في كل مرة ينتهي فيها الوكيل في كل مرة تنتهي فيها اللعبة ، سواء كان ذلك بشكل إيجابي

03:14.470 --> 03:16.600
في فبراير ، فهذه هي نهاية حقبة.

03:16.600 --> 03:20.350
ثم يبدأ من جديد ثم يبدأ من جديد ثم يبدأ مرة أخرى وهكذا.

03:20.350 --> 03:21.520
لذلك هذا يحدث.

03:21.520 --> 03:26.470
وتحدث هذه العملية في كل مرة يكون فيها الوكيل في حالة جديدة.

03:26.470 --> 03:28.300
إذن الدولة مشفرة هنا.

03:28.300 --> 03:29.290
لذلك هذا مهم.

03:29.290 --> 03:32.950
لذلك ليس فقط لكل لعبة يلعبها ، ولكن لكل ولاية على حدة.

03:32.950 --> 03:37.960
إذن فهو في حالة ، يمر بهذه العملية والتحديثات وما إلى ذلك ويحدث في كل مرة.

03:37.960 --> 03:41.200
وهكذا يحدث التعلم ثم يحدث التمثيل أيضًا.

03:41.560 --> 03:46.930
هذا هو التعلم العميق في الحدس وراء التعلم العميق.

03:46.940 --> 03:49.510
لدينا الكثير لنخفيه.

03:49.510 --> 03:51.220
وبعد ذلك بالطبع لدينا العملي.

03:51.220 --> 03:57.580
وفي غضون ذلك ، إذا كنت ترغب في الحصول على بعض المعلومات الإضافية حول التعلم العميق ، فلدينا

03:58.090 --> 03:59.530
قراءة موصى بها.

03:59.530 --> 04:05.020
لقد تحدثنا بالفعل عن سلسلة مشاركات آرثر جولياني في المدونة.

04:05.020 --> 04:12.160
إذا نظرت إلى التعلم المعزز البسيط باستخدام TensorFlow الجزء الرابع ، فستجد الجزء المناسب

04:12.160 --> 04:13.840
لما ناقشناه اليوم.

04:14.140 --> 04:18.130
لاحظ أنه يتحدث هنا عن التلافيف.

04:18.130 --> 04:20.860
نحن لا نغطي الثورات في هذا القسم.

04:20.860 --> 04:23.500
سنتحدث عنهم في القسم التالي من الدورة.

04:23.500 --> 04:28.810
لذا فإن الاختلاف هنا هو أنه نوع من تخطي جزء التلافيف الآن وسنتحدث عنها في الجزء

04:28.810 --> 04:30.550
التالي من الدورة.

04:30.550 --> 04:37.150
لكن الاختلاف في التلافيف ، فأنت تشبه النظر إلى وكيلك وهو ينظر إلى الصورة ، وبالتالي

04:37.150 --> 04:38.800
عليه معالجة الصورة.

04:38.800 --> 04:40.630
إذن ، هناك تعقيد إضافي في الوقت الحالي.

04:40.630 --> 04:43.360
نحن نتدرج ببطء ، ونعمل بالتدريج على تحقيق ذلك.

04:43.360 --> 04:47.530
في الوقت الحالي ، نقوم بتشفير بيئتنا من خلال.

04:47.530 --> 04:53.170
لذا إذا نظرت هنا ، فنحن نقوم بتشفير بيئتنا أو ربما مثل إلقاء نظرة على هذه البيئة

04:53.170 --> 04:58.630
، ربما نقوم بترميز بيئتنا كحالة أو ترميز حالة يكون فيها الوكيل كمتجه.

04:58.630 --> 04:59.920
لذلك في حالتنا ، هناك طريقة بسيطة للغاية.

04:59.990 --> 05:05.390
في بعض الأحيان ، قد تكون صورة قيمتين حتى بهذه البساطة في بعض الأحيان أو كما سترى من منشور المدونة

05:05.390 --> 05:10.100
هذا ، في بعض الأحيان يفضل الناس النسخة الساخنة والمشفرة من تلك الحالة.

05:10.100 --> 05:15.710
لذلك ، في الأساس ، حيث يكون لكل مربع في المتاهة a ، سيكون لديك مثل متجه لحالة أخرى

05:15.710 --> 05:17.450
12 قيمة ثلاثة في أربعة.

05:17.750 --> 05:22.820
لذا فهو يشبه إما واحدًا أو صفرًا اعتمادًا على العنصر في المربع الذي أنت فيه ، في البيئة.

05:22.820 --> 05:30.380
أيًا كانت الطريقة التي تقرر بها ترميز بيئتك وحالة بيئتك ، فهذه هي الطريقة التي نقوم بترميزها.

05:30.380 --> 05:31.430
لذلك فهو في الأساس متجه.

05:31.460 --> 05:36.350
المفتاح هنا هو أنه ليس التفافًا ، لذا فهو ليس مثل الصورة ولا يوجد التفاف في الفولتات.

05:36.350 --> 05:38.090
لذلك سيأتي هذا الجزء لاحقًا بالنسبة لنا.

05:38.090 --> 05:43.310
يبدأ من هنا وهذا فقط يبسط العملية لفهم أفضل تدريجيًا.

05:43.310 --> 05:48.890
وبالطبع ، لا تنس أن هذه المدونة مكتوبة في TensorFlow ونحن نستخدم PyTorch

05:48.890 --> 05:49.760
في دروسنا.

05:49.880 --> 05:57.620
لذا آمل أن تكون قد استمتعت بهذه المقدمة السريعة في التعلم العميق التلافيفي والعميق وغير التلافيفي

05:57.800 --> 05:59.000
ولكن العميق.

05:59.000 --> 06:02.840
وفي هذه الملاحظة ، أتطلع إلى رؤيتك في المرة القادمة.

06:02.840 --> 06:05.570
وحتى ذلك الحين ، استمتع بالذكاء الاصطناعي.
