WEBVTT

00:01.400 --> 00:03.230
أهلا ومرحبا بكم مرة أخرى.

00:03.260 --> 00:08.990
في المحاضرة الأخيرة ، انتهينا من إنهاء التعريف الفعلي لبيئتنا أو الانتهاء

00:08.990 --> 00:14.330
منه ، وتمثيل قيمنا ، وعقابنا ومكافآتنا ، وأفعالنا في البيئة.

00:14.360 --> 00:20.600
في هذه المحاضرة ، ما أريد القيام به هو تقديم التدريب ، والفكرة الكامنة وراء كيفية تدريب

00:20.600 --> 00:22.880
النموذج ومساعدتك على البدء.

00:22.880 --> 00:28.520
ثم في المحاضرة التالية قدم الحل والمزيد من التفاصيل للخطوات المتضمنة.

00:28.520 --> 00:32.960
لذلك نحن بحاجة إلى تدريب النموذج على ما هو مطلوب للتدريب.

00:33.620 --> 00:38.840
هذا نهج يمكننا استخدامه للخطوات التالية لتدريب النموذج.

00:38.840 --> 00:44.240
نريد اختيار حالة عشوائية غير نهائية ، والتي ستكون المربع الأبيض لوكيلنا ، وهكذا

00:44.240 --> 00:47.210
نريد أن نبدأ في حلقة التدريب لدينا.

00:47.210 --> 00:50.360
ثم نريد بالطبع اختيار إجراء للوضع الحالي.

00:50.360 --> 00:53.120
نحتاج إلى أن يكون وكيلنا قادرًا على التحرك في جميع أنحاء البيئة.

00:53.120 --> 00:59.450
لذلك سيتم اختيار الإجراءات التي يجب اتخاذها بالنسبة لنا ولوكيلنا في هذا التحدي باستخدام Epsilon Greedy.

00:59.660 --> 01:04.790
ستختار هذه الخوارزمية عادةً الإجراء الأكثر وعدًا للوكيل ، ولكن في بعض الأحيان تختار

01:04.790 --> 01:05.870
خيارًا غير واعد.

01:05.870 --> 01:10.850
من أجل تشجيع الوكيل على استكشاف البيئة ، نريد حقًا العثور على السياسة المثلى.

01:11.210 --> 01:15.140
ثم نريد تنفيذ الإجراء المختار والانتقال إلى الحالة التالية.

01:15.140 --> 01:16.490
انتقل إلى الموقع التالي.

01:16.490 --> 01:21.200
ولماذا أقول هذا هو أنني أريدكم يا رفاق أن تفكروا في كيفية تقسيم هذا إلى

01:21.200 --> 01:23.060
وظائف لحل هذه المشكلة.

01:23.480 --> 01:29.660
بعد ذلك ، نحتاج إلى الحصول على مكافأة للذهاب إلى حالة جديدة ثم حساب الاختلاف الزمني.

01:29.660 --> 01:34.940
يتعين علينا تحديث قيمة Q للحالة السابقة في زوج العمل وإذا كانت الحالة الجديدة أو الحالية

01:34.970 --> 01:37.550
حالة طرفية ، فسننتقل بعد ذلك إلى واحدة.

01:37.550 --> 01:39.380
وإلا فسننتقل إلى الخطوة الثانية.

01:39.380 --> 01:43.610
إذن العملية برمتها ، سنهدف إلى تشغيل 1000 حلقة للتدريب.

01:43.610 --> 01:50.810
هذا سيمنحنا فرصة كافية أو وكيلنا فرصة كافية لحساب أقصر مسار بين منطقة تغليف

01:50.810 --> 01:55.790
العناصر والمواقع الأخرى في مثالنا في المدينة.

01:56.570 --> 01:57.260
رائع.

01:57.440 --> 02:02.990
لذا يرجى التفكير في الطريقة التي ستتعامل بها مع هذا وأريد مساعدتك في إعطائك فكرة لمحاولة حل هذا الأمر.

02:02.990 --> 02:08.240
لذلك سننظر في حلنا ، سنستخدم الوظائف التالية.

02:08.540 --> 02:10.700
يمكنني بالفعل التعليق على هذا لأنه خلية رمز.

02:10.730 --> 02:11.840
اعتذاري.

02:11.840 --> 02:13.250
لا نريد علامة الدولار.

02:13.250 --> 02:18.230
نريد التعليق عليها وسأساعدك على البدء في أول واحد.

02:19.020 --> 02:24.600
بشكل عام ، سيكون لدينا هذه الوظائف التي تحدد خطواتنا لتدريب النموذج.

02:24.900 --> 02:29.910
وللمساعدة في البدء ، دعنا نلقي نظرة على كيفية تعاملنا مع الحالة النهائية

02:29.910 --> 02:35.370
في إنشاء دالة داخل بايثون لهذه الأشياء الأولى أولاً ، نريد بالطبع تحديد وظيفتنا

02:35.370 --> 02:36.450
كما هي.

02:37.610 --> 02:39.530
الحالة النهائية.

02:40.640 --> 02:45.320
وهذه هي أسماء الوظائف التي ستراها لتعطيك فكرة قد تساعدك في تقسيمها.

02:45.350 --> 02:51.170
ما نريد القيام به هو أخذ فهرس الصف الحالي وفهرس العمود الحالي.

02:52.980 --> 03:02.010
سيساعدنا هذا في منحنا منصب وكيلنا ، ويمكننا أن نضيف هنا لمكافآتنا صوابًا أو خطأً.

03:02.010 --> 03:03.210
لذلك نحن في حاجة إليها إذا البيان.

03:03.210 --> 03:05.790
لذلك دعونا نحدد مكافآتنا إذا.

03:07.490 --> 03:08.630
من تيارنا.

03:09.410 --> 03:11.600
فهرس الصف.

03:12.480 --> 03:20.190
ويساوي فهرس العمود الحالي سالب واحد إذا كانا في تلك الحالة.

03:24.300 --> 03:28.500
سوف نعود كاذبة أو غير ذلك أو غير ذلك.

03:29.850 --> 03:30.990
سوف نعود.

03:31.470 --> 03:32.100
حقيقي.

03:33.590 --> 03:35.030
بسيط جدا بما فيه الكفاية.

03:35.360 --> 03:41.390
وهذه هي الطريقة التي سنحصل بها على فكرتنا عن الحالة النهائية بعد أن يكون لدينا إذا كانت موجودة في الحالة النهائية

03:41.390 --> 03:44.240
، فنحن نريد بعد ذلك الحصول على موقع البداية.

03:44.240 --> 03:50.750
كتلميح ، يمكنك إلقاء نظرة على استخدام فهرس الصف الحالي وفهرس العمود الحالي وإعداد

03:50.750 --> 03:52.820
numpy مع عشوائي.

03:52.820 --> 03:57.200
نريد تهيئة ذلك بشكل عشوائي لأعمدة بيئة صفوف البيئة.

03:57.200 --> 04:00.620
لكن في المحاضرة التالية سترى تفصيلاً.

04:00.620 --> 04:04.790
سترى باقي الوظائف مع بعض الملاحظات للمساعدة في إعطائك فكرة.

04:04.790 --> 04:09.020
آمل حقًا أن تغتنموا الفرصة لتجربة هذا لأنه مجرد طريقة رائعة للتعلم والمساعدة

04:09.020 --> 04:10.700
في إعطائك فكرة.

04:10.700 --> 04:12.200
وهذا لتبدأ.

04:12.200 --> 04:15.260
لذلك لا تقلق ، ستحصل على الحل في المحاضرة التالية.

04:15.260 --> 04:21.860
وبعد ذلك سننهي الأمور عن طريق تعيين عامل خصم إبسيلون ، ومعدل التعلم ، وتلك الأنواع من

04:21.860 --> 04:25.760
الأشياء للتدريب ، وإدارة التدريب وعرض النتائج.

04:26.060 --> 04:26.900
رائع.

04:27.260 --> 04:29.660
دعنا نتوقف هنا مرة أخرى.

04:29.660 --> 04:30.890
حاول حل هذا.

04:30.890 --> 04:35.390
ولكن إذا لم يكن الأمر كذلك ، إذا كنت ترغب في التقدم فقط ، فانتقل إلى المحاضرة التالية

04:35.390 --> 04:38.180
وستحصل على حل للتدريب لتحديد هذه الوظائف.

04:38.420 --> 04:40.340
حسنًا ، سأراكم في المحاضرة القادمة.