WEBVTT

00:00.710 --> 00:02.530
مرحبا بالجميع ، ومرحبا بكم من جديد.

00:02.540 --> 00:07.910
في هذه المحاضرة ، سنقوم بإعداد بيئتنا وأريد أن أقدم هذه النظرة العامة عالية المستوى

00:07.910 --> 00:11.420
لأولئك منكم الذين يرغبون في محاولة حلها بنفسك.

00:11.420 --> 00:14.270
وقد يبدو هذا مألوفًا في المحاضرة الأخيرة ، لقد رأيتم هذا.

00:14.270 --> 00:15.770
لذلك إذا قرأت ذلك ، أعتذر.

00:15.770 --> 00:17.510
سنقوم بمراجعتها بسرعة كبيرة.

00:17.840 --> 00:19.070
اهم الاشياء اولا.

00:19.070 --> 00:24.320
في هذا المشروع ، نهدف حقًا إلى إبقائه بسيطًا قدر الإمكان بمعنى أننا لا نحتاج إلى استيراد عدد كبير

00:24.320 --> 00:25.430
جدًا من المكتبات.

00:25.430 --> 00:27.920
نحن في الأساس سنستخدم NumPy لذلك.

00:27.920 --> 00:33.260
نحتاج فقط إلى استيراد NumPy كـ NP ، وعادةً ما يكون المرجع المشترك لـ numpy.

00:33.260 --> 00:37.490
ونريد أيضًا إعداد بيئتنا كما سترى هنا.

00:37.490 --> 00:40.580
وسنراجع هذا مرة أخرى بسرعة كبيرة كنظرة عامة.

00:40.610 --> 00:46.250
تتمثل الخطوة الأولى لتعلم Q الخاص بنا في أننا نريد تحديد البيئة التي يتعين على ساعي البريد التنقل فيها.

00:46.250 --> 00:50.210
نحن بحاجة إلى إعداد هذه البيئة حتى نتمكن من تكرارها والمرور بها.

00:50.510 --> 00:55.580
في هذه المحاضرة ، ستتكون البيئة من حالات وأفعال ومكافآت.

00:55.580 --> 01:01.160
الحالات والإجراءات هي مدخلات لعامل التعلم Q ، في حين أن الإجراءات المحتملة هي العوامل

01:01.160 --> 01:06.620
، والمخرجات هي حالات يمكننا التفكير فيها والنظر إلى هذه الصورة على أنها تمثيلنا.

01:06.620 --> 01:11.870
الدول في بيئتنا هي جميع المواقع الممكنة داخل المدينة التي يمكننا أن نطلق عليها مثال المدينة.

01:11.870 --> 01:17.840
بعض هذه المواقع هي حدود المدينة التي ستكون مربعاتنا السوداء ، في حين أن المواقع الأخرى عبارة عن جزر

01:17.840 --> 01:21.110
يمكن أن يستخدمها ساعي البريد للسفر عبر المدينة.

01:21.110 --> 01:22.580
ستكون تلك المربعات البيضاء.

01:22.670 --> 01:27.020
يشير المربع الأخضر إلى منطقة تعبئة العنصر والشحن.

01:27.020 --> 01:31.520
المربعات السوداء والخضراء هي ما سنطلق عليه حالات نهائية.

01:31.520 --> 01:36.050
بشكل عام ، هدفنا أو هدف وكيلنا ، نريد استخدام أقصر طريق.

01:36.050 --> 01:41.870
نريد أن يتعلم وكيلنا أقصر طريق بين منطقة تعبئة العناصر ، والبرطمان ، والأخضر وجميع المواقع الأخرى

01:41.870 --> 01:45.260
في المدينة التي يُسمح لساعي البريد بالسفر فيها.

01:49.360 --> 01:55.750
في الصورة أعلاه ، لدينا 121 ولاية أو موقعًا محتملاً داخل المدينة.

01:55.780 --> 01:58.690
هذه الحالات مرتبة في شبكة 11 في 11.

01:58.720 --> 02:02.400
يمكن بالتالي تحديد كل موقع من خلال فهرس الصف والعمود.

02:02.410 --> 02:04.510
إذن ما هي خطوتنا الأولى؟

02:04.510 --> 02:07.870
وهذا حقا يريدكم يا رفاق أن تبدأوا في التفكير في كيفية تعريفه.

02:08.380 --> 02:10.420
نحن بحاجة إلى تحديد بيئتنا.

02:10.420 --> 02:13.180
هذا مثال جيد على صورتنا وكيف سنتعامل معها.

02:13.180 --> 02:14.580
إذن كيف يمكنك تصميم ذلك؟

02:14.590 --> 02:20.890
تذكر أننا نستخدم NumPy ، لذلك نحتاج إلى تحديد هذه الحدود ويمكننا تحديد مصفوفة numpy

02:20.920 --> 02:27.310
a3d للاحتفاظ بقيم Q الحالية الخاصة بنا لكل حالة وزوج إجراء كما نرى تمثيلنا.

02:27.400 --> 02:32.440
ولأولئك الذين ليسوا على دراية بها ، أو ربما هذا جديد أو تريد فقط

02:32.440 --> 02:38.320
الحصول على تنشيط ، كتيب i a z من هذه الدورة مفيد للغاية ، موصى به للغاية.

02:38.320 --> 02:40.080
إذن ماذا علينا أن نفعل هنا؟

02:40.090 --> 02:41.420
يمكننا في الواقع.

02:41.440 --> 02:45.100
اسمحوا لي فقط بتوسيع هذا بسرعة كبيرة بالنسبة لنا حتى نتمكن من رؤيته بشكل أسهل قليلاً.

02:45.100 --> 02:46.630
اسمحوا لي فقط إضافة بعض خلايا التعليمات البرمجية.

02:46.630 --> 02:49.060
سنقوم بتعريف ثلاثة مصفوفة d numpy.

02:49.360 --> 02:51.070
كيف يمكنك أن تذهب نحو هذا؟

02:51.190 --> 02:56.590
لذلك لدينا بعض الخيارات ، ولكن الخيار الأكثر وضوحًا وبساطة حقًا ، دعنا نطلق عليه صفوف

02:56.590 --> 02:57.370
البيئة.

02:59.820 --> 03:01.500
روز ودعنا نضبطها على 11.

03:01.500 --> 03:02.640
إنها 11 في 11.

03:02.690 --> 03:06.960
ثم يمكننا أيضًا عمل بيئة ، تسطير الأعمدة.

03:08.890 --> 03:10.870
ويمكننا أيضًا ضبط هذا على 11.

03:11.200 --> 03:18.610
أخيرًا ، يمكننا تعيين قيم Q الخاصة بنا لأننا نحتاج إلى إضافة صفوف البيئة ، وأعمدة البيئة.

03:19.910 --> 03:32.030
ويمكننا تعيين هذا كقيم Q تساوي أصفار NumPy ونحتاج إلى استخدام صفوف بيئتنا وأعمدة البيئة.

03:32.760 --> 03:40.260
ولدينا مصفوفة ثلاثية الأبعاد ، تمثيل بيئي ثلاثي الأبعاد يتناسب مع بيئتنا.

03:41.100 --> 03:41.760
رائع.

03:42.240 --> 03:46.500
الآن ونحن بصدد ترك الأمر هنا ، لكني أريدكم يا رفاق أن تبدأوا في التفكير في كيفية حل

03:46.500 --> 03:48.340
هذا لأنك بالفعل قد أعددت بيئتك.

03:48.360 --> 03:52.820
الشيء التالي الذي تريد القيام به كتلميح هو إعداد أفعالك.

03:52.830 --> 03:55.620
يجب أن يكون وكيلك قادرًا على التحرك عبر البيئة.

03:55.620 --> 03:57.330
فكيف تمثل ذلك؟

03:57.330 --> 04:00.750
كيف تكتب ذلك لهذه المشكلة؟

04:00.930 --> 04:01.950
دعنا نتركها هنا.

04:01.950 --> 04:04.950
في الفيديو التالي ، سنعيد النظر في تلك الإجراءات.

04:05.100 --> 04:05.790
رائع.

04:05.970 --> 04:07.170
سأراكم يا رفاق في الفيديو التالي.
