WEBVTT

00:00.490 --> 00:01.990
اهلا بكم جميعا ومرحبا بكم من جديد.

00:02.020 --> 00:05.350
في المحاضرة الأخيرة ، انتهى بنا المطاف في البدء في بناء بيئتنا.

00:05.350 --> 00:13.330
لدينا شبكة 11 × 11 هنا نريد من ساعي البريد أن يكررها لحل التحدي الذي نواجهه.

00:13.960 --> 00:18.490
نريد الآن أن نبدأ في التفكير بمجرد أن نحصل على الشبكة.

00:18.490 --> 00:23.890
نحتاج أيضًا إلى اتخاذ إجراءات لوكيلنا وسأقوم بحذفها سريعًا.

00:23.890 --> 00:24.970
لا نحتاج هذه الخلايا.

00:24.970 --> 00:27.790
أردت فقط إدخاله لبعض التباعد.

00:27.790 --> 00:29.490
فقط يجعل من السهل مشاهدته.

00:29.500 --> 00:35.530
أعطني 1/2 ، دعني أحذفها ويمكننا ترك هذا هنا.

00:35.890 --> 00:36.520
لذا.

00:37.420 --> 00:43.330
لقد تركت نصًا في ذلك لدينا ونريد أن نضع أفعالنا في وضع مستقيم يسارًا ويسارًا.

00:43.570 --> 00:45.580
مع Python ، يكون الأمر واضحًا جدًا.

00:45.580 --> 00:48.270
يمكننا بناء القائمة وتحديد إجراءاتنا.

00:48.280 --> 00:51.400
ستكون أفعالنا متساوية.

00:52.140 --> 00:55.310
اثنان كما لدينا أعلى اليمين ، أسفل اليسار.

00:55.320 --> 01:01.310
لذلك دعونا نضعه لأسفل ولليسار.

01:01.320 --> 01:07.290
نحتاج إلى إعطاء وكيلنا المعذرة بعض القدرة على المناورة بهذه الإجراءات من خلال المتاهة.

01:08.270 --> 01:12.000
بالإضافة إلى ذلك ، علينا أيضًا أن نبدأ في تحديد المكافآت.

01:12.020 --> 01:18.050
الآن ، هذا هو المكان الذي ستبدأ فيه أن تصبح أكثر صعوبة قليلاً لأننا يجب

01:18.050 --> 01:25.010
أن نضع حالات مختلفة من بيئتنا ، حالات مختلفة بمعنى أننا نريد أن نكون قادرين على تعيين

01:25.010 --> 01:31.930
هذه -100 وسلبية واحدة هذه الخطوات أو قيم الحالة هذه لكل مربع داخل الشبكة.

01:31.940 --> 01:39.320
لذلك نحرص على مساعدة وكيلنا في التعرف على كل ولاية أو موقع في مدينتنا ، فنحن نريد الحصول على قيمة مكافأة.

01:39.320 --> 01:40.910
هذه هي الطريقة التي سيتعلم بها وكيلنا.

01:40.910 --> 01:45.290
لذلك قد يبدأ الوكيل في أي مربع أبيض ، لكن هدفه هو نفسه دائمًا.

01:45.290 --> 01:49.460
أرغب في تعظيم إجمالي مكافآتها ضمن Q Learning Native Rewards.

01:49.460 --> 01:51.980
نحن نعلم أنه يشار إليها بالعقوبات.

01:51.980 --> 01:54.110
يتم استخدام هذه لجميع الدول باستثناء الهدف.

01:54.110 --> 01:59.870
هذه هي الطريقة التي سنرسي بها تلك السياسة المثلى ، والتي تشجع العين على تحديد أقصر

01:59.870 --> 02:02.780
طريق إلى الهدف من خلال تقليل العقوبات.

02:03.200 --> 02:03.860
حسنا.

02:04.460 --> 02:09.830
أيضًا ، لتعظيم المكافآت التراكمية ، سيحتاج وكيل الذكاء الاصطناعي إلى العثور على أقصر طريق بين منطقة

02:09.830 --> 02:14.060
تعبئة العناصر ، والمربع الأخضر ، وتذكر ، والمواقع الأخرى في المدينة التي يمكن أن

02:14.060 --> 02:15.590
يسافر فيها ساعي البريد.

02:15.590 --> 02:20.480
سيتعلم عملاء White Squares تجنب الاصطدام بأي من حدود المدينة.

02:20.480 --> 02:23.180
هذه هي المربعات السوداء ، كما نرى مع -100.

02:23.180 --> 02:24.440
نريد الابتعاد عنهم.

02:24.440 --> 02:26.720
لديهم المزيد من العقوبة.

02:26.810 --> 02:33.050
لذلك من أجل القيام بذلك ، لدينا شبكتنا ، البيئة التي أنشأناها أعلاه مع صفوفنا

02:33.050 --> 02:36.290
، لكننا نريد أيضًا تعيين هذه القيم لها.

02:36.290 --> 02:42.050
لذلك من أجل القيام بذلك ، دعنا نحاول التفكير في كيفية إثبات أنه يمكننا استخدام NumPy ويمكننا

02:42.050 --> 02:47.060
أيضًا البدء في تعيينه على Native 100 لصفوف البيئة وأعمدة البيئة.

02:47.060 --> 02:49.490
لذلك لدينا صفوف بيئتنا وأعمدة بيئتنا.

02:49.490 --> 03:04.280
لذلك دعونا نسمي هذه المكافآت مساوية لـ num pi ممتلئة ودعنا نمرر في أعمدة بيئة صفوف بيئتنا ولتعيين

03:04.280 --> 03:10.370
قيمنا ، يمكننا البدء بـ -100.

03:11.890 --> 03:18.610
بالإضافة إلى ذلك ، نريد أيضًا ضبط نافذة المكافآت الخاصة بنا على.

03:20.150 --> 03:23.780
استخدم فهارس الصفر وخمسة.

03:24.290 --> 03:25.880
يساوي 100.

03:26.620 --> 03:28.530
وسيكون هذا منطقيًا في غضون ثانية.

03:28.540 --> 03:30.190
لذلك نحن نلقي نظرة على الساحة الخضراء.

03:30.190 --> 03:31.330
لدينا صفر وخمسة.

03:31.330 --> 03:37.330
لدينا Green Square الخاص بنا تم تعيينه على 100 مع أخذ هذه أو هذا الموقع لتعيين القيمة.

03:37.420 --> 03:41.680
الآن ، سأقوم بلصق المقتطف التالي من الكود حتى نتمكن من استعراضه.

03:41.680 --> 03:44.770
لذلك ليس عليك مشاهدتي وأنا أكتب كل خطوة لأنها متكررة قليلاً.

03:44.770 --> 03:47.690
والآن لدينا مسافاتنا البيضاء.

03:47.710 --> 03:51.820
دعنا نضع ملاحظتنا لنقاط المكافأة الخاصة بنا.

03:52.030 --> 03:57.490
وفي مقتطف الكود هذا ، نستخدم قاموسًا ونضع كل قيمنا في قواميسنا.

03:57.490 --> 03:58.480
لذلك لدينا ممراتنا.

03:58.480 --> 04:05.290
نحن نفكر في ذلك على أنه كل صف فردي ، ويمكننا ضبطه باستخدام الفهرس من واحد

04:05.290 --> 04:06.550
إلى تسعة.

04:06.550 --> 04:11.470
ونريد استخدام التكرار مع حلقة for لتعيين هذه القيم.

04:11.860 --> 04:17.650
عند القيام بذلك ، سترى إذا نظرنا إلى واحد من خلال واحد إلى عشرة وواحد وسبعة وتسعة وباستخدام هذا

04:17.650 --> 04:22.540
، يمكننا بالفعل تعيين فهرس الصف في النطاق من واحد إلى عشرة ، والذي نعمل من خلاله في

04:22.540 --> 04:23.320
بيئتنا .

04:23.410 --> 04:25.570
يمكننا ضبط فهرس العمود.

04:26.530 --> 04:33.310
في ممرات فهرس الصف الخاص بنا مع قاموسنا وفهرس صف المكافآت وفهرس العمود ، يمكننا تعيينه

04:33.310 --> 04:34.720
على سالب واحد.

04:34.720 --> 04:41.650
إذن ما يفعله هذا هو في الأساس إذا نظرنا إلى كل نوع محدد ، إذا أخذنا نطاقًا هنا ، على سبيل المثال ، الممر

04:41.650 --> 04:48.160
التاسع بالنسبة لـ I في نطاقنا ، لدينا مجموعة سالبة واحدة في جميع أنحاء البيئة بأكملها أو كل حالة

04:48.160 --> 04:49.300
داخل بيئتنا.

04:49.450 --> 04:52.450
لثمانية ، لدينا ثلاثة وسبعة.

04:52.450 --> 04:57.700
إذا تمكنا من التمرير لأعلى ، يمكننا أن نرى أنه في ثلاثة وسبعة ، نضع سالب واحد

04:57.700 --> 05:03.340
لأنهم جميعًا سيكونون سالبين ، و 100 مضبوط على سالب مائة وبهذا التكرار يمكننا تعيين

05:03.340 --> 05:08.830
تلك المكافآت أو تعيين كل حالة التي نحددها داخل الممرات إلى سالب واحد.

05:08.830 --> 05:10.420
إنها تجعلها سهلة للغاية.

05:10.420 --> 05:17.260
بدلاً من الاضطرار إلى كتابة المزيد من المنطق أو ربما وظائف أو عبارات أكثر تفصيلاً ، يمكننا تكرار

05:17.260 --> 05:18.880
هذه القيم وتعيينها.

05:18.880 --> 05:24.310
أوصي بشدة أن تستغرق دقيقة لاستكشاف التجربة إذا كنت تريد تغيير البيئة لاحقًا.

05:24.310 --> 05:29.440
بعد تشغيل هذا الحل ، يعد طريقة رائعة للمساعدة في تعلم هذه السياسات وتعزيزها.

05:29.440 --> 05:35.050
لكن هذا بدأ يتشكل والشيء الرائع الذي يمكننا القيام به هو أنه يمكننا بالفعل تخيله.

05:35.050 --> 05:38.680
إذن ، لنقم بأربعة صفوف في المكافآت.

05:39.990 --> 05:46.650
اطبع الصف ودعنا نطبع هذا ويمكننا أن نرى أنني قد أضطر بالفعل إلى إعادة تشغيل الخلايا.

05:46.650 --> 05:47.640
اعتذاري.

05:47.640 --> 05:50.190
لم أكن متصلاً بالدفتر الذي أعمل هنا.

05:50.220 --> 05:51.270
أعطه 1/2.

05:51.270 --> 05:52.520
سيكون هناك خطأ.

05:52.530 --> 05:55.290
أنا بحاجة للعودة من خلال الخلايا وإعادة تشغيلها.

05:55.290 --> 05:57.240
لذا اسمحوا لي أن أجري هذا بسرعة كبيرة.

05:57.240 --> 05:58.770
أريد استيراد NumPy.

05:58.770 --> 06:00.300
يمكنني في الواقع فقط.

06:00.420 --> 06:01.710
أوه ، اعتذاري.

06:02.130 --> 06:04.890
اسمحوا لي أن أعبر هذا هنا وسننزل.

06:04.890 --> 06:07.080
نريد أن ندير بيئتنا.

06:07.080 --> 06:08.580
نريد أن ندير أعمالنا.

06:08.580 --> 06:10.710
الآخرون هم مجرد نصوص لذا فنحن لسنا بحاجة إليهم.

06:10.710 --> 06:14.670
لكني أحب أن أحصل على ذلك حتى تتمكن من الحصول على إشارة إليه.

06:14.700 --> 06:18.750
نريد نقاط المكافأة الخاصة بنا ونريد أخيرًا تصور ذلك.

06:18.810 --> 06:25.920
يمكننا أن نرى التصور ، التمثيل العددي الفعلي في كتلة بيئتنا.

06:25.920 --> 06:26.970
رائع حقا.

06:26.970 --> 06:29.160
لذلك قمنا بإعداد بيئتنا.

06:29.190 --> 06:30.210
عمل مدهش.

06:30.240 --> 06:31.740
أتمنى أن تجدوا هذا مفيدا يا رفاق.

06:31.740 --> 06:36.750
الآن سنقوم بإغلاقه هنا لأنه في المحاضرة القادمة سنبدأ تدريب النموذج.

06:36.750 --> 06:42.840
لذلك كان هذا لتعيين تصرفات وكلائنا ، لتهيئة بيئتنا ، لتحديد مكافآتنا ، عقابنا.

06:42.840 --> 06:46.650
سيساعد هذا الوكيل على وضع السياسة المثلى ضمن Q Learning.

06:46.650 --> 06:53.340
بشكل عام ، لدينا هذا التمثيل المرئي أو هذه الصورة المبنية ، ويمكننا رؤيتها هنا إذا

06:53.340 --> 06:54.960
قمنا بطباعة صفنا.

06:56.060 --> 06:56.840
مدهش.

06:56.930 --> 06:57.560
حسنا.

06:57.710 --> 06:59.000
لن أستمر في التجول.

06:59.000 --> 07:00.680
دعنا نغطيها هنا في المحاضرة القادمة.

07:00.710 --> 07:02.300
لنبدأ تدريب النموذج.

07:02.600 --> 07:04.070
سأراكم يا رفاق في المحاضرة القادمة.
