WEBVTT

00:00.090 --> 00:00.923
المدرب: مرحبًا

00:00.923 --> 00:03.870
، أصدقائي ، ومرحبًا بكم في حالة استخدام علم البيانات الجديدة

00:03.870 --> 00:07.560
هذه مع ChatGPT ، والتي ستكون هذه المرة في التعلم المعزز.

00:07.560 --> 00:09.420
لذلك سنخبر ChatGPT الآن أننا

00:09.420 --> 00:13.260
قمنا ببرمجة سيارة افتراضية ذاتية القيادة بدون أي ذكاء

00:13.260 --> 00:14.730
اصطناعي حتى الآن.

00:14.730 --> 00:19.020
لذلك قمنا للتو بتنفيذ قدرته على المضي قدمًا ، والانعطاف إلى اليسار

00:19.020 --> 00:21.300
، والانعطاف يمينًا ، والتوقف.

00:21.300 --> 00:25.050
وسنقول إن هذه السيارة ذاتية القيادة تكافأ

00:25.050 --> 00:27.540
إذا تمكنت من الوصول إلى وجهة معينة

00:27.540 --> 00:30.420
، وتعاقب إذا ابتعدت عن هذه الوجهة

00:30.420 --> 00:33.360
، أو إذا واجهت بعض العقبات.

00:33.360 --> 00:35.460
حسنًا ، ثم سنطلب من ChatGPT نموذج

00:35.460 --> 00:37.680
الذكاء الاصطناعي الذي يجب تنفيذه

00:37.680 --> 00:40.020
للسيارة ذاتية القيادة وكيف.

00:40.020 --> 00:40.853
تمام؟

00:40.853 --> 00:41.686
لذلك دعونا نفعل هذا.

00:41.686 --> 00:43.530
سأفتح محادثة جديدة هنا.

00:43.530 --> 00:45.637
وفي الداخل سنقول بالضبط

00:45.637 --> 00:49.110
، "مرحبًا ، لقد قمت ببرمجة سيارة

00:49.110 --> 00:53.550
افتراضية ذاتية القيادة مع الإجراءات

00:53.550 --> 00:57.000
التي تتمثل في التحرك للأمام ،

00:57.000 --> 01:01.320
والانعطاف إلى اليسار ، والانعطاف يمينًا

01:01.320 --> 01:04.710
، والتوقف.

01:04.710 --> 01:08.370
ثم تكافأ هذه السيارة

01:08.370 --> 01:13.370
بمجرد وصولها إلى وجهة معينة

01:13.890 --> 01:16.080
، وتعاقب إذا

01:16.080 --> 01:19.980
ابتعدت عن هذه الوجهة

01:19.980 --> 01:23.070
، أو إذا اصطدمت ببعض

01:23.070 --> 01:28.070
العقبات. حسنًا ، لنكن أكثر جشعًا الآن.

01:28.650 --> 01:29.760
أردت فقط أن أسأل عن بعض

01:29.760 --> 01:31.530
التوصيات حول كيفية بناء نموذج تعليمي

01:31.530 --> 01:34.110
معزز للسيارة ذاتية القيادة ، لكن دعونا في الواقع

01:34.110 --> 01:35.490
نطلب بنائه مباشرة.

01:35.490 --> 01:38.700
ولم لا؟

01:38.700 --> 01:39.533
دعونا نرى ما هو قادر على ChatGPT.

01:39.533 --> 01:41.730
لذلك سوف أسأل ، "هل

01:41.730 --> 01:44.650
يمكنك كتابة رمز Python

01:45.750 --> 01:49.230
لي باستخدام أفضل المكتبات

01:49.230 --> 01:53.580
لبناء نموذج تعليمي معزز ينفذ الذكاء

01:53.580 --> 02:01.770
الاصطناعي داخل تلك السيارة ذاتية القيادة؟

02:01.770 --> 02:01.770
حسنًا

02:01.770 --> 02:06.750
، من الجشع أن نسأل هذا ، لكننا لا نعرف أبدًا.

02:08.010 --> 02:09.870
قد تعطينا ChatGPT ما نريده بالضبط.

02:09.870 --> 02:11.160
لذلك دعونا نحاول

02:11.160 --> 02:14.010
وإذا واجهت أي مشكلة ، فسنساعدها.

02:14.010 --> 02:16.500
حسنًا ، لنضغط على Enter وها نحن ذا.

02:16.500 --> 02:17.340
بالتأكيد ، حسنًا ، هذه بداية رائعة مرة أخرى.

02:17.340 --> 02:20.670
"يمكنني مساعدتك في البدء في تنفيذ نموذج التعلم

02:20.670 --> 02:22.477
المعزز لسيارتك ذاتية القيادة

02:22.477 --> 02:24.180
في Python. مدهش.

02:24.180 --> 02:25.230
"إليك بعض التعليمات البرمجية

02:25.230 --> 02:26.700
التي توضح كيفية استخدام مكتبة OpenAI Gym. مذهل.

02:26.700 --> 02:27.533
"لتدريب نموذج التعلم

02:27.533 --> 02:29.730
المعزز لسيارتك ذاتية القيادة. حسنًا ، هذا أمر مذهل حقًا ، لم أتوقع أن يقوم ChatGPT بذلك

02:29.730 --> 02:30.960
بسهولة ، ومن المنطقي تمامًا ما

02:30.960 --> 02:31.793
يفعله الآن.

02:31.793 --> 02:33.180
إنها تهيئة ، جدول Q ، عدد الحالات

02:33.180 --> 02:34.920
، عدد الإجراءات ، معدل التعلم الذي

02:34.920 --> 02:36.330
تمت تهيئته إلى 0. 1 ، عامل

02:36.330 --> 02:40.050
خصم حتى 0. 95.

02:40.050 --> 02:43.230
هذا رائع حقًا ، أنا في حالة من الرهبة.

02:43.230 --> 02:45.600
معدل الاستكشاف إلى 0. 5 ، الحد الأقصى لعدد الحلقات 1000

02:45.600 --> 02:47.670
، والحد الأقصى لعدد الخطوات لكل

02:47.670 --> 02:49.920
حلقة هو 100.

02:49.920 --> 02:51.660
ثم تقوم بتدريب نموذج Q-Learning ، مذهل.

02:51.660 --> 02:54.270
سأقوم بتحديه بعد ذلك لتنفيذ نموذج أكثر تقدمًا

02:54.270 --> 02:55.743
مثل نموذج التعلم

02:56.610 --> 02:58.950
العميق Q ، أو A3C ولكن دعنا نرى.

02:58.950 --> 03:01.950
يقوم بتنفيذ كل شيء من البداية باستخدام For Loop.

03:01.950 --> 03:04.770
يبدأ باختيار إجراء ، ثم ينفذ الخطوة التي

03:04.770 --> 03:07.140
يتخذ فيها الذكاء الاصطناعي الإجراء

03:07.140 --> 03:09.810
، ثم يقوم بتحديث جدول Q ثم يقوم بتعيين

03:09.810 --> 03:12.720
الحالة إلى اليوم التالي.

03:12.720 --> 03:16.380
هذه حقًا عملية التعلم المعزز ، عملية التعلم

03:16.380 --> 03:18.030
Q ، هذا مذهل.

03:18.030 --> 03:21.690
ثم يقوم بتطبيق كيفية اختبار نموذج Q-Learning

03:21.690 --> 03:25.410
، ثم يقوم أخيرًا بإغلاق البيئة.

03:25.410 --> 03:26.243
واو ، كان ذلك مذهلاً حقًا.

03:26.243 --> 03:28.260
حسنًا ، لم أتوقع الكثير.

03:28.260 --> 03:30.510
لذلك نظرًا لأنها فعلت ذلك بسهولة

03:30.510 --> 03:33.450
، فلنتحدىها أكثر ، بل أكثر صعوبة.

03:33.450 --> 03:36.960
لذلك أولاً ، دعنا نقول ، بالطبع ، "شكرًا جزيلاً

03:36.960 --> 03:39.780
، لقد كان ذلك مفيدًا حقًا.

03:39.780 --> 03:41.430
ومع ذلك ، فأنا

03:41.430 --> 03:43.080
أعرف بالفعل كيفية

03:43.080 --> 03:46.470
تنفيذ Q-Learning.

03:46.470 --> 03:48.247
لذا هل يمكنك

03:48.247 --> 03:52.593
فعل الشيء نفسه مع نموذج التعلم

03:54.690 --> 03:56.040
المعزز الأكثر

03:56.040 --> 03:59.700
تقدمًا مثل ، على سبيل المثال

03:59.700 --> 04:04.260
، التعلم العميق Q. أو حتى أفضل ، لنكن جشعين للغاية.

04:04.260 --> 04:06.210
"نموذج تعليمي متطور معزز. حسنًا ، مستعد لهذا؟

04:06.210 --> 04:09.030
ها نحن.

04:09.030 --> 04:11.280
و بالتأكيد. يقول دائمًا: "بالتأكيد. هذا مذهل.

04:11.280 --> 04:16.280
"إليك بعض التعليمات البرمجية التي توضح كيف

04:18.720 --> 04:21.990
يمكنك استخدام مكتبة خطوط أساس

04:21.990 --> 04:25.297
OpenAI لتدريب نموذج Q-Learning

04:25.297 --> 04:30.297
العميق ، DQN ، لسيارتك ذاتية القيادة. وهنا نذهب مرة أخرى.

04:32.340 --> 04:33.420
يعطينا الرمز.

04:33.420 --> 04:34.980
هذا رائع حقًا.

04:34.980 --> 04:36.420
حسنًا ، نعم ، إنها تستخدم الآن مكتبة Wrap DeepMind من

04:36.420 --> 04:37.800
مكتبة Atari الشائعة لخط الأساس ، وتقوم بتنفيذ الذكاء

04:37.800 --> 04:38.633
الاصطناعي مرة أخرى باستخدام نموذج

04:38.633 --> 04:39.870
Q-Learning العميق هذه المرة.

04:39.870 --> 04:42.180
هذا حقًا رائع حقًا.

04:42.180 --> 04:44.760
"يستخدم هذا الرمز خوارزمية DQN لتدريب نموذج Q-Learning العميق

04:44.760 --> 04:45.900
لسيارتك ذاتية القيادة.

04:45.900 --> 04:47.310
سيتعلم النموذج اتخاذ أفضل إجراء

04:47.310 --> 04:49.140
في كل ولاية من أجل تعظيم المكافأة.

04:49.140 --> 04:50.820
بدلاً من ذلك ، إذا كنت

04:50.820 --> 04:55.820
ترغب في استخدام نموذج تعليمي معزز أكثر تقدمًا ، فيمكنك استخدام

04:57.300 --> 05:01.260
مكتبة OpenAI Spinning Up ، التي توفر تطبيقات لخوارزميات

05:01.260 --> 05:05.040
التعلم المعزز الحديثة.

05:05.040 --> 05:07.117
إليك بعض التعليمات البرمجية التي توضح

05:07.117 --> 05:09.450
كيف يمكنك استخدام مكتبة Spinning Up لتدريب

05:09.450 --> 05:12.120
تحسين السياسة القريب ، نموذج PPO. في الواقع ، هذا نموذج رائع.

05:12.120 --> 05:15.450
"لسيارتك ذاتية القيادة. وها أنت ذا ، يعطيك النموذج مرة أخرى

05:15.450 --> 05:17.430
مع الكود الكامل.

05:17.430 --> 05:20.460
واو ، يا لها من ثورة ، هذا ChatGPT.

05:20.460 --> 05:21.930
بجدية ، أنا معجب حقًا.

05:21.930 --> 05:24.450
حسنًا ، وها أنت ذا ، لديك الرمز.

05:24.450 --> 05:26.790
"يستخدم هذا الرمز خوارزمية PPO

05:26.790 --> 05:28.380
لتدريب نموذج التعلم

05:28.380 --> 05:30.960
المعزز لسيارتك ذاتية القيادة.

05:30.960 --> 05:32.250
سيتعلم النموذج اتخاذ إجراءات

05:32.250 --> 05:34.950
لتعظيم المبلغ المتوقع للمكافآت المخصومة.

05:34.950 --> 05:36.097
آمل أن يساعد هذا.

05:36.097 --> 05:37.290
يُرجى إعلامي إذا كان لديك

05:37.290 --> 05:39.690
أي أسئلة ، أو إذا كنت تريد المزيد من المساعدة. حسنًا ، حتى أنني لم أتوقع الكثير

05:39.690 --> 05:40.950
، لذلك أنا معجب مثلك

05:40.950 --> 05:44.430
تمامًا ، وفي نفس الوقت أفعل كل هذا.

05:44.430 --> 05:47.220
لذلك سنقول ، "شكرًا جزيلًا ، كان ذلك رائعًا. وفعلت.

05:47.220 --> 05:49.357
نشكرك مرة أخرى على مشاهدة حالة استخدام

05:49.357 --> 05:51.210
علم البيانات هذه مع ChatGPT.

05:51.210 --> 05:52.530
دعنا الآن ننتقل إلى المرحلة التالية.

05:52.530 --> 05:53.940
وحتى ذلك الحين ، استمتع بالتعلم الآلي.