WEBVTT

00:00.500 --> 00:03.800
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.800 --> 00:06.920
وأخيرًا ، ننتقل إلى الأشياء الممتعة.

00:06.920 --> 00:09.080
نحن في طريقنا إلى التعلم العميق.

00:09.200 --> 00:09.650
حسنا.

00:09.650 --> 00:10.520
لذلك دعونا نلقي نظرة.

00:10.550 --> 00:14.030
في السابق ، تحدثنا عن التعلم الأساسي وما يدور حوله.

00:14.030 --> 00:20.840
وتعلمنا عن العمر والبيئة وكيف سينظر الوكيل إلى الحالة هنا أو هي

00:20.840 --> 00:21.680
فيها.

00:21.710 --> 00:24.620
اتخذ إجراءً ، واحصل على مكافأة ، وادخل في حالة جديدة.

00:24.620 --> 00:29.360
وبناءً على حلقة التغذية الراجعة هذه ، سيستمرون في اتخاذ الإجراءات وسوف يتعلمون من ذلك ، ويفهمون

00:29.360 --> 00:32.000
ما هي الإجراءات الأفضل التي يجب اتخاذها.

00:32.000 --> 00:34.880
وهكذا نظرنا إلى هذا المثال الأساسي للمتاهة.

00:34.880 --> 00:40.370
لقد فهمنا أنه كعامل يستكشف البيئة ، يفهم ما هي قيم الدول.

00:40.400 --> 00:45.050
ثم انتقلنا من التعامل مع قيم الدول إلى التعامل مع قيم الإجراءات

00:45.050 --> 00:46.490
أو قيم Q.

00:46.490 --> 00:53.450
وبعد ذلك بناءً على ذلك ، فهمنا كيف تعمل الخطط في البيئات غير العشوائية وكيف تعمل السياسات في

00:53.450 --> 00:55.190
البيئات العشوائية.

00:55.190 --> 00:56.690
وهذا مثال على السياسة.

00:56.870 --> 01:01.160
هذه خلاصة سريعة لكل شيء ناقشناه في التعلم الأساسي.

01:01.160 --> 01:06.860
والآن دعونا نلقي نظرة على كيفية نقل هذا إلى المستوى التالي من خلال التعلم العميق ، من خلال إضافة

01:06.860 --> 01:08.060
التعلم العميق.

01:08.450 --> 01:16.040
إذن هذه هي بيئتنا وما سنفعله الآن هو أننا سنضيف ، بدلاً من مجرد إجراء الحسابات الأساسية

01:16.040 --> 01:22.490
في هذه المصفوفة التي لدينا ، وهي بسيطة جدًا ، ما سنفعله هو " سنضيف إلى المحاور

01:22.490 --> 01:28.370
، سنضيف محوري X و Y ، أو سنسميهما x واحد و x اثنان ، فقط لجعل الأمور أكثر

01:28.400 --> 01:30.200
عمومية.

01:30.230 --> 01:33.500
وهنا سنقوم بترقيم الأعمدة.

01:33.500 --> 01:35.930
واحد ، اثنان ، ثلاثة ، أربعة ، كعب هنا سنقوم بترقيم الصفوف.

01:35.930 --> 01:36.650
واحد اثنين ثلاثة.

01:36.650 --> 01:43.730
والآن يمكن وصف كل حالة من خلال زوج من قيمتين x واحد و x اثنين.

01:43.730 --> 01:50.870
إذن ، أي من هذه المربعات التي يمكن أن يكون العامل فيها يمكن وصفها بـ x1x2.

01:50.870 --> 01:58.250
إذن ، على سبيل المثال ، يوجد الآن في المربع حيث x واحد يساوي واحدًا و x اثنين يساوي اثنين.

01:58.250 --> 02:03.020
وبالتالي فإن مجموع هذا هو بنفس الطريقة التي يمكننا بها الهروب من أي مربع ، مما يعني أنه يمكننا وصف أي

02:03.020 --> 02:03.350
حالة.

02:03.350 --> 02:08.870
وبالطبع ، هذه نسخة مبسطة جدًا من بيئة وصف الحالات ، لكنها مع ذلك تعمل في

02:08.870 --> 02:10.070
هذه الحالة.

02:10.070 --> 02:17.240
وهذا يعني أنه يمكننا الآن تغذية هذه الحالات في شبكة عصبية.

02:17.240 --> 02:21.620
وبالمناسبة ، أود هنا فقط أن أذكر أنه في نهاية الدورة ، لدينا ملاحق ، لدينا

02:21.620 --> 02:24.020
الملحق رقم واحد والمرفق رقم اثنين.

02:24.110 --> 02:28.490
من أجل المضي قدمًا بنجاح في هذا القسم ، يُنصح بشدة بمراجعة الملحق رقم

02:28.490 --> 02:33.740
واحد ، الموجود على الشبكات العصبية الاصطناعية ، حتى تفهم كيفية عملها حتى لا نضطر

02:34.070 --> 02:35.840
إلى الخوض في ذلك هنا.

02:35.840 --> 02:40.550
ويمكننا فقط استخدام فوائد معرفة كيفية عمل الشبكات العصبية الاصطناعية.

02:40.550 --> 02:49.670
وهكذا نقوم بتغذية هذه المعلومات عن الحالة في شبكة عصبية ، وبعد ذلك ستعالج هذه المعلومات.

02:49.670 --> 02:54.470
إذن X ، Y ، x 2 ، اعتمادًا على بنية الشبكة العصبية ، قد تحتوي على طبقات مخفية متعددة

02:54.470 --> 02:55.290
وما إلى ذلك.

02:55.310 --> 02:58.670
لذلك هذا شيء ستكتشفه في الدروس العملية.

02:58.670 --> 03:04.520
لكن في النهاية سنبني بطريقة تجعله يبث أربع قيم ، وهذه القيم الأربع ستكون في

03:04.520 --> 03:06.500
الواقع قيمنا الرئيسية.

03:06.500 --> 03:09.830
إذن القيم التي تملي الإجراء الذي نحتاج إلى اتخاذه.

03:09.830 --> 03:14.420
علاوة على ذلك في هذا البرنامج التعليمي ، سنرى بالضبط كيف يتم استخدام قيم Q هذه لتحديد الإجراء الذي يتم

03:14.420 --> 03:14.990
اتخاذه.

03:14.990 --> 03:22.430
لكن النقطة الأساسية هنا هي أننا لم نعد ننظر إلى هذه المتاهة فقط من منظور التعلم.

03:22.430 --> 03:29.720
نحن الآن نأخذ حالات المتاهة ونقوم بإدخالها في شبكة عصبية عميقة من أجل الحصول على

03:29.720 --> 03:30.830
هذه القيم.

03:30.830 --> 03:33.860
وفي نهاية اليوم ، ما زلنا نتوصل إلى إجراء.

03:33.860 --> 03:36.920
ما زلنا في طريقنا إلى فهم كيفية الإجراء الذي يتعين علينا اتخاذه.

03:36.920 --> 03:38.900
وسنناقش كل هذا بمزيد من التفصيل.

03:38.900 --> 03:40.340
لكن السؤال الآن لماذا؟

03:40.340 --> 03:41.870
لماذا نفعل كل هذا؟

03:41.870 --> 03:42.900
لماذا نلتزم؟

03:42.950 --> 03:48.140
لماذا نجعل الأمور أكثر تعقيدًا عندما كان هذا النهج الأولي للتعلم يعمل بالفعل؟

03:48.320 --> 03:54.440
حسنًا ، السبب في ذلك هو أن التعلم كان يعمل في هذه البيئة المبسطة للغاية ، وما زلنا نتعامل في

03:54.440 --> 03:59.750
الوقت الحالي مع هذه البيئة المبسطة للغاية من أجل فهم المفاهيم بشكل أفضل.

03:59.750 --> 04:05.930
لكن في الوقت نفسه ، لن يعمل هذا التعلم البسيط في بيئات أكثر تعقيدًا.

04:05.930 --> 04:12.020
ونحن نتحدث ، على سبيل المثال ، عن السيارات ذاتية القيادة التي ستخلق أو تلعب الموت

04:12.260 --> 04:18.590
عندما يلعب الذكاء الاصطناعي لعبة الموت أو ألعاب أتاري الأخرى مثل بريك أوت أو حتى

04:18.590 --> 04:26.480
السيارات ذاتية القيادة وأشياء تعليمية أكثر تقدمًا مثل الروبوتات يتجول وأداء الأعمال.

04:26.480 --> 04:30.380
في جميع هذه الحالات ، يكون التعلم الأساسي غير كافٍ وليس قويًا.

04:30.380 --> 04:34.610
انها ليست قوية بما يكفي لتكون قادرة على السيطرة على تلك التحديات.

04:34.610 --> 04:39.980
ومثلما رأينا في دورة التعلم العميق ، إذا كنت في دورة النشر لدينا أو إذا

04:39.980 --> 04:45.680
كنت قد انتهيت من أقسام الملحق ، الملحق رقم واحد وثاني ، فستعرف حقًا أن التعلم

04:45.680 --> 04:51.560
العميق أفضل بكثير من أي نوع من التعلم الآلي ، ناهيك عن التعلم البسيط.

04:51.560 --> 04:54.140
ولهذا السبب نستفيد من قوة التعلم العميق هنا.

04:54.140 --> 04:58.430
لذلك نحن نقوم بتغذية المعلومات المتعلقة بالبيئة كمتجه للقيم.

04:58.430 --> 04:59.330
لذلك في هذه الحالة ، فقط ل.

04:59.380 --> 05:01.270
القيم في شبكة عصبية عميقة.

05:01.270 --> 05:06.460
ثم نستخدم ذلك لأداء الإجراءات التي نريد أن نقرر الإجراءات التي سيتخذها

05:06.460 --> 05:07.170
الوكلاء.

05:07.180 --> 05:11.590
لذا فإن هذا يشبه إلى حد ما نظرة عامة عالية المستوى عن سبب قيامنا بذلك.

05:11.590 --> 05:17.860
والآن دعونا نلقي نظرة أكثر تفصيلاً على ما يحدث لمفاهيم التعلم الأساسي عندما نتحول ، عندما

05:17.860 --> 05:23.860
نجري هذا التحول من التعلم البسيط أو الانتقال من التعلم العميق إلى التعلم العميق.

05:23.860 --> 05:31.180
لذا كما رأيتم في دروس الحدس السابقة ، كان لدينا شريحة مثل هذه والتي هي أساس

05:31.180 --> 05:33.520
تعلم الفروق الزمنية.

05:33.520 --> 05:37.390
هذه هي معادلة الاختلاف الزمني ، لذا دعنا نتناولها بشكل أساسي.

05:37.390 --> 05:45.520
لذلك كان لدينا وكيلًا كان في هذه الحالة هنا ، والذي أشار إليه السهم الأزرق ، وكنا نفهم كيف يعمل

05:45.520 --> 05:51.340
الاختلاف الزمني لقيمة الإشارة ، على سبيل المثال ، الصعود.

05:51.520 --> 05:56.410
ولذا فإن ما رأيناه هنا كان قبل ذلك في التعلم البسيط ، وليس التعلم العميق.

05:56.410 --> 05:57.550
هذا في التعلم البسيط.

05:57.580 --> 06:06.130
ما رأيناه كان قبل أن يكون للوكيل قيمة صبغة معينة كان قد تعلمها عن هذا الإجراء الخاص بالصعود.

06:06.130 --> 06:08.620
ومن ثم قرر اتخاذ هذا الإجراء للارتفاع.

06:08.620 --> 06:15.520
وبعد أن يتخذ هذا الإجراء مباشرة ، يحصل على مكافأة مقابل القيام بهذا الإجراء في هذه الحالة ، وهذه هي

06:15.520 --> 06:16.420
المكافأة.

06:16.420 --> 06:22.720
بالإضافة إلى ذلك ، يمكنه الآن تقييم قيمة الحالة الحالية التي يمر بها ، وهي الحد الأقصى لجميع قيم الإشارات الجديدة

06:22.720 --> 06:25.780
، لجميع قيم الإشارات ، للإجراءات الجديدة.

06:25.780 --> 06:32.170
يمكنه أن يأخذ عددًا أوليًا في الحالة الجديدة باعتباره عددًا أوليًا ونضربه في عامل اضمحلال جاما.

06:32.170 --> 06:40.420
إذن هذا هو الأساس ، أو قيمة التلميح الجديد أو نوعًا ما مثل قيمة التلميح التجريبي التي تلقاها

06:40.420 --> 06:43.000
للتو لاتخاذ هذا الإجراء.

06:43.000 --> 06:45.550
ومن الناحية المثالية ، يجب أن يكون هذان العنصران متماثلين.

06:45.550 --> 06:51.010
لذا فإن القيمة الأساسية التي كان يمتلكها في ذاكرته حول هذا الإجراء في هذه الحالة ، يجب

06:51.010 --> 06:57.370
أن تكون مساوية للمكافأة الفعلية ، بالإضافة إلى أوقات جاما ، قيمة الحالة التي انتهى بها الأمر.

06:57.370 --> 06:59.800
وبالتالي ، هكذا نحسب الفرق الزمني.

06:59.800 --> 07:05.110
نأخذ ما حصل عليه مطروحًا منه ما حصل عليه ، وما كان يدور في خلده ، وما كان يتوقعه.

07:05.110 --> 07:07.600
ستطرح واحدًا من الآخر ، وهذا هو اختلافك الزمني.

07:07.600 --> 07:14.860
وبعد ذلك تستخدم معدل التعلم ألفا لضبط قيمة Q الخاصة بك بقيمة جديلة جديدة من خلال الاختلاف الزمني

07:14.860 --> 07:16.840
، ولكن مع معامل ألفا.

07:16.840 --> 07:20.260
لذلك هذا هو جوهر التعلم البسيط للإشارة.

07:20.260 --> 07:24.310
الآن دعونا نلقي نظرة على كيفية تغيرها في التعلم العميق.

07:24.310 --> 07:29.350
ولذا فإننا ما زلنا نعمل على الشريحة ، لكننا سنرى فقط ما يحدث بالضبط.

07:29.350 --> 07:35.440
لذا في التعلم العميق ، ستتنبأ الشبكة العصبية بأربع قيم ، كما رأينا في الشريحة السابقة.

07:35.440 --> 07:40.870
وكما سنرى لاحقًا في هذا البرنامج التعليمي ، ستتنبأ الشبكة العصبية بأربع قيم ، أو قد تتنبأ بمزيد

07:40.870 --> 07:44.710
من القيم إذا كان هناك المزيد من الإجراءات المحتملة في حالة معينة.

07:44.710 --> 07:48.430
لكن في هذه الحالة ، نعلم أن هناك أربعة حركات فقط في الوضع الرأسي أو الأيسر أو السفلي.

07:48.430 --> 07:53.080
وبالتالي ، ستتنبأ الشبكة العصبية بأربعة من هذه القيم.

07:53.080 --> 07:56.710
لذلك لن يكون هناك في وضع التعلم العميق.

07:56.710 --> 07:58.750
من المهم أن نفهم أنه لا يوجد قبل أو بعد.

07:58.750 --> 08:01.510
وهذه هي الطريقة التي سنتعرف بها على هذا بشكل أفضل.

08:01.510 --> 08:08.050
لذا ستتنبأ الشبكة العصبية بأربعة من هذه القيم ، ولن تقارن بما سيحدث بعد ذلك ، لكن

08:08.050 --> 08:11.740
الشبكة العصبية ستقارن بهذه القيمة بالضبط.

08:11.740 --> 08:17.530
لكن هذه هي القيمة التي تم حسابها في الخطوة السابقة.

08:17.530 --> 08:22.870
لذلك في المرة السابقة عندما كان الوكيل في هذا المربع بالضبط.

08:22.870 --> 08:30.400
دعنا نقول ، لا أعرف ، منذ بعض الوقت كان الوكيل مرة أخرى في هذا المربع الدقيق أيضًا

08:30.400 --> 08:34.210
، وقام بحساب هذه القيمة مسبقًا.

08:34.210 --> 08:40.270
لذلك في المرة السابقة ، منذ زمن طويل ، قام الوكيل بحساب هذه القيمة ، ثم قام الوكيل بتخزين

08:40.270 --> 08:43.510
هذه القيمة للمستقبل وقد حان المستقبل الآن.

08:43.510 --> 08:48.580
الآن هو في المربع مرة أخرى والآن لديه قيم Q هذه ، والتي تم توقعها ، وإحدى هذه

08:48.580 --> 08:50.410
القيم للأربعة صعودًا.

08:50.410 --> 08:57.160
إذن ما سيفعله الآن هو مقارنة القيمة المتوقعة لـ Q بهذه القيمة التي سجلها من

08:57.160 --> 08:58.600
الوقت السابق.

08:58.930 --> 09:01.840
وسنفهم بالضبط سبب أهمية هذا الآن.

09:01.840 --> 09:06.910
لذا من المهم فقط أن نفهم هنا أنه لا يوجد قبل ضابط في هذا المربع المحدد

09:06.910 --> 09:13.540
، في هذا الوقت المحدد نأخذ قيمة Q التي تنبأ بها باستخدام الشبكة العصبية هذه المرة.

09:13.540 --> 09:20.170
ونحن نقارنه بهذه القيمة التي حصل عليها من المرة السابقة ، من المرة السابقة التي كان فيها في

09:20.170 --> 09:22.930
هذا المربع لتقييم الموقف بالكامل.

09:22.930 --> 09:28.060
وكما تعلمون ، مثل المرة السابقة التي قام فيها بالفعل بهذا الإجراء.

09:28.060 --> 09:29.230
لذا ها نحن ذا.

09:29.230 --> 09:33.280
الآن دعونا نلقي نظرة على كيفية عمل كل هذا في الشبكة العصبية ولماذا.

09:33.280 --> 09:35.110
لماذا هو من هذا القبيل؟

09:35.110 --> 09:39.520
أعلم أن الأمر يبدو معقدًا بعض الشيء في الوقت الحالي ، لكننا سنقسمه إلى مصطلحات بسيطة ، في غضون

09:39.520 --> 09:39.940
ثانية.

09:39.940 --> 09:44.500
لذا فإن هذه الشبكة العصبية التي نغذيها في حالات البيئة في الشبكة العصبية تمر عبر

09:44.500 --> 09:45.550
الطبقات المخفية.

09:45.550 --> 09:47.200
ثم يخرج بهذه المخرجات.

09:47.230 --> 09:48.760
Q1، Q2، Q3، Q4.

09:48.760 --> 09:57.310
في تلك الحالة المحددة ، هذه هي القيم الأساسية التي تتوقعها الشبكة العصبية للإجراءات المحتملة.

09:57.310 --> 09:58.180
هذه هي قيم Q.

09:58.180 --> 09:59.260
إذن نحن إذن.

09:59.360 --> 10:04.610
مقارنة بالهدف وهذه الأهداف بالضبط إذا عدنا إلى هنا ، فهذا هو الهدف.

10:04.610 --> 10:07.100
إذن هذه هي القيمة التي تم توقعها.

10:07.100 --> 10:11.600
وبعد ذلك ، نعلم أيضًا أن لدينا هدفًا من آخر مرة كنا فيها في المربع.

10:11.600 --> 10:16.430
لدينا هدف لهذا الإجراء نفسه ، وهو الأمر ، على سبيل المثال.

10:16.430 --> 10:18.770
إذن لدينا هنا هدف وسنقارنه.

10:18.770 --> 10:20.750
لذلك نحن نقارن Q1 واحد مقابل هذا الهدف.

10:20.750 --> 10:24.890
نحن نقارن Q2 مقابل هذا الهدف ، الهدف الذي كان لدينا من قبل.

10:25.310 --> 10:26.480
س ثلاثة مقابل الهدف.

10:26.480 --> 10:28.070
س أربعة مقابل الهدف.

10:28.070 --> 10:36.530
وهذا هو الجزء الذي تتعلم فيه الشبكة العصبية أو الوكيل الآن من خلال التعلم العميق كيفية التنقل

10:36.530 --> 10:38.580
بشكل أفضل عبر الفضاء.

10:38.600 --> 10:41.950
والنقطة الأساسية هنا هي أننا ما زلنا نطبق.

10:41.960 --> 10:47.180
س التعلم ، ولكن المفاهيم في التعلم البسيط ، تتعلم من خلال الاختلافات الزمنية ، والتي هي

10:47.180 --> 10:50.630
واضحة جدًا ، والتي ناقشناها بالفعل ونعرفها جيدًا الآن.

10:50.630 --> 10:54.530
لكن في الوقت نفسه ، في التعلم العميق ، كيف تتعلم الشبكات العصبية؟

10:54.530 --> 10:56.870
حسنًا ، الشبكات العصبية تتعلم من خلال تعديل وزنها.

10:56.870 --> 11:07.040
لذلك علينا تكييف مفاهيم تعزيز مفاهيم التعلم الأساسي البسيط مع الطريقة التي تعمل بها الشبكات العصبية

11:07.040 --> 11:08.450
بالفعل.

11:08.450 --> 11:10.820
وذلك من خلال تحديث وزنهم.

11:10.820 --> 11:12.500
وهذا ما نحاول اكتشافه هنا.

11:12.500 --> 11:19.130
كيف يمكننا تكييف مفهوم الاختلاف الزمني هذا مع الشبكة العصبية حتى نتمكن من الاستفادة من القوة الكاملة

11:19.130 --> 11:20.960
للشبكات العصبية؟

11:20.990 --> 11:22.160
وحتى الآن حصلنا على هذا.

11:22.160 --> 11:28.610
لذلك ندخل حالة بيئتنا هنا حيث يمر المتجه عبر شبكة عصبية ، نحصل على تنبؤات

11:28.610 --> 11:29.360
بقيم Q.

11:29.360 --> 11:34.340
ثم من المرة السابقة التي كان فيها الوكيل في تلك الحالة ، لدينا هؤلاء.

11:34.340 --> 11:35.090
س الهدف.

11:35.090 --> 11:39.230
س استهدف واحدًا ، واثنين ، وثلاثة ، وأربعة لكل من هذه الإجراءات ذات الصلة.

11:39.230 --> 11:43.040
والآن نحن على ما يرام ، دعنا نقارن كل واحد مع كل واحد.

11:43.340 --> 11:50.360
ومن هنا يصبح الأمر واضحًا جدًا إذا كنت على دراية بالشبكات العصبية.

11:50.360 --> 11:52.350
مرة أخرى ، هذا كل شيء في ملحق.

11:52.370 --> 11:57.890
رقم واحد ، سنحسب خسارة ، وهي L هنا وسنكون كذلك.

11:57.890 --> 12:01.400
س استهدف هذا ناقص س ناقص هذا.

12:01.700 --> 12:02.900
سنقوم بترتيب ذلك.

12:02.900 --> 12:06.500
إذن ، الفرق التربيعي لكل واحد من هؤلاء وسنجمعها.

12:06.500 --> 12:11.840
لذلك سنأخذ مجموع الفروق التربيعية لقيم Q هذه وأهدافها ، وسنلخصها

12:11.840 --> 12:13.760
وستكون خسارتنا.

12:13.760 --> 12:19.160
ومن الناحية المثالية ، تمامًا كما فعلنا في تعلم الفرق الزمني ، لذلك إذا عدنا للوراء لثانية ، تذكر

12:19.160 --> 12:25.100
أننا قلنا بشكل مثالي أننا نريد أن يكون هذا مساويًا لهذا ، لذلك نريد أن يكون الاختلاف الزمني صفرًا.

12:25.100 --> 12:32.420
هذا يعني أن الوكيل يتنبأ بشكل صحيح تمامًا بقيم Q التي يتوقعها

12:32.420 --> 12:34.610
الوكيل بالضبط.

12:34.610 --> 12:38.060
أو أن لديه ذاكرة وصفية تمامًا للبيئة.

12:38.360 --> 12:42.650
وبالتالي ، يمكن للوكيل التنقل في البيئة بشكل جيد.

12:42.650 --> 12:42.920
الصحيح.

12:42.920 --> 12:43.940
لا توجد مفاجآت.

12:43.940 --> 12:49.700
لا يوجد ما إذا كان هذا الاختلاف الزمني إيجابيًا للغاية أو سلبيًا للغاية ، فعندئذٍ

12:49.700 --> 12:51.260
لدينا بعض المفاجآت.

12:51.260 --> 12:55.400
لكن إذا كان الاختلاف الزمني صفراً ، فإنه يعرف البيئة جيدًا بحيث يمكنه التنبؤ بما

12:55.400 --> 12:56.510
يحدث ويمكنه ذلك.

12:56.510 --> 13:01.070
وبالتالي ، ستكون سياسته جيدة جدًا وسيكون قادرًا على الإبحار فيها.

13:01.070 --> 13:02.630
حتى هنا ، نفس الشيء.

13:02.630 --> 13:07.400
لذلك نريد أن تكون هذه الخسارة قريبة من الصفر زائد أصغر ما يمكن.

13:07.400 --> 13:14.600
ولهذا السبب نحن الآن ذاهبون إلى هذا الجزء حيث سنستفيد من القوة الحقيقية الحقيقية للشبكة

13:14.600 --> 13:15.590
العصبية.

13:15.590 --> 13:21.410
لذلك سنأخذ هذه الخسارة وسنستخدم الانتشار العكسي أو نزول التدرج العشوائي لأخذ هذه

13:21.410 --> 13:27.650
الخسارة وتمريرها عبر الشبكة ، ونمررها للخلف أو للخلف ، وتنتشر عبر شبكة ومن خلال النسب

13:27.650 --> 13:29.360
المتدرج العشوائي.

13:29.420 --> 13:36.950
قم بتحديث أوزان هذه الملخصات في الشبكة بحيث في المرة القادمة التي نمر فيها عبر هذه الشبكة ، تكون الأوزان بالفعل وصفية

13:36.950 --> 13:41.000
أفضل قليلاً للبيئة وهذه هي بالضبط الطريقة التي تعمل بها.

13:41.000 --> 13:48.020
لذلك إذا عدت إلى الوراء ، فسيتم حساب ذلك ، ويتم احتساب الخسارة ويتم نشرها للشبكة.

13:48.020 --> 13:49.100
يتم تحديث الأوزان.

13:49.100 --> 13:55.280
ثم في المرة القادمة التي نصل فيها إلى هنا ، يحدث هذا مرة أخرى ونصل إلى هنا ، يحدث هذا مرة أخرى وهكذا وهكذا

13:55.280 --> 13:56.600
ويستمر حدوث ذلك.

13:56.600 --> 13:59.900
وهذه هي الطريقة التي يتعلم بها هذا الوكيل.

13:59.900 --> 14:06.890
أو الآن بشكل أساسي ، الشبكة العصبية هي دماغ العامل الذي يتعلم ، وأصبحت أكثر وأكثر وصفية

14:06.890 --> 14:11.960
للبيئة ، وبالتالي فإن الوكيل قادر على التنقل في البيئة.

14:12.140 --> 14:17.900
عندما نقول إن البيئة الوصفية تعني أساسًا أنه عندما نضع في حالة البيئة

14:17.900 --> 14:24.830
التي يوجد فيها الوكيل ، فمن المرجح أن نقترب أكثر فأكثر من قيم الإشارات الفعلية.

14:24.830 --> 14:29.120
وهذا يحدث بسبب القيم الأساسية التي نريدها وإيجاد الإجراء الصحيح.

14:29.120 --> 14:33.530
وهذا يحدث لأن أهداف Q هذه مشتقة تجريبياً.

14:33.530 --> 14:36.680
فكيف وجد هذه الأهداف اللطيفة؟

14:36.680 --> 14:38.390
هذا هو في الواقع هذا.

14:38.390 --> 14:40.240
لذا فهو يلاحظ بالفعل ، حسنًا.

14:40.250 --> 14:42.800
لذا بمجرد أن أقوم بهذه الخطوة ، ما هي المكافأة التي أحصل عليها؟

14:42.800 --> 14:44.870
ثم ما هي قيمة هذه الدولة؟

14:44.870 --> 14:48.620
نفس الشيء كما رأينا سابقًا في Q Learning في حدس التعلم البسيط.

14:48.620 --> 14:54.190
لذلك يتعلم هذا من خلال التجربة والخطأ ، ثم يقوم ببناء شبكته أو تحديث شبكة

14:54.500 --> 14:59.140
الأوزان بطريقة تجعل قيم الإشارات المتوقعة أقرب وأقرب.

14:59.220 --> 15:01.260
تقريب الهدف.

15:01.260 --> 15:07.350
قيم Q تشبه إلى حد بعيد المفهوم الذي ناقشناه هنا في تعلم الفرق الزمني البسيط لخوارزمية

15:07.350 --> 15:09.330
التعلم البسيطة.

15:09.690 --> 15:10.380
لذا ها نحن ذا.

15:10.380 --> 15:12.360
هذه هي الطريقة التي يتعلم بها الوكيل.

15:12.360 --> 15:13.590
لذلك نحن هنا.

15:14.280 --> 15:15.390
هذا هو جزء التعلم.
