WEBVTT

00:00.520 --> 00:03.860
أهلا ومرحبا بكم مرة أخرى في دورة الذكاء الاصطناعي.

00:03.880 --> 00:05.860
في البرنامج التعليمي اليوم ، سنستمتع ببعض المرح.

00:05.860 --> 00:11.680
سنلقي نظرة على ذكاء اصطناعي يمر بالفعل بتلك المتاهة التي تحدثنا عنها

00:11.680 --> 00:13.270
منذ فترة طويلة.

00:13.480 --> 00:18.340
وستستخدم التعلم الأساسي للتنقل في طريقها وإيجاد مخرج.

00:18.340 --> 00:24.250
وسنرى ما سيحدث لقيم التلميح ، وماذا سيحدث للسياسة وما إلى ذلك.

00:24.250 --> 00:25.810
لذلك دعونا نلقي نظرة.

00:26.080 --> 00:31.780
سنستخدم بعض المواد التي قدمتها لنا جامعة بيركلي.

00:31.780 --> 00:41.110
لذا إذا ذهبت إلى I، Berkeley، B، r k e l e y edu ، إذا ذهبت للتو إلى هذا الرابط ، أدخل ، سترى موقع الويب

00:41.110 --> 00:41.920
هذا.

00:42.160 --> 00:49.720
وهنا ما سنبحث عنه هو الذهاب إلى مشاريع بكمن ، على ما أعتقد.

00:50.440 --> 00:50.700
نعم.

00:50.710 --> 00:51.930
مشاريع البوكيمون.

00:51.940 --> 00:59.020
وهنا إذا قمت بالتمرير لأسفل ونظرت إلى التعلم المعزز ، فهذا ما نعمل معه.

00:59.020 --> 01:01.630
حتى هنا يمكنك تنزيل أرشيف مضغوط.

01:01.630 --> 01:04.960
لذلك هذا إذا كنت تريد ذلك ، فلا داعي لذلك.

01:04.960 --> 01:08.020
هذا لن نتطرق إلى الحل معًا في هذا البرنامج التعليمي.

01:08.020 --> 01:12.910
أنا فقط أخبرك من أين يأتي كل هذا لأننا متشابهين جدًا ، نحن نقدر حقًا أن جامعة

01:12.910 --> 01:16.120
كاليفورنيا في بيركلي أتاحت هذه المواد.

01:16.120 --> 01:20.830
ولكن إذا كنت ترغب في تجربة هذا بنفسك ، فقط ضع في اعتبارك أن هذا ليس جزءًا ولن يكون جزءًا من دورتنا

01:20.830 --> 01:21.790
التدريبية.

01:21.790 --> 01:23.140
هذا جزء من دورة بيركلي.

01:23.140 --> 01:26.050
سأريكم فقط كيف يعمل لأغراض التوضيح.

01:26.050 --> 01:30.460
ولكن إذا كنت ترغب في تجربة ذلك ، فيمكنك العثور عليه هنا ، والأرشيف المضغوط وجميع التعليمات

01:30.460 --> 01:31.060
أيضًا.

01:31.180 --> 01:34.780
وسنذهب إلى بايثون على الفور.

01:34.810 --> 01:41.050
وأول شيء أردت أن أوضحه لكم هو أننا هنا لدينا معلومات الترخيص.

01:41.050 --> 01:42.700
إذن هذا ما أعنيه.

01:42.700 --> 01:47.650
نحن محظوظون جدًا لأنهم قالوا إننا أحرار في استخدام أو تمديد هذه المشاريع للأغراض التعليمية

01:47.650 --> 01:50.860
المقدمة ، كما تعلمون ، الحلول الموزعة ، والتي لن نقوم بها.

01:50.890 --> 01:56.440
أنت تحتفظ بهذا الإشعار الذي لدينا وأنت تقدم إسنادًا واضحًا إلى جامعة كاليفورنيا في بيركلي ، بما في ذلك الرابط

01:56.440 --> 01:57.790
الذي لدينا أيضًا.

01:57.790 --> 02:01.660
لذا مرة أخرى ، إذا كنت ترغب في معرفة المزيد ، فهناك ارتباط يمكنك إلقاء نظرة عليه.

02:01.660 --> 02:05.380
وشكراً جزيلاً لكل هؤلاء الأشخاص الذين عملوا في هذا المشروع.

02:05.380 --> 02:08.170
إذن هذا هو عالم الشبكة الذي سنعمل معه.

02:08.170 --> 02:09.280
هناك حل هناك.

02:09.280 --> 02:13.870
سيكون عليك أن تنجح ، عليك إما عزل نفسك أو إيجاد

02:13.870 --> 02:14.650
حل.

02:14.950 --> 02:20.140
ربما يساعدك بعضكم أو بعض الأشخاص ، شخص ما تعرفه على الخروج من ذلك إذا كنت تريد ذلك مرة أخرى.

02:20.140 --> 02:24.850
لست مضطرًا لذلك ، لأننا سنلقي نظرة عليه على هذه الشاشة الآن.

02:24.850 --> 02:29.440
لذلك بعد إنشاء كل هذه الملفات ، يمكننا تشغيلها هنا.

02:29.440 --> 02:34.450
لذلك هناك بعض المعايير التي تشارك في هذا العالم كله.

02:34.570 --> 02:39.010
والآن سأريكم فقط كيف سيبدو إذا أطلقناه.

02:39.010 --> 02:41.470
لذلك دعونا نحاول تشغيله في الوضع اليدوي.

02:41.470 --> 02:46.990
لذلك إذا ذهبت ناقص م إحدى هذه المعلمات هنا يدويًا حتى أتمكن من التحكم في العامل يدويًا.

02:46.990 --> 02:48.190
هنا يمكنك أن ترى شبكتنا.

02:48.190 --> 02:50.110
لذلك يمكنني الصعود.

02:50.110 --> 02:54.910
لذا يمكنك أن ترى أنها تتخذ إجراءات ، تبدأ وتبدأ في الدول التي كنت فيها.

02:54.910 --> 03:00.100
وبعد ذلك رأيت أنني ضغطت ، واتخذت إجراءات شمالًا وفي المرة الأولى انتهى بي الأمر إلى الصفر.

03:00.100 --> 03:00.970
لذلك صعدت.

03:01.270 --> 03:04.510
لكن في المرة الثانية توقفت عن اتخاذ إجراء وانتهيت في نفس الحالة.

03:04.510 --> 03:04.930
لم أتحرك.

03:04.930 --> 03:06.160
لذلك حدث شيء ما.

03:06.370 --> 03:07.180
العشوائية حدثت.

03:07.180 --> 03:10.810
ذهبت إلى اليسار أو اليمين ، ويتم تعيين المعلمات افتراضيًا.

03:10.810 --> 03:17.080
يمكنك أن ترى هنا افتراضيًا أنها مضبوطة على ما ناقشناه بالضبط وهو أن عدد المرات التي ينتج فيها الإجراء في اتجاه

03:17.080 --> 03:20.800
غير مقصود 20٪ من الوقت ، و 10٪ إلى اليسار ، و 10٪ إلى اليمين.

03:20.950 --> 03:23.350
لذا إذا صعدت ، كما ترى ، فقد صعدت ، وسأذهب إلى اليمين.

03:23.350 --> 03:25.570
ذهبت الآن.

03:25.570 --> 03:29.080
لم يحدث ذلك بشكل صحيح وصحيح.

03:29.080 --> 03:29.680
وانتهيت.

03:29.680 --> 03:34.210
ولكن في هذا التطبيق ، عليك النقر مرة أخرى للخروج من هذا الناتج النهائي.

03:34.210 --> 03:37.000
لذلك من الخروج ، ما عليك سوى النقر مرة أخرى وتنتهي.

03:37.000 --> 03:40.630
هذه حالة طرفية حتى نتمكن من تشغيل دليل.

03:40.630 --> 03:45.520
يمكنك أن ترى أنه إذا ذهبت يمينًا ، يمينًا ، يمينًا ، يسارًا.

03:45.520 --> 03:49.990
إذن هنا ما رأيناه سابقًا أن الوكيل لن يتقدم بشكل مستقيم ، أليس كذلك؟

03:49.990 --> 03:53.230
ما الهدف من الصعود إذا كانت هناك فرصة للذهاب إلى الحفرة؟

03:53.230 --> 03:54.370
لذلك دعونا نرى ما سيفعله الوكيل.

03:54.490 --> 03:56.680
ستذهب يسارًا ، وستتجه غربًا هنا ، لذا اذهب غربًا.

03:56.680 --> 04:01.930
وكما ترون ، لقد نقرت على اليسار ، لكنها ارتفعت وهنا سأضغط على اليمين وسأنتهي في حالة الخروج النهائية

04:01.930 --> 04:04.780
وترى أنني حصلت على مكافأة تساوي واحدًا.

04:05.170 --> 04:06.910
هذا ما يبدو عليه يدويًا.

04:06.910 --> 04:12.460
الآن دعنا في الواقع نربط ذكاءً اصطناعيًا بهذا الأمر ونتركه يمر.

04:12.460 --> 04:16.720
فلنقم بحرف H هنا ونضيف بعض المعلمات.

04:16.720 --> 04:18.970
لذلك اسمحوا لي فقط أن أرى ما كتبته هنا.

04:18.970 --> 04:27.910
لذا ، آمل أن تتمكن من رؤية شبكة عالم شبكة الثعبان النقطة P ، ثم هنا ناقص R يعني أن هذه هي المكافأة للعيش.

04:27.910 --> 04:31.630
لقد حصلت على اثنين منهم ، لذلك ربما ينبغي علي إزالة هذا.

04:31.960 --> 04:34.510
إذن ناقص K هو كم عدد التكرارات؟

04:34.840 --> 04:36.610
هذا هو الطريق الكثير من التكرارات.

04:36.610 --> 04:37.390
لنفعل أقل.

04:37.390 --> 04:39.850
دعنا نحب عشر تكرارات.

04:39.850 --> 04:40.690
ينبغي أن يكون كافيا.

04:40.960 --> 04:48.100
مطروحًا منه وكيل ما هو نوع الوكيل الذي أريد القيام به على وكيل عشوائي ، أو عامل قيمة

04:48.100 --> 04:54.850
ما أو Q Q ، لذا فأنا أريد أن يقوم وكيل التعلم Q Q بعمل هذا ناقص s ما هي السرعة.

04:54.850 --> 04:56.530
لذا فهذه طريقة سريعة جدًا.

04:56.530 --> 04:58.810
دعنا فقط نستخدم السرعة الافتراضية في الوقت الحالي.

04:58.810 --> 05:02.440
ناقص R عقوبة حية.

05:02.440 --> 05:04.690
لذلك بشكل افتراضي هو صفر.

05:04.690 --> 05:07.630
لذا تذكر منذ البداية أننا بدأنا بدون عقوبة حية.

05:07.630 --> 05:10.000
فلنسميها أيضًا صفرًا.

05:10.000 --> 05:15.760
هنا يمكننا فقط إزالة هذه المعلمة و dx هو ما هو خصم DX.

05:15.760 --> 05:16.990
لذلك عامل الخصم لدينا.

05:16.990 --> 05:18.310
لذلك دعونا نحتفظ بها عند 0. 9.

05:18.310 --> 05:21.580
يشبه إلى حد بعيد ما بدأناه في هذا القسم من الدورة.

05:21.580 --> 05:25.420
لذلك دعونا نجري بهذه الطريقة بسرعة كبيرة مرة أخرى.

05:26.300 --> 05:26.500
أظن.

05:26.580 --> 05:27.420
أوه ، في الواقع ، إنها جميلة جدًا.

05:27.630 --> 05:29.280
لذا يمكنك أن ترى كيف يستكشف.

05:30.410 --> 05:33.350
وحتى الآن فقد ضرب السالب ثلاث مرات.

05:33.350 --> 05:36.410
ويمكنك أن ترى كيف يتم تحديث قيم Q في هذه المربعات.

05:36.410 --> 05:37.810
إذن هذه قيم.

05:37.820 --> 05:38.990
يبدأون بصفر.

05:39.020 --> 05:40.640
يمكنك الآن رؤية قيم Q.

05:40.640 --> 05:44.840
لقد تعلم أنه مرة أخرى ، تم تنفيذ هذا بشكل مختلف قليلاً لأنه بمجرد وصولك إلى المرحلة النهائية

05:44.840 --> 05:46.220
، يجب عليك الخروج منها.

05:46.370 --> 05:48.890
عليك فقط النقر فوق زر آخر للخروج.

05:48.890 --> 05:51.350
ولذا فهي قريبة جدًا من واحدة ، ولكنها ليست واحدة تمامًا.

05:51.530 --> 05:57.290
لكن في نفس الوقت ، يمكنك أن ترى أنه هنا ، كما تعلم ، القيمة تتبلور

05:57.290 --> 06:02.360
ببطء نوعًا ما في 0. من الواضح أن الرقم 8 يصل إلى مكان ما ، لكن البقية حتى الآن هي نوع

06:02.360 --> 06:04.520
من الأصفار لأنه لا يملك معلومات كافية لفهم ما يجري.

06:05.360 --> 06:05.520
تمام.

06:05.660 --> 06:08.600
فلنرَ ما سيحدث هنا.

06:10.080 --> 06:13.590
استكشاف واستكشاف واستكشاف ما سيحدث.

06:13.620 --> 06:14.850
ماذا كان يجري لفترة من الوقت.

06:15.540 --> 06:17.610
ولا تنس أن هناك بعض العشوائية المتضمنة هنا.

06:17.850 --> 06:20.580
لذلك هناك ضرب هذا جيد عدة مرات الآن.

06:20.910 --> 06:24.090
يحصل على عشرة تكرارات فقط ، لذلك عليه أن يتعلم بسرعة.

06:25.640 --> 06:26.630
أحتاجك هناك.

06:27.140 --> 06:28.670
دعونا نرى ما يحدث.

06:29.180 --> 06:29.980
هيا.

06:29.990 --> 06:31.790
اخرج من تلك المتاهة بالفعل.

06:32.760 --> 06:40.200
ونعم عشر حلقات لذا متوسط العوائد لا يهمنا حقًا ذلك.

06:40.200 --> 06:42.510
لذلك دعونا نرى أنني لم أرهم من قبل.

06:42.510 --> 06:43.770
إذا نقرت هناك نذهب.

06:43.770 --> 06:49.530
لذلك يمكنك أن ترى أن هذه هي السياسة التي توصل إليها حتى من خلال عشر حلقات فقط.

06:49.530 --> 06:50.610
لديه بالفعل سياسة.

06:50.610 --> 06:52.290
حسنًا ، سأذهب إلى با با با باوم.

06:52.380 --> 06:54.030
وها أنا ذاهب إلى الأسفل هنا.

06:54.030 --> 06:55.440
سأذهب إلى هنا.

06:55.440 --> 06:58.230
سأذهب إلى الحائط وبعد ذلك سأقفز هنا.

06:58.440 --> 06:59.250
هذا رائع.

07:00.180 --> 07:02.100
فلنزيد الآن السرعة.

07:02.430 --> 07:05.520
ماذا كانت المعلمة sx هناك ودعونا نحب المضاعفة.

07:05.520 --> 07:11.220
حسنًا ، دعنا نضاعف السرعة أربع مرات ودعنا نزيد عدد التكرارات.

07:11.220 --> 07:13.440
لنفترض أن 20 تكرارًا هذه المرة.

07:13.830 --> 07:18.660
دعنا نرى ما إذا كان بإمكانه تجاوز الأمر قليلاً الآن حتى تتمكن من رؤية أنه يسير بشكل أسرع قليلاً.

07:19.580 --> 07:20.960
وهو يتعلم.

07:20.960 --> 07:24.080
إنه يتعلم أنه ليس خارج هذه الحالة حقًا.

07:24.440 --> 07:29.990
ليس هناك الكثير من الأفعال الجيدة أو هذه الأفعال التي لا تكون صحيحة ومباشرة.

07:30.020 --> 07:30.530
بالتااكيد.

07:30.530 --> 07:31.910
هذا بالتأكيد ليس جيدا

07:32.300 --> 07:33.380
لا يزال بحاجة لتعلم ذلك.

07:33.380 --> 07:34.550
لذا من هنا فهو جيد أيضًا.

07:34.640 --> 07:36.290
يمكنك أن ترى أن هذا الإجراء جيد جدًا.

07:36.710 --> 07:37.220
حسنا.

07:37.220 --> 07:38.390
ماذا حصل؟

07:38.430 --> 07:40.340
حسنًا ، سياسة مثيرة للاهتمام هنا.

07:40.640 --> 07:42.020
يقرر الصعود.

07:42.050 --> 07:43.190
فقط ليست معلومات كافية.

07:43.190 --> 07:44.360
لذلك دعونا.

07:44.420 --> 07:45.530
دعونا نعيد ذلك.

07:46.780 --> 07:50.140
ودعنا نزيد السرعة إلى 100.

07:50.230 --> 07:51.310
لذلك فهو سريع للغاية.

07:51.310 --> 07:57.160
وسيمنحهم عدد التكرارات 100 تكرار من STEM لتشغيل هذا المشهد بسرعة

07:57.160 --> 07:57.940
جنونية.

07:57.940 --> 08:00.700
ويمكنك أن ترى ذلك لأن هناك الكثير من التكرارات.

08:01.000 --> 08:07.360
لقد حصل على مزيد من المعلومات ، والمزيد من الفرص للتجربة وبناء هذه المصفوفة أو المصفوفة ،

08:07.360 --> 08:10.750
وقيم قائمة الانتظار هذه لكل حالة يعرفها الآن.

08:10.930 --> 08:13.070
يمكنك أن ترى أن 0. 89.

08:13.090 --> 08:15.730
ما قلناه في مثالنا يشبه 0. 86.

08:15.880 --> 08:20.080
شيء آخر لتذكر هذا أن قيمة أي دولة معينة.

08:20.620 --> 08:24.130
تذكر أن الصيغة التي لدينا هي الحد الأقصى لقيم Q.

08:24.130 --> 08:26.930
تذكر أن الشيء الذي توصلنا إليه مع صيغة الاختصار.

08:26.950 --> 08:29.370
إذن ما هي القيمة في هذه الحالة؟

08:29.380 --> 08:34.390
الخامس لهذه الحالة ، سيكون 0. 89 لأن هذا هو الأعلى من بين الأربعة.

08:34.540 --> 08:37.030
هنا ، قيمة هذه الحالة هي 0. 71.

08:37.030 --> 08:40.150
قيمة هذه الحالة هي 0. 61 وما إلى ذلك.

08:40.150 --> 08:41.350
لذلك هذا شيء يجب تذكره.

08:41.350 --> 08:45.130
لذلك أتذكر في مثالنا ، أعتقد أن لدينا مثل 0. 86 أو شيء من هذا القبيل ، قريب جدًا جدًا.

08:45.670 --> 08:51.130
ولذا إذا ذهبنا بعد ذلك إلى هنا ، فقد اختفى أو اختفى.

08:51.580 --> 08:54.490
لنفعلها مرة أخرى ونجعلها تعود.

08:55.090 --> 08:55.660
تمام؟

08:55.670 --> 08:56.060
تمام.

08:56.140 --> 08:57.250
ببطء ، ببطء ، ببطء.

08:57.250 --> 09:00.310
ملء بعض المساحات.

09:01.060 --> 09:01.420
أرى.

09:01.420 --> 09:06.100
وهي أيضًا عشوائية جدًا لأن البيئة ليست فقط بها عشوائية ، ولكن أيضًا الطريقة التي

09:06.100 --> 09:10.150
يستكشف بها في البداية عندما لا يعرف السياسة هي أنه يستكشف عشوائيًا.

09:10.960 --> 09:12.020
إنه فقط يستمر في الاختفاء.

09:12.040 --> 09:13.180
لا افهم لماذا.

09:13.510 --> 09:18.580
على أي حال ، دعونا نرى ما سيحدث إذا زدنا العدد هنا وهنا يجب أن يأخذ نفس القدر

09:18.580 --> 09:19.660
من الوقت.

09:20.700 --> 09:22.800
إذا لم يكن هناك حد أقصى للسرعة.

09:23.820 --> 09:26.880
لذلك يمكنك أن ترى أن لديه المزيد من الفرص لاستكشاف الأشياء.

09:27.740 --> 09:32.490
OC لنرى كيف سارت الأمور كلها ويمكنك أن ترى أن القيم تتقارب.

09:32.500 --> 09:36.240
إنهم يرتفعون وينخفضون حسب ، كما تعلمون ، لأن هناك بعض العشوائية وقد ينتهي به

09:36.240 --> 09:40.740
الأمر كما هو الحال في الحفرة ، على الرغم من أنه يسير على هذا النحو ، ولكن في نفس الوقت يبدأون

09:40.740 --> 09:43.050
ببطء في الالتقاء إلى نوع من النهاية القيم و.

09:43.050 --> 09:44.130
س القيم؟

09:44.900 --> 09:48.450
OC من المحتمل أن يكون 1000 أكثر من اللازم من حيث الوقت.

09:48.450 --> 09:53.010
لا يبدو أن السرعة تتزايد بشكل متناسب أيضًا.

09:53.460 --> 09:55.110
لذلك قد يقطع هذا الجزء.

09:55.470 --> 09:57.090
أعني ، مثل تقليل السرعة.

09:57.420 --> 09:57.610
نعم.

09:57.720 --> 09:59.070
في حين أن هذا طويل جدا.

09:59.900 --> 10:01.970
لست مضطرًا إلى المشاهدة حتى نهاية هذا البرنامج التعليمي.

10:01.970 --> 10:03.320
أنا فقط أريد أن أجرب قليلا.

10:03.320 --> 10:09.380
لذا لأعطيكم بعض الأمثلة لما كنا نعمل من خلاله ، لكنك تحصل على النقطة التي يمر

10:09.380 --> 10:10.490
بها كل هذا.

10:10.670 --> 10:14.600
لديها بعض العشوائية ، مثل ذاكرة الوصول العشوائي مدمجة في سلوكها.

10:14.600 --> 10:18.560
لذلك حتى عندما يكون لها مثل السياسة ، فإنها ستستمر في الاستكشاف.

10:18.560 --> 10:23.240
لذلك لن يكون الأمر كما لو أنه بمجرد أن يكون لديه سياسة أساسية ، فلن يستمر فقط في اتباع سياسته.

10:23.240 --> 10:28.760
ستستمر في تجربة الاختلافات الأخرى من حين لآخر من أجل تعزيز سياستها.

10:28.760 --> 10:31.280
ربما لم يتم العثور على أفضل سياسة بالفعل على الفور.

10:31.280 --> 10:33.140
ربما يمكن أن تحسن السياسة.

10:33.140 --> 10:38.720
ولهذا السبب ، حتى بعد العديد من التكرارات ، لا يزال بإمكانك رؤية بعض التأثيرات العشوائية.

10:39.030 --> 10:43.640
ينتقل أحيانًا إلى حالات عشوائية ، ليس فقط بسبب العشوائية في البيئة

10:43.640 --> 10:49.040
، ولكن أيضًا بسبب وجود مستوى ما مثل المعامل الذي يمكنك التحكم فيه ، والذي يمكنك

10:49.040 --> 10:55.430
إعداده لوكيلك ، قائلاً إنه في معظم الأحيان ، 80٪ في ذلك الوقت ، افعل ما تطلبه منك سياستك.

10:55.430 --> 11:00.620
ولكن 20٪ من الوقت ، كما تعلم ، قم فقط ببعض التجارب الممتعة وشاهد ما يحدث واستخدم تلك

11:00.620 --> 11:03.140
المعلومات التي تجمعها لتحديث سياستك.

11:03.200 --> 11:03.400
تمام.

11:03.500 --> 11:05.150
هذا يستغرق وقتا طويلا.

11:05.180 --> 11:06.270
لنحاول ذلك مرة أخرى.

11:06.290 --> 11:06.680
نعم.

11:06.680 --> 11:11.540
هذه هي الطريقة التي يتعلم بها الوكيل في حالات مختلفة.

11:11.540 --> 11:11.780
يمكن.

11:11.780 --> 11:14.000
دعنا فقط نجري واحدة أخرى بدافع الفضول.

11:14.000 --> 11:16.520
فهل هناك أي شيء آخر يمكننا تغييره حيال ذلك؟

11:18.390 --> 11:20.540
التكرارات لهم.

11:21.600 --> 11:22.800
OC OC.

11:22.810 --> 11:24.060
لنلقي نظرة.

11:24.360 --> 11:26.610
نعم ، حسنًا ، يمكننا تغيير الخصم ، على سبيل المثال.

11:26.610 --> 11:29.280
لذلك في هذه الحالة ، يمكننا القول.

11:30.640 --> 11:39.780
K -100 ناقص a q ناقص ناقص يساوي ألف فقط.

11:39.790 --> 11:41.260
لذا مكافأة.

11:41.260 --> 11:42.100
نريد الاحتفاظ بها.

11:42.100 --> 11:45.610
ربما دعونا نحتفظ بها عند 0. 04 ، ولكن دعنا نقولها مرة أخرى.

11:46.030 --> 11:49.210
دعنا نحافظ على المكافأة عند -0. 04 في كل مرة.

11:49.210 --> 11:53.470
ثم هنا نقول أن د.

11:54.250 --> 11:58.900
الخصم ليس 0. 9 ، لكنها مثل 0 .. 5.

11:58.900 --> 12:02.140
لذلك يتم خصمها كثيرًا أثناء تقدمك في اللعبة.

12:02.350 --> 12:09.190
لذلك في الواقع سيتم تحفيزها الآن لتكون أقرب إلى النهاية بدلاً من زيادة الحالات التي اقتربت من الانتهاء ، وسوف نحصل

12:09.190 --> 12:10.360
على قيمة أعلى.

12:10.360 --> 12:12.790
لذلك يمكنك أن ترى أن القيمة تنخفض بسرعة.

12:12.790 --> 12:15.340
إنه ليس أخضر كما كان من قبل.

12:16.130 --> 12:20.100
هنا يمكنك أن ترى أن هذه هي السياسة الآن.

12:20.120 --> 12:23.180
هكذا تسير الأمور هكذا ، هكذا ، هكذا ، هكذا ، هكذا.

12:23.180 --> 12:24.950
يشبه إلى حد كبير ما رأيناه من قبل.

12:24.980 --> 12:28.430
ربما يكون الاختلاف الوحيد من هنا هو القفز مباشرة إلى هنا.

12:28.580 --> 12:29.840
إذن هذا هو ذلك.

12:29.840 --> 12:32.420
ودعونا نجري واحدة أخرى.

12:32.450 --> 12:33.390
هذا ممتع جدا.

12:33.410 --> 12:34.430
دعنا فقط نجري واحدة أخرى.

12:34.430 --> 12:34.880
لذا.

12:34.910 --> 12:38.940
K ناقص k 100 a q خصم.

12:38.960 --> 12:41.720
احتفظ بها كما كانت أصلية.

12:41.720 --> 12:45.620
لذلك اسمحوا لي فقط بتشغيل هذا الإعداد الأساسي للفانيليا.

12:46.690 --> 12:49.540
OC O OC انها ذاهبة.

12:49.540 --> 12:51.730
دعنا نرى ما إذا كانت ستظهر لنا السياسة في النهاية.

12:53.300 --> 12:53.840
نعم.

12:53.840 --> 12:54.770
لقد حصلنا على السياسة.

12:54.770 --> 12:55.060
نعم.

12:55.070 --> 12:55.880
نهاية جيدة.

12:56.180 --> 12:58.610
إذن لدينا هنا السياسة.

12:58.730 --> 12:59.740
كما تعلم ، هذا مألوف.

12:59.750 --> 13:04.580
تذكر ذلك الوقت عندما رأينا أن الذكاء الاصطناعي يفوق الإنسان ، ذهب إلى الحائط ليذهب

13:04.580 --> 13:08.510
إلى هناك ويدخل في الحائط ليذهب هكذا ، لزيادة الاحتمالية.

13:08.510 --> 13:09.190
لذا ها نحن ذا.

13:09.200 --> 13:13.760
هذا مثال على الذكاء الاصطناعي في العمل.

13:13.760 --> 13:16.250
بسيط جدًا ، بسيط جدًا ، تعلم القتل.

13:16.250 --> 13:18.050
لذلك لا يوجد تعلم عميق في هذه المرحلة.

13:18.440 --> 13:21.830
لكن في الوقت نفسه ، فهي بالفعل ذكية جدًا.

13:21.830 --> 13:23.540
وآمل أن تستمتع ببرنامج تعليمي اليوم.

13:23.540 --> 13:28.790
ومرة أخرى ، شكرًا لجامعة كاليفورنيا في بيركلي وآمل أن تكون قد استمتعت ببرنامج اليوم التعليمي وأتطلع إلى رؤيتك في

13:28.790 --> 13:29.540
المرة القادمة.

13:29.540 --> 13:30.680
حتى ذلك الحين ، استمتع.

13:30.680 --> 13:31.220
أنا.
