WEBVTT

00:00.930 --> 00:03.970
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:03.990 --> 00:08.480
Jadi kami telah berbicara tentang persamaan Belman dan kami telah menganalisis labirin kecil kami.

00:08.520 --> 00:11.100
Mari kita lihat rencananya.

00:11.100 --> 00:12.400
Apa rencananya.

00:12.750 --> 00:14.650
Nah inilah analisis utama kami.

00:14.670 --> 00:20.970
Dan kita tahu bahwa kita dapat melihat sebenarnya nilai-nilai dari masing-masing negara, kita dapat melihat apa

00:20.970 --> 00:23.310
nilai berada di setiap negara.

00:23.400 --> 00:27.810
Karena itu AI dapat atau agen dapat menavigasi labirin ini.

00:27.840 --> 00:28.770
Jadi apa rencananya.

00:28.770 --> 00:35.640
Yah rencananya hanyalah seperti peta harta karun untuk kecerdasan buatan daripada melihat nilai-nilai ini yang

00:35.730 --> 00:41.420
hanya menggantinya dengan panah yang menunjukkan ke arah mana agen harus pergi.

00:41.490 --> 00:43.360
Karena itu karena tahu nilai-nilai itu.

00:43.350 --> 00:47.230
Jadi skenario yang ideal setelah menjelajahi lingkungan ini.

00:47.250 --> 00:50.860
Ia tahu nilai berada di setiap negara bagian dan oleh karena itu Anda dapat menemukan peta ini.

00:50.870 --> 00:52.330
Jadi mari kita lihat lagi.

00:52.380 --> 00:58.410
Kami tahu bahwa nilai-nilai Anda satu jadi jika Anda berada di sini di antara

00:58.830 --> 01:02.010
keduanya, yang lebih baik adalah ini.

01:02.010 --> 01:02.750
Yang ini lebih baik.

01:02.760 --> 01:04.740
Atau sebenarnya dari sini Anda memiliki dua opsi, benar.

01:04.770 --> 01:11.130
Jadi dia seperti dasi jadi hanya memilih satu secara acak tidak masalah yang mana karena nilai dalam kedua kasus

01:11.130 --> 01:16.110
ini adalah sama dan bahkan lebih jika Anda melihat melalui itu akan mengambil langkah yang

01:16.110 --> 01:18.390
sama jumlah langkah-langkah untuk mencapai akhir.

01:18.690 --> 01:22.520
Dari sini Anda punya tiga opsi, tetapi yang ini adalah nilai yang lebih baik dari sini.

01:22.530 --> 01:24.360
Yang ini adalah nilai yang lebih baik dari sini.

01:24.360 --> 01:29.380
Jelas ini adalah nilai yang lebih baik karena Anda tahu Anda baru saja mendapatkannya dikurangi satu hadiah segera.

01:29.590 --> 01:35.250
Dan dari sini Anda memiliki tiga, tetapi yang ini adalah yang terbaik dari nilai terbaik negara.

01:35.400 --> 01:41.190
Jadi, oleh karena itu, jika kita menggantinya dengan panah, masuk akal bahwa inilah yang akan dilakukan agen jika dibintangi di

01:41.200 --> 01:44.570
sini atau dipecahkan karena suatu alasan ia berakhir di kotak ini.

01:44.580 --> 01:46.070
Ia tahu bagaimana keluar dari sini.

01:46.280 --> 01:48.980
Bintang-bintang dan alun-alun ini tahu bagaimana menuju ke sini dan seterusnya.

01:48.980 --> 01:51.440
Jadi itulah rencana.

01:51.440 --> 01:56.850
Dan jangan bingung antara rencana dengan kebijakan karena kita akan berbicara tentang kebijakan untuk Iran memiliki

01:56.850 --> 02:01.660
kemiripan dengan rencana tetapi mereka punya sedikit trik untuk mereka karena lingkungan akan sedikit

02:01.670 --> 02:02.380
berbeda.

02:02.420 --> 02:07.560
Ini akan menjadi stokastik dan itulah yang akan kita bicarakan di tutorial berikutnya.

02:07.910 --> 02:10.000
Jadi Conway untuk Anda di yang berikutnya.

02:10.020 --> 02:12.060
Dan sampai saat itu nikmati.