WEBVTT

00:00.660 --> 00:03.540
Halo selamat datang kembali ke kursus kecerdasan buatan.

00:03.540 --> 00:08.940
Dalam tutorial hari ini kita akan membahas tutorial yang cukup kompleks yang disebut penelusuran kelayakan atau

00:08.940 --> 00:09.500
langkah.

00:09.500 --> 00:14.970
Q belajar dan ini adalah sesuatu yang akan saya terapkan di sisi praktis hal-hal jadi itu

00:14.970 --> 00:21.390
sebabnya kita perlu keluar dan di pusat itu adalah topik yang cukup kompleks sehingga kita punya pendekatan yang sangat

00:21.690 --> 00:24.880
menarik untuk mempercepat kita dengan intuisi di belakang.

00:24.890 --> 00:29.760
Jadi saya menyukai pendekatan yang berbeda dalam pikiran daripada yang biasa kita gunakan untuk melihat tampilan sederhana itu dan

00:29.760 --> 00:30.560
melihat bagaimana hasilnya.

00:30.780 --> 00:34.190
Jadi saya ingin memberi Anda contoh untuk memulai.

00:34.260 --> 00:39.990
Saya akan memberi Anda contoh dalam tutorial ini dan itu akan menunjukkan kekuatan kelayakan.

00:40.020 --> 00:42.470
Dan berikan kami intuisi di balik banyak hal.

00:42.540 --> 00:47.880
Dan kemudian jika Anda ingin mempelajari lebih lanjut tentang sifat-sifat kelayakan saya akan memberi Anda tempat terbaik di

00:47.880 --> 00:49.210
mana Anda dapat membacanya.

00:49.290 --> 00:52.560
Saya akan memberi Anda referensi ke buku tetapi sebaliknya.

00:52.560 --> 00:57.120
Jadi sementara ini akan berbeda karena kita ke dalamnya lebih dulu daripada menggali intuisi

00:57.420 --> 01:01.580
kita akan melihat contoh dan intuisi menjadi jelas setelah kita bicarakan.

01:01.580 --> 01:03.010
Dan itulah harapan saya.

01:03.130 --> 01:03.860
Jadi mari kita lihat.

01:03.860 --> 01:06.000
Mari kita lihat, mari kita lihat apakah kita bisa melakukan ini.

01:06.000 --> 01:12.780
Jadi di sini kita punya dua agen dan mereka menavigasi lingkungan yang sama dan kita akan melihat bagaimana kedua agen

01:12.780 --> 01:13.740
ini bekerja.

01:13.740 --> 01:16.260
Yang pertama akan bekerja dengan jejak kelayakan kami.

01:16.260 --> 01:22.230
Yang kedua akan bekerja dengan jejak yang tidak terbaca dan mudah-mudahan kita akan melihat mengapa yang kedua akan menjadi

01:22.230 --> 01:24.450
jauh lebih kuat daripada yang pertama.

01:24.630 --> 01:26.240
Jadi mari kita lihat.

01:26.250 --> 01:28.040
Kita akan melihat agen ini dulu.

01:28.320 --> 01:34.170
Dan cara dia beroperasi adalah cara tepat yang telah kita bahas sejauh ini.

01:34.530 --> 01:40.230
Jadi agen akan mengambil langkah atau akan mengambil tindakan untuk pindah ke kondisi baru.

01:40.260 --> 01:45.480
Baik untuk mendapatkan hadiah tertentu akan menempatkan itu melalui atau melalui algoritmanya memperbarui jaringan

01:45.480 --> 01:50.610
saraf yang menjalankan agen ini atau yang berjalan dalam pikiran agen ini.

01:50.610 --> 01:54.870
Jadi pada dasarnya itulah cara belajar dari saat itu akan mengambil langkah baru.

01:54.870 --> 01:59.550
Jadi dari negara baru ini akan mengambil tindakan baru berdasarkan apa yang dikatakan jaringan sarafnya

01:59.550 --> 02:03.930
untuk lakukan adalah mendapatkan hadiah naik pembaruan dan seterusnya dan akan terus melakukan itu.

02:03.930 --> 02:09.370
Jadi jelas ini akan melakukan pekerjaan yang cukup baik dan seperti yang telah kita lihat sebelumnya dari Squire

02:09.400 --> 02:15.450
praktis sebelumnya untuk DRO kita akan mendapatkan beberapa hasil yang cukup baik di sini tapi sekarang kita akan menambahkan fitur baru

02:15.480 --> 02:21.380
Sekarang agen nomor dua orang ini di sini dia akan menavigasi lingkungan yang sama.

02:21.570 --> 02:23.770
Apa yang akan dia gunakan keterbacaan pohon.

02:23.940 --> 02:25.170
Dan inilah artinya.

02:25.170 --> 02:30.280
Apa yang akan dia lakukan adalah dia akan mengambil langkah apa pun yang akan dia

02:30.300 --> 02:38.730
ambil dalam kasus ini lima forceps akan mengambil empat langkah dan kemudian hanya setelah mengambil langkah-langkah ini dia akan menghitung total hadiah yang dia

02:38.730 --> 02:42.730
dapatkan dari langkah-langkah itu dan dia akan memasukkannya melalui jaringannya.

02:42.730 --> 02:48.420
Dia akan memasukkannya melalui jaringan sarafnya yang mengatur proses pengambilan keputusan dan kemudian jaringan saraf

02:48.420 --> 02:50.690
itu akan belajar dari itu.

02:50.700 --> 02:51.600
Jadi yang mana.

02:51.630 --> 02:54.050
Segera seperti yang menurut Anda lebih kuat.

02:54.150 --> 02:59.070
Pria yang hanya mengambil satu langkah pada satu waktu dan jenis suka menusuk orang buta atau dalam gelap dan dia seperti

02:59.070 --> 03:01.550
OK jadi saya akan mengambil langkah melihat apa yang terjadi.

03:01.620 --> 03:02.830
Ambil langkah apa yang akan terjadi.

03:02.850 --> 03:03.480
Mengambil langkah.

03:03.480 --> 03:04.020
Apa yang terjadi.

03:04.020 --> 03:10.680
Lelaki di atas atau lelaki yang mengambil Marsha dengan sangat berani melalui empat langkah berturut-turut dan kemudian dia memutuskan

03:11.130 --> 03:17.610
apakah itu langkah yang baik atau tidak sama sekali dan mengapa Anda bisa melihat di sini atau mengapa Anda

03:17.610 --> 03:22.470
mungkin memahami mengapa lelaki kedua lebih baik atau lebih kuat adalah karena lelaki kedua

03:22.470 --> 03:25.160
sebenarnya tahu apa yang terjadi pada akhirnya.

03:25.170 --> 03:30.030
Orang pertama ketika dia ketika dia menilai apakah langkah ini baik atau tidak, dia hanya melihat hadiah

03:30.030 --> 03:31.170
yang dia dapatkan.

03:31.280 --> 03:34.430
Dan dia hanya dibimbing oleh hadiah yang diberikan lingkungan kepadanya.

03:34.440 --> 03:39.570
Hal yang sama di sini dia hanya dibimbing oleh hadiah yang diberikan lingkungan ini padanya.

03:39.620 --> 03:46.490
Jadi, setiap kali itu satu-satunya jenis kompas yang ia miliki, pahala, hadiah, dan hadiah.

03:46.560 --> 03:51.800
Padahal di sini si dia sebenarnya bisa menilai setelah mengambil langkah-langkah yang bisa dinilainya.

03:51.820 --> 03:53.960
OK jadi saya sampai di garis finish.

03:54.000 --> 03:56.640
Jadi kombinasi langkah-langkah ini bagus.

03:56.700 --> 03:57.680
Semuanya bagus.

03:57.840 --> 04:01.410
Atau Oh tidak, saya berakhir di firepit atau Ohno I.

04:01.500 --> 04:08.100
Saya lakukan dan ketika mobil saya tidak sampai ke garis finish atau saya melewati dinding pasir atau saya kehilangan permainan

04:08.100 --> 04:09.340
malapetaka atau sesuatu.

04:09.450 --> 04:13.330
Dan kemudian dia memutuskan bahwa seluruh kombinasi langkah ini buruk.

04:13.650 --> 04:18.180
Dan oleh karena itu untuk langkah-langkah yang sebelumnya dia memiliki lebih banyak informasi.

04:18.180 --> 04:23.490
Dia memiliki lebih banyak wawasan seperti dalam pendekatan yang sangat intuitif.

04:23.490 --> 04:26.000
Sekali lagi ini adalah topik yang jauh lebih kompleks daripada yang kita gambarkan di sini.

04:26.010 --> 04:32.370
Tetapi dengan cara yang intuitif misalnya jika Anda mengambil langkah ini langkah ini hanya memiliki informasi untuk Anda dapatkan Anda hanya memiliki

04:32.370 --> 04:34.990
informasi yang kembali dari hadiah ini di sini.

04:35.070 --> 04:38.580
Dan untuk langkah ini dalam hal ini langkah yang persis sama.

04:38.640 --> 04:41.670
Ini memiliki lebih banyak informasi dan informasi datang jauh-jauh dari.

04:41.820 --> 04:45.500
OK jadi apa hasilnya setelah empat langkah atau lima langkah atau apa pun.

04:45.520 --> 04:51.930
Ya, begitulah cara kerjanya dan mengapa disebut kelayakan jejak karena selama proses ini dia

04:51.960 --> 04:58.170
tidak hanya melihat hadiah komputer dari apa yang terjadi dan kemudian kerugian kumulatif dan

04:58.200 --> 05:00.460
kemudian semua yang sesuai.

05:00.620 --> 05:05.210
Namun sebenarnya ada jejak kelayakan seperti apa yang disebut kepercayaan disabilitas.

05:05.210 --> 05:15.440
Ada jejak yang disimpan dalam algoritma yang mengatakan OK jadi jika kita mendapatkan katakanlah kita mendapat hukuman kita mendapat

05:15.470 --> 05:23.060
hadiah negatif maka langkah mana yang paling mungkin memenuhi syarat untuk hukuman itu.

05:23.090 --> 05:29.690
Jadi kita tidak hanya tahu apa keseluruhan pola ini atau kombinasi langkah sekolah tetapi

05:29.690 --> 05:36.350
kita juga menyimpan jejak kelayakan langkah mana yang akan kita perbarui jika kita mendapatkan semua orang.

05:36.350 --> 05:40.970
Jadi misalnya jika sebagai hadiah negatif kita mungkin memiliki jejak kelayakan

05:41.030 --> 05:47.360
yang menunjukkan kepada kita bahwa ini adalah langkah yang paling bertanggung jawab untuk apa yang kita

05:47.390 --> 05:54.800
dapatkan pada akhirnya atau jika itu adalah hadiah positif lagi kita mungkin tahu algoritma membantu kita melacak algoritme

05:54.830 --> 06:03.170
kelayakan ini juga membantu kami melacak langkah apa atau tindakan apa yang harus memenuhi syarat untuk diperbarui berdasarkan hadiah yang kami

06:03.170 --> 06:03.820
dapatkan.

06:03.860 --> 06:05.820
Dan itulah mengapa itu disebut jejak kelayakan.

06:06.160 --> 06:11.810
Dan itulah intuisi dasar di balik kelayakan dan mudah-mudahan dua contoh

06:11.810 --> 06:18.260
agen ini membuatnya cukup jelas atau cukup intuitif sementara kemampuan ini bisa sangat kuat.

06:18.440 --> 06:25.760
Dan jika seperti yang dijanjikan jika Anda ingin mempelajari lebih jauh ke dalam jejak kelayakan topikal atau langkah pembelajaran maka

06:26.330 --> 06:31.220
sebuah buku luar biasa indah yang dapat Anda temukan disebut penguatan belajar.

06:31.220 --> 06:36.590
Pengantar adalah oleh Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Saya pikir mereka sedang dalam proses menciptakan edisi kedua atau masalah yang sangat kritis.

06:40.790 --> 06:49.210
Tetapi ini adalah buku yang paling umum atau paling populer atau paling banyak direferensikan tentang pembelajaran

06:49.260 --> 06:53.050
penegakan hukum. Ada banyak kutipan yang konyol.

06:53.300 --> 06:56.630
Saya berpikir seperti puluhan ribu jika saya tidak salah.

06:56.810 --> 07:01.120
Dan juga bab yang Anda butuhkan untuk ini adalah Bab 7.

07:01.130 --> 07:06.900
Jadi untuk melihat pilihan-pilihan yang memenuhi syarat ada satu bab lengkap tentang Bab 7.

07:06.920 --> 07:10.100
Anda dapat membaca tentang itu dan itu masuk ke banyak detail.

07:10.220 --> 07:17.660
Maju Mundur jejak kelayakan dan juga bagaimana perbedaan temporal yang integral di satu sisi dan ujung lain spektrum

07:17.660 --> 07:23.320
Anda memiliki metode Monte-Carlo di antara Anda memiliki jejak kelayakan diduga jejak atau Anda

07:23.330 --> 07:27.280
tautan untuk beralih dari perbedaan temporal ke metode Monte-Carlo.

07:27.290 --> 07:34.190
Sangat menarik, baca banyak gambar yang sangat saya hargai dengan penjelasan yang sangat intuitif.

07:34.250 --> 07:40.550
Jadi ada banyak hal yang dapat Anda pelajari dari buku ini tentang kecerdasan buatan dan

07:40.550 --> 07:48.230
pembelajaran penguatan tetapi jejak kelayakan yang khusus adalah tempat yang sangat baik untuk dikunjungi adalah buku ini untuk

07:48.230 --> 07:49.190
penelusuran kelayakan.

07:49.350 --> 07:57.070
Dan referensi kedua untuk hari ini adalah sesuatu yang akan menunjukkan kepada Anda dalam uji coba praktis

07:57.440 --> 08:04.460
pembelajaran mendalam atau makalah penelitian mendalam Google tentang metode sinkron untuk pembelajaran penguatan lebih

08:04.550 --> 08:05.120
dalam.

08:05.270 --> 08:11.270
Ya itu kertas itulah satu-satunya kertas yang A-3 lihat kertas yang akan kita diskusikan lebih jauh

08:11.270 --> 08:12.240
dalam skor.

08:12.240 --> 08:14.410
Kami semakin dekat dan lebih dekat ke sana.

08:14.510 --> 08:21.200
Dan seperti yang Anda tahu kami cukup bersemangat tentang hal ini jadi ini akan terlihat sedikit

08:21.500 --> 08:28.400
tentang bagaimana mereka menerapkan jejak kelayakan dalam makalah ini sehingga kami akan menggunakan ini lebih banyak untuk sisi

08:28.400 --> 08:29.420
praktis hal.

08:29.420 --> 08:33.650
Jadi semoga Anda menikmati tutorial hari ini dan tahu Anda sedikit lebih nyaman dengan jejak kelayakan dan saya

08:34.010 --> 08:35.920
tidak sabar untuk melihat Anda lain kali.

08:35.930 --> 08:37.680
Sampai kemudian menikmati a.