WEBVTT

00:01.160 --> 00:04.720
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.740 --> 00:07.950
Hari ini kita berbicara tentang perbedaan temporal.

00:08.100 --> 00:14.310
Sekarang sangat penting untuk diadili karena perbedaan temporal adalah jantung dan jiwa dari algoritma pembelajaran

00:14.340 --> 00:15.100
Q

00:15.120 --> 00:22.410
Inilah sebenarnya bagaimana semua yang telah kita pelajari sejauh ini berperan bersama dalam pembelajaran kunci.

00:22.410 --> 00:23.880
Jadi mari kita lihat.

00:23.910 --> 00:28.040
Ingat saat kita berbicara tentang pencarian deterministik versus nondeterministik.

00:28.410 --> 00:34.960
Dan ingat bagaimana kita mengatakan dalam kasus ini ketika agen ingin naik, dia naik dan kapan.

00:35.070 --> 00:38.740
Dalam hal ini dia ingin naik, ada peluang 10 persen dia akan turun temps kiri dan

00:38.730 --> 00:41.390
kesempatan dan ke kanan dan peluang 80 persen akan kanan.

00:41.400 --> 00:42.390
Lurus ke atas.

00:42.450 --> 00:46.410
Sementara angka-angka ini tentu saja sewenang-wenang dan bisa berbeda.

00:46.410 --> 00:52.260
Dan seluruh konsep ini bisa jadi masalah yang berbeda dan berbeda sehingga tidak perlu khawatir ke arah

00:52.320 --> 00:57.090
mana dia bergerak hanya bahwa ada beberapa keacakan sesuatu yang di luar kendali

00:57.300 --> 00:59.930
agen yang terjadi di dalam lingkungan ini.

01:00.060 --> 01:07.470
Dan apa efek yang terjadi adalah seperti yang Anda ingat adalah bahwa dalam contoh deterministik sangat mudah untuk menghitung

01:07.470 --> 01:11.030
nilai Wii sementara tidak selalu selalu sangat mudah.

01:11.040 --> 01:16.530
Tetapi dalam kasus kami, kami cukup menghitungnya dengan menggunakan persamaan Belman dan kami memiliki nilai yang

01:16.530 --> 01:17.120
tepat.

01:17.370 --> 01:24.810
Dan seperti yang Anda ingat, saya sangat hati-hati menyebutkan bahwa nilai-nilai ini untuk contoh pencarian

01:24.810 --> 01:27.810
nondeterministic berada di atas kepala saya.

01:27.840 --> 01:29.220
Mereka bukan Kalka yang kita kenal.

01:29.270 --> 01:33.090
Terakhir kali saya katakan kita bukan kita hanya harus menghitungnya karena sangat kompleks.

01:33.090 --> 01:39.600
Tetapi komputer dapat melakukannya dan kami hanya mengikuti nilai-nilai ini yang merupakan nilai-nilai yang saya buat.

01:39.600 --> 01:41.310
Tapi mereka menyelesaikan pekerjaan.

01:41.310 --> 01:43.030
Mereka membantu kami memahami konsepnya.

01:43.290 --> 01:47.790
Nah sekarang kita akan kembali ke hal itu sedikit dan memahami apa yang sebenarnya terjadi di sini.

01:47.790 --> 01:55.420
Mengapa jauh lebih sulit untuk menghitung nilai-nilai ini dalam contoh nondeterministik atau secara umum berbicara dalam masalah-masalah

01:55.420 --> 01:59.570
ini di lingkungan ini dan agen melalui mereka.

01:59.580 --> 02:00.400
Kenapa sih.

02:00.510 --> 02:03.030
Mengapa bisa sangat sulit untuk menghitung nilai-nilai ini.

02:03.030 --> 02:09.010
Nah ketika Anda berpikir tentang hal itu karena ketika agen bergerak misalnya dari sini ke

02:09.090 --> 02:15.270
kanan dia tidak selalu selalu bergerak seperti itu kadang-kadang sebagai kesempatan bahwa ia akan pergi untuk

02:15.450 --> 02:22.290
menang bukannya langsung jadi mari kita sebut ini timur laut barat daya begitu juga semacam pergi ke barat.

02:22.470 --> 02:27.360
Agen kadang-kadang pergi ke selatan dan misalnya dari sini semacam pergi ke utara.

02:27.360 --> 02:29.220
Terkadang dia mungkin pergi ke timur.

02:29.460 --> 02:30.240
Sangat menyesal.

02:30.240 --> 02:34.680
Jadi di sini, bukannya pergi ke timur, dia kadang-kadang mungkin pergi ke selatan dan dia agak ke utara.

02:34.710 --> 02:40.200
Terkadang dia mungkin pergi ke timur atau barat dan di sini bukannya ke utara, dia kadang-kadang pergi ke barat atau timur atau

02:40.200 --> 02:41.160
barat dan seterusnya.

02:41.160 --> 02:47.010
Jadi dan karena itu Jadi untuk menghitung nilai ini, Anda perlu tahu apa nilai ini, tetapi yang menarik

02:47.010 --> 02:51.110
adalah untuk menghitung nilai ini, Anda perlu tahu apa nilai ini.

02:51.120 --> 02:56.790
Jadi ada banyak rekursi yang terjadi di sini dan karena itu Anda tidak bisa hanya memutuskan untuk menentukan apa nilai-nilai

02:56.790 --> 02:57.340
ini.

02:57.360 --> 03:01.140
Dan di atas itu rekursi ini tidak deterministik.

03:01.140 --> 03:06.000
Kadang-kadang terjadi seperti ini kadang-kadang agak menanjak ke kanan kadang-kadang bukannya

03:06.000 --> 03:08.250
bangun dan ke kiri kadang-kadang.

03:08.730 --> 03:09.540
Ketika dia ingin naik.

03:09.540 --> 03:10.520
Dia akan naik.

03:10.560 --> 03:17.460
Jadi itu tergantung pada kebetulan dan mungkin agen berkali-kali akan melewati jalan ini dan dia akan naik ke atas dan Anda

03:17.460 --> 03:22.050
akan berpikir bahwa dari sini Anda selalu naik dan nilai negara akan berjalan.

03:22.050 --> 03:27.370
akan baik dan kemudian tiba-tiba dia akan jatuh ke dalam lubang dan nilai ini akan turun.

03:27.620 --> 03:33.600
Maka dari itu, Anda dapat melihat bagaimana ada keacakan stokastik untuk seluruh perhitungan ini pada nilai-nilai ini

03:33.600 --> 03:35.370
karena semuanya saling terkait.

03:35.370 --> 03:40.920
Plus di atas Anda punya keacakan dalam hal ini yang melekat di lingkungan karena ada tanda

03:40.920 --> 03:42.320
proses pengambilan keputusan.

03:42.540 --> 03:47.790
Jadi di situlah semua ini bersatu dan di situlah kita akan memperkenalkan konsep

03:47.790 --> 03:52.370
perbedaan temporal yang akan memungkinkan agen untuk menghitung nilai-nilai ini.

03:52.530 --> 03:55.560
Dan di sini kita berhadapan dengan nilai-nilai.

03:55.560 --> 03:59.390
Dan sejak itu kami sudah pindah ke nilai Q jadi itulah yang akan kami kerjakan.

03:59.400 --> 04:01.980
Kita akan melihat nilai yang sangat besar.

04:02.010 --> 04:06.090
Jadi seingat saya ini adalah persamaan Belman kami untuk nilai q.

04:06.180 --> 04:15.090
Jadi nilai AQ atau nilai melakukan semacam tindakan A dalam keadaan s sama dengan hadiah yang Anda dapatkan

04:15.090 --> 04:22.770
setelah melakukan tindakan itu segera setelah melakukan suatu tindakan plus apakah Anda mendapatkan maksimum Anda

04:22.770 --> 04:26.720
mendapatkan gamma dari jumlah semua kemungkinan .

04:26.910 --> 04:31.680
Jadi, Anda mendapatkan nilai yang diharapkan dari negara bagian yang akan Anda tuju.

04:31.680 --> 04:37.710
Jadi seperti yang Anda ingat ada rumus untuk persamaan Beldon dan sekarang hanya untuk kesederhanaan mengatakan kita

04:37.710 --> 04:43.670
akan menulis ulang dengan cara kuno dan dengan cara yang kita gunakan untuk berbicara tentang persamaan bellmen

04:43.680 --> 04:45.850
sebelum kita tahu tentang sequester.

04:45.880 --> 04:53.100
Jadi ingat ini adalah persamaan Belman kami dalam arti contoh pencarian deterministik karena di sini Anda tidak memiliki

04:53.100 --> 04:57.600
nilai yang diharapkan Anda tidak memiliki yang sama di semua probabilitas.

04:57.750 --> 05:03.110
Anda hanya memiliki itu seolah-olah itu ditentukan Anda akan berakhir pada keadaan apa Anda akan berakhir dan kemudian Anda

05:03.110 --> 05:05.450
memberi tahu Anda Max dalam satu keadaan.

05:05.570 --> 05:12.170
Dan alasan kami menulis ulang itu adalah satu-satunya alasan adalah karena lebih mudah untuk menulisnya dan akan

05:12.200 --> 05:14.550
lebih mudah untuk mengikuti formula.

05:14.550 --> 05:19.340
Jadi kita akan ingat bahwa kita mengganti bagian bar ini.

05:19.430 --> 05:25.400
Dan juga Anda akan menemukan notasi ini dalam banyak literatur sehingga akan lebih mudah bagi Anda untuk

05:25.400 --> 05:28.310
mengikuti sumber-sumber lain jika Anda mempelajari itu.

05:28.370 --> 05:35.390
Tetapi ingat bahwa sebenarnya yang kita maksudkan adalah pendekatan probabilistik ini di sini daripada notasi ini hanya lebih mudah bagi

05:35.500 --> 05:39.130
kita untuk mengoperasikan ini dan memahami apa yang terjadi.

05:39.140 --> 05:44.180
Saya hanya suka melihat persamaan sehingga mereka tidak terlalu berantakan tetapi sekali lagi hanya ingat

05:44.180 --> 05:48.050
bahwa sebenarnya yang kita maksud adalah pendekatan probabilistik di sini.

05:48.290 --> 05:52.130
Jadi kita benar-benar tahu, Tom Silis melihat apa yang terjadi.

05:52.190 --> 06:00.350
Jadi di sini adalah keadaan kosong labirin kita, kita tidak memiliki nilai q apa pun mari kita lihat atau kapan kita bisa tetapi mari kita

06:00.500 --> 06:05.510
biarkan kosong untuk sekarang mari kita lihat salah satu negara bagian atau salah satu sel

06:05.570 --> 06:07.280
Yang ini khusus.

06:07.820 --> 06:11.240
Dan di sini kita punya jawaban untuk tindakan naik.

06:11.240 --> 06:14.290
Kami memiliki nilai q yang kami hitung.

06:14.290 --> 06:18.070
Jadi bukan karena kami tidak memiliki nilai q apa pun, tetapi kami memilikinya, kami melakukannya.

06:18.080 --> 06:19.930
Tapi kami tidak menggambarkan apa pun.

06:19.930 --> 06:22.520
Kami hanya mengosongkannya demi kesederhanaan.

06:22.610 --> 06:28.570
Tetapi kita memiliki usia yang telah berjalan selama beberapa waktu dan katakanlah secara hipotetis

06:28.580 --> 06:36.560
entah bagaimana dia menghitung nilai kubus ini naik atau Norf dari keadaan ini dari sel khusus ini dan nilai-nilainya.

06:36.560 --> 06:40.240
Q S dan A dan sekarang apa yang kita miliki.

06:40.240 --> 06:45.070
Jadi dia saat ini dengan titik panah biru dan agennya duduk di sel ini.

06:45.590 --> 06:48.560
Dan sekarang dia harus membuat pilihan ke mana dia akan pergi.

06:48.590 --> 06:57.290
Dan dia tahu nilai dari tindakan ini pergi ke utara dan itu adalah q Senay dan di sini saya katakan sebelumnya dan alasannya

06:57.290 --> 07:01.940
adalah karena dia yang sebelum dia mengambil Sebenarnya dia belum mengambil tindakan

07:01.940 --> 07:10.760
sehingga dia masih di dalam sel dan sebelum dia mengambil tindakan, nilainya di sini adalah q dan SNH dan sekarang dia benar-benar mengambil

07:10.760 --> 07:11.370
tindakan.

07:11.390 --> 07:13.670
Jadi katakanlah dia memutuskan adalah yang terbaik.

07:13.670 --> 07:16.440
Dia mengambil tindakan dan dia bergerak ke sel.

07:16.730 --> 07:24.320
Nah sekarang apa yang terjadi sekarang datang setelah jadi setelah dia mengambil tindakan kita bisa mengukur apa nilai ini

07:24.350 --> 07:30.650
mari kita menghitung nilai ini nilai dari hadiah untuk mengambil tindakan itu ditambah gamma dikali maksimum

07:30.650 --> 07:35.640
dari keadaan baru ini yang baru saja dia dapatkan sebagai utama.

07:35.640 --> 07:39.030
Dan jadi maksimal di semua tindakan yang mungkin dan aspirin.

07:39.080 --> 07:44.770
Jadi apa yang kita miliki di sini adalah nilai sebelumnya dalam tindakan itu.

07:44.810 --> 07:47.650
Dan kemudian kami telah menghitung metrik ini setelahnya.

07:47.660 --> 07:54.860
Tetapi seperti yang dapat Anda ingat dari empat bulan sebelumnya jika kita kembali dengan sangat cepat dari rumus sebelumnya di mana kita baru

07:55.630 --> 08:02.180
menghitung memang nilai itulah bagaimana Qs. Sebuah. a dihitung.

08:02.210 --> 08:07.930
Jadi bagian Arite ini baru dihitung secara terpisah tetapi setelah kami mengambil tindakan.

08:08.330 --> 08:15.470
Jadi seperti sebelumnya kita tahu Q dari S dan menghargai sesuatu yang telah kita hitung melalui iterasi kita

08:15.470 --> 08:16.860
Preuss adalah sesuatu.

08:17.000 --> 08:19.990
Jadi nilai itu tersimpan dalam ingatan kita.

08:20.000 --> 08:26.990
Jadi seperti nomor yang kita tahu dan sekarang setelah tindakan dilakukan, kita tahu hadiah apa yang

08:27.050 --> 08:30.270
dia dapatkan, hadiah yang sebenarnya didapat agen.

08:30.440 --> 08:33.320
Dan kita dapat menghitung nilai baru ini.

08:33.320 --> 08:39.690
Jadi pada dasarnya kita semacam menghitung ulang nilai ini, tetapi sekarang dengan informasi baru, informasi baru adalah hadiah

08:39.690 --> 08:41.120
yang kita dapatkan.

08:41.600 --> 08:47.330
Dan ditambah apa yang tinggal kami akhirnya dan apa maksimum di negara itu apa

08:47.420 --> 08:50.540
nilai baru ini untuk data tertentu bisa

08:50.570 --> 08:54.480
Jadi, apa nilai makhluk itu dalam keadaan itu.

08:54.500 --> 09:02.060
Jadi pada dasarnya Cure Vanessa-Mae tetapi diberi informasi baru dan sekarang perbedaan temporal didefinisikan

09:02.150 --> 09:07.700
sebagai kekecilan dari dan dari dua perbedaan antara keduanya.

09:07.700 --> 09:11.770
Jadi di sini elemen pertama adalah nilai off-Terra Anda.

09:11.780 --> 09:16.250
Jadi jenis seperti Q dari Esson sedikit dihitung sesudahnya.

09:16.550 --> 09:21.880
Dan quvenzhané A sebelumnya yang telah Anda simpan di memori Anda.

09:22.070 --> 09:24.170
Dan pertanyaannya adalah apakah mereka berbeda.

09:24.290 --> 09:26.240
Jadi idealnya mereka harus sama.

09:26.240 --> 09:31.750
Idealnya ini harus sama dengan ini hanya karena ini adalah rumus untuk menghitung ini.

09:31.790 --> 09:38.060
Tapi masalahnya adalah ini bukan sesuatu yang kita Kalka ini adalah sesuatu yang kita miliki dari bukti empiris sesuatu yang

09:38.060 --> 09:41.320
kita miliki dari hanya melalui labirin berkali-kali dan menghitung.

09:41.320 --> 09:44.330
Jadi ini adalah sesuatu yang kita sampai sejauh ini.

09:44.360 --> 09:46.820
Ini tidak terkait dengan iterasi saat ini.

09:46.820 --> 09:52.070
Ini adalah sesuatu yang kami temukan sebelumnya sejak lama, tetapi dalam salah satu iterasi kami

09:52.070 --> 09:53.180
sebelumnya melalui labirin.

09:53.510 --> 09:57.740
Padahal ini adalah sesuatu yang kami hitung sekarang dan tidak ada

09:57.740 --> 10:04.720
jaminan bahwa mereka akan sama atau karena keacakan yang ada di maze karena ini bisa dihitung dan melihat

10:04.750 --> 10:10.260
beberapa peristiwa acak CRN dipicu dan ini dapat dipanggil untuk berbagai peristiwa acak yang

10:10.300 --> 10:11.290
terjadi dipicu.

10:11.740 --> 10:15.680
Dan sekarang kita menulis pahlawan kita, hanya memindahkannya ke sana.

10:15.700 --> 10:16.900
Jadi bagaimana kita menggunakan ini.

10:16.900 --> 10:20.470
Pertanyaannya OK jadi kita punya perbedaan temporal ini.

10:20.470 --> 10:21.340
Bagaimana kita menggunakan ini.

10:21.400 --> 10:23.450
Dan mengapa itu disebut perbedaan temporal.

10:23.590 --> 10:28.960
Nah alasannya disebut perbedaan temporal adalah karena pada dasarnya Anda menghitung hal yang sama Anda

10:28.990 --> 10:33.460
menghitung Q dari S dan A sehingga nilai Q dari tindakan itu.

10:33.640 --> 10:36.140
Calcott Anda di sini dan Anda sedang menghitungnya di sini.

10:36.340 --> 10:38.310
Tetapi perbedaannya adalah waktu.

10:38.320 --> 10:44.140
Ini adalah Q dari S dan mereka sebelumnya adalah yo Q dari S dan A.

10:44.140 --> 10:49.090
Sekarang obat baru Anda adalah bawaan dan pertanyaannya adalah apakah ada perbedaan.

10:49.090 --> 10:51.700
Apakah ada pergeseran di antara mereka dalam waktu.

10:52.060 --> 10:56.830
Dan bagaimana kita bisa menggunakan ini untuk keuntungan kita jika memang ada pergeseran waktu.

10:57.040 --> 11:02.790
Yah satu hal yang bisa kita lakukan adalah kita bisa mengatakan OK, Anda tahu Qs kita Sebuah. tidak.

11:02.830 --> 11:07.490
Nilai baru ini tidak sama dengan yang lama sehingga kami akan menyingkirkan yang lama atau melupakan yang lama dan kami

11:07.510 --> 11:09.610
hanya akan menggunakan ini semua adalah nilai yang baru.

11:09.970 --> 11:11.920
Tapi itu tidak pintar.

11:11.950 --> 11:17.960
Dan alasan untuk itu adalah bahwa di lingkungan kita kejadian acak kadang-kadang bisa terjadi.

11:18.140 --> 11:25.500
Dan bagaimana jika QSA lama kita. Sebuah. a adalah sesuatu yang secara konsisten terjadi seperti 80 persen dari waktu.

11:25.780 --> 11:28.750
Dan kemudian seperti diwakili oleh apa yang terjadi 80 persen dari waktu.

11:28.750 --> 11:33.280
Dan yang baru ini hanya terjadi karena keacakan.

11:33.280 --> 11:39.610
Dalam hal ini kita akan membuang yang bertanggung jawab atas sebagian besar situasi dan kita akan menggantinya

11:39.760 --> 11:43.900
dengan sesuatu yang terjadi hanya 10 atau 20 persen dari waktu.

11:43.900 --> 11:50.650
Itu tidak akan menjadi pendekatan terbaik untuk dilakukan dan itulah mengapa kami tidak ingin sepenuhnya mengubah

11:50.650 --> 11:51.990
nilai Opu.

11:52.060 --> 11:56.890
Kami ingin menggunakan suka mengubahnya sedikit demi sedikit.

11:56.890 --> 12:01.980
Dan itulah mengapa kita akan menggunakan perbedaan temporal ini dengan cara tertentu sehingga kita akan mengatakan

12:02.020 --> 12:05.080
Ini adalah rumus yang akan kita ambil isyarat SNH.

12:05.560 --> 12:07.120
Dan kita akan memperbaruinya sedemikian rupa.

12:07.120 --> 12:12.450
Kami akan mengambil nilai lama dari obat Senay dan kami akan menambahkan semua lima kali

12:12.460 --> 12:13.380
perbedaan temporal.

12:13.420 --> 12:15.730
Jadi Alpha akan belajar dengan benar.

12:15.730 --> 12:17.410
Itu parameter baru yang kami perkenalkan.

12:17.410 --> 12:20.070
Begitulah cepatnya algoritma belajar.

12:20.080 --> 12:26.390
Jadi pada dasarnya kami mengambil perbedaan ini dan apa pun yang kami tambahkan ke ular KJo kami

12:26.480 --> 12:27.210
sebelumnya.

12:27.220 --> 12:31.970
Sekarang formula ini mungkin tidak masuk akal atau suka hanya dengan melihatnya tidak masuk akal karena Anda mendapatkan Covisint di

12:31.970 --> 12:34.040
sini dan memberi kami nilai A di sini.

12:34.060 --> 12:39.460
Itu adalah hal yang sama jadi mungkin harus meniadakan satu sama lain tetapi kami harus menulis ulang ini dengan cara yang

12:39.460 --> 12:40.090
sedikit berbeda.

12:40.390 --> 12:44.080
Jadi saya akan menunjukkan kepada Anda lagi jadi saya hanya menambahkan waktu untuk formula ini.

12:44.090 --> 12:48.070
Jadi di sini adalah qt minus satu tahun-tahun sebelumnya.

12:48.070 --> 12:49.780
Q T minus 1 tahun-tahun sebelumnya.

12:49.780 --> 12:56.080
Q T The New ini harus menjadi lingkaran di sini di lingkaran sini juga tetapi tidak apa-apa dan di sini mendapatkan perbedaan

12:56.080 --> 12:56.750
temporal alfa.

12:56.810 --> 12:58.750
Maka Anda perbedaan temporal saat ini.

12:58.750 --> 13:01.190
Jadi, Anda dapat melihat apa yang kami lakukan, kami katakan.

13:01.220 --> 13:04.200
OK, mari kita ambil yang sekarang.

13:04.240 --> 13:10.880
Q akan sama dengan semua Q sebelumnya ditambah perbedaan temporal apa pun yang kami temukan Times Alpha.

13:11.150 --> 13:16.330
Rumus ini di sini adalah jantung dan jiwa dari algoritma pembelajaran kubus.

13:16.330 --> 13:18.250
Ini adalah bagaimana kubus atau pembaruan.

13:18.280 --> 13:24.460
Dan ada baiknya kita telah belajar apa nilai q itu apa gamma itu apa dan semua

13:24.460 --> 13:25.300
barang ini.

13:25.420 --> 13:31.740
Dan sekarang yang perlu kita lihat adalah bahwa Anda memiliki nilai Q sebelumnya Ya itu bagus.

13:31.990 --> 13:37.870
Dan kemudian apa yang bisa terjadi adalah bahwa ketika Anda menerima ketika Anda benar-benar mengambil tindakan ketika agen mengambil

13:37.870 --> 13:42.530
tindakan, Anda akan tahu dia akan mendapatkan hadiah dan dia akan berakhir dalam keadaan.

13:42.610 --> 13:46.400
Dan berdasarkan itu dia bisa menghitung Aha.

13:46.420 --> 13:53.220
OK jadi apa yang akan memiliki apa yang seharusnya menjadi nilai Q dari langkah yang saya buat.

13:53.530 --> 13:56.390
Dan sekarang inilah bagian dari persamaan.

13:56.470 --> 14:02.870
Kurangi nilai Q lama memberi Anda perbedaan temporal dan sekarang Anda perlu mengambil perbedaan sampel waktu

14:02.920 --> 14:05.410
Alpher dan itulah cara Anda menyesuaikan.

14:05.430 --> 14:06.370
Q Mengerti Anda apa yang Anda maksudkan.

14:06.370 --> 14:10.240
Saya hanya berpikir Anda pergi dan sekarang hanya untuk menyelesaikan ini.

14:10.240 --> 14:14.890
Ini semacam ini cukup untuk memahami apa yang terjadi tetapi hanya untuk memperjelas

14:14.890 --> 14:18.370
hal-hal yang lebih atau mungkin membingungkan hal-hal yang lebih.

14:18.460 --> 14:23.320
Apa yang perlu kita lakukan untuk mengambil perbedaan temporal ini atau perbedaan sederhana ini atau di sini cara untuk menghubungkannya

14:23.320 --> 14:24.180
ke format ini.

14:24.190 --> 14:29.840
Jadi kita akan mengambil semua bagian ini dan memasukkannya ke dalam rumus ini dan berakhir dengan persamaan besar.

14:29.920 --> 14:31.490
Jadi di sini kita mulai.

14:31.660 --> 14:32.590
Itu persamaan kita.

14:32.590 --> 14:38.470
Jadi ini adalah persamaan lengkap dengan perbedaan temporal yang dituliskan sepenuhnya.

14:38.560 --> 14:43.690
Dan alasan saya menulisnya juga pertama-tama Anda mungkin akan menemukan ini dalam literatur

14:43.690 --> 14:45.560
lain jika Anda mempelajarinya.

14:45.730 --> 14:50.810
Dan yang kedua adalah membuat beberapa hal yang sedikit lebih rumit memiliki formula lebih lama tetapi juga membuat

14:50.810 --> 14:52.300
sesuatu sedikit lebih jelas.

14:52.300 --> 14:55.940
Jadi misalnya Anda bisa melihat di sini peran yang dimainkan Alpha.

14:55.960 --> 14:58.310
Anda dapat melihatnya lebih baik karena lihat ini.

14:58.320 --> 14:58.860
Sini.

14:58.900 --> 15:01.410
Q T minus satu dan ini dia.

15:01.420 --> 15:03.760
Q T minus satu dengan tanda negatif.

15:03.760 --> 15:12.170
Jadi, jika Anda pasang di Alpha sama dengan 1 jika Anda menempatkan 1 di sini maka ini akan meniadakan ini.

15:12.190 --> 15:16.170
Jadi mereka akan saling menghancurkan dan yang tersisa hanyalah bagian ini.

15:16.480 --> 15:23.080
Dan apa artinya itu persis seperti situasi di mana kami mengatakan Baiklah, jadi Anda mendapat nilai

15:23.140 --> 15:24.750
baru yang seharusnya.

15:24.850 --> 15:29.570
Mari perbarui nilai Q kami dengan nilai baru dan lupakan apa pun yang kami miliki sebelumnya.

15:29.710 --> 15:35.470
Dan seperti yang kita diskusikan bukanlah pendekatan terbaik karena ada peristiwa acak di sini dan kami ingin memperbarui

15:35.470 --> 15:36.820
hal-hal secara bertahap.

15:37.530 --> 15:43.590
Dan di sisi lain, jika Anda mengatakan Alpher sama dengan nol, apa yang terjadi adalah Anda benar-benar melupakan seluruh

15:43.590 --> 15:48.960
bagian ini dan Anda lucu dengan yang baru atau yang sekarang akan selalu sama dengan yang

15:48.960 --> 15:51.720
sebelumnya sehingga Anda tidak akan belajar apa pun.

15:51.720 --> 15:56.730
Dan itu berarti apa pun yang terjadi di labirin tidak masalah karena Anda telah memutuskan nilai Kuchi

15:56.730 --> 15:58.940
sejak lama dan Anda hanya akan mempertahankannya.

15:59.230 --> 16:03.200
Jadi itu sebabnya Alfas tidak boleh 0 atau harus itu seharusnya ada di antara keduanya.

16:03.240 --> 16:09.330
Dan itu akan memungkinkan Anda untuk belajar secara perlahan selangkah demi selangkah akan memungkinkan Anda sebagai agen

16:09.360 --> 16:12.720
Anda atau melalui labirin akan mendapatkan perbedaan temporal.

16:12.960 --> 16:19.530
Dan perlahan tapi pasti nilai ini akan mendapatkan pembaruan dan pembaruan ibed dan apa yang

16:19.680 --> 16:25.440
akan terjadi pada akhirnya adalah bahwa pada titik tertentu semoga algoritma akan konvergen.

16:25.710 --> 16:30.960
Dan apa artinya itu adalah bahwa perbedaan temporal ini akan mulai menjadi semakin dekat dan semakin

16:30.960 --> 16:37.860
dekat ke nol dan pada akhirnya akan sangat dekat dengan nol atau bahkan 0 0 0 0 dan apa artinya

16:37.860 --> 16:43.050
itu adalah bahwa setiap kali nilai cutesie baru Anda atau baru nilai yang dihitung.

16:43.350 --> 16:44.430
Apa yang seharusnya.

16:44.440 --> 16:49.950
Jadi bukan yang ini tapi apa yang seharusnya cukup untuk mengambil langkah hipotetis akan sama dengan nilai

16:49.950 --> 16:51.030
Q2 Anda sebelumnya.

16:51.030 --> 16:55.650
Dan kemudian satu yang nol dan itu berarti ketika perbedaan suhu

16:56.070 --> 17:02.720
Anda nol berarti algoritma Anda telah konvergen dan itu tidak benar-benar diperlukan untuk terus memperbarui apa yang terjadi.

17:02.720 --> 17:06.270
Itu pencarian ini untuk terus memperbarui nilai kubus Anda.

17:06.270 --> 17:12.780
Peringatan di sini adalah bahwa satu-satunya waktu mungkin satu-satunya saat ketika Anda masih ingin

17:12.810 --> 17:19.140
terus melakukan seluruh ini, Anda tahu memperbarui nilai antrian jika lingkungan terus berubah.

17:19.170 --> 17:23.100
Jika tidak hanya itu tidak ada di sana itu hanya memiliki beberapa tebusan untuk peristiwa Kostic di dalamnya

17:23.220 --> 17:28.750
Tetapi lingkungan itu sendiri sedang memodifikasi sebagaimana morphing berubah seiring waktu.

17:29.040 --> 17:34.260
Jadi Anda harus terus belajar karena tidak mungkin bagi Anda untuk mempelajari segalanya dan menghasilkan

17:34.260 --> 17:39.210
kebijakan yang optimal karena kebijakan yang optimal juga berubah dengan lingkungan setiap saat.

17:39.240 --> 17:44.730
Dalam hal ini Anda perlu melanjutkan CALKIN dan perbedaan temporal dan menghitung nilai Q.

17:44.730 --> 17:46.830
Tapi selain itu itu semacam komplikasi ekstra.

17:46.830 --> 17:53.370
Selain itu, ini adalah bagaimana pembaruan nilai-nilai Q jadi ini adalah rumus utama dari algoritma pembelajaran Q

17:54.090 --> 17:59.490
dan ini seperti versi yang diperluas dari itu dan sekarang semuanya harus bersatu

17:59.490 --> 18:05.250
dan masuk akal mengapa kita memiliki persamaan Belman dan tidak hanya apa yang diwakilkan

18:05.250 --> 18:12.870
oleh gewgaw, tetapi juga bagaimana agen tersebut memperbarui nilai-nilainya dan menemukan apa yang sebenarnya terjadi di lingkungan itu sehingga dapat

18:12.870 --> 18:14.620
menghasilkan kebijakan yang optimal.

18:14.640 --> 18:21.570
Jadi saya tahu cukup banyak untuk diterima, tetapi mudah-mudahan Anda menikmati tutorial ini dan

18:21.570 --> 18:28.680
mudah-mudahan Anda dapat menghilangkan konsep dan intuisi yang mendasari nilai-nilai Anda dan apa arti seluruh

18:28.680 --> 18:36.990
perbedaan temporal itu dan mengapa ini penting mengapa ini membantu kami perlahan melatih agen dan membuat mereka memahami

18:37.050 --> 18:39.230
lingkungan tempat mereka beroperasi.

18:39.270 --> 18:45.540
Dan jika Anda ingin belajar lebih banyak tentang perbedaan temporal maka makalah yang

18:45.540 --> 18:52.470
sangat populer adalah belajar untuk memprediksi dengan metode perbedaan temporal oleh Richard Sutton dari 1990.

18:52.620 --> 18:57.060
Kami sudah memiliki referensi oleh Richard Sutton juga, tetapi ini adalah

18:57.060 --> 19:04.620
buku lain dan sebenarnya memiliki buku jadi jika Anda mengenal Anda, ketahui gaya tulisannya dan gaya komunikasinya, kemudian periksa

19:04.620 --> 19:05.660
bukunya juga.

19:05.810 --> 19:08.630
Ini seperti versi yang lebih luas dari semua hal ini.

19:08.640 --> 19:12.820
Saya belum membaca buku itu tetapi itu yang saya bayangkan pada saat yang sama.

19:12.960 --> 19:19.530
Ini akan menambah kertas dan Anda dapat belajar sedikit tentang atau mungkin lebih banyak tentang perbedaan

19:19.530 --> 19:21.050
temporal di sana

19:21.300 --> 19:22.950
Dan saya harap Anda menikmatinya juga.

19:23.060 --> 19:24.270
Kami akan menemuimu lain kali.

19:24.270 --> 19:26.250
Sampai kemudian menikmati AI.