WEBVTT

00:00.660 --> 00:03.920
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:03.930 --> 00:09.440
Dan akhirnya kita menuju hal-hal menyenangkan yang kita pelajari dalam.

00:09.450 --> 00:10.660
Baiklah jadi mari kita lihat.

00:10.720 --> 00:14.100
Bruce, kita berbicara tentang penghasilan pembunuh dan tentang apa semua itu.

00:14.140 --> 00:20.160
Dan kami belajar tentang lingkungan Agen dan bagaimana agen akan melihat keadaan.

00:20.210 --> 00:23.620
Atau dia dalam mengambil tindakan mendapatkan hadiah.

00:23.640 --> 00:28.610
Masuk ke negara baru dan berdasarkan pada umpan balik itu mereka akan terus mengambil tindakan dan mereka akan

00:28.610 --> 00:29.460
belajar dari itu.

00:29.460 --> 00:32.310
Memahami apa tindakan terbaik yang harus diambil.

00:32.310 --> 00:35.040
Jadi kami melihat contoh dasar labirin ini.

00:35.040 --> 00:40.550
Kami memahami bahwa ketika Asia mengeksplorasi lingkungan memahami apa nilai-nilai negara.

00:40.560 --> 00:45.150
Kemudian kami beralih dari berurusan dengan nilai-nilai negara ke berurusan dengan nilai-nilai

00:45.150 --> 00:52.230
tindakan dengan nilai-nilai dan kemudian A-Basin bahwa kami memahami bagaimana rencana dalam lingkungan yang tidak sarkastik bekerja dan

00:52.560 --> 00:57.070
bagaimana kebijakan bekerja di lingkungan stokastik dan ini contoh kebijakan.

00:57.120 --> 01:01.340
Jadi itu adalah rekap singkat dari semua yang kita bahas dalam pembelajaran dasar.

01:01.450 --> 01:07.230
Dan sekarang mari kita lihat bagaimana ini dapat dibawa ke tingkat berikutnya melalui pembelajaran mendalam melalui penambahan

01:07.230 --> 01:08.080
pembelajaran mendalam.

01:08.260 --> 01:08.510
BAIK.

01:08.520 --> 01:16.110
Jadi ini adalah lingkungan kita dan apa yang akan kita lakukan sekarang adalah kita akan menambahkan bukan hanya

01:16.110 --> 01:21.860
melakukan perhitungan dasar dalam matriks ini yang kita miliki yang cukup sederhana.

01:21.870 --> 01:26.970
Apa yang akan kita lakukan adalah kita akan menambahkan dua sumbu yang menambahkan sumbu x dan y atau kita

01:27.090 --> 01:28.480
akan menyebutnya x1 dan x2.

01:28.560 --> 01:30.430
Hanya untuk membuat segalanya menjadi lebih umum.

01:30.480 --> 01:36.830
Dan di sini kita memiliki bilangan real baris baris kolom 1 2 tiga 4 dia akan memerintah nomor baris 1 hingga 3.

01:36.960 --> 01:44.730
Dan sekarang setiap keadaan tunggal dapat dijelaskan dengan sepasang dua nilai x1 dan x2 sehingga salah satu dari

01:44.730 --> 01:50.940
kotak ini di mana agen mungkin dapat di dapat dijelaskan oleh x1 x2.

01:50.940 --> 01:58.280
Jadi misalnya sekarang dia ada di bujur sangkar dengan X1 sama dengan 1 dan x 2 sama dengan 2.

01:58.470 --> 02:03.430
Dan karena itu, itu bukan cara kami dapat melarikan diri di alun-alun Anda, yang dapat kami uraikan di negara Anda.

02:03.480 --> 02:08.330
Maka tentu saja ini adalah versi yang sangat disederhanakan dari lingkungan menggambarkan negara.

02:08.340 --> 02:10.110
Namun demikian itu berhasil dalam kasus ini.

02:10.290 --> 02:17.260
Dan itu berarti bahwa sekarang kita dapat memberi makan keadaan ini ke dalam jaringan saraf.

02:17.400 --> 02:21.830
Dan omong-omong di sini saya hanya ingin menyebutkan bahwa pada akhir dari lampiran yang

02:21.830 --> 02:26.880
baik kita punya x nomor satu dan kejenakaan dan dua untuk melanjutkan berhasil dengan bagian ini.

02:26.970 --> 02:32.280
Sangat disarankan agar Anda memeriksa yang tidak dapat diakses yang ada di jaringan saraf tiruan

02:32.280 --> 02:37.470
sehingga Anda memahami cara kerjanya sehingga kami tidak perlu mempelajari hal itu di sini

02:37.470 --> 02:43.800
dan kami hanya dapat menggunakan manfaat pengetahuan tentang cara kerja jaringan saraf tiruan bekerja dan jadi kami memberi

02:43.830 --> 02:51.870
makan informasi ini pada keadaan menjadi jaringan saraf dan kemudian akan memproses informasi ini X1 dan x2 tergantung pada struktur jaringan saraf

02:51.870 --> 02:55.380
itu mungkin memiliki beberapa lapisan tersembunyi dan sebagainya.

02:55.380 --> 03:00.900
Jadi itu adalah sesuatu yang akan Anda temukan dalam tutorial praktis tetapi pada akhirnya kami

03:00.900 --> 03:06.570
akan menyusun sedemikian rupa sehingga memberikan nilai-nilai dan keempat nilai ini sebenarnya akan menjadi nilai Q kami.

03:06.570 --> 03:11.790
Jadi nilai-nilai yang menentukan tindakan mana yang perlu kita ambil dan yang tidak dalam tutorial ini akan melihat dengan

03:11.790 --> 03:15.220
tepat bagaimana nilai-nilai kunci ini digunakan untuk memutuskan tindakan mana yang diambil.

03:15.240 --> 03:22.490
Tetapi poin utama di sini adalah bahwa kita tidak lagi melihat labirin ini dari perspektif pembelajaran.

03:22.650 --> 03:29.760
Kami sekarang mengambil keadaan labirin dan kami memberi mereka makan ke dalam jaringan saraf yang dalam untuk mendapatkan

03:29.820 --> 03:31.360
bilik ini dan.

03:31.410 --> 03:35.080
Dan pada akhirnya kami masih akan membuat tindakan, kami masih akan mengerti

03:35.150 --> 03:39.900
tindakan apa yang perlu kami ambil dan kami akan membahas semua ini lebih detail tetapi pertanyaannya

03:39.900 --> 03:42.990
sekarang adalah mengapa kami melakukan semua ini mengapa kami menyebutnya.

03:43.200 --> 03:47.990
Mengapa membuat segala sesuatunya menjadi jauh lebih rumit ketika pendekatan awal pembelajaran itu bekerja

03:48.280 --> 03:48.990
dengan baik.

03:49.170 --> 03:54.980
Alasan untuk itu adalah untuk belajar bekerja di lingkungan yang sangat sederhana ini dan kami terus

03:54.990 --> 03:59.830
berurusan dengan sekarang dengan lingkungan yang sangat sederhana ini untuk lebih memahami konsep.

04:00.000 --> 04:06.220
Tetapi pada saat yang sama bahwa pembelajaran Kial sederhana tidak akan lagi bekerja di lingkungan

04:06.600 --> 04:12.780
yang lebih kompleks dan kita berbicara tentang misalnya mobil self-driving yang akan membuat atau

04:13.020 --> 04:19.200
bermain Doom ketika kecerdasan buatan memainkan Doom atau game Atari lainnya seperti breakout atau

04:19.260 --> 04:26.400
bahkan mobil self-driving dan hal-hal pembelajaran penguatan yang lebih maju seperti robot berjalan-jalan dan melakukan tindakan dalam

04:26.730 --> 04:32.400
semua kasus itu pada dasarnya pembelajaran tidak cukup tidak kuat tidak cukup kuat

04:32.400 --> 04:34.700
untuk dapat menguasai tantangan itu.

04:34.710 --> 04:41.250
Dan seperti yang telah kita lihat dalam kursus pembelajaran yang mendalam jika Anda pernah dalam disiplin kami atau jika Anda

04:41.250 --> 04:47.820
telah melakukan bagian lampiran pada x nomor satu dan X-2 Anda akan di mana Anda tahu bahwa pembelajaran mendalam jauh lebih

04:47.820 --> 04:51.640
unggul daripada segala jenis pembelajaran mesin apalagi pembelajaran keren yang sederhana.

04:51.660 --> 04:55.770
Dan itulah mengapa kami memanfaatkan kekuatan pembelajaran mendalam di sini sehingga kami

04:55.770 --> 04:58.580
memasukkan informasi tentang lingkungan sebagai vektor nilai.

04:58.590 --> 05:04.240
Dalam hal ini hanya untuk digunakan ke dalam jaringan saraf yang dalam dan kemudian kita menggunakannya untuk melakukan tindakan

05:04.240 --> 05:07.220
yang ingin kita putuskan tindakan mana yang akan diambil agen.

05:07.420 --> 05:11.700
Jadi itu semacam ikhtisar tingkat tinggi tentang mengapa kami melakukan ini.

05:11.830 --> 05:17.920
Dan sekarang mari kita melihat sedikit lebih detail apa yang terjadi pada konsep pembelajaran keren

05:17.920 --> 05:24.100
ketika kita mentransfer ketika kita melakukan transformasi dari atau transisi dari pembelajaran sederhana menjadi Killary yang mendalam.

05:24.130 --> 05:31.720
Jadi seperti yang Anda lihat di tutorial intuisi sebelumnya, kami memiliki slide seperti ini yang merupakan dasar dari

05:31.960 --> 05:33.550
pembelajaran perbedaan temporal.

05:33.700 --> 05:37.430
Ini adalah formula untuk perbedaan temporal dan pada dasarnya Jadi mari kita lalui.

05:37.430 --> 05:44.640
Jadi pada dasarnya kami memiliki agen yang dalam kondisi ini di sini yang ditunjukkan panah biru.

05:45.070 --> 05:51.760
Dan kami memahami bagaimana perbedaan temporal bekerja untuk nilai ini misalnya naik.

05:51.790 --> 05:57.250
Jadi apa yang kita lihat di sini adalah sebelum ini ada di Killary yang sederhana, bukan pembelajaran yang mendalam di dalam killer yang

05:57.250 --> 05:57.610
sederhana.

05:57.640 --> 06:05.560
Apa yang kami lihat adalah sebelum agen memiliki nilai rona berikutnya yang telah ia pelajari tentang tindakan

06:05.560 --> 06:06.260
naik.

06:06.340 --> 06:08.700
Maka ia memutuskan untuk mengambil konsepsi untuk naik.

06:08.860 --> 06:14.830
Dan tepat setelah dia melakukan tindakannya dia mendapat hadiah karena mengambil tindakan ini di negara ini.

06:14.830 --> 06:21.070
Dan itu adalah hadiah plus sekarang dia dapat mengevaluasi nilai dari kondisi saat ini dia di mana

06:21.070 --> 06:27.850
adalah maksimum dari semua nilai q baru dari semua kubus dari tindakan baru yang dia dapat mengambil yang utama

06:27.850 --> 06:32.400
di negara baru sebagai cetak dan baca dikalikan dengan faktor DK gamma.

06:32.440 --> 06:40.450
Jadi pada dasarnya itu adalah isyarat nilai kubus baru atau jenis seperti nilai kubus empiris yang baru saja

06:40.450 --> 06:43.200
ia terima untuk mengambil tindakan itu.

06:43.270 --> 06:45.640
Dan idealnya keduanya harus sama.

06:45.640 --> 06:51.430
Jadi sebenarnya nilai Q yang dia miliki dalam ingatannya tentang

06:51.430 --> 06:57.420
tindakan ini di negara bagian ini harus sama dengan hadiah yang sebenarnya.

06:57.610 --> 07:01.870
Dan oleh karena itu, itulah cara kami menghitung perbedaan temporal yang kami ambil apa yang Anda kejar dikurangi

07:01.870 --> 07:05.200
apa yang ia dapatkan dari apa yang ada dalam pikirannya apa yang ia harapkan.

07:05.200 --> 07:06.740
Anda akan mengurangi satu dari yang lain.

07:06.780 --> 07:07.690
Itu perbedaan temporal.

07:07.690 --> 07:14.890
Dan kemudian Anda menggunakan tingkat belajar Anda Alpha untuk menyesuaikan nilai q Anda Anda nilai q baru Anda dengan perbedaan

07:14.890 --> 07:16.940
temporal tetapi dengan koefisien Alpha.

07:17.110 --> 07:20.360
Jadi itulah inti dari pembelajaran yang sederhana.

07:20.460 --> 07:25.990
Sekarang mari kita lihat bagaimana perubahan dalam Killary yang dalam dan jadi kita masih akan bekerja dengan

07:26.000 --> 07:29.440
slide tapi kita hanya akan melihat apa yang terjadi

07:29.620 --> 07:35.890
Jadi dalam pembelajaran yang mendalam jaringan saraf akan memprediksi untuk Valis seperti yang kita lihat di sebelumnya dan seperti yang akan kita

07:35.890 --> 07:36.320
lihat.

07:36.370 --> 07:42.340
Donna Citronelle jaringan saraf akan memprediksi nilai-nilai atau mungkin memprediksi lebih banyak nilai dari tindakan

07:42.340 --> 07:44.790
yang lebih mungkin dalam keadaan tertentu.

07:44.800 --> 07:48.500
Tetapi dalam hal ini kita tahu bahwa hanya ada empat tindakan yang harus dilakukan.

07:48.670 --> 07:56.160
Dan jaringan saraf akan memprediksi empat dari nilai-nilai ini sehingga tidak akan ada akhir dalam situasi pembelajaran yang dalam adalah penting

07:56.170 --> 07:58.800
adalah bahwa tidak ada sebelum atau sesudah.

07:58.960 --> 08:01.610
Dan ini adalah bagaimana kita akan mengenal ini sedikit lebih baik.

08:01.720 --> 08:08.080
Jadi jaringan saraf akan memprediksi empat dari nilai-nilai ini dan itu akan membandingkan bukan dengan apa

08:08.140 --> 08:15.280
yang akan terjadi setelahnya, tetapi jaringan saraf akan membandingkan dengan nilai yang tepat ini tetapi itu adalah nilai

08:15.400 --> 08:17.740
yang dihitung pada langkah sebelumnya.

08:17.740 --> 08:22.950
Jadi di waktu sebelumnya ketika agen berada di alun-alun ini.

08:23.080 --> 08:30.850
Jadi katakanlah saya tidak tahu beberapa waktu yang lalu agen itu lagi berada di alun-alun ini

08:30.850 --> 08:34.420
juga dan sudah menghitung nilai ini sebelumnya.

08:34.420 --> 08:40.630
Jadi di waktu yang lama dahulu agen menghitung nilai ini maka agen menyimpan nilai ini untuk masa

08:40.630 --> 08:43.720
depan dan sekarang masa depan telah datang.

08:43.720 --> 08:48.640
Jadi sekarang dia di alun-alun lagi dan sekarang dia punya nilai-nilai kubus yang diprediksi dan salah

08:48.640 --> 08:50.510
satunya adalah untuk empat naik.

08:50.680 --> 08:57.220
Jadi sekarang apa yang akan dia lakukan adalah membandingkan nilai prediksi Q dengan nilai ini yang telah dia rekam

08:57.220 --> 09:02.520
dari langkah sebelumnya dan akan mengerti persis mengapa ini penting saat ini sehingga penting dipahami

09:02.530 --> 09:03.440
di sini.

09:03.520 --> 09:07.990
Tidak ada sebelum seorang petugas di alun-alun ini waktu khusus ini.

09:08.140 --> 09:14.650
Kami mengambil nilai Q yang diprediksinya menggunakan jaringan saraf saat ini dan kami membandingkannya dengan

09:14.710 --> 09:22.060
nilai ini yang ia miliki dari waktu sebelumnya dari waktu sebelumnya saat ia berada di kotak ini menilai

09:22.110 --> 09:28.100
semua situasi dan Anda tahu seperti sebelumnya waktu dia benar-benar melakukan tindakan ini.

09:28.270 --> 09:29.290
Jadi begitulah.

09:29.290 --> 09:33.360
Sekarang mari kita lihat bagaimana ini semua bekerja di jaringan saraf dan mengapa.

09:33.370 --> 09:38.740
Kenapa aku tahu kedengarannya agak rumit sekarang tapi kami akan memecahnya menjadi istilah sederhana hanya dalam

09:39.310 --> 09:39.990
sedetik.

09:40.000 --> 09:44.380
Jadi ini di jaringan Anda sendiri, kami memasukkan lingkungan lingkungan ke jaringan

09:44.380 --> 09:48.880
saraf melalui lapisan tersembunyi yang keluar dengan output ini Q1 Q2 Q3 Q4.

09:48.880 --> 09:56.830
Dalam keadaan spesifik ini adalah nilai kubus yang diprediksi oleh jaringan saraf untuk tindakan yang

09:56.830 --> 09:57.380
mungkin.

09:57.400 --> 09:58.420
Itu yang kumulatif.

09:58.420 --> 10:04.270
Jadi kita muncul untuk menargetkan dan target ini ada dengan tepat sehingga jika kita kembali ke sini ini

10:04.270 --> 10:07.230
adalah target jadi ini adalah nilai yang diprediksi.

10:07.300 --> 10:11.740
Dan kemudian, tetapi juga kita tahu bahwa kita memiliki target sejak terakhir kali kita berada di alun-alun.

10:11.800 --> 10:16.660
Kami memiliki target untuk tindakan yang sama ini, misalnya.

10:16.660 --> 10:21.490
Jadi di sini kita punya target dan kita akan membandingkan kita membandingkan Q1

10:21.490 --> 10:28.390
versus target itu. Kita membandingkan Q2 versus target target yang kita miliki dari Q3 sebelumnya versus target Q4 versus target.

10:28.420 --> 10:36.610
Jadi ini adalah bagian di mana jaringan saraf atau agen sekarang belajar melalui pembelajaran mendalam bagaimana

10:36.610 --> 10:38.630
melewati lebih baik.

10:38.650 --> 10:44.920
Dan poin kuncinya di sini adalah bahwa kita masih menerapkan pembelajaran yang keren tetapi konsep jawabannya sederhana Anda belajar

10:44.980 --> 10:48.940
Anda belajar melalui perbedaan temporal yang cukup mudah yang telah kita bahas

10:48.940 --> 10:50.720
dan kami tahu mengapa tidak.

10:50.920 --> 10:56.100
Tetapi pada saat yang sama dalam pembelajaran mendalam bagaimana jaringan saraf belajar jaringan saraf belajar melalui kami

10:56.100 --> 10:56.970
menyesuaikan bobot.

10:57.010 --> 11:07.120
Jadi kita harus mengadaptasi konsep penguatan konsep-konsep pembelajaran membunuh sederhana dengan cara jaringan saraf benar-benar

11:07.120 --> 11:08.550
bekerja.

11:08.710 --> 11:10.950
Dan itu adalah melalui memperbarui bobot mereka.

11:10.960 --> 11:14.950
Jadi inilah yang kami coba cari tahu di sini bagaimana kami

11:15.400 --> 11:21.060
mengadaptasi konsep perbedaan temporal ke jaringan Anda sendiri sehingga kami dapat memanfaatkan kekuatan penuh jaringan saraf.

11:21.260 --> 11:27.790
Sejauh ini kami sudah mendapatkan ini sehingga kami memasuki keadaan lingkungan kami di sini sebagai vektor melewati jaringan saraf

11:27.790 --> 11:33.240
kami mendapatkan prediksi nilai-nilai kunci dan kemudian dari waktu sebelumnya agen berada di negara itu.

11:33.240 --> 11:39.480
Kami memiliki target baru ini untuk menargetkan satu dua tiga dan empat untuk masing-masing tindakan ini.

11:39.490 --> 11:40.870
Dan sekarang kita siap.

11:40.870 --> 11:43.360
OK mari kita bandingkan masing-masing dengan masing-masing.

11:43.630 --> 11:50.500
Dan dari sini itu menjadi sangat mudah jika Anda kecepatan dengan jaringan saraf.

11:50.500 --> 11:52.500
Sekali lagi itu ada di Anax.

11:52.570 --> 12:00.070
Nomor satu kita akan menghitung kerugian yang ada di sini dan kita akan menjadi target q yang ini minus Q

12:00.070 --> 12:01.760
minus yang satu ini.

12:01.840 --> 12:06.160
Kita akan menguadratinya sehingga perbedaan kuadrat dari masing-masing ini dan kita akan

12:06.160 --> 12:06.730
menjumlahkannya.

12:06.820 --> 12:12.310
Jadi kami mengambil jumlah perbedaan kuadrat dari nilai-nilai ini dan target mereka dan kami akan mengirimkannya dan

12:12.310 --> 12:13.940
itu akan menjadi kerugian.

12:14.020 --> 12:19.030
Dan idealnya sama seperti yang kita lakukan dalam pembelajaran perbedaan temporal jadi jika kita

12:19.420 --> 12:25.180
kembali sejenak ingat kita berkata Idealnya kita ingin ini sama dengan ini sehingga kita ingin perbedaan

12:25.180 --> 12:31.750
temporal menjadi nol sehingga itu berarti pada dasarnya agennya adalah memprediksi dengan tepat apa yang Anda ketahui nilai

12:31.750 --> 12:37.900
Q adalah bahwa agen memperkirakan persis atau yang ia miliki dan memori persis deskriptif lingkungan dan oleh

12:38.590 --> 12:42.940
karena itu agen tidak pernah bisa mendapatkan lingkungan dengan cukup baik.

12:43.000 --> 12:48.880
Tidak ada kejutan, tidak ada, tidak ada. selama perbedaan temporal adalah seorang pilot yang sangat positif

12:48.880 --> 12:49.970
atau sangat negatif.

12:50.040 --> 12:51.340
Lalu kami punya beberapa kejutan.

12:51.340 --> 12:55.690
Tetapi jika perbedaan umum nol maka dia tahu lingkungan dengan sangat baik sehingga dia bisa

12:55.690 --> 13:01.110
memprediksi apa yang sedang terjadi dan dia bisa dan karena itu kebijakannya akan sangat baik dan dia akan bisa menavigasi.

13:01.350 --> 13:02.200
Jadi disini.

13:02.200 --> 13:07.460
Hal yang sama jadi kami ingin undang-undang ini mendekati nol saya kira sekecil mungkin.

13:07.720 --> 13:14.680
Dan itu sebabnya sekarang kita akan ke ini adalah bagian di mana kita akan memanfaatkan kekuatan sebenarnya dari jaringan

13:14.680 --> 13:19.910
saraf sehingga kita akan mengambil kerugian ini dan kita akan menggunakan propagasi kembali atau

13:19.970 --> 13:27.040
tetap sebagai gradient descent untuk mengambil kerugian ini dan meneruskannya melalui posit jaringan kembali atau kembali disebarkan melalui jaringan

13:27.040 --> 13:31.120
dan melalui untuk memberikan tanggal yang hebat dan layak bobot.

13:31.120 --> 13:37.780
Semua sinopsis ini dalam jaringan sehingga waktu berikutnya kita melalui jaringan ini dengan cara yang sudah sedikit lebih

13:37.930 --> 13:41.050
baik deskriptif lingkungan dan itulah yang kami

13:41.080 --> 13:48.090
Jadi di sini Anda miliki jika Anda kembali ini dihitung kerugian Kalka dan tebak buktikan propagator untuk jaringan

13:48.100 --> 13:49.330
bobot diperbarui.

13:49.330 --> 13:55.720
Kemudian pada saat kita tiba di sini ini terjadi lagi dan lagi di sini ini

13:55.780 --> 14:02.560
terjadi lagi dan seterusnya dan itu terus terjadi dan itulah bagaimana agen ini belajar atau pada

14:02.560 --> 14:09.880
dasarnya sekarang jaringan saraf yang merupakan otak agen sedang belajar menjadi semakin lebih deskriptif lingkungan dan oleh karena

14:09.880 --> 14:12.100
itu agen dapat menavigasi lingkungan.

14:12.130 --> 14:17.980
Ketika kita mengatakan lingkungan deskriptif pada dasarnya berarti bahwa ketika kita menempatkan dalam keadaan lingkungan dimana

14:17.980 --> 14:25.510
agen ini berada di kita lebih mungkin untuk semakin dekat dan lebih dekat dengan nilai isyarat aktual dan itu terjadi karena

14:25.510 --> 14:30.790
nilai-nilai kubus yang ingin kita temukan yang benar tindakan dan itu terjadi karena

14:30.790 --> 14:36.940
target baru ini sebenarnya diturunkan secara empiris sehingga dia setiap hari bagaimana dia menemukan target lucu ini.

14:37.090 --> 14:40.090
Itu benar-benar ada sehingga dia benar-benar mengamati.

14:40.100 --> 14:42.940
OK jadi setelah saya mengambil langkah ini apa hadiah yang saya dapatkan.

14:43.060 --> 14:45.070
Lalu apa nilai dari kondisi ini.

14:45.070 --> 14:48.850
Jadi hal yang sama seperti yang kita lihat sebelumnya dalam pembelajaran Q dan intuisi pembelajaran sederhana.

14:48.850 --> 14:54.550
Jadi dia belajar ini melalui coba-coba dan kemudian dia membangun jaringannya atau

14:54.880 --> 14:59.260
begitulah caranya sehingga nilai yang diprediksi dekat dan dekat.

14:59.380 --> 15:01.330
Menyempurnakan target itu.

15:01.330 --> 15:07.360
Nilai Q sangat mirip dengan konsep yang kita bahas di sini dalam pembelajaran temporal difference

15:07.420 --> 15:09.870
sederhana dari algoritma pembelajaran keterampilan sederhana.

15:09.910 --> 15:10.460
Jadi begitulah.

15:10.460 --> 15:12.540
Begitulah cara agen belajar.

15:12.550 --> 15:13.930
Jadi kita di sini.

15:14.260 --> 15:15.490
Dan itulah bagian pembelajaran.