WEBVTT

00:00.940 --> 00:04.150
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.150 --> 00:09.070
Baiklah jadi saya harap Anda menikmati tutorial sejauh ini kita hampir selesai dengan intuisi Anda segera akan sampai

00:09.070 --> 00:13.390
ke sisi praktis dari hal-hal yang kami punya beberapa hal kecil yang perlu kita bahas.

00:13.510 --> 00:20.320
Baiklah, sebelumnya kita berbicara tentang bagaimana kita menambahkan jaringan saraf ke seluruh persamaan pembelajaran CULE ini dan

00:20.350 --> 00:25.360
menjadikan ular sebagai langkah selanjutnya dan mengubahnya menjadi pembelajaran yang mendalam.

00:25.690 --> 00:33.130
Dan hari ini kita akan menambahkan fitur ekstra penting yang akan dikodekan dalam sisi praktis dari semua hal jadi berita utama

00:33.130 --> 00:39.100
dan saya memutuskan bahwa penting bagi kita untuk sering membahasnya di sisi intuisi sehingga Anda lebih siap

00:39.100 --> 00:42.430
untuk itu ketika datang di sisi pengkodean hal.

00:42.430 --> 00:47.950
Jadi seperti yang kita diskusikan, kita punya jaringan di sana ada dua bagian yang terjadi.

00:47.950 --> 00:53.110
Pertama-tama itu pembelajaran sehingga jaringan benar-benar belajar dengan setiap keadaan baru itu.

00:53.270 --> 00:58.870
Ini perlahan-lahan memperbarui menunggu untuk menjadi lebih baik dan lebih baik dan lebih baik dalam menghadapi lingkungan ini

00:58.870 --> 01:06.910
Dan kemudian ada akting di dalam negara sehingga setelah nilai q telah dihitung di negara maka setelah

01:06.970 --> 01:08.220
Anda memilih.

01:08.230 --> 01:14.800
Jadi hari ini kita masih akan berbicara tentang bagian pembelajaran kita akan datang dengan

01:14.800 --> 01:20.050
fitur menarik yang akan membantu sarjana untuk membuat fitur ini

01:20.080 --> 01:29.690
sendiri tetapi kita akan berbicara tentang fitur yang sangat penting pembelajaran yang sangat keren dan fitur itu disebut replay pengalaman.

01:29.710 --> 01:30.030
Baiklah.

01:30.040 --> 01:34.570
Jadi di sini adalah jaringan kami, jadi kami baru saja menyalinnya di sini.

01:34.570 --> 01:39.000
Kami punya yang hilang yaitu Calcott di bagian bawah adalah kembali penyebar melalui jaringan.

01:39.100 --> 01:44.770
Dan mari kita lihat contoh apa yang terjadi untuk memahami masalah yang kita hadapi dengan sedikit

01:44.770 --> 01:45.670
lebih baik.

01:45.670 --> 01:49.120
Jadi, inilah contoh sebenarnya dari skor.

01:49.120 --> 01:54.820
Ini adalah cuplikan layar dari kursus ini, inilah yang akan Anda pemrograman.

01:54.820 --> 02:02.170
Ini adalah mobil self-driving yang mengemudi melalui ini melalui sepanjang jalan ini dan harus belajar bagaimana

02:02.170 --> 02:03.780
menavigasi jalan ini.

02:03.820 --> 02:09.290
Dan seperti apa yang kita bahas sebelumnya Apa ini di negara ini.

02:09.320 --> 02:15.850
Dan tentu saja keadaannya tidak akan menjadi x1 x2 Lundell cukup jelaskan secara lebih

02:15.850 --> 02:23.650
rinci apa keadaannya itu akan menjadi beberapa parameter yang berhubungan dengan sudut mobil dan beberapa parameter relatif

02:23.650 --> 02:26.490
apa sensornya membaca dan sebagainya.

02:26.490 --> 02:29.820
Jadi akan ada lebih banyak parameter dari itu untuk menggambarkan negara.

02:29.830 --> 02:34.120
Namun demikian itu akan menjadi vektor nilai yang akan melalui jaringan saraf dan kemudian pada

02:34.120 --> 02:36.520
output Anda akan memiliki beberapa nilai ACU.

02:36.520 --> 02:39.850
Sekali lagi akan ada perbedaan tergantung pada lingkungan.

02:39.850 --> 02:44.380
Mereka bisa menjadi sejumlah tindakan yang berbeda dari tindakan yang mungkin.

02:44.460 --> 02:49.660
Tetapi kita hanya akan demi kesederhanaan membiarkannya hanya agar kita dapat memahami lebih baik apa yang

02:49.660 --> 02:50.830
terjadi di sini.

02:50.830 --> 02:55.710
Jadi dalam hal ini pertanyaannya sejauh apa ini.

02:55.730 --> 03:03.510
Input ini ke jaringan saraf ini atau lebih spesifik seberapa sering kita memicu jaringan saraf ini.

03:03.520 --> 03:05.080
Seberapa sering pertumbuhan jaring saraf ini.

03:05.110 --> 03:11.410
Yah setiap kali mobil berakhir dalam keadaan baru sehingga mobil bergerak itu berakhir dalam keadaan baru dan

03:11.530 --> 03:12.650
kemudian semuanya berjalan.

03:12.670 --> 03:17.410
Semua data itu, semua informasi dari negara bagian itu melewati jaringan, memberikan Alice kesalahan yang

03:17.650 --> 03:18.200
dihitung.

03:18.280 --> 03:22.960
Kesalahan ini dihitung berdasarkan apa yang kita bahas dalam tutorial sebelumnya.

03:22.990 --> 03:26.080
Ini disebarkan kembali melalui dan bobotnya diperbarui.

03:26.080 --> 03:32.570
Kemudian mobil memilih tindakan mana yang harus diambil membuat langkah itu berakhir di negara bagian baru di negara bagian baru.

03:32.590 --> 03:34.390
Semuanya dimulai lagi.

03:34.450 --> 03:39.880
Dan pada dasarnya ini terjadi setiap kali mobil masuk dan Anda berkata baik lihat contoh ini.

03:39.880 --> 03:46.240
Saya secara khusus mengambil screenshot karena kelihatannya sangat baik menggambarkan masalah yang ditangani melalui replay pengalaman dan

03:46.240 --> 03:51.430
replay pengeluaran tidak hanya sesuatu yang kita gunakan dalam kursus ini atau dalam

03:51.430 --> 03:52.730
masalah khusus ini.

03:52.810 --> 03:57.190
Ini adalah sesuatu yang akan Anda lihat digunakan di seluruh.

03:57.340 --> 04:04.480
Lagi dan lagi dan lagi dalam algoritma kecerdasan buatan karena begitu kuat dan sangat

04:04.480 --> 04:05.140
penting.

04:05.140 --> 04:11.440
Jadi lihatlah mobil ini mobil ini dalam masalah ini atau dalam lingkungan ini tujuannya adalah datang dari pergi dari sini ke

04:11.440 --> 04:12.440
sini dan kembali.

04:12.440 --> 04:17.540
Tujuannya adalah untuk menavigasi jalan di sini di sini tanpa melintasi dinding-dinding yang terbuat dari pasir.

04:17.790 --> 04:24.430
Dan mobil itu mulai di sini turun dan seperti pahalanya didasarkan pada Anda tahu seberapa dekat itu untuk

04:24.430 --> 04:25.120
memulai.

04:25.120 --> 04:29.890
Jadi mobil pergi dari sini turun dan terus seperti ini seperti ini seperti ini atau di sepanjang

04:29.890 --> 04:31.490
tembok ini sepanjang tembok laut.

04:31.570 --> 04:34.990
Dan apa yang akan dilakukan selanjutnya akan berubah akan terus berjalan.

04:34.990 --> 04:37.450
Apa yang ingin kami lakukan adalah tetap di sini.

04:37.690 --> 04:39.490
Tapi mari kita pikirkan sejenak.

04:39.580 --> 04:44.240
Begitu sampai di dinding ini setiap kali bergerak maju ia bergerak maju.

04:44.260 --> 04:48.570
Itu bergerak maju itu bergerak maju bergerak maju bergerak maju dan seterusnya bergerak maju.

04:48.580 --> 04:53.320
Jadi mungkin ada seperti tergantung pada lingkungan struktur bisa seperti seratus bergerak di sini atau

04:53.320 --> 04:54.710
50 bergerak di sini.

04:54.990 --> 04:59.100
Itu hanya terus bergerak maju maju maju untuk itu dan tidak ada yang berubah.

04:59.160 --> 05:03.310
Tidak benar-benar berubah, ia mendapat jalan lebih jauh dari ini mulai lebih dekat dengan cerita ini.

05:03.310 --> 05:04.060
Itu sangat indah.

05:04.210 --> 05:09.990
Tetapi dalam hal lingkungan sekitar tidak banyak hal yang berubah itu masih tembok yang sama.

05:10.090 --> 05:15.460
Jika Anda duduk di dalam mobil, Anda mungkin melihat situasi ketika Anda mengemudi di apa

05:15.460 --> 05:21.220
pun yang Anda lihat seperti lingkungannya sangat monoton sehingga Anda hanya melihat hal yang sama hanya

05:21.220 --> 05:21.840
lewat.

05:21.840 --> 05:26.680
Tapi seperti yang saya bayangkan Anda mengemudi melalui padang pasir dan Anda hanya melihat hal yang sama itu suara yang

05:26.680 --> 05:29.100
sama itu suara yang sama tidak ada yang terjadi.

05:29.100 --> 05:30.340
Tidak ada yang berubah.

05:30.550 --> 05:36.820
Dan berdasarkan itu tetapi setiap kali kita menempatkan negara itu ke negara baru.

05:37.000 --> 05:42.010
Ya tentu saja ada sesuatu yang berubah bagi kami saat Anda mengendarai mobil dan GPS Anda menunjukkan Anda

05:42.010 --> 05:43.530
lebih dekat ke tujuan Anda.

05:43.540 --> 05:49.300
Jadi salah satu dari input ini aneh tetapi banyak dari input lain ini sensor misalnya yang ada di

05:49.300 --> 05:55.850
mobil mereka tidak berubah dan karena itu saat Anda mengemudi lambat di hari ini untuk memasukkan input ke Anda sendiri di

05:55.850 --> 06:02.380
sini di sini di sini di sini di sini di sini di sini dan di sini di sini sepanjang waktu input

06:02.380 --> 06:03.220
hampir sama.

06:03.250 --> 06:11.140
Dan jika Anda terus memasukkan input yang sama nilai yang sama dalam vektor atau vektor yang sangat mirip

06:11.140 --> 06:14.240
ke jaringan Anda karena tidak ada variasi.

06:14.320 --> 06:16.840
Mobil akan belajar dengan sangat baik.

06:16.870 --> 06:22.420
Satu hal yang akan Anda pelajari dengan baik bagaimana mengemudi di sepanjang dinding ini yang ada di sebelah kanannya

06:22.420 --> 06:27.970
dan itulah cara jaringan akan memperbarui dan itu akan dihargai akan perlahan-lahan mulai mendapat imbalan karena mengemudi dengan baik

06:27.970 --> 06:28.570
seperti itu.

06:28.580 --> 06:33.980
OK jadi dari sini saya akan belajar semua yang saya lakukan dengan sangat baik, saya melakukan lebih baik, saya melakukannya dengan lebih baik.

06:34.050 --> 06:34.420
Semuanya.

06:34.480 --> 06:41.920
Ini akan memiliki persepsi salah ini bahwa itu sebenarnya bekerja dengan sangat baik meskipun hanya belajar bagaimana mengemudi bersama serta jaringan saraf

06:41.920 --> 06:47.560
lainnya akan menjadi sangat beradaptasi untuk mengemudi di sepanjang sumur ini dan kemudian tiba-tiba ada kurva

06:47.560 --> 06:51.100
ini dan mobil tidak tidak tahu harus berbuat apa.

06:51.310 --> 06:55.240
Dan itu benar-benar tidak cocok dengan jaringan saraf ini.

06:55.420 --> 07:01.870
Dan bahkan jika itu dilakukan, entah bagaimana, secara hipotesis katakanlah melewati sebuah titik dan kemudian berakhir di dinding

07:01.870 --> 07:02.250
ini.

07:02.260 --> 07:05.320
Hal yang sama akan terjadi akan mengemudi dari sini sini sini.

07:05.320 --> 07:10.870
OK sekarang jaringan saraf sedang merestrukturisasi dirinya untuk beradaptasi dengan dinding ini dan kemudian bam hal ini terjadi.

07:10.900 --> 07:15.880
Dan bahkan jika entah bagaimana itu dilewati bahwa itu akan melewati hal ini dan kemudian hal yang sama sepanjang garis

07:15.880 --> 07:16.260
ini.

07:16.260 --> 07:23.590
Jadi pada dasarnya ini adalah contoh yang sangat jelas dari masalah bahwa kita adalah apa yang kita miliki

07:23.590 --> 07:29.770
adalah bahwa karena cara kita menggunakan jaring saraf memperbaruinya setiap negara sekali kita memiliki

07:29.770 --> 07:36.490
banyak hal yang berurutan mereka bahkan tidak harus menjadi sama tetapi ada di lingkungan yang normal

07:36.880 --> 07:44.950
yaitu kondisi berturut-turut entah bagaimana berkorelasi atau entah bagaimana saling tergantung dan kami tidak ingin saling ketergantungan itu bias jaringan

07:44.980 --> 07:45.550
kami.

07:45.550 --> 07:52.600
Kami tidak ingin mobil hanya belajar mengemudi seperti garis lurus atau garis melengkung panjang atau seperti

07:54.100 --> 08:01.750
apa pun yang Anda pikir dapat Anda pikirkan dalam kehidupan di mana seorang agen akan menjadi lingkungan

08:01.780 --> 08:10.570
Navigant di mana kita dapat berpikir tentang berkorelasi atau keadaan saling tergantung yang terjadi secara berurutan yang benar-benar dapat mengacaukan

08:10.630 --> 08:12.130
jaringan saraf Anda.

08:12.190 --> 08:15.270
Jika Anda hanya membiarkan agen belajar dari itu.

08:15.430 --> 08:17.600
Dan di situlah replay pengalaman masuk.

08:17.620 --> 08:24.850
Apa yang terjadi dalam replay pengalaman adalah pengalaman ini sehingga ini menyatakan bahwa itu dalam satu dua tiga

08:24.850 --> 08:31.040
namun banyak 50 negara di sini di neuro mereka tidak dimasukkan melalui jaringan segera.

08:31.350 --> 08:35.980
Mereka sebenarnya disimpan dalam memori agen.

08:36.160 --> 08:41.440
Dan misalnya, ini menyimpan semua ini dan menyimpan semua ini dan beberapa di beberapa titik setelah mencapai batas tertentu

08:41.590 --> 08:44.940
yang Anda dapat kode dan Atlanta akan menunjukkan kepada Anda bagaimana melakukannya.

08:45.100 --> 08:51.310
Setelah mencapai batas tertentu maka agen memutuskan sendiri OK saatnya untuk belajar.

08:51.310 --> 08:57.580
Saya punya banyak pengalaman yang saya miliki, saya tidak akan mempelajarinya dan memilih secara acak

08:57.580 --> 09:04.120
distribusi dan keseragaman adalah kuncinya adalah penting di sini karena itu adalah sesuatu yang akan kita

09:04.240 --> 09:06.460
bicarakan pada slide berikutnya.

09:06.820 --> 09:08.140
Kami akan memesan akan menyebutkan itu.

09:08.140 --> 09:12.400
Tetapi dibutuhkan sampel yang didistribusikan secara seragam.

09:12.460 --> 09:15.660
Jadi pada dasarnya semua pengalaman dianggap sama.

09:15.670 --> 09:23.410
Dibutuhkan sampel yang terdistribusi secara seragam dari sekumpulan pengalaman yang dimilikinya dan kemudian akan melalui mereka dan belajar dari mereka

09:23.410 --> 09:28.060
sehingga tidak mengambil semua pengalaman atau hanya mengambil sampel secara seragam, mungkin

09:28.060 --> 09:33.130
diperlukan beberapa dari sini pasangan dari di sini pasangan dari sini dan itu

09:33.130 --> 09:39.940
dan setiap pengalaman dicirikan oleh negara itu dalam tindakan yang mengambil negara itu akhirnya dan hadiah itu

09:40.000 --> 09:47.110
dicapai melalui tindakan itu dalam keadaan tertentu sehingga empat elemen dalam setiap pengalaman menyatakan satu action state two

09:47.110 --> 09:53.470
dan reward dan karena itu dibutuhkan semua pengalaman itu dan kemudian melewati mereka melalui jaringan dan

09:53.470 --> 09:54.660
ia belajar.

09:54.660 --> 10:05.160
Dan dengan cara itu merusak pola bias yang datang dari sifat berurutan pengalaman seolah-olah Anda harus menempatkan mereka

10:05.160 --> 10:08.110
melalui jaringan satu demi satu.

10:08.340 --> 10:11.930
Jadi itulah fokus utama dari pengalaman yang kami mainkan.

10:11.930 --> 10:17.730
Itulah masalahnya dan alamatnya dan manfaat lain dari pengulangan pengalaman adalah bahwa kadang-kadang dalam

10:17.730 --> 10:22.400
lingkungan seperti ini Anda mungkin memiliki pengalaman langka yang sangat berharga.

10:22.410 --> 10:28.340
Jadi misalnya saya tidak tahu katakanlah mari kita lihat sudut ini kan ini sudut kanan.

10:28.440 --> 10:28.730
Kanan.

10:28.740 --> 10:30.880
Dan yang sangat tajam itu tajam.

10:30.900 --> 10:35.640
Jadi akan datang dari sini dengan asumsi akan memeluk sudut ini.

10:35.640 --> 10:40.500
Jadi, jika Anda memiliki sudut tajam yang kami miliki dalam hal ini secara keseluruhan kami akan memiliki satu

10:40.500 --> 10:43.410
sudut kanan di sini dan satu sudut kanan di sini.

10:43.680 --> 10:46.240
Benar jadi ketika itu datang dengan cara itu sudut kanan.

10:46.380 --> 10:48.630
Dan ketika itu akan kembali itu adalah sudut kanan yang tajam di sini.

10:48.620 --> 10:53.070
Jadi, yang ini tidak tajam di toko jadi hanya ada satu kesempatan di

10:53.640 --> 10:56.770
seluruh lingkungan untuk belajar dari sudut kanan yang tajam.

10:56.970 --> 11:03.050
Dan itu adalah pengalaman yang sangat penting karena mungkin akan sangat baik dalam mengemudi di sepanjang garis lurus

11:03.060 --> 11:06.990
menjadi sangat baik dalam melakukan seperti sudut lembut seperti itu tetapi.

11:07.170 --> 11:14.070
Dan kemudian itu akan terus mengacaukan sudut kanan yang tajam ini hanya karena hanya karena ia tidak memiliki banyak kesempatan untuk belajar darinya dan oleh

11:14.070 --> 11:18.070
karena itu ia akan mempelajari segala sesuatu dengan sangat cepat tetapi akan memakan waktu

11:18.070 --> 11:20.180
lama untuk mempelajari yang benar tentu saja

11:20.180 --> 11:26.010
Ini adalah contoh yang sangat sederhana adalah penjelasan yang sangat sederhana tetapi menggambarkan konsep

11:26.280 --> 11:30.140
bahwa kadang-kadang itu adalah pengalaman langka yang bisa berharga.

11:30.270 --> 11:35.880
Dan jika Anda hanya melakukan jaringan saraf sederhana di mana Anda meletakkan nilai-nilai Anda di sini dan

11:35.880 --> 11:40.950
Anda tahu mereka mengalami dan Anda tahu seperti bahkan jika Anda lupa tentang masalah sifat

11:40.950 --> 11:45.690
pengalaman berurutan dan bagaimana mereka bisa Thimphu yang interdependen dan semuanya berkorelasi bahkan

11:45.680 --> 11:46.640
melupakannya sejenak.

11:46.800 --> 11:52.110
Yang terjadi adalah begitu Anda memasukkan pengalaman di dalamnya melalui jaringan data maka Anda langsung lupa tetapi

11:52.120 --> 11:53.370
lupakan tentang pengalaman itu.

11:53.370 --> 11:54.380
Anda beralih ke yang berikutnya.

11:54.420 --> 11:56.180
Begitulah cara kerja jaringan saraf.

11:56.220 --> 11:59.710
Kemudian Anda pindah ke keadaan berikutnya langkah berikutnya langkah berikutnya pengalaman berikutnya pengalaman

11:59.780 --> 12:01.170
X pengalaman itu dan seterusnya.

12:01.170 --> 12:06.180
Jadi sudut kanan ini segera setelah melewati jaringan hilang dan Anda tidak memiliki memori pengalaman

12:06.510 --> 12:07.450
berharga itu.

12:07.560 --> 12:14.220
Sedangkan kami telah mengalami replay karena Anda memasukkan pengalaman ini ke dalam batch Anda dapat mengatur bash

12:14.220 --> 12:19.920
Anda sebagai jendela bergulir jadi misalnya Anda bisa memiliki seperti 100 batch Jadi

12:19.920 --> 12:25.920
ratusan pengalaman di batch Anda sehingga ketika kembali dari sini segera ini telah mencatat pengalaman

12:25.920 --> 12:27.380
ini dalam kelompoknya.

12:27.390 --> 12:34.260
Kemudian seperti pada titik tertentu menjalankannya membutuhkan distribusi seragam dari kumpulan pengalamannya dan kemudian ada jendela bergulir sehingga ia

12:34.260 --> 12:37.980
melupakan pengalaman-pengalaman ini tetapi kemudian ia menyimpan pengalaman-pengalaman ini.

12:37.980 --> 12:44.160
Dan sekali lagi itu belajar dari sekali itu di sini ia belajar dari kumpulan ini dan kemudian setelah itu di sini ia

12:44.280 --> 12:45.410
lupa sampai di sini.

12:45.420 --> 12:50.550
Tetapi kemudian ia memiliki banyak pengalaman seperti itu sehingga karenanya tidak belajar dari pengalaman-pengalaman ini.

12:50.730 --> 12:58.380
Dan dengan cara itu yang Anda dapatkan adalah bahwa sudut kanan ini mungkin muncul beberapa kali dalam proses belajarnya karena

12:58.380 --> 13:03.480
berada di kelompok ketika kelompok itu seperti ini di sekitar sana daripada di

13:03.480 --> 13:08.760
kelompok di sini, di sini sehingga muncul dalam beberapa kelompok karena abash mungkin

13:08.790 --> 13:11.430
diperbarui sebagai jendela pengalaman yang bergulir.

13:11.430 --> 13:15.630
Jadi pengalaman yang lebih lama dikeluarkan dari pengalaman yang baru ditambahkan dan kemudian pengalaman yang lebih

13:15.630 --> 13:16.290
lama mendapatkannya.

13:16.440 --> 13:23.040
Jadi dan mengalaminya tetap dalam batch untuk beberapa waktu dan mobil atau agen dapat belajar dari pengalaman itu

13:23.040 --> 13:24.100
beberapa kali.

13:24.210 --> 13:27.430
Jadi itulah keuntungan lain dari replay pengalaman.

13:27.570 --> 13:33.480
Dan tentu saja keuntungan akhir adalah replay pengalaman memberi Anda kesempatan untuk belajar dari lebih banyak

13:34.220 --> 13:39.290
pengalaman daripada jika Anda hanya belajar satu per satu karena Anda memiliki batch itu

13:39.300 --> 13:46.710
dan karenanya Dan itu adalah jendela bergulir dan karenanya bahkan jika lingkungan Anda terbatas untuk mengalami pendekatan replay pengalaman Anda

13:46.710 --> 13:49.260
dapat membantu Anda belajar lebih cepat.

13:49.410 --> 13:55.230
Dan alih-alih hanya mengulang, ada banyak banyak kali Anda dapat belajar dengan cepat karena Anda tidak perlu

13:55.230 --> 13:55.710
mengulanginya.

13:55.710 --> 13:57.440
Anda memiliki pengalaman-pengalaman itu diselamatkan.

13:57.810 --> 13:59.850
Jadi itulah keunggulan utama pengalaman.

13:59.910 --> 14:01.760
Mari kita simpulkan bahwa kita punya.

14:01.840 --> 14:09.280
Kami melanggar pola atas independensi dan korelasi pengalaman berurutan kami menyimpan pengalaman langka yang mungkin

14:09.280 --> 14:15.640
penting karena itu kami dapat belajar lebih sering dari mereka dan kami dapat

14:16.090 --> 14:21.260
belajar di lingkungan kami bisa belajar lingkungan Fosler yang berpengalaman.

14:21.520 --> 14:27.310
Kami memiliki kekurangan pengalaman yang tidak memiliki banyak pengalaman yang dilalui agen dan

14:27.310 --> 14:29.180
kami masih dapat mempelajarinya.

14:29.380 --> 14:32.470
Jadi itulah yang pengalaman ulangan semua tentang.

14:32.470 --> 14:34.530
Jika Anda ingin membaca lebih dari ini.

14:34.630 --> 14:41.290
Ada sebuah artikel menarik yang diterbitkan oleh deep mind pada tahun 2016 disebut replay experience

14:41.560 --> 14:44.380
yang diprioritaskan dan berbicara tentang mengapa.

14:44.410 --> 14:50.860
Mengapa kita menggunakan distribusi yang seragam untuk memilih pengalaman kita dari pengalaman Bachche mengapa kita tidak menemukan

14:50.860 --> 14:55.870
cara yang lebih baik untuk memilih pengalaman kita dan memprioritaskan beberapa pengalaman yang

14:55.870 --> 14:57.160
kita rasa penting.

14:57.220 --> 15:03.880
Ini hal yang cukup menarik meskipun dalam hal ini Anda tidak hanya dapat memperkuat

15:03.880 --> 15:11.800
atau tidak hanya memperkuat pengetahuan Anda tentang replay pengalaman tetapi Anda benar-benar akan dapat bergerak dengan teknologi

15:11.800 --> 15:12.660
terdepan.

15:12.660 --> 15:15.120
Jadi ini tahun 2016 dan diterbitkan oleh orang-orang yang berpikiran dalam.

15:15.120 --> 15:21.580
Ini adalah makalah yang sangat kuat baru-baru ini sehingga Anda akan dapat benar-benar menjelajahi batas atau menjelajahi lebih

15:21.580 --> 15:24.530
jauh algoritma ini dan membawanya ke tingkat berikutnya.

15:24.550 --> 15:31.270
Jadi saya akan menyerahkan kepada Anda untuk mencari tahu mengapa dan bagaimana kita dapat mengubah seragam menjadi pendekatan berbeda untuk mengalami

15:31.270 --> 15:33.810
ulangan dari makalah ini jika Anda mau.

15:33.940 --> 15:35.270
Dan saya harap Anda menikmati ini.

15:35.270 --> 15:41.020
Tauriel dan sekarang kami tahu apa sebenarnya pengalaman itu dan kami dapat dengan percaya diri menggunakannya di lingkaran praktis kami dan

15:41.440 --> 15:42.860
saya mencari Anda lain kali.

15:42.940 --> 15:44.550
Sampai kemudian menikmati AI.
