WEBVTT

00:00.390 --> 00:02.710
Halo dan selamat datang di Intertoto rempah-rempah.

00:03.000 --> 00:07.800
Baiklah jadi di bagian kode baru ini kita akan mengimplementasikan pengalaman dengan bermain.

00:07.920 --> 00:13.850
Jadi kita akan membuat kelas baru yang akan kita sebut memori ulangan dan itu akan menerapkan pengalaman bermain

00:13.850 --> 00:16.700
persis seperti yang Anda lihat di kuliah intuisi.

00:16.890 --> 00:21.540
Tapi pertama-tama mari kita ingatkan apa itu replay pengalaman.

00:21.540 --> 00:27.750
Jadi, Anda tahu semua kecerdasan buatan ini didasarkan pada proses keputusan Markov dan

00:27.750 --> 00:31.840
proses keputusan Markov terdiri dari melihat serangkaian peristiwa.

00:32.010 --> 00:38.770
Jadi acara yang Anda tahu misalnya pergi dari satu negara ke negara berikutnya dan tipis satu.

00:39.060 --> 00:44.410
Tetapi jika kejadian seperti itu baik sejak hari berikutnya itu sangat berkorelasi dengan keadaan saat ini.

00:44.550 --> 00:46.820
Yah, jaringannya tidak akan berjalan dengan baik.

00:46.980 --> 00:52.710
Jadi bagi mereka yang datang dari kursus pembelajaran mendalam itu persis sama dengan tempat kami mempelajari seri waktu

00:52.710 --> 00:54.860
kami hanya dengan satu catatan waktu.

00:55.020 --> 01:00.300
Itu tidak belajar apa-apa karena satu catatan waktu tidak cukup memadai untuk model

01:00.300 --> 01:03.070
untuk belajar memahami korelasi jangka panjang.

01:03.090 --> 01:07.060
Jadi itu sama di sini dan itu sebabnya kami harus menerapkan replay pengalaman.

01:07.230 --> 01:08.230
Jadi bagaimana cara kerjanya.

01:08.340 --> 01:13.960
Nah itu sangat sederhana alih-alih hanya mempertimbangkan keadaan saat ini yang hanya satu keadaan waktu

01:13.960 --> 01:14.640
t.

01:14.680 --> 01:16.830
Kami akan mempertimbangkan lebih banyak di masa lalu.

01:16.830 --> 01:22.560
Jadi persis seperti untuk lithium dan karena itu rangkaian acara kami tidak akan seperti.

01:22.560 --> 01:27.450
Dan saya kira satu ini akan menjadi contoh seratus negara di masa lalu.

01:27.450 --> 01:33.770
Jadi sebagai T-minus seratus delapan puluh minus 99 hingga minus 1 dan kemudian S-T.

01:34.020 --> 01:40.830
Jadi dengan kata lain kita menempatkan 100 transisi lebih sedikit ke dalam apa yang kita sebut memori dan itulah mengapa kita

01:40.830 --> 01:47.040
memiliki memori jangka panjang sebagai lawan dari memori jangka pendek atau bahkan haruskah aku mengatakan memori instan dan

01:47.040 --> 01:49.950
itu membuat seluruh proses bekerja jauh lebih baik.

01:50.310 --> 01:57.690
Dan kemudian setelah kita membuat memori ini dari 100 peristiwa terakhir kita akan sederhana bahwa itu akan mengambil

01:57.690 --> 02:02.300
beberapa batch acak dari transisi ini untuk membuat pembaruan selanjutnya.

02:02.310 --> 02:09.270
Itu adalah langkah kami selanjutnya dengan memilih bagian berikutnya dan oleh karena itu di kelas memori replay yang

02:09.270 --> 02:13.450
kami laksanakan untuk replay pengalaman kami akan membuat tiga fungsi.

02:13.530 --> 02:17.490
Pertama-tama fungsi seperti biasa itu terjadi untuk kelas mana pun.

02:17.520 --> 02:23.400
Jadi dalam fungsi ini kita akan mendefinisikan variabel yang akan dilampirkan ke instance kelas masa depan yang

02:23.400 --> 02:27.210
merupakan objek masa depan yang akan dibuat dari kelas ini.

02:27.540 --> 02:32.790
Dan sangat sederhana variabel-variabel ini akan menjadi memori dari 100 transisi ke 100 peristiwa.

02:32.970 --> 02:38.790
Dan kapasitas yang merupakan angka 100 Anda akan dipersilakan untuk mencoba memori yang lebih lama dengan

02:38.790 --> 02:39.550
meningkatkan kapasitas.

02:39.780 --> 02:46.170
Jadi itulah fungsi pertama di dalamnya dan kemudian kita akan membuat dua fungsi lainnya, satu fungsi push

02:46.500 --> 02:51.050
untuk memastikan bahwa memori tidak pernah berisi lebih dari 100 transisi.

02:51.180 --> 02:57.150
Dan untuk ini kita akan menggunakan kapasitas dengan hanya melakukan satu kondisi sederhana dan kemudian pada akhirnya

02:57.360 --> 03:03.300
kita akan membuat fungsi sederhana dan tentu saja untuk mengambil sampel beberapa transisi dalam memori ini

03:03.390 --> 03:05.060
dari 100 transisi terakhir.

03:05.520 --> 03:08.440
Baiklah jadi mari kita mulai dengan memperkenalkan kelas.

03:08.520 --> 03:17.460
Jadi seperti yang Anda tahu kita mulai dengan kelas dan kemudian kita memberi mereka ke kelas kita menyebutnya memori replay dan

03:17.460 --> 03:25.500
kemudian dalam kurung kita masukkan objek kemudian Cullin dan kemudian kita mulai, kita mulai dengan fungsi pertama.

03:25.560 --> 03:26.860
Akhirnya adalah fungsi.

03:27.150 --> 03:30.730
Jadi itu persis sama dengan sebelum kita mulai dengan kematian.

03:30.870 --> 03:36.750
Kemudian dua garis bawah di dalamnya dua garis bawah lagi dan kemudian variabel.

03:36.750 --> 03:42.750
Jadi tentu saja ada diri yang merupakan variabel yang melekat pada instance masa depan dari

03:42.750 --> 03:48.810
objek masa depan dan kemudian kita akan memiliki variabel lain agar Anda dapat mencoba beberapa

03:48.810 --> 03:52.950
pengalaman lain dengan beberapa kenangan dan itu akan menjadi kapasitas.

03:52.950 --> 03:58.020
Jadi kapasitas ini hanya akan menjadi nomor seratus karena kita akan membuat pengalaman

03:58.020 --> 04:00.960
bermain dengan seratus transisi lebih sedikit.

04:00.960 --> 04:03.910
Baiklah dan kemudian Collon. Dan ini dia.

04:03.930 --> 04:10.430
Mari kita masuk ke dalam fungsi dan mari kita mendefinisikan variabel objek memori replay kami.

04:10.440 --> 04:19.400
Jadi yang pertama adalah kemampuan belajar sendiri dan seperti yang mungkin Anda pahami, ini akan menjadi kapasitas yang merupakan jumlah maksimum

04:19.670 --> 04:24.690
transisi yang ingin kita miliki dalam ingatan kita tentang berbagai peristiwa.

04:24.830 --> 04:30.980
Dan ini akan sama dengan argumen yang akan diinput ketika membuat objek dari kelas

04:31.000 --> 04:34.530
memori replay dan oleh karena itu kapasitas.

04:34.550 --> 04:36.480
Itulah argumen dari fungsi init.

04:36.660 --> 04:38.180
Jadi kapasitas.

04:38.180 --> 04:44.960
Jadi sekali lagi jangan bingung sendiri bahwa kapasitas adalah nama dari variabel yang melekat pada

04:45.470 --> 04:52.670
objek dan kapasitas di sini adalah argumen yang akan diinput saat membuat objek dari kelas memori replay.

04:52.810 --> 04:53.620
Baiklah.

04:53.830 --> 04:55.880
Dan kemudian kita memiliki voivode kedua.

04:56.170 --> 04:57.890
Itu tentu saja memori.

04:58.000 --> 05:01.620
Demikianlah yang diajarkan Nemec pada dirinya sendiri.

05:01.760 --> 05:02.650
Baiklah.

05:02.800 --> 05:05.730
Dan untuk apa Voivode memori ini berada.

05:05.990 --> 05:13.950
Nah memori ini seharusnya berisi 100 peristiwa terakhir dan karenanya ini harus menjadi tes sederhana.

05:14.100 --> 05:20.300
Anda tahu daftar yang akan berisi 100 peristiwa terakhir 100 transisi terakhir dan untuk menginisialisasi

05:20.300 --> 05:20.850
daftar.

05:20.870 --> 05:24.620
Tidak ada yang lebih sederhana, kami hanya menambahkan beberapa tanda kurung seperti itu.

05:24.740 --> 05:26.040
Dan di sini kita mulai.

05:26.060 --> 05:31.490
Memori kita diinisialisasi jadi tentu saja pada awal percobaan atau lebih tepatnya awal eksplorasi

05:31.490 --> 05:36.430
memori akan menjadi daftar kosong dan kemudian kita akan meletakkan transisi.

05:36.500 --> 05:38.350
Setiap kali kita mencapai kondisi masa depan.

05:38.600 --> 05:43.370
Dan berbicara tentang hal itulah yang akan kita lakukan dengan fungsi selanjutnya yang akan kita

05:43.520 --> 05:44.720
panggil fungsi push.

05:44.790 --> 05:51.380
Kami akan membuat fungsi push ini untuk menanam acara di daftar memori ini dan kemudian kami akan menggunakan

05:51.620 --> 05:57.170
kapasitas untuk memastikan bahwa daftar memori ini selalu berisi 100 peristiwa dan tidak pernah lagi.

05:57.500 --> 05:59.660
Baiklah jadi mari kita lakukan ini di berikutnya juga.

05:59.690 --> 06:01.250
Dan sampai saat itu aku.
