WEBVTT

00:00.450 --> 00:02.520
Halo dan selamat datang di tutorial ini.

00:02.520 --> 00:06.140
Baiklah sekarang kita memiliki AI kita siap untuk dilatih.

00:06.330 --> 00:09.660
Dan langkah pertama pelatihan adalah mengatur replay pengalaman kami.

00:09.900 --> 00:11.330
Jadi kita perlahan-lahan sampai di sana.

00:11.340 --> 00:16.690
Pelatihan dan kabar baiknya adalah bahwa kami memiliki versi replay pengalaman yang diimplementasikan.

00:16.830 --> 00:23.490
Selain itu disesuaikan dengan jejak kelayakan yang saya ingatkan adalah teknik yang alih-alih mempelajari nilai

00:23.490 --> 00:27.160
q setiap transisi mempelajarinya setiap 10 transisi.

00:27.210 --> 00:29.460
Jadi pada dasarnya itu persis sama seperti sebelumnya.

00:29.490 --> 00:35.190
Tetapi alih-alih memiliki satu target kata tunggal untuk setiap langkah kita akan memiliki target kumulatif sepuluh

00:35.190 --> 00:40.770
langkah dan hadiah kumulatif 10 langkah dan kita akan belajar pada 10 langkah setiap kali.

00:40.980 --> 00:44.960
Jadi kita belajar transisi 10 langkah daripada yang seperti sebelumnya.

00:45.180 --> 00:50.440
Dan dengan ini saya akan melakukan keajaiban dan itu akan membuat keajaiban bagi proses pelatihan.

00:50.440 --> 00:52.570
Anda tahu pelatihan akan memakan waktu lebih sedikit.

00:52.620 --> 00:58.850
Berkat teknik ini, tetapi kami harus menentukan replay yang tidak berpengalaman yang kami pelajari setiap 10 langkah.

00:58.980 --> 01:04.230
Jadi itu sebabnya replay pengalaman ini bukan implementasi klasik replay pengalaman.

01:04.320 --> 01:06.160
Seperti melakukan satu untuk mobil self-driving.

01:06.210 --> 01:12.540
Ini adalah implementasi replay pengalaman dengan mempertimbangkan 10 langkah pembelajaran ini dan oleh karena itu Anda akan

01:12.540 --> 01:19.110
menemukan dalam file replay pengalaman ini dua kelas satu kelas yang membuat kemajuan AI Anda melakukan sepuluh

01:19.110 --> 01:23.460
langkah sehingga dapat jumlah hadiah diamati pada 10 langkah ini.

01:23.460 --> 01:28.430
Itu kelas pertama dan kami membutuhkan kelas ini karena kami perlu memasukkan 10 langkah ini

01:28.430 --> 01:33.570
dalam kelas memori ulangan yang merupakan penerapan kelas untuk pengalaman yang kami mainkan dan itulah cara

01:33.630 --> 01:38.020
kami memastikan bahwa memori juga memperhitungkan fakta bahwa kami belajar 10 langkah.

01:38.040 --> 01:42.660
Jadi itu sebabnya Anda akan menemukan dua kelas dalam implementasi replay pengalaman ini

01:42.660 --> 01:49.070
tetapi itu hanya untuk memperhitungkan bahwa kita belajar dalam 10 langkah dan yang harus diperhitungkan juga ke dalam memori.

01:49.410 --> 01:51.940
Jadi berbicara tentang ingatan kita, mari kita ciptakan.

01:51.970 --> 02:00.150
Kita akan memanggil memori memori kita dan memori akan menjadi objek dari memori replay dan kelas memori

02:00.570 --> 02:04.900
replay adalah kelas dari pengalaman ini replay sekarang.

02:05.070 --> 02:14.430
Dan jadi saya mengambil pertama kali pengalaman replay ini dan di situlah saya mengambil kelas memori

02:15.180 --> 02:15.880
replay.

02:15.960 --> 02:16.840
Sempurna.

02:16.890 --> 02:23.460
Dan sekarang Anda dapat melihat kita harus meletakkan dua argumen, argumen pertama adalah dan langkah-langkah yang sesuai

02:23.640 --> 02:27.540
persis dengan jumlah langkah yang akan kita pelajari nilai-nilai kunci.

02:27.540 --> 02:32.090
Jadi, Anda tahu jumlah langkah di mana kami mengakumulasi target dan yang kami inginkan.

02:32.180 --> 02:37.290
Kita akan memiliki target kumulatif dan imbalan kumulatif dan kemudian argumen kedua adalah

02:37.290 --> 02:39.840
kapasitas yang merupakan ukuran memori.

02:39.840 --> 02:42.650
Jadi misalnya di sini kita bisa melihat sepuluh ribu.

02:42.810 --> 02:48.270
Jadi jika kapasitasnya sama dengan 10.000 itu berarti kita akan memiliki ukuran 10.000 dan

02:48.270 --> 02:54.210
karena itu itu berarti bahwa kita akan mendapatkan memori dari 10.000 langkah yang dilakukan oleh mata.

02:54.390 --> 02:57.390
Tetapi sekali lagi kita tidak akan belajar setiap transisi.

02:57.390 --> 03:02.690
Kita akan belajar setiap sepuluh langkah di sepanjang 10.000 langkah terakhir dari memori ini dan itulah

03:02.700 --> 03:06.100
fitur baru yang kami perkenalkan di sini dibandingkan sebelumnya.

03:06.180 --> 03:12.480
Sebelumnya kami hanya memiliki trik memori replay ini dan di sini kami memiliki trik memory replay plus trik ini saya telah

03:12.570 --> 03:16.920
belajar setiap sepuluh langkah dan kami akan belajar setiap sepuluh langkah dan kami akan

03:16.920 --> 03:20.000
melakukannya dalam memori yang terdiri dari 10.000 langkah terakhir.

03:20.190 --> 03:27.810
Dan replay yang berpengalaman ini dikombinasikan dengan sifat tidak memenuhi syarat dengan 10 langkah akan sangat

03:27.810 --> 03:29.240
meningkatkan kinerja pelatihan.

03:29.490 --> 03:31.130
Jadi mari kita akhiri dengan dua argumen ini.

03:31.200 --> 03:35.900
Yang pertama adalah dan langkah-langkah dan itu akan sama dengan.

03:36.030 --> 03:43.180
Tetapi untuk sekarang katakanlah dan langkah-langkah akan menentukan langkah apa yang benar setelah itu akan benar-benar menjadi hinaan dari

03:43.360 --> 03:49.130
kelas lain dari file replay pengalaman ini yang merupakan kelas progres langkah akhir dan yang

03:49.140 --> 03:52.170
memungkinkan untuk membuat kemajuan selama sepuluh langkah.

03:52.170 --> 03:57.990
Dan ingat selama 10 langkah kita akan membunyikan kata-kata pada sepuluh langkah untuk mendapatkan hadiah kumulatif

03:58.050 --> 03:59.550
lebih dari 10 langkah.

03:59.550 --> 04:02.250
Dan itu adalah tes kelayakan yang tepat.

04:02.250 --> 04:09.350
Jadi sekarang yang harus kita lakukan adalah membuat langkah-langkah ini di sini dan kita membuatnya dengan kelas kedua yang kita

04:09.360 --> 04:13.040
miliki dalam file replay pengalaman ini yang merupakan langkah kemajuan.

04:13.160 --> 04:24.430
Jadi sekarang kita akan membuat langkah ini dan ini akan menjadi objek dari kelas langkah kemajuan yang

04:24.430 --> 04:30.650
kita ambil lagi dari pengalaman yang kita mainkan.

04:30.940 --> 04:31.720
Itu dia.

04:31.840 --> 04:37.160
Jadi itu kelas anti-kemajuan dan sekarang kita harus meletakkan tiga argumen seperti yang Anda lihat kita

04:37.180 --> 04:41.010
harus meletakkan lingkungan yang merupakan lingkungan di sini yang kita impor.

04:41.230 --> 04:47.680
Maka argumen kedua adalah AI kami dan ini tentu saja AI yang kami bangun

04:47.830 --> 04:55.550
tepat di sini di U. S. dan argumen terakhir adalah langkah dalam hal ini di mana kami akan

04:55.570 --> 04:59.120
menentukan bahwa kami ingin 10 langkah yang Anda ketahui untuk belajar setiap 10 langkah yang setiap 10 transisi.

04:59.200 --> 05:01.140
Jadi mari kita bantu argumen ini.

05:01.180 --> 05:06.920
Yang pertama adalah lingkungan dan itu malapetaka dan baik-baik saja.

05:06.940 --> 05:11.700
Kemudian yang kedua adalah AI AI kami dan kami menghitung ai ai.

05:11.830 --> 05:12.720
Itu yang ada di sini.

05:12.760 --> 05:17.590
Jadi ini hanya nama argumen dari langkah progres kelas dan ai ai ini.

05:17.590 --> 05:19.730
Ini ai ai kita.

05:19.750 --> 05:27.150
Salah satu yang kami buat dan argumen terakhir adalah dan stack dan itu sama dengan 10.

05:27.160 --> 05:27.910
Baiklah.

05:27.910 --> 05:33.670
Jadi saat ini kami hanya mempertimbangkan dalam memori bahwa ada pembelajaran pada 10 langkah dan

05:33.670 --> 05:37.210
pembelajaran pada 10 langkah ini disebut jejak kelayakan.

05:37.240 --> 05:39.520
Jadi kami benar-benar mengerjakan hal-hal canggih di sini.

05:39.640 --> 05:44.160
Tapi ingat itu karena kami berusaha menjadi Dume yang tidak seperti membuat sepotong kue.

05:44.290 --> 05:47.650
Jadi kita membutuhkan teknik canggih ini untuk membuatnya bekerja.

05:47.660 --> 05:48.880
Jadi sekarang kita hampir siap.

05:48.880 --> 05:55.450
Sebelum melanjutkan ke langkah berikutnya yang akan benar-benar menerapkan nampan LGBT, satu-satunya hal yang harus

05:55.450 --> 06:03.730
kita sertakan adalah kapasitas tentu saja dan itu katakanlah 10.000 orang kita akan memiliki ukuran 10.000 yang berarti

06:03.730 --> 06:11.470
bahwa memori akan berisi yang terakhir 10000 langkah yang dilakukan oleh AI dan itu akan memungkinkan kita

06:11.500 --> 06:13.810
untuk menghasilkan banyak langkah.

06:13.930 --> 06:16.020
Seingat saya fungsi sederhana.

06:16.180 --> 06:22.840
Anda tahu memori berisi 10.000 transisi tetapi untuk melatih mata kita akan mencicipi begitu banyak kumpulan sepuluh transisi

06:22.840 --> 06:28.360
tidak satu dibandingkan dengan sebelum 10 transisi kali ini dan kami akan mencicipi batch

06:28.360 --> 06:33.490
mini dari 10 transisi ke dalam memori yang terdiri dari 10.000 langkah .

06:33.490 --> 06:38.770
Baiklah jadi sekarang saya kira kita siap untuk melanjutkan ke langkah selanjutnya yaitu tentang menerapkan

06:38.770 --> 06:39.490
jejak kelayakan.

06:39.520 --> 06:41.680
Jadi kita akan bertualang di sini.

06:41.680 --> 06:43.690
Ini bukan implementasi sederhana.

06:43.720 --> 06:47.830
Jadi, istirahatlah yang baik dan ketika Anda siap kami dapat menyerang ini.

06:47.920 --> 06:49.120
Dan kemudian nikmati.