WEBVTT

00:00.300 --> 00:02.000
Halo dan selamat datang di tutorial ini.

00:02.160 --> 00:05.090
Selamat lagi karena sudah selesai dengan itu.

00:05.150 --> 00:08.200
Lihat kami membuatnya, kami membuat otak dan melatih mereka.

00:08.400 --> 00:15.600
Tapi sekarang kita masih harus membuat agen uji yang tidak akan berkencan besok sama sekali tetapi hanya

00:15.780 --> 00:19.430
akan menggunakan model saham untuk melakukan eksplorasi sendiri.

00:19.530 --> 00:26.080
Dan tentu saja dalam kode ini kami akan merekam beberapa video dan ini akan menjadi agen pengujian

00:26.090 --> 00:28.750
video yang keluar dengan skor tertentu.

00:28.810 --> 00:30.840
Jadi mari kita membaca kode ini.

00:30.850 --> 00:35.860
Yang paling penting adalah melakukannya seperti yang saya katakan kepada Anda bahwa kami tidak akan membuat kode baris demi baris, tetapi saya

00:35.860 --> 00:38.580
pikir penting bagi Anda untuk memahami apa yang terjadi di sini.

00:38.800 --> 00:42.680
Jadi kita mulai dengan kode ini di bagian pertama seperti yang Anda perhatikan.

00:42.790 --> 00:49.480
Kami mengimpor perpustakaan dan kemudian kami menemukan fungsi pengujian ini yang akan membuat agen pengujian ini untuk

00:49.480 --> 00:52.390
melakukan eksplorasi sendiri dan memainkan permainan pelarian.

00:52.600 --> 00:58.610
Jadi kita mendapatkan fungsi tes ini membutuhkan tiga argumen yang pertama adalah peringkat yang masih melakukan sinkronisasi

00:58.850 --> 01:02.060
agen uji seperti yang kami lakukan untuk agen pelatihan.

01:02.230 --> 01:05.380
Maka kami memiliki parameter kami tentu saja karena Anda memerlukan beberapa.

01:05.380 --> 01:12.220
Dan tentu saja kami memiliki model bersama karena agen uji ini akan menggunakan model bersama untuk melakukan

01:12.220 --> 01:13.360
eksplorasi sendiri.

01:13.360 --> 01:18.790
Baiklah kita masuk ke dalam fungsi dan baris kode ini kita sinkronkan ke agen uji.

01:18.820 --> 01:23.120
Persis seperti yang kami lakukan sebelumnya maka kami mengimpor lingkungan.

01:23.170 --> 01:27.070
Jadi saya ingatkan pada kode utama yang akan ada di tutorial selanjutnya.

01:27.250 --> 01:33.970
Nah dan nama di sini akan diganti dengan angka nol sehingga kita bisa masuk ke lingkungan angka

01:34.060 --> 01:40.180
nol dan bermain game dan Palang Merah Palang yang akan mendapatkan video malam kami keluar.

01:40.180 --> 01:46.680
Jadi pada dasarnya baris kode ini secara total berarti kita menjalankan satu lingkungan dengan video.

01:47.080 --> 01:54.520
Kemudian pada baris kode berikutnya kita mensinkronkan lingkungan ini sehingga prinsipnya sama persis dengan fungsi Trend.

01:54.700 --> 02:02.170
Kemudian kami mendapatkan model kami dan untuk melakukan ini kami membuat objek kelas aktivitas dan kami

02:02.170 --> 02:08.920
menempatkan bentuk input dengan ruang pengamatan lingkungan kami dan bentuk nol persis seperti fungsi kereta

02:09.190 --> 02:13.690
dan output kami yang merupakan tindakan dengan ruang tindakan.

02:13.900 --> 02:19.770
Jadi persis seperti sebelumnya sesuatu yang baru di sini sejak kita selesai dengan pelatihan.

02:19.870 --> 02:25.450
Kami tidak ingin menempatkan model dalam mode kereta karena kami tidak ingin itu melatih kami ingin

02:25.450 --> 02:26.880
menempatkannya dalam pengembangan.

02:27.160 --> 02:29.740
Dan itulah yang kami lakukan di sini dengan model yang berkembang.

02:29.890 --> 02:36.940
Jadi itu hanya pada dasarnya untuk menempatkan agen tes dalam mode yang pada dasarnya akan mengujinya dievaluasi

02:37.030 --> 02:38.350
kinerja yang diuji.

02:38.720 --> 02:45.680
Kemudian di sini kita mendapatkan status input kita yang merupakan gambar input dari permainan yang pada saat ini adalah

02:45.680 --> 02:46.790
seluruh ras.

02:46.840 --> 02:49.360
Lalu kami mengubahnya menjadi penari obor.

02:49.480 --> 02:52.810
Di sini kita menginisialisasi beberapa kata di sini.

02:52.840 --> 02:54.980
Kami menginisialisasi ke true.

02:55.200 --> 03:03.430
Jadi tetap saja seperti terakhir kali lalu sesuatu yang baru lagi kami perkenalkan ketiga ini layak dengan fungsi waktu

03:03.850 --> 03:05.990
untuk mengukur waktu perhitungan.

03:06.190 --> 03:08.680
Dan itu karena Anda ingin mendapatkan titik awal.

03:08.890 --> 03:15.160
Kemudian di sini tindakan kita menggunakan jenis isyarat yang sangat praktis yang memungkinkan untuk menambahkan elemen ke isyarat dari

03:15.160 --> 03:16.550
kanan atau dari kiri.

03:16.600 --> 03:21.960
Jadi itu sangat praktis dan saya akan memberikan referensi yang saya pikir dalam versi kode yang dikurangi.

03:22.180 --> 03:27.320
Jadi, Anda akan melihat apa ini dequeue dan itulah yang memungkinkan untuk melakukan itu.

03:27.490 --> 03:33.370
Kemudian kita menginisialisasi panjang episode dengan nol tentu saja dan kemudian kita akan menambah ukuran dalam

03:33.400 --> 03:34.690
loop sumur ini.

03:34.870 --> 03:36.480
Jadi kami menggunakan trik yang sama di sini.

03:36.680 --> 03:42.290
Sementara true dan dalam loop kami menambah panjang episode satu per satu.

03:42.490 --> 03:49.700
Ketika permainan selesai ketika permainan selesai kami memuat ulang set terakhir dari model bersama model berbagi bahwa

03:49.730 --> 03:51.460
tanggal oleh model lain.

03:51.460 --> 03:55.610
Ingat bahwa di sini model yang dibagikan tidak lagi bertanggal saat itu.

03:55.660 --> 04:04.030
Masih jika permainan selesai jika permainan selesai kita Reinette kita menginisialisasi ulang keadaan sel melihat X dan

04:04.190 --> 04:13.840
kemudian menyatakan H x dan jika permainan tidak berakhir dengan baik kita mempertahankan negara sel yang sama dan di negara.

04:13.840 --> 04:18.030
Tetapi untuk memastikan mereka diajarkan variabel sehingga mereka dapat dilampirkan ke gradien.

04:18.170 --> 04:25.240
OK jadi itu adalah sesuatu yang kita sudah mati dalam fungsi tren dan kemudian masih dalam loop sementara dan setelah memiliki

04:25.240 --> 04:30.870
data yang menyatakan dalam status tersembunyi dengan cara yang benar tergantung pada dua kasus di sini.

04:31.060 --> 04:34.360
Nah apa yang kita lakukan kita dapatkan prediksi besok.

04:34.450 --> 04:37.380
Itulah tepatnya yang kami lakukan di sini dengan baris kode ini.

04:37.750 --> 04:43.360
Jadi kita mendapatkan nilai yang merupakan output dari kritik nilai aktual yang merupakan output dari aktor.

04:43.600 --> 04:49.750
Dan kemudian terserah semua status tersembunyi Hx dan sel menyatakan X maka kita menghasilkan distribusi probabilitas

04:49.750 --> 04:54.130
dari tindakan yang ada pada nilai aksi nilai Q di sini.

04:54.270 --> 04:56.380
Dan kami melakukan ini dengan fungsi berikutnya.

04:56.470 --> 05:01.230
Dan tentu saja kita tidak perlu mendapatkan probabilitas keberuntungan di sini karena ini hanya untuk pelatihan

05:01.480 --> 05:02.650
bagi agen pengujian.

05:02.650 --> 05:09.130
Itu hanya akan memainkan tindakan kami hanya akan menggunakannya Anda tahu seperti malapetaka aktivitas tertentu untuk memainkannya tapi kami

05:09.190 --> 05:10.920
tidak melakukan pelatihan di sini.

05:10.960 --> 05:19.040
Jadi kami hanya memiliki alat peraga dan dari sini kami memainkan tindakan dengan mengambil langsung ke RMX dari probabilitas

05:19.040 --> 05:22.720
ini yaitu mengambil tindakan yang memiliki probabilitas tertinggi.

05:22.810 --> 05:26.860
Dan alasannya adalah bahwa agen tes tidak melakukan eksplorasi apa pun.

05:26.860 --> 05:32.830
Ingat bahwa kami ingin memiliki kesempatan untuk mengambil beberapa tindakan yang memiliki probabilitas rendah ketika Anda

05:32.830 --> 05:38.170
ingin melakukan beberapa eksplorasi dari tindakan lain ini dan Anda tahu tidak mengambil setiap kali

05:38.170 --> 05:44.260
tindakan yang memiliki probabilitas tertinggi tetapi di sini agen pengujian dapat melakukan eksplorasi dan oleh karena itu

05:44.260 --> 05:50.800
karena itu kita langsung mengambil tindakan yang memiliki probabilitas maksimum lagi maka setelah kita memainkan tindakan kita mencapai keadaan

05:50.800 --> 05:53.340
berikutnya dan kita mendapatkan kata berikutnya.

05:53.470 --> 05:56.920
Dan itu adalah hari yang bertanggal apakah game berakhir atau tidak.

05:57.160 --> 06:03.700
Jadi ini kita dapatkan semua ini dengan baris kode ini dengan memainkan aksinya setelah memilihnya dengan Max kami

06:03.790 --> 06:04.630
di sini.

06:04.840 --> 06:13.000
Jadi kita memainkan aksinya di sini dan kita mendapatkan status kita mendapatkan hadiah dan melakukannya lagi dan kemudian karena kita baru

06:13.090 --> 06:18.950
saja mendapat hadiah baru Kita akan memperbarui beberapa hadiah dengan hanya menambahkan kata baru ini.

06:19.180 --> 06:21.480
Dan akhirnya setiap kali permainan dilakukan.

06:21.490 --> 06:28.510
Jadi jika itu berarti ketika permainan selesai ketika saya selesai memainkan permainan dengan baik kita akan

06:28.510 --> 06:31.210
mencetak hasilnya dengan waktu yang berlawanan.

06:31.230 --> 06:36.100
Kami ingin panjang episode itu adalah berapa lama waktu itu berlangsung.

06:36.100 --> 06:42.890
Bermain dengan hebat dan ini adalah cara kami mencetak semua variabel ini menggunakan trik kecil ini.

06:42.910 --> 06:46.280
Itu untuk saat itu maka kami ingin beberapa itu hanya variabel.

06:46.340 --> 06:51.960
Beberapa kata dan ide panjang lebar adalah panjang dari masa kini.

06:52.160 --> 06:57.860
Dan kemudian setelah kami mencetak semua hasil dengan baik sejak permainan berakhir dan kami ingin memulai permainan baru

06:58.220 --> 06:59.930
kami akan menginisialisasi ulang semuanya.

06:59.930 --> 07:04.170
Itu adalah jumlah dari dua kata nol panjang episode ke nol.

07:04.230 --> 07:10.100
Kami akan memerankan kembali semua tindakan dengan menggunakan fungsi tombol ini mengatur ulang gambar input yang

07:10.100 --> 07:13.360
Anda ketahui dengan mengulangi semua jeda sama sekali.

07:13.610 --> 07:21.980
Dan akhirnya kami menggunakan waktu ini yang tidur 60 detik untuk melakukan istirahat satu menit untuk membiarkan agen lain

07:21.980 --> 07:22.840
berlatih.

07:22.850 --> 07:24.810
Dan itu jika permainan berakhir.

07:25.210 --> 07:25.840
BAIK.

07:25.940 --> 07:32.210
Dan akhirnya kita memiliki baris kode terakhir ini yang akan memberi kita status baru dan kemudian kita dapat bergerak maju.

07:32.240 --> 07:34.550
Kami bisa melanjutkan dalam game baru ini.

07:34.550 --> 07:35.840
Jadi begitulah.

07:35.870 --> 07:37.430
Itu fungsi tes.

07:37.430 --> 07:40.550
Hal-hal yang akan Anda lihat videonya dalam satu atau dua tutorial.

07:40.550 --> 07:45.310
Saya harap Anda akan sama sekali seperti terakhir kali untuk melihat hasil yang ada bersama Anda.

07:45.350 --> 07:47.360
Curial dan saya itu akan menyenangkan.

07:47.480 --> 07:48.400
Dan aku memberitahumu.

07:48.440 --> 07:50.330
Berharap untuk melihat hasil yang bagus.

07:50.360 --> 07:55.130
Namun perlu diingat bahwa permainan breakout ini sangat menantang.

07:55.130 --> 07:58.430
Kami pikir itu adalah permainan sederhana untuk dimainkan pertama tetapi tidak sama sekali.

07:58.430 --> 08:01.480
Sebenarnya itu ternyata jauh lebih sulit daripada malapetaka.

08:01.670 --> 08:03.890
Dan itu sebabnya kami taruh di modul terakhir.

08:04.190 --> 08:09.510
Tapi bagaimanapun, mari kita buat fungsi utama ini di tutorial selanjutnya.

08:09.590 --> 08:11.770
Sama Ini bukan yang paling penting di sini.

08:11.780 --> 08:18.860
Sekarang setelah A-380 rusak, kami tidak akan mengkodekannya baris demi baris, akan memperluas kode dan dengan sangat cepat

08:18.980 --> 08:20.570
kami akan mendapatkan hasilnya.

08:20.570 --> 08:22.130
Sampai kemudian menikmati AI.
