WEBVTT

00:00.330 --> 00:02.170
Halo dan selamat datang di Statoil.

00:02.400 --> 00:06.270
OK jadi kami baru menghitung entropi dan menambahkannya ke daftar entropi.

00:06.270 --> 00:11.640
Dan sekarang yang akan kita lakukan adalah mengambil setetes tindakan secara acak berdasarkan

00:11.700 --> 00:13.190
distribusi probabilitas berikutnya.

00:13.200 --> 00:14.540
Jadi mari kita lakukan ini.

00:14.540 --> 00:15.780
Itu langkah selanjutnya.

00:15.870 --> 00:19.910
Kami masih dalam lingkaran karena kami masih berjalan pada langkah-langkah di sini.

00:20.160 --> 00:22.550
Dan sekarang Anda tahu cara memainkan aksinya.

00:22.590 --> 00:28.740
Kami pertama-tama akan memperkenalkan variabel untuk tindakan yang disebut tindakan dan kemudian kami

00:28.740 --> 00:37.350
mengambil distribusi probabilitas kami dan kami akan menggunakan multi-fungsi saraf untuk mengambil undian acak dari distribusi probabilitas

00:37.350 --> 00:41.390
ini dan kemudian kami menambahkan data itu.

00:41.500 --> 00:48.550
Jadi penting untuk dicatat bahwa tindakan sebenarnya akan menjadi tensor dengan hanya satu nilai tetapi Anda tidak harus

00:48.550 --> 00:51.010
melihat ini sebagai nilai sederhana.

00:51.010 --> 00:57.050
Anda harus melihat ini sebagai kutukan tensor satu per satu yang berisi nilai ini untuk tindakan.

00:57.190 --> 01:02.970
Dan itu karena itu tidak diperas masih sama untuk loop.

01:02.970 --> 01:09.880
Kami akan mendapatkan probabilitas log yang terkait dengan tindakan yang baru saja diputar.

01:10.170 --> 01:16.750
Jadi ketika saya berpacaran dengan probabilitas keberuntungan saya di sini dengan mengambil yang sebelumnya, keberuntungan sebelumnya

01:16.810 --> 01:25.480
dari yang kami hitung di sini dan kemudian saya akan menggunakan metode lain yang akan saya masukkan 1 dan tindakan yang baru

01:25.480 --> 01:31.510
saja dilakukan bermain karena kami ingin mendapatkan probabilitas keberuntungan yang terkait dengan tindakan ini.

01:31.510 --> 01:38.230
Jadi argumen kedua di sini saya akan melakukan tindakan saya tetapi harus ada siksaan yang mengerikan seperti yang

01:38.860 --> 01:44.530
disyaratkan oleh fungsi yang dikumpulkan dan fungsi yang dikumpulkan hanya indeks dengan bilangan bulat tensor.

01:44.530 --> 01:48.910
Baiklah jadi sekarang kita baru saja mendapatkan tampilan terkait dengan tindakan yang ditampilkan.

01:49.030 --> 01:53.790
Dan sekarang langkah selanjutnya adalah menambahkan apa yang kita dapatkan ke daftar di sini.

01:53.800 --> 01:55.570
Jadi kami mendapat nilainya.

01:55.750 --> 01:58.820
Itulah yang kami dapatkan di sini sebagai output dari model.

01:58.840 --> 02:00.880
Lalu kami juga mendapat masalah kunci.

02:00.910 --> 02:04.030
Jadi kita akan menambahkan kunci ke daftar alat peraga kunci.

02:04.180 --> 02:09.610
Kami sudah menambahkan entropi ke entropi itu kurang bagus dan hasilnya akan didapat setelah itu.

02:09.700 --> 02:15.250
Jadi sekarang kita akan membuka nilai dan melihat daftar nilai dan proses hukum.

02:15.520 --> 02:16.180
Mari kita lakukan.

02:16.180 --> 02:23.800
Kami mengambil daftar nilai kami, kami menambahkan bahwa kami menggunakan fungsi pengeluaran dan kami menambahkan nilai

02:23.920 --> 02:32.700
yang dikembalikan oleh model sempurna kemudian Sama untuk prob kunci Kami baru saja mendapatkan alat peraga baru dan kami

02:32.710 --> 02:36.080
akan menambahkannya ke daftar alat peraga kunci.

02:36.180 --> 02:43.960
Jadi dalam fungsi append ini kita bisa meletakkan log dari keberuntungan kita mungkin itu baru dihitung di sini.

02:43.960 --> 02:47.320
Baiklah jadi daftar kami sekarang diperbarui dengan baik.

02:47.350 --> 02:53.060
Sekarang yang akan kita lakukan adalah memainkan aksinya karena sebenarnya di sini kita memilih aksinya

02:53.060 --> 02:56.570
dengan mengambil undian acak dari distribusi probabilitas di sini.

02:56.650 --> 03:03.040
Tapi kami sebenarnya belum memainkannya dan kami akan memainkannya sekarang sehingga kami dapat mencapai negara baru

03:03.220 --> 03:06.150
dan karenanya mendapatkan transisi baru dan memainkannya.

03:06.170 --> 03:10.960
Kita akan mengambil lingkungan kita karena kita memainkan aksi di lingkungan kita maka

03:10.960 --> 03:12.990
kita akan menggunakan metode langkah.

03:13.210 --> 03:20.650
Dan di dalam kita menentukan tindakan yang dipilih untuk memainkannya dan untuk melakukan ini kita mengambil tindakan kita dan kita

03:20.650 --> 03:25.280
menambahkan bahwa tidak ada oleh karena itu yang diharapkan itu adalah fungsi.

03:25.750 --> 03:35.820
Ok tapi ini mengembalikan negara baru dan juga hadiah baru karena dengan mencapai negara baru kita mendapatkan hadiah baru dan

03:36.000 --> 03:43.500
juga kita mendapatkan nilai baru untuk Dunn untuk mengetahui apakah permainan dilakukan atau tidak

03:43.500 --> 03:49.180
Baiklah jadi dengan ini kita memainkan aksi kita mencapai keadaan baru dan kita mendapatkan hadiah dan kita tahu jika kita

03:49.200 --> 03:50.510
sudah selesai dengan permainan.

03:50.520 --> 03:52.740
Dan berbicara tentang selesai dengan permainan.

03:52.990 --> 03:58.590
Kami hanya akan menambahkan sesuatu di sini yang akan memastikan bahwa agen tidak ditumpuk dalam beberapa

03:58.590 --> 03:59.180
kondisi.

03:59.280 --> 04:04.240
Dan untuk melakukan itu kita akan memperbarui yang dilakukan dengan sangat baik dengan cara berikut.

04:04.860 --> 04:11.910
Yah itu akan sama dengan dilakukan atau kita akan menambahkan kondisi yang mengatakan bahwa episode permainan

04:11.910 --> 04:19.200
tidak boleh bertahan terlalu lama dan kita akan melihat di fungsi utama bahwa akan ada parameter panjang

04:19.200 --> 04:21.960
maks yang akan sama ke 10000.

04:22.170 --> 04:25.750
Dan kami tidak ingin episode berlangsung lebih dari 10.000 unit.

04:25.860 --> 04:34.200
Jadi kita akan mendengar panjang episode yang merupakan panjang dari sebuah episode dan kita akan menulis

04:34.830 --> 04:43.250
suatu kondisi yang lebih besar dari max episode Lex yang kita belum benar-benar mengatakan ini secara panjang lebar.

04:43.250 --> 04:49.210
Kami mendapatkannya dari parameter kami untuk mengakhiri di sini Paramjit tetapi Ramstad.

04:49.210 --> 04:50.600
Max panjang lebar.

04:50.600 --> 04:59.330
Jadi ini berarti bahwa jika permainan dilakukan atau panjang episode lebih besar dari panjang maksimum set episode

04:59.330 --> 05:02.110
yang akan sama dengan 10.000.

05:02.270 --> 05:05.410
Nah permainan akan dilakukan dan kami akan memulai permainan baru.

05:05.960 --> 05:08.040
OK jadi itu hanya pencegahan.

05:08.180 --> 05:14.360
Dan berbicara tentang tindakan pencegahan kita akan menambahkan tindakan pencegahan lain untuk menjepit hadiah antara minus 1 dan

05:14.360 --> 05:15.400
plus 1.

05:15.470 --> 05:20.450
Kami sudah mendapatkan kami ada di sini tetapi kami ingin memastikan bahwa hadiahnya antara minus 1 dan plus

05:20.450 --> 05:20.960
1.

05:21.140 --> 05:27.740
Dan untuk melakukan ini kita hanya perlu memperbarui hadiah dengan melakukan ini dengan mengambil yang maksimal kemudian

05:28.240 --> 05:31.060
mengambil orang-orang yang mendapat hadiah dan 1.

05:31.190 --> 05:37.790
Dan di sini kita mengambil maks hadiah minimum dan 1 dan minus 1 dan itu akan memastikan hadiah

05:37.790 --> 05:40.040
itu antara minus satu ditambah satu.

05:40.160 --> 05:40.910
Baiklah.

05:40.910 --> 05:42.180
Jadi perkusi yang lain.

05:42.380 --> 05:49.070
Dan sekarang kami hanya ingin memeriksa apakah permainan dilakukan dalam hal ini kami akan memulai kembali lingkungan.

05:49.220 --> 05:53.010
Dan mengapa kita perlu memeriksa itu sekarang karena kita baru saja mencapai negara baru.

05:53.090 --> 05:54.880
Kami baru saja melewati transisi baru.

05:54.890 --> 05:58.010
Jadi kita perlu memeriksa itu setelah melewati transisi baru ini.

05:58.130 --> 06:06.860
Yah permainan tidak dilakukan jadi jika dilakukan lagi jika dilakukan maka dalam kasus itu

06:07.250 --> 06:14.180
kita akan memulai kembali lingkungan dengan mengatur panjang episode ke nol.

06:14.330 --> 06:21.800
Dan juga keadaan akan diinisialisasi ulang untuk menginisialisasi ulang saat kita mengambil lingkungan kita

06:21.800 --> 06:25.270
dan kita menggunakan fungsi reset OK.

06:25.310 --> 06:29.040
Sekarang kita keluar dari kondisi ini yang baru saja memeriksa.

06:29.230 --> 06:34.640
Dan sekarang apa yang akan kita lakukan adalah karena kita mencapai keadaan baru sementara keadaan

06:34.640 --> 06:40.410
baru ini sekarang dan kemudian oleh Ray karena ingat negara adalah gambar input yang awalnya dinamai oleh array.

06:40.570 --> 06:44.430
Dan sekarang yang harus kita lakukan adalah mengubah negara baru menjadi jawaban yang tersiksa.

06:44.600 --> 06:50.410
Jadi kita akan memperbarui status kita dan kita akan menggunakan perpustakaan obor.

06:50.630 --> 07:00.880
Dan tentu saja dari fungsi non-Thailand untuk mengubah ini non-pembayar menyatakan gambar input menjadi sensor

07:00.890 --> 07:01.800
obor.

07:02.150 --> 07:03.150
Sempurna.

07:03.260 --> 07:08.620
Dan sekarang hal terakhir yang perlu kita lakukan sebelum keluar dari ini untuk loop itu adalah

07:08.810 --> 07:13.030
loop pada langkah kita. Yah itu tentu saja menghabiskan hadiah ke Daftartonton

07:13.040 --> 07:18.310
Itu hal terakhir yang perlu diperbarui, kami memperbarui semua daftar di sini kecuali untuk hadiahnya.

07:18.320 --> 07:24.830
Jadi kita akan melakukan itu sekarang kita mengambil hadiah kita dan kita menggunakan fungsi otakmu untuk menambahkan

07:24.830 --> 07:28.110
kata terakhir yang baru saja diterima dengan sempurna.

07:28.220 --> 07:36.110
Dan tepat sebelum kita keluar dari for loop kita hanya perlu melakukan satu pemeriksaan terakhir untuk memeriksa bahwa jika sudah selesai

07:37.340 --> 07:39.490
maka kita ingin menghentikan kedaluwarsa.

07:39.530 --> 07:42.550
Dan jadi kita hanya akan menambahkan istirahat di sini.

07:42.560 --> 07:48.590
Artinya jika selesai, kami menghentikan eksplorasi dan kami langsung beralih ke langkah berikutnya

07:48.590 --> 07:56.930
yang akan menjadi pembaruan dari model bersama dan sekarang kami selesai dengan ini untuk sekarang bahwa agen telah

07:56.930 --> 07:57.980
melakukan eksplorasi.

07:58.190 --> 08:04.910
Ini akan memperbarui model bersama dan kami akan membereskannya di tutorial berikutnya dan seterusnya.