WEBVTT

00:00.760 --> 00:02.520
Halo dan selamat datang di Statoil.

00:02.830 --> 00:10.050
Jadi sekarang agen telah melakukan eksplorasi dan kemudian ketika dia akan lakukan adalah memperbarui jaringan bersama.

00:10.240 --> 00:17.050
Jadi hal pertama yang akan kita lakukan adalah menginisialisasi kumulatif apa yang akan kita sebut sebagai modal

00:17.070 --> 00:25.180
kita R dan kita akan menginisialisasi sebagai tensor torch tapi itu akan memiliki dimensi satu per satu karena itu hanya

00:25.180 --> 00:27.710
nilai tetapi kita ingin menjadi tensor.

00:27.940 --> 00:33.460
Dan jadi saya menggunakan di sini tetapi nol dan kemudian 1 1.

00:33.790 --> 00:37.230
Jadi pada dasarnya hadiah kumulatif diinisialisasi ke 0.

00:37.610 --> 00:43.870
OK lalu bilang kalau kita belum selesai itu kalau game belum selesai.

00:43.870 --> 00:50.200
Apa yang kita inginkan saat ini adalah imbalan kumulatif yang setara dengan nilai perdagangan terakhir yang dicapai

00:50.200 --> 00:51.750
oleh jaringan bersama.

00:51.820 --> 00:54.400
Jadi kita akan mendapatkan nilai output.

00:54.460 --> 01:00.870
Anda tahu nilai output fungsi model kami dan ini adalah nilai yang akan kami berikan kepada komunitas tempat kami

01:00.870 --> 01:01.490
bekerja.

01:01.780 --> 01:05.500
Jadi pertama mari kita dapatkan nilai ini kita bisa mendapatkannya dengan cara ini.

01:05.560 --> 01:12.820
Nilai Maka Anda tahu karena kami hanya menginginkan nilai yang dapat kami tambahkan di sini garis bawah dan kemudian garis bawah lagi dan kemudian kami

01:13.240 --> 01:19.980
mendapatkan model kami karena itu akan menampilkan nilai ini, tetapi hanya hasil pertama dari hal moral yang harus dilakukan adalah dua kali

01:19.980 --> 01:25.310
lipat pada jalurnya di sini dan di sini kita cukup menyalin apa yang kita miliki di sini.

01:25.430 --> 01:33.050
Itu adalah input dari model dengan gambar input dan tarikan dari negara bagian dan negara bagian Selatan.

01:33.220 --> 01:35.820
Jadi saya hanya menempelkan itu dan kita mulai.

01:35.860 --> 01:37.490
Kami akan mendapatkan nilainya.

01:37.810 --> 01:47.080
Dan sekarang yang akan kita lakukan adalah memberikan nilai kita sehingga semuanya akan sama dengan nilai dan untuk mengakses nilai yang

01:47.080 --> 01:49.350
kita mulai saat ini.

01:49.750 --> 01:50.430
Baiklah.

01:50.440 --> 01:57.610
Sekarang jika kondisi sudah selesai dan sekarang apa yang akan kita lakukan karena kita baru saja mendapat nilai baru dengan

01:57.670 --> 02:04.090
Anda tahu mendapatkan output dari model output pertama dari model juga yang sudah menambahkan nilai baru ini

02:04.090 --> 02:05.330
ke daftar nilai.

02:05.500 --> 02:16.340
Oleh karena itu kita dapat mengambil langsung daftar nilai kita kemudian menuju tenda dan kita meletakkan variabel karena kita.

02:16.530 --> 02:20.560
Nilai terakhir ini begitu hebat yang dilakukan sekarang.

02:20.850 --> 02:25.180
Kami akan menginisialisasi kerugian dan mengingat kuliah intuisi.

02:25.260 --> 02:26.320
Anda memiliki dua kerugian.

02:26.340 --> 02:31.780
Anda memiliki kebijakan terakhir yang terkait dengan prediksi agen.

02:31.860 --> 02:36.070
Dan kemudian Anda memiliki nilai terakhir yang kurang terkait dengan prediksi kritik.

02:36.180 --> 02:41.130
Jadi kita akan memperkenalkan dua variabel yang diinisialisasi ke nol dan mereka akan mengambil

02:41.250 --> 02:44.600
kebijakan di sini untuk kita kehilangan kebijakan yang mengerikan.

02:44.690 --> 02:52.680
Inisialisasi ke nol dan kemudian nilai kehilangan banyak nilai dan katakan inisialisasi ke nol maka jangan lupa

02:52.680 --> 02:58.680
untuk mengatur hadiah kumulatif sebagai variabel obor karena kita akan membutuhkannya menjadi obor

02:58.680 --> 03:03.990
Roybal karena kita akan menghitung gradien menghormatinya karena hadiah kumulatif akan menjadi

03:03.990 --> 03:05.850
istilah kerugian nilai.

03:05.850 --> 03:10.050
Jadi apakah ini layak sekarang melekat pada grafik dinamis dengan gradien.

03:10.530 --> 03:16.150
Dan sekarang akhirnya hal terakhir yang perlu kita lakukan sebelum memulai loop tren besar yang Anda tahu ketika kita diterapkan

03:16.170 --> 03:20.580
untuk menurunkan gas di matahari untuk mengurangi yang terakhir ini antara prediksi dan target.

03:20.850 --> 03:28.160
Kita perlu menginisialisasi GAAP untuk estimasi keuntungan umum dan tidak mendapatkannya atau tidak dilapisi.

03:28.260 --> 03:34.530
Hati-hati dengan GAAP variabel yang akan kita inisialisasi sekarang adalah estimasi keuntungan

03:34.590 --> 03:35.510
umum.

03:35.520 --> 03:42.480
Jadi, sebagai pengingat, estimasi keuntungan umum adalah definisi, keuntungan memainkan aksi

03:42.540 --> 03:45.170
a dengan mengamati negara.

03:45.210 --> 03:51.330
Jadi ini adalah fungsi dari action dan state s dan itu sama dengan perbedaan antara nilai q

03:51.450 --> 03:54.780
Q A S dan nilai dari fungsi V.

03:54.780 --> 03:57.120
Jadi sebenarnya saya bisa menulisnya di sini.

03:57.540 --> 04:05.130
Estimasi keuntungan yang digeneralisasi adalah fungsi dari aksi dan status s dan yang sama dengan nilai

04:05.580 --> 04:12.570
q dari aksi A dan kondisi S dikurangi nilai fungsi V yang diterapkan pada kondisi

04:12.650 --> 04:13.440
s.

04:13.530 --> 04:19.000
Itulah keuntungan umum untuk disebutkan dan itulah yang ingin kami inisialisasi sekarang.

04:19.200 --> 04:20.770
Dan kami akan menginisialisasi ke nol.

04:21.470 --> 04:27.320
Tapi itu harus terhadap penari yang akan menggunakan trik yang sama seperti apa yang baru

04:27.730 --> 04:35.330
saja kita lakukan di sini kita akan mengambil perpustakaan obor dan menerapkan fungsi zebra untuk mengaturnya sebagai tensor hanya satu

04:35.330 --> 04:36.730
nilai yang nol.

04:37.160 --> 04:45.730
Dan kita akan menggunakan variabel g baru ini dan itu akan sama dengan obor yang nol itu 1 sebagai inisialisasi

04:45.740 --> 04:46.540
kita.

04:46.550 --> 04:52.730
Jadi ini akan diinisialisasi ke nol dan oleh karena itu nilai q dari tindakan state s akan

04:52.730 --> 04:55.600
sama dengan nilai fungsi V state s.

04:55.780 --> 04:56.290
Baiklah.

04:56.320 --> 04:58.810
Dan sekarang kita siap untuk memulai perulangan for.

04:58.850 --> 05:00.470
Jadi kita akan bertualang di sini.

05:00.500 --> 05:04.700
Jadi istirahat sejenak dan sampai jumpa di tutorial selanjutnya untuk menyerang itu.

05:04.820 --> 05:06.170
Dan begitu aku.