WEBVTT

00:00.330 --> 00:05.990
Halo dan selamat datang di tutorial ini di Statoil hari ini kita akan melakukan sinkronisasi dengan model bersama.

00:06.150 --> 00:13.370
Jadi yang akan kita lakukan adalah tetap mengirim fungsi tentunya dan kemudian menginisialisasi panjang satu

00:13.380 --> 00:13.980
episode.

00:14.190 --> 00:22.020
Jadi kita akan memanggil panjang episode episode dan panjang inti ini kita pergi dan kita akan

00:22.020 --> 00:23.800
menginisialisasi ke nol.

00:23.880 --> 00:27.280
Namun, panjang yang sekarang ini akan menjadi tambahan.

00:27.570 --> 00:30.450
Dan berbicara tentang peningkatan dalam hal itulah yang akan kita lakukan.

00:30.660 --> 00:40.600
Jadi kita akan menggunakan loop sementara dan menggunakan trik ini untuk mengatakan sementara Kallen benar untuk mengulang apa yang akan terjadi sekarang

00:40.600 --> 00:43.840
apa yang akan terjadi di dunia ini.

00:44.160 --> 00:49.360
Dan hal pertama yang akan terjadi dalam loop ini adalah penambahan panjang

00:49.360 --> 00:50.070
episode.

00:50.260 --> 00:56.900
Jadi hal pertama yang akan kita lakukan adalah bertambah 1 dan untuk melakukannya kita cukup

00:57.010 --> 01:02.680
mengambil episode panjang dan menambahkan di sini ditambah sama dengan 1.

01:03.200 --> 01:06.440
Dan sekarang kita akan melakukan sinkronisasi dengan share lebih banyak.

01:06.560 --> 01:13.520
Itu berarti bahwa sekarang agen akan mendapatkan akan menggunakan model bersama untuk melakukan eksplorasi kecil pada

01:13.700 --> 01:18.730
sejumlah langkah tertentu dan bagaimana model akan mendapatkan model bersama ini.

01:18.860 --> 01:27.710
Kita perlu mengambil moral kita daripada itu dan kemudian menggunakan metode load state Dick karena kita akan menggunakannya

01:27.710 --> 01:37.310
untuk mendapatkan kamus status dari model bersama kita sehingga kita harus meletakkan model bersama terlebih dahulu dan menerapkan kemudian

01:37.310 --> 01:41.870
metode statis untuk dapatkan parameter dari model bersama.

01:41.900 --> 01:48.500
Dan itulah bagaimana model kami di sini akan mendapatkan model bersama untuk penjelajahan kecilnya Oke.

01:48.500 --> 01:53.670
Dan begitu model mendapatkan model bersama ini sekarang kita harus membedakan dua kasus.

01:53.840 --> 02:03.280
Yang pertama adalah jika dilakukan berarti jika permainan dilakukan maka permainan dilakukan maka apa yang terjadi dalam kasus itu.

02:03.530 --> 02:09.840
Kita harus menginisialisasi ulang status tersembunyi dan status sel LSD dan mal.

02:09.950 --> 02:17.510
Dan itulah mengapa saya akan mengambil Lihat X sel Amerika dan juga usia X negara tersembunyi dan saya akan menginisialisasi ulang

02:17.510 --> 02:21.030
buku-buku mereka dan bagaimana Anda akan menginisialisasi ulang mereka.

02:21.170 --> 02:29.080
Nah dengan hanya nol akan ada vektor 256 nol karena ingat output sisanya.

02:29.270 --> 02:31.770
Seperti yang saya sebutkan 1 dan 256.

02:31.820 --> 02:38.970
Jadi begini kita akan menginisialisasi mereka dengan menggunakan perpustakaan obor kemudian fungsi nol.

02:39.170 --> 02:46.730
Dan karena kita menginginkan vektor 256 nol kita akan mendengar dimensi satu untuk vektor dan 256

02:46.730 --> 02:51.560
untuk jumlah elemen yang akan menjadi nol lalu kita lanjutkan.

02:51.770 --> 02:58.570
Tapi kemudian kita akan mengubahnya menjadi Voivode obor karena kemudian beberapa gradien akan dihitung.

02:58.640 --> 03:02.000
Jadi kita perlu mengintegrasikan ini dengan gradien.

03:02.030 --> 03:02.510
Baiklah.

03:02.540 --> 03:09.860
Dan kita akan melakukan hal yang sama untuk keadaan tersembunyi di bawah dan benar-benar menganalisisnya dengan cara yang sama.

03:09.980 --> 03:10.680
Itu dia.

03:10.790 --> 03:13.050
Jadi itu jika permainan dilakukan.

03:13.360 --> 03:20.810
Dan sekarang kasus lain yang bisa kita akses dengan yang lain selain dari apa yang terjadi dalam kasus itu.

03:20.990 --> 03:27.270
Kita akan menyimpan State sel lama dan taruhan tersembunyi dan dengan sangat

03:27.270 --> 03:37.910
mudah kita bisa menyimpan yang lama dengan mengetikkan lihat X sama dengan variabel cx data itu dan sama untuk itu di Amerika

03:39.050 --> 03:45.580
kita cukup menambahkan di sini H x sama dengan variabel xx tempat data berada.

03:45.650 --> 03:46.570
Hal bagus dilakukan.

03:46.580 --> 03:52.880
Sekarang kita bisa keluar dari yang lain karena kita pada dasarnya kita sudah selesai dengan dua kasus ini apakah permainan berakhir

03:52.910 --> 03:58.340
atau tidak, tetapi kita tetap berada di loop sementara karena sekarang kita akan melakukan beberapa hal lagi

03:58.340 --> 04:00.450
yang pada dasarnya semua pelatihan proses.

04:00.530 --> 04:05.960
Jadi yang akan kita lakukan sekarang adalah menginisialisasi beberapa variabel yang akan menjadi

04:06.050 --> 04:07.990
inti perhitungan dalam pelatihan.

04:08.180 --> 04:13.660
Jadi mari kita lakukan ini kita akan membutuhkan nilai-nilai yang diingat adalah hasil dari kritik.

04:13.790 --> 04:15.170
Itulah fungsinya.

04:15.170 --> 04:17.850
Dan kita akan menginisialisasi mereka sebagai sarang kosong.

04:17.960 --> 04:22.790
Dengan cara ini maka kita perlu membawa probabilitas.

04:22.930 --> 04:27.570
Jadi probs keberuntungan dan kami juga akan menginisialisasi sebagai daftar kosong.

04:27.590 --> 04:33.540
Maka tentu saja kita akan membutuhkan semua kata yang juga akan kita inisialisasi sebagai daftar kosong.

04:33.650 --> 04:38.810
Dan akhirnya kita akan membutuhkan entropi itu sesuatu yang baru.

04:38.960 --> 04:43.240
Tapi ini memang di jantung dari kondisi pelatihan.

04:43.280 --> 04:45.120
Jadi sampai juga.

04:45.170 --> 04:50.690
Jadi sekarang kita menginisialisasi empat variabel ini kita dapat memulai loop FOR baru dan kemudian nymphal ini

04:50.690 --> 04:53.350
akan memperbarui nilai-nilai dari keempat variabel ini.

04:53.420 --> 04:59.330
Dan Foluke baru ini akan menjadi lingkaran penuh atas langkah-langkah kedaluwarsa dan karena itu variabel

04:59.330 --> 05:01.530
perulangan akan menjadi langkah kita.

05:01.550 --> 05:11.570
Jadi untuk langkah dalam jangkauan dan di dalam kita bisa langsung meletakkan titik tanpa henti karena parameter dalam

05:11.660 --> 05:15.170
beberapa langkah persis jumlah langkah percepatan.

05:15.170 --> 05:19.190
Jadi untuk semua langkah dalam akselerasi Apa yang kita lakukan.

05:19.370 --> 05:22.690
Kita akan mendapatkan prediksi model.

05:22.740 --> 05:28.730
Sekarang apa yang dikembalikan oleh model dan untuk mendapatkan prediksi ini kita cukup mengambil model

05:28.730 --> 05:33.670
dan menerapkannya pada input yang input sinyal melewati otak dalam model.

05:33.830 --> 05:39.020
Dan itu akan memberi kita output tetapi akan mendapatkan beberapa output yang Anda tahu itu akan

05:39.020 --> 05:42.010
memberi kita nilai-nilai fungsi yang merupakan output dari kritik.

05:42.200 --> 05:48.560
Maka nilai q QSA yang merupakan output dari aktor tetapi juga jangan lupa bahwa itu juga akan

05:48.680 --> 05:54.830
menampilkan jatuhkan negara Doheny dan negara-negara kecil karena ingat jika kita kembali ke model kita dengan

05:54.830 --> 06:00.230
baik dalam fungsi maju kita dapat melihat bahwa memang ia mengembalikan hasil kritik.

06:00.320 --> 06:08.090
Itu adalah nilai dari fungsi ya maka output dari aktor yang dari nilai kubus QSA dan juga output

06:08.090 --> 06:14.930
dari CM yang merupakan pemeriksaan ganda ini dan lihat X kemudian Negara dan sel Amerika.

06:14.930 --> 06:16.910
Jadi kita harus hati-hati dengan itu.

06:16.910 --> 06:22.310
Ini sangat berbeda dari apa yang terjadi sebelumnya dan oleh karena itu kita sekarang akan menerapkan

06:22.310 --> 06:24.470
semuanya pada input yang merupakan keadaan.

06:24.530 --> 06:28.020
Tetapi sekarang ada beberapa hal yang harus dilakukan terkait penyiksaan.

06:28.030 --> 06:31.130
Tapi itu tentu saja memberi kekuatan pada apa yang kita lakukan.

06:31.190 --> 06:39.920
Hal pertama yang perlu kita lakukan adalah menekan di negara bagian untuk menambahkan dimensi ini yang harus memiliki indeks

06:39.920 --> 06:40.880
0.

06:40.910 --> 06:47.080
Itu karena model hanya dapat menerima sejumlah input dan bukan tujuan dengan sendirinya dalam vektor atau intenser.

06:47.240 --> 06:53.320
Itu hal pertama yang harus kita lakukan dan peras tetapi kemudian bukan itu saja yang kita butuhkan

06:53.360 --> 06:58.950
untuk mengubah status input kita menjadi obor yang dapat dibatalkan dan saya di sini juga.

06:59.180 --> 07:05.660
Jadi sekarang kita dengan negara polisi negara bagian tetapi ingat bahwa input dari empat fungsi sebenarnya

07:05.660 --> 07:06.990
adalah gambar input.

07:06.990 --> 07:14.660
Itulah yang baru saja kami urus, tetapi juga jenis usia X negara bagian dan negara sel dan oleh karena itu kami

07:14.900 --> 07:16.500
perlu menambahkan di sini.

07:16.610 --> 07:23.160
Ini bagian kedua dari input dengan daya tarik usia X dan 6.

07:23.190 --> 07:23.690
Baiklah.

07:23.730 --> 07:26.410
Dan kita harus mengambil kurung.

07:26.430 --> 07:32.550
Di sana kita pergi kita memiliki dua input kita yang pertama adalah keadaan input yaitu input gambar

07:32.550 --> 07:38.580
semua dikonversi menjadi variabel dan diperas untuk menambahkan dimensi palsu batch dan mereka menghentikan semua negara bagian

07:38.760 --> 07:40.260
dan negara-negara Selatan.

07:40.440 --> 07:41.630
Jadi kita semua baik-baik saja.

07:41.670 --> 07:43.890
Kami siap untuk mendapatkan prediksi kami.

07:44.100 --> 07:46.360
Dan sekarang sejak ini kembali.

07:46.500 --> 07:52.530
Tiga prediksi kami adalah hasil dari kritik hingga aktor dan semua pengembalian yang

07:52.530 --> 07:54.430
diperlukan oleh CME.

07:54.630 --> 07:59.840
Kita akan memperkenalkan tiga variabel baru sekarang yang akan merilis tiga output.

07:59.910 --> 08:05.380
Jadi kita dapatkan output pertama adalah nilai dari fungsi V yang merupakan output dari kritik.

08:05.520 --> 08:07.960
Jadi kita akan menyebutnya begitu.

08:08.490 --> 08:08.960
Jadi begitulah.

08:08.970 --> 08:10.250
Itu hasil pertama.

08:10.350 --> 08:14.630
Kemudian output kedua akan menjadi output dari aktor.

08:14.760 --> 08:16.820
Dan itulah nilai Q QSA.

08:17.130 --> 08:24.570
Tetapi karena nilai q dikaitkan dengan tindakan, kami juga dapat menyebutnya nilai tindakan.

08:24.690 --> 08:25.550
Baiklah.

08:25.710 --> 08:28.850
Dan kemudian menemukan output yang dikembalikan besok.

08:28.920 --> 08:37.380
Itu adalah dua kali lipat dari pajak penjualan tersembunyi dan negara sel melihat X dan kemudian kita pergi, kita memiliki tiga output

08:37.620 --> 08:40.110
yang dikembalikan oleh mereka semua sempurna.

08:40.110 --> 08:45.750
Jadi sekarang kita memiliki predisinya kita perlu menggunakan Max lunak untuk memainkan tindakan yang tepat.

08:45.750 --> 08:48.560
Dan sekarang ini akan sama persis dengan apa yang kita lakukan sebelumnya.

08:48.600 --> 08:57.320
Langkah selanjutnya adalah untuk mendapatkan probabilitas kami sehingga kami dapat memanggil mereka dari dan di situlah kami biasa melakukan

08:57.320 --> 09:05.570
metode Max yang kami ambil dari modul fungsional yang memiliki kesempatan pada Max yang melakukan Max, dan yang

09:05.570 --> 09:12.270
akan menghasilkan distribusi probabilitas input bahwa kita akan meletakkan sekarang dan yang tentu

09:12.290 --> 09:19.150
saja nilai aktual itu adalah nilai q yang merupakan output dari aktor dalam model.

09:19.220 --> 09:25.070
Kadang-kadang kami memiliki probabilitas kami tetapi seperti yang Anda perhatikan kami akan bekerja dengan

09:25.130 --> 09:31.280
entropi dan bersama-sama entropi tidak hanya akan memimpin probabilitas tetapi juga probabilitas LUGG karena entropi

09:31.280 --> 09:37.280
adalah jumlah dari produk Lucke prob. kali trub semua ini dikalikan dengan minus 1.

09:37.400 --> 09:46.420
Jadi kita juga perlu mendapatkan cinta yang sama yang akan dihasilkan dari LUGG soft max.

09:46.460 --> 09:51.580
Jadi alih-alih mengambil distribusi probabilitas, kami mengambil distribusi probabilitas dan itulah

09:51.860 --> 10:01.260
yang kami lakukan dengan LUGG yang diketuk mengetuk fungsi Optimax untuk mengatakan kami menerapkan ke kubus dan menggunakan yang kami

10:02.500 --> 10:04.490
sebut nilai tindakan.

10:04.500 --> 10:07.520
Baiklah jadi sekarang kita punya masalah dan kunci.

10:07.600 --> 10:11.700
Jadi kita siap untuk mendapatkan entropi dan entropi.

10:12.250 --> 10:13.680
Apa formula untuk itu.

10:13.780 --> 10:19.830
Yah seperti yang saya sebutkan tadi, kita ambil keberuntungan segera kita gandakan dengan produknya.

10:20.200 --> 10:28.250
Kemudian kita akan mengambil jumlah dari semua ini dan untuk itu kita dapat menambahkan di sini bahwa seseorang yang sebenarnya kita

10:28.250 --> 10:29.920
gunakan jalan berkali-kali sekarang.

10:30.230 --> 10:33.500
Dan seperti yang kami katakan kami kalikan ini dengan minus 1.

10:33.740 --> 10:37.150
Jadi minus dari jumlah produk.

10:37.170 --> 10:38.600
Banyak kali.

10:39.140 --> 10:39.750
Sempurna.

10:39.860 --> 10:45.380
Dan sekarang kita akan menyimpan entropi ini yang baru saja dihitung dalam daftar entropi kita.

10:45.650 --> 10:48.550
Di sana kita pergi kita memiliki perhitungan terakhir dari entropi.

10:48.590 --> 10:53.660
Jadi kita perlu menyimpannya dalam daftar entropi dan untuk melakukan ini tidak ada yang lebih sederhana

10:53.660 --> 10:57.450
kita akan menggunakan fungsi append tentu saja karena entropi adalah daftar.

10:57.500 --> 11:04.790
Jadi kami mengambil daftar entropi kami kemudian mulai dan kami menggunakan fungsi append untuk menambahkan

11:04.790 --> 11:06.550
entropi yang dihitung.

11:06.560 --> 11:08.440
Baiklah jadi kita akan istirahat sekarang.

11:08.450 --> 11:14.210
Kita akan melakukan langkah demi langkah ini di cerita selanjutnya akan memainkan tindakan dengan mengambil undian acak

11:14.360 --> 11:16.740
dari distribusi probabilitas yang dihasilkan ini.

11:17.030 --> 11:22.310
Dan setelah kita memainkan aksinya kita akan mendapatkan nilai dari status ini dan kita akhirnya akan

11:22.310 --> 11:24.310
menyimpan hadiah status transisi baru kita.

11:24.360 --> 11:29.430
Dan itu akan menjadi langkah besar baru yang dilakukan dan kami akan menyelesaikannya di rintangan berikutnya.

11:29.570 --> 11:31.020
Sampai saat itu.