WEBVTT

00:00.560 --> 00:02.560
Halo dan selamat datang di tutorial ini.

00:02.750 --> 00:04.610
Sekarang kita punya otak masa depan.

00:04.610 --> 00:06.350
Kami juga memiliki pengoptimal.

00:06.350 --> 00:09.980
Jadi pada dasarnya kami siap untuk melatih agen kami yang berbeda.

00:10.010 --> 00:11.620
Itu adalah otak kita yang berbeda.

00:11.720 --> 00:18.650
Jadi mulai sekarang yang akan membuat fungsi kereta besar ini yang akan berisi semua algoritma A3 dan oleh karena itu apa

00:18.650 --> 00:24.920
yang akan kami implementasikan di kereta ini yang saya temukan hanyalah fungsi kereta besar ini yang hanya akan

00:25.230 --> 00:31.200
menjadi fungsi kereta besar ini tidak ada lagi kelas tetapi siapa yang akan menggunakan fungsi kereta ini.

00:31.250 --> 00:33.880
Dan langkah terakhir modul ini dengan kode utama.

00:34.100 --> 00:35.010
Jadi begitulah.

00:35.060 --> 00:37.340
Tetapi sebelum kita mulai, Anda bisa memperhatikannya.

00:37.490 --> 00:42.020
Yah pertama-tama kita mengimpor beberapa perpustakaan jadi itulah perpustakaan klasik dengan modul obor.

00:42.020 --> 00:49.040
Maksud saya perpustakaan obor Anda kemudian mengakhiri perpustakaan untuk menciptakan lingkungan yang akan pecah.

00:49.220 --> 00:54.470
Maka tentu saja kita akan mengimpor sebenarnya kelas dari model kita.

00:54.620 --> 00:55.980
Simpan yang ini.

00:56.420 --> 01:00.070
Dan akhirnya kita akan menggunakan variabel dari TORCIDA.

01:00.150 --> 01:04.000
Saya menyesal menjalankan kompetisi berkinerja tinggi di gradien.

01:04.100 --> 01:05.750
Berkat grafik dinamis.

01:05.990 --> 01:11.960
Dan kemudian kita memiliki fungsi ini memastikan fungsi lulusan bersama yang saya tidak ingin menghabiskan terlalu banyak waktu untuk

01:11.960 --> 01:16.930
ini karena baik pertama ini hanya fungsi yang akan memastikan semuanya bekerja dengan benar.

01:17.030 --> 01:20.400
Jika model yang digunakan oleh agen tidak memiliki gradien saham.

01:20.480 --> 01:25.640
Itu sebabnya ini disebut short shared grads dan alasan lainnya adalah saya tidak berpikir fungsi

01:25.640 --> 01:26.530
ini diperlukan.

01:26.630 --> 01:32.700
Tetapi kita tidak pernah tahu dan setidaknya dengan ini akan 100 persen yakin bahwa kode akan dieksekusi dengan baik

01:33.080 --> 01:34.790
tetapi itu tidak terlalu penting.

01:34.880 --> 01:40.640
Yang harus kita fokuskan adalah fungsi tren ini yang mulai kita buat sekarang.

01:41.000 --> 01:41.600
Jadi di sini kita mulai.

01:41.610 --> 01:48.860
Def dan kereta akan segera menjadi kereta dan transformasi ini akan mengambil beberapa argumen.

01:49.010 --> 01:50.400
Yang pertama adalah peringkat.

01:50.420 --> 01:56.460
Saya akan menjelaskan apa itu dan yang kedua adalah haram sehingga semua parameter

01:56.460 --> 01:57.840
adalah lingkungan.

01:57.920 --> 02:02.860
Kemudian parameter ketiga akan dibagikan moral.

02:03.170 --> 02:09.260
Jadi, Anda tahu model bersama adalah apa yang agen dapatkan untuk menjalankan eksplorasi

02:09.260 --> 02:17.050
kecilnya pada sejumlah langkah tertentu dan akhirnya argumen terakhir adalah pengoptimal yang merupakan yang kami buat sebelumnya.

02:17.770 --> 02:20.040
Sangat sempurna untuk diperdebatkan.

02:20.090 --> 02:24.010
Dan sekarang kita siap untuk mulai mengimplementasikan fungsi yang sama.

02:24.170 --> 02:30.890
Jadi hal pertama yang akan kami lakukan adalah Anda tahu bahwa Anda ingat apa singkatan A-380 untuk singkatan dari agen

02:31.010 --> 02:32.480
Crilley aktif yang sinkron.

02:32.540 --> 02:34.980
Jadi dalam 8: 3 lihat ada yang sinkron.

02:34.980 --> 02:40.940
Jadi, seperti yang Anda pahami, kami harus melepaskan hak setiap agen pelatihan dan melucuti ekonomi

02:40.940 --> 02:49.010
maka kami akan menggunakan peringkat untuk menggeser setiap sisi dengan peringkat ini sehingga parameter peringkat ini di sini hanya untuk

02:49.220 --> 02:52.230
menggeser benih sehingga setiap agen pelatihan disinkronkan.

02:52.580 --> 02:59.390
Jadi misalnya jika ada agen pelatihan maka peringkat akan naik dari 1 menjadi 10 dan akan ada satu

02:59.390 --> 03:02.600
bilangan bulat per agen dari 1 hingga 10.

03:02.630 --> 03:08.840
Jadi ketika kita menggeser benih dengan satu utas, semua angka acak semu yang dibuat oleh utas ini

03:08.840 --> 03:11.340
akan benar-benar independen dari utas lainnya.

03:11.480 --> 03:14.250
Namun benih atau nomor tetap.

03:14.510 --> 03:19.640
Jadi, ketika kita mereproduksi pengalaman kita akan menemukan peristiwa yang persis sama.

03:19.880 --> 03:23.450
Dan itu karena deterministik sehubungan dengan kursi.

03:23.690 --> 03:30.470
Jadi, penting untuk memahami itu dan itulah sebabnya yang perlu kita lakukan adalah menyinkronkan setiap agen peserta pelatihan dengan

03:30.800 --> 03:34.260
menggunakan hak di sini untuk menggeser benih dengan peringkat.

03:34.350 --> 03:36.110
Jadi mari kita lakukan ini untuk melakukannya.

03:36.140 --> 03:39.170
Kami akan mengambil perpustakaan torche kami.

03:39.170 --> 03:45.350
Lalu kita akan mendapatkan benih dengan tanda kurung garis bawah manual.

03:45.350 --> 03:51.040
Ini adalah fungsi dan sekarang kita akan mengambil benih dari semua agen yang dapat kita

03:51.220 --> 03:55.620
akses dari benih itu dan untuk menggesernya berdasarkan peringkat untuk disinkronkan.

03:55.660 --> 04:05.420
Masing-masing agen hanya akan menambahkan di sini plus rec dan itu akan menggeser benih dengan pangkat untuk menghilangkan hak setiap agen peserta

04:05.510 --> 04:09.970
pelatihan karena ada satu benih untuk setiap agen pelatihan.

04:09.980 --> 04:15.390
Baiklah hal pertama yang dilakukan dan sekarang langkah selanjutnya langkah selanjutnya adalah mendapatkan lingkungan.

04:15.530 --> 04:21.470
Jadi kita akan membuat variabel baru yang akan kita panggil dan dan sekarang akan digunakan untuk

04:21.590 --> 04:26.120
membuat Atari dan berfungsi dari modul akhir untuk menciptakan lingkungan untuk pelarian.

04:26.150 --> 04:28.130
Itu untuk mendapatkan lingkungan break out.

04:28.250 --> 04:38.070
Jadi kita ambil fungsi ini buat Terry dan dan sekarang kita harus memasukkan hanya satu argumen yang merupakan parameter

04:38.070 --> 04:39.060
lingkungan.

04:39.270 --> 04:42.730
Dan kami memilikinya karena ini adalah salah satu input dari fungsi otak.

04:42.750 --> 04:48.270
Ini adalah parameter ini di sini yang akan menjadi parameter lingkungan breakout dan

04:48.330 --> 04:58.320
oleh karena itu untuk mendapatkan lingkungan breakout kita mengambil argumen program-program ini lalu itu dan kemudian kita mendapatkan nama yang di masa

04:58.320 --> 05:03.240
depan ada di kode berikutnya dengan fungsi utama akan mengeksekusi seluruh

05:03.240 --> 05:06.010
kode akan menjadi Wazir brachialis.

05:06.010 --> 05:09.450
Baiklah, itu membuat lingkungan kita sempurna.

05:09.610 --> 05:16.080
Dan sekarang langkah selanjutnya adalah menyelaraskan kursi lingkungan pada salah satu agen.

05:16.180 --> 05:17.650
Dan mengapa kita melakukan itu.

05:17.650 --> 05:24.220
Itu karena ingat setiap agen dari A-3 Silmaril memiliki visi lingkungannya sendiri seperti salinan lingkungannya

05:24.220 --> 05:31.000
sendiri dan oleh karena itu kita perlu melapisi masing-masing agen pada satu versi lingkungan tertentu

05:31.000 --> 05:36.520
dan untuk itu kita akan menggunakan kursi karena setiap kursi menentukan lingkungan

05:36.520 --> 05:37.320
tertentu.

05:37.450 --> 05:43.390
Jadi dengan mengasosiasikan benih yang berbeda untuk setiap agen dengan baik kita akan mendapatkan apa yang kita

05:43.390 --> 05:46.340
inginkan yaitu setiap agen akan memiliki lingkungannya sendiri.

05:46.500 --> 05:54.730
Jadi bagaimana kita dapat melakukan itu, kita dapat mengambil lingkungan kita kemudian menggunakan fungsi seed untuk Anda tahu memilih

05:54.770 --> 05:57.340
yang dia dapatkan untuk lingkungan.

05:57.520 --> 06:01.370
Dan sekarang untuk menyelaraskan kursi lingkungan dengan benih agen.

06:01.600 --> 06:08.460
Yah kita hanya perlu mendapatkan ini karena ini sesuai dengan kursi agen yang digeser hal-hal untuk peringkat

06:08.530 --> 06:14.170
untuk mendapatkan agen pelatihan yang terorganisir karena mereka semua pada set yang berbeda.

06:14.200 --> 06:20.020
Jadi kita hanya perlu membayar di sini dan ini akan menyelaraskan kursi lingkungan pada salah satu

06:21.210 --> 06:24.660
agen. Oke sekarang kita akan mendapatkan model kita.

06:24.670 --> 06:27.060
Itulah otak penglihatan A-3 kami.

06:27.180 --> 06:32.320
Dan sekarang kita akan menggunakan kelas aktif dari file model kita.

06:32.350 --> 06:38.500
Jadi pada dasarnya kita akan membuat objek baru dari kelas aktivitas ini dan kita akan memanggil model objek

06:38.500 --> 06:40.960
atau otak ini jika Anda mau.

06:41.200 --> 06:47.650
Tetapi pada dasarnya objek ini akan mengandung semua konvolusi CM. Koneksi linear dan fungsi

06:47.650 --> 06:49.500
Ford untuk menyebarkan sinyal.

06:49.600 --> 06:55.630
Jadi pada dasarnya itu akan berisi otak aktor dalam kritik dengan kemampuan untuk menyebarkan

06:55.630 --> 06:59.120
sinyal ke seluruh otak untuk mendapatkan hasil akhir.

06:59.170 --> 07:06.850
Jadi mari kita lakukan ini, mari kita buat model kita sehingga kita katakan kita ingin memanggil model objek ini.

07:07.150 --> 07:15.040
Dan jadi kami membuat objek dari Undang-undang membuat kelas dan oleh karena itu kami mengambil kritik aktor kelas dan sekarang ingat

07:15.040 --> 07:17.250
argumen apa ketika dua input.

07:17.350 --> 07:20.420
Itu sebenarnya argumen fungsi.

07:20.640 --> 07:26.230
Jadi kita harus memasukkannya, Anda tahu itu yang harus kita lakukan untuk menggunakan objek dalam metode.

07:26.530 --> 07:33.010
Tapi kemudian argumen kami harus menempatkan nomine put yang dalam kondisi buruk yang dilakukan dalam rantai

07:33.010 --> 07:38.680
seni dalam gambar cetak dan ruang aktual yang berisi Anda tahu serangkaian tindakan.

07:38.680 --> 07:42.550
Jadi mari kita letakkan argumen ini di fungsi kereta.

07:42.760 --> 07:51.580
Jadi yang pertama kita bisa mendapatkannya dengan lingkungan kita dan itu dan kemudian kita menggunakan ruang pengamatan itu

07:51.580 --> 07:59.020
ruang pengamatan lalu itu dan kemudian Anda mendapatkan jumlah input kita mendapatkan nol braket bayangan.

07:59.190 --> 07:59.550
Baiklah.

07:59.550 --> 08:01.120
Itu untuk input.

08:01.290 --> 08:04.690
Dan sekarang untuk ruang aksi.

08:04.860 --> 08:10.480
Yah itu hampir sama dengan yang kita butuhkan dari lingkungan kita bahwa kita penting dari itu.

08:10.500 --> 08:12.920
Dan kemudian beraksi ruang.

08:12.920 --> 08:13.260
Baiklah.

08:13.260 --> 08:17.860
Dan itu memberi kita argumen yang perlu kita input saat membuat objek.

08:17.860 --> 08:20.130
Model kelas mengeksekusi.

08:20.400 --> 08:25.150
OK jadi sekarang kita memiliki model kita dan sekarang langkah selanjutnya adalah menyiapkan status input kita.

08:25.170 --> 08:31.230
Jadi ingat kita masih melakukan pembelajaran informal yang lebih dalam sehingga input menyatakan gambar input kita dan oleh karena itu ini

08:31.560 --> 08:37.080
pada awalnya akan dilakukan oleh Ray yang akan berisi satu saluran karena kita akan bekerja dengan gambar hitam dan

08:37.080 --> 08:40.670
putih dan itu akan memiliki waktu di lautan 42 oleh 42.

08:40.980 --> 08:46.680
Namun penting untuk dipahami dan diingat bahwa status input adalah gambar input.

08:46.680 --> 08:51.940
Jadi yang harus kita lakukan adalah untuk mendapatkan non-kekuatan maka kita akan mengubahnya menjadi jawaban penyiksaan.

08:52.050 --> 08:57.770
Tetapi langkah pertama seperti apa yang kita lakukan sebelumnya adalah untuk mendapatkan wasit dan mendapatkannya.

08:57.840 --> 08:58.970
Ini sebenarnya cukup sederhana.

08:58.980 --> 09:06.080
Yah pertama-tama kita perlu membuat variabel untuk keadaan input yang akan lintas negara dan ini untuk mendapatkan

09:06.080 --> 09:07.130
array wasit.

09:07.230 --> 09:13.000
Kita hanya perlu mengambil lingkungan kita dan kemudian beradaptasi dan kemudian menggunakan fungsi reset.

09:13.200 --> 09:19.940
Dan ini akan menginisialisasi Negara sebagai array kekaisaran dimensi satu demi 42 oleh 42.

09:20.190 --> 09:27.170
Satu berarti 1 saluran gambar begitu hitam dan putih dan 42 dengan 42 tentu saja dominasi gambar.

09:27.210 --> 09:30.860
Jumlah piksel dan lebar serta jumlah piksel dan tinggi.

09:30.870 --> 09:32.630
Jadi pada dasarnya itu hanya contoh waktu.

09:32.670 --> 09:34.660
Dan itulah yang kami kerjakan.

09:34.820 --> 09:40.830
Dan sekarang kita memiliki ini sebenarnya dalam mewasiti karena ini akan memberi kita gambar-gambar dari

09:40.830 --> 09:42.670
asuransi waktu di Empire.

09:42.870 --> 09:48.510
Sekarang kita dapat mengubahnya menjadi penari obor dan untuk melakukan ini dengan baik kita akan kembali ke keadaan data

09:48.510 --> 09:50.890
karena kita tidak perlu menyimpan nomor array.

09:51.180 --> 09:55.030
Dan di situlah kita menggunakan obor modul obor.

09:55.260 --> 10:02.790
Dan ingat kita sudah melakukan itu dengan fungsi dari tanda kurung non-Thailand.

10:02.880 --> 10:08.350
Dan di dalam fungsi ini kita perlu memasukkan angka yang ingin kita ubah menjadi sensor obor.

10:08.610 --> 10:14.880
Dan itu adalah keadaan versi sebelumnya dari array non-bayar negara akan menjadi pipelined

10:14.880 --> 10:20.510
dari fungsi pipa sensor obor sehingga hanya menciptakan intens dari negara.

10:20.550 --> 10:24.870
Dan sekarang kita hanya perlu menginisialisasi yang sudah dilakukan.

10:24.870 --> 10:30.650
Ingat variabel umumnya variabel yang mengatakan jika sebuah episode berakhir atau jika permainan selesai.

10:30.870 --> 10:37.110
Nah di sini kami hanya ingin memperkenalkan ini dilakukan dengan sangat baik dan initializer ke true untuk menentukan

10:37.160 --> 10:41.230
bahwa Don't Voivode ini akan sama dengan true ketika permainan dilakukan.

10:41.260 --> 10:46.790
Itu akan berguna untuk nanti sehingga AI tidak bermain tanpa batas waktu untuk keluar.

10:46.820 --> 10:47.350
Baiklah.

10:47.390 --> 10:54.320
Jadi pada dasarnya itulah awal dari fungsi tren ini dengan beberapa inisialisasi dan beberapa hal yang harus

10:54.320 --> 10:55.370
kita lakukan.

10:55.370 --> 11:00.560
Bagian terpenting di sini adalah kita harus mencabut hak setiap agen peserta pelatihan.

11:00.560 --> 11:04.890
Itulah salah satu prinsip pertama A3 yang serupa yang harus kita terapkan.

11:05.160 --> 11:09.780
Dan sekarang di tutorial selanjutnya kita akan melanjutkan ke sinkronisasi dengan model bersama.

11:09.830 --> 11:14.810
Jangan lupa bahwa ada model yang berbeda tetapi juga model berbagi yang merupakan model yang

11:14.810 --> 11:16.180
dimiliki oleh semua agen.

11:16.190 --> 11:22.430
Jadi kami harus menyinkronkan dengan model acara sehingga setiap agen bisa mendapatkan model bersama ini untuk

11:22.520 --> 11:25.990
melanjutkan ke eksplorasi kecil dari sejumlah langkah tertentu.

11:26.000 --> 11:28.080
Jadi itulah yang akan kita lakukan di Statoil berikutnya.

11:28.130 --> 11:29.710
Dan sampai saat itu nikmati AI.