WEBVTT

00:00.450 --> 00:02.670
Halo dan selamat datang di pola ini horor.

00:02.850 --> 00:06.890
Baiklah, jadi kami baru saja memperbarui memori setelah mencapai status baru.

00:06.900 --> 00:09.010
Dan sekarang mari kita selesaikan hari berikutnya.

00:09.330 --> 00:12.810
Menurut Anda sekarang apa yang akan menjadi pembaruan berikutnya.

00:12.810 --> 00:20.040
Yah pada dasarnya kita sudah selesai dengan satu transisi kita telah tanggal elemen terakhir dari transisi yang merupakan

00:20.040 --> 00:20.960
negara baru

00:21.150 --> 00:23.340
Jadi sekarang kita mulai dari awal lagi.

00:23.520 --> 00:25.530
Dan ketika kami memulai dari awal lagi.

00:25.650 --> 00:31.320
Sepertinya Anda tahu kita berada dalam keadaan lingkungan yang baru ini dan apa yang perlu kita lakukan sekarang secara alami.

00:31.500 --> 00:37.170
Yah tentu saja itu untuk memainkan tindakan karena kita sudah mendapat pengamatan dari berita Amerika.

00:37.410 --> 00:43.290
Sekarang hal yang harus kita lakukan adalah memainkan suatu tindakan dan oleh karena itu apa yang perlu kita

00:43.290 --> 00:46.960
lakukan sekarang tentu saja menggunakan fungsi tindakan pilih untuk memainkan tindakan.

00:47.010 --> 00:54.320
Jadi mari kita lakukan, mari kita buat tindakan Voivode baru dan mari kita mainkan tindakan dengan tindakan pilih jadi

00:54.320 --> 00:55.240
saya ambil

00:55.380 --> 01:03.150
Yah pertama-tama diri untuk menentukan bahwa fungsi tindakan pilih adalah metode dari objek kelas yang

01:03.150 --> 01:04.300
akan dibuat.

01:04.470 --> 01:08.610
Jadi diri yang memilih tindakan.

01:08.640 --> 01:09.520
Kita mulai.

01:09.560 --> 01:11.090
Jadi itulah tindakan selanjutnya.

01:11.310 --> 01:17.560
Dan tentu saja karena fungsi tindakan pilih mengambil status sebagai input karena tentu saja

01:17.560 --> 01:24.270
fungsi tindakan pilih akan mengembalikan output dari jaringan saraf ketika keadaan input saat ini memasuki

01:24.270 --> 01:25.220
jaringan saraf.

01:25.500 --> 01:31.650
Jadi kita harus memasukkan tahap input di sini dan karena itulah keadaan yang baru saja kita capai di

01:31.650 --> 01:37.350
lingkungan saat ini di mana keadaan input tentu saja Anda nyatakan karena keadaan yang baru saja

01:37.350 --> 01:40.070
kami capai pada saat ini adalah Newstead.

01:40.290 --> 01:45.140
Jadi, dalam fungsi tindakan pilih ini maksud saya menempatkan tongkat baru.

01:45.150 --> 01:51.710
Baiklah dengan baris kode ini kita cukup memainkan aksi baru setelah mencapai status baru.

01:52.140 --> 01:58.780
OK dan sekarang kita memainkan suatu tindakan. Baik kita mendapatkan hadiah dan karena itu kita mendapatkan umpan balik dengan hadiah itu.

01:59.010 --> 02:04.550
Dan karena itu jika kita memiliki lebih dari 100 elemen dalam memori Yah itu akan menjadi waktu untuk belajar.

02:04.860 --> 02:10.830
Dan karena itu apa yang harus kita lakukan sekarang adalah apa yang secara logis muncul setelah memilih tindakan

02:10.830 --> 02:13.830
yang tentu saja untuk menurunkan AI perlu mulai belajar.

02:13.950 --> 02:15.620
Jika melakukan hal-hal dengan cara yang benar.

02:15.870 --> 02:22.530
Dan sekarang karena hanya memainkan aksinya dengan baik kita akan membuat AI belajar dari aksinya dalam

02:22.530 --> 02:23.940
100 acara terakhir.

02:24.130 --> 02:31.320
Tetapi sebelum kita menerapkan fungsi yang dipelajari ini, kita harus membuat kondisi ini untuk memastikan bahwa kita telah

02:31.320 --> 02:37.380
mencapai lebih dari 100 peristiwa karena Anda tahu kita belajar dari sampel acak dari memori.

02:37.530 --> 02:41.110
Anda tahu kami memiliki memori yang sangat besar ini dari 10.000 elemen.

02:41.190 --> 02:48.930
Kami mengambil beberapa sampel acak dari memori 100 elemen dan AI belajar dari informasi yang

02:48.990 --> 02:52.850
terkandung dalam sampel 100 transisi acak ini.

02:52.860 --> 03:00.690
Jadi mari kita buat ini jika kondisi untuk memastikan bahwa jumlah elemen memori dari memori itu dan kemudian

03:00.810 --> 03:06.390
berhati-hati hanya sedikit trik di sini memori otodidak adalah objek dari kelas

03:06.390 --> 03:12.380
memori replay Anda tetapi kemudian kelas memori replay memiliki atribut yang merupakan memori.

03:12.510 --> 03:21.780
Jadi sebenarnya kita perlu mengambil beberapa memori yang memori memori pertama adalah objek dari kelas memori

03:21.780 --> 03:28.170
replay dan memori kedua adalah atribut di sini memori itu sendiri.

03:28.200 --> 03:37.350
Jadi jika jumlah elemen dalam memori baik kita ingin lebih besar dari 100 maka Cullin Dan kemudian apa yang

03:37.860 --> 03:38.800
terjadi.

03:38.970 --> 03:46.320
Kita bisa belajar tetapi untuk belajar kita perlu mendapatkan sampel acak ini 100 transisi dan ini bisa

03:46.320 --> 03:48.840
kita dapatkan dengan fungsi sederhana.

03:48.840 --> 03:55.140
Dan karena fungsi sederhana mengembalikan kumpulan berbeda untuk menyatakan pada saat t data ini 20 ditambah satu tindakan

03:55.290 --> 03:57.950
waktu t dan kami berada di 20.

03:58.200 --> 04:03.360
Nah yang perlu kita lakukan sekarang adalah membuat beberapa kebangunan rohani baru yang akan

04:03.360 --> 04:08.580
menjadi kumpulan negara bagian pada waktu t kumpulan tanggal berikutnya kumpulan kata-kata dan kumpulan tindakan

04:08.580 --> 04:16.030
dan kita hanya dapat memberikan nama yang sama seperti yang kami berikan untuk argumen di sini dan mereka ada di sini.

04:16.200 --> 04:24.720
Dan variabel-variabel ini akan sama dengan apa yang dikembalikan fungsi sederhana karena ia mengembalikan bets-bets ini dengan tepat

04:24.720 --> 04:28.320
dan negara selanjutnya mengambil kata-kata dan tindakan.

04:28.320 --> 04:35.570
Jadi yang perlu kita lakukan sekarang adalah mendapatkan dulu objek memori kita dan kemudian dari objek memori ini

04:35.620 --> 04:40.300
kita akan menggunakan metode sederhana yang akan diambil sebagai input.

04:40.500 --> 04:46.370
Jumlah transisi yang kita inginkan dari AI adalah 100.

04:46.620 --> 04:50.540
Itu sebabnya kami memastikan bahwa kami memiliki lebih dari seratus transisi.

04:50.610 --> 04:54.780
Jadi itu akan belajar dari 100 transisi memori.

04:54.840 --> 04:56.500
Jadi pembelajarannya akan jauh lebih baik.

04:56.610 --> 04:59.560
Dan sekarang mari kita mewujudkannya.

04:59.700 --> 05:04.560
Nah karena metode belajar adalah metode di kelas kami.

05:04.830 --> 05:11.180
Kita perlu mengakses metode Belajar ini dari objek masa depan yang akan dibuat dari kelas yang berbeda dan oleh

05:11.190 --> 05:14.300
karena itu apa yang perlu kita ambil adalah diri.

05:14.430 --> 05:21.960
Diri mengacu pada tujuan yang harus dilakukan selama kelas dan kemudian belajar sebagai metode ini belajar metode belajar

05:22.470 --> 05:29.340
yang ketika menempatkan Tentu saja orang-orang ini di sini keadaan buruk negara Belgia dunia alami dan

05:29.340 --> 05:30.530
tindakan Bachche.

05:30.630 --> 05:38.730
Ini adalah kumpulan kami yang diambil dari ingatan kami dan kami mendapatkan 100 darinya karena kami memiliki 100 transisi

05:39.330 --> 05:47.750
dari 100 transisi ini kami mengambil 100 Negara 100 negara bagian berikutnya 100 hadiah dan 100 tindakan mari kita hadapi

05:47.780 --> 05:51.530
di sana-sini kita pergi sekarang pembelajaran akan terjadi.

05:51.850 --> 05:54.490
Ini akan terjadi dari semua batch acak ini.

05:54.520 --> 05:55.850
Sempurna.

05:55.960 --> 06:03.310
Dan sekarang yang perlu kita lakukan adalah pembaruan terakhir setelah Anda tahu mencapai negara baru dan bermain dalam

06:03.310 --> 06:04.140
aksi.

06:04.330 --> 06:08.890
Yah kami membuat Anda benar-benar bermain tetapi kami masih tidak memiliki reaksi itu.

06:08.920 --> 06:11.590
Itulah diri kita yang bertindak sebagai voivode terakhir.

06:11.770 --> 06:13.730
Jadi mari kita pastikan kita tidak melupakan ini.

06:13.780 --> 06:15.160
Ayo lakukan sekarang.

06:15.190 --> 06:24.610
Kami akan memperbarui tindakan terakhir yang sama dengan tindakan terakhir dan tentu saja tindakan tindakan yang kami tinggal di sini

06:24.610 --> 06:27.020
dengan fungsi tindakan pilih ini.

06:27.020 --> 06:30.520
Baiklah sekarang, bagian terakhir diperbarui kemudian.

06:30.520 --> 06:31.890
Sama untuk negara baru.

06:31.930 --> 06:39.190
Kami mencapai negara baru tetapi kami belum memperbarui tanggal terakhir karena tentu saja yang terakhir sebelum negara

06:39.280 --> 06:40.590
pada waktu t.

06:40.750 --> 06:44.870
Tetapi sejak sekarang kita mencapai surplus negara baru ketika tiba saatnya untuk melewatinya.

06:45.070 --> 06:48.180
Nah yang terakhir menjadi ini, Anda katakan di sini.

06:48.190 --> 06:50.290
Karena itu kita perlu diperbarui juga.

06:50.290 --> 06:57.070
Diri yang terakhir sama dengan negara baru kita.

06:57.280 --> 06:58.020
Itu dia.

06:58.210 --> 06:59.620
Dan sekarang apa yang perlu kita kencani.

06:59.830 --> 07:01.640
Nah hanya ada satu hal yang tersisa.

07:01.660 --> 07:08.070
Tentu saja kata itu dan kata itu persis kata yang kita dapatkan dalam kenyataan.

07:08.290 --> 07:15.910
Jadi itu akan menjadi argumen dari fungsi ini yang jika kita membuat koneksi ke peta kita akan menjadi

07:15.910 --> 07:17.160
kata terakhir.

07:17.200 --> 07:23.250
Itulah kata yang kami dapatkan setelah memainkan aksi di negara baru ini.

07:23.470 --> 07:30.260
Jadi jika kita melanjutkan ke beberapa suara kata terakhir ini akan menjadi minus satu jika kita melangkah lebih jauh dari kita

07:30.290 --> 07:35.580
akan mendapatkan kata yang sedikit buruk minus 0 2 jika kita lebih dekat ke tujuan.

07:35.660 --> 07:38.680
Kami akan mendapatkan hadiah yang sedikit bagus 0. 1.

07:38.830 --> 07:43.370
Dan jika kita terlalu dekat ke tepi peta, itu akan menjadi hukuman.

07:43.510 --> 07:45.330
Kami akan mendapatkan minus satu untuk masing-masing.

07:45.440 --> 07:47.110
Jadi itulah kata terakhir yang kita dapat.

07:47.110 --> 07:50.700
Pada kenyataannya saat itulah yang terjadi nyata pada peta.

07:50.830 --> 07:53.550
Dan ini akan menjadi argumen fungsi.

07:53.600 --> 07:54.690
Kata terakhir di sini.

07:54.700 --> 07:56.200
Persis seperti ini.

07:56.250 --> 08:01.840
Dan karena ini adalah argumen dari fungsi pembaruan dengan baik yang

08:02.170 --> 08:11.590
sesuai dengan ini, kita tidak di sini dan oleh karena itu diri kita bahwa variabel kata terakhir diinisialisasi pada awal dalam

08:12.070 --> 08:20.570
fungsi ini menjadi kata baru yang kita dapatkan pada kenyataannya yaitu kata atau itu kata terakhir yang sama.

08:20.730 --> 08:21.360
Baiklah.

08:21.410 --> 08:23.680
Sekarang kami memperbarui kata terakhir kami.

08:23.990 --> 08:27.240
Dan sekarang karena kita baru saja mendapatkan kata terakhir.

08:27.500 --> 08:29.470
Kita sekarang bisa berkencan dengan dunia.

08:29.850 --> 08:37.140
Anda ingat perang ketika mereka kita inisialisasi di sini sebagai salah satu variabel dari objek kelas kita.

08:37.190 --> 08:42.500
Itulah jendela yang akan melacak bagaimana kereta ini berjalan dengan mengambil rata-rata

08:42.500 --> 08:44.270
100 hadiah terakhir.

08:44.300 --> 08:50.180
Jadi Anda tahu itu akan seperti jendela geser yang menunjukkan kepada kita bagaimana rata-rata dunia berkembang.

08:50.180 --> 08:52.730
Dan karena kita baru saja mendapatkan kata terakhir.

08:52.910 --> 08:56.910
Yah kita bisa memperbarui jendela kita ke bagaimana kita memperbaruinya.

08:57.080 --> 09:03.680
Yah kita hanya perlu menambahkan kata terakhir ini ke jendela dan oleh karena itu apa yang

09:03.980 --> 09:12.350
akan saya lakukan adalah membawa jendela perang saya sendiri yang kami katakan ketika mereka mendengar ini dan saya akan menggunakan fungsi append.

09:12.530 --> 09:18.830
Dan di dalam fungsi terbuka kita perlu memasukkan elemen yang ingin kita tambahkan ke kita ketika

09:18.830 --> 09:21.480
melakukan itu tentu saja kita mau.

09:21.500 --> 09:22.610
Baiklah, sempurna.

09:22.610 --> 09:29.480
Dan karena jendela perang ini akan memiliki ukuran tetap, Anda tahu itu bukan jendela yang sedang tumbuh

09:29.480 --> 09:35.300
itu akan menjadi jendela geser ukuran tetap dengan waktu untuk menunjukkan evolusi dunia.

09:35.500 --> 09:38.590
Dan sekarang kita perlu memutuskan untuk ukuran musim dingin ini.

09:38.750 --> 09:43.600
Dan itu hanyalah jumlah sarana imbalan yang akan kita miliki di jendela ini.

09:43.900 --> 09:49.330
Sebagai contoh, mari kita beri tahu Anda arti 1000 cara terakhir dari 100 kata terakhir.

09:49.340 --> 09:58.730
Dan untuk memastikannya kita akan menambahkan jika kemudian merencanakan maka kita ambil jendela kerja kita dan kita cukup

09:58.740 --> 10:05.810
menambahkan di sini jika jumlah elemen di jendela lebih besar dari 1000.

10:05.990 --> 10:14.780
Nah yang ingin kita lakukan adalah menghapus elemen pertama ini yang jendela kita dan elemen

10:14.780 --> 10:19.070
pertama dari jendela ini harus indeks nol.

10:19.150 --> 10:19.550
Baiklah.

10:19.550 --> 10:24.620
Sekarang kami memastikan bahwa jendela perang ini tidak akan pernah mendapatkan lebih dari 1000 elemen.

10:24.620 --> 10:31.130
Ada seribu rata-rata dari 100 kata terakhir yang sempurna ini akan menjadi jendela dengan ukuran tetap sehingga kita

10:31.310 --> 10:34.360
dapat melihat apakah rata-rata kata tersebut meningkat.

10:34.460 --> 10:39.560
Dan oleh karena itu, jika pelatihan berjalan dengan baik, maka pengadilan akan melakukan apa yang kita inginkan.

10:39.800 --> 10:40.760
Sempurna.

10:41.000 --> 10:46.010
Dan sekarang satu hal kecil yang harus dilakukan menurut Anda apa yang akan terjadi.

10:46.190 --> 10:52.130
Ingat fungsi pembaruan ini tidak hanya memperbarui berbagai elemen transisi di jendela perang,

10:52.140 --> 10:57.960
tetapi juga mengembalikan aksi yang dimainkan saat mencapai kondisi baru ini.

10:58.190 --> 11:05.270
Itulah mengapa kita memiliki dan kemudian tindakan sama dengan membawa tanggal bahwa kita kurang sinyal dan oleh karena

11:05.360 --> 11:10.760
itu seharusnya mengembalikan sesuatu dan sesuatu yang seharusnya dikembalikan tentu saja tindakan.

11:10.820 --> 11:18.950
Jadi hal terakhir sederhana yang perlu kita lakukan di sini adalah hanya mengembalikan aksi yang baru saja dimainkan ketika mencapai

11:18.950 --> 11:20.180
tahap baru.

11:20.600 --> 11:23.670
Dan itulah fungsi pembaruan kami siap.

11:23.840 --> 11:29.110
Ini akan melakukan semua pembaruan yang diperlukan dan itu akan mengubah tindakan ketika mencapai tahap baru.

11:29.480 --> 11:30.650
Itu sempurna.

11:30.650 --> 11:35.230
Itu adalah tindakan sulit terakhir untuk membuat semua ini menjadi proses.

11:35.240 --> 11:37.120
Sekarang sisanya akan menjadi barang bagus.

11:37.220 --> 11:42.170
Kami hanya akan membuat fungsi inti untuk mengembalikan cara yang kita inginkan di jendela.

11:42.200 --> 11:47.450
Kemudian kami akan membuat fungsi yang aman untuk menyelamatkan otak mobil kapan pun Anda ingin keluar dari aplikasi

11:47.600 --> 11:48.840
dan kembali ke sana.

11:48.890 --> 11:53.720
Dan tentu saja karena Anda ingin dapat memuat otak mobil Anda ketika Anda kembali ke sana

11:53.720 --> 11:54.730
kembali ke aplikasi.

11:55.040 --> 12:01.370
Yah kita akan berakhir dengan membuat fungsi beban yang akan memuat model Anda setelah Anda menyimpan model Anda

12:01.370 --> 12:02.800
dengan fungsi yang sama.

12:02.840 --> 12:06.470
Jadi tiga fungsi untuk melakukan itu tetapi itu akan menjadi sederhana.

12:06.500 --> 12:12.760
Dan kemudian kita akan memiliki bagian yang paling menarik dari modul pertama ini yaitu demo yang akan kita lihat

12:12.770 --> 12:13.840
jika udara bekerja.

12:13.850 --> 12:19.430
Kami akan melihat apakah mobil mencapai tujuan dan kami akan melihat bagaimana kami dapat meningkatkannya dan

12:19.430 --> 12:21.980
akhirnya Anda harus membangun AI pertama Anda.

12:22.160 --> 12:24.010
Jadi saya tidak sabar untuk memulai demo.

12:24.140 --> 12:27.580
Mari kita buat tiga fungsi ini terlebih dahulu dan sampai saat itu juga.