WEBVTT

00:00.480 --> 00:03.160
Halo dan selamat datang di tutorial Python ini.

00:03.180 --> 00:03.520
Baiklah.

00:03.520 --> 00:08.810
Dalam minyak ini kita akan membuat fungsi yang akan memilih tindakan yang tepat dan setiap waktu.

00:08.810 --> 00:13.650
Jadi pada dasarnya kita akan mengimplementasikan bagian yang akan membuat mobil menjadi langkah yang tepat.

00:13.740 --> 00:18.780
Dan setiap kali itu berbelok ke kiri lurus atau ke kanan untuk mencapai tujuan dan

00:18.780 --> 00:20.640
untuk menghindari rintangan yang turun.

00:21.000 --> 00:22.350
Jadi mari kita lakukan ini sekarang.

00:22.370 --> 00:28.320
Kita akan mulai seperti biasanya dengan tuli untuk mendefinisikan suatu fungsi dan kemudian kita memberi

00:28.320 --> 00:36.370
nama untuk fungsi kita yang akan kita sebut tindakan pilih daripada beberapa tanda kurung dan fungsi tindakan pilih ini akan mengambil

00:36.550 --> 00:37.410
dua argumen.

00:37.450 --> 00:43.960
Yang pertama adalah diri saat Anda tumbuh untuk merujuk pada objek dan argumen kedua yang menurut

00:43.960 --> 00:46.150
Anda akan menjadi yang mana.

00:46.390 --> 00:47.860
Yah, apa itu?

00:47.860 --> 00:54.220
Jika Anda memikirkannya, tindakan yang kami pilih berasal dari output jaringan saraf karena output dari jaringan saraf

00:54.220 --> 00:59.890
atau nilai q untuk masing-masing dari tiga tindakan yang mungkin dan oleh karena itu

00:59.890 --> 01:05.980
tindakan yang kami mainkan tindakan yang akan menjadi output dari jaringan saraf tergantung pada keadaan input

01:05.980 --> 01:11.610
dan keadaan input adalah argumen kedua yang kita butuhkan dengan fungsi tindakan pilih.

01:11.680 --> 01:16.310
Itu karena kita benar-benar akan mengambil output dari jaringan saraf.

01:16.510 --> 01:22.180
Dan tentu saja output dari jaringan saraf langsung tergantung pada input dari jaringan saraf.

01:22.360 --> 01:24.010
Jadi itu akan menjadi argumen kami.

01:24.280 --> 01:31.720
Dan sekarang kita dapat memberikannya nama apa pun yang sebenarnya kita sebut keadaan itu karena input dari jaringan

01:31.960 --> 01:38.280
saraf adalah status masukan yang dikodekan oleh vektor lima dimensi menjadi tiga sinyal orientasi

01:38.480 --> 01:39.920
dan minus orientasi.

01:40.120 --> 01:42.120
Dan sekarang segalanya menjadi mudah.

01:42.160 --> 01:47.860
Kita akan memasukkan status input ke jaringan saraf yang kita bangun tepat di atas sini

01:47.860 --> 01:54.520
dengan kelas berikutnya dan kemudian kita akan mendapatkan output yang merupakan nilai kunci untuk masing-masing dari tiga tindakan

01:54.520 --> 01:59.530
yang mungkin dan kemudian menggunakan metode soft Max yang akan saya jelaskan di

01:59.530 --> 02:00.360
tutorial ini.

02:00.400 --> 02:03.140
Kita akan mendapatkan aksi terakhir untuk dimainkan.

02:03.280 --> 02:08.460
Jadi mari kita lakukan ini, mari kita masuk ke fungsi dan mari kita terapkan semua ini.

02:08.470 --> 02:14.980
Jadi hal pertama yang perlu kita mulai adalah tentang apa yang baru saja saya sebutkan, Max. Ide soft

02:14.980 --> 02:20.590
Max adalah bahwa kita akan mencoba untuk mendapatkan aksi terbaik untuk dimainkan setiap saat.

02:20.740 --> 02:25.000
Tetapi pada saat yang sama kami akan mengeksplorasi tindakan yang berbeda.

02:25.000 --> 02:25.950
Dan bagaimana kita melakukannya.

02:25.960 --> 02:31.080
Bagaimana kita bisa mendapatkan aksi terbaik untuk dimainkan sambil tetap mengeksplorasi aksi lainnya.

02:31.270 --> 02:39.250
Yah kami menggunakan ide barang yang terdiri dari menghasilkan distribusi probabilitas untuk masing-masing nilai

02:39.250 --> 02:40.370
q.

02:40.420 --> 02:42.100
Q Menyatakan tindakan.

02:42.160 --> 02:46.600
Sekarang kita memiliki satu nilai Q untuk setiap tindakan ke kiri ke kanan atau ke kanan.

02:46.850 --> 02:49.680
Tetapi nilai q ini juga tergantung pada kondisi input.

02:49.690 --> 02:52.720
Itulah fungsi Q yang digunakan pada kuliah intuisi.

02:52.870 --> 02:56.280
Fungsi Q ini adalah fungsi dari negara dan tindakan.

02:56.320 --> 03:02.540
Jadi, karena di sini kita memiliki satu negara input yang merupakan negara di sini dan tiga

03:02.540 --> 03:09.070
kemungkinan tindakan, kita memiliki tiga nilai baru Q. State action 1 Q state action 2 dan two

03:09.070 --> 03:13.760
state action 3 dan kami akan menghasilkan distribusi probabilitas sehubungan dengan tiga nilai utama ini.

03:13.930 --> 03:19.420
Artinya kita akan memiliki satu probabilitas untuk nilai Q pertama, salah satu probabilitas untuk

03:19.420 --> 03:25.490
nilai Q kedua dan probabilitas ketiga untuk Q ketiga. Dan ketiga probabilitas tersebut akan berjumlah hingga 1.

03:25.670 --> 03:31.840
Dan jadi kita akan melakukan semua ini dengan Max yang dihantam dan Max yang tertahan akan mengaitkan probabilitas besar dengan

03:32.170 --> 03:33.530
Q tertinggi di sekitar.

03:33.820 --> 03:41.050
Itu sebabnya alternatif untuk soft Max adalah RMX sederhana tanpa langsung mengambil nilai q maksimum tetapi dalam

03:41.530 --> 03:44.860
kasus itu kami tidak mengeksplorasi tindakan lain.

03:44.920 --> 03:50.500
Berkat probabilitas ini, kami dapat menjelajahi di tempat lain menggunakan parameter suhu yang akan kami lihat

03:50.500 --> 03:51.900
dengan sangat cepat.

03:52.210 --> 03:55.990
Kita masih bisa menjelajahinya dengan mengkonfigurasi parameter suhu ini.

03:56.020 --> 04:03.380
Itu sebabnya secara umum untuk keamanan saya sangat merekomendasikan untuk menggunakan soft x daripada RMX sederhana.

04:03.460 --> 04:06.990
Baiklah jadi mari kita mengimplementasikan X dan karena itu seperti yang Anda mengerti.

04:07.060 --> 04:12.990
Karena soughed Max mengembalikan probabilitas masing-masing dari tiga nilai Q untuk tiga tindakan yang mungkin.

04:13.180 --> 04:20.120
Yah variabel pertama yang akan kita buat mungkin merujuk tentu saja untuk probabilitas ini.

04:20.450 --> 04:26.680
Jadi alat peraga sama dengan dan sekarang kita akan mengambil fungsi berikutnya yang disedot dan menurut Anda dari

04:26.680 --> 04:28.070
mana kita akan mengambilnya.

04:28.330 --> 04:31.600
Yah tentu saja ingat kami mengimpor.

04:31.700 --> 04:38.130
Dan kemudian apakah submodule fungsional yang saya ingatkan adalah modul yang berisi sebagian besar tindakan untuk

04:38.140 --> 04:39.790
mengimplementasikan jaringan saraf.

04:39.820 --> 04:44.980
Kami memberikannya jalan pintas F dan itu sebenarnya dari submodule fungsional ini yang akan

04:44.980 --> 04:46.990
kita ambil sendiri fungsi berikutnya.

04:47.290 --> 04:53.830
Tetapi karena kita memberikannya jalan pintas, kita mulai di sini dengan Neph yang mewakili fungsional yang darinya kita mengambil

04:54.040 --> 04:56.080
fungsi berikutnya yang kita soughed.

04:56.080 --> 04:56.920
Ini dia.

04:56.980 --> 04:59.540
Itu yang pertama dan kurung.

04:59.770 --> 05:00.160
Baiklah.

05:00.200 --> 05:03.920
Sekarang apa yang perlu kita input di fungsi selanjutnya.

05:04.150 --> 05:10.020
Yah itu tentu saja entitas yang kita inginkan untuk menghasilkan distribusi probabilitas.

05:10.190 --> 05:11.430
Dan apa saja entitas-entitas ini.

05:11.550 --> 05:13.870
Yah ini tentu saja nilai-nilai kuncinya.

05:13.870 --> 05:16.790
Jadi sekarang pertanyaannya adalah bagaimana kita bisa mendapatkan nilai q.

05:16.960 --> 05:22.720
Yah tentu saja nilai q adalah output dari jaringan saraf dan untuk mendapatkan output dari jaringan

05:22.720 --> 05:23.410
saraf.

05:23.590 --> 05:24.560
Baiklah, ini dia.

05:24.610 --> 05:26.830
Kami perlu mengambil jaringan baru kami.

05:27.100 --> 05:33.520
Tetapi sebenarnya kita sudah memilikinya karena itulah yang diinisialisasi pada akhirnya fungsinya.

05:33.530 --> 05:39.980
Tahu kami menciptakan model otodidak yang tidak lain adalah tidak akan berhasil karena itu adalah objek baru

05:40.290 --> 05:41.540
dari kelas jaringan.

05:41.600 --> 05:42.820
Dan itu sempurna.

05:42.830 --> 05:49.040
Kami hanya dapat mengambil model kami di sini dan hal-hal selanjutnya menerapkan model ini ke keadaan input yang merupakan

05:49.040 --> 05:52.950
argumen di sini dan itu akan mengembalikan output yang kami cari.

05:53.090 --> 05:54.440
Itulah nilai-nilai kuncinya.

05:54.560 --> 06:00.260
Dan sekarang intuisi Anda mengapa kami harus mengambil model di sini untuk memperkenalkannya dalam fungsi mungkin menjadi lebih

06:00.260 --> 06:00.840
baik.

06:00.920 --> 06:06.410
Bagi Anda yang memulai dengan pemrograman berorientasi objek, Anda akan melihat bahwa semua ini akan

06:07.100 --> 06:08.780
menjadi sangat alami kemudian.

06:08.870 --> 06:16.840
Jadi kita mengambil model diri kita karena ini harus menjadi model dari objek yang kita buat di sini.

06:17.180 --> 06:24.350
Tetapi kemudian kita perlu mendapatkan output dari model jaringan saraf kita dan oleh karena itu kita akan mendengar

06:24.350 --> 06:30.400
beberapa tanda kurung di mana kita akan memasukkan Nah kondisi input bernama negara di sini.

06:30.620 --> 06:39.350
Jadi apa yang ingin kita lakukan pada mulanya adalah memasuki keadaan tetapi sekarang kita harus berhati-hati terhadap sesuatu yang tampak seperti kumpulan

06:39.350 --> 06:40.560
sederhana sekarang.

06:40.790 --> 06:46.850
Tetapi ingat bahwa keadaan sebenarnya akan menjadi sensor obor karena nanti kita akan menggunakan sel

06:46.920 --> 06:52.190
ini pada keadaan kurang untuk menempatkannya sebagai argumen dari fungsi tindakan Pilih.

06:52.190 --> 06:57.430
Argumen negara yang ada di sini sebenarnya akan menjadi keadaan otodidak yang lebih belakangan ini.

06:57.680 --> 07:01.680
Dan karena ini adalah dunia jawaban yang tersiksa, model itu akan menerimanya.

07:01.760 --> 07:02.690
Jadi itu tidak masalah.

07:02.810 --> 07:05.000
Tapi sekarang kita bisa meningkatkan algoritme.

07:05.180 --> 07:12.490
Jadi segera setelah negara adalah sensor obor dan seperti yang kami katakan sebelumnya sebagian besar sensor dibungkus menjadi

07:12.500 --> 07:13.260
voivode.

07:13.320 --> 07:15.640
Ini juga akan mengandung gradien.

07:15.650 --> 07:22.110
Jadi sekarang apa yang akan kita lakukan pertama adalah membungkus keadaan input ini yang merupakan

07:22.110 --> 07:27.990
tensor ke dalam obor dengan sangat baik tetapi karena ini adalah status input.

07:28.160 --> 07:34.700
Kami tidak akan menggunakan gradien status obor Voivode ini dan itu bisa menjadi

07:34.880 --> 07:45.530
stasiun dan oleh karena itu apa yang akan kita lakukan sekarang adalah mengubah status sensor obor ini menjadi variabel obor seperti itu.

07:45.780 --> 07:51.400
Tetapi kemudian untuk menentukan bahwa kita tidak ingin gradien dalam grafik sama sekali yang dapat predasi pada

07:51.400 --> 07:52.380
akhir Mudgal.

07:52.570 --> 07:57.800
Nah kita di sini akan muncul volatile sama dengan true.

07:58.150 --> 08:06.160
Sehingga sekarang kita memiliki negara kita membakar sensor ke dalam obor dengan sangat baik tetapi berkat Votel ini sama dengan

08:06.160 --> 08:07.200
barometer sejati.

08:07.390 --> 08:14.950
Kita akan memasukkan gradien yang terkait dengan status input ini ke grafik semua kondisi akhir dalam

08:15.100 --> 08:16.530
model itu.

08:16.840 --> 08:18.530
Jadi itu trik teknis lainnya.

08:18.550 --> 08:23.130
Ini akan menghemat memori dan karenanya meningkatkan kinerja.

08:23.170 --> 08:27.850
Jadi saya sangat merekomendasikan untuk melakukan ini dan sekarang kita akan menambahkan sesuatu yang lebih menyenangkan.

08:27.910 --> 08:30.640
Ini tentang parameter suhu ini yang baru saja saya sebutkan.

08:30.850 --> 08:36.190
Jadi parameter suhu ini adalah parameter yang memungkinkan kita memodulasi bagaimana jaringan saraf

08:36.190 --> 08:40.040
akan memastikan tindakan mana yang harus diputuskan untuk dimainkan.

08:40.210 --> 08:47.290
Jadi parameter suhu ini akan menjadi angka positif dan semakin dekat ke nol semakin tidak yakin jaringan saraf

08:47.290 --> 08:53.200
akan ketika bermain dalam aksi dan semakin tinggi parameter suhu semakin yakin jaringan saraf

08:53.410 --> 08:56.540
akan tindakan yang diputuskan untuk bermain .

08:56.890 --> 09:04.480
Dan untuk menambahkan parameter ini saya akan melipatgandakan output yang merupakan Kugan yang digunakan oleh parameter suhu

09:04.480 --> 09:05.250
ini.

09:05.500 --> 09:13.440
Jadi mari kita mulai misalnya dengan 7 dan saya akan tentukan di sini komentar kecil T sama dengan 7.

09:13.460 --> 09:15.610
Jadi itulah parameter suhu.

09:15.690 --> 09:17.210
Maaf saya pergi ke 7.

09:17.260 --> 09:21.010
Kami akan mencoba beberapa yang lain tetapi saya hanya ingin memulai dengan yang kecil karena Anda

09:21.010 --> 09:22.470
akan melihatnya dengan yang kecil.

09:22.510 --> 09:28.150
Mobil kami masih akan berperilaku seperti sejenis serangga, tetapi kemudian dengan meningkatkan parameter suhu,

09:28.510 --> 09:34.340
kode kami akan lebih mirip mobil dan memutuskan untuk menjual mengemudi akan jauh lebih baik.

09:34.480 --> 09:40.450
Dan itu masuk akal karena semakin tinggi parameter suhu ini semakin tinggi

09:40.450 --> 09:48.010
akan probabilitas Juval me yang menang karena misalnya jika kita memiliki soft max dari nilai q.

09:48.190 --> 09:54.850
Mari kita ambil beberapa angka sederhana satu dua tiga jika jumlah maksimal satu hingga tiga sama.

09:54.850 --> 10:01.150
Misalnya 0. 04 0. 11 dan buka delapan puluh lima.

10:01.270 --> 10:05.650
Kemudian dengan meningkatkan suhu dengan mengambil suhu yang lebih tinggi.

10:05.680 --> 10:13.360
Sekarang suhu sama dengan satu dengan mengambil suhu tinggi seperti misalnya Tussaud kurangi mari kita

10:13.360 --> 10:22.210
salin ini dan kalikan dengan misalnya dua atau tiga jadi selanjutnya memiliki nilai yang sama tetapi dikalikan dengan

10:22.210 --> 10:24.110
parameter suhu tiga.

10:24.370 --> 10:31.390
Yah kita akan mendapatkan sesuatu seperti nol untuk nilai Q pertama karena ini memiliki probabilitas sangat

10:31.530 --> 10:38.020
rendah bahwa sekitar nol maka sesuatu yang sangat kecil untuk probabilitas kedua karena ini masih

10:38.020 --> 10:39.260
probabilitas rendah.

10:39.410 --> 10:42.910
Jadi katakanlah misalnya atau titik 0 2.

10:43.320 --> 10:49.910
Tetapi probabilitas ketiga ini karena itu adalah yang terbesar dan yang cukup tinggi.

10:50.140 --> 10:55.180
Nah meningkatkan suhu probabilitas ini akan lebih besar karena kita akan menjadi lebih yakin

10:55.180 --> 11:02.230
bahwa ini adalah nilai Q yang tepat sesuai dengan tindakan yang harus kita mainkan dan karena itu ini akan

11:02.230 --> 11:05.630
menjadi sesuatu seperti 0 2 98.

11:05.980 --> 11:11.800
Sekarang dengan meningkatkan parameter suhu Yah kita sekarang bahkan lebih yakin bahwa tindakan ketiga di sini

11:11.800 --> 11:17.530
harus menjadi tindakan untuk dimainkan karena probabilitas untuk nilai q dari tindakan ini tidak hanya yang

11:17.530 --> 11:19.590
terbesar tetapi juga sangat tinggi.

11:19.840 --> 11:22.600
Jadi itulah yang menjadi parameter suhu ini.

11:22.660 --> 11:27.340
Ini tentang kepastian ke arah mana kita harus memutuskan untuk bermain.

11:27.340 --> 11:27.610
Baiklah.

11:27.610 --> 11:29.450
Jadi saya akan menghapus komentar ini.

11:29.470 --> 11:31.000
Ini hanya untuk menjelaskan.

11:31.200 --> 11:33.490
Dan sekarang mari kita bertindak.

11:33.490 --> 11:35.370
Jadi bagaimana Anda akan melakukannya.

11:35.560 --> 11:41.440
Nah prinsip dari metode selanjutnya adalah tidak hanya untuk menghasilkan distribusi probabilitas untuk masing-masing nilai

11:41.440 --> 11:46.390
kunci tetapi juga dan itulah langkah kedua dari metode selanjutnya yang lunak.

11:46.480 --> 11:51.820
Kami mengambil undian acak dari distribusi ini untuk mendapatkan tindakan final kami.

11:52.010 --> 11:57.310
Dan tentu saja kita akan memiliki peluang tinggi untuk mendapatkan tindakan yang sesuai dengan

11:57.310 --> 12:01.660
nilai Q yang memiliki probabilitas tertinggi karena itulah cara kerja distribusi.

12:01.660 --> 12:02.550
Jadi begitulah.

12:02.560 --> 12:04.040
Ayo ambil tindakan kita.

12:04.060 --> 12:11.380
Jadi kita akan memperkenalkan Voivode baru yang akan kita panggil aksi dan tindakan ini akan menjadi

12:11.380 --> 12:17.460
penarikan acak dari distribusi probabilitas yang baru saja kita buat saat ini.

12:17.510 --> 12:20.100
Dan jadi bagaimana kita mendapatkan undian acak.

12:20.200 --> 12:26.410
Kita akan mengambil probabilitas prop kita masing-masing dari nilai-nilai kunci yang kita ambil props

12:26.650 --> 12:34.120
dan kemudian melesat dan kemudian kita akan menggunakan fungsi multi Gnomeo dan itu akan memberi kita undian acak

12:34.120 --> 12:36.030
dari proses distribusi ini.

12:36.160 --> 12:38.420
Jadi hanya itu yang akan mendapatkan reaksinya.

12:38.470 --> 12:39.280
Sempurna.

12:39.490 --> 12:42.790
Dan sekarang tentu saja kita akan mengembalikan aksinya.

12:42.790 --> 12:44.730
Ada sedikit trik di sini.

12:44.810 --> 12:51.460
Apa fakta bahwa Propst yang multinomial ini mengembalikan PI ke arah yang layak dengan lencana palsu.

12:51.490 --> 12:57.210
Anda tahu berlian palsu ini dan sesuai dengan batch dan karena itu untuk mendapatkan hasil yang tepat yang

12:57.220 --> 13:00.540
kita inginkan itu adalah tindakan di 0 1 atau 2.

13:00.820 --> 13:08.200
Kita hanya perlu menambahkan data di sini dan kemudian beberapa tanda kurung dan tindakan di sini adalah satu atau

13:08.230 --> 13:13.100
dua yang kita cari adalah konten dan indeks adalah 0 dan 0.

13:13.570 --> 13:14.000
Baiklah.

13:14.000 --> 13:14.730
Dan kita mulai.

13:14.740 --> 13:21.420
Sekarang kami memiliki tindakan kami berkat fungsi tindakan pilih ini AI sekarang akan tahu tindakan mana yang harus dimainkan.

13:21.490 --> 13:22.440
Dan setiap saat.

13:22.810 --> 13:23.460
Hebat.

13:23.500 --> 13:27.430
Jadi sekarang kita bisa beralih ke fungsi berikutnya yang akan menjadi fungsi belajar.

13:27.520 --> 13:32.410
Dan di situlah kami akan melatih seluruh jaringan saraf yang Anda tahu dengan semua propagasi

13:32.410 --> 13:35.790
maju dan kemudian propagasi belakang adalah untuk mengkategorikan dalam arti.

13:35.950 --> 13:41.500
Yah pada dasarnya kita akan menerapkan seluruh pelatihan model pembelajaran mendalam yang merupakan jantung

13:41.560 --> 13:43.340
dari kecerdasan buatan kita.

13:43.480 --> 13:44.680
Jadi saya tidak sabar untuk melakukan itu.

13:44.680 --> 13:49.290
Ini akan menjadi tutorial yang menarik dan saya akan melihat Anda di Statoil berikutnya.

13:49.510 --> 13:50.670
Sampai kemudian menikmati.

13:50.720 --> 13:51.000
SAYA.