WEBVTT

00:00.650 --> 00:05.690
Halo dan selamat datang kembali ke kursus dengan I I di bagian sebelumnya kami berbicara tentang intuisi

00:05.750 --> 00:08.360
Killary pembelajaran mendalam yang kami mulai di sana.

00:08.360 --> 00:14.900
Dan sebenarnya kita benar-benar sampai pada bagian ini dan di mana kita berbicara tentang belajar dan sekarang

00:14.900 --> 00:18.200
kita akan beralih ke bagian akting yang sebenarnya.

00:18.200 --> 00:22.250
Jadi ada dua bagian untuk bagian berbeda yang harus kita ingat.

00:22.250 --> 00:25.520
Jadi itulah bagian pembelajaran tetapi sekarang dia benar-benar telah melakukan semua ini.

00:25.520 --> 00:26.390
Itu indah.

00:26.390 --> 00:30.500
Sekarang dia benar-benar harus mengambil tindakan. Dia harus memutuskan apa yang akan dia lakukan adalah melakukan tindakan

00:30.500 --> 00:31.710
satu dua tiga atau empat.

00:31.740 --> 00:32.860
Dan bagaimana dia melakukannya.

00:33.020 --> 00:39.370
Yah cara dia melakukannya sekarang diberi nilai-nilai yang sama sehingga nilai tidak berubah setelah kita memiliki nilai-nilai ini untuk membandingkannya

00:39.370 --> 00:43.430
dengan Calcott dua terakhir oleh era arrogated kita telah memperbarui bobot tetapi

00:43.430 --> 00:45.950
nilainya tidak berubah dalam seluruh proses itu.

00:45.990 --> 00:47.410
Untuk mendapatkan nilai kubus di sana.

00:47.430 --> 00:48.380
Mereka sudah diperbaiki.

00:48.380 --> 00:49.440
Kami tahu apa itu.

00:49.440 --> 00:50.480
Semua ini terjadi.

00:50.510 --> 00:53.820
Jaringan memperbarui dan menggunakan nilai-nilai yang sama yang kami miliki.

00:53.960 --> 00:58.600
Apa yang akan kita lakukan adalah kita akan menguraikannya melalui fungsi soft max.

00:58.610 --> 01:00.580
Dan lagi lunak Max seperti yang dijelaskan.

01:00.620 --> 01:05.160
Saya pikir lampiran 2 dan kita akan berbicara lebih banyak tentang soft max.

01:05.180 --> 01:12.070
Lebih jauh ke bawah atau kita akan berbicara tentang kebijakan pemilihan tindakan ini lebih jauh di bagian lain dari bagian ini.

01:12.140 --> 01:13.610
Jadi hanya dalam beberapa tutorial.

01:13.730 --> 01:17.270
Tapi untuk saat ini kami hanya akan mengatakan kami melewati fungsi lembut berikutnya.

01:17.270 --> 01:22.150
Pada dasarnya apa yang dilakukannya adalah memungkinkannya membantu memilih yang terbaik dan memilih tindakan terbaik.

01:22.250 --> 01:23.650
Dan ada peringatan kecil untuk itu.

01:23.660 --> 01:26.120
Bukan hanya yang terbaik.

01:26.120 --> 01:28.940
Kami akan membicarakannya dalam tutorial kebijakan pemilihan tindakan.

01:28.940 --> 01:35.890
Tetapi untuk sekarang katakan saja memilih tindakan terbaik dari sini dikatakan OK jadi Q1 Anda tahu kemungkinannya.

01:36.140 --> 01:41.960
Pada dasarnya kita tahu bahwa nilai q meramalkan nilai Q sehingga dapat melihatnya dan mengatakan OK jadi nilai

01:41.960 --> 01:46.280
Q tertinggi dari ini seperti yang kami lakukan dalam algoritma pembelajaran Q sederhana.

01:46.280 --> 01:50.240
Saya hanya akan melihat semua ini untuk mengatakan nilai tertinggi yang satu ini saya akan memilih tindakan yang akan

01:50.240 --> 01:50.860
kita ambil.

01:50.900 --> 01:52.180
Dan itu sudah cukup.

01:52.220 --> 01:57.300
Begitulah cara dia memilih tindakan mana yang akan diambil mengambil tindakan dan kemudian semua proses ini terjadi lagi.

01:57.290 --> 02:02.120
Karena untuk tahap selanjutnya agen berakhir di dalam kasus kami dan alun-alun labirin berikutnya.

02:02.120 --> 02:04.540
Tetapi secara umum di negara bagian berikutnya.

02:04.640 --> 02:05.420
Jadi begitulah.

02:05.420 --> 02:14.660
Begitulah cara kita memasukkan masalah pembelajaran penguatan ke dalam jaringan saraf melalui vektor yang menggambarkan keadaan kita

02:14.660 --> 02:16.160
saat ini.

02:16.160 --> 02:17.510
Dan begitu kami cocok.

02:17.510 --> 02:22.210
Ada dua bagian dari proses yang terjadi. Bagian pertama adalah pembelajaran.

02:22.400 --> 02:26.840
Jadi ingatlah bagian di mana kita membandingkan masing-masing nilai kubus dengan target dan

02:26.840 --> 02:32.360
kemudian kita kembali menyebarkan kerugian melalui jaringan untuk memperbarui bobot sehingga jaringan kita belajar saat kita

02:32.360 --> 02:34.830
melalui labirin ini atau melalui lingkungan ini.

02:35.210 --> 02:41.120
Dan juga bagian kedua tentu saja kita harus bertindak kita harus memilih tindakan dan di situlah kita melewati

02:41.120 --> 02:46.880
nilai melalui fungsi soft max dan atau pada dasarnya kebijakan pemilihan tindakan yang akan kita bicarakan

02:46.880 --> 02:48.330
lebih jauh ke bawah.

02:48.470 --> 02:53.570
Dan kemudian kita cukup memilih tindakan yang ingin kita ambil dan kita melakukan tindakan itu dan kemudian seluruh proses

02:53.570 --> 02:54.580
ini dimulai lagi.

02:54.770 --> 02:59.570
Dan kemudian mungkin agen mendapat maka mungkin agen tidak menghentikan permainan.

02:59.630 --> 03:01.250
Bagaimanapun permainan berakhir.

03:01.250 --> 03:08.270
Dan sekali lagi seluruh proses mengulangi agen memainkan seluruh permainan lagi dan kemudian itu berhenti jadi pada dasarnya

03:08.270 --> 03:14.460
itulah airpark lain setiap kali agen yang Anda kenal setiap kali permainan berakhir dengan bantuan di

03:14.460 --> 03:16.680
luar fairie itulah akhir bandara

03:16.700 --> 03:19.560
Dan kemudian dia mulai lagi dan kemudian dia mulai lagi dan kemudian dia mulai lagi.

03:19.790 --> 03:20.420
Dan seterusnya.

03:20.420 --> 03:26.810
Jadi itu terjadi dan proses ini terjadi untuk setiap kali agen berada di Anda dalam keadaan baru sehingga negara

03:26.810 --> 03:32.240
dikodekan di sini sehingga penting bukan hanya untuk setiap permainan yang ia mainkan tetapi untuk setiap

03:32.240 --> 03:33.020
negara bagian.

03:33.020 --> 03:38.030
Jadi dia dalam keadaan yang melewati tanggal prosesnya dan seterusnya dan terjadi setiap saat.

03:38.150 --> 03:41.410
Dan pembelajaran terjadi dan akting juga terjadi.

03:41.720 --> 03:47.090
Jadi itu adalah pembelajaran mendalam dalam intuisi di balik pembelajaran mendalam.

03:47.090 --> 03:54.200
Kami memiliki banyak hal lain untuk ditutup dan kemudian tentu saja praktis dan sementara itu jika Anda ingin mendapatkan

03:54.410 --> 03:56.720
beberapa informasi tambahan tentang terus belajar.

03:56.720 --> 04:05.200
Kami memiliki bacaan yang direkomendasikan sehingga kami telah berbicara tentang serangkaian posting blog Arthur Giuliani.

04:05.210 --> 04:12.590
Jika Anda melihat pembelajaran informal sederhana Aliran Lifton bagian 4, Anda akan menemukan bagian yang relevan dengan apa yang

04:12.590 --> 04:14.260
kita bahas hari ini.

04:14.270 --> 04:21.170
Perhatikan bahwa di sini dia berbicara tentang konvolusi yang tidak kita bahas di bagian ini. Kita akan

04:21.170 --> 04:23.650
membahasnya di bagian selanjutnya dari kursus.

04:23.720 --> 04:28.880
Jadi perbedaannya di sini adalah hanya melewatkan bagian kesimpulan untuk saat ini dan kita akan

04:28.880 --> 04:32.850
membicarakannya di bagian selanjutnya dari kursus tetapi perbedaannya ada pada evolusi.

04:32.850 --> 04:39.170
Anda seperti melihat agen sedang melihat gambar dan oleh karena itu ia harus memproses gambar sebagai

04:39.170 --> 04:43.540
komplikasi tambahan untuk saat ini di mana kita perlahan-lahan membangunnya.

04:43.580 --> 04:50.060
Untuk saat ini kami sedang menyandikan lingkungan kami melalui Anda melihat di sini kami menyandikan

04:50.060 --> 04:58.700
lingkungan kami atau mungkin seperti melihat yang ini mungkin dalam pengkodean lingkungan kami sebagai atau untuk menyatakan agen tersebut dalam bentuk vektor.

04:58.700 --> 05:01.330
Jadi dalam kasus kami adalah vektor nilai yang sangat sederhana.

05:01.490 --> 05:06.190
Kadang-kadang orang-orang bahkan yang sesederhana itu kadang-kadang atau seperti yang akan Anda lihat dari posting blog ini.

05:06.290 --> 05:10.180
Kadang-kadang orang lebih suka satu versi panas dan kode dari negara itu.

05:10.180 --> 05:13.380
Jadi pada dasarnya di mana setiap kotak labirin memiliki.

05:13.620 --> 05:17.780
Jadi Anda punya seperti vektor untuk kasus nol akan menjadi 12 nilai tiga oleh empat.

05:17.800 --> 05:22.130
Jadi tidak seperti 1 atau 0 tergantung pada elemen dan kotak mana Anda berada.

05:22.160 --> 05:22.990
Di lingkungan.

05:23.060 --> 05:29.900
Jadi dengan cara apa pun Anda memutuskan untuk kode lingkungan Anda dan keadaan lingkungan Anda itulah cara dalam pengkodean Ini

05:29.900 --> 05:31.520
pada dasarnya adalah vektor.

05:31.520 --> 05:36.410
Kuncinya di sini adalah bahwa itu bukan konvolusi Jadi tidak seperti gambar dan tidak ada volt konvolusi Jadi

05:36.410 --> 05:37.810
bagian ini akan datang nanti.

05:37.820 --> 05:43.410
Bagi kami itu dimulai di sini dan itu hanya menyederhanakan proses bagi kita untuk secara bertahap lebih memahami.

05:43.550 --> 05:49.130
Dan tentu saja jangan lupa bahwa posting ini kasar dan cenderung mengalir dan kami menggunakan pi torche dalam

05:49.130 --> 05:50.090
tutorial kami.

05:50.090 --> 05:51.910
Jadi semoga Anda menikmati ini.

05:51.920 --> 05:59.220
Intro cepat ke dalam pembelajaran buku yang mendalam belum konvolusional mendalam.

05:59.310 --> 06:02.910
Dan pada catatan itu saya berharap dapat melihat Anda berikutnya.

06:02.930 --> 06:05.430
Dan sampai saat itu menikmati kecerdasan buatan.