WEBVTT

00:00.630 --> 00:04.800
Halo dan selamat datang kembali ke kursus belajar mendalam hari ini kita berbicara tentang Max pooling dan

00:04.800 --> 00:07.380
kami punya beberapa slide yang sangat menarik di depan.

00:07.500 --> 00:10.930
Dan bahkan kejutan khusus di akhir tutorial.

00:11.010 --> 00:12.440
Jadi mari kita mulai.

00:12.450 --> 00:15.860
Pertanyaan pertama adalah apa yang dikumpulkan dan mengapa kita membutuhkannya.

00:16.050 --> 00:19.650
Nah untuk menjawab pertanyaan itu mari kita lihat gambar-gambar ini pada gambar-gambar ini.

00:19.650 --> 00:20.780
Kami punya cheetah.

00:20.790 --> 00:23.680
Sebenarnya itu adalah cheetah yang persis sama pada gambar pertama.

00:23.680 --> 00:29.640
Gambar itu diposisikan dengan benar dan dia menatap lurus ke arahmu pada gambar kedua.

00:29.640 --> 00:30.660
Ini sedikit diputar.

00:30.660 --> 00:32.710
Dan gambar ketiga agak tergencet.

00:32.790 --> 00:40.020
Dan masalahnya di sini adalah bahwa kita ingin jaringan saraf untuk dapat mengenali cheetah di setiap

00:40.020 --> 00:41.450
gambar ini.

00:41.460 --> 00:43.230
Sebenarnya ini hanya satu cheetah.

00:43.230 --> 00:45.070
Bagaimana jika kita memiliki banyak penembak yang berbeda.

00:45.090 --> 00:46.120
Ini seekor cheetah.

00:46.180 --> 00:47.250
Dia adalah seekor cheetah.

00:47.400 --> 00:53.130
Berikut ini cheetah lainnya Ashira-nya, cheetah Ishida dan dia seekor cheetah dan kami ingin jaringan saraf

00:53.130 --> 01:01.110
mengenali semua penembak ini sebagai penipu dan bagaimana bisa melakukan itu jika mereka semua melihat ke arah yang berbeda, mereka semua berada

01:01.110 --> 01:06.300
di bagian berbeda gambar mereka seperti wajah mereka diposisikan di berbagai bagian gambar seseorang

01:06.300 --> 01:10.080
di sebelah kanan seseorang di sudut kiri atau seseorang di

01:10.080 --> 01:10.700
tengah.

01:11.010 --> 01:14.280
Semuanya sedikit berbeda dan teksturnya sedikit berbeda.

01:14.280 --> 01:16.200
Pencahayaannya agak berbeda.

01:16.200 --> 01:21.600
Ada banyak perbedaan kecil, jadi jika jaringan saraf mencari fitur

01:21.810 --> 01:29.700
tertentu, misalnya fitur khas cheetah adalah air mata yang keluar dari mata atau bayangan bayangan, yang mirip

01:29.700 --> 01:35.310
air mata tekstur. pola yang keluar dari matanya ke bawah ada di

01:35.310 --> 01:40.890
sisi hidungnya dan terlihat seperti air mata yang merupakan ciri khas Cheetah.

01:40.890 --> 01:48.660
Tetapi jika ia mencari fitur yang dipelajari dari cheetah tertentu di lokasi yang tepat atau bentuk atau bentuk atau

01:48.660 --> 01:53.370
tekstur yang tepat, ia tidak akan pernah menemukan penembak lain ini.

01:53.460 --> 02:01.410
Jadi kita harus memastikan bahwa jaringan saraf kita memiliki properti yang disebut spatial invariance yang berarti bahwa tidak

02:01.440 --> 02:10.170
peduli di mana fitur-fiturnya lagi tidak tidak terlalu gatal bagian mana dari gambar karena kita kita semacam mengambil bahwa menjadi

02:10.520 --> 02:16.460
pertimbangan dengan peta kita, kita miskin dengan konvolusional kita di sana tetapi

02:16.800 --> 02:23.400
tidak perlu peduli jika fitur sedikit miring jika fitur sedikit berbeda dalam tekstur jika fitur

02:23.400 --> 02:30.210
sedikit lebih dekat dari fitur atau agak jauh terpisah relatif terhadap relatif satu sama lain.

02:30.210 --> 02:37.230
Jadi, jika fitur itu sendiri agak terdistorsi jaringan saraf kita harus memiliki beberapa tingkat fleksibilitas untuk

02:37.410 --> 02:39.930
dapat tetap menemukan fitur itu.

02:40.050 --> 02:42.690
Dan itulah inti dari penyatuan.

02:42.690 --> 02:45.140
Jadi mari kita lihat bagaimana cara kerja pooling.

02:45.180 --> 02:51.090
Inilah peta fitur kami sehingga kami telah melakukan konvolusi kami dan kami telah menyelesaikan bagian itu dan sekarang kami

02:51.090 --> 02:52.680
bekerja dengan convolutional di sana.

02:52.680 --> 02:53.880
Sekarang kita akan menerapkan pooling.

02:53.880 --> 02:54.690
Jadi bagaimana cara kerjanya.

02:54.690 --> 02:56.420
Kami akan menerapkan pooling kembali.

02:56.670 --> 03:01.640
Ada beberapa jenis permainan yang sesuai artinya menggabungkan Max mengumpulkan beberapa dan akan mengomentari

03:01.710 --> 03:03.440
mereka menjelang akhir cerita.

03:03.540 --> 03:11.040
Tapi untuk sekarang kami hanya menerapkan Max pooling jadi kami mengambil kotak dua kali dua piksel seperti itu dan sekali lagi itu tidak

03:11.040 --> 03:15.020
harus dua kali dua Anda dapat memilih ukuran kotak dan lagi

03:15.030 --> 03:21.900
akan mengomentari itu ke arah dan Tauriel dan Anda meletakkannya di sudut kiri atas dan Anda menemukan nilai maksimum di dalam

03:21.900 --> 03:26.310
kotak itu dan kemudian Anda hanya mencatat nilai itu dan Anda mengabaikan tiga lainnya.

03:26.310 --> 03:30.600
Jadi di kotak Anda, Anda memiliki empat nilai, Anda hanya mengabaikan tiga Anda hanya menyimpan satu maksimum yang

03:30.600 --> 03:31.830
merupakan satu dalam kasus ini.

03:31.830 --> 03:36.210
Kemudian Anda memindahkan kotak Anda ke kanan dengan melangkah Anda memilih langkah itu sekali lagi.

03:36.210 --> 03:41.850
Jadi di sini kita geser ke langkah dua dan itulah yang biasanya Anda psyched yang bisa Anda katakan seperti langkah yang

03:41.850 --> 03:42.880
dapat Anda pilih.

03:42.990 --> 03:47.940
Jadi ada kotak yang tumpang tindih Anda dapat memilih segala jenis mogok yang Anda suka, bahkan tiga jika Anda

03:48.770 --> 03:52.440
mau, tetapi kami memilih langkah dua di sini dan itulah yang biasa digunakan.

03:52.470 --> 03:57.660
Dan kemudian Anda mengulangi proses Anda merekam pepatah itu di sini jika Anda menyeberang dan tidak masalah

03:57.660 --> 04:00.080
Anda terus melakukan apa yang Anda lakukan.

04:00.090 --> 04:05.690
Jadi, Anda masih merekam maksimum di sini 0 di sini maksimum adalah empat.

04:05.700 --> 04:11.380
Berikut ini adalah maksimum di sini maksimum adalah 1 0 1 atau 2 dan kemudian 1.

04:11.400 --> 04:13.970
Jadi seperti yang Anda lihat beberapa hal terjadi.

04:13.980 --> 04:18.890
Pertama-tama kami masih dapat mempertahankan fitur dengan benar.

04:19.080 --> 04:23.730
Jumlah maksimum yang mereka wakili karena kita tahu bagaimana kesimpulan Lehre bekerja.

04:23.730 --> 04:28.650
Kami tahu bahwa jumlah maksimal atau besar di peta fitur yang mereka wakili

04:28.650 --> 04:31.480
menunjukkan kemiripan paling dekat dengan fitur.

04:31.650 --> 04:38.250
Tetapi dengan menggabungkan fitur-fitur ini, kita pertama-tama menyingkirkan 75 persen informasi

04:38.250 --> 04:46.110
yang bukan fitur yang bukan hal-hal penting yang kita cari karena kita hanya benar-benar

04:46.220 --> 04:49.410
tiga piksel dari empat .

04:49.710 --> 04:51.510
Jadi kami hanya mendapat 25 persen.

04:51.510 --> 05:00.260
Dan kemudian juga karena kami mengambil piksel maksimum yang kami atau nilai-nilai yang kami

05:00.770 --> 05:04.160
miliki, kami memperhitungkan setiap distorsi.

05:04.160 --> 05:12.810
Jadi misalnya dua gambar di mana misalnya air mata penipu pada mata berada dalam satu gambar ada sedikit ke kiri atau

05:12.830 --> 05:16.550
sedikit diputar ke kiri dan satu lagi ada sedikit.

05:16.580 --> 05:22.100
Dan bagaimana mereka seharusnya atau bagaimana kita suka jika Anda mengambil satu sebagai basis dan yang lain

05:22.100 --> 05:23.800
ada bit memutar ke kiri.

05:24.060 --> 05:26.570
Fitur puled akan persis sama.

05:26.570 --> 05:32.900
Jadi Anda dapat melihat di sini jika kita berbicara tentang air mata penipu maka katakanlah ini adalah empat dan

05:32.900 --> 05:36.050
di sinilah tempatnya, maka jika itu agak diputar.

05:36.050 --> 05:38.270
Jadi misalnya keempatnya berakhir di sini.

05:38.390 --> 05:44.180
Kemudian ketika kita melakukan pooling kita masih akan mendapatkan peta fitur pool yang sama

05:44.180 --> 05:46.270
dan itulah prinsip di baliknya.

05:46.430 --> 05:52.340
Ini adalah penjelasan yang sangat kasar lagi penjelasan intuitif tetapi itulah gunanya

05:52.340 --> 06:00.290
mengumpulkan bahwa kami masih dapat mempertahankan fitur dan terlebih lagi memperhitungkan kemungkinan spasial atau tekstur atau

06:00.290 --> 06:02.330
jenis distorsi lainnya.

06:02.420 --> 06:07.370
Dan selain semua itu kami mengurangi ukuran sehingga ada manfaat lain.

06:07.370 --> 06:13.520
Jadi kita harus menjaga fitur yang kami perkenalkan invarian spasial, kami mengurangi ukurannya

06:13.520 --> 06:19.700
sebesar 75 persen yang sangat besar yang benar-benar akan membantu kami dalam hal pemrosesan.

06:19.870 --> 06:25.970
Dan selain itu manfaat lain dari penyatuan adalah kita mengurangi jumlah parameter sehingga kita mengurangi lagi

06:26.690 --> 06:31.370
hingga 75 persen atau mengurangi jumlah parameter yang akan masuk ke Lares

06:31.370 --> 06:35.270
akhir kita dari jaringan saraf dan karenanya kita mencegah overfitting.

06:35.300 --> 06:42.580
Ini adalah manfaat yang sangat penting dari penyatuan bahwa kami menghapus informasi dan itu adalah hal yang baik.

06:42.590 --> 06:50.660
Itu adalah hal yang baik karena dengan cara itu model kami tidak akan dapat terlalu cocok dengan informasi itu karena terutama karena

06:50.690 --> 06:54.500
informasi itu tidak baik dan ingat seperti di awal kita berbicara

06:54.950 --> 07:00.650
tentang bahkan untuk manusia sebagai manusia, penting untuk melihat persis fitur daripada semua kebisingan lain yang

07:00.650 --> 07:02.520
masuk ke mata kita.

07:02.780 --> 07:09.070
Hal yang sama baik untuk jaringan saraf mereka dengan mengabaikan formasi tidak penting

07:09.080 --> 07:12.470
yang tidak perlu kami membantu mencegah overfitting.

07:12.500 --> 07:14.590
Jadi begitulah yang kami maksud tentang pooling.

07:14.600 --> 07:21.500
Dan pertanyaannya di sini tentu saja mengapa WiMax pooling ada banyak jenis pooling yang berbeda dan langkah lebar

07:21.710 --> 07:26.780
yang lebar dari ukuran dua kali dua pixel dari semua hal ini.

07:26.780 --> 07:33.980
Dan pada catatan itu saya ingin memperkenalkan Anda pada makalah penelitian yang indah ini yang disebut evaluasi

07:33.980 --> 07:40.250
operasi penyatuan dalam arsitektur convolutional untuk pengenalan objek oleh Dominic Scherrer dari University of

07:40.250 --> 07:41.100
Bonn.

07:41.180 --> 07:47.540
Ada tautan dan keindahan dari makalah ini adalah bahwa itu sangat sangat sederhana sangat mudah Jadi jika Anda

07:47.550 --> 07:51.530
belum pernah membaca makalah penelitian sebelum apa yang ingin Anda coba.

07:51.530 --> 07:54.440
Ini adalah tempat yang bagus untuk memulai, ini sangat singkat.

07:54.440 --> 07:55.400
Hanya 10 halaman.

07:55.400 --> 07:56.810
Sangat mudah dibaca.

07:57.080 --> 08:03.170
Dan ditambah manfaat tambahannya adalah bahwa sekarang kita telah membahas konvolusi dan penyatuan, Anda akan benar-benar

08:03.170 --> 08:07.040
nyaman dengan semua yang mereka bicarakan dalam makalah ini.

08:07.100 --> 08:11.880
Ini adalah cara terbaik untuk benar-benar memperkuat dan juga saya sangat merekomendasikan memeriksa makalah ini.

08:11.930 --> 08:18.050
Saya akan membutuhkan waktu 20 menit untuk membacanya dan Anda bahkan dapat melewati bagian 2 yang disebut pekerjaan terkait jika terasa agak

08:18.050 --> 08:19.880
tidak masuk akal atau mengasingkan diri.

08:19.880 --> 08:21.230
Hanya saja, jangan membaca bagian itu.

08:21.290 --> 08:23.950
Langsung ke dari bagian 1 ke bagian 3.

08:24.020 --> 08:29.600
Dan satu hal yang perlu Anda ketahui tentang makalah ini mereka berbicara tentang konsep yang disebut

08:30.360 --> 08:33.230
subsampling yang subsampling pada dasarnya pooling rata-rata.

08:33.230 --> 08:36.260
Jadi ingat bagaimana Di sini kami mengambil.

08:36.280 --> 08:37.400
Kami mengambil yang maksimal.

08:37.400 --> 08:43.250
Jadi di squarer kami mengambil nilai maksimum ada konsep yang disebut Mean pooling atau menarik beberapa

08:43.250 --> 08:48.590
menarik karena Anda hanya beberapa nilai-nilai ini naik rata-rata pooling atau rata-rata mengumpulkan Anda

08:48.650 --> 08:53.890
mengambil nilai rata-rata dari semua ini dan subsampling adalah seperti generalisasi laki-laki mengumpulkan.

08:53.900 --> 09:00.840
Ini adalah pendekatan yang lebih umum untuk mengambil rata-rata dari nilai-nilai ini.

09:00.860 --> 09:05.480
Dan Anda dapat membaca sedikit lebih banyak tentang di koran tetapi jika tidak anggap itu hanya kumpulan rata-rata ketika

09:05.480 --> 09:06.620
Anda membaca sebuah makalah.

09:06.920 --> 09:11.180
Dan di situlah Anda bisa mendapatkan beberapa informasi tambahan tentang topik ini dan sekarang mari kita rekap ke

09:11.210 --> 09:12.310
mana saja kita pergi.

09:12.320 --> 09:14.440
Jadi ada gambar input kami.

09:14.870 --> 09:18.960
Kemudian kami menerapkan operasi konvolusi dan kami mendapatkan kesimpulan.

09:19.070 --> 09:24.230
Dan sekarang untuk masing-masing peta fitur yang kami dapatkan, Kami telah menerapkan Pullinger.

09:24.260 --> 09:30.590
Jadi kita sudah melakukan dua langkah ini evolusi dan penyatuan dan sekarang kita akan melakukan sesuatu yang sangat

09:30.590 --> 09:32.160
menyenangkan sesuatu yang menarik.

09:32.220 --> 09:40.340
Kita akan bereksperimen dengan ini jadi ini adalah tangkapan layar yang saya ambil dari alat yang dibuat oleh Adam

09:40.340 --> 09:48.140
Harley dari jauh ketika dia berada di Universitas Ilmu Komputer Ryerson dan sekarang dia di Carnegie Mellon, saya

09:48.320 --> 09:49.750
pikir mengerjakan halamannya.

09:50.060 --> 09:53.150
Dan alat yang hebat jadi mari kita buka, mari kita lihat.

09:53.270 --> 09:55.780
Jadi Anda dapat menemukannya, Anda dapat menemukannya melalui Google.

09:55.780 --> 09:57.500
Anda harus tahu peran Anda.

09:57.500 --> 10:03.790
Sama sulitnya menemukannya melalui Google karena tidak ada teks di sini sama seperti tahun ini.

10:03.930 --> 10:08.350
Saya akan melihat mulai berkas Reierson dan hal-hal ini.

10:08.510 --> 10:14.820
Dan pada dasarnya inilah yang kami lakukan tetapi memvisualisasikannya. Jadi di sini Anda perlu menggambar

10:14.820 --> 10:21.330
nomor jadi katakanlah saya menggambar nomor empat dan alat ini akan meletakkan nomor empat di sini.

10:21.340 --> 10:22.960
Itu gambar kamu.

10:22.960 --> 10:26.620
Pada langkah pertama kita maka ini adalah langkah konvolusi.

10:26.800 --> 10:27.100
Kanan.

10:27.100 --> 10:30.390
Dan ini adalah langkah pooling dan pooling by the way juga disebut downsampling.

10:30.390 --> 10:33.770
Jadi menarik dan downsampling adalah hal yang sama.

10:33.930 --> 10:39.190
Jadi Anda dapat melihat itu diterapkan konvolusi kemudian diterapkan penggabungan dan Anda dapat melihat cara kerjanya.

10:39.190 --> 10:44.290
Anda dapat melihat konvolusi jenis apa yang telah diterapkan atau filter seperti apa yang diterapkan seperti

10:44.290 --> 10:45.020
apa bentuknya.

10:45.130 --> 10:47.630
Fitur apa yang dicari.

10:47.830 --> 10:53.340
Dan kemudian diterapkan pooling sehingga mengurangi ukuran dan Anda bisa lihat di sini bahwa ini penting.

10:53.380 --> 11:01.090
Jadi Anda dapat melihat bahwa ini adalah gambar yang berbelit-belit dan ini adalah gambar yang berdenyut dan Anda masih dapat melihat

11:01.090 --> 11:05.830
fitur yang sama hanya sedikit informasi tetapi fitur yang sama tetap dipertahankan.

11:05.830 --> 11:08.110
Itu bagian yang penting.

11:08.350 --> 11:14.170
Dan terlebih lagi jika Anda tahu jika keempatnya agak terlalu seperti diputar sedikit ke samping itu masih

11:14.170 --> 11:16.960
akan dapat mengambil kolam Lares sangat mirip.

11:17.050 --> 11:19.810
Dan kemudian setelah itu ada lebih banyak surat yang belum kita bicarakan.

11:19.810 --> 11:26.840
Jadi dia punya sarang konvolusional lain di sini yang sebenarnya tidak akan kita miliki.

11:27.130 --> 11:30.730
Dan kemudian dia memiliki sarang yang buruk tapi dia pada dasarnya hanya mengulangi proses yang sama.

11:31.000 --> 11:34.880
Dan setelah itu, inilah yang akan kita bicarakan lebih jauh dalam kursus.

11:34.910 --> 11:37.610
Dia punya Lares yang sepenuhnya terhubung dan sebagainya.

11:38.080 --> 11:39.880
Tapi Anda pasti bisa bermain-main dengan itu.

11:39.880 --> 11:47.890
Jadi jika saya menghapus yang Anda suka jika saya menggambar 7, Anda akan melihat bahwa itu benar-benar memberi tahu Anda bahwa tebakannya adalah tebakan adalah bahwa

11:47.890 --> 11:49.410
ini adalah angka 7.

11:49.570 --> 11:52.850
Dan tebakan kedua, kemungkinan kedua adalah tiga.

11:53.050 --> 11:56.440
Jadi, Anda dapat menggambar beberapa hal yang menantang dan melihat apakah itu dapat mengambilnya.

11:56.440 --> 12:02.680
Jadi katakanlah jika saya menggambar sesuatu yang terlihat seperti 0 tetapi bukan 0 selesai apakah akan mengambilnya kali ini

12:02.770 --> 12:03.730
tidak mengambilnya.

12:03.730 --> 12:06.190
Sepertinya angka 9 untuk gambar.

12:06.190 --> 12:08.550
Bagaimana jika aku suka menyelesaikannya seperti itu.

12:08.560 --> 12:14.430
Jadi sekarang dianggap 0 atau 9 dan Anda dapat melihat di sana apa yang menerangi 0.

12:14.460 --> 12:16.600
Tetapi kita akan membicarakan bagian itu untuk keraguan.

12:16.720 --> 12:20.030
Lakukan satu lagi misalkan seperti 8.

12:20.260 --> 12:23.780
Saya pikir cukup sulit untuk ini sekarang mengambil 8.

12:23.800 --> 12:29.590
Jadi Anda bisa melihat bahwa angka 8 dan kemudian setelah itu berhenti dikenali berhenti menjadi

12:29.590 --> 12:31.570
masuk akal bagi kita manusia.

12:31.570 --> 12:32.150
Kanan.

12:32.170 --> 12:34.390
Fitur-fitur yang bekerja dengannya.

12:34.570 --> 12:38.710
Tetapi pada saat yang sama dengan benar mengakui bahwa itu adalah angka 8.

12:39.100 --> 12:42.540
Jadi pasti bermain-main dengan itu Anda bisa menggambar wajah tersenyum.

12:42.550 --> 12:43.460
Apa yang terjadi kemudian?

12:44.310 --> 12:50.070
Sepertinya tiga ke ini untuk alat ini karena alat ini jelas dilatih hanya pada angka dari 0

12:50.070 --> 12:50.950
hingga sembilan.

12:51.120 --> 12:58.530
Jadi itu harus mengenali sesuatu ada itu dan mengenali tiga itu seperti dalam hidup ketika Anda ketika Anda melihat sesuatu seperti

12:58.530 --> 13:05.700
jenis buah yang belum pernah Anda lihat seperti apel custard atau sesuatu dan Anda berpikir itu seperti itu itu adalah

13:06.120 --> 13:12.570
pear karena Anda belum pernah benar-benar melihat satu sebelum Anda tidak tahu apa yang harus mengklasifikasikan sebagai hal

13:12.570 --> 13:18.210
yang sama di sini sehingga tidak benar-benar dilatih pada wajah tersenyum dan itu sebabnya ia

13:18.210 --> 13:20.480
menganggap itu pohon sebagai pohon.

13:20.490 --> 13:25.770
Jadi begitulah alat yang sangat kuat itu akan sangat membantu bagi Anda untuk bermain-main sebenarnya ketika Anda

13:26.130 --> 13:29.430
meletakkan mouse Anda di atas pixel pixel yang akan ditampilkan.

13:29.430 --> 13:36.930
Ini menunjukkan kepada Anda di mana detektor fitur mengambil piksel itu sehingga Anda dapat melihat dari mana piksel

13:36.930 --> 13:43.170
itu berasal dan juga agar Anda dapat melihat bagaimana filter itu seperti menelusuri gambar persis

13:43.170 --> 13:47.910
seperti yang kita bicarakan dan tentu saja di sini Anda dapat

13:47.910 --> 13:58.140
melihat Anda dapat melihat pooling Anda dapat melihat bahwa tarikan dilakukan dengan tarikan dilakukan dengan ukuran kotak kecil dua demi dua dan Anda dapat melihat

13:58.200 --> 14:03.730
bahwa itu langkah dua juga seperti yang kita bahas dalam tutorial hari ini.

14:03.960 --> 14:09.240
Jadi pergilah bermain atau bermain-main dengan itu dan saya harap Anda menikmati sesi hari ini.

14:09.240 --> 14:10.610
Saya berharap dapat melihat Anda lain kali.

14:10.620 --> 14:12.470
Dan sampai saat itu menikmati pembelajaran yang mendalam.
