WEBVTT

00:00.680 --> 00:05.570
Halo dan selamat datang kembali ke kursus pembelajaran mendalam di tutorial hari ini kita berbicara

00:05.600 --> 00:06.600
tentang gradient descent.

00:06.890 --> 00:13.610
Apa yang kami pelajari sebelumnya adalah agar agar jaringan saraf mempelajari apa

00:13.610 --> 00:21.140
yang perlu terjadi adalah propagasi balik dan saat itulah kesalahan perbedaan atau jumlah perbedaan kuadrat

00:21.170 --> 00:28.300
antara y topi dan Y kembali diperbanyak melalui jaringan saraf dan bobot disesuaikan sesuai.

00:28.520 --> 00:34.220
Jadi kami melihat itu dan hari ini kami akan belajar dengan tepat bagaimana bobot ini disesuaikan.

00:34.400 --> 00:35.930
Jadi mari kita lihat.

00:36.080 --> 00:44.030
Ini adalah versi kami yang sangat sederhana dari sebuah pekerjaan saraf persepsi Trauner satu huruf feedforward neural network

00:44.030 --> 00:52.280
dan apa yang bisa kita lihat di sini adalah seluruh proses ini dalam aksi di mana kita punya beberapa

00:52.280 --> 00:57.000
nilai input kemudian kita harus menunggu kemudian fungsi aktivasi diterapkan.

00:56.990 --> 01:01.850
Kita sudah mendapatkannya, lalu kita membandingkannya dengan nilai aktual yang kita hitung fungsi biaya.

01:01.850 --> 01:05.420
Jadi bagaimana kita bisa meminimalkan fungsi biaya.

01:05.420 --> 01:07.370
Apa boleh buat.

01:07.370 --> 01:14.750
Nah satu pendekatan untuk melakukannya adalah pendekatan brute force di mana kita hanya mengambil semua banyak kemungkinan bobot berbeda dan

01:14.750 --> 01:20.990
melihatnya dan melihat mana yang terlihat paling baik dan apa yang kita lakukan misalnya kita akan mencoba

01:21.080 --> 01:26.240
misalnya katakanlah seribu bobot dan kami akan mencobanya yang akan mendapatkan sesuatu seperti

01:26.810 --> 01:32.900
ini untuk fungsi biaya dan ini adalah bagan pada sumbu Y fungsional silang sumbu vertikal pada

01:32.900 --> 01:34.770
sumbu horisontal topi y.

01:34.860 --> 01:39.200
Dan karena Anda dapat melihat rumus yang saya punya minus Y kuadrat.

01:39.230 --> 01:42.470
Inilah fungsi biaya yang akan terlihat seperti itu.

01:42.670 --> 01:47.830
Dan pada dasarnya Anda akan menemukan yang terbaik ada di sini.

01:47.950 --> 01:50.980
Jadi pendekatan yang sangat sederhana sangat intuitif.

01:50.980 --> 01:53.200
Mengapa tidak melakukan metode brute force ini.

01:53.200 --> 02:01.630
Mengapa tidak coba saja seribu biaya berbeda untuk seribu parameter atau input berbeda untuk bobot dan lihat mana

02:01.690 --> 02:03.030
yang terbaik.

02:03.030 --> 02:04.230
Anda akan menemukan yang terbaik dengan cara itu.

02:04.420 --> 02:10.270
Nah jika Anda hanya memiliki satu cara untuk mengoptimalkan ini mungkin berhasil tetapi ketika

02:10.480 --> 02:16.630
Anda meningkatkan jumlah bobot meningkatkan jumlah Synopsys di jaringan Anda, Anda harus menghadapi kutukan dimensi.

02:16.630 --> 02:19.370
Dan apa penyebab dimensionalitas.

02:19.450 --> 02:24.510
Cara terbaik untuk menggambarkan ini atau menjelaskannya adalah dengan hanya melihat contoh praktis.

02:24.640 --> 02:30.610
Jadi, ingatlah contoh ini yang kami miliki ketika kami berbicara tentang bagaimana

02:30.610 --> 02:37.120
sebenarnya jaringan saraf bekerja di mana kami membangun atau menjalankan jaringan saraf untuk penilaian properti.

02:37.120 --> 02:43.030
Jadi, ini terlihat seperti ketika sudah dilatih dengan baik ketika tidak dilatih sebelum dilatih sebelum kita

02:43.030 --> 02:45.290
tahu mana yang merupakan bobot.

02:45.550 --> 02:47.640
Jaringan saraf yang sebenarnya terlihat seperti ini.

02:47.730 --> 02:54.860
Benar karena kita memiliki semua sinopsis yang mungkin berbeda ini dan kita masih harus melatih bobot dan di sini kita

02:55.280 --> 03:01.190
memiliki total 25 bobot jadi empat kali lima di awal ditambah lima lebih dari hit di

03:01.310 --> 03:03.430
luar sana total 25 bobot.

03:03.680 --> 03:09.060
Dan mari kita lihat bagaimana kita bisa dengan brutal memaksa 25 cara.

03:09.070 --> 03:12.610
Ini adalah jaringan saraf yang sangat sederhana di sini.

03:12.620 --> 03:20.630
Sangat sederhana hanya dengan satu pukulan di sana dan bagaimana kita bisa dengan kasar memaksa melalui jaringan saraf sebesar

03:20.630 --> 03:21.320
ini.

03:21.320 --> 03:24.370
Nah ada beberapa perhitungan matematis sederhana.

03:24.410 --> 03:25.890
Kami memiliki 25 bobot.

03:25.910 --> 03:30.410
Jadi itu berarti jika kita memiliki seribu kombinasi yang akan kita

03:30.410 --> 03:37.790
pecahkan untuk setiap bobot, jumlah total kombinasi adalah 1000 pangkat 25 atau seribu atau 10 untuk menguraikan lima kombinasi berbeda.

03:37.790 --> 03:48.260
Sekarang mari kita lihat bagaimana Sun cara untuk menerangi superkomputer Fosse dunia pada Juni 2016 bagaimana cara pendekatannya terhadap

03:48.260 --> 03:49.700
masalah ini.

03:49.700 --> 03:52.390
Benar Sunway mengikat siapa yang menyalakan.

03:52.680 --> 04:00.980
Sepertinya ini adalah bangunan besar yang cukup besar untuk superkomputer yang satu ini dan mendapat

04:01.310 --> 04:04.940
Guinness World Record sebagai superkomputer Fosses.

04:05.210 --> 04:12.620
Sekarang ini adalah superkomputer tercepat di dunia dan beberapa cara lampu dasi dapat beroperasi

04:12.620 --> 04:15.420
pada kecepatan 93 flops.

04:15.510 --> 04:19.900
Flop singkatan dari operasi mengambang per detik.

04:19.970 --> 04:23.310
Sehingga bisa melakukan sembilan puluh tiga untuk minyak listrik.

04:23.340 --> 04:28.010
Kali sepuluh pangkat 15 operasi mengambang per detik.

04:28.100 --> 04:32.340
Itu seberapa cepat perbandingannya.

04:32.450 --> 04:38.210
Rata-rata komputer saat ini mereka suka beberapa gigaflops dan sebagainya.

04:38.210 --> 04:41.320
Jadi itu seperti rentang itu.

04:41.450 --> 04:44.290
Kurang dari TEI tipe lampu Sunway.

04:44.390 --> 04:47.950
Jadi tiba-tiba itu semua bohong itu di garis depan teknologi.

04:48.360 --> 04:57.920
Dan katakanlah secara hipotetis bahwa ia dapat melakukan satu uji satu kombinasi empat pada jaringan Anda sendiri dalam satu floppy disk

04:58.010 --> 05:04.220
dan satu operasi mengambang yang tidak mungkin karena tidak praktis karena Anda memerlukan

05:04.220 --> 05:09.470
beberapa operasi mengambang untuk menguji bobot tunggal pada Anda sedikit.

05:09.480 --> 05:11.270
Tapi mari kita mulai saja.

05:11.270 --> 05:17.990
Katakanlah ia dapat melakukannya di dunia yang ideal. Ia dapat melakukannya dalam satu operasi apung. Ia dapat melakukan satu tes

05:18.290 --> 05:19.900
per satu operasi apung.

05:20.120 --> 05:23.970
Itu berarti Doddridge masih membutuhkan kecenderungan dari lima.

05:24.080 --> 05:33.080
Membagi dengan sembilan puluh tiga kali sepuluh hingga sekitar 15 detik untuk menjalankan semua tes untuk memaksa melalui

05:33.080 --> 05:34.120
jaringan itu.

05:34.130 --> 05:39.860
Jadi itu berarti satu atau perkiraan cenderung untuk daya 58 detik dan itu sama dengan

05:39.860 --> 05:42.120
cenderung untuk kekuatan 50 tahun.

05:42.170 --> 05:49.910
Itu adalah angka yang sangat besar yang lebih panjang dari yang ada di alam semesta dan yang

05:49.910 --> 05:59.150
pasti tidak akan dengan mudah angka ini begitu besar, yang pasti tidak akan bekerja untuk kita sama sekali dalam optimasi kita.

05:59.150 --> 06:00.020
Jadi begitulah.

06:00.140 --> 06:01.220
Ini tidak, tidak.

06:01.220 --> 06:05.450
Bahkan pada superkomputer tercepat di dunia, Sunway tail light.

06:05.450 --> 06:10.140
Jadi kita harus datang dengan pendekatan yang berbeda bagaimana kita akan menemukan bobot yang optimal.

06:10.310 --> 06:15.890
Ngomong-ngomong, jaringan saraf kita sangat sederhana, bagaimana jika jaringan saraf itu terlihat

06:15.890 --> 06:22.740
seperti ini atau bahkan lebih besar dari itu maka ya itu tidak akan terjadi sama sekali.

06:22.760 --> 06:28.490
Jadi metode yang akan dilihat disebut gradient descent dan Anda mungkin sudah pernah mendengarnya.

06:28.580 --> 06:30.770
Jika tidak, kita akan mencari tahu apa itu sekarang.

06:30.840 --> 06:41.780
Jadi, ada fungsi biaya kita dan sekarang kita melihat bagaimana kita dapat mengembangkan semacam cara yang lebih cepat untuk menemukan

06:41.840 --> 06:43.190
opsi terbaik.

06:43.190 --> 06:45.920
Jadi katakanlah kita memulai suatu tempat Anda akan memulai suatu tempat.

06:45.920 --> 06:47.390
Jadi kita mulai dari sana.

06:47.390 --> 06:56.990
Dan dari titik di kiri atas yang akan kita lakukan adalah kita akan melihat sudut fungsi biaya kita pada titik itu sehingga kita

06:56.990 --> 07:00.800
hanya akan pada dasarnya itulah yang disebut gradien karena

07:00.800 --> 07:02.090
Anda harus membedakan.

07:02.150 --> 07:04.190
Kami tidak akan melihat persamaan matematika.

07:04.250 --> 07:09.370
Kami akan memberikan beberapa tips tentang bacaan tambahan di akhir kuliah berikutnya.

07:09.740 --> 07:17.150
Tetapi pada dasarnya Anda hanya perlu membedakan mencari tahu apa kemiringan pada titik tertentu dan mencari tahu apakah

07:17.150 --> 07:19.330
lereng itu positif atau negatif.

07:19.450 --> 07:25.640
Jika jika kemiringan negatif seperti dalam kasus ini berarti Anda akan menurun sehingga ke kanan menurun

07:25.640 --> 07:27.350
ke kiri adalah menanjak.

07:27.350 --> 07:29.780
Dan dari sana itu berarti Anda harus ke kanan.

07:29.780 --> 07:31.510
Pada dasarnya Anda harus menurun.

07:31.670 --> 07:33.070
Dan itulah yang akan kita lakukan.

07:33.090 --> 07:35.510
Boom mengambil langkah tepat.

07:35.510 --> 07:37.450
Bola bergulir lagi.

07:37.460 --> 07:38.300
Hal yang sama.

07:38.390 --> 07:44.120
Anda menghitung kemiringan dan kemiringan itu positif, artinya kiri naik penulis turun dan Anda perlu ke kiri

07:44.120 --> 07:46.560
dan Anda berada di bola bawah.

07:46.790 --> 07:54.900
Dan lagi Anda menghitung kemiringan dan Anda benar-benar tepat sehingga Anda menemukan

07:55.040 --> 08:04.520
dalam istilah sederhana itulah cara Anda menemukan WAITES terbaik. Situasi terbaik yang meminimalkan fungsi biaya Anda.

08:04.590 --> 08:08.970
Tentu saja itu tidak akan menjadi seperti bola yang menggelinding akan menjadi jenis pendekatan

08:09.210 --> 08:14.970
yang sangat zig-zag tetapi lebih mudah untuk diingat atau jenis itu lebih menyenangkan untuk melihatnya sebagai bola yang menggelinding.

08:14.970 --> 08:19.980
Tetapi pada kenyataannya ya Anda hanya itu akan menjadi seperti langkah demi langkah pendekatan

08:19.980 --> 08:21.920
akan menjadi jenis metode zigzag.

08:22.050 --> 08:25.020
Ya dan juga ada banyak elemen lainnya.

08:25.050 --> 08:35.190
Ada hal-hal seperti misalnya mengapa mengapa mengapa turun mengapa tidak melewati garis sehingga bisa melompat keluar dari ini naik ke atas,

08:35.190 --> 08:40.740
bukan ke bawah dan hal-hal seperti itu sehingga ada parameter yang dapat

08:40.740 --> 08:41.950
Anda atur.

08:41.970 --> 08:45.570
Dan lagi kami akan menyebutkan di mana Anda dapat menemukan lebih banyak tentang itu.

08:45.580 --> 08:51.090
Dan ditambah kita akan memiliki ini dalam aplikasi praktis tetapi dalam pendekatan intuitif yang paling sederhana inilah

08:51.090 --> 08:51.770
yang terjadi.

08:51.780 --> 08:56.670
Kita sampai pada dasarnya hanya dengan memahami jalan mana yang harus kita tuju.

08:56.700 --> 09:01.890
Alih-alih memaksa dengan paksa melalui ribuan dan ribuan dan jutaan dan milyaran dan

09:01.890 --> 09:02.920
empat kombinasi.

09:03.030 --> 09:09.920
Kita bisa dengan mudah melihat setiap kali di mana di mana arahnya miring seperti itu atau Anda bayangkan Anda sedang

09:09.910 --> 09:11.690
berdiri di atas bukit.

09:11.700 --> 09:15.870
Menurut Anda, ke arah mana ia akan turun dan ke mana pun ia turun dan Anda terus berjalan dengan

09:15.870 --> 09:20.760
cara yang Anda sukai, ambil 50 langkah lagi dan kemudian Anda menilai kembali OK jalan mana yang turun ke bawah dengan cara

09:21.090 --> 09:21.470
ini.

09:21.500 --> 09:24.620
OK dan saya akan mengambil 50 langkah atau kurang mengambil 40 langkah seperti itu.

09:24.690 --> 09:28.160
Jadi semakin sedikit dan semakin sedikit saat Anda semakin dekat.

09:28.530 --> 09:32.720
Jadi inilah contoh penurunan gradien yang diterapkan dalam ruang dua dimensi.

09:32.720 --> 09:36.450
Jadi itu adalah contoh satu dimensi.

09:36.570 --> 09:41.880
Di sini kita memiliki ruang dua dimensi untuk penurunan gradien seperti yang Anda lihat

09:41.970 --> 09:48.450
semakin dekat ke minimum dan itu juga disebut gradient descent karena Anda turun ke minimum fungsi biaya

09:48.480 --> 09:53.430
dan menemukan bahwa ia memiliki gradient descent yang diterapkan dalam tiga ukuran.

09:53.430 --> 09:58.740
Ini terlihat seperti jika Anda memproyeksikan ke dua dimensi Anda dapat melihat zig-zag jalan

09:58.740 --> 09:59.600
ke minimum.

09:59.700 --> 10:03.810
Jadi begini bahwa itu adalah indeks penurunan gradien dari Tauriel. Kita akan berbicara tentang stokastik.

10:03.810 --> 10:06.850
Gradient descent adalah kelanjutan dari tutorial ini.

10:07.020 --> 10:08.720
Dan saya berharap dapat melihat Anda di sana.

10:08.740 --> 10:10.610
Dan waktu berikutnya menikmati pembelajaran yang mendalam.