WEBVTT

00:01.130 --> 00:06.810
Halo dan selamat datang kembali, tentu saja pada pembelajaran mendalam hari ini kita berbicara tentang keturunan gradien Kostic.

00:07.220 --> 00:14.450
Sebelumnya kami belajar tentang gradient descent dan kami menemukan bahwa ini adalah metode yang sangat efisien untuk

00:14.450 --> 00:19.590
menyelesaikan masalah optimisasi kami di mana kami mencoba untuk meminimalkan fungsi biaya.

00:19.640 --> 00:29.030
Itu pada dasarnya membawa kita dari 10 ke kekuatan 57 tahun untuk menyelesaikan masalah dalam hitungan menit atau jam atau dalam satu

00:29.480 --> 00:30.940
hari atau lebih.

00:31.100 --> 00:37.490
Dan itu sangat membantu mempercepat segalanya karena kita bisa melihat jalan mana yang menurun dan kita bisa menuju

00:37.490 --> 00:41.400
ke sana dan mengambil langkah-langkah dan mencapai minimum dengan lebih cepat.

00:41.600 --> 00:50.030
Tetapi masalahnya dengan tongkat dengan gradient descent adalah bahwa metode ini mengharuskan fungsi biaya menjadi

00:50.030 --> 00:50.990
cembung.

00:51.140 --> 00:57.710
Dan seperti yang dapat Anda lihat di sini, kami telah secara khusus memilih fungsi biaya cembung pada dasarnya

00:58.160 --> 01:05.510
cembung berarti bahwa fungsi tersebut terlihat sama dengan apa yang kami lihat sekarang karena itu hanya jenis vext ke satu

01:05.510 --> 01:09.220
arah dan yang pada dasarnya memiliki satu global minimum.

01:09.380 --> 01:11.560
Dan itulah yang akan kita temukan.

01:11.630 --> 01:14.060
Tetapi bagaimana jika fungsi kita tidak cembung.

01:14.060 --> 01:16.250
Bagaimana jika fungsi biaya kami tidak benar.

01:16.370 --> 01:17.810
Bagaimana jika terlihat seperti ini.

01:18.020 --> 01:19.660
Yah pertama-tama bagaimana itu bisa terjadi.

01:19.880 --> 01:27.950
Yah itu bisa terjadi karena jika kita pertama-tama memilih fungsi biaya yang bukan perbedaan kuadrat antara mengapa

01:28.010 --> 01:33.850
dan mengapa atau jika kita memang memilih fungsi biaya yang seperti itu.

01:33.860 --> 01:39.650
Tetapi kemudian dalam ruang multi dimensi itu sebenarnya bisa berubah menjadi sesuatu yang tidak cembung.

01:39.780 --> 01:45.410
Jadi apa yang akan terjadi dalam kasus ini jika kita hanya mencoba menerapkan metode layak gradien normal kita sesuatu seperti

01:45.410 --> 01:46.390
ini bisa terjadi.

01:46.520 --> 01:51.230
Kami dapat menemukan minimum lokal dari fungsi biaya daripada yang global.

01:51.230 --> 01:57.730
Jadi yang ini adalah yang terbaik dan kami menemukan yang salah dan karena itu kami tidak memiliki berat yang benar.

01:57.740 --> 01:59.940
Kami tidak memiliki jaringan saraf yang dioptimalkan.

02:00.230 --> 02:02.480
Kami memiliki jaringan saraf bawah standar.

02:02.610 --> 02:04.470
Jadi apa yang kita lakukan dalam kasus ini.

02:04.670 --> 02:09.110
Nah jawabannya di sini adalah stokastik.

02:09.110 --> 02:10.050
Keturunan gradien.

02:10.070 --> 02:15.260
Dan ternyata keturunan gradien sarkastik tidak memerlukan fungsi penyebab menjadi cembung.

02:15.380 --> 02:20.120
Jadi mari kita lihat dua perbedaan antara penurunan gradien normal yang kita bicarakan

02:20.150 --> 02:21.600
dan kisaran stokastik.

02:21.860 --> 02:27.920
Jadi keturunan hijau normal adalah ketika kita mengambil semua baris kita, kita hubungkan mereka ke jaringan saraf kita

02:27.920 --> 02:33.890
dan sekali lagi di sini kita punya jaringan saraf disalin beberapa kali tetapi baris dicolokkan ke jaringan

02:33.890 --> 02:36.050
saraf yang sama setiap kali.

02:36.050 --> 02:39.200
Jadi hanya ada trik berumur satu tahun ini hanya untuk tujuan aksi Kissel.

02:39.350 --> 02:43.880
Dan setelah kita tancapkan, kita telah menghitung fungsi biaya berdasarkan rumus

02:43.880 --> 02:49.400
yang tepat dan melihat grafik di bagian bawah dan kemudian kita menyesuaikan bobotnya maka ini

02:49.400 --> 02:54.480
disebut metode gradient descent atau istilah yang tepat adalah bahwa metode keturunan gradien batch.

02:54.470 --> 03:01.940
Jadi kami mengambil seluruh batch dari sampel kami, kami menerapkannya dan kemudian kami menjalankan bahwa metode penurunan

03:01.940 --> 03:03.730
gradien stokastik sedikit berbeda.

03:03.800 --> 03:10.880
Di sini kita mengambil baris satu per satu sehingga kita mengambil baris ini kita menjalankan jaringan saraf kita dan kemudian

03:10.880 --> 03:12.020
kita menyesuaikan bobotnya.

03:12.020 --> 03:16.420
Lalu kita pindah ke baris kedua kita ambil baris kedua kita jalankan jaringan saraf kita.

03:16.580 --> 03:21.640
Kami melihat fungsi biaya dan kemudian kami menyesuaikan bobot lagi dan kemudian kami mengambil Rohtak naik tiga lagi

03:21.640 --> 03:25.430
kami menjalankan jaringan saraf kami akan melihat fungsi biaya kami menyesuaikan berat.

03:25.430 --> 03:32.660
Jadi pada dasarnya kita melihat kita menyesuaikan bobot setelah setiap baris daripada melakukan semuanya bersama-sama dan

03:32.660 --> 03:36.080
kemudian menguji bobot dua pendekatan yang berbeda.

03:36.230 --> 03:39.710
Dan sekarang kita akan membandingkan keduanya secara berdampingan.

03:39.710 --> 03:42.920
Jadi di sini mereka ini adalah bagaimana mengingatnya secara visual.

03:42.920 --> 03:49.490
Jadi Anda mendapatkan gradient descent terbaik di mana Anda menyesuaikan bobot setelah menjalankannya setelah Anda menjalankan semua

03:49.490 --> 03:55.370
baris dalam jaringan saraf Anda dan kemudian pada dasarnya hanya bobot dan Anda menjalankan semuanya

03:55.370 --> 04:00.500
lagi iterasi iterasi iterasi iterasi di kelas enam pada bulan Desember dan Anda

04:00.500 --> 04:06.650
menjalankan satu baris pada satu waktu dan Anda menyesuaikan bobot persis seperti bobotnya dan kemudian Anda

04:06.770 --> 04:10.040
melakukan semuanya berulang-ulang dan itu disebut berdiskusi.

04:10.080 --> 04:16.580
Dan Anda mengatakan bahwa dua perbedaan utama adalah bahwa metode penurunan

04:16.580 --> 04:27.470
gradien sarkastik membantu Anda menghindari masalah di mana Anda menemukan ekstremitas lokal atau minimum lokal daripada keseluruhan global minimum

04:27.470 --> 04:28.620
keseluruhan.

04:29.030 --> 04:34.850
Dan alasan untuk itu secara sederhana adalah bahwa ada video dari metode penurunan gradien stokastik memiliki

04:35.150 --> 04:38.220
fluktuasi yang jauh lebih tinggi karena mampu membelinya.

04:38.210 --> 04:43.650
Ini melakukan satu iterasi atau satu baris pada satu waktu dan oleh karena itu fluktuasi

04:43.650 --> 04:49.440
jauh lebih tinggi dan itu jauh lebih mungkin untuk menemukan minimum global daripada hanya minimum lokal.

04:49.460 --> 04:56.480
Dan hal lain tentang penurunan gradien sarkastik Saya pikir adalah gradien buruk adalah itu menumbuhkan seperti kesan

04:56.480 --> 05:01.670
pertama yang mungkin Anda miliki adalah karena itu tumbuh satu demi satu

05:01.730 --> 05:09.050
lebih lambat tetapi sebenarnya sebenarnya lebih cepat karena itu tidak perlu memuat semua data ke dalam memori dan

05:09.080 --> 05:12.610
menjalankan dan menunggu sampai semua aturan itu bersama-sama.

05:12.710 --> 05:16.780
Anda hanya bisa berguling-guling satu per satu sehingga algoritma yang jauh lebih

05:16.790 --> 05:24.020
ringan jauh lebih cepat dalam arti sehingga meskipun memiliki cara yang lebih dalam arti karena memiliki lebih banyak keunggulan dibandingkan yang buruk.

05:24.110 --> 05:25.320
Metode keturunan gradien.

05:25.430 --> 05:31.310
Keuntungan utama dari atau jenis domain seperti profer metode penurunan gradien buruk adalah bahwa

05:31.310 --> 05:37.250
itu adalah algoritma deterministik atau selain untuk membuat penurunan gradien menjadi algoritma sarkastik yang berarti

05:37.250 --> 05:44.570
itu acak dan dengan gradien dan metode terbaik selama Anda memiliki bobot awal yang sama untuk jaringan saraf

05:44.570 --> 05:45.430
Anda.

05:45.500 --> 05:52.300
Setiap kali Anda menjalankan metode gradient batch gradient, Anda akan mendapatkan iterasi yang sama, hasil yang sama

05:52.300 --> 05:58.300
untuk Anda sepanjang bobot Anda diperbarui untuk kami miliki untuk metode layak gradien sarkastik.

05:58.310 --> 06:04.550
Anda tidak akan mendapatkan itu karena ini adalah metode stokastik Anda memilih peran Anda mungkin secara acak dan

06:04.570 --> 06:10.940
Anda memperbarui jaringan saraf Anda dengan cara sarkastik dan karena itu Anda hanya akan setiap kali Anda menjalankan

06:10.940 --> 06:15.380
kategori metode yang layak bahkan jika Anda memiliki bobot yang sama pada

06:15.380 --> 06:20.770
awalnya, Anda akan memiliki proses yang berbeda dan iterasi yang berbeda untuk sampai ke sana.

06:20.780 --> 06:28.100
Jadi itu singkatnya apa yang harus castigate dan perbedaan pendapat juga ada metode di antara keduanya disebut metode

06:28.100 --> 06:34.520
gradien keturunan batch Mini di mana Anda menggabungkan keduanya dan Anda pada dasarnya menjalankan daripada

06:34.520 --> 06:37.640
menjalankan seluruh batch menjalankan satu per satu.

06:37.640 --> 06:44.150
Anda menjalankan kumpulan baris mungkin 5 10 100 namun banyak baris Anda memutuskan untuk membuat Anda menjalankan jumlah baris pada satu

06:44.150 --> 06:47.690
waktu kemudian Anda memperbarui cara satu digit Anda dan sebagainya.

06:47.900 --> 06:52.670
Dan itu disebut metode keturunan Mini Bache gradient jika Anda ingin mempelajari lebih lanjut

06:52.670 --> 06:56.630
tentang gradient descent ada artikel bagus yang bisa Anda lihat.

06:56.660 --> 07:04.940
Ini disebut jaringan saraf dalam 13 baris bagian Python yang hebat dan diturunkan oleh Andrew Trask dan

07:04.940 --> 07:12.840
tautan di bawahnya merupakan artikel yang baik, sangat bagus, ditulis dengan istilah yang sangat sederhana.

07:12.920 --> 07:21.860
Ada beberapa pemikiran filosofis atau hanya menarik tentang bagaimana menerapkan air hijau yang layak Anda tahu kelebihan dan kekurangan dan

07:22.340 --> 07:28.460
bagaimana cara melakukan hal-hal dalam situasi tertentu sehingga Anda punya beberapa tips dan trik

07:28.460 --> 07:30.730
hack yang sangat keren.

07:31.370 --> 07:33.620
Sangat mudah dibaca sehingga pasti memeriksanya.

07:33.800 --> 07:37.010
Dan satu lagi sedikit lebih berat dibaca.

07:37.010 --> 07:41.930
Bagi Anda yang tertarik dengan matematika yang ingin sampai ke dasar matematika mengapa.

07:41.930 --> 07:45.180
Keturunan gradien adalah spesifik.

07:45.260 --> 07:49.200
Apa rumus yang mendorong gradasi dan bagaimana menghitungnya dan sebagainya.

07:49.220 --> 07:51.610
Lihat artikel atau sebenarnya buku itu.

07:51.620 --> 07:57.160
Ini adalah buku online gratis yang disebut jaringan saraf dan pembelajaran mendalam oleh buku Michael Nielsen 2015.

07:57.160 --> 08:02.190
Itu hanya pada dasarnya itu semua on line Anda dapat melanjutkan dan memeriksanya di sana.

08:02.450 --> 08:05.870
Dan ada lagi pengantar yang sangat lembut untuk matematika.

08:05.870 --> 08:12.260
Tetapi bagi seorang ibu matematika tetapi matematika itu cukup berat saat Anda terus membaca

08:12.530 --> 08:13.340
artikel.

08:13.610 --> 08:20.240
Tetapi pada saat yang sama itu membuat Anda masuk ke dalam suasana hati itu. Saya pikir maksud Anda seperti

08:20.240 --> 08:25.370
bab pemanasan di mana Anda pertama kali menghangatkan matematika dan kemudian Anda melompat ke

08:25.370 --> 08:26.110
dalam.

08:26.540 --> 08:32.780
Dan begitulah, jadi itu singkatnya perbedaan antara rasa Graney untuk melemparkan

08:32.810 --> 08:36.360
gradient descent dan cara kerjanya.

08:36.410 --> 08:39.830
Dan pada catatan itu kita akan menyelesaikan hari ini kata Tauriel.

08:39.840 --> 08:42.000
Saya berharap dapat melihat Anda di yang berikutnya.

08:42.020 --> 08:44.090
Dan sampai saat itu menikmati pembelajaran yang mendalam.