WEBVTT

00:01.130 --> 00:06.810
Merhaba ve hoşgeldiniz, bugün tabii ki derin öğrenme üzerine Kostin gradyan inişinden söz edelim.

00:07.220 --> 00:14.450
Geçmişte gradyan iniş hakkında bilgi aldık ve maliyet fonksiyonunu en aza indirgemeye çalıştığımız

00:14.450 --> 00:19.590
optimizasyon problemimizi çözmek için çok etkili bir yöntem olduğunu öğrendik.

00:19.640 --> 00:29.030
Bir sorunun birkaç dakika içinde, birkaç saat içinde, bir gün içinde, temelde, 10 yıldan 57 yıla kadar

00:29.480 --> 00:30.940
güçlenmesine neden olur.

00:31.100 --> 00:37.490
Ve gerçekten işleri hızlandırmaya yardımcı olur, çünkü yokuş aşağı hangi yolu görebiliriz ve o yönde

00:37.490 --> 00:41.400
ilerleyebilir ve adım atabilir ve minimuma daha hızlı ulaşabiliriz.

00:41.600 --> 00:50.030
eğim inişli çubuklu olan bu yöntemin maliyet fonksiyonunun dışbükey olmasını gerektirmesi.

00:50.030 --> 00:50.990
Ancak

00:51.140 --> 00:57.710
Ve burada gördüğünüz gibi, konveks maliyet fonksiyonunu seçtik, temel olarak

00:58.160 --> 01:05.510
konveks, fonksiyonun şu an gördüğümüze benzediği anlamına gelir; sadece bir yönde vekil

01:05.510 --> 01:09.220
ve özünde bir global minimuma sahiptir.

01:09.380 --> 01:11.560
Ve bulacağımız da bu.

01:11.630 --> 01:14.060
Peki ya bizim fonksiyonumuz dışbükey değilse.

01:14.060 --> 01:16.250
Maliyet fonksiyonumuz doğru değilse ne olur?

01:16.370 --> 01:17.810
Ya böyle bir şeyse.

01:18.020 --> 01:19.660
Her şeyden önce bunun nasıl gerçekleştiğini.

01:19.880 --> 01:27.950
İyi olabilir, çünkü öncelikle neden ve niçin arasındaki kar farkı olmayan bir

01:28.010 --> 01:33.850
maliyet fonksiyonu seçersek veya böyle bir maliyet fonksiyonunu seçersek.

01:33.860 --> 01:39.650
Fakat sonra çok boyutlu bir uzayda, konveks olmayan bir şeye dönüşebilir.

01:39.780 --> 01:45.410
Ve bu durumda, normal eğim terbiyeli yöntemimizi uygulamaya çalışırsak bu durumda ne olurdu böyle

01:45.410 --> 01:46.390
bir şey olabilir.

01:46.520 --> 01:51.230
Global fonksiyonlardan ziyade, maliyet fonksiyonunun yerel bir minimumunu bulabiliriz.

01:51.230 --> 01:57.730
Bu yüzden bu en iyisiydi ve yanlış bulduk ve bu nedenle doğru ağırlığa sahip değiliz.

01:57.740 --> 01:59.940
Optimize edilmiş sinir ağımız yok.

02:00.230 --> 02:02.480
Bir alt-sinir ağımız var.

02:02.610 --> 02:04.470
Ve bu durumda ne yapacağız.

02:04.670 --> 02:09.110
Buradaki cevap stochastictir.

02:09.110 --> 02:10.050
Dereceli alçalma.

02:10.070 --> 02:15.260
Ve alaylı eğim inişinin neden fonksiyonunun dışbükey olmasını gerektirmediği anlaşılıyor.

02:15.380 --> 02:20.120
Şimdi konuştuğumuz normal eğim inişiyle stokastik aralık arasındaki iki farka

02:20.150 --> 02:21.600
bir göz atalım.

02:21.860 --> 02:27.920
Normal yeşil iniş, tüm satırlarımızı sinir ağımıza taktığımızda alıyor ve bir kez

02:27.920 --> 02:33.890
daha sinir ağını birkaç kez kopyalamış bulunuyoruz, ancak sıralar her zaman

02:33.890 --> 02:36.050
aynı sinir ağına takılıyor.

02:36.050 --> 02:39.200
Yani sadece bir yıl hile var, bu sadece Kissel'in eylem amaçlı.

02:39.350 --> 02:43.880
Ve sonra bunları taktığımızda, formüle dayanan maliyet fonksiyonumuzu hesapladık ve tabandaki

02:43.880 --> 02:49.400
alttaki çizgiye baktık ve sonra ağırlıkları ayarladık ve bu degradasyon indirgeme metodu olarak

02:49.400 --> 02:54.480
adlandırıldı veya aynı zamanda doğru terim de Bu parti gradyan iniş yöntemi.

02:54.470 --> 03:01.940
örneğimizdeki tüm partiyi alıyoruz ve daha sonra stochastic gradyan iniş metodunun biraz farklı olduğunu kanıtlıyoruz.

03:01.940 --> 03:03.730
Bu yüzden uyguladığımız

03:03.800 --> 03:10.880
Burada sıraları birer birer alıyoruz, bu sırayı ele alarak sinir ağımızı çalıştırıyoruz ve sonra

03:10.880 --> 03:12.020
ağırlıkları ayarlıyoruz.

03:12.020 --> 03:16.420
Daha sonra, sinir ağımızı çalıştıran ikinci sıraya geçtiğimiz ikinci sıraya geçiyoruz.

03:16.580 --> 03:21.640
Maliyet fonksiyonuna bakıyoruz ve daha sonra ağırlıkları yeniden ayarlıyoruz ve sonra bir başka Rohtak'ı

03:21.640 --> 03:25.430
alıyoruz gül üçümüzü çalıştırdığımızda sinir ağımıza bakacağız maliyet fonksiyonuna ağırlık ayarladık.

03:25.430 --> 03:32.660
Temel olarak, ağırlıkları her tek satırdan sonra ayarlamaktayız; her şeyi birlikte yapmaktan ve ağırlıkları iki farklı

03:32.660 --> 03:36.080
yaklaşımı test etmekten başka bir şey yapmıyoruz.

03:36.230 --> 03:39.710
Ve şimdi sadece ikisini yan yana karşılaştıracağız.

03:39.710 --> 03:42.920
İşte burada görsel olarak onları hatırlama şekli bunlar.

03:42.920 --> 03:49.490
Sinir ağınızdaki tüm satırları çalıştırdıktan ve daha sonra sadece ağırlıkları çalıştırdıktan sonra ağırlıkları ayarladıktan

03:49.490 --> 03:55.370
sonra en iyi gradyan inişine sahipsiniz ve her şeyi tekrar yineleme iterasyon

03:55.370 --> 04:00.500
yinelemesine tabi tuttunuz Aralık ayının altıncı sınıfta ve bir kerede bir

04:00.500 --> 04:06.650
sıra koşarsınız ve ağırlıkları sadece ağırlıkları olduğu gibi ayarlarsınız ve her şeyi tekrar

04:06.770 --> 04:10.040
tekrar yaparsınız ve buna tartışmayı denir.

04:10.080 --> 04:16.580
yerel minimumları bulduğunuz sorunu önlemenize yardımcı olduğunu söylediğini söylediniz.

04:16.580 --> 04:27.470
Ve esas iki farkın, alay edici eğim iniş metodunun genel toplam küresel minimumdan ziyade bu yerel

04:27.470 --> 04:28.620
ekstremiteleri veya

04:29.030 --> 04:34.850
Ve basit terimlerin nedeni, stokastik düşme iniş metodunun çok yüksek dalgalanmalara sahip

04:35.150 --> 04:38.220
olduğu video var, çünkü bunları karşılayabilir.

04:38.210 --> 04:43.650
Bir kerede bir yineleme veya bir satır yapıyor ve bu nedenle dalgalanmalar çok

04:43.650 --> 04:49.440
daha yüksek ve sadece yerel minimumdan ziyade küresel minimumu bulmak çok daha muhtemeldir.

04:49.460 --> 04:56.480
büyümek ama aslında aslında daha hızlı, daha da hızlı olmasıdır tüm verileri hafızaya yüklemek zorunda

04:56.480 --> 05:01.670
kalmaz ve çalıştırın ve bu kuralların tümü açık olana kadar bekleyin.

05:01.730 --> 05:09.050
Ve alaycı eğim iniş hakkında kötü bir degrade olduğunu diğer şey, ilk izlenimi gibi çünkü

05:09.080 --> 05:12.610
o yapıyor çünkü yavaş büyümek birer birer

05:12.710 --> 05:16.780
Onların etrafında teker teker dolaşabilirsiniz, bu yüzden çok daha hafif bir

05:16.790 --> 05:24.020
algoritma bu anlamda çok daha hızlıdır, böylece kötülükten daha fazla avantaja sahip olduğu için bu anlamda daha çok yolu vardır.

05:24.110 --> 05:25.320
Degrade iniş yöntemi.

05:25.430 --> 05:31.310
iniş yöntemini geliştirmenin ana avantajı veya etki alanı türü, deterministik bir algoritma

05:31.310 --> 05:37.250
veya başka bir alfabe alçaltılması haricinde rasgele bir anlam ifade eden alaycı

05:37.250 --> 05:44.570
bir algoritma olması ve en iyi gradyan ve yöntemle Sinir ağınız için aynı ağırlık ağırlıkları.

05:44.570 --> 05:45.430
Kötü gradyan

05:45.500 --> 05:52.300
Toplu geçiş açılım metodunu her çalıştırdığınızda aynı yinelemeleri alırsınız, sizin için aynı

05:52.300 --> 05:57.960
sonuçlar sizin alaycı eğim terbiyeli metoda sahip olmak için ağırlıklarımızın

05:57.980 --> 05:58.300
güncellenir.

05:58.310 --> 06:04.550
Bunu almazsınız çünkü stokastik bir yöntemdir, rollerini muhtemelen rastgele seçiyorsunuz ve sinir ağınızı

06:04.570 --> 06:10.940
alaycı bir şekilde güncelliyorsunuz ve bu nedenle kategoriyi iyi bir yöntemle çalıştırdığınız her

06:10.940 --> 06:15.380
seferinde gidiyorsun Başlangıçta aynı ağırlıklara sahip olsanız bile, farklı

06:15.380 --> 06:20.770
bir işleme sahip olacaksınız ve oraya ulaşmak için farklı yinelemeler olacak.

06:20.780 --> 06:28.100
Yani kısaca dehşet ve muhalefet neyin kastedildiğini ikisi arasında birleştiren ve her seferinde birer

06:28.100 --> 06:34.520
birer çalıştıran bir bütün toplu işi çalıştırmak yerine Mini parti degradesi iniş

06:34.520 --> 06:37.640
metodu olarak adlandırılan bir yöntem var.

06:37.640 --> 06:44.150
Belli sayıda satır dizisi çalıştırırsanız belki 5 10 100, ancak o sırada bu sayıdaki satırları çalıştırmaya karar

06:44.150 --> 06:47.690
verdiğiniz pek çok satır yolunuzu tek haneli rakamlarla güncellersiniz.

06:47.900 --> 06:52.670
Degradasyon inişleri hakkında daha fazla bilgi edinmek isterseniz buna Mini Bache

06:52.670 --> 06:56.630
gradyan iniş metodu deniyor. Bakabileceğiniz harika bir makale var.

06:56.660 --> 07:04.940
ve aşağıdaki linkler çok iyi yazılmış çok basit bir terimle yazılmış bir makaledir.

07:04.940 --> 07:12.840
Python bölümünün 13 satırındaki sinir ağı deniyor ve Andrew Trask tarafından aşağı iniyor

07:12.920 --> 07:21.860
Avantaj ve dezavantajlarını bilen yeşil güzel suyun nasıl kullanılacağı üzerine ilginç, felsefi veya ilginç bazı düşünceleriniz

07:22.340 --> 07:28.460
var ve bazı durumlarda nasıl şeyler yapacağınız konusunda bazı çok güzel

07:28.460 --> 07:30.730
ipuçları ve hackler aldınız.

07:31.370 --> 07:33.620
Çok kolay okunur yani kesinlikle kontrol edin.

07:33.800 --> 07:37.010
Ve bir tanesi biraz daha ağır okudu.

07:37.010 --> 07:41.930
Matematiğe giren ve matematiğin altına inmek isteyenler için neden.

07:41.930 --> 07:45.180
Gradyan inişi bu özel.

07:45.260 --> 07:49.200
Mezunları yönlendiren formül nedir ve nasıl hesaplanır vb.

07:49.220 --> 07:51.610
Makale veya aslında kitaba göz atın.

07:51.620 --> 07:57.160
Sinir ağları ve Michael Nielsen 2015 kitabının derin öğrenmesi adlı ücretsiz bir çevrimiçi kitap.

07:57.160 --> 08:02.190
Temel olarak herşey yolunda gidip oradan kontrol edebilirsiniz.

08:02.450 --> 08:05.870
Ve yine matematiğe çok yumuşak giriş.

08:05.870 --> 08:12.260
Fakat bir makalede okuduğunuz gibi, bir anne için matematik ama matematik oldukça

08:12.530 --> 08:13.340
ağır.

08:13.610 --> 08:20.240
bölüm ısınmaya başlar ve sonra içine atlarsanız matematiğe çok ilgi duyuyorum, o zaman bu yazı gitmek için.

08:20.240 --> 08:25.370
Ama aynı zamanda sizi bu havaya sokar, yani sanırım ilk önce matematiğin ısınmasına neden

08:25.370 --> 08:26.110
olan bir

08:26.540 --> 08:32.780
Ve işte gidiyoruz, böylece Grady anlamıyla gradyan inişini

08:32.810 --> 08:36.360
yapmak arasındaki fark çok kısalıyor.

08:36.410 --> 08:39.830
Ve bu notta, bugün bitireceğimiz Tauriel dedi.

08:39.840 --> 08:42.000
Sizi bir sonraki sitede görmeyi sabırsızlıkla bekliyorum.

08:42.020 --> 08:44.090
Ve o zamana kadar derin öğrenmenin keyfini çıkarın.
