WEBVTT

00:00.680 --> 00:05.570
Cześć i witamy z powrotem na kursie głębokiego uczenia się w dzisiejszym tutorialu, mówimy o

00:05.600 --> 00:06.600
pochyłości gradientowej.

00:06.890 --> 00:13.610
Nauczyliśmy się wcześniej, że aby sieć neuronowa mogła się dowiedzieć, co musi się

00:13.610 --> 00:21.140
wydarzyć, to propagacja wsteczna i wtedy, gdy błąd jest różnicą lub sumą kwadratów różnicy między Y

00:21.170 --> 00:28.300
i Y jest z powrotem propagowany przez sieć neuronową i ciężary są odpowiednio dostosowane.

00:28.520 --> 00:34.220
Więc widzieliśmy to i dzisiaj dowiemy się dokładnie, jak te wagi są dostosowane.

00:34.400 --> 00:35.930
Więc spójrzmy.

00:36.080 --> 00:44.030
To jest nasza bardzo prosta wersja pracy neuronowej, która postrzega Traunera jako jednoliterową, feedforwardową sieć neuronową, a

00:44.030 --> 00:52.280
to, co możemy zobaczyć tutaj, to cały proces w działaniu, w którym mamy jakąś wartość wejściową, a

00:52.280 --> 00:57.000
następnie musimy poczekać, a następnie aktywować funkcję jest stosowany.

00:56.990 --> 01:01.850
Otrzymujemy wynik, a następnie porównujemy go z rzeczywistą wartością, którą obliczamy funkcją kosztu.

01:01.850 --> 01:05.420
Jak więc zminimalizować funkcję kosztu?

01:05.420 --> 01:07.370
Co możemy z tym zrobić.

01:07.370 --> 01:14.750
Cóż, jednym podejściem do tego jest brutalne podejście, w którym po prostu bierzemy wszystkie masy o różnych możliwych

01:14.750 --> 01:20.990
masach i patrzymy na nie i sprawdzamy, który z nich wygląda najlepiej, a co robimy, na

01:21.080 --> 01:26.240
przykład wypróbujemy na przykład na tysiąc ciężarów. i wypróbowalibyśmy, że otrzymamy coś

01:26.810 --> 01:32.900
takiego dla funkcji kosztu, a jest to wykres na osi Y krzyża funkcjonalnego osi pionowej

01:32.900 --> 01:34.770
na poziomej osi y.

01:34.860 --> 01:39.200
A ponieważ widać formuły, które miałem minus Y do kwadratu.

01:39.230 --> 01:42.470
Tak właśnie wyglądałaby funkcja kosztu.

01:42.670 --> 01:47.830
Zasadniczo znajdziesz najlepszą, która tutaj jest.

01:47.950 --> 01:50.980
Tak bardzo proste, bardzo intuicyjne podejście.

01:50.980 --> 01:53.200
Dlaczego nie zrobić tej metody brutalnej siły.

01:53.200 --> 02:01.630
Dlaczego nie wypróbować tysiąca różnych kosztów dla tysiąca różnych parametrów lub danych wejściowych dla wag i sprawdzić, który z

02:01.690 --> 02:03.030
nich działa najlepiej.

02:03.030 --> 02:04.230
W ten sposób znajdziesz najlepszą.

02:04.420 --> 02:10.270
Cóż, jeśli masz tylko jeden sposób na zoptymalizowanie tego, może to zadziałać, ale

02:10.480 --> 02:16.630
gdy zwiększysz liczbę wzrostów liczby Synopsys w twojej sieci, musisz stawić czoła klątwie wymiaru.

02:16.630 --> 02:19.370
I co jest przyczyną wymiarowości.

02:19.450 --> 02:24.510
Najlepszym sposobem na opisanie tego lub wyjaśnienie jest po prostu przyjrzenie się praktycznemu przykładowi.

02:24.640 --> 02:30.610
Więc pamiętajmy o tym przykładzie, który mieliśmy, kiedy mówiliśmy o tym, jak

02:30.610 --> 02:37.120
sieci neuronowe faktycznie działają tam, gdzie budowaliśmy lub uruchamiamy sieć neuronową dla wyceny nieruchomości.

02:37.120 --> 02:43.030
Tak to wyglądało, kiedy było już dobrze wyszkolone, kiedy nie jest wyszkolone, zanim nie zostanie przeszkolone, zanim

02:43.030 --> 02:45.290
dowiemy się, jakie to są wagi.

02:45.550 --> 02:47.640
Rzeczywista sieć neuronowa wygląda tak.

02:47.730 --> 02:54.860
Właśnie dlatego, że mamy wszystkie te różne możliwe kombinacje i wciąż musimy wyszkolić ciężary, a tutaj mamy

02:55.280 --> 03:01.190
łącznie 25 ciężarów, więc cztery razy pięć na początku plus pięć więcej od trafienia

03:01.310 --> 03:03.430
tam 25 ciężarów ogółem.

03:03.680 --> 03:09.060
Zobaczmy, w jaki sposób możemy brutalnie zmusić 25 sposobów.

03:09.070 --> 03:12.610
Jest to bardzo prosta sieć neuronowa właśnie tutaj.

03:12.620 --> 03:20.630
Bardzo proste tylko jedno trafienie i jak moglibyśmy brutalnie przebić się przez sieć neuronową tej

03:20.630 --> 03:21.320
wielkości.

03:21.320 --> 03:24.370
No cóż, jest kilka prostych obliczeń matematycznych.

03:24.410 --> 03:25.890
Mamy 25 ciężarów.

03:25.910 --> 03:30.410
Oznacza to, że jeśli mamy tysiąc kombinacji, które rozwiążemy dla

03:30.410 --> 03:37.790
każdej wagi, całkowita liczba kombinacji wynosi 1000 do potęgi 25 lub tysiąca lub 10, aby przeanalizować pięć różnych kombinacji.

03:37.790 --> 03:48.260
Zobaczmy teraz, jak Sun jest sposobem na to, by oświetlić światowy superkomputer Fosse'a od czerwca 2016 r., W jaki sposób podejdzie do

03:48.260 --> 03:49.700
tego problemu.

03:49.700 --> 03:52.390
Właśnie tak sunway krawat, który świeci.

03:52.680 --> 04:00.980
Wygląda na to, że jest to całkiem duży budynek dla tego superkomputera i uzyskał

04:01.310 --> 04:04.940
Rekord Świata Guinnessa za superkomputer Fosses.

04:05.210 --> 04:12.620
W tej chwili jest to najszybszy superkomputer na świecie, a niektóre wiązki światła mogą

04:12.620 --> 04:15.420
działać z prędkością 93 klap.

04:15.510 --> 04:19.900
Flop oznacza operację zmiennoprzecinkową na sekundę.

04:19.970 --> 04:23.310
Więc może zrobić dziewięćdziesiąt trzy na olej napędowy.

04:23.340 --> 04:28.010
Czasy dziesięć do potęgi 15 operacji pływających na sekundę.

04:28.100 --> 04:32.340
Tak szybko jest w porównaniu.

04:32.450 --> 04:38.210
Przeciętne komputery w tej chwili robią jak kilka gigaflopów i tak dalej.

04:38.210 --> 04:41.320
Więc to rodzaj tych zakresów.

04:41.450 --> 04:44.290
Mniej niż światło typu TEI Sunway.

04:44.390 --> 04:47.950
Więc nagle wszystko kłamie, że jest w czołówce technologii.

04:48.360 --> 04:57.920
I powiedzmy hipotetycznie, że może wykonać jedno badanie jednej kombinacji czterech w twojej własnej sieci na jednej dyskietce i jednej

04:58.010 --> 05:04.220
operacji pływającej, co nie jest możliwe, co nie jest praktyczne, ponieważ potrzebujesz

05:04.220 --> 05:09.470
wielu operacji pływających, aby przetestować pojedynczą wagę we własnym mało.

05:09.480 --> 05:11.270
Ale nawet Let's dajmy mu przewagę.

05:11.270 --> 05:17.990
Powiedzmy, że może to zrobić w idealnym świecie, który może to zrobić w jednej operacji pływającej, może wykonać jeden test

05:18.290 --> 05:19.900
na jedną operację swobodną.

05:20.120 --> 05:23.970
To oznacza, że Doddridge wciąż będzie potrzebował pięciu.

05:24.080 --> 05:33.080
Podzielić dziewięćdziesiąt trzy razy dziesięć do około 15 sekund, aby przeprowadzić wszystkie te testy, aby zmusić brute force przez

05:33.080 --> 05:34.120
tę sieć.

05:34.130 --> 05:39.860
Oznacza to, że jeden lub przybliżony ma tendencję do zasilania 58 sekund i to jest to samo,

05:39.860 --> 05:42.120
co tendencja do mocy 50 lat.

05:42.170 --> 05:49.910
To jest ogromna liczba, która jest dłuższa niż wszechświat istnieje i na pewno nie będzie po

05:49.910 --> 05:59.150
prostu ta liczba jest tak ogromna, że z całą pewnością nie zadziała ona dla nas w ogóle w naszej optymalizacji.

05:59.150 --> 06:00.020
Więc idziemy.

06:00.140 --> 06:01.220
To nie jest nie.

06:01.220 --> 06:05.450
Nawet w najszybszym na świecie superkomputerze Sunway.

06:05.450 --> 06:10.140
Musimy więc opracować inne podejście, w jaki sposób znajdziemy optymalną wagę.

06:10.310 --> 06:15.890
Tak przy okazji, nasza sieć neuronowa była bardzo prosta, jeśli chodzi o to, czy

06:15.890 --> 06:22.740
sieci neuronowe wyglądają jak coś takiego, czy nawet większego niż wtedy, to tak, to się nigdy nie wydarzy.

06:22.760 --> 06:28.490
Tak więc metoda, którą zamierzaliśmy oglądać, nazywa się pochyłością gradientową i być może już o niej słyszeliście.

06:28.580 --> 06:30.770
Jeśli nie, dowiemy się, co to jest teraz.

06:30.840 --> 06:41.780
Oto nasza funkcja kosztowa, a teraz zajmiemy się tym, w jaki sposób możemy znaleźć sposób na szybsze znalezienie

06:41.840 --> 06:43.190
najlepszej opcji.

06:43.190 --> 06:45.920
Więc powiedzmy, że zaczynamy gdzieś, gdzie zaczniesz gdzieś.

06:45.920 --> 06:47.390
Więc zaczynamy tam.

06:47.390 --> 06:56.990
I od tego momentu w lewym górnym rogu mamy zamiar spojrzeć na kąt naszej funkcji kosztowej w tym punkcie, więc

06:56.990 --> 07:00.800
właściwie to właśnie to, co trzeba nazwać gradientem,

07:00.800 --> 07:02.090
trzeba rozróżnić.

07:02.150 --> 07:04.190
Nie będziemy patrzeć na równania matematyczne.

07:04.250 --> 07:09.370
Na koniec następnego wykładu przedstawimy kilka wskazówek dotyczących dodatkowego czytania.

07:09.740 --> 07:17.150
Ale po prostu musisz rozróżnić, co to jest nachylenie w tym konkretnym punkcie i dowiedzieć się, czy

07:17.150 --> 07:19.330
nachylenie jest dodatnie czy ujemne.

07:19.450 --> 07:25.640
Jeśli nachylenie jest ujemne, tak jak w tym przypadku oznacza to, że zjeżdżasz w dół, więc po prawej stronie jest

07:25.640 --> 07:27.350
zjazd w lewo, pod górę.

07:27.350 --> 07:29.780
A to oznacza, że musisz iść w prawo.

07:29.780 --> 07:31.510
Zasadniczo musisz zjechać w dół.

07:31.670 --> 07:33.070
I to właśnie zamierzamy zrobić.

07:33.090 --> 07:35.510
Boom robi krok w prawo.

07:35.510 --> 07:37.450
Piłka ponownie się przewraca.

07:37.460 --> 07:38.300
Ta sama rzecz.

07:38.390 --> 07:44.120
Obliczysz nachylenie, a nachylenie jest dodatnie, co oznacza, że pisarz pod górkę w lewo jest w dół i musisz

07:44.120 --> 07:46.560
iść w lewo, a ty jesteś na piłce.

07:46.790 --> 07:54.900
I znowu obliczyć nachylenie i jesteś cały byk tam, gdzie idziesz, tak to

07:55.040 --> 08:04.520
można znaleźć w prostych słowach, to jak znaleźć najlepsze CZEKANIA Najlepsza sytuacja, która minimalizuje twoją funkcję kosztową.

08:04.590 --> 08:08.970
Oczywiście to nie będzie tak, że toczenie piłki będzie bardzo zygzakowatą metodą,

08:09.210 --> 08:14.970
ale łatwiej ją zapamiętać, lub bardziej przyjemnie jest patrzeć na nią jak na toczącą się piłkę.

08:14.970 --> 08:19.980
Ale w rzeczywistości tak, po prostu będzie tak, jakby podejście krok po kroku

08:19.980 --> 08:21.920
miało być metodą zygzakowatą.

08:22.050 --> 08:25.020
Tak, a także istnieje wiele innych elementów.

08:25.050 --> 08:35.190
Są takie rzeczy jak na przykład dlaczego, dlaczego to się dzieje, dlaczego nie przechodzi przez linię, więc mogło wyskoczyć z tego

08:35.190 --> 08:40.740
w górę, zamiast w dół i takie rzeczy, więc są parametry, które

08:40.740 --> 08:41.950
można poprawić.

08:41.970 --> 08:45.570
I jeszcze raz wspomnimy, gdzie możesz dowiedzieć się więcej na ten temat.

08:45.580 --> 08:51.090
A ponadto będziemy mieli to w praktycznym zastosowaniu, ale w najprostszym intuicyjnym podejściu to właśnie się

08:51.090 --> 08:51.770
dzieje.

08:51.780 --> 08:56.670
Dochodzimy do sedna, po prostu rozumiejąc, w którą stronę musimy iść.

08:56.700 --> 09:01.890
Zamiast brutalnego forsowania tysięcy, milionów, miliardów i kwadrylionów

09:01.890 --> 09:02.920
kombinacji.

09:03.030 --> 09:09.920
Możemy po prostu za każdym razem spojrzeć na to, gdzie jest, w którym kierunku jest tak pochylona, jak twoja, albo wyobrażasz

09:09.910 --> 09:11.690
sobie, że stoisz na wzgórzu.

09:11.700 --> 09:15.870
Który sposób ma wrażenie, że idzie w dół i niezależnie od tego, w którą stronę idzie, a ty

09:15.870 --> 09:20.760
po prostu idziesz w ten sposób, jakbyś zrobił 50 kroków, a potem oceniasz ponownie OK, która droga idzie w dół w ten

09:21.090 --> 09:21.470
sposób.

09:21.500 --> 09:24.620
OK, a zrobię 50 kroków lub mniej, wykonam 40 kroków w ten sposób.

09:24.690 --> 09:28.160
Więc staje się coraz mniej coraz mniej, kiedy się zbliżasz.

09:28.530 --> 09:32.720
Oto przykład zastosowania gradientu w dwuwymiarowej przestrzeni.

09:32.720 --> 09:36.450
To był jednowymiarowy przykład.

09:36.570 --> 09:41.880
Tutaj mamy dwuwymiarową przestrzeń dla gradientowego zejścia, ponieważ widzisz, że zbliża się

09:41.970 --> 09:48.450
ona do minimum i jest również nazywana pochyłością gradientową, ponieważ schodzisz do minimalnej funkcji kosztowej

09:48.480 --> 09:53.430
i odkrywasz, że ma on nachylenie gradientowe zastosowane w trzech wymiary.

09:53.430 --> 09:58.740
Wygląda to tak, jakby rzutować na dwa wymiary, które można zygzakować do

09:58.740 --> 09:59.600
minimum.

09:59.700 --> 10:03.810
W takim razie, że jest to indeks pochyłości gradientowej Tauriela. Porozmawiamy o stochastycznym.

10:03.810 --> 10:06.850
Pochodzenie gradientowe jest kontynuacją tego samouczka.

10:07.020 --> 10:08.720
I nie mogę się doczekać spotkania z tobą.

10:08.740 --> 10:10.610
Następnym razem skorzystaj z głębokiej nauki.