WEBVTT

00:01.130 --> 00:06.810
Cześć i witamy z powrotem, więc oczywiście na temat głębokiego uczenia się dzisiaj mówimy o gradacji Kostickiego pochodzenia.

00:07.220 --> 00:14.450
Wcześniej dowiedzieliśmy się o pochyłości gradientowej i przekonaliśmy się, że jest to bardzo skuteczna metoda

00:14.450 --> 00:19.590
rozwiązania problemu optymalizacji, w której staramy się zminimalizować funkcję kosztu.

00:19.640 --> 00:29.030
Zasadniczo zabiera nas od 10 do 57 lat, aby rozwiązać problem w ciągu kilku minut lub godzin lub w ciągu

00:29.480 --> 00:30.940
jednego dnia.

00:31.100 --> 00:37.490
I naprawdę pomaga to przyspieszyć, ponieważ możemy zobaczyć, która droga jest z górki i możemy po prostu podążać w

00:37.490 --> 00:41.400
tym kierunku i szybciej podejmować kroki i zmniejszać się do minimum.

00:41.600 --> 00:50.030
Ale rzecz z kijem ze spadkiem gradientu polega na tym, że ta metoda wymaga wypukłości funkcji

00:50.030 --> 00:50.990
kosztowej.

00:51.140 --> 00:57.710
Jak widzicie, wybraliśmy funkcję wypukłego kosztu, która w zasadzie wypukła oznacza, że funkcja wygląda podobnie

00:58.160 --> 01:05.510
do tego, co widzimy teraz, gdy jest to po prostu rodzaj vext w jednym kierunku i

01:05.510 --> 01:09.220
że w istocie ma jedno globalne minimum.

01:09.380 --> 01:11.560
I to właśnie znajdziemy.

01:11.630 --> 01:14.060
Ale co, jeśli nasza funkcja nie jest wypukła?

01:14.060 --> 01:16.250
Co jeśli nasza funkcja kosztu nie jest poprawna.

01:16.370 --> 01:17.810
A co, jeśli coś takiego wygląda.

01:18.020 --> 01:19.660
Po pierwsze, jak to się mogło stać.

01:19.880 --> 01:27.950
Cóż, może się tak zdarzyć, jeśli najpierw wybierzemy funkcję kosztu, która nie jest kwadratową różnicą między tym,

01:28.010 --> 01:33.850
dlaczego i dlaczego, a jeśli tak, to wybieramy taką funkcję kosztu.

01:33.860 --> 01:39.650
Ale potem w wielowymiarowej przestrzeni może się ona przekształcić w coś, co nie jest wypukłe.

01:39.780 --> 01:45.410
A więc, co by się stało w tym przypadku, gdybyśmy tylko spróbowali zastosować naszą normalną metodę gradientu, coś takiego

01:45.410 --> 01:46.390
mogłoby się wydarzyć.

01:46.520 --> 01:51.230
Możemy znaleźć lokalne minimum funkcji kosztowej zamiast globalnej.

01:51.230 --> 01:57.730
Więc ta była najlepsza i znaleźliśmy niewłaściwą i dlatego nie mamy właściwej wagi.

01:57.740 --> 01:59.940
Nie mamy zoptymalizowanej sieci neuronowej.

02:00.230 --> 02:02.480
Mamy słabą sieć neuronową.

02:02.610 --> 02:04.470
A więc, co robimy w tym przypadku.

02:04.670 --> 02:09.110
Cóż, odpowiedź tutaj jest stochastyczna.

02:09.110 --> 02:10.050
Pochodzenie gradientowe.

02:10.070 --> 02:15.260
I okazuje się, że sarkastyczne nachylenie gradientu nie wymaga, aby funkcja przyczyny była wypukła.

02:15.380 --> 02:20.120
Przyjrzyjmy się zatem dwóm różnicom między normalnym nachyleniem, o którym mówiliśmy,

02:20.150 --> 02:21.600
a zasięgiem stochastycznym.

02:21.860 --> 02:27.920
Tak więc normalne zielone zejście jest wtedy, gdy bierzemy wszystkie nasze rzędy, podłączamy je do naszej sieci

02:27.920 --> 02:33.890
neuronowej i jeszcze raz mamy tu wielokrotnie kopiowaną sieć neuronową, ale za każdym razem wiersze są podłączane

02:33.890 --> 02:36.050
do tej samej sieci neuronowej.

02:36.050 --> 02:39.200
A więc jest tylko jeden letni trik, który jest tylko dla celów akcji Kissela.

02:39.350 --> 02:43.880
A potem, gdy je podłączymy, obliczyliśmy naszą funkcję kosztową w oparciu o

02:43.880 --> 02:49.400
prawą formułę i patrząc na wykres na dole, a następnie dopasowujemy wagi, to nazywa się

02:49.400 --> 02:54.480
to metodą gradientowego zejścia lub też właściwym terminem jest tę metodę stopniowego pochłaniania partii.

02:54.470 --> 03:01.940
Więc bierzemy całą partię z naszej próbki, którą stosujemy, a następnie zaczynamy, że metoda stochastycznego spadku gradientu

03:01.940 --> 03:03.730
jest nieco inna.

03:03.800 --> 03:10.880
Tutaj bierzemy rzędy jeden po drugim, więc bierzemy ten wiersz, prowadzimy naszą sieć neuronową, a następnie

03:10.880 --> 03:12.020
dostosowujemy wagi.

03:12.020 --> 03:16.420
Następnie przechodzimy do drugiego rzędu, w którym bierzemy drugi rząd, prowadzimy naszą sieć neuronową.

03:16.580 --> 03:21.640
Patrzymy na funkcję kosztów, a następnie ponownie dopasowujemy wagi, a następnie przyjmujemy kolejną Rohtak, trzecią, którą

03:21.640 --> 03:25.430
prowadzimy, naszą sieć neuronową, przyjrzymy się funkcji kosztowej, którą dostosowujemy wagę.

03:25.430 --> 03:32.660
W zasadzie patrzymy na to, że dopasowujemy wagi po każdym rzędzie, zamiast robić wszystko razem,

03:32.660 --> 03:36.080
a następnie testujemy dwa różne podejścia.

03:36.230 --> 03:39.710
A teraz po prostu porównamy te dwie strony obok siebie.

03:39.710 --> 03:42.920
Oto, jak je wizualnie zapamiętać.

03:42.920 --> 03:49.490
Więc masz najlepsze nachylenie gradientu, w którym dostosowujesz wagi po ich uruchomieniu po uruchomieniu wszystkich wierszy

03:49.490 --> 03:55.370
w sieci neuronowej, a następnie w zasadzie tylko wagom i uruchomieniu całego procesu ponownie

03:55.370 --> 04:00.500
iteracji iteracji iteracji w szóstej klasie w grudniu i biegasz po

04:00.500 --> 04:06.650
jednym rzędzie naraz i dostosowujesz wagi tak, jak to jest tylko waga, a potem robisz

04:06.770 --> 04:10.040
wszystko ponownie i to nazywa się omawianiem.

04:10.080 --> 04:16.580
I powiedziałeś, że dwie główne różnice polegają na tym, że sarkastyczna metoda

04:16.580 --> 04:27.470
gradientu pomaga uniknąć problemu, w którym znajdują się lokalne ograniczenia lub lokalne minimalne wartości, a nie ogólne ogólne globalne

04:27.470 --> 04:28.620
minimum.

04:29.030 --> 04:34.850
Powodem tego jest prosty zapis, że film o metodzie stochastycznego gradientu ma dużo wyższe

04:35.150 --> 04:38.220
fluktuacje, ponieważ może sobie na nie pozwolić.

04:38.210 --> 04:43.650
Robi jedną iterację lub jeden wiersz na raz, a zatem fluktuacje są znacznie

04:43.650 --> 04:49.440
wyższe i znacznie bardziej prawdopodobne jest znalezienie globalnego minimum, a nie tylko lokalnego minimum.

04:49.460 --> 04:56.480
Drugą rzeczą w sarkastycznym nachyleniu gradientu, który moim zdaniem jest złym gradientem, jest to, że jest on bardziej

04:56.480 --> 05:01.670
podobny do pierwszego wrażenia, jakie można mieć, ponieważ rośnie jeden po drugim, jest

05:01.730 --> 05:09.050
wolniejszy, ale w rzeczywistości jest szybszy, ponieważ jest nie musi ładować wszystkich danych do pamięci i uruchamiać i czekać,

05:09.080 --> 05:12.610
aż wszystkie te reguły są w ogóle włączone.

05:12.710 --> 05:16.780
Można je po prostu toczyć po kolei, więc znacznie lżejszy algorytm

05:16.790 --> 05:24.020
jest o wiele szybszy w tym sensie, choć ma znacznie więcej w tym sensie, ponieważ ma więcej zalet niż zły.

05:24.110 --> 05:25.320
Metoda gradientowego zejścia.

05:25.430 --> 05:31.310
Główną zaletą metody typu złego gradientu jest to, że jest to algorytm deterministyczny lub

05:31.310 --> 05:37.250
inny niż rzutowanie gradientowego gradientu, który jest algorytmem sarkastycznym, co oznacza, że jest on

05:37.250 --> 05:44.570
losowy i ma najlepszy gradient i metodę, o ile masz te same początkowe masy dla twojej sieci

05:44.570 --> 05:45.430
neuronowej.

05:45.500 --> 05:52.300
Za każdym razem, gdy uruchomisz metodę pochylenia z gradientem wsadowym, otrzymasz te same iteracje, które są takie

05:52.300 --> 05:58.300
same dla ciebie, ponieważ wszystkie wagi są aktualizowane, abyśmy mogli uzyskać sarkazmową, przyzwoitą metodę gradientu.

05:58.310 --> 06:04.550
Nie dostaniesz tego, ponieważ jest to metoda stochastyczna, którą wybierasz losowo i uaktualniasz swoją

06:04.570 --> 06:10.940
sieć neuronową w sarkastyczny sposób i dlatego za każdym razem, gdy uruchomisz kategorię, przyzwoita

06:10.940 --> 06:15.380
metoda nawet jeśli masz takie same masy na początku,

06:15.380 --> 06:20.770
będziesz miał inny proces i różne iteracje, aby się tam dostać.

06:20.780 --> 06:28.100
Tak więc w skrócie chodzi o to, co należy rozmyślać i odrzucać, ale istnieje również metoda między dwiema metodami,

06:28.100 --> 06:34.520
zwana metodą Miniaturowego pochylenia z gradientem, w której łączy się te dwa elementy i zasadniczo działa, zamiast

06:34.520 --> 06:37.640
uruchamiać całą serię pojedynczych operacji na raz.

06:37.640 --> 06:44.150
Uruchamiasz partie wierszy, być może 5 10 100, niezależnie od tego, ile wierszy zdecydujesz się ustawić, aby uruchomić liczbę wierszy na

06:44.150 --> 06:47.690
raz, a następnie zaktualizujesz sposób o jedną cyfrę i tak dalej.

06:47.900 --> 06:52.670
I to się nazywa metodą gradientu mini Bache, jeśli chcesz dowiedzieć się więcej o

06:52.670 --> 06:56.630
pochyłości gradientowej, jest świetny artykuł, na który możesz rzucić okiem.

06:56.660 --> 07:04.940
Nazywa się to siecią neuronową w 13 liniach części Pythona, by wspaniale i zejść przez

07:04.940 --> 07:12.840
Andrzeja Traska, a linki poniżej to dobry artykuł bardzo dobrze napisany, bardzo prosty.

07:12.920 --> 07:21.860
Jest w nim kilka interesujących filozoficznych lub tylko interesujących myśli na temat stosowania zielonej przyzwoitej wody, które znasz wady

07:22.340 --> 07:28.460
i zalety oraz jak radzić sobie w określonych sytuacjach, dzięki czemu otrzymujesz bardzo

07:28.460 --> 07:30.730
ciekawe porady i sztuczki.

07:31.370 --> 07:33.620
Bardzo łatwa lektura, więc zdecydowanie sprawdź to.

07:33.800 --> 07:37.010
A jeszcze jeden jest nieco cięższy do czytania.

07:37.010 --> 07:41.930
Dla tych, którzy są w matematyce, którzy chcą dotrzeć do sedna matematyki, dlaczego.

07:41.930 --> 07:45.180
Pochylenie gradientowe jest takie specyficzne.

07:45.260 --> 07:49.200
Jakie są formuły, które kierują stopniami i jak to jest obliczane i tak dalej.

07:49.220 --> 07:51.610
Sprawdź artykuł lub książkę.

07:51.620 --> 07:57.160
Jest to darmowa książka online o nazwie sieci neuronowe i głębokie uczenie się przez książkę Michael Nielsen 2015.

07:57.160 --> 08:02.190
Po prostu jest to wszystko w sieci, możesz iść dalej i sprawdzić to.

08:02.450 --> 08:05.870
I znowu bardzo miękkie wprowadzenie do matematyki.

08:05.870 --> 08:12.260
Ale dla matki matematyka, ale matematyka, są dość ciężkie, kiedy idziesz dalej, czytając

08:12.530 --> 08:13.340
artykuł.

08:13.610 --> 08:20.240
Ale jednocześnie wpada w ten nastrój, myślę, że masz na myśli rozgrzewkę, w której najpierw rozgrzewasz matematykę, a potem wskakujesz

08:20.240 --> 08:25.370
do tego, że jestem tak bardzo zainteresowany matematyką, to jest ten artykuł, do którego

08:25.370 --> 08:26.110
należy przejść.

08:26.540 --> 08:32.780
I oto idziemy tak, to jest w pigułce różnica między poczuciem Graney,

08:32.810 --> 08:36.360
aby rzucić gradientem i jak pracować.

08:36.410 --> 08:39.830
I w tej notatce, którą zamierzamy zakończyć, powiedział dziś Tauriel.

08:39.840 --> 08:42.000
Nie mogę się doczekać, kiedy zobaczę cię na następnym.

08:42.020 --> 08:44.090
A do tego czasu cieszcie się głęboką nauką.