WEBVTT

00:00.840 --> 00:05.380
Cześć, witamy z powrotem na kursie i głębokiej nauce, kiedy zobaczyliśmy, że twoja własna sieć

00:05.440 --> 00:08.280
działa, czas, abyśmy dowiedzieli się, jak się uczą.

00:08.470 --> 00:10.480
Więc przejdźmy do tego.

00:10.510 --> 00:16.100
Są to dwa zasadniczo różne podejścia do uzyskania programu do robienia tego, co chcesz zrobić.

00:16.240 --> 00:25.120
Jednym z nich jest zakodowane kodowanie, w którym podajesz konkretne reguły programu i jakie wyniki chcesz osiągnąć.

00:25.120 --> 00:30.940
I po prostu prowadzisz go przez całą drogę i uwzględniasz wszystkie możliwe opcje, z

00:30.940 --> 00:33.130
którymi program ma do czynienia.

00:33.310 --> 00:41.320
Z drugiej strony masz sieci neuronowe, w których tworzysz program, dzięki któremu program sam będzie w stanie zrozumieć,

00:41.800 --> 00:43.530
co musi zrobić.

00:43.530 --> 00:50.080
Więc w zasadzie tworzysz tę sieć neuronową, w której podajesz dane wejściowe, mówisz to, co chcesz, jako dane

00:50.110 --> 00:53.050
wyjściowe, a następnie pozwalasz jej samodzielnie zrozumieć wszystko.

00:53.350 --> 00:59.890
Dwa zasadniczo różne podejścia i o tym należy pamiętać podczas przechodzenia przez te

00:59.890 --> 01:00.850
samouczki.

01:00.850 --> 01:06.180
Naszym celem jest stworzenie tej sieci, która uczy się sama.

01:06.220 --> 01:14.570
Będziemy unikać wprowadzania reguł i dobrym przykładem, który mogę wam teraz przekazać, jest to, że pojawi się ono dalej w

01:14.680 --> 01:18.680
toku, ale na przykład jest to bardzo wizualny przykład.

01:18.700 --> 01:25.690
Jak odróżnić futro od psa i kota po lewej stronie procesu przedstawionego po lewej stronie programuje

01:25.690 --> 01:33.250
się rzeczy takie, jak uszy kota muszą wyglądać tak, aby wąsy zwracały uwagę na ten typ nosa, uważaj

01:33.250 --> 01:39.530
na tego typu kształtu twarzy zwracaj uwagę na te kolory, które opisałbyś wszystkie te

01:39.530 --> 01:45.310
rzeczy, a będziesz miał warunki, jak gdyby uszy były spiczaste niż kocie, jeśli

01:45.310 --> 01:49.600
uszy pochylają się i prawdopodobnie pies i tak dalej.

01:49.600 --> 01:55.090
Z drugiej strony dla sieci neuronowej po prostu kodujesz sieci neuronowe kodujesz architekturę, a następnie kierujesz

01:55.090 --> 02:01.030
sieć neuronową do folderu z tymi wszystkimi kotami i psami z obrazami kotów i psów, które są

02:01.030 --> 02:06.580
już skategoryzowane i mówisz to OK. Mam cię, mam zdjęcia kotów i psów, idź i dowiedz

02:06.880 --> 02:08.860
się, co to jest kot.

02:08.860 --> 02:10.560
Idź i dowiedz się, czym jest pies.

02:10.600 --> 02:16.000
A sieć neuronowa sama zrozumie wszystko, czego potrzebuje, aby ją zrozumieć, a następnie, po jej wyszkoleniu,

02:16.000 --> 02:20.950
kiedy podasz mu nowy obraz kota lub psa, będzie w stanie zrozumieć, co to

02:20.950 --> 02:21.600
było.

02:21.610 --> 02:25.600
Więc są to dwa zasadniczo różne podejścia.

02:25.690 --> 02:31.090
A dziś powoli zaczniemy się zastanawiać, jak działa to drugie podejście.

02:31.090 --> 02:31.530
W porządku.

02:31.570 --> 02:33.340
Więc przejdźmy od razu do tego.

02:33.400 --> 02:39.880
Tutaj mamy bardzo podstawową sieć neuronową z jedną warstwą nazywaną jednowarstwową siecią neuronową feedforward

02:39.880 --> 02:42.760
i jest ona również nazywana percepcją.

02:42.760 --> 02:47.380
Zanim przejdziemy dalej, jedną rzeczą, którą musimy zmienić, jest wartość wyjściowa.

02:47.380 --> 02:49.320
Teraz widzisz, że to tylko Y.

02:49.330 --> 02:51.160
Musimy włożyć tam kapelusz.

02:51.190 --> 02:56.500
A powodem tego jest zwykle y oznacza rzeczywistą wartość i właśnie tego będziemy używać.

02:56.500 --> 03:03.700
Dlaczego więc będzie to rzeczywista wartość, którą widzimy jako wartość wyjściowa inwality to przewidywana wartość

03:03.700 --> 03:05.890
algorytmu przez sieć neuronową.

03:05.890 --> 03:09.220
Dlaczego jaka jest wartość wyjściowa?

03:09.220 --> 03:11.500
Zasadniczo jest to nominał dla wartości wyjściowej.

03:11.740 --> 03:20.020
A percepcja, która została po raz pierwszy wymyślona w 1957 roku przez Franka Rosenblata i jego cała idea,

03:20.170 --> 03:25.010
polegała na stworzeniu czegoś, co może się nauczyć i dostosować.

03:25.240 --> 03:28.010
I właśnie na to będziemy teraz patrzeć.

03:28.030 --> 03:30.230
Mamy wyciągnięte nasze przykazanie.

03:30.250 --> 03:32.070
Zobaczmy, jak nasza percepcja się uczy.

03:32.080 --> 03:39.130
Powiedzmy, że mamy pewne wartości wejściowe, które zostały dostarczone do percepcji i / lub w zasadzie do naszej

03:39.130 --> 03:40.210
własnej sieci.

03:40.330 --> 03:44.190
Następnie zostanie zastosowana funkcja aktywacji.

03:44.200 --> 03:49.210
Mamy dane wyjściowe i teraz zamierzamy wydrukować dane wyjściowe na wykresie.

03:49.210 --> 03:51.830
Więc to jest nasz wynik wyjściowy.

03:51.830 --> 03:57.520
Teraz, aby nauczyć się, musimy porównać wartość wyjściową z rzeczywistą wartością,

03:57.520 --> 04:01.310
którą chcemy, aby sieć neuronowa poprawiła się.

04:01.600 --> 04:04.520
I to jest wartość y.

04:04.810 --> 04:08.230
Jeśli więc to tutaj umieścimy, zobaczysz, że jest trochę różnicy.

04:08.330 --> 04:13.510
Teraz obliczymy funkcję zwaną funkcją kosztu obliczoną jako połowa różnicy kwadratowej

04:13.510 --> 04:17.200
różnicy między wartością rzeczywistą a wartością wyjściową.

04:17.200 --> 04:20.500
Teraz istnieje wiele sposobów na stworzenie funkcji klasowej.

04:20.500 --> 04:23.300
Istnieje wiele różnych funkcji kosztów, z których można korzystać.

04:23.320 --> 04:30.280
Jest to prawdopodobnie najczęściej używana funkcja wywołania i dlaczego konkretnie ta funkcja, której używamy, znajdzie się dalej, gdy

04:30.280 --> 04:34.900
mówimy o przyzwoitym gradiencie, ale na razie po prostu zgodzimy się,

04:34.900 --> 04:39.830
że jest to funkcja kosztu i w zasadzie to, co mówi nam

04:40.420 --> 04:44.240
funkcja kosztu, to jaki błąd masz w swoich prognozach.

04:44.290 --> 04:50.770
Naszym celem jest zminimalizowanie funkcji kosztu, ponieważ im niższa jest funkcja kosztu, tym bliżej

04:50.790 --> 04:51.780
jest y.

04:52.150 --> 04:54.430
OK, więc tylko my się z tym zgadzamy.

04:54.430 --> 05:00.760
Więc w zasadzie od tego, co się dzieje, jest funkcja kosztu i stąd

05:00.760 --> 05:08.950
to, co się dzieje, to teraz, kiedy porównamy teraz, będziemy przekazywać te informacje z powrotem do sieci neuronowej.

05:08.980 --> 05:14.170
Wracamy więc do informacji z powrotem do sieci neuronowej i idzie do wag, a

05:14.200 --> 05:15.630
wagi są aktualizowane.

05:15.700 --> 05:20.880
Zasadniczo jedyną rzeczą, nad którą mamy kontrolę w tej bardzo prostej sieci neuronowej są ciężary

05:20.900 --> 05:23.490
w 1 W2 aż do W ..

05:23.980 --> 05:29.370
Naszym celem jest minimalizacja kosztów, więc wszystko, co możemy zrobić, to zaktualizować wagi.

05:29.500 --> 05:33.690
Aktualizujemy wagi i trochę ich poprawiamy.

05:33.940 --> 05:39.600
I jak dokładnie dowiadujemy się o upadku, ale na razie zgadzamy się, że mamy ciężary, a

05:39.600 --> 05:40.320
następnie kontynuujemy.

05:40.320 --> 05:48.870
Ale tutaj przedstawiam zrzut ekranu danych tylko po to, by wyjaśnić, że obecnie w całym tym eksperymencie wszystko,

05:48.930 --> 05:53.990
co teraz robimy, mamy do czynienia tylko z jedną rolą.

05:54.000 --> 06:00.330
Tak więc mamy do czynienia z zestawem danych z jednego wiersza, na którym mamy na przykład

06:00.330 --> 06:05.720
czas, w którym się uczysz, tak jak zmienna, którą według nas przewidujemy.

06:06.180 --> 06:08.230
Jaki wynik uzyskasz na egzaminie?

06:08.430 --> 06:13.200
A zależne zmienne niezależne, jakie mamy, to ile godzin uczyłeś się przez ile godzin

06:13.200 --> 06:15.430
spałeś i co dostałeś w quizie.

06:15.460 --> 06:19.880
W połowie semestru Więc w połowie semestru jest quiz, jaki procent tam dotarłeś.

06:19.880 --> 06:26.100
Opierając się na tych zmiennych, staramy się przewidzieć, jaki wynik uzyskasz na egzaminie i egzaminie - 93

06:26.100 --> 06:28.010
procent to rzeczywista wartość.

06:28.010 --> 06:29.020
Więc to dlatego.

06:29.560 --> 06:30.460
Więc.

06:30.660 --> 06:36.720
Dlatego po raz drugi ponownie zasilamy te trzy wartości w sieć neuronową, a następnie

06:36.720 --> 06:38.980
porównamy wynik do bieli.

06:39.150 --> 06:40.690
Zobaczmy więc, jak to działa.

06:40.800 --> 06:43.710
Wprowadzamy te wartości do sieci neuronowej.

06:43.830 --> 06:50.160
Wszystko się koryguje, a wagi robią to tylko po to, żebyś zobaczył, że to jest znowu, karmimy wartościami. Chodzi o

06:50.190 --> 06:55.480
to, że karmimy w tej samej kuli, więc mamy tylko jedną rolkę, którą próbujemy zrobić. w

06:55.480 --> 06:56.370
jednym rzędzie.

06:56.370 --> 06:59.580
Jest tak dlatego, że jest to bardzo prosty prosty przykład.

06:59.640 --> 07:01.610
Wtedy zobaczymy, co się stanie, gdy pojawi się moralność.

07:01.800 --> 07:06.180
Tak więc ponownie karmimy te wiersze w naszym dopasowaniu do funkcjonalności.

07:06.180 --> 07:10.520
Jak widać, wszystko dzieje się znowu w tym kierunku.

07:10.530 --> 07:15.030
Tak jak mówisz, za każdym razem, gdy zmienia się nasz biały kapelusz, ponieważ poprawiliśmy wagi.

07:15.030 --> 07:20.550
Jedyne, co miałem, to zmienić naszą funkcję ubrań, zmieniając cały ten wygląd, więc karmimy ich.

07:20.550 --> 07:22.840
Dlaczego zmienia się funkcja ubrania zmienia się.

07:22.920 --> 07:27.020
Otrzymujemy informację zwrotną do wagi, aby wagi zostały ponownie dostosowane.

07:27.030 --> 07:31.850
Żywimy te same wartości za każdym razem, gdy wszystko się dostosowuje, powraca do wagi.

07:31.860 --> 07:33.920
I jeszcze raz nakarmić.

07:34.020 --> 07:34.990
DOBRZE.

07:35.730 --> 07:40.720
I innym razem, więc dostosowaliśmy sposób, w jaki czujemy się w informacji.

07:40.830 --> 07:41.370
I oto idziemy.

07:41.370 --> 07:45.990
Więc teraz ten biały kapelusz jest równy y krzyżowej funkcjonalności 0.

07:46.020 --> 07:48.410
Zwykle funkcja kosztów nie jest równa zero.

07:48.420 --> 07:50.720
Ale to bardzo prosty przykład.

07:50.820 --> 07:57.480
Miejmy nadzieję, że wszystko to ma sens za każdym razem, gdy karmimy dokładnie w tym samym rzędzie, ponieważ właśnie w tym

07:57.480 --> 08:01.370
przypadku mamy do czynienia tylko z jednym rzędem w naszej sieci neuronowej.

08:01.400 --> 08:06.990
No więc wagi otrzymają prawidłowe wartości podaży, sposób w jaki zastosowana jest funkcja aktywacji, otrzymujemy

08:06.990 --> 08:12.320
y y y w porównaniu do Y, wtedy widzimy, jak zmienia się funkcja kosztu.

08:12.430 --> 08:16.500
Informacja zwrotna i kanał informacyjny Bakkera w twojej własnej sieci, a następnie dostosuj

08:16.500 --> 08:17.470
wagi ponownie.

08:17.850 --> 08:21.410
A następnie powtarzamy ten sam proces ponownie z tym samym dokładnym wierszem.

08:21.570 --> 08:23.320
Staramy się minimalizować te koszty.

08:23.520 --> 08:26.860
Do tej pory mieliśmy do czynienia tylko z jednym rzędem.

08:27.030 --> 08:29.470
Zobaczmy, co się stanie, gdy masz wiele ról.

08:29.490 --> 08:31.320
Oto pełny zestaw danych.

08:31.350 --> 08:38.610
Mamy osiem rzędów tego, ile godzin spaliście, a może inni uczniowie w tym samym dniu zdają ten sam

08:38.610 --> 08:44.070
egzamin, ile godzin zajęło im to, ile godzin spali, zanim egzamin zostanie poddany

08:44.070 --> 08:47.300
quizowi i jego końcowy wynik na teście.

08:47.490 --> 08:52.720
I jak widać tutaj po lewej, mam w rzeczywistości osiem takich spostrzeżeń.

08:53.100 --> 08:55.950
Wszystkie są takie same, więc to również jest ważne.

08:56.010 --> 09:02.600
Po prostu pomnożyłem go lub podważyłem osiem razy, abyśmy mogli.

09:03.330 --> 09:04.310
Koncepcja jest taka.

09:04.320 --> 09:10.380
Ale ważną rzeczą jest tutaj ta sama sieć neuronowa, którą będziemy karmić w jedną Samualną sieć.

09:10.380 --> 09:11.650
Więc zaczynajmy, zaczynajmy.

09:11.650 --> 09:20.550
Tak więc jedno lotnisko, o którym słyszeliście, wspominało o jednym parku, kiedy przechodzimy przez cały zbiór danych i

09:20.610 --> 09:27.410
szkolimy naszą sieć neuronową we wszystkich tych rolach, więc te listy są.

09:27.420 --> 09:34.410
A więc jest nasz pierwszy rząd i dlatego w pierwszym rzędzie pojawiła się druga rola, dlatego miałem już

09:34.410 --> 09:35.260
drugą rundę.

09:35.280 --> 09:39.590
Więc za każdym razem jest zasilany w tę samą sieć neuronową.

09:39.600 --> 09:45.070
Po prostu skopiowałem je kilka razy, abyśmy mogli wizualnie zobaczyć, jak to się dzieje.

09:45.090 --> 09:52.320
Znowu, jak to się dzieje znowu, to trzeci rząd w czwartym rzędzie jest naszą białą głową w czwartym rzędzie i tak

09:52.320 --> 09:53.010
dalej.

09:53.010 --> 09:56.580
Zasadniczo otrzymujemy te same wartości dla pozostałych czterech wierszy.

09:56.580 --> 10:03.440
Więc za każdym razem, gdy tylko zasilamy rząd w naszą sieć neuronową, rozumiemy to.

10:03.780 --> 10:06.930
Następnie porównujemy z rzeczywistą wartością.

10:06.930 --> 10:08.550
Więc są to rzeczywiste wartości.

10:08.760 --> 10:11.340
Tak więc dla każdego rzutu mamy rzeczywistą wartość.

10:11.640 --> 10:18.480
A teraz opieramy się na wszystkich tych różnicach między nami i dlaczego możemy obliczyć

10:18.480 --> 10:27.620
funkcję kosztów, która jest sumą wszystkich kwadratów różnic między tym, dlaczego i dlaczego, i jak wszystko to jest o połowę mniejsze.

10:28.230 --> 10:30.360
I jest nasza funkcja kosztu.

10:30.360 --> 10:36.750
I w zasadzie teraz, co robimy, gdy mamy pełną funkcję kosztową, którą wracamy i aktualizujemy wagi,

10:37.170 --> 10:39.480
które aktualizujemy W 1 WTW.

10:39.510 --> 10:45.810
A ważną rzeczą, o której należy pamiętać, jest to, że wszystkie te percepcje to wszystkie sieci neuronowe w rzeczywistości

10:45.810 --> 10:47.340
są jedną siecią neuronową.

10:47.340 --> 10:49.420
Więc nie ma ich ośmiu, jest tylko jeden.

10:49.680 --> 10:55.110
A kiedy aktualizujemy wagi, będziemy aktualizować wagi w tej jednej sieci neuronowej, więc w zasadzie

10:55.110 --> 10:57.900
wagi będą takie same dla wszystkich wierszy.

10:57.930 --> 11:00.560
Tak więc nie jest tak, że każda rola ma swoją własną wagę.

11:00.580 --> 11:07.320
Teraz wszystkie rzędy dzielą ciężary i dlatego przyjrzeliśmy się funkcji kosztów, która jest

11:07.620 --> 11:15.270
sumą różnic kwadratowych, a następnie zaktualizowaliśmy wagi, a teraz od tego momentu była tylko jedna iteracja.

11:15.270 --> 11:19.020
Następnie znowu wszystko uruchomimy.

11:19.020 --> 11:25.440
Będziemy podawać każdy rząd do sieci neuronowej, aby dowiedzieć się o naszej funkcji kosztowej i powtórzyć

11:25.440 --> 11:26.370
cały proces.

11:26.370 --> 11:32.090
Tak jak wcześniej widzieliśmy, gdzie mieliśmy tylko jeden wiersz i robiliśmy wszystko ponownie i znowu i

11:32.140 --> 11:33.590
znowu to samo tutaj.

11:33.600 --> 11:38.880
Ale teraz będziemy robić i Pedros lub 800 wierszy lub osiem tysięcy wierszy, tyle ile wierszy

11:38.880 --> 11:40.590
masz w swoim zbiorze danych.

11:40.830 --> 11:43.700
Wykonujesz ten proces, a następnie obliczasz funkcję kosztu.

11:44.220 --> 11:51.510
Celem jest zminimalizowanie funkcji kosztowej i uzyskanie natychmiastowego znalezienia minuty funkcji kosztowej, która

11:51.510 --> 12:00.210
jest twoją ostateczną siecią neuronową, co oznacza, że twoje wagi zostały dostosowane i znalazłeś optymalne wagi dla

12:00.750 --> 12:08.550
tego zestawu danych, który zacząłeś Twoje szkolenie i jesteś gotowy, aby przejść do fazy testów

12:08.550 --> 12:11.130
lub do fazy aplikacji.

12:11.550 --> 12:14.920
Cały ten proces nazywa się propagacją wsteczną.

12:15.000 --> 12:21.930
Więc dodatkowe czytanie, które możesz chcieć zrobić dla funkcji kosztów i wiem, że właśnie rozmawialiśmy

12:21.930 --> 12:24.840
o jednym i istnieje wiele różnych.

12:24.840 --> 12:28.690
Dobry artykuł znajduje się na zatwierdzonym krzyżu.

12:28.740 --> 12:33.020
Nazywa się to listą funkcji kursu wykorzystywanych w sieciach neuronowych wraz z aplikacjami.

12:33.090 --> 12:39.840
Więc euro jest tam, ale możesz po prostu google dla tego dokładnego wyszukiwanego hasła lub frazy wyszukiwania, a będziesz,

12:39.960 --> 12:42.150
że ten będzie pierwszy, który wyskoczy.

12:42.150 --> 12:48.660
W rzeczywistości ma kilka dobrych przykładów i aplikacji lub przypadków użycia dla różnych funkcji kosztów, więc jeśli chcesz dowiedzieć

12:48.660 --> 12:51.800
się więcej o funkcjach kosztów, sprawdź ten artykuł.

12:51.990 --> 12:54.380
I w tej notatce mam nadzieję, że spodoba ci się ten samouczek.

12:54.420 --> 12:56.070
Czekam na ciebie następnym razem.

12:56.070 --> 12:58.020
Do tego czasu ciesz się głęboką nauką.