WEBVTT

00:00.490 --> 00:02.980
Cześć i witamy z powrotem na kursie głębokiego uczenia się.

00:02.980 --> 00:06.900
Dzisiaj rozpoczynamy splotowe sieci neuronowe, które będą ekscytujące.

00:06.910 --> 00:08.610
Zanurzmy się prosto w to.

00:08.620 --> 00:10.840
Zaczniemy od obrazu.

00:10.930 --> 00:13.210
Co widzisz, gdy patrzysz na to zdjęcie?

00:13.580 --> 00:19.480
Czy widzisz osobę, która patrzy na ciebie, czy widzisz osobę, która patrzy w prawo,

00:19.480 --> 00:25.860
widzisz, że twój mózg walczy, że trudno jest się dostosować, jeśli patrzysz na prawą stronę obrazu.

00:25.870 --> 00:29.180
Wystarczy spojrzeć na prawą krawędź, na której zobaczysz osobę patrząc w prawo.

00:29.260 --> 00:33.320
Jeśli spojrzysz na lewą ramkę obrazu, zobaczysz osobę, która na ciebie patrzy.

00:33.700 --> 00:42.760
I to tylko udowadnia, że to, czego poszukuje nasz mózg, gdy widzimy rzeczy, jest cechami zależnymi od funkcji, które

00:42.760 --> 00:46.140
widzi, w zależności od przetwarzanych funkcji.

00:46.180 --> 00:48.610
Kategoryzujesz rzeczy w określony sposób.

00:48.730 --> 00:54.010
Tak więc, gdy patrzysz na prawą stronę obrazu, widzisz pewne cechy osoby, która chce

00:54.010 --> 01:00.190
jeździć, ponieważ są bliżej twojego centrum skupienia i dlatego twój mózg klasyfikuje się jako osoba szukająca

01:00.190 --> 01:00.930
prawa.

01:01.000 --> 01:06.790
Kiedy patrzysz na lewą stronę obrazu, widzisz więcej cech osoby, która patrzy na ciebie i

01:06.790 --> 01:09.580
dlatego twój mózg klasyfikuje ją jako taką.

01:09.580 --> 01:11.150
Spójrzmy więc na inny.

01:11.230 --> 01:12.840
To bardzo znany obraz.

01:12.910 --> 01:14.530
Prawdopodobnie już to zauważyłeś.

01:14.680 --> 01:16.240
Ale co tu widzisz.

01:16.820 --> 01:23.830
Więc niektórzy ludzie powiedzą, że widzą młodą kobietę w sukience odwracającą wzrok.

01:23.830 --> 01:29.980
Niektórzy mówią, że widzą staruszkę w szaliku na głowie, patrząc w dół.

01:30.280 --> 01:36.250
Więc wskażę to i zobaczysz, że stanie się to bardzo oczywiste, więc to jest twarz młodej

01:36.250 --> 01:37.510
damy odwracającej wzrok.

01:37.510 --> 01:40.450
Patrzy w dal jak jej płaszcz.

01:40.440 --> 01:44.940
To jej włosy to jej małe pióro w jej włosach, az drugiej strony.

01:44.980 --> 01:53.530
To głowa starszej pani, która spogląda w dół jej ustami. Jej podbródek to szalik na głowie, a ona

01:53.560 --> 01:55.560
patrzy w dół.

01:55.780 --> 02:01.960
Ponieważ widzisz dwa w jednym i zależy to od tego, które cechy podniesie twój mózg, przełącza

02:02.620 --> 02:06.710
się pomiędzy klasyfikacją każdego obrazu jako jednego lub drugiego.

02:06.910 --> 02:13.930
Najstarszym z tych złudzeń zapisanych w drukowanym dziele jest ten.

02:13.930 --> 02:15.220
To kaczka lub królik.

02:15.230 --> 02:17.020
Czy to jest kaczka, czy to królik?

02:17.020 --> 02:18.330
Inny przykład.

02:18.430 --> 02:25.030
A teraz pokażę obraz, który tylko przez sekundę po prostu na niego spojrzę i zobaczę,

02:25.030 --> 02:28.670
jakie emocje lub jakiego rodzaju doświadczenie przeżywasz wizualnie.

02:29.110 --> 02:36.610
Więc, co widzisz, nie czujesz się trochę oszołomiony, ale trochę oszołomiony, tak jak twój mózg

02:36.610 --> 02:40.230
próbuje zrozumieć, jak to jest, jak próbuje.

02:40.330 --> 02:49.240
Przeskakuje między oczami w górę iw dół oczu i jest to klasyczny przykład, kiedy istnieją pewne cechy, w których może

02:49.240 --> 02:53.850
to być to, ale twój mózg nie może zdecydować.

02:54.130 --> 02:58.230
A ponieważ oba wydają się prawdopodobne.

02:58.290 --> 03:04.360
Tak, więc w zasadzie wszystkie te przykłady ilustrują nam, jak działa mózg, który przetwarza

03:04.360 --> 03:10.970
pewne cechy na obrazie lub na czymkolwiek, co widzimy w prawdziwym życiu i klasyfikuje to jako.

03:10.980 --> 03:16.150
Prawdopodobnie znalazłeś się w sytuacji, gdy szybko przejrzysz swoje ramię i zobaczysz coś, o

03:16.150 --> 03:23.500
czym myślisz, że nie wiem, czy to jest jak piłka, ale okazuje się, że jest kotem lub myślisz, że to jest

03:23.500 --> 03:24.030
samochód.

03:24.070 --> 03:28.030
Okazuje się, że jest to cień lub podobne rzeczy, ponieważ nie masz wystarczająco dużo czasu na przetworzenie tych

03:28.030 --> 03:31.030
funkcji lub nie masz wystarczająco dużo funkcji, aby klasyfikować rzeczy jako takie.

03:31.240 --> 03:38.570
I to jest dla mnie bardzo interesujące, ponieważ to, co będziemy robić z sieciami neuronowymi, ma splotowe sieci neuronowe

03:38.570 --> 03:43.630
jest bardzo podobne i przekonasz się, że sposób, w jaki komputery będą przetwarzać

03:43.630 --> 03:48.190
obrazy, będzie wyjątkowo podobnie do sposobu, w jaki przetwarzamy obrazy,

03:48.210 --> 03:53.580
więc bardzo cenne jest zrozumienie i zwyczajne pamiętanie o tym, że tak to robimy.

03:53.590 --> 03:58.450
I zabiorę tę panią z twoich ekranów, bo pewnie już jest wściekła.

03:58.630 --> 04:00.940
Oto coś innego.

04:00.940 --> 04:07.870
Oto eksperyment przeprowadzony na komputerach na splotowej sieci neuronowej, więc powoli przenosimy się

04:07.870 --> 04:11.150
teraz z ludzi na komputery.

04:11.350 --> 04:18.490
I ten slajd pochodzi z opowiadania Geoffrey'a Hintona, a tutaj zasadniczo opisuje

04:18.490 --> 04:24.440
się eksperyment przeprowadzony na niektórych konwencjonalnych sieciach neuronowych, które wytrenował.

04:24.460 --> 04:29.560
Widzimy tutaj trzy obrazy, a my przejdziemy od lewej do prawej i zobaczymy, jak je sklasyfikowaliście,

04:29.560 --> 04:31.870
a następnie zobaczcie, jak można je przeklasyfikować.

04:31.870 --> 04:35.440
Po lewej stronie, jak myślisz, co to jest.

04:35.440 --> 04:37.710
Pewnie powiedział, że gepard i będziesz miał rację.

04:37.710 --> 04:41.740
I to jest to, co powiedział komputer, a zaraz po tym,

04:41.740 --> 04:48.400
zaraz od nietoperza, nauczymy się czytać te obrazy, ponieważ jeśli zamierzasz zagłębić się w wzywanie splotowych sieci neuronowych, to nie

04:48.400 --> 04:54.050
gra słów, że zaczniesz się uczyć coraz więcej o nich i ich użyciu zobaczysz wiele z nich.

04:54.070 --> 05:01.470
Tak więc widziałem, że ludzie czytają je niepoprawnie, więc tutaj na górze Shida jest tak naprawdę.

05:01.470 --> 05:07.920
Tak więc jest to właściwa etykieta obrazu, która jest etykietą obrazów niezależnie

05:07.920 --> 05:09.180
od przetwarzania.

05:09.300 --> 05:16.770
A wizja komputerowa, a następnie tutaj, są przypuszczenia, że cztery lub pięć razy zgadują algorytm i dostają

05:17.370 --> 05:24.520
prawdopodobieństwo, więc komputer powiedział lub sieć neuronowa powiedziała, że odzież osobisty Chitta lub egipski kot

05:24.810 --> 05:27.460
może być jednym z czterech.

05:27.540 --> 05:29.120
A gepard ma najwyższy głos.

05:29.130 --> 05:34.820
I podczas tej części Kursu rozumiesz, co oznaczają te głosy i jak są one wyprowadzane.

05:34.830 --> 05:36.600
Ale na razie jest to dość intuicyjne.

05:36.600 --> 05:40.700
W rzeczywistości jest to gepard, a sieć neuronowa prawidłowo.

05:40.710 --> 05:44.600
Mówi z hiper-zdolnością około 95 99%.

05:45.900 --> 05:46.860
Potem drugi.

05:46.860 --> 05:51.050
Jak myślisz, co to znaczy, że jest to pociąg pociskowy.

05:51.300 --> 05:58.020
Sieć neuronowa była w stanie rozróżnić lokomotywę elektryczną pociągu pasażerskiego metra od pociągu.

05:58.020 --> 05:59.380
To najlepszy wybór.

05:59.400 --> 06:05.850
Miał o wiele więcej opcji, które te sieci neuronowe uczą się odróżniać nie tylko cztery kategorie od

06:06.000 --> 06:08.760
dziesiątek tysięcy kategorii w tym samym czasie.

06:08.760 --> 06:10.750
Oto cztery wybrane opcje.

06:10.920 --> 06:12.750
A więc to jest pocisk i jego wola.

06:12.760 --> 06:17.210
I co myślisz, że ostatnia jest bardzo.

06:17.350 --> 06:22.470
Jest kilka opcji lub nie jest jasne, co to może być patelnia

06:22.470 --> 06:29.550
może być lupą może być nawet nożyczkami, które niektórzy mogą powiedzieć, podczas gdy sieć neuronowa mówi, że

06:29.550 --> 06:30.540
to nożyczki.

06:30.750 --> 06:32.590
Ale możesz zobaczyć, jak możesz się pomylić tutaj.

06:32.610 --> 06:35.440
Przede wszystkim nie jest to bardzo przejrzysty obraz.

06:35.520 --> 06:43.920
Widać też, że prawdopodobieństwa nie są tutaj tak jasne, więc sieć neuronowa była nieco zdezorientowana, trochę

06:43.920 --> 06:46.280
niezdecydowana, tak jak my.

06:46.280 --> 06:51.710
Tak więc powiedziałem "Nożyczki" z dużym prawdopodobieństwem, ale potem miał szklankę, którą tak naprawdę było z

06:51.810 --> 06:55.760
nie tak daleko na drugim miejscu i stetoskopem do smażenia.

06:55.920 --> 07:01.620
Zasadniczo tutaj widać, że nożyczki to było jego pierwsze przypuszczenie, ale właściwą opcją był numer dwa i dlatego

07:01.620 --> 07:03.050
jest podświetlony na czerwono.

07:03.300 --> 07:07.050
Więc idziemy tamto, do czego wszystkie leki są już zdolne.

07:07.050 --> 07:08.880
A to właściwie całkiem stary slajd.

07:08.880 --> 07:10.610
To było kilka lat temu.

07:10.650 --> 07:16.100
Teraz są jeszcze lepsze i zobaczysz, że z praktycznego zastosowania, które będziesz kodował razem, jesz

07:16.170 --> 07:16.760
lunch.

07:16.920 --> 07:18.430
Ale teraz wypróbujmy to nieco lepiej.

07:18.430 --> 07:23.770
Jakie są w rzeczywistości sieci konwergencji lub splotowe sieci neuronowe i dlaczego zyskują tak dużą popularność.

07:23.970 --> 07:31.380
A tak naprawdę zyskują na popularności, więc możesz zobaczyć tutaj porównanie Google Trends, które właśnie zrobiłem wczoraj.

07:31.770 --> 07:39.420
Tutaj widać, że konwencje złudzeń sieci neuronowych przejmują nawet sztuczne sieci

07:39.420 --> 07:43.260
neuronowe, a więc ogromny wzrost.

07:43.260 --> 07:49.530
I to będzie dalej tak postępować, ponieważ jest to bardzo ważna dziedzina, w której to wszystko

07:50.130 --> 07:52.530
się dzieje, takie jak samochody samojezdne.

07:52.530 --> 07:59.340
Jak rozpoznają ludzi na drodze do rozpoznawania znaków stopu i takich rzeczy jak Facebook

07:59.340 --> 08:07.680
może na Facebooku oznaczać zdjęcia lub ludzi na obrazach, a nie tylko jak pamiętać, że wcześniej, lata

08:07.980 --> 08:14.240
temu, musieliście powiedzieć ludziom, że to będzie rozpoznać twarze, musisz dodać imiona.

08:14.250 --> 08:18.420
A teraz po prostu rozpoznaje twarze i dodaje imiona w tym samym czasie.

08:18.630 --> 08:26.070
Cóż, właśnie to splotowe sieci neuronowe mogą pełnić na Facebooku.

08:26.160 --> 08:34.710
Jeśli Jeffrey Hinton jest ojcem chrzestnym sztucznych sieci neuronowych i głębokiego uczenia się, to

08:34.830 --> 08:43.650
yalla Kuhn jest dziadkiem splotowych sieci neuronowych. Lukken jest uczniem Jeffreya Hintona i tak naprawdę można

08:43.650 --> 08:45.640
je zobaczyć razem.

08:45.720 --> 08:51.950
A Jeffrey Hinton jest teraz pionierem odradzania młodym Google.

08:52.020 --> 08:57.010
Jest dyrektorem badań nad sztuczną inteligencją na Facebooku, a także profesorem na Uniwersytecie Nowojorskim.

08:57.030 --> 09:02.650
Powoli zdajemy sobie sprawę z tej części rdzenia, którą powoli budujemy w ten sposób.

09:02.670 --> 09:10.770
Te imiona są tego rodzaju obrazem ludzi, którzy jeżdżą tą dziedziną, a następnie w następnych kilku stronach dowiesz się o kilku

09:10.950 --> 09:16.680
innych i będziemy mieli całą mafię, jak nazywają siebie lub możesz zadzwonić ich mafia

09:16.680 --> 09:22.320
lub spisek głębokiego uczenia się, a dowiesz się trochę więcej o tym, jak rozwinęło

09:22.320 --> 09:24.140
się to całe pole.

09:24.480 --> 09:27.200
Tak, to tylko niektórzy świetni ludzie.

09:27.450 --> 09:35.370
I tak RIKOON w latach 80. i 90. znacząco przyczynił się do rozwoju splotowych sieci

09:35.370 --> 09:36.300
neuronowych.

09:36.330 --> 09:44.310
I jak widać podczas tego kursu udało się rozwinąć lub pomóc światu stworzyć coś

09:44.340 --> 09:46.650
tak niesamowicie potężnego.

09:46.650 --> 09:51.390
W ten sposób przechodzimy do tego, jak mogą działać iluzoryczne sieci neuronowe.

09:51.420 --> 09:56.150
Masz dane wejściowe, które są bardzo proste, są bardzo proste, więc mają obraz wejściowy.

09:56.160 --> 10:01.930
Przechodzi przez iluzoryczną sieć neuronową i masz etykietę, która klasyfikuje ten obraz jako

10:01.990 --> 10:06.630
coś takiego, jak ma Cheetę, pociąg pociskowy lub coś innego.

10:06.790 --> 10:10.780
Teraz trochę lubię zagłębiać się w szczegóły.

10:10.900 --> 10:19.540
Na przykład można oficera neroli został przeszkolony na niektórych zdjęć na niektórych sklasyfikowanych obrazów

10:19.780 --> 10:23.600
lub kategoryzowanych obrazów przed wcześniejszym wyższym.

10:23.710 --> 10:29.510
Następnie możesz to zrobić, powiedzmy, że sieć neuronowa została wyszkolona do rozpoznawania wyrazów

10:29.510 --> 10:37.030
twarzy i ruchów, które możesz nadać twarzy uśmiechniętej osobie, nie tylko twarzy podobnej do tej twarzy, ale

10:37.030 --> 10:39.330
rzeczywistej twarzy uśmiechniętej osoby .

10:39.430 --> 10:44.910
I powiem ci, że ta osoba jest szczęśliwa i możesz dostać twarz osoby, która marszczy brwi.

10:44.910 --> 10:47.180
Powiem ci, że ta osoba jest smutna.

10:47.280 --> 10:52.570
Potrafi rozpoznać te emocje i jak widzisz, jest już bardzo potężny pod względem tak wielu

10:52.570 --> 10:59.740
różnych implikacji właśnie ten jeden przykład, który możesz od razu sobie wyobrazić, w obu przypadkach Ill daje ci operatywność, więc

10:59.740 --> 11:04.970
nie powiesz, że wiesz, że ". w 100 procentach osoba jest szczęśliwa lub smutna.

11:04.970 --> 11:13.000
Będzie to 99 lub 98, a może 80 procent, kiedy nie będzie jasne, co się dzieje i tak jak my mamy rację,

11:13.000 --> 11:16.620
czasami możemy pomylić rzeczy z tym, czym nie są.

11:16.660 --> 11:23.620
Czasami czasami nie jest jasne, czy osoba się uśmiecha, czy marszczy brwi, czy jest to

11:23.620 --> 11:27.910
pies czy kot, czy pociąg lub pociąg pociskowy.

11:28.110 --> 11:32.620
W porządku, czasami go nie mamy, nie widzieliśmy wystarczająco dużo funkcji, wszystko sprowadza

11:32.980 --> 11:38.600
się do funkcji, ponieważ w ten sposób przetwarzamy informacje wizualne, jak widzieliśmy od samego początku tego samouczka.

11:38.620 --> 11:44.140
Tak, ale w jaki sposób sieć neuronowa zdolna do rozpoznania tych funkcji może zostać wykorzystana w sieci neuronowej.

11:44.140 --> 11:48.770
Wszystko zaczyna się od bardzo podstawowego poziomu, jaki masz.

11:48.790 --> 11:54.160
Załóżmy, że masz obraz, na którym masz dwa obrazy, jeden to czarno-biały obraz

11:54.160 --> 12:01.270
dwóch na dwa piksele, a drugi to kolorowy obraz dwóch na dwa piksele, podczas gdy sieci neuronowe

12:01.270 --> 12:04.690
wykorzystują fakt, że obraz czarno-biały jest dwuwymiarowym układem.

12:04.690 --> 12:09.610
Tak więc sposób, w jaki widzimy to teraz po lewej, jest tylko wizualną reprezentacją.

12:09.630 --> 12:11.110
Przypuszczam, że jakiś obraz.

12:11.250 --> 12:16.600
I dla uproszczenia jest to tylko dwukierunkowy obraz, ale pod względem komputerowym jest

12:16.600 --> 12:22.180
to w istocie dwuwymiarowa tablica z każdym pojedynczym pikselem o wartości od 0 do 55.

12:22.360 --> 12:27.670
Tak więc osiem bitów informacji dla tych dwóch do potęgi ośmiu to 256.

12:27.670 --> 12:32.130
Tak więc wartości od 0 do 255 i to jest intensywność koloru.

12:32.260 --> 12:36.240
I w tym przypadku kolor biały, więc 0 będzie całkowicie czarnym pikselem.

12:36.370 --> 12:43.720
255 będzie całkowicie białym pikselem, a pomiędzy nimi masz zakres skali szarości możliwych opcji dla tego

12:43.720 --> 12:44.490
piksela.

12:44.650 --> 12:50.740
I na podstawie tych informacji komputery są w stanie pracować z obrazem i to jest jak

12:50.740 --> 12:56.510
punkt wyjścia do tego, że jakikolwiek obraz rzeczywiście ma cyfrową reprezentację ma formę cyfrową.

12:56.620 --> 13:03.460
A to są po prostu zer i jedynek, które tworzą liczbę od 0 do 255 dla każdego pojedynczego piksela i to jest to, z

13:03.460 --> 13:04.340
czym komputer pracuje.

13:04.340 --> 13:08.410
W rzeczywistości nie działa z tobą znać kolory lub coś, co działa z zer i jedynek na koniec

13:08.410 --> 13:08.790
dnia.

13:08.800 --> 13:12.820
To jest jak podstawa tego wszystkiego.

13:13.360 --> 13:17.110
A w obrazie kolorowym jest to faktycznie trójwymiarowa tablica.

13:17.230 --> 13:24.580
Masz niebieski niebieski piksel w kolorze Larry Green, czerwony blask i strzały oraz ten sam sens dla RGV czerwony zielony

13:24.580 --> 13:25.130
niebieski.

13:25.420 --> 13:29.740
I każdy z tych kolorów ma swoją własną intensywność.

13:29.740 --> 13:37.010
Więc zasadniczo piksel ma przypisane trzy trzy wartości.

13:37.030 --> 13:41.090
Każda z nich zawiera się między 0 a 256 255.

13:41.380 --> 13:48.340
I dlatego możesz dowiedzieć się, jaki jest ten obraz, jaki kolor ma dokładnie ten piksel.

13:48.340 --> 13:53.520
Łącząc te trzy wartości i znowu komputery będą z tym pracować.

13:53.530 --> 13:58.930
Więc to jest podstawa tego wszystkiego, co jest czerwonym kanałem, a zielonym kanałem niebieskim.

13:59.530 --> 14:08.590
Na koniec przyjrzyjmy się przykładowi bardzo trywialnego przykładu uśmiechniętej twarzy.

14:08.820 --> 14:09.610
W kategoriach komputerowych.

14:09.610 --> 14:17.710
Jeśli naprawdę upraszczamy rzeczy zamiast mieć od 0 do 255 i mając te wartości tylko po to,

14:17.710 --> 14:25.690
abyśmy mogli lepiej zrozumieć rzeczy i naprawdę uchwycić koncepcje, które zamierzamy powiedzieć zero, to białe są

14:25.690 --> 14:26.590
czarne.

14:26.590 --> 14:26.800
Dobrze.

14:26.800 --> 14:33.460
Więc zamierzamy uprościć wszystko do skrajności, a zobaczysz, że ten obraz może być reprezentowany w ten

14:33.460 --> 14:33.900
sposób.

14:34.000 --> 14:39.150
Tak więc powód, dla którego to wymyśliliśmy, polega na tym, że wchodzimy w

14:39.160 --> 14:44.680
wszystkie nasze intuicje Stroh, aby uzyskać strukturę obrazu, jest bardzo prosty, ale jednocześnie wszystkie te

14:44.680 --> 14:50.530
pojęcia można przetłumaczyć na 0 2 256 zakres wartości i wszystko działa w ten sam sposób.

14:50.740 --> 14:54.900
A jeśli chodzi o etapy, to będziemy je przeprowadzać, jeśli te obrazy są optymalną jedną ewolucją.

14:54.910 --> 14:56.820
Krok numer dwa maksymalne łączenie.

14:56.830 --> 15:02.550
Krok numer trzy, spłaszczanie i numer kroku, pełne połączenie i mogę sobie wyobrazić, że

15:02.560 --> 15:09.880
prawdopodobnie wszystkie te słowa wiele dla ciebie znaczą w tej chwili, ale pod koniec tej części kursu zrozumiesz je

15:10.000 --> 15:13.940
bardzo szczegółowo i dokładnie to, czym one są. robić.

15:13.960 --> 15:16.020
Więc zaczniemy w następnym samouczku.

15:16.030 --> 15:24.400
Na razie dodatkowa lektura, na którą warto spojrzeć, jest młodą oryginalną książką Luke'a, która

15:24.640 --> 15:28.200
dała początek emocjonalnym sieciom neuronowym.

15:28.200 --> 15:31.590
Nazywane jest to uczeniem opartym na gradiencie, stosowanym do poznania dokumentalnego.

15:31.660 --> 15:34.550
Być może widziałeś ten obraz, zanim ułożyłeś się w Internecie.

15:34.630 --> 15:40.990
To jest z tego artykułu, więc jeśli chcesz wrócić do samych początków tego, jak to wszystko się stało, skąd

15:40.990 --> 15:46.420
się to wszystko wzięło, to jest to papier do obejrzenia i czekam na następny tutorial.

15:46.420 --> 15:48.280
Do tego czasu ciesz się głęboką nauką.