WEBVTT

00:00.680 --> 00:05.570
Hallo und willkommen zurück zu dem Kurs über tiefes Lernen. Im heutigen Tutorial sprechen wir

00:05.600 --> 00:06.600
über Gradientenabstieg.

00:06.890 --> 00:13.610
Was wir zuvor gelernt haben, war Folgendes: Damit ein neuronales Netzwerk lernen kann, was passieren

00:13.610 --> 00:21.140
muss, ist die Rückwärtsausbreitung. Dies ist, wenn der Fehler die Differenz oder die Summe der quadratischen Unterschiede zwischen

00:21.170 --> 00:28.300
y hat und Y durch das neuronale Netzwerk und die Gewichte zurückgesandt wird werden entsprechend angepasst.

00:28.520 --> 00:34.220
Also haben wir das gesehen und heute werden wir genau lernen, wie diese Gewichte eingestellt werden.

00:34.400 --> 00:35.930
Schauen wir uns das mal an.

00:36.080 --> 00:44.030
Dies ist unsere sehr einfache Version eines neuronalen Werks, ein Wahrnehmungs-Trauner, ein neuronales Netzwerk mit einem Buchstabenvorschub,

00:44.030 --> 00:52.280
und was wir hier sehen können, ist dieser ganze Prozess in Aktion, bei dem wir einen Eingabewert haben,

00:52.280 --> 00:57.000
dann müssen wir warten, dann eine Aktivierungsfunktion wird angewandt.

00:56.990 --> 01:01.850
Wir haben einen Hut und vergleichen ihn dann mit dem tatsächlichen Wert, den wir für die Kostenfunktion berechnen.

01:01.850 --> 01:05.420
Wie können wir also die Kostenfunktion minimieren?

01:05.420 --> 01:07.370
Was können wir dagegen tun.

01:07.370 --> 01:14.750
Nun, ein Ansatz, um dies zu tun, ist ein Brute-Force-Ansatz, bei dem wir einfach alle möglichen Gewichte verwenden

01:14.750 --> 01:20.990
und sie betrachten und herausfinden, welches am besten aussieht und was wir zum Beispiel tun und

01:21.080 --> 01:26.240
wir würden sie ausprobieren, die so etwas für die Kostenfunktion erhalten würden,

01:26.810 --> 01:32.900
und dies ist ein Diagramm der Querachse auf der Y-Achse der Querachse auf der horizontalen

01:32.900 --> 01:34.770
Achse von Y hat.

01:34.860 --> 01:39.200
Und weil Sie die Formeln sehen können, die ich minus Y im Quadrat hatte.

01:39.230 --> 01:42.470
So würde die Kostenfunktion aussehen.

01:42.670 --> 01:47.830
Und im Grunde findest du hier das Beste.

01:47.950 --> 01:50.980
Also sehr einfach sehr intuitiv.

01:50.980 --> 01:53.200
Warum nicht diese Methode der rohen Gewalt anwenden?

01:53.200 --> 02:01.630
Warum testen Sie nicht einfach tausend verschiedene Kosten für tausend verschiedene Parameter oder Eingaben für Gewichte und sehen Sie, welche

02:01.690 --> 02:03.030
am besten funktioniert.

02:03.030 --> 02:04.230
So finden Sie das Beste.

02:04.420 --> 02:10.270
Wenn Sie nur einen Weg zur Optimierung haben, kann dies funktionieren. Wenn Sie jedoch die Anzahl der Gewichte

02:10.480 --> 02:16.630
erhöhen, erhöhen Sie die Anzahl der Synopsys in Ihrem Netzwerk, und Sie müssen sich dem Fluch der Dimensionalität stellen.

02:16.630 --> 02:19.370
Und was ist die Ursache der Dimensionalität?

02:19.450 --> 02:24.510
Der beste Weg, dies zu beschreiben oder zu erklären, ist ein praktisches Beispiel.

02:24.640 --> 02:30.610
Denken Sie also an dieses Beispiel, als wir darüber sprachen, wie neuronale

02:30.610 --> 02:37.120
Netzwerke tatsächlich dort arbeiten, wo wir ein neuronales Netzwerk für die Immobilienbewertung aufbauen oder betreiben.

02:37.120 --> 02:43.030
So sah es also aus, als es bereits gut trainiert wurde, wenn es nicht trainiert wurde, bevor es trainiert wurde,

02:43.030 --> 02:45.290
bevor wir wissen, welches die Gewichte sind.

02:45.550 --> 02:47.640
Das eigentliche neuronale Netzwerk sieht so aus.

02:47.730 --> 02:54.860
Richtig, wir haben all diese verschiedenen möglichen Zusammenfassungen und wir müssen immer noch die Gewichte trainieren. Hier

02:55.280 --> 03:01.190
haben wir insgesamt 25 Gewichte, also vier mal fünf am Start und fünf weitere

03:01.310 --> 03:03.430
aus den insgesamt 25 Gewichten.

03:03.680 --> 03:09.060
Und lassen Sie uns sehen, wie wir 25 Wege brutal forcieren könnten.

03:09.070 --> 03:12.610
Dies ist hier ein sehr einfaches neuronales Netzwerk.

03:12.620 --> 03:20.630
Ganz einfach ein einziger Treffer und wie könnten wir uns durch ein neuronales Netzwerk dieser Größe brutal

03:20.630 --> 03:21.320
zwingen?

03:21.320 --> 03:24.370
Nun, es gibt ein paar einfache mathematische Berechnungen.

03:24.410 --> 03:25.890
Wir haben 25 Gewichte.

03:25.910 --> 03:30.410
Das bedeutet, wenn wir tausend Kombinationen haben, die wir für jedes Gewicht

03:30.410 --> 03:37.790
lösen müssen, beträgt die Gesamtzahl der Kombinationen 1000 bis 25 oder tausend oder 10, um fünf verschiedene Kombinationen zu analysieren.

03:37.790 --> 03:48.260
Nun sehen wir uns an, wie Sun den Supercomputer der Welt von Fosse ab Juni 2016 ausleuchten könnte, wie er dieses Problem

03:48.260 --> 03:49.700
angehen würde.

03:49.700 --> 03:52.390
Richtig, Sunway bindet wer Licht.

03:52.680 --> 04:00.980
Es sieht so aus, als wäre dies ein ziemlich großes Gebäude für diesen einen Supercomputer und es

04:01.310 --> 04:04.940
hat den Guinness-Weltrekord für den Fosses-Supercomputer erhalten.

04:05.210 --> 04:12.620
Im Moment ist es der schnellste Supercomputer der Welt, und in gewisser Weise können Krawattenlichter mit

04:12.620 --> 04:15.420
einer Geschwindigkeit von 93 Flops arbeiten.

04:15.510 --> 04:19.900
Flop steht für Floating-Betrieb pro Sekunde.

04:19.970 --> 04:23.310
So kann es dreiundneunzig für das Kraftöl tun.

04:23.340 --> 04:28.010
Zehnmal die Leistung von 15 Floating-Operationen pro Sekunde.

04:28.100 --> 04:32.340
So schnell ist es im Vergleich.

04:32.450 --> 04:38.210
Im Durchschnitt rechnen Computer gerade jetzt über mehrere Gigaflops und so weiter.

04:38.210 --> 04:41.320
Es ist also eine Art dieser Bereiche.

04:41.450 --> 04:44.290
Weniger als TEI Sunway-Licht.

04:44.390 --> 04:47.950
Plötzlich ist es eine Lüge, dass es an der Spitze der Technologie steht.

04:48.360 --> 04:57.920
Lassen Sie uns hypothetisch sagen, dass Sie eine Kombination von vier im eigenen

04:58.010 --> 05:04.220
Netzwerk auf einer Diskette und einen Floating-Vorgang testen

05:04.220 --> 05:09.470
können, der nicht möglich ist wenig.

05:09.480 --> 05:11.270
Aber lassen Sie uns auch einen Vorsprung geben.

05:11.270 --> 05:17.990
Nehmen wir an, dass dies in einer idealen Welt möglich ist. In einem Floating-Vorgang kann ein Test

05:18.290 --> 05:19.900
pro Floating-Vorgang durchgeführt werden.

05:20.120 --> 05:23.970
Das bedeutet, dass Doddridge immer noch fünf oder mehr benötigen wird.

05:24.080 --> 05:33.080
Teilen Sie sich dreiundneunzig Mal zehn bis etwa 15 Sekunden, um all diese Tests durchzuführen, um das Netzwerk

05:33.080 --> 05:34.120
zu durchbrechen.

05:34.130 --> 05:39.860
Das bedeutet, dass eine oder ungefähr dazu neigt, 58 Sekunden zu betreiben, und das ist das gleiche wie

05:39.860 --> 05:42.120
die Tendenz zur Leistung von 50 Jahren.

05:42.170 --> 05:49.910
Das ist eine riesige Anzahl, die länger ist, als das Universum existiert hat, und das

05:49.910 --> 05:59.150
wird definitiv nicht einfach so groß sein, dass es einfach nur für uns in unserer Optimierung überhaupt nicht funktionieren wird.

05:59.150 --> 06:00.020
Also los geht's.

06:00.140 --> 06:01.220
Das ist ein nein nein.

06:01.220 --> 06:05.450
Auch auf dem schnellsten Supercomputer der Welt, dem Sunway-Rücklicht.

06:05.450 --> 06:10.140
Wir müssen also einen anderen Ansatz finden, wie wir das optimale Gewicht finden.

06:10.310 --> 06:15.890
Übrigens war dieses neuronale Netzwerk sehr einfach. Was ist, wenn das neuronale

06:15.890 --> 06:22.740
Netzwerk so aussieht oder sogar größer als das, dann wird es ja überhaupt nicht passieren.

06:22.760 --> 06:28.490
Die Methode, nach der gesucht werden soll, wird als Gradientenabstieg bezeichnet, und Sie haben möglicherweise bereits davon gehört.

06:28.580 --> 06:30.770
Wenn nicht, werden wir herausfinden, was es jetzt ist.

06:30.840 --> 06:41.780
Also gibt es unsere Kostenfunktion und nun sehen wir uns an, wie wir die Suche nach der besten Option

06:41.840 --> 06:43.190
beschleunigen können.

06:43.190 --> 06:45.920
Nehmen wir also an, wir fangen irgendwo an, wo Sie anfangen werden.

06:45.920 --> 06:47.390
Also fangen wir dort an.

06:47.390 --> 06:56.990
Und von diesem Punkt oben links wollen wir uns den Winkel unserer Kostenfunktion an diesem Punkt ansehen. Wir werden

06:56.990 --> 07:00.800
also im Grunde nur Gradient nennen, weil man

07:00.800 --> 07:02.090
differenzieren muss.

07:02.150 --> 07:04.190
Wir werden uns nicht die mathematischen Gleichungen ansehen.

07:04.250 --> 07:09.370
Am Ende der nächsten Vorlesung geben wir Ihnen Tipps für zusätzliche Lektüre.

07:09.740 --> 07:17.150
Grundsätzlich müssen Sie jedoch nur differenzieren, um herauszufinden, was die Steigung in diesem bestimmten Punkt ist, und herauszufinden, ob die

07:17.150 --> 07:19.330
Steigung positiv oder negativ ist.

07:19.450 --> 07:25.640
Wenn die Steigung negativ ist, wie in diesem Fall, bedeutet dies, dass Sie bergab gehen. Rechts geht es

07:25.640 --> 07:27.350
bergab und links bergauf.

07:27.350 --> 07:29.780
Und von dort aus müssen Sie nach rechts gehen.

07:29.780 --> 07:31.510
Grundsätzlich muss man bergab gehen.

07:31.670 --> 07:33.070
Und das werden wir tun.

07:33.090 --> 07:35.510
Boom macht einen Schritt nach rechts.

07:35.510 --> 07:37.450
Der Ball rollt wieder runter.

07:37.460 --> 07:38.300
Gleiche Sache.

07:38.390 --> 07:44.120
Sie berechnen die Steigung und die Steigung ist positiv. Das bedeutet, dass der Aufstieg des Schreibers links abwärts geht und Sie müssen

07:44.120 --> 07:46.560
nach links gehen, und Sie sind auf dem Ball.

07:46.790 --> 07:54.900
Und wieder berechnen Sie die Steigung, und Sie sind alle der Bulle, und Sie

07:55.040 --> 08:04.520
finden es in einfachen Worten. So finden Sie die besten WAITES. Die beste Situation, die Ihre Kostenfunktion minimiert.

08:04.590 --> 08:08.970
Natürlich wird es nicht so sein, als würde ein Ballrollen eine sehr zickzackartige Herangehensweise

08:09.210 --> 08:14.970
sein, aber es ist einfacher, sich daran zu erinnern, oder es macht mehr Spaß, es als Ballrollen zu betrachten.

08:14.970 --> 08:19.980
Aber in Wirklichkeit ist es nur so, als würde ein schrittweiser

08:19.980 --> 08:21.920
Ansatz eine Zick-Zack-Methode sein.

08:22.050 --> 08:25.020
Ja, und es gibt noch viele andere Elemente.

08:25.050 --> 08:35.190
Es gibt Dinge wie zum Beispiel warum warum es untergeht warum es nicht weit über die Linie hinausgeht, so dass es aus diesem nach oben gesprungen

08:35.190 --> 08:40.740
sein könnte anstatt nach unten und solche Dinge, so dass es Parameter gibt, die

08:40.740 --> 08:41.950
man anpassen kann.

08:41.970 --> 08:45.570
Und wir werden noch einmal erwähnen, wo Sie mehr darüber erfahren können.

08:45.580 --> 08:51.090
Und außerdem haben wir dies in der praktischen Anwendung, aber in der einfachsten intuitiven Herangehensweise geschieht

08:51.090 --> 08:51.770
dies.

08:51.780 --> 08:56.670
Wir gehen auf den Grund, indem wir nur wissen, welchen Weg wir gehen müssen.

08:56.700 --> 09:01.890
Anstatt brutal durch Tausende und Abertausende, Millionen und Milliarden und Billiarden Kombinationen

09:01.890 --> 09:02.920
zu zwingen.

09:03.030 --> 09:09.920
Wir können einfach jedes Mal einen Blick darauf werfen, wo der Weg ist, der so abfallend ist wie Sie oder Sie sich vorstellen,

09:09.910 --> 09:11.690
auf einem Hügel zu stehen.

09:11.700 --> 09:15.870
Welchen Weg fühlt es sich an, dass es nach unten geht und auf welche Weise auch immer es nach unten geht

09:15.870 --> 09:20.760
und Sie gehen einfach so weiter, wie Sie möchten, gehen Sie 50 Schritte weit weg und beurteilen Sie erneut, in welche Richtung es nach unten

09:21.090 --> 09:21.470
geht.

09:21.500 --> 09:24.620
OK und ich mache 50 Schritte oder weniger, 40 Schritte auf diese Weise.

09:24.690 --> 09:28.160
Es wird also immer weniger, je näher man kommt.

09:28.530 --> 09:32.720
Hier ist ein Beispiel für den Gradientenabstieg in einem zweidimensionalen Raum.

09:32.720 --> 09:36.450
Das war also ein eindimensionales Beispiel.

09:36.570 --> 09:41.880
Hier haben wir einen zweidimensionalen Raum für den Gradientenabstieg, wie Sie sehen, er

09:41.970 --> 09:48.450
nähert sich dem Minimum und wird auch als Gradientenabfall bezeichnet, da Sie in das Minimum der Kostenfunktion

09:48.480 --> 09:53.430
absteigen und feststellen, dass er einen Gradientenabstieg in drei Fällen hat Maße.

09:53.430 --> 09:58.740
So sieht es aus, wenn Sie auf zwei Dimensionen projizieren, die sich im Zickzack bis zum

09:58.740 --> 09:59.600
Minimum bewegen.

09:59.700 --> 10:03.810
Also los, es war der Gradientenabstiegsindex von Tauriel. Wir sprechen über Stochastik.

10:03.810 --> 10:06.850
Der Gradientenabstieg ist wirklich eine Fortsetzung dieses Tutorials.

10:07.020 --> 10:08.720
Und ich freue mich darauf, Sie dort zu sehen.

10:08.740 --> 10:10.610
Und so genießen Sie das nächste Mal ein tiefes Lernen.