WEBVTT

00:00.630 --> 00:04.800
Hallo und willkommen zurück zu dem Kurs über Deep Learning heute sprechen wir über das Pooling

00:04.800 --> 00:07.380
von Max und wir haben einige sehr aufregende Folien.

00:07.500 --> 00:10.930
Und noch eine besondere Überraschung ganz am Ende des Tutorials.

00:11.010 --> 00:12.440
Also lasst uns anfangen.

00:12.450 --> 00:15.860
Die erste Frage ist, was gebündelt wird und warum wir es brauchen.

00:16.050 --> 00:19.650
Um diese Frage zu beantworten, werfen wir einen Blick auf diese Bilder auf diesen Bildern.

00:19.650 --> 00:20.780
Wir haben einen Gepard.

00:20.790 --> 00:23.680
Tatsächlich ist es auf dem ersten Bild genau derselbe Gepard.

00:23.680 --> 00:29.640
Dieses Bild ist richtig positioniert und das zweite Bild wird direkt von Ihnen betrachtet.

00:29.640 --> 00:30.660
Es ist ein bisschen gedreht.

00:30.660 --> 00:32.710
Und das dritte Bild ein bisschen gequetscht.

00:32.790 --> 00:40.020
Und hier wollen wir, dass das neuronale Netzwerk den Gepard in jedem dieser Bilder

00:40.020 --> 00:41.450
erkennen kann.

00:41.460 --> 00:43.230
In der Tat ist dies nur ein Gepard.

00:43.230 --> 00:45.070
Was ist, wenn wir viele verschiedene Schützen haben?

00:45.090 --> 00:46.120
Hier ist ein Gepard.

00:46.180 --> 00:47.250
Er ist ein Gepard.

00:47.400 --> 00:53.130
Hier ist ein weiterer Gepard, sein Ashira, sein Ishida-Gepard und er ist ein Gepard, und wir möchten, dass das neuronale

00:53.130 --> 01:01.110
Netzwerk all diese Schützen als Betrüger erkennt und wie dies möglich ist, wenn sie alle in unterschiedliche Richtungen blicken und sich alle in verschiedenen Teilen der Welt

01:01.110 --> 01:06.300
befinden Das Bild ist so, als wären ihre Gesichter in verschiedenen Teilen des Bildes positioniert. Jemand ist

01:06.300 --> 01:10.080
auf der rechten Seite, jemand in der linken Ecke oder jemand in der

01:10.080 --> 01:10.700
Mitte.

01:11.010 --> 01:14.280
Sie sind alle ein bisschen anders und die Textur ist ein bisschen anders.

01:14.280 --> 01:16.200
Die Beleuchtung ist etwas anders.

01:16.200 --> 01:21.600
Es gibt viele kleine Unterschiede. Wenn das neuronale Netzwerk genau nach einem bestimmten

01:21.810 --> 01:29.700
Merkmal sucht, sind beispielsweise die Tränen, die sich auf seinem Gesicht befinden, die Augen oder die bloßen Schatten, die aussehen, als

01:29.700 --> 01:35.310
würden die Textur zerreißen Das Muster, das von den Augen nach unten geht, liegt an

01:35.310 --> 01:40.890
den Nasenseiten und sieht aus wie Tränen, was ein charakteristisches Merkmal des Geparden ist.

01:40.890 --> 01:48.660
Wenn es jedoch nach dem Merkmal sucht, das es von bestimmten Geparden an einer exakten Position oder einer exakten Form oder

01:48.660 --> 01:53.370
Form oder Textur gelernt hat, wird es diese anderen Schützen niemals finden.

01:53.460 --> 02:01.410
Wir müssen also sicherstellen, dass unser neuronales Netzwerk eine Eigenschaft mit der Bezeichnung räumliche Invarianz besitzt, was bedeutet, dass es

02:01.440 --> 02:10.170
nicht darauf ankommt, wo sich die Features befinden, und nicht so sehr, dass sie den Teil des Bildes juckt Mit unserer Karte

02:10.520 --> 02:16.460
sind wir mit unserer Faltung schlecht in Betracht zu ziehen, aber es ist

02:16.800 --> 02:23.400
nicht wichtig, ob die Features etwas geneigt sind, wenn die Features in der Textur etwas anders

02:23.400 --> 02:30.210
sind, wenn die Features etwas näher an den Features liegen oder etwas weiter auseinander liegen relativ zueinander.

02:30.210 --> 02:37.230
Wenn also das Feature selbst etwas verzerrt ist, muss unser neuronales Netzwerk ein gewisses Maß an Flexibilität aufweisen, um

02:37.410 --> 02:39.930
dieses Feature noch finden zu können.

02:40.050 --> 02:42.690
Und darum geht es beim Pooling.

02:42.690 --> 02:45.140
Schauen wir uns also an, wie Pooling funktioniert.

02:45.180 --> 02:51.090
Hier ist unsere Feature-Map, also haben wir unsere Faltung bereits gemacht und wir haben diesen Teil fertiggestellt und jetzt arbeiten

02:51.090 --> 02:52.680
wir mit der Faltung dort.

02:52.680 --> 02:53.880
Jetzt wenden wir das Pooling an.

02:53.880 --> 02:54.690
Wie funktioniert das?

02:54.690 --> 02:56.420
Wir werden Back Pooling anwenden.

02:56.670 --> 03:01.640
Es gibt verschiedene Arten von Spielen, bei denen das Sammeln von Max-Pooling-Pools

03:01.710 --> 03:03.440
mit Pools vereinbar ist.

03:03.540 --> 03:11.040
Im Moment wenden wir jedoch nur Max-Pooling an, also nehmen wir eine Box mit zwei mal zwei Pixeln, und es muss nicht immer

03:11.040 --> 03:15.020
zwei Mal zwei sein. Sie können eine beliebige Boxgröße auswählen und

03:15.030 --> 03:21.900
werden dies erneut kommentieren Tauriel und Sie platzieren ihn in der oberen linken Ecke und Sie finden den Maximalwert in diesem

03:21.900 --> 03:26.310
Feld. Dann nehmen Sie nur diesen Wert auf und ignorieren die anderen drei Werte.

03:26.310 --> 03:30.600
In Ihrer Box haben Sie also vier Werte, die Sie einfach ignorieren. Drei Werte behalten Sie nur bei dem Maximalwert, der

03:30.600 --> 03:31.830
in diesem Fall eins ist.

03:31.830 --> 03:36.210
Dann bewegen Sie Ihre Box nach rechts, indem Sie den Schritt erneut auswählen.

03:36.210 --> 03:41.850
Hier gleiten wir zu zwei Schritten, und das ist, was Sie normalerweise denken, Sie können sagen, wie der Schritt, den

03:41.850 --> 03:42.880
Sie auswählen können.

03:42.990 --> 03:47.940
Es gibt also überlappende Kästchen, aus denen Sie jede Art von Schlag auswählen können, die Sie auch mögen, wenn Sie

03:48.770 --> 03:52.440
möchten, aber wir wählen hier einen Schritt von zwei, und das wird üblicherweise verwendet.

03:52.470 --> 03:57.660
Und dann wiederholen Sie die Wiederholung des Prozesses, den Sie hier aufschreiben, wenn Sie sich überschreiten und es spielt keine

03:57.660 --> 04:00.080
Rolle, dass Sie einfach weiter machen, was Sie tun.

04:00.090 --> 04:05.690
So notierst du hier immer noch das Maximum 0 hier das Maximum vier.

04:05.700 --> 04:11.380
Hier sind die Maxima bis hier das Maximum 1 0 1 oder 2 und dann 1.

04:11.400 --> 04:13.970
Wie Sie sehen können, sind ein paar Dinge passiert.

04:13.980 --> 04:18.890
Zunächst konnten wir die Funktionen noch richtig beibehalten.

04:19.080 --> 04:23.730
Die maximale Anzahl, die sie repräsentieren, weil wir wissen, wie die Schlussfolgerung von Lehre funktioniert.

04:23.730 --> 04:28.650
Wir wissen, dass die maximale oder die große Zahl in der Feature-Map, in der Sie tatsächlich

04:28.650 --> 04:31.480
die größte Ähnlichkeit mit einem Feature gefunden haben, entspricht.

04:31.650 --> 04:38.250
Indem wir diese Features dann zusammenfassen, werden wir zuallererst 75% der

04:38.250 --> 04:46.110
Informationen los, die nicht die Funktion sind, die nicht die wichtigen Dinge ist, nach

04:46.220 --> 04:49.410
denen wir Ausschau halten .

04:49.710 --> 04:51.510
Wir bekommen also nur 25 Prozent.

04:51.510 --> 05:00.260
Und dann auch, weil wir das Maximum der Pixel, die wir oder die Werte haben, die wir haben,

05:00.770 --> 05:04.160
verwenden, berücksichtigen wir daher jegliche Verzerrung.

05:04.160 --> 05:12.810
So zum Beispiel zwei Bilder, bei denen beispielsweise die Tränen der Betrüger auf den Augen in einem Bild ein wenig nach links oder ein wenig

05:12.830 --> 05:16.550
nach links gedreht sind und ein anderes dort ein wenig.

05:16.580 --> 05:22.100
Und so sollen sie sein oder wie wir es mögen, wenn Sie eine als Basis nehmen und eine andere, da sind

05:22.100 --> 05:23.800
Bits, die sich nach links drehen.

05:24.060 --> 05:26.570
Die Pulpe-Funktion ist genau gleich.

05:26.570 --> 05:32.900
Sie können also hier sehen, wenn wir über die Tränen des Betrügers sprechen, dann sagen wir, dies sind die vier und

05:32.900 --> 05:36.050
hier war es dann, wenn es ein bisschen gedreht wurde.

05:36.050 --> 05:38.270
So sind die vier zum Beispiel hier gelandet.

05:38.390 --> 05:44.180
Wenn wir dann das Pooling durchführen, erhalten wir immer noch die gleiche Pool-Feature-Map, und das ist gewissermaßen

05:44.180 --> 05:46.270
das Prinzip, das dahinter steht.

05:46.430 --> 05:52.340
Es ist eine sehr grobe Erklärung, wieder eine intuitive Erklärung, aber das ist der Punkt des

05:52.340 --> 06:00.290
Poolings, dass wir immer noch in der Lage sind, die Funktionen zu erhalten und darüber hinaus ihre möglichen räumlichen oder strukturellen

06:00.290 --> 06:02.330
oder sonstigen Verzerrungen zu berücksichtigen.

06:02.420 --> 06:07.370
Darüber hinaus reduzieren wir die Größe, sodass ein weiterer Vorteil entsteht.

06:07.370 --> 06:13.520
Wir behalten also die Features bei, die wir mit räumlichen Invarianten einführen, indem wir die Größe

06:13.520 --> 06:19.700
um 75 Prozent reduzieren, was enorm ist, was uns in Bezug auf die Verarbeitung wirklich helfen wird.

06:19.870 --> 06:25.970
Ein weiterer Vorteil von Pooling ist, dass wir die Anzahl der Parameter reduzieren, also nochmals 75

06:26.690 --> 06:31.370
Prozent oder die Anzahl der Parameter, die in unsere endgültigen Lares des

06:31.370 --> 06:35.270
neuronalen Netzwerks gelangen werden, reduzieren und somit eine Überanpassung verhindern.

06:35.300 --> 06:42.580
Es ist ein sehr wichtiger Vorteil von Pooling, dass wir Informationen entfernen, und das ist auch gut so.

06:42.590 --> 06:50.660
Das ist eine gute Sache, weil auf diese Weise unser Modell nicht in der Lage ist, diese Informationen zu überpassen, weil diese Informationen nicht gut sind und

06:50.690 --> 06:54.500
sich erinnern, wie wir es von Anfang an besprechen, sogar für den

06:54.950 --> 07:00.650
Menschen als den Menschen ist es wichtig zu sehen genau die Eigenschaften und nicht all das andere Geräusch, das

07:00.650 --> 07:02.520
uns in die Augen kommt.

07:02.780 --> 07:09.070
Gleiches gilt für neuronale Netze, indem sie die unnötige unwichtige Formation außer Acht lassen, die

07:09.080 --> 07:12.470
wir dabei unterstützen, eine Überanpassung zu verhindern.

07:12.500 --> 07:14.590
Wir gehen also darum, worum es beim Pooling geht.

07:14.600 --> 07:21.500
Und die Frage hier ist natürlich, warum WiMax-Pooling richtig ist. Es gibt viele verschiedene Arten von Pooling und

07:21.710 --> 07:26.780
einen großen Schritt mit einer zu großen Größe von zwei mal zwei Pixeln.

07:26.780 --> 07:33.980
In diesem Zusammenhang möchte ich Ihnen dieses schöne Forschungspapier vorstellen, das von Dominic Scherrer von

07:33.980 --> 07:40.250
der Universität Bonn als Bewertung von Pooling-Operationen in Faltungsarchitekturen zur Objekterkennung bezeichnet

07:40.250 --> 07:41.100
wird.

07:41.180 --> 07:47.540
Es gibt den Link und das Schöne an diesem Artikel ist, dass es sehr einfach ist, sehr unkompliziert. Also, wenn

07:47.550 --> 07:51.530
Sie noch nie zuvor ein Forschungspapier gelesen haben, worauf Sie Lust haben.

07:51.530 --> 07:54.440
Dies ist ein großartiger Ort, um zu beginnen, es ist sehr kurz.

07:54.440 --> 07:55.400
Nur 10 Seiten.

07:55.400 --> 07:56.810
Sehr gut lesbar

07:57.080 --> 08:03.170
Und der zusätzliche Vorteil ist, dass Sie jetzt, nachdem wir über Faltung und Pooling gesprochen haben, mit allem, was

08:03.170 --> 08:07.040
Sie in diesem Artikel in Ihnen besprechen, völlig vertraut sein werden.

08:07.100 --> 08:11.880
Dies ist eine großartige Möglichkeit, tatsächlich zu verstärken, und ich empfehle Ihnen dringend, dieses Dokument zu überprüfen.

08:11.930 --> 08:18.050
Ich brauche 20 Minuten, um es zu lesen, und Sie können sogar Teil 2 überspringen, der als verwandte Arbeit bezeichnet wird, wenn es sich

08:18.050 --> 08:19.880
etwas weit hergeholt oder entfremdend anfühlt.

08:19.880 --> 08:21.230
Lesen Sie diesen Teil einfach nicht.

08:21.290 --> 08:23.950
Gehen Sie direkt von Teil 1 zu Teil 3.

08:24.020 --> 08:29.600
Eine Sache, die Sie über dieses Papier wissen sollten, die über ein Konzept namens Subsampling, das

08:30.360 --> 08:33.230
Subsampling heißt, spricht, ist im Allgemeinen durchschnittliches Pooling.

08:33.230 --> 08:36.260
Erinnern Sie sich also, wie wir hier aufgenommen haben.

08:36.280 --> 08:37.400
Wir nehmen das Maximum.

08:37.400 --> 08:43.250
In unserem Quadrierer, der den maximalen Wert annimmt, gibt es ein Konzept, das als Mean Pooling bezeichnet wird,

08:43.250 --> 08:48.590
oder einige, die etwas ziehen, wenn Sie nur einige dieser Werte auf das durchschnittliche Pooling oder

08:48.650 --> 08:53.890
das mittlere Pooling setzen. Sie nehmen den Durchschnittswert aus all diesen Werten von Männern Pooling.

08:53.900 --> 09:00.840
Es ist ein eher allgemeiner Ansatz, um den Durchschnitt dieser Werte zu ermitteln.

09:00.860 --> 09:05.480
Sie können in der Zeitung etwas mehr darüber lesen, aber denken Sie ansonsten einfach über das durchschnittliche Pooling, wenn

09:05.480 --> 09:06.620
Sie eine Zeitung lesen.

09:06.920 --> 09:11.180
Hier können Sie zusätzliche Informationen zu diesem Thema erhalten. Nun, lassen Sie uns zusammenfassen, wo wir

09:11.210 --> 09:12.310
hin gekommen sind.

09:12.320 --> 09:14.440
Es gibt also unser Eingabebild.

09:14.870 --> 09:18.960
Dann haben wir die Faltungsoperation angewendet und die Schlussfolgerung erhalten.

09:19.070 --> 09:24.230
Und nun zu jeder dieser Feature-Maps, die wir bekommen. Wir haben den Pullinger angewendet.

09:24.260 --> 09:30.590
Wir haben also diese beiden Schritte der Evolution und des Poolings durchgeführt und jetzt werden wir etwas sehr

09:30.590 --> 09:32.160
Spaß machen, etwas aufregendes.

09:32.220 --> 09:40.340
Wir werden damit experimentieren. Dies ist ein Screenshot, den ich von einem Tool gemacht habe, das Adam Harley von vor

09:40.340 --> 09:48.140
langer Zeit an der Ryerson University für Informatik erstellt hatte. Jetzt ist er bei Carnegie Mellon, denke ich,

09:48.320 --> 09:49.750
macht seine Seite.

09:50.060 --> 09:53.150
Und ein großartiges Werkzeug, also lasst es uns öffnen.

09:53.270 --> 09:55.780
So können Sie es finden, Sie können es tatsächlich durch Google finden.

09:55.780 --> 09:57.500
Sie müssen Ihre Rolle kennen.

09:57.500 --> 10:03.790
Es ist einfach schwierig, es über Google zu finden, da es hier keinen Text gibt, wie wir es in diesem Jahr waren.

10:03.930 --> 10:08.350
Ich werde Reierson Dossier und dieses Zeug beginnen.

10:08.510 --> 10:14.820
Und im Grunde ist es genau das, was wir machen, aber visualisieren. Hier müssen Sie

10:14.820 --> 10:21.330
eine Zahl zeichnen, also sage ich Nummer vier und dieses Werkzeug wird die Nummer Vier hier einfügen.

10:21.340 --> 10:22.960
Das ist dein Bild.

10:22.960 --> 10:26.620
In unserem ersten Schritt ist dies der Faltungsschritt.

10:26.800 --> 10:27.100
Recht.

10:27.100 --> 10:30.390
Und dies ist der Pooling-Schritt, und Pooling wird übrigens auch als Downsampling bezeichnet.

10:30.390 --> 10:33.770
Ziehen und Downsampling sind also die gleichen Dinge.

10:33.930 --> 10:39.190
Sie können also sehen, dass die angewendete Faltung dann das Pooling anwendet und Sie können sehen, wie es genau funktioniert.

10:39.190 --> 10:44.290
Sie können sehen, welche Art von Windungen es angewendet hat oder welche Art von Filter es ist, wie

10:44.290 --> 10:45.020
sie aussehen.

10:45.130 --> 10:47.630
Auf welche Funktionen wird geachtet?

10:47.830 --> 10:53.340
Und dann wird das Pooling angewendet, also wird die Größe reduziert und Sie können hier sehen, dass dies wichtig ist.

10:53.380 --> 11:01.090
Sie können also sehen, dass dies das gefaltete Bild ist, und dies ist das gepulste Bild, und Sie können immer noch sehen, dass

11:01.090 --> 11:05.830
die gleichen Funktionen nur weniger Informationen sind, aber dieselben Funktionen und Funktionen bleiben erhalten.

11:05.830 --> 11:08.110
Das ist der wichtige Teil.

11:08.350 --> 11:14.170
Und wenn Sie wissen, ob alle vier ein bisschen zu wenig zur Seite gedreht sind,

11:14.170 --> 11:16.960
können Sie trotzdem sehr ähnliche Pool-Lares abholen.

11:17.050 --> 11:19.810
Und danach gibt es mehr Briefe, über die wir noch nicht gesprochen haben.

11:19.810 --> 11:26.840
Also hat er hier ein anderes Faltungslabor, ein Faltungslager, das wir eigentlich nicht haben werden.

11:27.130 --> 11:30.730
Und dann hat er noch ein armes Versteck, aber er wiederholt im Grunde nur denselben Prozess.

11:31.000 --> 11:34.880
Und danach reden wir weiter unten im Kurs.

11:34.910 --> 11:37.610
Er hat die vollständig verbundenen Lares und so weiter.

11:38.080 --> 11:39.880
Aber damit kann man definitiv herumspielen.

11:39.880 --> 11:47.890
Wenn ich also das lösche, das Sie mögen, wenn ich eine 7 zeichne, werden Sie feststellen, dass es Ihnen tatsächlich sagt, dass die Vermutung eine Vermutung ist,

11:47.890 --> 11:49.410
dass dies eine 7 ist.

11:49.570 --> 11:52.850
Und die zweite Vermutung ist die zweite Wahrscheinlichkeit drei.

11:53.050 --> 11:56.440
So können Sie einige herausfordernde Dinge zeichnen und sehen, ob es sie aufnehmen kann.

11:56.440 --> 12:02.680
Sagen wir also, wenn ich etwas zeichne, das wie eine 0 aussieht, aber es ist keine fertige 0, wird es

12:02.770 --> 12:03.730
diesmal nicht aufgenommen.

12:03.730 --> 12:06.190
Sieht aus wie eine 9 zu dem Bild.

12:06.190 --> 12:08.550
Was ist, wenn ich es irgendwie fertig mache?

12:08.560 --> 12:14.430
Nun glaubt es, es sei eine 0 oder eine 9 und man kann dort sehen, was die 0 beleuchtet.

12:14.460 --> 12:16.600
Aber wir werden im Zweifel über diesen Teil sprechen.

12:16.720 --> 12:20.030
Sagen wir noch etwas wie 8.

12:20.260 --> 12:23.780
Ich denke, es ist ziemlich schwer für diese jetzt eine 8.

12:23.800 --> 12:29.590
Man kann also sehen, dass das in eine 8 geht und danach hört es auf, erkennbar zu sein, dass die

12:29.590 --> 12:31.570
Stopps für uns Menschen sinnvoll sind.

12:31.570 --> 12:32.150
Recht.

12:32.170 --> 12:34.390
Diese Funktionen, mit denen es arbeitet.

12:34.570 --> 12:38.710
Aber gleichzeitig erkennt es richtig, dass es eine 8 ist.

12:39.100 --> 12:42.540
Also auf jeden Fall damit rumspielen, dass man ein Smiley zeichnen kann.

12:42.550 --> 12:43.460
Was passiert dann.

12:44.310 --> 12:50.070
Sieht diesem Werkzeug wie eine Drei aus, weil das Werkzeug offensichtlich nur auf Ziffern von 0 bis 9

12:50.070 --> 12:50.950
aufgezogen wird.

12:51.120 --> 12:58.530
Es muss also etwas erkennen, das es gibt, und erkennt eine Drei, die es wie im Leben ist, wenn

12:58.530 --> 13:05.700
Sie etwas wie eine Obstsorte sehen, die Sie noch nie gesehen haben, wie ein Vanillepuddingapfel oder so Birne,

13:06.120 --> 13:12.570
weil du noch nie einen gesehen hast, bevor du nicht weißt, was du hier als gleich

13:12.570 --> 13:18.210
klassifizieren solltest, also hat es nicht wirklich Smileys trainiert und deswegen glaubt es, es

13:18.210 --> 13:20.480
sei ein Baum als Baum.

13:20.490 --> 13:25.770
Also, los geht's, es ist ein sehr mächtiges Werkzeug, das für Sie hilfreich ist, wenn Sie

13:26.130 --> 13:29.430
mit der Maus über ein Pixel-Pixel fahren, das angezeigt wird.

13:29.430 --> 13:36.930
Es zeigt Ihnen, wo der Feature-Detektor das Pixel erfasst hat, damit Sie sehen können, woher diese Pixel kommen, und Sie

13:36.930 --> 13:43.170
können auch sehen, wie der Filter so aussah, als würde er das Bild genau so durchgehen, wie

13:43.170 --> 13:47.910
wir darüber gesprochen haben, und natürlich und hier Sie können sehen, dass

13:47.910 --> 13:58.140
Sie das Pooling sehen können. Sie können sehen, dass das Ziehen mit einer kleinen quadratischen Größe von zwei zu zwei durchgeführt wird, und Sie können sehen, dass es

13:58.200 --> 14:03.730
ein Schritt von zwei ist, genauso wie wir es im heutigen Tutorial besprochen haben.

14:03.960 --> 14:09.240
Also dort spielen oder spielen, und ich hoffe, Sie haben die heutige Sitzung genossen.

14:09.240 --> 14:10.610
Ich freue mich darauf, Sie das nächste Mal zu sehen.

14:10.620 --> 14:12.470
Und bis dahin tiefes Lernen genießen.