WEBVTT

00:00.360 --> 00:06.480
Hallo und willkommen zurück zu dem Kurs zum tiefen Lernen. Dies ist ein zusätzliches Tutorial, um über

00:06.480 --> 00:08.670
die Soft- und Cross-Entropie-Funktionen zu sprechen.

00:08.670 --> 00:15.320
Es ist nicht 100 Prozent notwendig, damit Sie alle Teile durchgehen, die wir im Hauptteil dieses Abschnitts

00:15.330 --> 00:21.510
durchlaufen haben, wo wir über die neuronalen Faltungsnetzwerke sprechen, aber gleichzeitig dachte ich, dass dies

00:21.510 --> 00:26.580
der Fall wäre eine gute Ergänzung zu Ihrem Wissensschatz und Ihren Fähigkeiten.

00:26.580 --> 00:30.840
Lasst uns also vorgehen und in diese Funktionen eintauchen.

00:30.840 --> 00:37.530
Um zu beginnen mit dem, was wir hier haben, ist die Schlussfolgerung eines neuronalen Netzwerks, das wir

00:37.530 --> 00:44.210
im Hauptteil des Abschnitts aufgebaut haben, und am Ende werden einige Wahrscheinlichkeiten für den Nullpunkt fünfundneunzig für

00:44.220 --> 00:48.000
einen Hund 0 angezeigt. Fünf oder fünf Prozent für eine Katze.

00:48.060 --> 00:53.250
Wenn das Foto auf der linken Seite als Eingabe dient. Dies ist, nachdem der Zug

00:53.260 --> 00:57.210
durchgeführt wurde, tatsächlich, dass er läuft und ein bestimmtes Bild klassifiziert.

00:57.360 --> 01:00.850
Und hier stellt sich die Frage, wie diese beiden Werte zu eins werden.

01:00.900 --> 01:06.750
Denn soweit wir aus allem wissen, was ich über künstliche neuronale Netze gelernt habe, ist

01:06.750 --> 01:11.600
nichts zu sagen, dass diese beiden letzten Neuronen miteinander verbunden sind.

01:11.730 --> 01:16.590
Wie würden sie wissen, welchen Wert der Laderaum jeder von ihnen hat, was der Wert des

01:16.590 --> 01:17.310
anderen ist.

01:17.400 --> 01:20.140
Und woher würden sie wissen, um ihre Werte zu addieren?

01:20.340 --> 01:22.060
Nun, die Antwort ist, dass sie es nicht tun würden.

01:22.260 --> 01:28.500
In der klassischen Version unseres künstlichen neuronalen Netzwerks besteht die einzige Möglichkeit darin, dass wir eine

01:28.710 --> 01:33.960
spezielle Funktion namens Soft-Max-Funktion einführen, um uns aus der Situation zu befreien.

01:33.960 --> 01:40.890
Normalerweise würden also der Hund und die Neuronen der Katze irgendwelche realen Werte haben, die sie nicht sein

01:41.490 --> 01:44.940
müssen, sie müssen sich nicht zu einem addieren.

01:45.180 --> 01:51.900
Aber dann würden wir die Softmax-Funktion anwenden, die oben oben geschrieben wurde, und dass diese Werte

01:51.900 --> 01:58.430
zwischen 0 und 1 liegen würden, wodurch sich 1 bis 3 PPTA addieren würden.

01:59.250 --> 02:04.320
Die Soft-Max-Funktion oder die normalisierte Exponentialfunktion ist eine Verallgemeinerung der logistischen Funktion, die

02:04.350 --> 02:11.640
einen unquote squash zitiert, einen k-dimensionalen Vektor von beliebigen reellen Werten zu einem k-dimensionalen Vektor von reellen Werten im Bereich

02:11.640 --> 02:15.320
von null bis eins, die sich zu 1 summieren.

02:15.330 --> 02:17.620
Im Grunde macht es genau das, was wir wollen.

02:17.670 --> 02:22.700
Diese Werte liegen zwischen 0 und 1 und stellen sicher, dass sie sich zu 1 addieren.

02:22.960 --> 02:27.780
Und es funktioniert so, dass dies möglich ist, weil wir hier unten sehen,

02:27.780 --> 02:29.970
dass es eine Summierung gibt.

02:29.970 --> 02:38.100
Also nimmt es den Exponenten und versetzt ihn in die Macht von Zed und summiert es so, dass man zwei über alle Klassen

02:38.100 --> 02:38.830
hinweg hat.

02:38.850 --> 02:39.990
Alle diese Werte.

02:39.990 --> 02:44.400
Und da passiert also gerade Ihre Normalisierung.

02:44.400 --> 02:51.300
So funktioniert die Saucebox-Funktion, und es ist sinnvoll, die Soft-Next-Funktion in Faltungs-Neuronale Netzwerke einzuführen,

02:51.600 --> 02:59.490
denn wie seltsam wäre es, wenn Sie eine mögliche Klasse eines Hundes und einer Katze hätten

02:59.490 --> 03:05.140
und für die Hundeklasse die Möglichkeit von 80 Prozent .

03:05.160 --> 03:08.660
Und für die Katzenkrallen hatten Sie gute 45 Prozent.

03:08.670 --> 03:14.430
Es macht einfach keinen Sinn und deshalb ist es viel besser, wenn Sie die Soft-Next-Funktion

03:14.430 --> 03:19.760
einführen, und das ist, was Sie in konvolutionellen und neuronalen Netzwerken meistens vorfinden.

03:19.770 --> 03:26.010
Die andere Sache ist, dass die Soft Max-Funktion mit der sogenannten Cross-Entropie-Funktion Hand in Hand geht und

03:26.100 --> 03:29.040
für uns eine sehr praktische Sache ist.

03:29.050 --> 03:30.610
Schauen wir uns zuerst die Formel an.

03:30.660 --> 03:33.090
So sieht die Cross-Entry-Funktion aus.

03:33.090 --> 03:38.910
Wir werden tatsächlich eine andere Berechnung verwenden, um diese Darstellung des Jahrhunderts zu verwenden, aber die Ergebnisse sind

03:39.060 --> 03:40.670
im Wesentlichen die gleichen.

03:40.670 --> 03:42.300
Das ist nur einfacher zu berechnen.

03:42.570 --> 03:49.220
Und was ich weiß, das klingt vielleicht völlig unabhängig von allem, was jetzt nur Formeln auf Ihrem

03:49.850 --> 03:54.300
Bildschirm ist. Am Ende dieses Abschnitts werden jedoch einige zusätzliche

03:54.600 --> 03:56.380
Informationen zum Lesen empfohlen.

03:56.380 --> 03:58.350
Wie auch wenn wir die Mathematik im Moment nicht erklärt hätten.

03:58.350 --> 04:03.630
Aber hier geht es um das, was über die Entropie-Funktion hinweg über die Entropie hinweg gut ist.

04:03.630 --> 04:11.870
Erinnern wir uns, dass wir in künstlichen neuronalen Netzen zuvor eine Funktion hatten, die als mittlere quadratische Pfeilfunktion bezeichnet

04:11.880 --> 04:17.760
wurde, die wir als Kostenfunktion für die Beurteilung unserer natürlichen Leistungsfähigkeit verwendeten.

04:17.760 --> 04:23.750
Unser Ziel war es, den MSE zu minimieren, um unsere Netzwerkleistung zu optimieren.

04:23.940 --> 04:31.830
Nun, das war unsere Kostenfunktion dort und in neuronalen Faltungsnetzen können wir MSE noch verwenden, aber eine

04:31.830 --> 04:38.070
bessere Option in neuronalen Faltungsnetzen, nachdem Sie die Soft-Max-Funktion angewendet haben, stellt sich

04:38.070 --> 04:39.840
als Kreuz-Entropiefunktion heraus.

04:39.840 --> 04:46.080
Und in konvolutionellen neuronalen Netzwerken, wenn Sie die Cross-Entry-Funktionen anwenden, wird die Kostenfunktion nicht mehr als Kostenfunktion bezeichnet, sondern

04:46.080 --> 04:49.450
als letzte Funktion bezeichnet und sie sind sich sehr ähnlich.

04:49.470 --> 04:55.520
Sie sind nur ein paar terminologische Unterschiede und mögen etwas anders und was sie bedeuten.

04:55.530 --> 04:58.430
Aber für alle Zwecke ist es ziemlich dasselbe.

04:58.450 --> 05:07.530
Und was passiert, ist die letzte Funktion, die wir minimieren möchten, um die Leistung unseres

05:07.530 --> 05:09.670
Netzwerks zu maximieren.

05:09.690 --> 05:15.260
Schauen wir uns ein kurzes Beispiel an, wie diese Funktion angewendet werden kann.

05:15.260 --> 05:19.260
Nehmen wir also an, wir stellen ein Bild eines Hundes in unser Netzwerk.

05:19.650 --> 05:26.160
Der vorhergesagte Wert für den Hund ist 0. 9 und dies macht das Training, also wissen wir, dass wir das Etikett kennen,

05:26.160 --> 05:27.330
das ein Hund ist.

05:27.330 --> 05:34.140
Also der Vorhersagewert 0. 9 der prigged-Wert für cat ist 0. 1 Dann haben wir hier das Label, also wissen

05:34.140 --> 05:37.810
wir, dass es ein Hund ist, da dies 0 1 für Hunde oder Katzen ist.

05:37.980 --> 05:47.600
In diesem Fall müssen Sie diese Zahlen in Ihre Formel für die Kreuzentropie eingeben.

05:47.810 --> 05:53.340
Wie Sie es tun, sind die Werte links, die zum verbalen Stichwort gehen.

05:53.420 --> 05:58.940
Der Wert, der sich unter dem Logarithmus auf der rechten Seite und den Werten von rechts befindet, würde in

05:58.940 --> 06:04.340
P eingehen. Daher ist es wichtig, sich zu merken, welcher der Werte dort ist, denn wenn man sie

06:04.340 --> 06:09.620
falsch versteht, möchte man keinen Logarithmus nehmen alle ich von null wert und oder von 1.

06:09.620 --> 06:11.660
Sie möchten sie also nur anschließen.

06:11.720 --> 06:14.520
Stellen Sie sicher, dass Sie sie an den richtigen Stellen anschließen.

06:14.840 --> 06:17.030
Und dann summieren Sie das im Grunde.

06:17.030 --> 06:22.370
So funktioniert der Cross-Eintrag und wir werden uns jetzt ein aktuelles Beispiel anschauen, in dem wir

06:22.370 --> 06:28.130
ein bestimmtes Schritt-für-Schritt-Beispiel für die Anwendung dieser Funktion im wirklichen Leben betrachten und die Art und Weise,

06:28.130 --> 06:32.360
wie Cross-Entropie ist, sinnvoll erscheinen lassen es wird weniger so sein.

06:32.360 --> 06:39.290
Mein Ziel bei dieser Arbeit ist es, Ihnen den Umgang mit Cross Century bequemer zu machen, da

06:39.320 --> 06:43.840
es sehr kompliziert klingen kann und kein Wortspiel beabsichtigt ist.

06:43.850 --> 06:50.870
Wie konvolutionelle neuronale Netzwerke kann es sehr komplex und unheimlich klingen, ist es aber nicht.

06:50.870 --> 06:51.650
Das ist der Punkt.

06:51.650 --> 06:54.090
Also lasst uns weitermachen und es anwenden, nur damit wir wissen, dass es nicht beängstigend ist.

06:54.080 --> 06:56.350
Also hier ist dein alles.

06:56.360 --> 07:01.790
Und dies erklärt auch, warum wir das tun, warum wir verschiedene Ursachenfunktionen untersuchen.

07:01.790 --> 07:06.650
Ein neuronales Netzwerk mit einem neuronalen Netzwerk. Nehmen wir an, wir haben zwei neuronale Netzwerke.

07:06.650 --> 07:11.960
Dann passieren wir das Bild eines Hundes und wir wissen, dass dies ein Hund und keine Katze ist.

07:12.200 --> 07:18.620
Und dann haben wir ein anderes Bild unserer Katze, diesmal ein Tier, und es ist eine Katze, kein Hund, und hier haben wir

07:19.040 --> 07:22.490
ein Loch, das eigentlich ein Hund ist, der eigentlich keine Katze ist.

07:22.490 --> 07:24.280
Wenn du genau hinschaust.

07:24.320 --> 07:28.440
Wir wollen also sehen, was unsere neuronalen Netze im ersten Fall vorhergesagt haben.

07:28.460 --> 07:36.110
Neuronales Netzwerk 1 90 Prozent Hund 10 Prozent Katze korrigiert keine Netzwerknummer zu 60 Prozent Hund 40 Prozent

07:36.110 --> 07:38.230
Katze noch richtig schlechter.

07:38.270 --> 07:40.030
Aber richtig

07:40.280 --> 07:46.040
Zweite Option erstes neuronales Netzwerk 10 Prozent Katze Hund 90 Prozent Katze.

07:46.040 --> 07:47.300
Richtig.

07:47.300 --> 07:53.560
Sie wissen, dass die Zahl der Hunde zu 30 Prozent um 70 Prozent schlechter ist, aber immer noch korrekt ist.

07:53.570 --> 08:01.460
Und schließlich gewann das neuronale Netzwerk in einem jahrelangen Netzwerk 40 Prozent Hund, 60 Prozent falsche

08:01.870 --> 08:08.270
neuronale Netzwerknummer, 10 Prozent Hund und 90 Prozent falsche und schlechtere Katzen.

08:08.270 --> 08:15.380
Der Schlüssel hier ist also, dass, obwohl beide Netzleute es im letzten durch alle drei Bilder falsch gemacht hatten,

08:15.620 --> 08:18.870
das neuronale Netz eines das neuronale Netz übertraf.

08:18.890 --> 08:27.010
Selbst im letzten Fall war es sehr wahrscheinlich, dass es dem Hund eine 40-prozentige Chance gab, im Gegensatz zu einem neuronalen Netzwerk, nur eine

08:27.030 --> 08:32.330
10-prozentige Chance für den Hund zu geben, oder ein neuronales Netzwerk, das im Vergleich zum

08:33.200 --> 08:35.310
neuronalen Netzwerk 2 allgemein übertrifft.

08:35.520 --> 08:41.780
Und so werden wir uns jetzt die Funktionen ansehen, mit denen sie die Leistung messen können, über die wir irgendwie über die

08:41.780 --> 08:42.800
Bewertung gesprochen haben.

08:43.040 --> 08:48.090
Lassen Sie uns diese in eine Tabelle schreiben, also gibt es ein neuronales Netzwerk 1, bei dem Sie die falsche Nummer haben.

08:48.350 --> 08:49.430
Das ist also die Bildnummer.

08:49.550 --> 08:51.140
Und dann zum Bild eins, das du hast.

08:51.140 --> 08:54.010
Was ist es vorausgesagt 90 Prozent Hund Schimpansen und Katze.

08:54.110 --> 09:00.550
Also gibt es den Hut Marable und dann haben Sie den tatsächlichen Wert, so dass die richtige Hundekatze falsch ist.

09:00.560 --> 09:07.720
Dasselbe gilt für Bild Nummer zwei und das gleiche für ein Minimum von drei und das gleiche für neuronales Netzwerk Nummer zwei.

09:07.750 --> 09:11.060
So behielt Dog 60 Prozent im ersten Bild 40 Prozent.

09:11.060 --> 09:13.800
Das war, was Crotons vorausgesagt hatte, war Hund, keine Katze.

09:13.820 --> 09:14.820
Und so weiter.

09:15.200 --> 09:18.050
Und jetzt sehen wir, welche Fehler wir tatsächlich bekommen können.

09:18.050 --> 09:24.940
Welche Fehler können wir berechnen, um die Leistung zu schätzen und die Leistung unserer Netzwerke zu überwachen.

09:24.950 --> 09:28.480
Eine Art von Fehler wird daher als Klassifizierungsfehler bezeichnet.

09:28.640 --> 09:33.990
Und das ist im Grunde nur die Frage, ob Sie es richtig verstanden haben oder nicht.

09:34.010 --> 09:36.940
Unabhängig von den Wahrscheinlichkeiten ist es einfach, dass Sie es richtig machen.

09:36.950 --> 09:37.970
Oder hast du es richtig verstanden?

09:37.970 --> 09:44.790
In beiden Fällen hatten beide Neuronale Netzwerke jeweils eines.

09:44.810 --> 09:46.330
So gehen Sie also schief.

09:46.340 --> 09:48.460
Also haben sie eins von drei falsch verstanden.

09:48.470 --> 09:54.960
Also 33 Prozent Fehlerrate für Ihr Netzwerk 1 und 30 Prozent Fehlerrate für neuronales Netzwerk.

09:55.100 --> 09:59.750
Von diesem Standpunkt aus gesehen arbeiten beide neuronalen Netzwerke auf demselben Niveau, aber wir wissen, dass dies nicht

09:59.750 --> 10:00.250
stimmt.

10:00.260 --> 10:04.400
Wir wissen, dass das neuronale Netzwerk Ikhwan das neuronale Netzwerk übertrifft.

10:05.120 --> 10:10.850
Aus diesem Grund ist ein Klassifizierungsfehler kein gutes Maß, insbesondere für die Zwecke des mittleren quadratischen Fehlers,

10:11.810 --> 10:17.960
und da ich diese Berechnungen in Excel vorgenommen habe, wollte ich Sie einfach nicht damit langweilen, aber Sie können

10:17.960 --> 10:22.010
Tony einfach hinsetzen machen Sie sie auf Papier oder in Excel.

10:22.010 --> 10:28.760
Dies sind sehr einfache Berechnungen. Nehmen Sie einfach die Summe

10:28.760 --> 10:35.010
der Fehlerquadrate und dann den Durchschnitt Ihrer Beobachtungen an.

10:35.060 --> 10:43.320
Für das neuronale Netzwerk werden also 25% für das neuronale Netzwerk 2 erzielt, und Sie erhalten 71% Fehlerraten, so dass Sie

10:43.330 --> 10:45.930
feststellen können, dass dieses genauer ist.

10:45.940 --> 10:50.380
Es sagt uns, dass fast jeder eine viel geringere Fehlerrate hat als Ihr eigenes Netzwerk.

10:51.150 --> 10:52.970
Und dann wieder die Entropie.

10:52.990 --> 10:57.250
Wir haben gesehen, dass Sie die Formel berechnen können, die berechnet werden kann. Sie

10:57.250 --> 11:05.350
ist sogar noch einfacher zu berechnen als der mittlere quadratische Fehler. 0 6 für neuronales Netz 2.

11:05.500 --> 11:08.180
Sie können also sehen, dass die Ergebnisse ein bisschen anders sind.

11:08.350 --> 11:16.510
Wenn Sie sie so betrachten, wissen Sie, wenn Sie sich den Minirock-Bereich und die Kreuzentropie anschauen, und die Frage, warum

11:16.510 --> 11:26.350
Sie Kreuzentropie verwenden sollten, bedeutet, dass quadratische Fehler nicht nur die Zahlen sind, die sie sagen, aber alle diese Berechnungen waren nur, um Ihnen

11:26.350 --> 11:32.030
zu zeigen, dass dies alles ist, was alles machbar ist. Sie können es

11:32.050 --> 11:34.680
einfach auf Papier tun, wenn nicht.

11:34.780 --> 11:37.890
Es ist keine sehr intensive Mathematik.

11:37.890 --> 11:41.130
Das sind ziemlich einfache Dinge.

11:41.200 --> 11:47.680
Aber die Frage, warum würden Sie Mittel verwenden, um Entropie zu verursachen, ist eine sehr gute Frage zu

11:47.680 --> 11:48.250
stellen.

11:48.250 --> 11:58.530
Ich bin froh, dass Sie gefragt haben, dass die Antwort darauf ist, als gäbe es mehrere Vorteile der Kreuzentropie gegenüber dem mittleren

11:58.540 --> 12:01.430
quadratischen Fehler, die nicht offensichtlich sind.

12:01.450 --> 12:07.160
Ich werde ein paar erwähnen, aber dann werde ich Sie wissen lassen, wo Sie mehr erfahren können.

12:07.160 --> 12:18.550
Eine davon ist, dass, wenn Sie beispielsweise ganz am Anfang Ihrer Rückwärtsausbreitung stehen, Ihr Ausgabewert sehr, sehr,

12:18.550 --> 12:22.260
sehr klein, sehr klein ist.

12:22.360 --> 12:25.680
Es ist also viel kleiner als der tatsächliche Wert, den Sie wünschen.

12:25.750 --> 12:32.920
Am Anfang wird der Gradient in Ihrer großen und anständigen Welt sehr niedrig sein und Sie werden nicht

12:32.920 --> 12:33.840
genug sein.

12:33.850 --> 12:40.630
Es ist sehr schwierig für das neuronale Netzwerk, tatsächlich etwas zu tun, sich zu bewegen, die

12:40.630 --> 12:45.010
Gewichte anzupassen und Movistar in die richtige Richtung zu bewegen.

12:45.130 --> 12:50.920
Wenn Sie jedoch so etwas wie die Kreuzentropie verwenden, weil sie diesen Logarithmus enthält,

12:51.400 --> 12:57.310
hilft dies tatsächlich dem Netzwerk, selbst einen kleinen Bereich zu bewerten und etwas dagegen zu unternehmen.

12:57.310 --> 12:58.520
So denken Sie darüber nach.

12:58.520 --> 13:03.260
Nehmen wir also an, dies ist sehr intuitiv.

13:03.410 --> 13:08.830
Es wird eine Verbindung zur Mathematik geben, und Sie können diese Dinge durch die Mathematik detaillierter

13:08.830 --> 13:11.260
ableiten, aber eine sehr intuitive Vorgehensweise.

13:11.260 --> 13:16.030
Nehmen wir an, Sie mögen Ihr Ergebnis, das Sie möchten.

13:16.030 --> 13:22.810
Ist eins und im Moment bist du bei einem Millionstel.

13:22.870 --> 13:23.140
Recht.

13:23.170 --> 13:30.790
$ 0. 00 oder gibt es eine und dann verbessern Sie das nächste Mal, wenn Sie Ihr Ergebnis

13:30.790 --> 13:32.680
von einem Millionstel auf ein Tausendstel verbessern.

13:32.860 --> 13:39.330
Und wenn Sie den quadratischen Fehler berechnen, subtrahieren Sie einfach den einen von dem anderen.

13:39.610 --> 13:44.980
Oder Sie sind im Grunde in jedem Fall Kalka in einem Quadrat und Sie werden feststellen, dass die quadratischen Fehler, wenn Sie

13:44.980 --> 13:48.210
einen Fall mit einem anderen vergleichen, sich nicht so sehr geändert haben.

13:48.220 --> 13:51.940
Sie haben Ihr Netzwerk nicht wesentlich verbessert, wenn Sie das mittlere Quadrat dort betrachten.

13:52.120 --> 13:58.750
Wenn Sie jedoch die Kreuzentropie betrachten, weil Sie einen Logarithmus verwenden, dann vergleichen Sie dies

13:58.750 --> 14:01.090
mit der Aufteilung der beiden.

14:01.390 --> 14:09.390
Sie werden sehen, dass Sie Ihr Netzwerk tatsächlich erheblich verbessert haben, so dass der Sprung von einer Million auf 1000 in

14:09.460 --> 14:12.810
Bezug auf die mittleren Fehlerquadrate sehr niedrig ist.

14:12.820 --> 14:15.710
Es wird unbedeutend sein und nicht.

14:15.790 --> 14:22.270
Es wird Ihren Gradientenverstärkungsprozess oder Ihre Rückenausbreitung nicht in die richtige Richtung lenken.

14:22.340 --> 14:28.180
Es wird alles in die richtige Richtung gelenkt, aber es ist wie eine sehr langsame

14:28.540 --> 14:34.960
Führung, es hat nicht genug Kraft. Wenn Sie jedoch die Entropie über die Entropie recrossieren, werden Sie

14:34.960 --> 14:42.220
verstehen, dass dies nur kleine Anpassungen sind, die Sie gerade machen eine kleine absolute Änderung in absoluten Zahlen ist

14:42.220 --> 14:43.770
eine enorme Verbesserung.

14:43.870 --> 14:46.110
Und wir gehen definitiv in die richtige Richtung.

14:46.110 --> 14:54.820
Lasst uns so weitermachen, dass Kreuzentropie Ihrem neuronalen Netzwerk helfen wird, den optimalen Zustand zu erreichen. Der optimale Zustand ist

14:54.820 --> 15:01.090
ein besserer Weg für das neuronale Netzwerk, um einen optimalen Zustand zu erreichen.

15:01.090 --> 15:08.260
Denken Sie jedoch daran, dass dies nur funktioniert, wenn die Entropie nur die bevorzugte Methode zur Klassifizierung ist.

15:08.260 --> 15:14.200
Wenn Sie also über Dinge wie Regression sprechen, die wir in künstlichen neuronalen Netzwerken hatten,

15:14.230 --> 15:20.770
würden Sie lieber mit mir gehen und quadratische Fehler machen, wohingegen Kreuzentropie besser für die Klassifizierung ist

15:20.770 --> 15:26.200
Die nächste Funktion ist also eine Art intuitive Erklärung dafür. Ein guter Ort,

15:26.200 --> 15:31.690
um etwas mehr darüber zu erfahren. Wenn Sie wirklich interessiert sind, wissen Sie, warum

15:31.690 --> 15:34.740
wir Kreuz- und mittlere quadratische Fehler verwenden.

15:35.200 --> 15:43.160
Google hat in einem Video von Geoffrey Hinton die Soft-Max-Output-Funktion aufgerufen. Er erklärt es sehr gut und Sie wissen, dass

15:43.160 --> 15:48.760
Sie der Pate des Deep Learning sind, der es trotzdem besser erklären kann.

15:48.890 --> 15:51.680
Übrigens ist jedes Video von Geoffrey Hinton golden.

15:51.680 --> 15:55.590
Er hat sowieso ein großes Talent, Dinge zu erklären.

15:55.610 --> 16:01.310
Das ist also so sanft gegen Kreuz und ich hoffe, das gibt einem ein intuitives Verständnis dafür, was hier vor

16:01.310 --> 16:02.110
sich geht.

16:02.120 --> 16:08.030
Noch wichtiger ist jedoch, dass Sie nicht durch den Begriff Kreuzentropie abgeschreckt werden, da die

16:08.030 --> 16:11.280
Überschrift dies in den praktischen Geschichten erwähnen wird.

16:11.280 --> 16:15.740
Und es ist nur eine andere Möglichkeit, Ihre letzte Funktion zu berechnen.

16:15.740 --> 16:21.830
Und eine weitere Möglichkeit, Ihr Netzwerk zu optimieren, das speziell auf Klassifizierungsprobleme und

16:21.860 --> 16:28.180
damit auf die Faltungsneuralnetze zugeschnitten ist und mit der Soft-Max-Funktion Hand in Hand geht.

16:28.280 --> 16:35.480
Also zusätzliche Lektüre, wenn Sie eine leichte Einführung in die Kreuzentropie wünschen, wenn Sie sich für das Konzentrat

16:35.480 --> 16:37.170
interessieren, natürlich mehr.

16:37.250 --> 16:43.370
Ein guter Artikel zum Auschecken wird von Rob DePietro 2016 als freundliche Einführung in den

16:44.180 --> 16:45.280
Entropieverlust bezeichnet.

16:45.350 --> 16:46.860
Hier ist der Link unten.

16:47.150 --> 16:54.350
Sehr sehr schön, sehr weich und nichts Super-Super-Mathe.

16:54.440 --> 16:59.660
Gute Analogien Gute Beispiele mit Analogien von Autos und Sie schauen sich Autos an und sprechen

16:59.660 --> 17:04.910
über Informationen und Kleinigkeiten und Einschränkungen, und Sie wissen, wie Sie dieses ganze Unico entschlüsseln könnten.

17:04.910 --> 17:10.730
Es ist also ein guter Artikel, den wir uns ansehen sollten guter Überblick über einen Quereintrag wie aus

17:10.820 --> 17:11.680
einleitender Sicht.

17:11.900 --> 17:18.590
Wenn Sie sich in die schwere Mathematik einarbeiten wollen, wie Sie es hier sehen, dann

17:18.680 --> 17:25.180
schauen Sie sich einen Artikel von oder ein Blog an, wie Sie ein neuronales

17:25.220 --> 17:27.410
Netzwerk Intermezzo implementieren können.

17:27.550 --> 17:28.910
Unterbrechung in.

17:28.990 --> 17:35.690
Sie wissen wie, wenn Sie in ein Theater gehen, und Sie haben eine Pause zwischen dem ersten und dem zweiten

17:35.690 --> 17:36.290
Teil.

17:36.350 --> 17:40.820
Also, weil er so durch alle diese Schritte geht und dann ist er wie und dann sagt er,

17:40.820 --> 17:42.210
ich muss das zuerst erklären.

17:42.470 --> 17:44.080
Und ja, deshalb wird es Intermezzo genannt.

17:44.090 --> 17:51.620
Kein anderer Grund, soweit ich die Artikel von Peter Rolands 2016 auch verstehe, sind beide ziemlich

17:51.620 --> 17:52.470
neu.

17:52.580 --> 18:00.150
Und Sie sollten wissen, ob Sie die Mathematik hinter Kross-Entropie hinter dem weichen Max und die Kreuz-Entropie in

18:00.150 --> 18:02.600
diesem Artikel wirklich erforschen möchten.

18:02.930 --> 18:03.790
Also los geht's.

18:03.860 --> 18:07.360
Das ist alles zu diesen beiden.

18:07.370 --> 18:12.780
Hoffentlich konnte ich etwas mehr Klarheit und Glück hinzufügen.

18:12.830 --> 18:16.970
Es wird Spaß machen und die praktischen Tutorials genießen.

18:16.970 --> 18:18.070
Wir sehen uns beim nächsten Mal.

18:18.080 --> 18:19.700
Bis dahin viel Spaß beim Lernen.