WEBVTT

00:00.630 --> 00:03.850
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:03.990 --> 00:09.260
Im heutigen Tutorial beginnen wir mit dem Abschnitt über tiefes konvolutionelles Lernen.

00:09.420 --> 00:11.010
Schauen wir uns also an, worum es geht.

00:11.010 --> 00:14.040
Zuvor haben wir über tiefes cooles Lernen gesprochen.

00:14.040 --> 00:21.270
Wir hatten also eine Umgebung, in der ein Agent und ein Vektor die Umgebung beschreibt, die in ein

00:21.270 --> 00:26.310
neuronales Netzwerk eingespeist wurde. Am Ende erhielten wir die q-Werte als Output.

00:26.310 --> 00:29.970
Und dann haben wir natürlich herausgefunden, wie man den Lernteil zurückhalten kann.

00:29.970 --> 00:34.650
Wir haben herausgefunden, wie Aktionen basierend auf diesen Werten als Aktionsteil festgelegt werden.

00:34.650 --> 00:42.380
Und wir sprachen über Maßnahmen zur Auswahl von Maßnahmen und verschiedene Dinge darüber, wie tiefes Lernen funktioniert.

00:42.420 --> 00:51.240
Aber hier ist der Schlüsselbegriff, wie wir von der tatsächlichen Umgebung und den Zuständen

00:51.240 --> 00:54.450
zum neuronalen Netzwerk gelangen.

00:54.480 --> 00:56.190
Nun, der Übergang ist hier vorbei.

00:56.220 --> 01:02.250
Die Eingangsvektoren sind also die Eingangslehre unseres neuronalen Netzes und es handelt sich um einen Vektor.

01:02.250 --> 01:06.570
Also, was wir betrachten, ist in Ordnung, also schneiden wir tatsächlich an der Kurve ab.

01:06.600 --> 01:08.830
Das ist nicht der richtige Begriff, auf den wir nichts schauen.

01:08.940 --> 01:12.330
Der Agent verfügt grundsätzlich über diese Informationen.

01:12.330 --> 01:18.490
Die Umgebung analysiert diese Informationen und sagt, OK, der Agent, in dem Sie sich derzeit in diesem Zustand befinden,

01:18.560 --> 01:26.160
wird von dem Sektor in diesem vereinfachten Beispiel beschrieben, der durch diesen Vektor X-1 von 1 x 2 von 2 beschrieben wird, so dass

01:26.160 --> 01:31.410
Ihre Koordinaten 1 2 sind und das ist Ihr ganzer Zustand in einer komplexeren Umgebung.

01:31.410 --> 01:37.920
Die Aussage und alle anderen Dinge, die der Agent beobachten kann, aber der Punkt hier ist, dass er als

01:37.920 --> 01:39.040
Vektor besetzt ist.

01:39.240 --> 01:45.750
Und die Sache ist, dass das im wirklichen Leben nicht passiert, außer bei GPS-Systemen und anderen

01:45.780 --> 01:46.470
Dingen.

01:46.530 --> 01:51.830
Aber im wirklichen Leben, was wir meistens mit unseren Sinnen benutzen, benutzen wir unsere Augen sogar im GPS.

01:51.930 --> 01:53.670
Es ist nicht in unser Gehirn eingebaut.

01:53.670 --> 01:56.420
Es sagt uns nicht die Koordinaten durch unser Gehirn.

01:56.430 --> 02:02.880
Wir schauen also immer noch mit unseren Augen auf das GPS und verstehen, was dort vor sich geht.

02:02.910 --> 02:09.620
Dies ist also eine Art Schummeln für die KI, um als Vektor Informationen über die Umgebung zu erhalten.

02:09.620 --> 02:12.030
Es ist zu einfach, es ist nicht so, wie es im wirklichen Leben funktioniert.

02:12.030 --> 02:17.040
So arbeiten wir als Menschen nicht, und letztendlich wollen wir künstliche Intelligenz schaffen,

02:17.340 --> 02:23.310
die auf ähnliche Weise wie Menschen funktionieren kann, da sie die gleichen Herausforderungen annehmen können wie Menschen.

02:23.320 --> 02:28.740
In der menschlichen Welt haben wir also nicht das, was wir nicht haben, das wir nicht diese Koordinaten oder andere

02:28.740 --> 02:33.870
Arten von Vektoren haben, die an uns weitergegeben werden und die den Zustand in dieser Umgebung erklären.

02:33.870 --> 02:37.350
Also müssen wir das entfernen, um es realistischer zu machen.

02:37.410 --> 02:42.180
Und was können wir dann durch das ersetzen, was wir sehen oder was wir als Mensch tun, um Informationen zu erhalten.

02:42.180 --> 02:46.860
Nun, die meiste Zeit sehen wir natürlich alle unsere Sinne, aber die meisten Informationen,

02:46.860 --> 02:51.300
die wir über die Welt um uns herum erfahren, kommen durch unsere Sicht.

02:51.510 --> 02:59.340
Und aus diesem Grund werden wir diesen kleinen Pfeil, den wir hatten, in ein komplettes neuronales Netz

02:59.340 --> 03:00.090
verwandeln.

03:00.090 --> 03:02.700
Das ist also von unserem Onix.

03:02.700 --> 03:08.400
Zweitens haben wir die Konfrontation, Larry, und deshalb ist es wichtig, dass Sie

03:08.460 --> 03:13.290
mit den neuronalen Netzwerken der Evolution gut vertraut sind und

03:13.350 --> 03:14.910
wie das funktioniert.

03:14.930 --> 03:20.490
Oder schauen Sie sich einfach die nächste Nummer zwei an, wir haben dort ein paar sehr gute Intuition-Tutorials.

03:20.670 --> 03:26.160
Hier haben wir also die Faltungsoperation, die geschieht, also werden wir das eigentlich als

03:26.160 --> 03:27.330
Bild betrachten.

03:27.330 --> 03:31.350
Dies ist also ein Abbild der Net-Umgebung.

03:31.350 --> 03:33.990
Der Agent schaut sich also die Umgebung an.

03:33.990 --> 03:39.870
In diesem Fall sieht es nicht so aus, als würde er von innen schauen.

03:39.930 --> 03:44.710
Nehmen wir an, er spielt das auf einem Computer und er kann diese Umgebung sehen, und daher

03:44.760 --> 03:48.480
kann er sehen, wo diese Figur, die den Agenten darstellt, tatsächlich ist.

03:48.480 --> 03:53.340
Sie können sein Ganzes in viral sehen oder was immer ein Mensch sehen würde, wenn es tatsächlich ein Labyrinth wäre und der Mensch das Labyrinth

03:53.340 --> 03:54.270
von innen sehen würde.

03:54.270 --> 03:56.480
Und so sollte der Agent genau das Gleiche können.

03:56.700 --> 04:03.000
Was er also sagt, wird durch ein Getümmelungslager getan. Sie gehen in eine Art Dummkopf, ziehen ein

04:03.030 --> 04:10.140
Bein und gehen wieder flach, Sie können mehr über diese verschiedenen Teile des konvolutionellen neuronalen Netzes im Nebengebäude erfahren

04:10.140 --> 04:12.680
und dann die Offiziere flach machen.

04:12.690 --> 04:19.950
Dann haben wir Eingaben, die in das neuronale Netzwerk eingehen, und dies ist realistischer, da

04:19.950 --> 04:29.010
der Agent seine Websites verwenden muss oder Bilder verarbeiten muss, die die Umgebung dem Agenten zur Verfügung stellt, so wie

04:29.400 --> 04:31.590
ein Mensch Bilder verarbeitet.

04:31.590 --> 04:37.410
Und das Schöne daran ist nicht nur, dass es realistischer ist und eher wie ein Farbton ist.

04:37.410 --> 04:43.280
Das Alter ist eigentlich mehr als ein Mensch, aber es erlaubt uns, viel komplexere Umgebungen zu verarbeiten.

04:43.380 --> 04:49.050
So können wir beispielsweise Doom oder andere ähnliche Spiele spielen, da wir nicht einfach

04:49.050 --> 04:55.980
nur einen Vektor von Informationen erhalten, die wie jemand in dieser Umgebung für uns geschaffen worden wären, wir

04:56.080 --> 05:02.230
können künstliche Intelligenz mit jeder Umgebung verbinden, die der Mensch als Vision hat von ist und.

05:02.430 --> 05:08.280
Wenn Sie dieses Spiel spielen, können Sie genau dieses Bild sehen, und genau das würde

05:08.760 --> 05:12.450
das künstliche neuronale Netzwerk oder der Agent jetzt sehen.

05:12.540 --> 05:17.580
Wenn Sie also in diesem Teil des Kurses nach den praktischen Tournelles suchen, wird der Agent

05:17.580 --> 05:22.890
genau dieses Bild sehen. Er wird die Pixel sehen. Es wird genau dieses Bild mit den Pixeln dieser

05:22.890 --> 05:28.410
Person angezeigt, mit denen wir weg sind Mit diesem Gesicht mit diesem Prozentsatz mit allem, was wir hier

05:28.410 --> 05:30.710
sehen, sieht der Agent genau das aus.

05:30.870 --> 05:37.470
Dann muss es das durch Ziehen von Mähdreschern durchtrennen, und dann geht es in ein neuronales Netz.

05:37.650 --> 05:42.150
Und es ist unnötig zu erwähnen, dass die neuronalen Netzwerke tatsächlich viel komplexer sind als das, also lassen wir es durch etwas

05:42.150 --> 05:42.780
ähnliches ersetzen.

05:42.780 --> 05:44.480
Das ist nicht viel komplexer.

05:44.520 --> 05:49.350
Dies sieht zwar etwas komplizierter aus, aber in Wirklichkeit werden die neuronalen Netzwerke arbeiten

05:49.380 --> 05:54.140
und schaffen, wenn Sie recht interessant sein und viel komplexer sein werden.

05:54.150 --> 05:59.910
Aber wie Sie bereits hier sehen, auch wenn Sie nur fünf Eingaben haben und zwei Dinge viel

05:59.970 --> 06:04.380
komplexer werden, können Sie sehen, dass der Agent viele weitere Aktionen ausführen kann.

06:04.380 --> 06:10.850
Im Doom-Spiel nach links und rechts schauen und nach unten schauen.

06:10.890 --> 06:16.290
Oder du kennst all die verschiedenen Handlungen, die in der ersten Person möglich sind, gerne tun.

06:16.290 --> 06:19.430
Und außerdem muss es nicht sein, dass Sie es können.

06:19.430 --> 06:23.190
Sie können diesen Agenten mit einem anderen Spieltyp berühren.

06:23.190 --> 06:29.940
Das ist das Schöne daran, dass es dann klar wird, dass es jetzt jede Art von Umgebung betreiben kann, an

06:29.940 --> 06:34.260
die Sie es anhängen, denn solange es eine visuelle Darstellung der Umgebung

06:34.680 --> 06:39.940
dieser Umgebung gibt, ist bereits die gesamte Infrastruktur vorhanden, die die gesamte Struktur verarbeiten kann Das.

06:39.960 --> 06:43.980
Darum geht es beim tiefen konvolutionellen CULE-Lernen.

06:43.980 --> 06:51.120
Wir bringen es also sogar auf den nächsten Schritt, in dem wir jetzt Fäden oder Faltungs-Lares

06:51.120 --> 06:58.980
in das Gehirn unserer Agenten hinzufügen, und wir machen es noch komplexer, und daher können wir uns langweilen, noch

06:58.980 --> 07:01.260
komplexer lösen zu können Herausforderungen.

07:01.410 --> 07:06.720
Ich hoffe, Sie sind sehr aufgeregt darüber, dass sich dies in einem epischen Abschnitt befinden wird, und wir werden einige erstaunliche Dinge

07:06.720 --> 07:10.460
schaffen, und ich kann es kaum erwarten, Sie in diesem nächsten Tutorial zu sehen.

07:10.480 --> 07:12.130
Und bis dahin genießen Sie AI.