WEBVTT

00:00.830 --> 00:04.470
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.580 --> 00:09.520
Ich hoffe, Sie freuen sich auf das heutige Tutorial, denn wir machen den ersten Schritt in die Welt

00:09.520 --> 00:10.170
des Ich.

00:10.460 --> 00:13.150
Und heute reden wir über das Lernen mit Verstärkung.

00:13.280 --> 00:18.710
Es ist eine sehr wichtige Geschichte, denn sie wird alles andere unterstützen, was in diesem Kurs passieren wird.

00:18.770 --> 00:21.010
Also fangen wir hier an.

00:21.020 --> 00:27.140
Wir haben ein kleines Labyrinth und dieses Labyrinth ist unsere Repräsentation einer Umgebung, und damit werden wir

00:27.140 --> 00:29.210
uns in diesem Kurs beschäftigen.

00:29.210 --> 00:34.040
Wir werden es mit bestimmten Umgebungen zu

00:34.040 --> 00:39.950
tun haben, in denen unsere künstliche Intelligenz vorgeht. Sie

00:39.950 --> 00:42.350
werden Maßnahmen ergreifen.

00:42.350 --> 00:44.190
Und hier haben wir einen Agenten.

00:44.360 --> 00:46.990
Der Agent ist unsere künstliche Intelligenz.

00:47.030 --> 00:52.910
Das ist die Person oder der Geist, der durch diese Umgebungen navigiert und aus den Rückmeldungen

00:53.000 --> 00:57.110
erfährt, dass ihre Gedanken es geben werden, um bestimmte Aktionen auszuführen.

00:57.150 --> 01:02.180
In dieser Umgebung führt der Agent bestimmte Aktionen aus.

01:02.360 --> 01:09.050
Infolgedessen wird sich der Zustand, in dem es sich befindet, ändern, so dass es weiter nach links oder nach links oder nach rechts weiter nach

01:09.050 --> 01:10.070
rechts sein kann.

01:10.070 --> 01:15.030
Es kann eine Art von anderen Parametern geben, die den Zustand und diese Parameter beschreiben.

01:15.100 --> 01:20.970
Der Staat wird sich also aufgrund der Aktion ändern und es wird auch eine Belohnung für die Aktion erhalten.

01:20.970 --> 01:24.950
Jedes Mal, wenn eine Aktion ausgeführt wird, ändert sich der Zustand und es wird belohnt.

01:24.950 --> 01:29.170
Denken Sie daran, dass es manchmal passieren kann, dass der Status nicht geändert wird. Die Aktion

01:29.170 --> 01:33.070
ändert keinen Aufenthalt oder es wird keine Belohnung für die Durchführung dieser Aktion geben.

01:33.110 --> 01:34.530
In diesem Sinne war es.

01:34.670 --> 01:38.480
Aber der Agent wird dies auch weiterhin tun, indem

01:38.480 --> 01:42.510
er Maßnahmen ergreift, die den Staat betrügen, und Belohnungen erhält.

01:42.800 --> 01:47.840
Und durch diesen Prozess wird man lernen, was die Umwelt erforschen würde, wenn man

01:48.200 --> 01:53.970
versteht, welche Aktionen zu guten Belohnungen und günstigen Zuständen führen, und welche Aktionen die beiden Belohnungen

01:53.990 --> 01:55.840
für einen ungünstigen Zustand bedeuten.

01:56.000 --> 01:59.690
Und dies ist ein sehr vereinfachtes repräsentatives, sehr globales Problem.

01:59.690 --> 02:04.390
Wenn Sie darüber nachdenken, müssen Umgebungen nicht nur Labyrinthe sein.

02:04.400 --> 02:09.170
Es geht nicht nur darum, aus einem Labyrinth auszusteigen oder einen Schatz in einem Labyrinth zu finden.

02:09.170 --> 02:11.740
Eine Umgebung kann so ziemlich alles im Leben sein.

02:11.750 --> 02:15.180
Stellen Sie sich vor, Sie wachen morgens auf und kochen ein Omelett.

02:15.410 --> 02:22.010
Um dieses Omelett herzustellen, müssen Sie bestimmte Schritte durchlaufen, damit das Salz die Eier

02:22.010 --> 02:27.770
bekommt, die Bratpfannen zum Brennen usw., und es klingt wie eine Routine.

02:27.770 --> 02:29.870
Aber es ist zur Routine geworden, weil Sie es so oft gemacht haben.

02:29.960 --> 02:34.670
In Wirklichkeit ist es jedoch eine Umgebung, in der Sie bestimmte Aktionen ausführen, bei denen Sie das Feuer

02:34.670 --> 02:40.250
anzünden, indem Sie eine Bratpfanne auf das Feuer stellen. Sie legen alle Eier in die Bratpfanne und Sie setzen Salz auf

02:40.250 --> 02:43.190
die Eier und du drehst dich um und so weiter.

02:43.190 --> 02:49.970
Wie Sie sehen, handelt es sich also um CRN-Aktionen, die in bestimmten Zuständen durchgeführt werden. Diese Aktionen führen zu

02:49.970 --> 02:52.460
bestimmten anderen Zuständen und belohnen manchmal.

02:52.460 --> 02:57.650
Wenn Sie z. B. das Feuer anzünden und warten, warten Sie, warten Sie, warten Sie, warten Sie, warten Sie,

02:57.650 --> 03:01.900
warten Sie, warten Sie zu lange, und legen Sie die Eier in die Pfanne.

03:01.910 --> 03:03.560
Die Belohnungen werden sehr negativ sein.

03:03.560 --> 03:05.120
Es wird alles brennen.

03:05.120 --> 03:10.130
Wenn Sie andererseits alle richtigen Maßnahmen zur richtigen Zeit ausführen, ist es auch wichtig zu

03:10.130 --> 03:13.850
verstehen, dass die Maßnahmen zu den richtigen Zeitpunkten ausgeführt werden sollten.

03:13.850 --> 03:20.090
Das Salz beispielsweise in die Pfanne geben, bevor Sie die Eier hineinlegen, ist möglicherweise nicht die beste

03:20.090 --> 03:20.770
Idee.

03:20.780 --> 03:26.190
Möglicherweise möchten Sie diese Aktion durchführen, indem Sie das Salz in die Pfanne geben, nachdem die Eier da sind

03:26.200 --> 03:28.320
und sich in einem anderen Zustand befinden.

03:28.370 --> 03:29.620
Deshalb ist es wichtig, sich daran zu erinnern.

03:29.780 --> 03:34.070
Und wenn Sie alle richtigen Maßnahmen in der richtigen Reihenfolge in den richtigen Zuständen ergreifen,

03:34.580 --> 03:38.840
könnte Ihre letzte Belohnung sein, dass Sie ein Omelett erhalten, das Sie essen können.

03:38.900 --> 03:44.660
Das ist also eine sehr grundlegende Aktivität in Ihrem Leben, aber wenn Sie darüber nachdenken, handelt es sich tatsächlich um eine Umgebung,

03:44.990 --> 03:50.060
und Sie sind der Agent, der diese Umgebung durchläuft und eine Aufgabe ausführt, die Sie nicht wirklich lernen müssen, weil

03:50.060 --> 03:52.190
Sie sie bereits ziemlich gut kennen .

03:52.220 --> 03:56.170
Aber gleichzeitig könnten Sie lernen, vielleicht lernen Sie, wie man ein besseres Omelett herstellt, oder vor allem, wenn

03:56.340 --> 03:59.010
Sie Ihr erstes Omelett so gestalten, dass Sie es wahrscheinlich vermasseln.

03:59.030 --> 04:04.010
Aber Sie werden daraus lernen, denn Sie werden verstehen, welche Handlungen zu Zuständen und Wegen und zu etwas

04:04.490 --> 04:05.890
anderem im Leben führen.

04:06.050 --> 04:11.900
Zum Beispiel auch der Handel an der Börse und Sie wissen, wie Sie kaufen und verkaufen und

04:11.900 --> 04:16.390
bestimmte Rückmeldungen vom Markt im Sinne von positiven oder negativen Renditen erhalten.

04:16.430 --> 04:20.160
Das ist auch eine Umgebung, an der Sie im Alter teilnehmen.

04:20.210 --> 04:25.220
Autofahren ist auch eine Umgebung, in der Sie das Lenkrad drehen können, Sie können beschleunigen,

04:25.220 --> 04:29.510
Sie können brechen usw. Sie erhalten Feedback von der Umgebung, und Sie wissen,

04:29.510 --> 04:35.840
dass der Polizist Ihnen ein gutes Tempo verleiht, wenn Sie nicht so schnell fahren. auf der Autobahn die zulässige oder

04:35.840 --> 04:36.960
zulässige Höchstgeschwindigkeit überschreiten.

04:37.040 --> 04:41.900
Und deshalb lernst du, dass dies nicht etwas ist, was getan werden sollte, weil es zu einer

04:41.900 --> 04:43.020
negativen Belohnung führt.

04:43.220 --> 04:45.590
Belohnungen müssen also nicht ganz am Ende des Prozesses liegen.

04:45.590 --> 04:48.020
Sie können während des gesamten Prozesses durchlaufen werden.

04:48.020 --> 04:49.490
Das sind also ein paar Beispiele.

04:49.490 --> 04:54.980
Und in Bezug auf ein Ich ist der einfachste Weg, an Verstärkungslernen zu denken, wie das Trainieren

04:54.980 --> 05:00.270
eines Hundes, wenn Sie dem Hund trainieren, ihm bestimmte Befehle zu erteilen Wenn es nicht Abeles

05:00.440 --> 05:04.820
Kamaz ist, sagen Sie ihm, dass es ein böser Hund ist, oder geben

05:04.820 --> 05:06.600
Sie ihm einfach keine Belohnung.

05:06.830 --> 05:13.820
Und durch diesen Prozess lernt es, welche bestimmten Befehle oder was es tun muss, um welche Aktion es in bestimmten Zuständen

05:13.820 --> 05:18.470
zu ergreifen hat, und die Zustände sind die Befehle, die Sie ihm geben.

05:18.470 --> 05:22.700
Und darauf basierend wird es natürlich einige Belohnungen in der Welt der KI erhalten.

05:22.700 --> 05:24.590
Es ist nicht so komplex.

05:24.590 --> 05:26.910
Sie müssen nicht die Leckereien geben.

05:26.960 --> 05:32.120
Sie müssen nicht jedes Mal wie eine Tüte Kekse dabei sein, wenn Sie ihm einfach einen Plus- oder

05:32.120 --> 05:37.290
Minuswert geben. Es ist also ein großer Vorteil, dass wir in der Welt der AI diese AIs selbst erstellt haben.

05:37.310 --> 05:42.680
Die Belohnungen, die wir ihnen geben, wenn Sie denken, dass

05:42.680 --> 05:48.490
dies wirklich coole Belohnungen sind, geben ihnen die, dass sie nicht existieren.

05:48.500 --> 05:51.100
Es ist also alles Nichtvorhandensein alles Imaginäre.

05:51.110 --> 05:56.300
Aber gleichzeitig führt dies zu großartigen Ergebnissen, da wir diese erstaunlichen Dinge wie

05:56.300 --> 06:01.760
diese erstaunliche künstliche Intelligenz erstellen können, indem wir Belohnungen anbieten, die wir nicht wirklich haben.

06:01.790 --> 06:05.670
Plus und Minus 1 kostet nichts anderes als die gleichen Release-Ergebnisse.

06:05.900 --> 06:08.170
Sehr ähnlich der realen Welt.

06:08.210 --> 06:15.140
Und Sie wissen zum Beispiel Dokes. Aber hier sind die Belohnungen digital und nur Zahlen.

06:15.140 --> 06:20.920
Und mit diesem Gedanken können wir über Roboterhunde sprechen. Ich liebe dieses Beispiel. Es handelt sich also

06:20.920 --> 06:26.630
nur um Bilder, die nicht unbedingt genau den Roboterhund sind, den Sie kennen. Er wird durch

06:26.710 --> 06:31.050
Verstärkung trainiert und lernt einige der Roboterhunde ein Algorithmus da drin.

06:31.370 --> 06:39.260
Und dies ist eigentlich ein gutes Beispiel für den Unterschied zwischen vorprogrammierten Agenten und dem Verstärkungslernagenten,

06:39.260 --> 06:46.120
sodass Sie einen Roboterhund haben könnten, der vorprogrammiert ist, wie er laufen soll.

06:46.160 --> 06:51.500
Also in dem Algorithmus hinter dem Hund in der Software wird OK gesagt. Um zu gehen, müssen Sie Ihr linkes

06:52.370 --> 06:58.160
Bein nach vorne linkes vorderes Bein vorwärts bewegen, dann Ihr rechtes Bein nach vorne, dann Ihr vorderes rechtes Bein nach vorne und dann

06:58.160 --> 07:02.480
Ihr hinteres linkes Bein nach vorne und wiederholen Sie diese Aktion und Sie wissen, das ist die

07:02.480 --> 07:04.870
Definition des Gehens eine Funktion in diesem Hund.

07:05.040 --> 07:09.060
Und dann könnte es sein, dass Sie wissen, wie Sie sitzen sollen und solche Dinge.

07:09.680 --> 07:16.710
Während bei einem Roboterhund, der durch Verstärkung trainiert wird, das Lernen, was passiert, ist, müssen Sie ihn nicht vorprogrammieren.

07:16.730 --> 07:23.810
Dies ist das Schlüsselkonzept für alles, bei dem Sie keinen Algorithmus in sich haben, der in den Hund hart

07:23.810 --> 07:24.850
codiert ist.

07:24.860 --> 07:28.300
Stattdessen haben Sie das, was wir in Zukunft besprechen werden.

07:28.460 --> 07:36.710
Es gibt diesen Verstärkungslernalgorithmus, dem gesagt wird, dass es in Ordnung ist. Das Ziel besteht also darin,

07:36.860 --> 07:41.990
von wo Sie jetzt nichts zum Ende des Raumes wissen.

07:42.170 --> 07:44.270
Und hier sind die bestimmten Aktionen, die Sie ergreifen können.

07:44.270 --> 07:48.950
Sie können Ihren rechten Fuß bewegen. Sie können Ihren linken Fuß bewegen. Sie können Ihren rechten Fuß zurückbewegen.

07:48.950 --> 07:53.000
Sie sind der linke Fuß. Hier können Sie alle Freiheitsgrade, die Sie tun können, so

07:53.000 --> 07:59.180
bewegen, dass Sie sich wie diese bewegen Aktionen, die Sie ergreifen können und Ihre Belohnungen sind jedes Mal, wenn Sie einen Schritt nach vorne

07:59.210 --> 08:01.430
machen, erhalten Sie bei jedem Sturz ein Plus.

08:01.430 --> 08:04.090
Du bekommst ein Minus und das ist alles was dazu gehört.

08:04.160 --> 08:07.390
Und dann verlassen sie einfach den Hund und lassen ihn von selbst herausfinden.

08:07.400 --> 08:13.460
Der Hund versucht aufzustehen, er fällt, dann wird klar, dass ich diese Handlung nicht tun sollte, die mich zum Sturz brachte, denn jedes Mal,

08:13.460 --> 08:17.040
wenn ich falle, bekomme ich ein Minus, das für mich nicht gut ist.

08:17.060 --> 08:21.560
Die andere Aktion, die ihm dabei geholfen hat, aufzustehen, und dann sind es nur Experimente. Experimente

08:21.560 --> 08:26.090
experimentieren mit den Dingen des Zufalls und stellen dann fest, dass sie einen Schritt nach vorne machen

08:26.090 --> 08:31.410
können, indem sie den rechten Vorderfuß bewegen, und er bekommt ein Plus und erkennt, dass ich sollte mach mehr davon.

08:31.460 --> 08:35.620
OK, so lernt es jetzt, dass es mehr davon und weniger davon tun soll.

08:35.630 --> 08:42.270
Und durch diesen Lernprozess versteht er sehr schnell, wie er gehen kann.

08:42.410 --> 08:49.130
Und diese Hunde, die sich selbst auskennen, können manchmal besser laufen als Hunde, die vorprogrammiert sind, weil wirklich

08:49.130 --> 08:53.930
vorprogrammierte Dinge auf die Hunde im wirklichen Leben gerichtet werden, oder Sie

08:53.930 --> 09:00.300
wissen, dass wir unsere eigenen Vorstellungen verwenden, während dies ein verstärkter Lernhund ist Dinge alleine optimieren.

09:00.320 --> 09:03.540
Und weil in der KI manchmal sogar noch bessere Ergebnisse erzielt werden können.

09:03.680 --> 09:05.290
Und so können sie diese Roboter trainieren.

09:05.320 --> 09:07.320
Dieselben Roboterhunde, um Fußball zu spielen.

09:07.520 --> 09:12.970
Sie können einen normalen Hund zum Fußballspielen trainieren, weil Sie wissen, dass der Ansatz anders ist.

09:12.980 --> 09:20.900
Und es ist nicht etwas, von dem Sie wissen, dass wahrscheinlich ein normaler Hund in seinem Entwicklungsprozess trainiert wurde

09:20.900 --> 09:23.030
oder jemals geschafft hat.

09:23.030 --> 09:28.190
Ein Roboter, der sich mit der Verstärkung befasst, kann sehr leicht verstehen, wie man Fußball spielt, solange

09:28.190 --> 09:32.760
man ihm sagt, was die Belohnungen sind und welche Ziele die möglichen Aktionen sind.

09:33.080 --> 09:36.390
So funktioniert das verstärkte Lernen.

09:36.410 --> 09:39.160
Im Allgemeinen gibt es einen schnellen Überblick über das Verstärkungslernen.

09:39.170 --> 09:45.500
Ich hoffe, das hat Sie sehr aufgeregt, weil es eine völlig andere Welt ist,

09:45.530 --> 09:51.980
im Vergleich zu vorprogrammierten Lösungen, ein hart programmiertes Programm, bei dem Sie die If-Bedingung haben.

09:51.980 --> 09:53.750
Das ist ganz anders.

09:53.840 --> 09:56.010
Und darüber werden wir mehr reden.

09:56.150 --> 10:03.400
In der Zwischenzeit haben wir einige zusätzliche Informationen für Sie. Wenn Sie also Hilfsmaterialien haben möchten, finden Sie hier

10:03.700 --> 10:06.810
einen großartigen Artikel, den Sie sich ansehen können.

10:06.830 --> 10:09.300
Es wird als einfaches Verstärkungslernen mit Tensorfluss bezeichnet.

10:09.430 --> 10:10.570
Es hat zehn Teile.

10:10.570 --> 10:14.790
Der Link ist hier und Sie finden den vollständigen anklickbaren Link auf.

10:14.820 --> 10:22.540
Im Verlauf der Ressourcen von Arthur Giulianis Artikel 2016 können Sie diesem Kurs folgen und auch zusätzliche Informationen

10:22.540 --> 10:24.770
aus diesem Artikel erhalten.

10:24.790 --> 10:30.010
Denken Sie jedoch daran, dass dieser Artikel eher fließend ist, da in diesem

10:30.520 --> 10:35.830
Kurs eine andere Implementierung als Implantationen verwendet wird. Gleichzeitig können Sie jedoch ein paar

10:35.830 --> 10:41.260
Dinge hier und dort aufgreifen, die Ihr Lernen ergänzen könnten werde in diesem Kurs tun.

10:41.260 --> 10:44.910
So gute Artikel folgen Ihnen, wenn Sie in Erwägung ziehen, es mit Sicherheit zu folgen.

10:44.920 --> 10:45.820
Immer noch für alle Fälle.

10:45.820 --> 10:51.890
Schauen Sie sich diesen ersten Teil an und sehen Sie, ob Sie ihn etwas mehr lesen möchten.

10:52.210 --> 10:58.210
Und dann haben wir speziell für dieses Tutorial ein Grenzerzwangslernen. Es gibt ein Dokument von Richard Sutton,

10:58.210 --> 11:00.380
das als Verstärkungslernen bezeichnet wird.

11:00.420 --> 11:08.170
Eine Einführung ist, dass die Papiere von 1998 recht alt sind, aber gleichzeitig können Sie ein wenig über das Verstärken

11:08.170 --> 11:13.960
lernen lernen. Beispiele wie dieses Omlet-Beispiel und andere Beispiele, in denen das Verstärkungslernen angewendet werden

11:13.960 --> 11:17.710
kann, und nur einen allgemeinen Überblick über das Verstärkungslernen.

11:17.710 --> 11:23.220
Wenn Sie nach zusätzlichen Informationen suchen, werden wir dieses Tutorial abschließen.

11:23.230 --> 11:24.640
Ich kann es kaum erwarten, Sie das nächste Mal zu sehen.

11:24.640 --> 11:26.560
Und bis dahin genießen Sie AI.
