WEBVTT

00:00.660 --> 00:03.540
Hallo, willkommen zurück zum Kurs über künstliche Intelligenz.

00:03.540 --> 00:08.940
Im heutigen Tutorial werden wir ein recht komplexes Tutorial namens Eignibility Trace oder und Schritt

00:08.940 --> 00:09.500
vertuschen.

00:09.500 --> 00:14.970
Ich lerne, und das ist etwas, was ich in der praktischen Seite der Dinge implementieren werde. Deswegen müssen wir

00:14.970 --> 00:21.390
aus dem Spiel herauskommen, und in der Mitte ist dies ein ziemlich komplexes Thema. Daher haben wir einen sehr interessanten Ansatz, um

00:21.690 --> 00:24.880
uns auf den neuesten Stand zu bringen die Intuition dahinter.

00:24.890 --> 00:29.760
Ich habe also eine andere Herangehensweise im Auge, als wir es gewohnt sind, den einfachen Blick darauf zu beruhigen und zu sehen,

00:29.760 --> 00:30.560
wie das geht.

00:30.780 --> 00:34.190
Ich möchte Ihnen ein Beispiel geben, mit dem ich beginnen kann.

00:34.260 --> 00:39.990
Ich werde Ihnen in diesem Tutorial ein Beispiel geben, das die Berechtigung der Berechtigung demonstriert.

00:40.020 --> 00:42.470
Und gib uns die Intuition hinter den Dingen.

00:42.540 --> 00:47.880
Und wenn Sie sich näher mit den Qualifikationsmerkmalen beschäftigen möchten, gebe ich Ihnen den besten Ort, an dem

00:47.880 --> 00:49.210
Sie darüber lesen können.

00:49.290 --> 00:52.560
Ich werde dir aber einen Hinweis auf ein Buch geben.

00:52.560 --> 00:57.120
Während dies anders sein wird, weil wir uns zuerst damit beschäftigen, anstatt uns mit der Intuition zu beschäftigen,

00:57.420 --> 01:01.580
werden wir uns ein Beispiel anschauen und die Intuition wird offensichtlich, nachdem wir darüber gesprochen haben.

01:01.580 --> 01:03.010
Und das ist meine Hoffnung so.

01:03.130 --> 01:03.860
Schauen wir uns das mal an.

01:03.860 --> 01:06.000
Mal sehen, ob wir das schaffen können.

01:06.000 --> 01:12.780
Hier haben wir zwei Agenten und sie navigieren in derselben Umgebung, und wir werden sehen, wie diese beiden

01:12.780 --> 01:13.740
Agenten arbeiten.

01:13.740 --> 01:16.260
Zuerst wird mit unserer Berechtigungsspur gearbeitet.

01:16.260 --> 01:22.230
Der zweite wird mit unleserlicher Spurensuche arbeiten und hoffentlich werden wir sehen, warum der zweite so viel

01:22.230 --> 01:24.450
mächtiger sein wird als der erste.

01:24.630 --> 01:26.240
Schauen wir uns das mal an.

01:26.250 --> 01:28.040
Wir werden uns zuerst diesen Agenten ansehen.

01:28.320 --> 01:34.170
Und die Art und Weise, wie er arbeitet, ist die genaue Art und Weise, wie wir bisher tief kreisförmige Dinge besprochen haben.

01:34.530 --> 01:40.230
Der Agent macht also einen Schritt oder bewegt sich, bewegt sich in einen neuen Zustand.

01:40.260 --> 01:45.480
Es ist gut, eine bestimmte Belohnung zu erhalten, wenn das neuronale Netzwerk, in dem dieser

01:45.480 --> 01:50.610
Agent ausgeführt wird oder durch den Agent läuft, durch seinen Algorithmus aktualisiert wird.

01:50.610 --> 01:54.870
Das heißt also, dass das Lernen aus diesem Moment einen neuen Schritt bedeutet.

01:54.870 --> 01:59.550
Von diesem neuen Staat aus wird also eine neue Aktion ergriffen, basierend auf dem, was sein neuronales Netzwerk sagt, dass es

01:59.550 --> 02:03.930
Belohnungen erhalten wird, die auf den neuesten Stand gebracht werden, und so weiter, und wird dies auch weiterhin tun.

02:03.930 --> 02:09.370
Offensichtlich wird dies einen guten Job machen. Wie wir bereits vom vorherigen Squire bis zu den

02:09.400 --> 02:15.450
DROs gesehen haben, werden wir hier einige gute Ergebnisse erzielen, aber jetzt werden wir eine neue Funktion hinzufügen.

02:15.480 --> 02:21.380
Dieser Agent Nummer zwei, dieser Typ hier, wird sich in derselben Umgebung bewegen.

02:21.570 --> 02:23.770
Was wird er für die Lesbarkeit von Bäumen verwenden?

02:23.940 --> 02:25.170
Und das bedeutet es.

02:25.170 --> 02:30.280
Was er tun wird, ist, dass er alle Schritte unternimmt, die er in diesem Fall

02:30.300 --> 02:38.730
unternehmen wird, wenn fünf Zangen vier Schritte machen, und erst nach diesen Schritten wird er die Gesamtbelohnung berechnen, die er aus diesen Schritten erhalten hat,

02:38.730 --> 02:42.730
und er wird es tun steckte es durch sein Netzwerk.

02:42.730 --> 02:48.420
Er wird es durch sein neuronales Netzwerk leiten, das den Entscheidungsprozess steuert, und dann wird

02:48.420 --> 02:50.690
das neuronale Netzwerk daraus lernen.

02:50.700 --> 02:51.600
Also welches.

02:51.630 --> 02:54.050
Sofort wie: Welches denkst du ist mächtiger?

02:54.150 --> 02:59.070
Der Typ, der es nur einen Schritt nach dem anderen macht und irgendwie wie im Blind oder im Dunkeln stößt und er ist wie

02:59.070 --> 03:01.550
OK, also werde ich einen Schritt machen, um zu sehen, was passiert.

03:01.620 --> 03:02.830
Machen Sie einen Schritt, um zu sehen, was passiert.

03:02.850 --> 03:03.480
Maßnahmen ergreifen.

03:03.480 --> 03:04.020
Was geschieht.

03:04.020 --> 03:10.680
Der Typ an der Spitze oder der Mann, der nur sehr mutig Marsha durch vier Schritte in einer Reihe führt,

03:11.130 --> 03:17.610
und dann entscheidet er, ob dies gute Schritte waren oder nicht und warum Sie hier sehen können oder warum Sie

03:17.610 --> 03:22.470
wahrscheinlich ein Gefühl dafür bekommen, warum der zweite ist besser oder ist stärker, weil der

03:22.470 --> 03:25.160
zweite tatsächlich weiß, was am ende ist.

03:25.170 --> 03:30.030
Der erste Typ, wenn er beurteilt, ob dieser Schritt gut ist oder nicht, er betrachtet nur die Belohnung,

03:30.030 --> 03:31.170
die er bekommt.

03:31.280 --> 03:34.430
Deshalb leitet er sich nur von der Belohnung, die ihm die Umgebung bietet.

03:34.440 --> 03:39.570
Dasselbe gilt hier nur von der Belohnung, die diese Umgebung ihm hier gibt.

03:39.620 --> 03:46.490
So ist jedes Mal seine einzige Art von Kompass, dass er die Belohnung hat, die Belohnung die Belohnung.

03:46.560 --> 03:51.800
Während er hier tatsächlich beurteilen kann, nachdem er die Schritte unternommen hat, die er beurteilen kann.

03:51.820 --> 03:53.960
OK, also bin ich zur Ziellinie gekommen.

03:54.000 --> 03:56.640
Diese Kombination von Schritten war also gut.

03:56.700 --> 03:57.680
Alle waren gut.

03:57.840 --> 04:01.410
Oder oh nein, ich bin in der Feuerstelle oder in Ohno I gelandet.

04:01.500 --> 04:08.100
Ich tat es und als der mein Auto nicht bis zur Ziellinie kam oder ich die Sandwand überquerte oder das Schicksalsspiel oder

04:08.100 --> 04:09.340
etwas verloren hatte.

04:09.450 --> 04:13.330
Und dann entscheidet er, dass diese ganze Kombination von Schritten schlecht ist.

04:13.650 --> 04:18.180
Und deshalb hat er für diese früheren Schritte mehr Informationen.

04:18.180 --> 04:23.490
Er hat mehr Einsichten als in sehr intuitive Ansätze.

04:23.490 --> 04:26.000
Auch dies ist ein viel komplexeres Thema, als wir hier darstellen.

04:26.010 --> 04:32.370
Aber auf eine intuitive Art, wenn Sie beispielsweise diesen Schritt ausführen, enthält dieser Schritt nur Informationen, um sie zu erhalten. Hier haben

04:32.370 --> 04:34.990
Sie nur Informationen, die von dieser Belohnung zurückkommen.

04:35.070 --> 04:38.580
Und für diesen Schritt in diesem Fall derselbe genaue Schritt.

04:38.640 --> 04:41.670
Es gibt mehr Informationen, von denen Informationen den ganzen Weg kommen.

04:41.820 --> 04:45.500
OK, was war das Ergebnis nach vier oder fünf Schritten oder was auch immer.

04:45.520 --> 04:51.930
Ja, das ist also so, wie es funktioniert und warum es die Berechtigungsverfolgung genannt wird, weil er

04:51.960 --> 04:58.170
während dieses Prozesses nicht nur die Belohnung des Computers davon und dessen kumulativen Verlust betrachtet und

04:58.200 --> 05:00.460
dann alles, was angemessen ist.

05:00.620 --> 05:05.210
Tatsächlich gibt es jedoch eine Spur von Berechtigung als sogenanntes Disability Trust.

05:05.210 --> 05:15.440
Es gibt eine Spur, die in einem Algorithmus enthalten ist, der OK sagt. Wenn wir also sagen, dass wir eine Bestrafung erhalten, erhalten

05:15.470 --> 05:23.060
wir eine negative Belohnung. Welcher dieser Schritte wird am ehesten für diese Strafe in Frage kommen.

05:23.090 --> 05:29.690
Wir wissen also nicht nur, was dieses Muster insgesamt oder die Schulkombination der Schritte insgesamt ist,

05:29.690 --> 05:36.350
sondern wir behalten auch eine Spur der Berechtigung bei, welche Schritte wir aktualisieren werden, wenn wir alle bekommen.

05:36.350 --> 05:40.970
Wenn zum Beispiel als negative Belohnung eine Eignungsaufzeichnung vorliegt, die uns anzeigt, dass

05:41.030 --> 05:47.360
dies ein Schritt ist, der am meisten für das verantwortlich ist, was wir am Ende erhalten haben, oder wenn

05:47.390 --> 05:54.800
es wieder eine positive Belohnung ist, wissen wir möglicherweise, dass der Algorithmus uns hilft, den Überblick zu behalten Dieser Berechtigungsalgorithmus hilft uns

05:54.830 --> 06:03.170
auch dabei, den Überblick darüber zu behalten, welcher Schritt oder welche Aktion erforderlich ist, um auf der Grundlage der von uns erzielten Belohnung aktualisiert zu

06:03.170 --> 06:03.820
werden.

06:03.860 --> 06:05.820
Deshalb wird es auch als Berechtigungsnachweis bezeichnet.

06:06.160 --> 06:11.810
Dies ist also die grundlegende Intuition hinter der Berechtigung, und hoffentlich machen es diese

06:11.810 --> 06:18.260
beiden Beispiele für diese Agenten ganz offensichtlich oder recht intuitiv, während diese Fähigkeiten so mächtig sein können.

06:18.440 --> 06:25.760
Und wenn Sie wie versprochen sind, wenn Sie sich näher mit den aktuellen Eignungsspuren oder dem schrittweisen Lernen beschäftigen möchten,

06:26.330 --> 06:31.220
wird ein wunderbares, erstaunliches Buch, das Sie finden können, als Verstärkungslernen bezeichnet.

06:31.220 --> 06:36.590
Eine Einführung stammt von Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Ich denke, sie sind dabei, eine zweite Edition oder das sehr kritische Thema zu erstellen.

06:40.790 --> 06:49.210
Aber dies ist das häufigste oder am meisten verbreitete oder am meisten referenzierte Buch zum Durchsetzungslernen.

06:49.260 --> 06:53.050
Es hat eine lächerliche Anzahl von Zitaten.

06:53.300 --> 06:56.630
Ich denke wie Zehntausende, wenn ich mich nicht irre.

06:56.810 --> 07:01.120
Und das Kapitel, das Sie dafür brauchen, ist Kapitel 7.

07:01.130 --> 07:06.900
Um sich die Auswahlmöglichkeiten anzusehen, gibt es ein ganzes Kapitel zu Kapitel 7.

07:06.920 --> 07:10.100
Sie können darüber lesen und es geht ins Detail.

07:10.220 --> 07:17.660
Vorwärts rückwärts Zugelassene Spuren und auch, wie integrale zeitliche Unterschiede auf der einen Seite und das andere Ende

07:17.660 --> 07:23.320
des Spektrums Sie Monte-Carlo-Methoden haben, dazwischen haben Sie Berechtigungsspuren angeblich Spuren oder Sie

07:23.330 --> 07:27.280
verbinden, um von zeitlichen Unterschieden zu Monte-Carlo-Methoden zu gelangen.

07:27.290 --> 07:34.190
Sehr interessant lesen Sie viele Bilder, die ich sehr intuitiv begrüßen konnte.

07:34.250 --> 07:40.550
Es gibt also viele Dinge, die Sie aus diesem Buch über künstliche Intelligenz und

07:40.550 --> 07:48.230
Verstärkungslernen lernen können, aber die Berechtigungsspuren sind wie ein sehr guter Ort, an den Sie sich wenden

07:48.230 --> 07:49.190
können.

07:49.350 --> 07:57.070
Die zweite Referenz für heute ist etwas, das Ihnen in den praktischen Versuchen das Tiefenlernen

07:57.440 --> 08:04.460
oder das Google Deep Mind-Research-Papier über synchrone Methoden für ein vertieftes Verstärkungslernen zeigen

08:04.550 --> 08:05.120
wird.

08:05.270 --> 08:11.270
Ja, das ist das Blatt, das das A-3-Blatt ist, über das wir weiter unten in der Partitur

08:11.270 --> 08:12.240
sprechen werden.

08:12.240 --> 08:14.410
Wir kommen näher und näher daran.

08:14.510 --> 08:21.200
Und wie Sie wissen, sind wir ziemlich aufgeregt darüber, also werden wir uns

08:21.500 --> 08:28.400
ein wenig mit der Frage befassen, wie sie die Berechtigungsspuren in diesem Artikel implementiert

08:28.400 --> 08:29.420
haben.

08:29.420 --> 08:33.650
Hoffentlich hat Ihnen das heutige Tutorial gefallen und Sie wissen, dass Sie sich mit den Qualifikationsspuren ein wenig wohler fühlen und ich kann

08:34.010 --> 08:35.920
es kaum erwarten, Sie das nächste Mal zu sehen.

08:35.930 --> 08:37.680
Bis dahin genießen Sie einen.