WEBVTT

00:00.600 --> 00:02.360
Hallo und herzlich willkommen zur Geschichte.

00:02.520 --> 00:07.920
Jetzt machen wir die for-Schleife, um den Politikverlust und den Wertverlust zu berechnen, und sobald wir diese

00:07.920 --> 00:13.260
zwei Lektionen haben, können wir unseren Optimierer verwenden, um Zigarette in den Sand zu bekommen, um

00:13.260 --> 00:14.820
die Verluste zu reduzieren.

00:14.820 --> 00:15.990
In Ordnung, also gehen wir.

00:15.990 --> 00:22.740
Wir fangen hier übrigens im vorherigen Tutorial an, dass wir diesen Abschnitt implementiert haben, und ich habe vergessen,

00:22.740 --> 00:24.280
die Einrückungen zu entfernen.

00:24.420 --> 00:28.210
Also von hier aus geht es nicht im Herbst.

00:28.530 --> 00:32.650
Und jetzt beginnen wir eine neue vollständige Schleife, also fange ich hier mit vier an.

00:32.840 --> 00:38.340
Jetzt werden wir mit dem letzten Schritt der Erkundung beginnen und in

00:38.670 --> 00:40.420
der Zeit zurückgehen.

00:40.470 --> 00:51.250
Das ist der Grund, warum ich für die Landbelohnungen mit umgekehrter Reichweite die größten Belohnungen am wenigsten mache.

00:51.260 --> 00:57.000
Und da jeder Schritt der Erkundung damit zusammenhängt, wo wir arbeiten, weil wir bei jedem Schritt eine Belohnung erhalten, wenn

00:57.230 --> 00:58.400
wir dann Worte sagen.

00:58.400 --> 01:05.090
Ist diese Anzahl von Schritten und diese Umkehrung wird hier verwendet, damit wir uns in der Zeit zurückbewegen können, damit wir gehen.

01:05.160 --> 01:10.890
Jetzt aktualisieren wir die kumulative Belohnung, die weit ist, und wir werden sie auf diese Weise

01:10.890 --> 01:11.570
aktualisieren.

01:11.640 --> 01:14.110
Das ist eigentlich dasselbe, was wir für Doom gemacht haben.

01:14.170 --> 01:23.280
Es ist gleich dem Gamma, das wir aus unseren Parametern erhalten und aus ersten Programmen, die nicht weit entfernt sind, und der

01:24.060 --> 01:31.290
Belohnung davon, die wir erhalten können, wenn wir die geringste Belohnung nehmen und den Index nehmen.

01:31.500 --> 01:36.680
Für uns wird dies also die Arbeit des Letzten sein und dann die Belohnung des Vortages usw.

01:37.080 --> 01:43.320
und jedes Mal aktualisieren wir unsere durch Multiplikation mit gamma und fügen diese Belohnung dann am Set hinzu.

01:43.650 --> 01:47.090
Wenn wir dies tun, werden wir am Ende kommen.

01:47.210 --> 01:53.070
Also werde ich es schreiben, sobald sie kommen, und wir werden unsere Community-Belohnung erhalten, die am Ende

01:53.070 --> 01:55.910
der Schleife zu unserer Null kühlen wird.

01:56.060 --> 02:02.100
Die Belohnung von Schritt Null plus Gammazeiten ist eins.

02:02.290 --> 02:09.040
Wir waren die ersten, die plus Gamma-Quadratzeiten zu Wort kommen.

02:09.060 --> 02:21.960
Der zweite Schritt plus das plus Gamma bei der Potenz von und minus einmal die in Schritt und Minus 1 erreichte Belohnung,

02:22.800 --> 02:30.690
wobei eine beliebige Anzahl von Schritten vorhanden ist. Am Ende sollten Sie jedoch vorsichtig

02:31.050 --> 02:32.250
sein.

02:33.530 --> 02:40.110
Male den Wert der Funktion ab, die auf den letzten Status angewendet wurde.

02:40.150 --> 02:42.450
Darauf sollten wir uns noch einlassen.

02:42.680 --> 02:49.130
Und das werden wir bekommen, weil wir wissen, hier haben wir diesen Wert und den letzten Schritt, weil dies am Ende

02:49.130 --> 02:50.840
dieser for-Schleife hier gemacht wurde.

02:51.200 --> 02:56.140
Und so haben wir den Wert bekommen und setzen diesen Wert gleich.

02:56.420 --> 03:02.710
Also gerade jetzt am Anfang der zweiten vollen Schleife ist hier dieser Wert des letzten Datums

03:02.710 --> 03:03.310
gleich.

03:03.590 --> 03:10.300
Aber dann, wenn wir dies tun, bekommen wir am Ende gleich oder null Prozent oder ein oder zwei

03:10.520 --> 03:16.620
Tennisplätze und können die Leistung und das Minus addieren, die wir bei Schritt und minus eins plus

03:16.620 --> 03:20.990
Spiel bei der Potenz hatten Schritt mal diesen Wert der Lastings.

03:21.020 --> 03:25.900
Das ist also die Hauptsache zu verstehen, und dies kann die Wirkung der kumulierten Belohnung sein.

03:26.090 --> 03:33.560
Aus diesem Grund ist es wichtig, mit der Initialisierung oder mit dem Here und dem Ausführen dieser umgekehrten Schleife

03:33.820 --> 03:37.390
zu beginnen, um diese endgültige Gleichung zu perfektionieren.

03:37.400 --> 03:43.430
Und jetzt haben wir den richtigen Wert für die kumulierte Belohnung. Nun, wir werden den Vorteil berechnen und

03:43.850 --> 03:49.110
der Vorteil hier ist nur der Vorteil, diese Belohnung im Vergleich zu ihnen zu erhalten.

03:49.160 --> 03:56.600
Ich werde also einen evolvierbaren Vorteil einführen und daher dieser kumulativen Belohnung minus dem Wert der

03:57.020 --> 04:01.390
V-Funktion entsprechen, die auf der Stufe erhalten wurde.

04:01.610 --> 04:06.690
Das sind also unsere Minuswerte.

04:07.130 --> 04:07.740
Perfekt.

04:07.760 --> 04:13.160
Und jetzt haben wir die Gemeinschaft, in der wir arbeiten, und den Vorteil, dann können wir den Wertverlust erzielen.

04:13.190 --> 04:15.170
Dies ist der erste, den wir jetzt bekommen können.

04:15.200 --> 04:20.940
Also werden wir unseren Wert sehr gut machen und dies wird auf folgende Weise aktualisiert.

04:20.960 --> 04:24.530
Denken Sie daran, dass uns die Abwertung auf null zurückgesetzt wurde.

04:24.800 --> 04:34.670
Und so nehmen wir den Wertverlust wieder auf und bei 0. 5 x das Quadrat zum Vorteil, damit wir es so bekommen

04:34.670 --> 04:35.480
können.

04:35.490 --> 04:39.410
Vorteil auch gedacht.

04:39.470 --> 04:46.460
Das bedeutet also, den Vorteil der Leistung gegenüber auszugleichen und das ist genau der Wert plus

04:46.580 --> 04:52.830
den Verlust, der durch die Vorhersagen des Wertes der Funktionsausgaben des Baches erzeugt wird.

04:53.120 --> 04:59.840
Und so macht es Sinn, dass dies abgewertet wird, nur weil sich der Vorteil der Aktion im Zustand

04:59.840 --> 05:04.820
s in der Differenz zwischen dem Q-Wert und dem Wert der B-Funktion befindet.

05:04.880 --> 05:14.660
Wenn wir also die optimale Aktion spielen Nun, wir bekommen den stationären Zustand mit Q optimal von der optimalen

05:14.660 --> 05:20.080
Aktion, in der ein Starspieler den optimalen Wert hat.

05:20.080 --> 05:22.000
Vistar des Staates s.

05:22.180 --> 05:28.390
Es ist also ganz intuitiv zu verstehen, dass es einen Unterschied zwischen diesen beiden gibt, wenn der Vorteil

05:28.390 --> 05:29.990
nicht gleich Null ist.

05:30.220 --> 05:32.930
Und so wird das Letzte gemessen.

05:33.370 --> 05:34.120
OK.

05:34.120 --> 05:37.410
Also ganz zuletzt ein letztes down down berechnet.

05:37.420 --> 05:39.000
Wir haben jetzt noch einen Schritt vor uns.

05:39.010 --> 05:44.560
Es ist der Politikverlust, und das ist es, was wir jetzt berechnen werden, und

05:44.560 --> 05:51.990
um das zu berechnen, müssen wir die allgemeine Vorteilsschätzung noch einmal in Betracht ziehen, denn um den Politikverlust zu berechnen,

05:52.000 --> 05:58.450
müssen wir eine allgemeine Vorteilsschätzung machen und die allgemeinen Vorteile der Nation erzielen Wir brauchen zuerst die zeitliche

05:58.540 --> 05:59.760
Differenz der Stufenventile.

05:59.830 --> 06:06.220
Wir haben also mehrere Dinge zu berechnen, und wir werden mit dieser zeitlichen Differenz beginnen, sobald wir die

06:06.220 --> 06:07.710
zeitliche Differenz erhalten.

06:07.780 --> 06:12.850
Wir werden die allgemeine Vorteilsschätzung erhalten und sobald wir die allgemeinen Vorteile erhalten haben, werden

06:13.180 --> 06:14.900
wir die Halbinseln erhalten.

06:14.920 --> 06:15.460
Gut.

06:15.670 --> 06:28.100
Beginnen wir also mit der zeitlichen Differenz T. G. DD ist gleich der Belohnung von Schritt

06:28.700 --> 06:39.200
I plus Ghana, die wir in unsere Programmliste aufnehmen. Bromstad gamma multipliziert den Wert dieser Schuld plus eins,

06:39.200 --> 06:50.260
und wir fügen diese Daten hinzu, um darauf zuzugreifen, abzüglich des Wertes von Schritt I und der Addition die Daten.

06:50.280 --> 06:50.610
Gut.

06:50.670 --> 06:53.900
Das ist die Formel der zeitlichen Differenz und der Zustandswerte.

06:54.180 --> 06:59.690
Und jetzt können wir die allgemeine Vorteilsschätzung aktualisieren und wie ist sie datiert.

06:59.880 --> 07:10.230
Nun, wir nehmen R-GA und multiplizieren es mit Gamma-Parametern, so dass wir auch auf unsere Parameter zugreifen

07:10.230 --> 07:10.940
können.

07:10.950 --> 07:18.410
Also nehmen wir Programme Zelle und addieren diese zeitliche Differenz der Zustandswerte.

07:18.510 --> 07:19.890
Also sei vorsichtig.

07:19.890 --> 07:21.280
Wir sind auf dem Laufenden.

07:21.450 --> 07:27.060
Und jedes Mal multiplizieren wir das Nach und nach und fügen einen zeitlichen Unterschied hinzu.

07:27.150 --> 07:33.720
Daher ist es wichtig zu verstehen, dass am Ende dieser Schleife die allgemeine

07:34.170 --> 07:46.180
Vorteilsschätzung gleich der Summe aller Schritte der Gamma-Zeiten ist, so dass die Potenz von i-mal der zeitlichen Differenz im Schritt durch so wichtig

07:46.480 --> 07:50.360
ist, um dies zu halten im Verstand

07:50.700 --> 07:57.000
Und jetzt, da wir die allgemeine Vorteilsschätzung und den allgemeinen Unterschied haben, können wir

07:57.000 --> 07:58.880
die Richtlinie schließlich berechnen.

07:59.070 --> 08:00.210
Also lass uns das tun.

08:00.210 --> 08:10.020
Wir werden unsere Richtliniengesetze folgendermaßen aktualisieren, indem wir die alte Richtlinie für uns übernehmen, und wir ziehen die LUGG-Wahrscheinlichkeiten

08:10.230 --> 08:20.280
ab, die in dem Schritt erhalten werden, den wir mit dieser verallgemeinerten Vorteilsschätzung multiplizieren, die wir in eine Variable eingeben

08:20.280 --> 08:23.920
müssen, da wir dann berechnen die Farbverläufe

08:24.150 --> 08:33.170
Es muss also an Gradienten in der Grafik angehängt werden und wir fügen dann minus 0 hinzu. 1 mal die Entropie.

08:33.170 --> 08:36.660
Die Entropie, die bei der Stufe im Fall erhalten wird.

08:37.200 --> 08:38.130
Und wieder.

08:38.220 --> 08:39.540
Nun sei vorsichtig.

08:39.540 --> 08:50.830
Dies ist das Innere der Schleife, was bedeutet, dass Sie am Ende der Grippe eine Richtlinie

08:51.280 --> 09:03.110
plus einige Minuspunkte über die Schritte des Produktaufkommens der Richtlinie zu den Schrittzeiten zu einer allgemeinen Vorteilsschätzung

09:03.110 --> 09:04.090
erhalten.

09:04.160 --> 09:10.710
Plus diese 0. 01 mal macht die Entropie das so dass wir bekommen.

09:10.720 --> 09:13.240
Und was ist nun die Politik des Ich

09:13.280 --> 09:19.100
Nun, das sind die weichen Max-Wahrscheinlichkeiten der Aktionen und die Entropie davon, dass ich Sie wissen werde, was es

09:19.100 --> 09:21.320
ist, wo wir früher berechnet haben.

09:21.430 --> 09:22.870
Und was wollten wir auflisten.

09:22.940 --> 09:24.130
Das haben wir also schon.

09:24.290 --> 09:29.950
Aber dieses Jahr höre ich die weiche Max-Wahrscheinlichkeit der Aktionen.

09:30.170 --> 09:32.080
Und warum setzen wir hier ein Minus.

09:32.150 --> 09:37.220
Das liegt daran, dass das Glück der Wahrscheinlichkeit und der Entropie negative Werte sind.

09:37.220 --> 09:43.340
Und da wir ihren absoluten Wert minimieren wollen, müssen wir dies als LUGG-Wahrscheinlichkeit und nicht als

09:43.340 --> 09:44.370
Distanz betrachten.

09:44.370 --> 09:51.530
Nein, wir möchten die Wahrscheinlichkeit der Aktion maximieren, die den Vorteil maximiert.

09:51.530 --> 09:53.130
Das ist die ganze Idee dahinter.

09:53.210 --> 09:59.060
Wir möchten die Wahrscheinlichkeit maximieren, die Aktion zu spielen, die den Vorteil maximiert, und für diejenigen

09:59.060 --> 10:03.500
von Ihnen, die sich fragen, was der Zweck dieser Entropieeffizienz ist.

10:03.650 --> 10:05.720
Es gibt diesen Faktor 0. 01 hier.

10:05.930 --> 10:13.430
Nun, es ist nur der Zweck, zu verhindern, dass es zu schnell in eine Falle fällt, in der wir eine

10:13.430 --> 10:19.340
Wahrscheinlichkeitsverteilung mit Nullen für alle Aktionen haben, außer einer, die eine Wahrscheinlichkeit von Eins hat.

10:19.550 --> 10:22.370
Und wenn das passiert, würde dies die Entropie verringern.

10:22.550 --> 10:29.060
Deshalb fügen wir diese kleine Version 0 hinzu. 01 Jahr, das die Entropie im Großen in

10:29.060 --> 10:30.940
dem Sinne erhöhen wird.

10:31.020 --> 10:35.460
OK, jetzt ist die gute Nachricht, dass der schwierigste Teil getan wird.

10:35.500 --> 10:41.050
Wir haben die beiden Verluste, und deshalb müssen wir jetzt nur noch etwas tun, und wir wissen bereits, wie man das macht, wenn

10:41.050 --> 10:44.820
wir nur eine Note in dem Sinne erhalten, um diese beiden Klassen zu reduzieren.

10:45.190 --> 10:51.170
Also, was wir jetzt tun werden, ist diese Schleife zu verlassen und wir werden unseren Optimierer nehmen.

10:51.390 --> 10:57.220
Das, was wir separat gemacht haben, erinnert uns daran, dass wir als Erstes

10:57.220 --> 11:04.810
alle Grading-Parameter auf Null initialisieren müssen. Dazu addieren wir das dann zu Null und nennen uns Grad-Methode.

11:04.810 --> 11:06.980
Also gut, das ist dann erledigt.

11:07.000 --> 11:11.890
Jetzt führen wir eine Rückwärtsausbreitung durch, aber wir werden der Richtlinie zuletzt doppelt so viel

11:11.890 --> 11:15.670
Bedeutung beimessen wie der Wertverlust, da die Richtlinie kleiner ist.

11:15.970 --> 11:28.190
Um dies zu tun, setzen wir die Richtlinien in Klammern und die Punktzahl plus plus 0. 5 Wertverlust also 0. 5-mal mehr Wert für uns, und wir werden

11:28.970 --> 11:37.400
hier hinzufügen, dass wir die Rückwärtsmethode anwenden, um eine Rückwärtsausbreitung durchzuführen, und dank dieses Tricks hier, mit

11:37.400 --> 11:43.880
weniger als der Hälfte des Wertes, den wir doppelt so wichtig für

11:43.880 --> 11:47.460
die Richtlinie haben als die Vaness.

11:47.480 --> 11:53.630
OK, dann werden wir einen anderen Trick anwenden, nämlich zu verhindern, dass der Gradient extrem große

11:53.630 --> 11:56.890
Werte annimmt und somit den Algorithmus generiert.

11:57.020 --> 12:03.530
Und der Trick dazu ist, zuerst unsere Fackel-Bibliothek, dann das Ende und das Modul

12:04.220 --> 12:13.040
aus der Fackel-Bibliothek, dann das Utils-Submodul zu erhalten, und jetzt werden wir eine Funktion verwenden, die CLEP unterstreicht, Grads auf

12:13.530 --> 12:20.830
der Score-Norm, und wir werden unsere eingeben Modellparameter mit einer zweiten Eingabe, die 40 sein wird.

12:21.200 --> 12:26.560
Dieser Trick stellt im Grunde sicher, dass die Gradienten keine extrem großen Werte annehmen und

12:26.560 --> 12:28.000
den Algorithmus generieren.

12:28.220 --> 12:30.770
Und für diejenigen von euch, die sich fragen könnten, ob diese 40 Jahre.

12:30.800 --> 12:31.640
Genau.

12:31.850 --> 12:37.130
Nun, das bedeutet nur, dass wir diese Werte verwenden, also liegt der Normalwert des

12:37.130 --> 12:42.510
Gradienten zwischen 0 und 40 und daher verhindern wir, dass der Gradient zu große Werte annimmt.

12:43.000 --> 12:45.170
OK, jetzt sind wir fast fertig.

12:45.170 --> 12:52.550
Denken Sie daran, dass wir diese gemeinsame Gretz-Funktion zu Beginn des Absturzes erstellt haben, um sicherzustellen, dass der Agent

12:52.670 --> 12:59.450
und das gemeinsam genutzte Modell die gleichen Farbverläufe aufweisen, und um dies sicherzustellen, damit wir diese Funktion

12:59.450 --> 13:01.090
hier anwenden können.

13:01.220 --> 13:13.310
Und so werden wir die Absolventen hinzufügen und mit Sicherheit teilen, um sicherzustellen, dass das Moral und das gemeinsame Modell die gleichen

13:13.310 --> 13:14.690
Verläufe haben.

13:14.690 --> 13:16.670
Also gut, das ist nur eine Vorsichtsmaßnahme.

13:16.670 --> 13:21.620
Ich bin mir nicht sicher, ob das absolut notwendig ist, aber Sie wissen zumindest, dass wir hier kein Problem bekommen.

13:22.040 --> 13:22.550
Okay.

13:22.550 --> 13:29.900
Und als letztes letzte Codezeile werden wir natürlich den Optimierungsschritt durchführen, um die Verluste zu

13:29.900 --> 13:38.900
reduzieren. Sie wissen, wie es geht. Natürlich nehmen wir unseren Optimierer und fügen diesen Schritt mit Klammern hinzu und

13:39.320 --> 13:43.300
dann gehen wir zum Training unseres Gehirns Über.

13:43.550 --> 13:44.780
Also herzlichen Glückwunsch.

13:44.780 --> 13:47.030
Ich hoffe, das war nicht zu überwältigend.

13:47.060 --> 13:49.620
Keine Sorge, ich werde den Code mit allen Kommentaren versehen.

13:49.670 --> 13:53.330
Wenn Sie also ein Detail verpasst haben, können Sie sich die Kommentare ansehen.

13:53.420 --> 13:57.260
Und mach dir keine Sorgen, wenn du nichts verstanden hast, das ist sehr fortgeschritten.

13:57.410 --> 14:04.020
Aber seien Sie versichert, dies ist auch der mächtigste Erinnerungsbesuch des Erstellers von Pi.

14:04.100 --> 14:06.770
Also arbeiten wir hier wirklich mit den Besten.

14:06.850 --> 14:12.560
Nach dem Stand der Technik ist es also völlig normal, wenn Sie beim ersten Mal nicht alles bekommen haben, aber wenn

14:12.560 --> 14:16.520
Sie oft daran arbeiten, werden Sie auf jeden Fall mehr und mehr Komfort haben.

14:16.520 --> 14:19.150
Jetzt sind wir mit dem Training fertig.

14:19.220 --> 14:26.080
Grundsätzlich haben wir also die wichtigsten Dinge gemacht, von denen Sie wissen, dass wir das Gehirn gemacht haben, indem wir die Architekturen

14:26.120 --> 14:30.610
der neuronalen Netzwerke mit den Konvolutionen LCN und den vollständig verbundenen Schichten aufbauen.

14:30.620 --> 14:34.360
Wir haben sein Gehirn trainiert, indem wir diesen Zugcode hier erstellt haben.

14:34.520 --> 14:37.190
Im Grunde ist das Herzstück des Algorithmus getan.

14:37.310 --> 14:39.800
Sie haben den A3 Glückwunsch gezeigt.

14:39.800 --> 14:43.940
Jetzt haben wir noch ein paar Dinge zu tun, aber das ist nur der Spaß Teil.

14:43.940 --> 14:52.540
Sie wissen, wir müssen diesen Test machen, den wir gefunden haben, um die Agenten zu testen und die Videos und

14:52.550 --> 14:54.020
den Flugzeugausbruch bereitzustellen.

14:54.170 --> 15:00.860
Es wird also sehr lustig zu sehen sein, wir werden nicht alle Zeilen dieses Tests, die ich gefallen bin, kodieren, weil wir,

15:00.860 --> 15:02.720
wie gesagt, das Wichtigste getan haben.

15:02.840 --> 15:10.310
Alle verwandten 23C, aber ich werde natürlich den Code erklären, und irgendwann haben wir das gefunden, was ich gefunden habe, das

15:10.310 --> 15:11.770
den Code ausführen wird.

15:11.890 --> 15:15.900
Und ab dem Moment, in dem wir diesen Code ausführen, wird der gesamte Code generiert.

15:16.040 --> 15:18.150
So werden die Gehirne gemacht.

15:18.200 --> 15:24.080
Das Training wird stattfinden und das Auge wird neue Breakout-Spiele spielen, und wir werden alle Videos erhalten.

15:24.080 --> 15:26.480
Ich kann es kaum erwarten, sie irgendwann zu sehen.

15:26.550 --> 15:29.810
Wir werden sehen, ob er schlau genug ist, den Ball zu fangen.

15:29.990 --> 15:36.380
Jetzt werde ich das nächste Tutorial für diese Desktop-Benutzeroberfläche sehen, damit wir die KI bei einigen neuen Spielen

15:36.380 --> 15:37.250
testen können.

15:37.300 --> 15:38.980
Und bis dahin genießen Sie AI.