WEBVTT

00:00.760 --> 00:02.520
Hallo und herzlich willkommen im Statoil.

00:02.830 --> 00:10.050
Nun hat der Agent seine Erkundungen durchgeführt und wenn er dabei ist, das gemeinsam genutzte Netzwerk zu aktualisieren.

00:10.240 --> 00:17.050
Das erste, was wir tun werden, ist, das kumulative, was wir es als unser Kapital R bezeichnen, zu

00:17.070 --> 00:25.180
initialisieren, und wir werden es als Fackel-Tensor initialisieren, aber das wird Dimensionen nacheinander haben, weil es nur ein Wert ist, den

00:25.180 --> 00:27.710
wir aber wollten ein Tensor sein

00:27.940 --> 00:33.460
Und so benutze ich hier aber Nullen und dann 1 1.

00:33.790 --> 00:37.230
Grundsätzlich wird die kumulative Belohnung auf 0 gesetzt.

00:37.610 --> 00:43.870
OK und dann sagen, wenn wir noch nicht fertig sind, ist das Spiel nicht zu Ende.

00:43.870 --> 00:50.200
Was wir jetzt wollen, ist die kumulative Belohnung, die dem Wert des letzten Handels entspricht, den das

00:50.200 --> 00:51.750
gemeinsame Netzwerk erreicht hat.

00:51.820 --> 00:54.400
Wir werden also die Werteausgabe erhalten.

00:54.460 --> 01:00.870
Sie kennen den Wert der Funktionsausgaben unseres Modells. Dies ist der Wert, den wir der Gemeinschaft geben, in der wir

01:00.870 --> 01:01.490
arbeiten.

01:01.780 --> 01:05.500
Lassen Sie uns zuerst diesen Wert erhalten, den wir auf diese Weise erhalten können.

01:05.560 --> 01:12.820
Wert Sie wissen, da wir nur den Wert wollen, den wir hier hinzufügen können, unterstreichen und dann erneut unterstreichen, und dann

01:13.240 --> 01:19.980
erhalten wir unser Modell, weil es diesen Wert ausgeben wird, aber nur die erste Ausgabe der moralischen Sache, die

01:19.980 --> 01:25.310
hier und hier gemacht wird, ist doppelt wir können einfach einfügen, was wir hier haben.

01:25.430 --> 01:33.050
Das ist die Eingabe des Modells mit den Eingabebildern und dem Zug der Bundesstaaten und der Südstaaten.

01:33.220 --> 01:35.820
Also füge ich das nur ein und los geht's.

01:35.860 --> 01:37.490
Wir werden den Wert bekommen.

01:37.810 --> 01:47.080
Also, was wir jetzt tun werden, ist unseren Wert zu geben, so dass alle gleichwertig sind und auf den Wert zugreifen können, den wir

01:47.080 --> 01:49.350
an dieser Stelle dort beginnen.

01:49.750 --> 01:50.430
Gut.

01:50.440 --> 01:57.610
Nun ist die if-Bedingung erledigt, und was wir jetzt tun werden, da wir gerade einen neuen Wert haben, indem Sie

01:57.670 --> 02:04.090
wissen, dass die Ausgabe des Modells die erste Ausgabe des Modells ist, die diesen neuen Wert bereits an

02:04.090 --> 02:05.330
die Werteliste anfügt.

02:05.500 --> 02:16.340
Deshalb können wir unsere Werteliste dann direkt in Richtung eines Zeltes bringen und wir setzen Variable weil unser.

02:16.530 --> 02:20.560
Dieser letzte Wert ist so groß, dass jetzt getan wird.

02:20.850 --> 02:25.180
Wir werden die Verluste initialisieren und uns an Intuitionsvorlesungen erinnern.

02:25.260 --> 02:26.320
Sie haben zwei Verluste.

02:26.340 --> 02:31.780
Sie haben die letzte der letzten Richtlinie, die sich auf die Vorhersagen des Agenten bezieht.

02:31.860 --> 02:36.070
Und dann haben Sie den letzten Wert, der weniger mit den Vorhersagen des Kritikers zusammenhängt.

02:36.180 --> 02:41.130
Wir werden also diese beiden Variablen auf null setzen, und diese Politik

02:41.250 --> 02:44.600
wird für uns ein schrecklicher Politikverlust sein.

02:44.690 --> 02:52.680
Initialisieren Sie den Wert auf Null, und der Wert hat einen großen Wert verloren. Sagen Sie, dass der Wert auf Null gesetzt wurde.

02:52.680 --> 02:58.680
Lassen Sie uns nicht vergessen, die kumulative Belohnung als Fackelvariable festzulegen, da wir es als Fackel Roybal

02:58.680 --> 03:03.990
benötigen werden, da wir einen Gradienten mit berechnen diesbezüglich, weil die kumulierte Belohnung eine Bezeichnung

03:03.990 --> 03:05.850
für den Wertverlust sein wird.

03:05.850 --> 03:10.050
Ist diese Möglichkeit nun mit einem Farbverlauf an die dynamischen Graphen angehängt.

03:10.530 --> 03:16.150
Und zum Schluss noch das letzte, was wir tun müssen, bevor wir die große Trendschleife beginnen, die Sie kennen, wenn wir uns

03:16.170 --> 03:20.580
für die Gaszersetzung in der Sonne entschieden haben, um diese zwischen den Vorhersagen und Zielen zu reduzieren.

03:20.850 --> 03:28.160
Nun, wir müssen die GAAP mit einer allgemeinen Vorteilsschätzung initialisieren und nicht erhalten oder unbeschichtet.

03:28.260 --> 03:34.530
Seien Sie vorsichtig mit diesem GAAP. Die Variable, die wir gerade initialisieren, ist die

03:34.590 --> 03:35.510
allgemeine Vorteilsschätzung.

03:35.520 --> 03:42.480
Zur Erinnerung ist eine generalisierte Vorteilsschätzung per definitionem der Vorteil, die Aktion a durch Beobachtung

03:42.540 --> 03:45.170
des Zustandes s zu spielen.

03:45.210 --> 03:51.330
Es ist also eine Funktion der Aktion und des Zustands s und ist gleich der Differenz zwischen den

03:51.450 --> 03:54.780
q-Werten Q A S und dem Wert der V-Funktion.

03:54.780 --> 03:57.120
Also kann ich es eigentlich hier schreiben.

03:57.540 --> 04:05.130
Die verallgemeinerte Vorteilsschätzung ist eine Funktion der Aktion und des Zustands s und ist gleich den q-Werten der

04:05.580 --> 04:12.570
Aktion A und des Zustands S minus dem Wert der V-Funktion, die auf den Zustand s angewendet

04:12.650 --> 04:13.440
wird.

04:13.530 --> 04:19.000
Das sind die allgemeinen Vorteile, die zu erwähnen sind und die wir jetzt initialisieren möchten.

04:19.200 --> 04:20.770
Und wir werden es auf Null initialisieren.

04:21.470 --> 04:27.320
Aber es muss sich um Tänzer handeln, die den gleichen Trick anwenden würden wie das, was wir

04:27.730 --> 04:35.330
gerade hier gemacht haben. Wir werden die Fackel-Bibliothek nehmen und auf die Funktion von Zebra anwenden, um sie als Tensor mit nur einem Wert

04:35.330 --> 04:36.730
festzulegen, der Null ist.

04:37.160 --> 04:45.730
Und wir werden diese neue Variable g verwenden, und diese wird gleich dem Brenner sein, der die Nullen eins eins

04:45.740 --> 04:46.540
initialisiert.

04:46.550 --> 04:52.730
Dies wird also auf Null initialisiert, und daher sind die q-Werte der Aktion s der Zustand s gleich

04:52.730 --> 04:55.600
dem Wert der V-Funktion des Zustands s.

04:55.780 --> 04:56.290
Gut.

04:56.320 --> 04:58.810
Nun können wir die for-Schleife starten.

04:58.850 --> 05:00.470
Also werden wir hier ein Abenteuer haben.

05:00.500 --> 05:04.700
Also machen Sie eine gute Pause und wir sehen uns im nächsten Tutorial, um das anzugreifen.

05:04.820 --> 05:06.170
Und so dann ich