WEBVTT

00:00.330 --> 00:05.990
Hallo und herzlich willkommen zu diesem Tutorial im heutigen Statoil.

00:06.150 --> 00:13.370
Wir werden also natürlich immer noch die Funktion senden und dann die Länge einer Episode

00:13.380 --> 00:13.980
initialisieren.

00:14.190 --> 00:22.020
Wir werden also die Länge einer Episode nennen und diese Kernlängen, die wir gehen, und wir werden sie

00:22.020 --> 00:23.800
auf Null initialisieren.

00:23.880 --> 00:27.280
Dann wird diese gegenwärtige Länge jedoch inkrementell sein.

00:27.570 --> 00:30.450
Apropos Inkremente sind genau das, was wir tun werden.

00:30.660 --> 00:40.600
Wir werden also eine while-Schleife verwenden und mit diesem Trick sagen, während True Kallen wiederholt, was jetzt passiert,

00:40.600 --> 00:43.840
was in dieser Welt passiert.

00:44.160 --> 00:49.360
Das Erste, was in dieser Schleife passieren wird, ist also die Inkrementierung der Länge einer

00:49.360 --> 00:50.070
Episode.

00:50.260 --> 00:56.900
Das erste, was wir tun werden, wird um 1 erhöht. Um dies zu tun,

00:57.010 --> 01:02.680
können wir einfach Episodenlängen nehmen und hier plus gleich 1 hinzufügen.

01:03.200 --> 01:06.440
Und jetzt werden wir mit der Aktie mehr synchronisieren.

01:06.560 --> 01:13.520
Das bedeutet, dass der Agent jetzt das gemeinsam genutzte Modell verwenden wird, um eine kleine Anzahl von

01:13.700 --> 01:18.730
Schritten zu untersuchen, und wie das Modell dieses gemeinsam genutzte Modell erhält.

01:18.860 --> 01:27.710
Nun, wir müssen unsere Moral als die nehmen und dann die Dick-Methode des Ladezustands verwenden, da wir sie dazu verwenden

01:27.710 --> 01:37.310
werden, das Zustandswörterbuch unseres gemeinsam genutzten Modells abzurufen, also müssen wir das gemeinsam genutzte Modell zuerst setzen und dann die statische Methode

01:37.310 --> 01:41.870
anwenden Rufen Sie die Parameter des gemeinsam genutzten Modells ab.

01:41.900 --> 01:48.500
Und so wird unser Modell hier das gemeinsame Modell zu seiner kleinen Erkundung bringen.

01:48.500 --> 01:53.670
Wenn das Modell nun dieses gemeinsame Modell erhält, müssen wir zwei Fälle unterscheiden.

01:53.840 --> 02:03.280
Die erste ist wenn erledigt, was bedeutet, wenn das Spiel erledigt ist, dann ist das Spiel erledigt, was dann passiert.

02:03.530 --> 02:09.840
Nun, wir müssen die verborgenen Zustände und die Zellzustände der LSD und des Einkaufszentrums neu initialisieren.

02:09.950 --> 02:17.510
Aus diesem Grund nehme ich X die Zellzustände und altern auch X die verborgenen Zustände. Ich werde sie

02:17.510 --> 02:21.030
neu initialisieren und wie werden sie neu initialisiert.

02:21.170 --> 02:29.080
Nun, mit nur Nullen wird es einen Vektor von 256 Nullen geben, da sich die Ausgaben der übrigen erinnern.

02:29.270 --> 02:31.770
Wie ich 1 und 256 erwähnte.

02:31.820 --> 02:38.970
Also, los geht's, wir initialisieren sie mit der Brennerbibliothek und dann mit der Nullfunktion.

02:39.170 --> 02:46.730
Und da wir einen Vektor von 256 Nullen haben wollen, hören wir die Dimensionen Eins für den Vektor und 256 für

02:46.730 --> 02:51.560
die Anzahl der Elemente, die Nullen sein werden, und dann gehen wir weiter.

02:51.770 --> 02:58.570
Aber dann werden wir das in einen Fackel-Voivode umwandeln, da dann einige Gradienten berechnet werden.

02:58.640 --> 03:02.000
Also müssen wir dies mit einem Farbverlauf integrieren.

03:02.030 --> 03:02.510
Gut.

03:02.540 --> 03:09.860
Und wir werden das Gleiche für die versteckten Zustände gleich unten tun und sie auf die gleiche Weise analysieren.

03:09.980 --> 03:10.680
Da gehen wir.

03:10.790 --> 03:13.050
Das heißt, wenn das Spiel fertig ist.

03:13.360 --> 03:20.810
Und nun der andere Fall, auf den wir mit Else zugreifen können, als in diesem Fall.

03:20.990 --> 03:27.270
Nun, wir werden die alten Zellzustände und die versteckten Einsätze beibehalten, und so können wir

03:27.270 --> 03:37.910
die alten auf diese Weise sehr leicht beibehalten, indem Sie X gleich der Variable cx eingeben. Diese Daten und das gleiche für die Zustände in den Staaten

03:39.050 --> 03:45.580
können wir hier einfach H x gleich hinzufügen Variable xx, in der sich die Daten befinden.

03:45.650 --> 03:46.570
Gut gemacht.

03:46.580 --> 03:52.880
Jetzt können wir aus dem Anderen herauskommen, weil wir im Grunde mit diesen beiden Fällen fertig sind, unabhängig davon, ob das Spiel

03:52.910 --> 03:58.340
zu Ende ist oder nicht, aber wir bleiben in der While-Schleife, weil wir jetzt einige weitere Dinge tun werden,

03:58.340 --> 04:00.450
die im Grunde alles Training sind verarbeiten.

04:00.530 --> 04:05.960
Wir initialisieren also einige Variablen, die im Mittelpunkt der Berechnungen des

04:06.050 --> 04:07.990
Trainings stehen werden.

04:08.180 --> 04:13.660
Lasst uns dies tun, brauchen wir die Werte, an die sich der Kritiker denkt.

04:13.790 --> 04:15.170
Das ist die Funktion.

04:15.170 --> 04:17.850
Und wir werden sie als leeres Nest initialisieren.

04:17.960 --> 04:22.790
Auf diese Weise müssen wir die Wahrscheinlichkeiten mitnehmen.

04:22.930 --> 04:27.570
Glück probs und wir werden es auch als leere Liste initialisieren.

04:27.590 --> 04:33.540
Dann brauchen wir natürlich alle Wörter, die wir auch als leere Liste initialisieren.

04:33.650 --> 04:38.810
Und schließlich brauchen wir die Entropie, etwas Neues.

04:38.960 --> 04:43.240
Dies ist jedoch in der Tat das Herzstück der Trainingsbedingungen.

04:43.280 --> 04:45.120
Also bis genauso gut.

04:45.170 --> 04:50.690
Nun, da wir diese vier Variablen initialisieren, können wir eine neue FOR-Schleife starten und dieser Nymphal

04:50.690 --> 04:53.350
aktualisiert dann die Werte dieser vier Variablen.

04:53.420 --> 04:59.330
Und so wird diese neue Foluke über die Ablaufschritte ein volles Maß sein, und daher wird

04:59.330 --> 05:01.530
die Schleifenvariable unsere Schritte sein.

05:01.550 --> 05:11.570
Für einen Schritt innerhalb und innerhalb des Bereichs können wir also möglicherweise Punkte ohne Unterbrechungen direkt einfügen, da Parameter in einigen

05:11.660 --> 05:15.170
Schritten genau die Anzahl der Beschleunigungsschritte ist.

05:15.170 --> 05:19.190
Also für alle Schritte in der Beschleunigung Was machen wir?

05:19.370 --> 05:22.690
Nun, wir werden die Vorhersagen des Modells erhalten.

05:22.740 --> 05:28.730
Was nun vom Modell zurückgegeben wird, und um diese Vorhersagen zu erhalten, können wir das Modell

05:28.730 --> 05:33.670
einfach auf die Eingänge anwenden, deren Eingangssignal durch die Gehirne des Modells geht.

05:33.830 --> 05:39.020
Und das gibt uns die Ausgaben, aber es werden mehrere Ausgaben erhalten. Sie wissen, dass es uns die

05:39.020 --> 05:42.010
Werte der Funktion liefert, die die Ausgabe des Kritikers ist.

05:42.200 --> 05:48.560
Dann ist der Q-Wert QSA, der die Ausgabe des Schauspielers ist. Vergessen

05:48.680 --> 05:54.830
Sie jedoch nicht, dass er auch den Umsturz von Doheny-Zuständen und kleinen

05:54.830 --> 06:00.230
Zuständen ausgibt es gibt die Ausgabe des Kritikers zurück.

06:00.320 --> 06:08.090
Das ist der Wert der Funktion ja, dann die Ausgabe des Aktors, welcher der Würfelwerte QSA und auch

06:08.090 --> 06:14.930
die Ausgabe des CM, die diese doppelt überprüft, überprüft und X, dann Zustände und Zellzustände.

06:14.930 --> 06:16.910
Wir müssen also vorsichtig sein.

06:16.910 --> 06:22.310
Dies ist etwas anderes als das, was vorher passiert ist, und deshalb werden wir sie jetzt alle auf

06:22.310 --> 06:24.470
die Eingänge anwenden, was der Zustand ist.

06:24.530 --> 06:28.020
Aber jetzt gibt es mehrere Dinge zu tun, die mit Folter zusammenhängen.

06:28.030 --> 06:31.130
Aber das gibt natürlich Kraft für das, was wir tun.

06:31.190 --> 06:39.920
Als erstes müssen wir die Zustände zusammendrücken, um diese Dimension hinzuzufügen, die den Index 0 haben

06:39.920 --> 06:40.880
muss.

06:40.910 --> 06:47.080
Dies liegt daran, dass das Modell nur einen Stapel von Eingaben akzeptieren kann und nicht ein selbstständiges Ende in einem Vektor oder Intensivierer.

06:47.240 --> 06:53.320
Das ist das erste, was wir tun und drücken müssen, aber dann ist das nicht alles, was

06:53.360 --> 06:58.950
wir brauchen, um unsere Eingangszustände in eine Fackel umzuwandeln, und so bin ich hier.

06:59.180 --> 07:05.660
Jetzt sind wir bei der Landespolizei, aber denken Sie daran, dass die Eingaben der vier Funktionen tatsächlich

07:05.660 --> 07:06.990
das Eingabebild sind.

07:06.990 --> 07:14.660
Das ist es, was wir gerade gemacht haben, aber auch für diese Art von Alter X, die Zustände und die Zellzustände, und deshalb

07:14.900 --> 07:16.500
müssen wir hier hinzufügen.

07:16.610 --> 07:23.160
Dieser zweite Teil des Beitrags mit seinem Aufruf zum Alter von X und 6 Jahren.

07:23.190 --> 07:23.690
Gut.

07:23.730 --> 07:26.410
Und wir müssen die Klammer aufnehmen.

07:26.430 --> 07:32.550
Nun haben wir unsere zwei Eingaben. Der erste ist der Eingabezustand, bei dem alle Eingabebilder in variable

07:32.550 --> 07:38.580
konvertiert und zusammengedrückt werden, um diese falsche Dimension des Stapels hinzuzufügen, und sie stoppen alle Zustände und

07:38.760 --> 07:40.260
die südlichen Zustände.

07:40.440 --> 07:41.630
Also sind wir alle gut zu gehen.

07:41.670 --> 07:43.890
Wir sind bereit, unsere Vorhersagen zu erhalten.

07:44.100 --> 07:46.360
Und jetzt seit dieser Rückkehr.

07:46.500 --> 07:52.530
Nun, unsere drei Vorhersagen, der Ausgang des Kritikers, bis zum Schauspieler und die Spitze aller von

07:52.530 --> 07:54.430
der CME erforderlichen Wiederherstellungen.

07:54.630 --> 07:59.840
Nun, wir werden jetzt drei neue Variablen einführen, die drei Ausgaben freigeben.

07:59.910 --> 08:05.380
Dann erhalten wir als ersten Ausgang den Wert der V-Funktion, der den Ausgang des Kritikers darstellt.

08:05.520 --> 08:07.960
Wir werden es also so nennen.

08:08.490 --> 08:08.960
Also los geht's.

08:08.970 --> 08:10.250
Das ist die erste Ausgabe.

08:10.350 --> 08:14.630
Dann wird die zweite Ausgabe die Ausgabe des Schauspielers sein.

08:14.760 --> 08:16.820
Und das ist die Q-Werte von QSA.

08:17.130 --> 08:24.570
Da die q-Werte jedoch den Aktionen zugeordnet sind, können wir sie auch Aktionswerte nennen.

08:24.690 --> 08:25.550
Gut.

08:25.710 --> 08:28.850
Und dann eine Ausgabe finden, die vom Morgen zurückgegeben wird.

08:28.920 --> 08:37.380
Das ist das Doppelte der versteckten Umsatzsteuer und die Zellzustände siehe X, und dann haben wir drei Ergebnisse,

08:37.620 --> 08:40.110
die alle perfekt zurückgegeben werden.

08:40.110 --> 08:45.750
Nun, da wir die Voraussetzungen haben, müssen wir einen weichen Max verwenden, um die richtige Aktion zu spielen.

08:45.750 --> 08:48.560
Und jetzt wird das genauso sein wie vorher.

08:48.600 --> 08:57.320
Der nächste Schritt besteht darin, unsere Wahrscheinlichkeiten herbeizuführen, aus denen wir sie abrufen können. Dort haben wir die Max-Methode verwendet,

08:57.320 --> 09:05.570
die wir von dem Funktionsmodul nehmen, das einen Schuss auf ff hat, der auf Max gerichtet ist und

09:05.570 --> 09:12.270
eine Verteilung der Wahrscheinlichkeiten der Eingabe erzeugt dass wir gerade dabei sind, und natürlich

09:12.290 --> 09:19.150
die tatsächlichen Werte, die die q-Werte sind, die die Ausgänge des Aktors im Modell sind.

09:19.220 --> 09:25.070
Gelegentlich haben wir unsere Wahrscheinlichkeiten, aber wie Sie bemerkt haben, arbeiten wir mit der Entropie

09:25.130 --> 09:31.280
und zusammen würde Entropie nicht nur die Wahrscheinlichkeiten, sondern auch die LUGG-Wahrscheinlichkeiten führen, da die Entropie

09:31.280 --> 09:37.280
die Summe des Produkts Lucke prob ist. mal trub all dies multipliziert mit minus 1.

09:37.400 --> 09:46.420
Und so müssen wir auch unsere Liebe dazu bekommen, welche von LUGG soft max erzeugt wird.

09:46.460 --> 09:51.580
Anstatt eine Verteilung der Wahrscheinlichkeiten vorzunehmen, nehmen wir eine Verteilung der Wahrscheinlichkeiten

09:51.860 --> 10:01.260
auf, und das tun wir mit LUGG Soughed Kocks der Optimax-Funktion, um zu sagen, dass wir den Cube anwenden und verwenden, was

10:02.500 --> 10:04.490
wir die Aktionswerte nennen.

10:04.500 --> 10:07.520
Also gut, jetzt haben wir das Problem und die Schließung.

10:07.600 --> 10:11.700
Und so sind wir bereit, die Entropie und die Entropie zu erhalten.

10:12.250 --> 10:13.680
Wie lautet die Formel dafür?

10:13.780 --> 10:19.830
Nun, wie ich gerade erwähnte, nehmen wir das Glück, dass wir mit dem Produkt multiplizieren.

10:20.200 --> 10:28.250
Dann nehmen wir die Summe von all dem und wir können hier hinzufügen, dass wir die Straße

10:28.250 --> 10:29.920
jetzt oft benutzen.

10:30.230 --> 10:33.500
Und wie gesagt, multiplizieren wir dies mit minus 1.

10:33.740 --> 10:37.150
Es ist also das Minus der Summe des Produkts.

10:37.170 --> 10:38.600
Viele Male

10:39.140 --> 10:39.750
Perfekt.

10:39.860 --> 10:45.380
Und jetzt speichern wir diese gerade berechnete Entropie in unserer Entropieliste.

10:45.650 --> 10:48.550
Da haben wir die letzte Berechnung der Entropie.

10:48.590 --> 10:53.660
Deshalb müssen wir es in der Entropies-Liste speichern. Um dies einfacher zu machen, werden

10:53.660 --> 10:57.450
wir natürlich die Append-Funktion verwenden, da Entropies eine Liste sind.

10:57.500 --> 11:04.790
Also nehmen wir unsere Entropieliste, beginnen dann und fügen mit der Anfügefunktion die Entropie

11:04.790 --> 11:06.550
der berechneten hinzu.

11:06.560 --> 11:08.440
Also gut, also machen wir jetzt eine Pause.

11:08.450 --> 11:14.210
Wir werden dies Schritt für Schritt in der nächsten Geschichte tun und die Aktion spielen, indem

11:14.360 --> 11:16.740
sie die erzeugte Wahrscheinlichkeitsverteilung zufällig zieht.

11:17.030 --> 11:22.310
Und nachdem wir die Aktion gespielt haben, werden wir den Wert dieses Zustands erhalten und schließlich die

11:22.310 --> 11:24.310
Belohnung für unsere neuen Übergangszustände speichern.

11:24.360 --> 11:29.430
Damit ist ein neuer großer Schritt getan und wir werden das in der nächsten Hürde vollenden.

11:29.570 --> 11:31.020
Bis dahin ich