WEBVTT

00:00.610 --> 00:03.190
Hallo und willkommen zu diesem Python-Tutorial.

00:03.190 --> 00:09.460
Also machen wir das, machen wir diese for-Schleife, die von rechts nach links geht, und um dies

00:09.460 --> 00:11.900
zu tun, fügen wir vier hinzu.

00:11.920 --> 00:17.980
Dies ist also ein iterativer VAR, der unser Schritt sein wird, weil wir vom letzten Schritt zum ersten

00:17.980 --> 00:21.590
Schritt einer Reihe von Übergängen und so weiter gehen werden.

00:21.960 --> 00:29.850
Der Trick, von rechts nach links zu gehen, ist der Schritt umgekehrt.

00:30.160 --> 00:35.300
Und jetzt müssen wir nur noch eine Sequenz eingeben und diese Sequenz wird natürlich unsere Serie sein.

00:35.380 --> 00:41.790
Wir können also unsere Serie einsetzen, aber wie Sie in der Zeitung sehen können, gehen wir von T minus 1 zum Start.

00:41.950 --> 00:47.760
Wir gehen also nicht vom letzten Schritt, der Endstation, sondern vom vorherigen Schritt bis zum Minus

00:47.800 --> 00:50.380
eins, aber das ist der erste Schritt.

00:50.430 --> 00:59.090
Und so, um nicht von zu gehen, lass uns diesen Schritt machen, bevor wir in Klammern die Spalte minus eins hinzufügen müssen.

00:59.380 --> 01:04.270
Ich bin sicher, dass für diejenigen von Ihnen, die das maschinelle Lernen in einem tieferen

01:04.560 --> 01:11.050
Kurs verfolgt haben, dieser Trick bekannt ist. Kollin minus eins bedeutet, dass Sie vor dem letzten Element auf das Element aufsteigen,

01:11.050 --> 01:14.740
aber nicht auf das letzte Element die Reihenfolge, die wir wollen

01:14.860 --> 01:20.890
Das ist, was wir vom Element vor dem letzten Element zum ersten Element gehen werden und dass wir die Dinge

01:20.890 --> 01:23.900
umgekehrt machen, um von rechts nach links zu gehen.

01:24.160 --> 01:26.810
Also gut, also sind wir bereit für die for-Schleife.

01:27.170 --> 01:29.740
Und so in dieser for-Schleife, was werden wir tun?

01:29.780 --> 01:32.870
Wo werden wir genau wie in der Zeitung vorgehen?

01:32.900 --> 01:39.340
Wir werden die kumulative Belohnung aktualisieren, indem wir sie mit Ghana multiplizieren und das Wort hinzufügen, das im aktuellen

01:39.400 --> 01:42.500
Schritt, der sich im Folgeschritt befindet, erreicht wurde.

01:42.670 --> 01:45.450
Also gut, also lasst uns zu Python zurückkehren.

01:45.590 --> 01:57.780
Daher möchten wir unser kumuliertes Update auf die folgende Weise aktualisieren, indem wir es zuerst mit Gamma multiplizieren.

01:57.780 --> 01:58.580
Da gehen wir.

01:58.660 --> 02:07.910
Hier multiplizieren wir es mit Gamma und dann wollen wir die Belohnung von dem hinzufügen, auf das wir mit der speziellen Struktur auf diese

02:07.970 --> 02:09.420
Weise zugreifen können.

02:09.450 --> 02:13.120
Denken Sie daran, dass das Wort ein Attribut des Objekts ist.

02:13.130 --> 02:15.910
Und hier fügen wir natürlich ein Plus hinzu.

02:16.020 --> 02:17.330
In Ordnung, es ist eine kumulative Belohnung.

02:17.450 --> 02:19.310
Gleich wollen wir diesen Schritt.

02:19.370 --> 02:25.620
Wir sind jetzt in der Schleife und Gahanna mal die vorherige kumulative Belohnung, bevor es eine ist.

02:26.150 --> 02:26.870
Perfekt.

02:26.870 --> 02:28.190
Jetzt denke ich, wir sind gut.

02:28.220 --> 02:30.180
Wir verfolgen den Algorithmus gründlich.

02:30.500 --> 02:32.600
Und nun Zeit für die nächsten Schritte.

02:32.840 --> 02:35.090
Nun, jetzt wird es ziemlich einfach.

02:35.090 --> 02:40.880
Wir kehren zum ersten Follow-up zurück, weil diese for-Schleife nur die kumulative Belohnung berechnet, die nicht von rechts nach

02:41.060 --> 02:44.010
links geht, indem sie auf diese Weise aktualisiert wird.

02:44.030 --> 02:50.930
Dem Algorithmus folgend und jetzt, da Sie sich erinnern, besteht das Ziel darin, unsere Eingaben und Ziele vorbereiten,

02:50.930 --> 02:55.950
damit wir den quadratischen Unterschied zwischen den beiden für das Training minimieren können.

02:55.950 --> 03:01.020
Das einzige, was wir jetzt tun müssen, ist, diese Eingänge und Toiletten fertig zu stellen.

03:01.220 --> 03:08.410
Lassen Sie uns dies zuerst tun. Dazu müssen wir das erste Datum der Serie in unsere Teileliste aufnehmen.

03:08.510 --> 03:11.460
Bisher ist dieser Zustand in diesem Teil unseres Ziels.

03:11.480 --> 03:14.100
Das war nur um die Ausgabe zu berechnen.

03:14.270 --> 03:19.370
Wir werden diesen Eingabestatus des ersten Schritts separat erhalten, weil genau dies in

03:19.370 --> 03:21.320
unserer Liste geschehen muss.

03:21.380 --> 03:23.340
Also lasst uns das getrennt bekommen.

03:23.360 --> 03:25.910
Deshalb nennen wir es Staat.

03:26.000 --> 03:32.930
Genau so wie hier können wir es so erhalten, indem wir den ersten Index der Serie nehmen, der den ersten

03:32.930 --> 03:38.300
Übergang enthält, und diesen Zustand hinzufügen, um den Status dieses ersten Übergangs zu erhalten.

03:38.330 --> 03:44.390
Das ist also die Site, auf der wir dann sagen müssen, dass wir die Ziele, die mit dieser Eingabestufe

03:44.840 --> 03:46.830
der Umstellung verbunden sind, separat erhalten.

03:46.880 --> 03:53.450
Und so ein interessantes neues Variablenziel hier, das dem Wert des ersten Schritts entspricht.

03:53.540 --> 03:59.990
Und da der Q-Wert vom neuronalen Netzwerk und dessen Inhalt und Ausgabe zurückgegeben wird und da

04:00.070 --> 04:07.370
Ausgaben die dieser Eingabe zugeordnete Ausgabe sind, die den ersten Übergang enthält, können wir diesen q-Wert des ersten

04:07.370 --> 04:12.830
Datums erhalten, indem Sie die Ausgabe hier und nehmen den Index Null nehmen.

04:13.100 --> 04:20.630
Und dann fügen wir diese Daten hinzu, die uns einfach den Q-Wert des Eingangszustands des ersten Übergangs liefern, und das ist

04:21.050 --> 04:22.310
genau die Zeit.

04:22.320 --> 04:30.080
F: Auf diese Weise werden wir diese Zielvariable aktualisieren, aber nur für die Aktion, die im ersten Schritt

04:30.080 --> 04:35.680
der Serie ausgewählt wurde, und auf diesen ersten Schritt der Serie zugreifen.

04:35.870 --> 04:42.710
Nun, wir müssen die erste Serie 0 nehmen, weil dies genau der erste Schritt bei einer Serie 3 0 ist.

04:42.970 --> 04:50.290
Und um auf die Aktion zuzugreifen, die diesem ersten Schritt der Serie entspricht, müssen wir hier die

04:50.380 --> 04:57.340
Aktion hinzufügen, die diese Attributstruktur ist, die wir verwenden. Die Aktion ist ein Attribut des ersten

04:57.340 --> 04:58.900
Schritts der Serie.

04:58.900 --> 05:04.570
Dies ist der erste Übergang der Serie, da jeder Übergang der Serie das

05:04.720 --> 05:11.350
folgende Strukturstatusaktionswort hat. Diese Aktion wird hier ausgeführt. Diese Attributaktion bedeutet hier, dass wir nur die

05:11.500 --> 05:14.150
Aktion dieses ersten Datums erhalten.

05:14.330 --> 05:21.320
Das Ziel für diese spezifische Aktion des ersten Schrittes ist also genau das, was von der Weltgemeinschaft

05:21.410 --> 05:22.850
aktualisiert werden muss.

05:22.850 --> 05:29.490
Im Grunde schreiben wir also einfach dieses Ziel, das mit der Aktion verbunden ist, die gespielt wurde.

05:29.630 --> 05:35.810
Der erste Schritt der Serie ist diese kumulative Belohnung, die wir gerade berechnet haben.

05:36.130 --> 05:44.780
Nun gut, jetzt können wir endlich unseren Input aktualisieren, indem wir diesen ersten Aufenthalt hier anhängen und dieser erste ist hier

05:44.780 --> 05:46.770
für die erste Stunde.

05:46.970 --> 05:53.090
Wir müssen nur den ersten Schritt der Serie aktualisieren, da Sie wissen, dass wir die KI in 10 Schritten trainieren. Daher

05:53.090 --> 05:56.000
ist die Eingabe der erste Schritt der zehn Schritte.

05:56.180 --> 06:01.400
Und wir bekommen auch das Ziel in diesem ersten Schritt, aber dann bekommen wir in den folgenden Schritten

06:01.400 --> 06:06.310
der 10 Schritte keine Eingaben oder Toiletten, da das Lernen im Wesentlichen 10 Schritte danach erfolgt.

06:06.500 --> 06:11.380
Deshalb bekommen wir jetzt nur den Zustand und das Ziel des ersten Schritts der Serie.

06:11.840 --> 06:16.820
Daher ist es wichtig, dies zu verstehen. Wenn wir also verstehen, dass wir es jetzt verstehen, müssen wir

06:16.820 --> 06:20.590
sie in unsere Liste von Eingaben und in unsere Liste von Zielen eingeben.

06:20.660 --> 06:21.560
Also lass uns das tun.

06:21.560 --> 06:25.140
Lassen Sie uns zunächst die Zustände an unsere Eingaben anhängen.

06:25.190 --> 06:33.680
Wir nehmen unsere Eingabeliste und verwenden die Append-Funktion, um den Status hinzuzufügen, der den Eingangsstatus des ersten Schritts der Serie erinnert,

06:33.680 --> 06:41.030
und dann werden wir das Ziel im ersten Schritt an unsere Liste der Ziele anhängen und dies

06:41.120 --> 06:47.270
tun Wir nehmen unsere Liste der Ziele und sagen, dass wir die Anhängefunktion verwenden, um

06:47.270 --> 06:49.460
dieses erste Ziel anzufügen.

06:49.490 --> 06:50.360
Da gehen wir.

06:50.540 --> 06:56.750
Fast fertig und jetzt müssen wir die letzten Dinge zurückgeben, die natürlich das sind, was wir brauchten, wie

06:56.840 --> 07:01.760
wir zu Beginn dieses Tutorials sagten, die Eingaben und Ziele, die jetzt aktualisiert werden.

07:02.090 --> 07:07.580
Wir werden also hier in jedem Zug hinzufügen, und wir werden zuerst unsere

07:07.580 --> 07:14.660
Eingaben erhalten, aber dann müssen wir sie zuerst in ein Zahlenfeld konvertieren und dann eine Typkonvertierung durchführen, um

07:14.660 --> 07:21.710
sicherzustellen, dass wir einen einzigen Typ mit dem Typ haben Sie sind gleich und das schwebt 32 gleich.

07:21.890 --> 07:28.520
Und dann konvertieren wir diesen in einen Brennerspanner, weil wir natürlich mit einer Fackel arbeiten, die absolut

07:28.730 --> 07:29.540
obligatorisch ist.

07:29.570 --> 07:36.040
Und so benutze ich wieder die Fackel aus der Nicht-Thai-Funktion.

07:37.180 --> 07:39.000
Und das gibt uns unsere Inputs.

07:39.130 --> 07:39.590
Perfekt.

07:39.590 --> 07:42.460
Und jetzt machen wir dasselbe für die Ziele.

07:42.520 --> 07:44.620
Jetzt können wir diesen Trick verwenden, der schneller ist.

07:44.710 --> 07:50.950
Wir werden die Ziele zusammen stapeln und dazu müssen wir zuerst unsere

07:50.950 --> 07:57.230
Brenner-Bibliothek nehmen, da wir die Stack-Funktion per Brenner zum Stapeln der Ziele verwenden werden.

07:57.250 --> 07:57.550
Gut.

07:57.550 --> 08:04.030
Daher gibt diese Codezeile im Wesentlichen die Eingänge und Toiletten zurück, die gerade durch diesen

08:04.030 --> 08:07.100
Sarsour-Algorithmus für die Ablaufverfolgung aktualisiert wurden.

08:07.180 --> 08:10.710
Oder wir können es anrufen und einsteigen und unsere Glückwünsche senden.

08:10.780 --> 08:16.540
Wir waren bereit für das abschließende Training, da das Training im Wesentlichen darin besteht, die quadratischen

08:16.540 --> 08:20.950
Unterschiede zwischen den Vorhersagen unserer Eingänge und der Toiletten zu minimieren.

08:21.160 --> 08:22.870
Also lasst uns unsere Augen schlau machen.

08:22.870 --> 08:25.150
Es wird schlau und der nächste ist es.

08:25.210 --> 08:26.980
Und bis dahin genießt AI.