WEBVTT

00:00.450 --> 00:02.520
Hallo und herzlich willkommen zu diesem Tutorial.

00:02.520 --> 00:06.140
Jetzt haben wir unsere KI, die bereit ist, trainiert zu werden.

00:06.330 --> 00:09.660
Der erste Schritt des Trainings besteht darin, unsere Erfahrungswiederholung festzulegen.

00:09.900 --> 00:11.330
Wir kommen also langsam dorthin.

00:11.340 --> 00:16.690
Das Training und die gute Nachricht ist, dass wir eine Version von Experience Replay implementiert haben.

00:16.830 --> 00:23.490
Außerdem ist das an die Berechtigungsspur angepasst, an die ich mich erinnere, eine Technik, bei

00:23.490 --> 00:27.160
der jeder q-Übergang alle 10 Übergänge gelernt wird.

00:27.210 --> 00:29.460
Im Grunde ist das genau das gleiche wie zuvor.

00:29.490 --> 00:35.190
Aber anstatt nur ein einziges Ziel für jeden Schritt ein einzelnes Wort zu haben, haben wir ein kumulatives Ziel von

00:35.190 --> 00:40.770
zehn Schritten und eine kumulative Belohnung von 10 Schritten, und wir werden jedes Mal über die 10 Schritte lernen.

00:40.980 --> 00:44.960
Wir lernen also an Übergängen 10 Schritte anstatt einer wie zuvor.

00:45.180 --> 00:50.440
Und damit werde ich Wunder wirken, und das wird einige Wunder für den Trainingsprozess bewirken.

00:50.440 --> 00:52.570
Sie wissen, dass das Training viel weniger Zeit in Anspruch nimmt.

00:52.620 --> 00:58.850
Dank dieser Technik müssen wir jedoch eine Unerfahrenheit angeben, die wir alle 10 Schritte lernen.

00:58.980 --> 01:04.230
Deshalb ist diese Erlebniswiedergabe keine klassische Implementierung der Erfahrungswiedergabe.

01:04.320 --> 01:06.160
Wie für ein selbstfahrendes Auto.

01:06.210 --> 01:12.540
Es handelt sich hierbei um eine Implementierung von Erlebniswiederholungen, die diese 10 Lernschritte berücksichtigt. Daher

01:12.540 --> 01:19.110
finden Sie in dieser Erfahrungswiederholungsdatei zwei Klassen, eine Klasse, die Ihre KI mit zehn Schritten vorwärts

01:19.110 --> 01:23.460
bringt, damit sie die Belohnungen dieser 10 Schritte zusammenfassen kann.

01:23.460 --> 01:28.430
Das ist die erste Klasse, und wir brauchen diese Klasse, weil wir diese 10 Schritte in die

01:28.430 --> 01:33.570
Wiederholungsspeicherklasse einbeziehen müssen. Dies ist die Klassenraumimplementierung für die Erfahrung, die wir spielen. So stellen wir sicher, dass

01:33.630 --> 01:38.020
der Speicher auch die Tatsache berücksichtigt, dass wir es sind Lernen in 10 Schritten.

01:38.040 --> 01:42.660
Deshalb werden Sie in dieser Implementierung von Experience Replay zwei Klassen finden. Dies

01:42.660 --> 01:49.070
ist jedoch nur zu berücksichtigen, dass wir in 10 Schritten lernen und das auch im Speicher berücksichtigt werden muss.

01:49.410 --> 01:51.940
Wenn wir von unserer Erinnerung sprechen, lassen Sie uns es schaffen.

01:51.970 --> 02:00.150
Wir werden unser Gedächtnis nennen, und das Gedächtnis wird ein Objekt des Replay-Memory-Cast sein, und

02:00.570 --> 02:04.900
die Replay-Memory-Klasse ist eine Klasse dieser Erlebniswiedergabe.

02:05.070 --> 02:15.880
Und so nehme ich zuerst dieses gefühlte Replay-Verhalten, und da nehme ich die Replay-Memory-Klasse.

02:15.960 --> 02:16.840
Perfekt.

02:16.890 --> 02:23.460
Und jetzt können Sie sehen, dass wir zwei Argumente einsetzen müssen. Das erste Argument ist und Schritte, die genau der

02:23.640 --> 02:27.540
Anzahl der Schritte entsprechen, für die wir die Schlüsselwerte lernen werden.

02:27.540 --> 02:32.090
Sie kennen also die Anzahl der Schritte, auf denen wir das Ziel sammeln und die wir wollen.

02:32.180 --> 02:37.290
Wir haben ein kumulatives Ziel und die kumulative Belohnung. Das zweite Argument ist die Kapazität,

02:37.290 --> 02:39.840
die der Größe des Speichers entspricht.

02:39.840 --> 02:42.650
So sehen wir hier beispielsweise Zehntausende.

02:42.810 --> 02:48.270
Wenn also die Kapazität 10000 entspricht, bedeutet dies, dass wir eine Größe von 10000

02:48.270 --> 02:54.210
haben werden. Das bedeutet, dass wir die 10000 Schritte speichern werden, die vom Auge ausgeführt werden.

02:54.390 --> 02:57.390
Aber auch hier werden wir nicht jeden Übergang lernen.

02:57.390 --> 03:02.690
Wir werden alle zehn Schritte entlang dieser letzten 10000 Speicherschritte lernen, und genau das ist die

03:02.700 --> 03:06.100
neue Funktion, die wir hier im Vergleich zu früher vorstellen.

03:06.180 --> 03:12.480
Bevor wir nur diesen Replay - Gedächtnis - Trick hatten, haben wir diesen Replay - Gedächtnis - Trick

03:12.570 --> 03:16.920
zusammen mit diesem Trick, den ich alle zehn Schritte gelernt habe, und wir

03:16.920 --> 03:20.000
werden alle zehn Schritte lernen letzte 10000 Schritte.

03:20.190 --> 03:27.810
Und diese erfahrene Wiederholung kombiniert mit unzugänglichen Merkmalen mit 10 Schritten wird die Trainingsleistung

03:27.810 --> 03:29.240
erheblich verbessern.

03:29.490 --> 03:31.130
Schluss mit diesen beiden Argumenten.

03:31.200 --> 03:35.900
Der erste ist und Schritte und das wird gleich sein.

03:36.030 --> 03:43.180
Aber jetzt lassen Sie uns sagen, und die Schritte geben an, welcher Schritt genau danach ist, dass es tatsächlich

03:43.360 --> 03:49.130
eine Ablehnung der anderen Klasse dieser Erlebniswiedergabedatei ist, die die Fortschrittsklasse für den Endschritt darstellt und

03:49.140 --> 03:52.170
die den Fortschritt in zehn Schritten ermöglicht.

03:52.170 --> 03:57.990
Denken Sie daran, dass wir in den 10 Schritten die Wörter auf den zehn Schritten erklingen lassen, um die kumulativen Belohnungen

03:58.050 --> 03:59.550
über 10 Schritte zu erhalten.

03:59.550 --> 04:02.250
Und das ist genau der Eignungstest.

04:02.250 --> 04:09.350
Jetzt müssen wir diese Schritte hier erstellen, und wir erstellen sie mit der zweiten Klasse, die wir in dieser

04:09.360 --> 04:13.040
Replay-Datei mit Erfahrung haben, die einen schrittweisen Fortschritt darstellt.

04:13.160 --> 04:24.430
Also werden wir jetzt Schritte erstellen, und dies wird ein Objekt der Schrittfortschrittsklasse sein,

04:24.430 --> 04:30.650
die wir wieder aus unserer Erfahrung ziehen.

04:30.940 --> 04:31.720
Da gehen wir.

04:31.840 --> 04:37.160
Das ist also die Anti-Progress-Klasse, und jetzt müssen wir drei Argumente hinzufügen, da Sie sehen können, dass

04:37.180 --> 04:41.010
wir die Umgebung, die die Umgebung ist, die wir importiert haben.

04:41.230 --> 04:47.680
Dann ist das zweite Argument unsere KI, und dies wird natürlich die KI sein, die wir

04:47.830 --> 04:55.550
hier in der U gebaut haben. S. und das letzte Argument ist ein Schritt in diesem Punkt. Hier geben wir

04:55.570 --> 04:59.120
an, dass wir möchten, dass 10 Schritte, die Sie kennen, alle 10 Schritte, dh alle 10 Übergänge, gelernt werden.

04:59.200 --> 05:01.140
Lasst uns mit diesen Argumenten helfen.

05:01.180 --> 05:06.920
Der erste ist die Umwelt und das ist Schicksal und in Ordnung.

05:06.940 --> 05:11.700
Dann ist die zweite unsere AI AI und wir haben ai ai gezählt.

05:11.830 --> 05:12.720
Das ist der hier.

05:12.760 --> 05:17.590
Dies ist also nur der Name des Arguments der Schrittfortschrittsklasse und dieses Ai-Ai.

05:17.590 --> 05:19.730
Hier ist unser ai ai.

05:19.750 --> 05:27.150
Das eine, das wir gebaut haben, und das letzte Argument ist und stack und das entspricht 10.

05:27.160 --> 05:27.910
Gut.

05:27.910 --> 05:33.670
Wir berücksichtigen also gerade jetzt im Gedächtnis, dass es in 10 Schritten ein Lernen gibt und

05:33.670 --> 05:37.210
dieses Lernen in 10 Schritten als Eignungsverfolgung bezeichnet wird.

05:37.240 --> 05:39.520
Also arbeiten wir hier wirklich an den fortgeschrittenen Sachen.

05:39.640 --> 05:44.160
Aber denk dran, weil wir versuchen, Dume zu sein, das ist nichts anderes als ein Stück Kuchen zu machen.

05:44.290 --> 05:47.650
Wir brauchen also diese fortgeschrittenen Techniken, damit es funktioniert.

05:47.660 --> 05:48.880
Jetzt sind wir fast fertig.

05:48.880 --> 05:55.450
Bevor wir zum nächsten Schritt übergehen, bei dem es tatsächlich um die Implementierung von LGBT-Fächern

05:55.450 --> 06:03.730
geht, müssen wir nur die Kapazität einbeziehen. Das heißt, sagen wir 10000 Mann. Wir werden eine Größe von 10000 haben,

06:03.730 --> 06:11.470
was bedeutet, dass der Speicher den letzten enthält 10000 Schritte, die von der KI ausgeführt werden, und die

06:11.500 --> 06:13.810
uns ermöglichen, einige zu erzeugen.

06:13.930 --> 06:16.020
Soweit ich mich erinnere war eine einfache Funktion.

06:16.180 --> 06:22.840
Sie wissen, dass der Speicher 10000 Übergänge enthält, aber um das Auge zu trainieren, werden wir so viele Stapel

06:22.840 --> 06:28.360
von zehn Übergängen abtasten, die nicht vor zehn Übergängen verglichen wurden, und wir werden diese kleinen

06:28.360 --> 06:33.490
Stapel von 10 Übergängen in einen aus 10000 Schritten bestehenden Speicher abtasten .

06:33.490 --> 06:38.770
Nun gut, jetzt denke ich, dass wir bereit sind, zum nächsten Schritt überzugehen, bei dem es um die Implementierung der

06:38.770 --> 06:39.490
Berechtigungsnachverfolgung geht.

06:39.520 --> 06:41.680
Also werden wir hier ein bisschen Abenteuer haben.

06:41.680 --> 06:43.690
Dies wird keine einfache Implementierung sein.

06:43.720 --> 06:47.830
Also machen Sie eine gute Pause und wenn Sie bereit sind, können wir das angreifen.

06:47.920 --> 06:49.120
Und dann genießen Sie es.
