WEBVTT

00:01.400 --> 00:02.990
Hallo und willkommen zurück.

00:03.320 --> 00:08.930
In der letzten Vorlesung haben wir die eigentliche Definition unserer Umwelt, die Darstellung unserer Werte,

00:08.930 --> 00:14.090
unsere Bestrafung in Belohnungen und unser Handeln in der Umwelt abgeschlossen oder abgeschlossen.

00:14.450 --> 00:20.510
In diesem Vortrag möchte ich das Training vorstellen, die Idee dahinter, wie man das Modell trainiert,

00:20.510 --> 00:22.730
und Ihnen den Einstieg erleichtern.

00:22.910 --> 00:28.340
Und dann geben Sie in der nächsten Vorlesung die Lösung und eine weitere Aufschlüsselung der beteiligten Schritte.

00:28.610 --> 00:32.660
Also müssen wir das Modell trainieren, was für das Training erforderlich wäre.

00:33.620 --> 00:38.750
Dies ist ein Ansatz, den wir für die folgenden Schritte zum Trainieren des Modells verwenden können.

00:38.750 --> 00:44.180
Wir möchten einen zufälligen nicht-terminalen Zustand auswählen, der das weiße Quadrat unseres Agenten wäre, und so möchten

00:44.180 --> 00:46.880
wir in unserer Episode für das Training beginnen.

00:47.330 --> 00:50.300
Wir wollen dann natürlich eine Aktion für den aktuellen Zustand wählen.

00:50.300 --> 00:53.030
Unser Agent muss sich in der Umgebung bewegen können.

00:53.210 --> 00:59.150
Daher werden die Aktionen für uns und unseren Agenten bei dieser Herausforderung mit Epsilon Greek ausgewählt.

00:59.780 --> 01:04.730
Dieser Algorithmus wählt normalerweise die vielversprechendste Aktion für den Agenten aus, wählt aber gelegentlich eine

01:04.730 --> 01:05.810
weniger vielversprechende Option.

01:05.810 --> 01:10.580
Um den Agenten zu ermutigen, die Umgebung zu erkunden, möchten wir wirklich die optimale Richtlinie finden.

01:11.300 --> 01:14.960
Dann wollen wir die gewählte Aktion ausführen und in den nächsten Zustand übergehen.

01:15.200 --> 01:16.340
Wechseln Sie zum nächsten Ort.

01:16.550 --> 01:21.200
Und warum ich das sage, möchte ich, dass ihr darüber nachdenkt, wie ihr das in Funktionen zerlegen könnt,

01:21.200 --> 01:22.760
um dieses Problem zu lösen.

01:23.540 --> 01:29.390
Als nächstes müssen wir eine Belohnung dafür erhalten, dass wir in einen neuen Zustand wechseln, und dann die zeitliche Differenz berechnen.

01:29.750 --> 01:35.480
Wir müssen den Q-Wert für das vorherige Zustands- und Aktionspaar aktualisieren, und wenn die neue Währung ein Endzustand ist, würden

01:35.480 --> 01:37.280
wir dann zu einem gehen.

01:37.610 --> 01:39.200
Andernfalls würden wir zu Schritt Nummer zwei gehen.

01:39.470 --> 01:43.400
Wir werden also während des gesamten Prozesses darauf abzielen, tausend Episoden zu trainieren.

01:43.670 --> 01:50.750
Dies gibt uns oder unserem Agenten ausreichend Gelegenheit, den kürzesten Weg zwischen dem Artikelverpackungsbereich

01:50.750 --> 01:55.520
und anderen Standorten in unserer Beispielstadt zu berechnen.

01:56.540 --> 01:57.020
Fantastisch.

01:57.530 --> 02:02.840
Denken Sie also bitte darüber nach, wie Sie dies angehen, und ich möchte Ihnen helfen, eine Idee zu finden, wie Sie versuchen können, dies zu lösen.

02:03.050 --> 02:07.970
Wir würden uns also in unserer Lösung ansehen, dass wir die folgenden Funktionen verwenden werden.

02:08.540 --> 02:11.540
Ich kann dies tatsächlich auskommentieren, da es sich um einen Code handelt, also entschuldige ich mich.

02:11.960 --> 02:13.070
Wir wollen kein Dollarzeichen.

02:13.310 --> 02:17.990
Wir möchten diese auskommentieren und ich werde Ihnen helfen, mit dem ersten zu beginnen.

02:18.990 --> 02:25.650
Insgesamt werden diese Funktionen unsere Schritte zum Trainieren des Modells definieren und Ihnen den Einstieg

02:25.650 --> 02:26.470
erleichtern.

02:26.490 --> 02:31.140
Werfen wir einen Blick darauf, wie wir uns dem Endzustand nähern würden, um dafür eine Funktion in Python zu

02:31.140 --> 02:31.440
erstellen.

02:31.800 --> 02:36.150
Das Wichtigste zuerst möchten wir natürlich unsere Funktion so definieren, wie sie ist.

02:37.640 --> 02:39.230
Terminalzustand.

02:40.670 --> 02:44.630
Und dies sind die Namen der Funktionen, die Sie sehen werden, um Ihnen eine Idee zu geben, die Ihnen helfen könnte,

02:44.630 --> 02:45.050
sie aufzuschlüsseln.

02:45.500 --> 02:50.870
Wir wollen den aktuellen Zeilenindex und den aktuellen Spaltenindex nehmen.

02:52.980 --> 03:01.440
Dies wird uns helfen, die Position unseres Agenten zu ermitteln, und wir können hier für unsere Belohnungen ein Wahr oder Falsch

03:01.440 --> 03:02.000
hinzufügen.

03:02.010 --> 03:02.610
Also brauchen wir es.

03:03.150 --> 03:05.490
Legen wir also unsere Belohnungen fest.

03:07.430 --> 03:08.300
Von unserem Strom.

03:09.410 --> 03:11.270
Zeilenindex.

03:12.510 --> 03:13.260
Und aktuell.

03:14.040 --> 03:19.890
Spaltenindex gleich minus eins, wenn sie sich in diesem Zustand befinden.

03:24.330 --> 03:28.200
Wir würden falsch oder anders oder sonst zurückgeben.

03:29.880 --> 03:30.690
Wir würden wiederkommen.

03:31.500 --> 03:31.830
Wahr.

03:33.620 --> 03:34.670
Ziemlich einfach genug.

03:35.450 --> 03:41.360
Und so erhalten wir unsere Vorstellung von unserem Endzustand, nachdem wir, wenn er im

03:41.360 --> 03:44.090
Endzustand existiert, den Startort erhalten möchten.

03:44.270 --> 03:50.660
Als Hinweis können Sie sich ansehen, wie Sie den aktuellen Zeilenindex im aktuellen Spaltenindex verwenden und

03:50.660 --> 03:52.730
numpy mit einem Zufallswert festlegen.

03:52.730 --> 03:56.960
Wir wollen dies zufällig in den Umgebungszeilen und Umgebungsspalten initialisieren.

03:57.290 --> 04:00.590
Aber in der nächsten Vorlesung sehen Sie eine Aufschlüsselung.

04:00.590 --> 04:04.520
Sie sehen die restlichen Funktionen mit einigen Anmerkungen, die Ihnen helfen, sich ein Bild zu machen.

04:04.880 --> 04:08.960
Ich hoffe wirklich, dass Sie die Chance nutzen, damit zu experimentieren, denn es ist einfach eine großartige Möglichkeit, zu

04:08.960 --> 04:12.050
lernen, Ihnen eine Idee zu geben, und dies soll Ihnen den Einstieg erleichtern.

04:12.260 --> 04:15.080
Also keine Sorge, die Lösung bekommst du in der nächsten Vorlesung.

04:15.320 --> 04:21.730
Und dann werden wir die Dinge abschließen, indem wir tatsächlich einen hervorragenden Rabattfaktor zuweisen, um diese Art von Dingen für

04:21.800 --> 04:25.490
das Training zu lernen, das Training durchzuführen und die Ergebnisse anzuzeigen.

04:26.030 --> 04:26.660
Fantastisch.

04:27.380 --> 04:29.360
Lassen Sie uns hier noch einmal aufhören.

04:29.750 --> 04:30.830
Versuchen Sie, dies zu lösen.

04:30.830 --> 04:35.360
Aber wenn nicht, wenn Sie einfach weiterkommen wollen, gehen Sie zur nächsten Vorlesung und Sie erhalten

04:35.360 --> 04:37.910
die Lösung für das Training zum Definieren dieser Funktionen.

04:38.450 --> 04:40.130
In Ordnung, wir sehen uns in der nächsten Vorlesung.
