WEBVTT

00:00.710 --> 00:02.430
Hallo zusammen und willkommen zurück.

00:02.450 --> 00:04.970
In dieser Vorlesung werden wir unsere Umgebung einrichten.

00:05.270 --> 00:11.180
Und ich möchte diese allgemeinere Übersicht für diejenigen vorstellen, die versuchen möchten, sie selbst zu lösen.

00:11.480 --> 00:14.120
Und das kommt Ihnen in der letzten Vorlesung, die Sie hier gesehen haben, vielleicht bekannt vor.

00:14.330 --> 00:15.740
Also, wenn Sie es durchgelesen haben, entschuldige ich mich.

00:15.740 --> 00:17.270
Wir werden es nur sehr schnell durchgehen.

00:17.900 --> 00:18.740
Das wichtigste zuerst.

00:19.160 --> 00:24.230
In diesem Projekt zielen wir wirklich darauf ab, es so einfach wie möglich zu halten, in dem Sinne, dass wir nicht zu

00:24.230 --> 00:25.400
viele Bibliotheken importieren müssen.

00:25.400 --> 00:27.890
Wir werden dafür im Grunde nur NumPy verwenden.

00:27.890 --> 00:33.050
Wir müssen NumPy nur als und P importieren, normalerweise die gemeinsame Referenz für numpy.

00:33.350 --> 00:37.250
Und wir wollen auch unsere Umgebung einrichten, wie Sie hier sehen werden.

00:37.520 --> 00:40.430
Und wir gehen das noch einmal ganz schnell als Überblick durch.

00:40.580 --> 00:46.190
Der erste Schritt für unser Q-Lernen war, dass wir eine Umgebung finden wollten, in der sich der Postbote zurechtfinden muss.

00:46.190 --> 00:49.910
Wir müssen diese Umgebung so einrichten, dass wir sie tatsächlich iterieren und durchlaufen können.

00:50.570 --> 00:55.340
In dieser Vorlesung wird die Umgebung aus Zuständen, Aktionen und Belohnungen bestehen.

00:55.700 --> 01:01.100
Zustände und Aktionen sind Eingaben für den Q-Lernagenten, während die möglichen Aktionen die Agenten sind, Ausgaben

01:01.100 --> 01:06.410
sind Zustände, über die wir nachdenken und dieses Bild als unsere Repräsentation betrachten können.

01:06.710 --> 01:11.630
Die Zustände in unserer Umgebung sind alle möglichen Orte innerhalb der Stadt, die wir diese Beispielstadt nennen können.

01:11.960 --> 01:17.810
Einige dieser Orte sind die Stadtgrenzen, die unsere schwarzen Quadrate sein werden, während andere Orte Inseln sind, die der

01:17.810 --> 01:21.050
Postbote benutzen kann, um durch die Stadt zu reisen.

01:21.050 --> 01:22.310
Das werden die weißen Quadrate sein.

01:22.820 --> 01:26.750
Das grüne Quadrat zeigt den Verpackungs- und Versandbereich des Artikels an.

01:27.140 --> 01:31.310
Die schwarzen und grünen Quadrate werden wir Endzustände nennen.

01:31.640 --> 01:35.990
Also insgesamt, unser Ziel oder das Ziel unseres Agenten, wollen wir den kürzesten Weg verwenden.

01:35.990 --> 01:41.810
Wir möchten, dass unser Agent den kürzesten Weg zwischen dem Artikelverpackungsbereich, dem Glas, dem Grün und allen anderen Orten

01:41.810 --> 01:45.050
in der Stadt lernt, an denen der Postbote reisen darf.

01:49.330 --> 01:55.480
Im obigen Bild haben wir 121 mögliche Staaten oder Orte innerhalb der Stadt.

01:55.930 --> 01:58.450
Diese Zustände sind in einem Raster von 11 mal 11 angeordnet.

01:58.750 --> 02:02.140
Jeder Ort kann durch seinen Zeilen- und Spaltenindex identifiziert werden.

02:02.560 --> 02:04.450
Was wäre also unser erster Schritt?

02:04.450 --> 02:07.660
Und das ist wirklich, dass ihr Jungs darüber nachdenkt, wie ihr es definieren könnt.

02:08.470 --> 02:10.340
Wir müssen unsere Umwelt definieren.

02:10.360 --> 02:13.120
Dies ist ein gutes Beispiel für unser Image und wie wir es angehen werden.

02:13.120 --> 02:14.440
Wie würden Sie das modellieren?

02:14.590 --> 02:20.890
Denken Sie daran, dass wir NumPy verwenden, also müssen wir diese Grenzen definieren, und wir können ein 3D-Numpy-Array

02:20.890 --> 02:27.010
definieren, das unsere aktuellen Q-Werte für jedes Zustands- und Aktionspaar enthält, wenn wir unsere Darstellung sehen.

02:27.520 --> 02:32.380
Und für diejenigen unter Ihnen, die damit nicht vertraut sind, oder vielleicht ist dies neu oder

02:32.380 --> 02:38.110
Sie möchten nur eine Auffrischung haben, ist das Air Z-Handbuch aus diesem Kurs äußerst hilfreich und sehr zu empfehlen.

02:38.380 --> 02:39.820
Was müssen wir also hier tun?

02:40.180 --> 02:41.140
Wir können tatsächlich.

02:41.440 --> 02:45.040
Lassen Sie mich das nur ganz schnell für uns erweitern, damit wir es etwas einfacher sehen können.

02:45.070 --> 02:46.420
Lassen Sie mich nur einige Codezellen hinzufügen.

02:46.720 --> 02:48.610
Wir werden unser 3D-Imperium definieren.

02:49.480 --> 02:50.770
Wie würden Sie vorgehen?

02:51.280 --> 02:52.900
Wir haben also einige Optionen.

02:52.900 --> 02:57.070
Aber die wirklich unkomplizierteste und einfachste Option nennen wir sie Umgebungszeilen.

02:59.790 --> 03:01.450
Rose und lass es uns auf 11 setzen.

03:01.470 --> 03:02.590
Es ist ein 11 von 11.

03:02.680 --> 03:06.660
Dann können wir auch Umwelt, Spalten unterstreichen.

03:08.860 --> 03:10.600
Und wir könnten dies auch auf 11 setzen.

03:11.170 --> 03:17.920
Zuletzt können wir unsere Q-Werte festlegen, da wir unsere numpy mit den Umgebungszeilen und Umgebungsspalten hinzufügen

03:17.920 --> 03:18.370
müssen.

03:19.910 --> 03:30.260
Und wir können dies als Q-Werte gleich NumPy-Nullen setzen und wir müssen unsere Umgebungszeilen und Umgebungsspalten

03:30.980 --> 03:31.730
verwenden.

03:32.790 --> 03:40.050
Und wir haben unser 3D-Numpy-Array, unsere 3D-Umgebungsdarstellung, die mit unserer Umgebung festgelegt ist.

03:41.040 --> 03:41.520
Fantastisch.

03:42.330 --> 03:46.440
Nun, und wir werden es hier lassen, aber ich möchte, dass ihr darüber nachdenkt, wie ihr das lösen könnt,

03:46.440 --> 03:48.120
da ihr eure Umgebung bereits eingerichtet habt.

03:48.450 --> 03:52.620
Das nächste, was Sie als Hinweis tun möchten, ist, Ihre Aktionen einzurichten.

03:52.830 --> 03:55.470
Ihr Agent muss sich durch die Umgebung bewegen können.

03:55.710 --> 03:57.150
Wie würden Sie das darstellen?

03:57.360 --> 03:58.830
Wie würdest du das schreiben?

03:59.070 --> 04:01.890
Für dieses Problem lassen wir es hier weg.

04:01.890 --> 04:04.650
Im nächsten Video werden wir uns diese Aktionen noch einmal ansehen.

04:05.100 --> 04:05.550
Fantastisch.

04:05.940 --> 04:06.960
Wir sehen uns im nächsten Video.
