WEBVTT

00:00.660 --> 00:03.920
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:03.930 --> 00:09.440
Und endlich geht es weiter mit dem Spaß, mit dem wir tiefes Lernen lernen.

00:09.450 --> 00:10.660
Also gut, schauen wir uns mal um.

00:10.720 --> 00:14.100
Bruce, wir sprachen über Mördergewinn und worum es geht.

00:14.140 --> 00:20.160
Und wir haben über die Agentenumgebung gelernt und wie der Agent den Zustand sieht.

00:20.210 --> 00:23.620
Oder sie hat eine Aktion, die eine Belohnung erhält.

00:23.640 --> 00:28.610
Betreten Sie einen neuen Zustand und anhand dieser Rückkopplungsschleife werden Sie weitere Maßnahmen ergreifen und

00:28.610 --> 00:29.460
daraus lernen.

00:29.460 --> 00:32.310
Verstehen Sie, welche Maßnahmen am besten sind.

00:32.310 --> 00:35.040
Und so haben wir uns dieses grundlegende Beispiel eines Labyrinths angesehen.

00:35.040 --> 00:40.550
Wir haben verstanden, dass die Umwelt in Asien erkundet, was die Werte der Staaten sind.

00:40.560 --> 00:45.150
Dann gingen wir vom Umgang mit den Werten der Staaten über den Umgang mit

00:45.150 --> 00:52.230
den Werten der Aktionen mit den Werten und dann von A-Basin, dass wir verstanden haben, wie Pläne in nicht sarkastischen Umgebungen

00:52.560 --> 00:57.070
funktionieren und wie Richtlinien in stochastischen Umgebungen funktionieren Beispiel für eine Richtlinie.

00:57.120 --> 01:01.340
Das ist also eine kurze Zusammenfassung von allem, was wir im grundlegenden Lernen besprochen haben.

01:01.450 --> 01:07.230
Lassen Sie uns nun einen Blick darauf werfen, wie dies durch Deep Learning durch Hinzufügen von Deep Learning auf die nächste Stufe

01:07.230 --> 01:08.080
gebracht werden kann.

01:08.260 --> 01:08.510
OK.

01:08.520 --> 01:16.110
Dies ist also unsere Umgebung, und wir werden jetzt hinzufügen, anstatt nur grundlegende Berechnungen in

01:16.110 --> 01:21.860
dieser Matrix durchzuführen, die wir haben, was ziemlich einfach ist.

01:21.870 --> 01:26.970
Was wir tun werden, ist, dass wir zwei Achsen hinzufügen, die eine x- und y-Achse hinzufügen, oder wir nennen

01:27.090 --> 01:28.480
sie x1 und x2.

01:28.560 --> 01:30.430
Nur um die Dinge noch allgemeiner zu machen.

01:30.480 --> 01:36.830
Und hier haben wir die reelle Zahl, die Reihe, die Spalten, 1, 2, 3, 4 und er wird die Anzahl der Reihen 1 bis 3 regeln.

01:36.960 --> 01:44.730
Und so kann nun jeder einzelne Zustand durch ein Paar von zwei Werten x1 und x2 beschrieben werden, sodass jedes

01:44.730 --> 01:50.940
dieser Quadrate, in denen sich der Agent möglicherweise befindet, mit x1 x2 beschrieben werden kann.

01:50.940 --> 01:58.280
Zum Beispiel ist er gerade im Quadrat mit X1 gleich 1 und x2 gleich 2.

01:58.470 --> 02:03.430
Und deshalb können wir nicht in Ihrem Quadrat entkommen, was wir in Ihrem Zustand beschreiben können.

02:03.480 --> 02:08.330
Dann ist dies natürlich eine sehr vereinfachte Version einer Umgebung, in der Staaten beschrieben werden.

02:08.340 --> 02:10.110
Aber es funktioniert trotzdem in diesem Fall.

02:10.290 --> 02:17.260
Das bedeutet, dass wir nun diese Zustände in ein neuronales Netzwerk einspeisen können.

02:17.400 --> 02:21.830
Übrigens möchte ich nur erwähnen, dass wir am Ende des Kurses der

02:21.830 --> 02:26.880
guten Anhänge ein x-Nummer eins und ein paar Possen haben, um diesen Abschnitt erfolgreich fortzusetzen.

02:26.970 --> 02:32.280
Es ist äußerst ratsam, dass Sie ein nicht erreichbares Netz aus einem künstlichen neuronalen Netzwerk auschecken,

02:32.280 --> 02:37.470
damit Sie wissen, wie sie funktionieren, so dass wir uns hier nicht näher damit befassen

02:37.470 --> 02:43.800
müssen und die Vorteile des Wissens über die Funktionsweise künstlicher neuronaler Netzwerke nutzen können und so geben wir diese

02:43.830 --> 02:51.870
Informationen über den Zustand in ein neuronales Netzwerk ein und verarbeiten diese Informationen dann in Abhängigkeit von der Struktur des neuronalen Netzwerks X1 und

02:51.870 --> 02:55.380
x2. Dabei kann es mehrere verborgene Schichten usw. geben.

02:55.380 --> 03:00.900
Das ist etwas, was Sie in den praktischen Übungen herausfinden werden, aber am Ende werden

03:00.900 --> 03:06.570
wir so strukturieren, dass es nach Werten aussieht und diese vier Werte tatsächlich unser Q-Wert sein werden.

03:06.570 --> 03:11.790
Die Werte, die vorgeben, welche Aktion wir durchführen müssen, und die nicht in diesem Lernprogramm, werden genau erkennen, wie

03:11.790 --> 03:15.220
diese Schlüsselwerte verwendet werden, um zu entscheiden, welche Aktion ausgeführt wird.

03:15.240 --> 03:22.490
Der wichtigste Punkt dabei ist jedoch, dass wir diesen Irrgarten nicht mehr aus der Lernperspektive betrachten.

03:22.650 --> 03:29.760
Wir nehmen jetzt die Zustände des Labyrinths und speisen sie in ein tiefes neuronales Netzwerk ein, um diese

03:29.820 --> 03:31.360
Kabinen zu erhalten.

03:31.410 --> 03:35.080
Und am Ende des Tages werden wir immer noch eine Aktion ausarbeiten, die wir noch

03:35.150 --> 03:39.900
verstehen werden, welche Aktion wir ergreifen müssen, und wir werden das alles ausführlicher besprechen, aber die Frage ist, warum

03:39.900 --> 03:42.990
dies so ist Wir tun all das, warum wir es nannten.

03:43.200 --> 03:47.990
Warum sind die Dinge so viel komplizierter, wenn der anfängliche Lernansatz bereits gut funktioniert

03:48.280 --> 03:48.990
hat?

03:49.170 --> 03:54.980
Der Grund dafür ist, dass das Lernen in diesem sehr simplen Umfeld funktioniert und wir beschäftigen uns

03:54.990 --> 03:59.830
vorerst mit diesem sehr simplen Umfeld, um die Konzepte besser verstehen zu können.

04:00.000 --> 04:06.220
Gleichzeitig funktioniert das einfache Kial-Lernen jedoch nicht mehr in komplexeren Umgebungen. Wir sprechen

04:06.600 --> 04:12.780
beispielsweise von selbstfahrenden Autos, die Doom schaffen oder spielen werden, wenn die künstliche

04:13.020 --> 04:19.200
Intelligenz Doom spielt oder andere Atari-Spiele wie Breakout oder sogar selbstfahrende Autos

04:19.260 --> 04:26.400
und fortschrittlichere Verstärkungs-Lernprodukte wie Roboter, die herumlaufen und in all diesen Fällen Aktionen ausführen. Grundsätzlich

04:26.730 --> 04:32.400
ist das Lernen nicht ausreichend. Es ist nicht stark genug, um

04:32.400 --> 04:34.700
diese Herausforderungen zu meistern.

04:34.710 --> 04:41.250
Und genau wie wir im Deep Learning-Kurs gesehen haben, ob Sie in unserer Disziplin waren oder wenn Sie

04:41.250 --> 04:47.820
die Anhänge zu Nummer 1 und X-2 absolviert haben, werden Sie wissen, dass Deep Learning weit überlegen ist Jede

04:47.820 --> 04:51.640
Art von maschinellem Lernen, geschweige denn ein einfaches cooles Lernen.

04:51.660 --> 04:55.770
Aus diesem Grund nutzen wir die Möglichkeiten des tiefen Lernens hier, sodass wir die

04:55.770 --> 04:58.580
Informationen über die Umgebung als Wertevektor einfließen lassen.

04:58.590 --> 05:04.240
In diesem Fall, um nur ein tiefes neuronales Netzwerk zu verwenden, und dann verwenden wir das, um die Aktionen auszuführen,

05:04.240 --> 05:07.220
die wir entscheiden möchten, welche Aktionen die Agenten ausführen werden.

05:07.420 --> 05:11.700
Das ist also eine Art Überblick auf hoher Ebene, warum wir das tun.

05:11.830 --> 05:17.920
Und nun wollen wir uns etwas genauer anschauen, was mit dem Konzept des coolen

05:17.920 --> 05:24.100
Lernens passiert, wenn wir die Transformation von einem einfachen Lernen in ein tiefes Killary vollziehen.

05:24.130 --> 05:31.720
Wie Sie in den vorherigen Intuitions-Tutorials gesehen haben, hatten wir eine Folie wie diese, die die Grundlage für das Lernen

05:31.960 --> 05:33.550
von zeitlichen Differenzen bildet.

05:33.700 --> 05:37.430
Dies ist die Formel für den zeitlichen Unterschied. Im Grunde gehen wir also durch.

05:37.430 --> 05:44.640
Im Grunde hatten wir also einen Agenten, der sich in diesem Zustand befand, der mit dem blauen Pfeil gekennzeichnet ist.

05:45.070 --> 05:51.760
Und wir haben verstanden, wie der zeitliche Unterschied für diesen Wert wirkt, wenn er zum Beispiel steigt.

05:51.790 --> 05:57.250
Was wir also hier gesehen haben, war im einfachen Killary nicht das tiefe Lernen im einfachen

05:57.250 --> 05:57.610
Mörder.

05:57.640 --> 06:05.560
Was wir sahen, war, bevor der Agent einen späteren Farbtonwert hatte, den er über diese Aktion des Aufstiegs gelernt

06:05.560 --> 06:06.260
hatte.

06:06.340 --> 06:08.700
Und so entschied er sich dafür, nach oben zu gehen.

06:08.860 --> 06:14.830
Und gleich nachdem er seine Aktion ausgeführt hat, erhält er eine Belohnung dafür, dass er diese Aktion in diesem Zustand durchführt.

06:14.830 --> 06:21.070
Und das ist die Belohnung und jetzt kann er den Wert des aktuellen Zustands auswerten, in dem

06:21.070 --> 06:27.850
er sich befindet. Dies ist das Maximum aller neuen q-Werte aller Würfel der neuen Aktionen, die er als Ausdruck

06:27.850 --> 06:32.400
und als Primzahl annehmen kann Lesen multipliziert mit dem DK-Faktor von Gamma.

06:32.440 --> 06:40.450
Das ist also im Wesentlichen der Hinweis auf den neuen Würfelwert oder auf eine Art wie der empirische Würfelwert, den er

06:40.450 --> 06:43.200
gerade für diese Aktion erhalten hat.

06:43.270 --> 06:45.640
Und im Idealfall sollten diese beiden identisch sein.

06:45.640 --> 06:51.430
Also sollte der tatsächliche Q-Wert, den er in dieser Erinnerung in Erinnerung hatte,

06:51.430 --> 06:57.420
der tatsächlichen Belohnung plus dem Gamma-Wert den Wert des Zustands entsprechen, in dem er landete.

06:57.610 --> 07:01.870
Und so berechnen wir den zeitlichen Unterschied, nach dem wir suchen, was Sie wollen, minus

07:01.870 --> 07:05.200
dem, was er im Sinn hatte, was er erwartet hatte.

07:05.200 --> 07:06.740
Sie würden eine von der anderen abziehen.

07:06.780 --> 07:07.690
Das ist ein zeitlicher Unterschied.

07:07.690 --> 07:14.890
Und dann verwenden Sie Ihre Lernrate Alpha, um Ihren q-Wert um den zeitlichen Unterschied anzupassen,

07:14.890 --> 07:16.940
jedoch mit einem Alpha-Koeffizienten.

07:17.110 --> 07:20.360
Das ist also die Essenz des einfachen Lernens.

07:20.460 --> 07:25.990
Schauen wir uns jetzt an, wie sich das in Killary verändert. Wir werden also immer noch mit

07:26.000 --> 07:29.440
der Folie arbeiten, aber wir werden genau sehen, was passiert.

07:29.620 --> 07:35.890
In einem tiefen Lernen wird das neuronale Netzwerk Valis voraussagen, wie wir es zuvor gesehen haben und wie wir sehen

07:35.890 --> 07:36.320
werden.

07:36.370 --> 07:42.340
Donna Citronelle das neuronale Netzwerk wird Werte vorhersagen oder könnte mehr Werte von mehr möglichen

07:42.340 --> 07:44.790
Aktionen in einem bestimmten Zustand vorhersagen.

07:44.800 --> 07:48.500
Aber in diesem Fall wissen wir, dass es nur noch vier rechtschaffene Aktionen gibt.

07:48.670 --> 07:56.160
Das neuronale Netzwerk wird also vier dieser Werte vorhersagen, so dass es in einer tiefen Lernsituation kein Ende gibt. Wichtig ist,

07:56.170 --> 07:58.800
dass es kein Vorher oder Nachher gibt.

07:58.960 --> 08:01.610
Und so werden wir das ein bisschen besser kennenlernen.

08:01.720 --> 08:08.080
Das neuronale Netzwerk wird also vier dieser Werte vorhersagen, und es wird nicht mit dem

08:08.140 --> 08:15.280
nachgeschalteten verglichen, sondern das neuronale Netzwerk wird mit diesem Wert verglichen, aber es war der Wert, der

08:15.400 --> 08:17.740
im vorherigen Schritt berechnet wurde.

08:17.740 --> 08:22.950
Also in der vorherigen Zeit, als der Agent genau in diesem Feld war.

08:23.080 --> 08:30.850
Nehmen wir an, ich weiß es nicht. Vor einiger Zeit befand sich der Agent wieder genau in

08:30.850 --> 08:34.420
diesem Feld und errechnete diesen Wert zuvor.

08:34.420 --> 08:40.630
Vor langer Zeit hat der Agent also diesen Wert berechnet, dann haben die Agenten diesen Wert für die

08:40.630 --> 08:43.720
Zukunft gespeichert und jetzt ist die Zukunft gekommen.

08:43.720 --> 08:48.640
Jetzt ist er wieder auf dem Platz und jetzt hat er diese Würfelwerte, die vorhergesagt werden, und einer davon ist

08:48.640 --> 08:50.510
für die vier, die nach oben gehen.

08:50.680 --> 08:57.220
Nun wird er den vorhergesagten Wert von Q mit diesem Wert, den er aus dem vorherigen

08:57.220 --> 09:02.520
Schritt aufgezeichnet hat, vergleichen und wird genau verstehen, warum dies gerade jetzt so

09:02.530 --> 09:03.440
wichtig ist.

09:03.520 --> 09:07.990
Zu dieser Zeit gibt es keinen Offizier auf diesem Platz.

09:08.140 --> 09:14.650
Wir nehmen den Q-Wert, den er dieses Mal mit Hilfe des neuronalen Netzwerks vorausgesagt hat,

09:14.710 --> 09:22.060
und wir vergleichen ihn mit diesem Wert, den er vom vorherigen Mal hatte, als er sich in

09:22.110 --> 09:28.100
diesem Feld befand, und die Situation beurteilte Mal tat er diese Aktion tatsächlich.

09:28.270 --> 09:29.290
Also los geht's.

09:29.290 --> 09:33.360
Nun schauen wir uns an, wie das im neuronalen Netzwerk funktioniert und warum.

09:33.370 --> 09:38.740
Warum ist es so, als ob ich weiß, dass es sich jetzt etwas kompliziert anhört, aber wir werden es in einer Sekunde in einfache

09:39.310 --> 09:39.990
Begriffe zerlegen.

09:40.000 --> 09:44.380
Das heißt, in Ihrem eigenen Netzwerk, das wir in den Zuständen der Umgebung

09:44.380 --> 09:48.880
in das neuronale Netzwerk einspeisen, durchlaufen die verborgenen Schichten, die mit diesen Ausgängen ausgegeben werden.

09:48.880 --> 09:56.830
In diesem spezifischen Zustand sind dies die Cube-Werte, die das neuronale Netzwerk für mögliche Aktionen

09:56.830 --> 09:57.380
vorhersagt.

09:57.400 --> 09:58.420
Das sind die kumulierten.

09:58.420 --> 10:04.270
Dann scheint es, als würden wir ein Ziel anvisieren, und diese Ziele sind genau vorhanden. Wenn wir hier zurückkehren, ist

10:04.270 --> 10:07.230
dies das Ziel. Dies ist also der vorhergesagte Wert.

10:07.300 --> 10:11.740
Und dann wissen wir aber auch, dass wir vom letzten Mal, als wir auf dem Platz waren, ein Ziel haben.

10:11.800 --> 10:16.660
Wir haben ein Ziel für diese Aktion, die zum Beispiel läuft.

10:16.660 --> 10:21.490
Hier haben wir ein Ziel und wir werden vergleichen. Wir vergleichen Q1 mit diesem

10:21.490 --> 10:28.390
Ziel. Wir vergleichen Q2 mit dem Ziel, das wir aus dem vorherigen Q3 hatten, mit einem Ziel Q4 und dem Ziel.

10:28.420 --> 10:36.610
Dies ist also der Teil, in dem das neuronale Netzwerk oder der Agent jetzt durch tiefes Lernen lernt,

10:36.610 --> 10:38.630
wie man besser durchgeht.

10:38.650 --> 10:44.920
Der entscheidende Punkt hier ist, dass wir immer noch cooles Lernen anwenden, aber die Konzepte sind einfach zu lernen. Sie lernen

10:44.980 --> 10:48.940
durch zeitliche Unterschiede, die recht einfach sind, was wir bereits besprochen haben und wir

10:48.940 --> 10:50.720
wissen sehr gut, warum nicht.

10:50.920 --> 10:56.100
Gleichzeitig lernen im tiefen Lernen, wie neuronale Netzwerke neuronale Netzwerke lernen, indem wir die

10:56.100 --> 10:56.970
Gewichte anpassen.

10:57.010 --> 11:07.120
Daher müssen wir die Konzepte der Verstärkung der Konzepte des einfachen Kill-Lernens an die Art und Weise anpassen, wie neuronale Netzwerke

11:07.120 --> 11:08.550
tatsächlich funktionieren.

11:08.710 --> 11:10.950
Und das ist durch die Aktualisierung ihrer Gewichte.

11:10.960 --> 11:14.950
Deshalb versuchen wir hier herauszufinden, wie wir dieses Konzept der

11:15.400 --> 11:21.060
zeitlichen Differenz an Ihr eigenes Netzwerk anpassen, um die volle Leistungsfähigkeit neuronaler Netzwerke nutzen zu können.

11:21.260 --> 11:27.790
Bis jetzt haben wir dies verstanden, so dass wir hier in unseren Umgebungszustand eintreten, während ein Vektor durch ein neuronales Netzwerk geht. Wir

11:27.790 --> 11:33.240
erhalten Vorhersagen von Schlüsselwerten und dann vom vorherigen Zeitpunkt, an dem sich der Agent in diesem Zustand befand.

11:33.240 --> 11:39.480
Wir haben das neue Ziel, für jede dieser Aktionen ein Ziel zu bestimmen.

11:39.490 --> 11:40.870
Und jetzt sind wir dran.

11:40.870 --> 11:43.360
OK, lasst uns jedes mit jedem vergleichen.

11:43.630 --> 11:50.500
Und von hier aus ist es ziemlich einfach, wenn Sie mit neuronalen Netzwerken Schritt halten.

11:50.500 --> 11:52.500
Das ist wieder mal ein Anax.

11:52.570 --> 12:00.070
Nummer eins, wir werden einen Verlust berechnen, der hier ist, und wir werden q dieses Ziel minus Q

12:00.070 --> 12:01.760
minus dieses Ziel anvisieren.

12:01.840 --> 12:06.160
Wir werden den quadratischen Unterschied von jedem von diesen korrigieren und sie

12:06.160 --> 12:06.730
aufsummieren.

12:06.820 --> 12:12.310
Also nehmen wir die Summe der quadrierten Differenzen dieser Werte und ihrer Ziele und wir werden sie in die Höhe schicken,

12:12.310 --> 12:13.940
und das wird ein Verlust sein.

12:14.020 --> 12:19.030
Und im Idealfall, genau wie wir es beim zeitlichen Unterschied gelernt hatten. Wenn wir also

12:19.420 --> 12:25.180
noch einmal zur zweiten Erinnerung zurückkehren, haben wir gesagt: Idealerweise möchten wir, dass dies dem gleichen entspricht,

12:25.180 --> 12:31.750
also wollen wir, dass der zeitliche Unterschied gleich Null ist Wenn Sie genau sagen, was genau Sie wissen, ist der

12:31.750 --> 12:37.900
Q-Wert der, dass der Agent genau sagt, oder dass er über Speicher verfügt, und der Speicher die Umgebung genau

12:38.590 --> 12:42.940
beschreibt. Daher kann der Agent die Umgebung nie richtig in Ordnung bringen.

12:43.000 --> 12:48.880
Es gibt keine Überraschungen, es gibt keine. a solange ein zeitlicher Unterschied ein Pilot ist, ist er äußerst

12:48.880 --> 12:49.970
positiv oder stark negativ.

12:50.040 --> 12:51.340
Dann haben wir einige Überraschungen.

12:51.340 --> 12:55.690
Wenn die allgemeinen Unterschiede jedoch null sind, kennt er die Umgebung so gut, dass er

12:55.690 --> 13:01.110
vorhersagen kann, was vor sich geht, und er kann und daher ist seine Politik sehr gut und er kann navigieren.

13:01.350 --> 13:02.200
Also hier

13:02.200 --> 13:07.460
Das gleiche gilt, wir wollen, dass dieses Gesetz so nahe wie möglich an Null liegt, so klein wie möglich.

13:07.720 --> 13:14.680
Und deshalb gehen wir jetzt zu diesem Teil, in dem wir die wirkliche Kraft des neuronalen Netzwerks nutzen werden, also

13:14.680 --> 13:19.910
nehmen wir diesen Verlust und nutzen die Rückwärtsausbreitung oder das Stocken als Gradientenabstieg diesen Verlust

13:19.970 --> 13:27.040
zu nehmen und ihn durch das Netzwerk zu leiten oder durch ein Netzwerk zu verbreiten und durch ein Netzwerk zu verbreiten,

13:27.040 --> 13:31.120
um ein wichtiges und anständiges Datum für die Gewichte zu geben.

13:31.120 --> 13:37.780
Alle diese Zusammenfassungen im Netzwerk, so dass das nächste Mal, wenn wir dieses Netzwerk durchlaufen, die Umgebung bereits etwas besser

13:37.930 --> 13:41.050
beschreibt und die Umgebung beschreibt. Genau das sind wir.

13:41.080 --> 13:48.090
Also hier haben Sie, wenn Sie zurückgehen, dies berechnete Verluste Kalka und erraten, Propagator für das Netzwerk die

13:48.100 --> 13:49.330
Gewichte aktualisiert werden.

13:49.330 --> 13:55.720
Dann, wenn wir das nächste Mal hier sind, geschieht dies immer wieder. Dies geschieht immer wieder und

13:55.780 --> 14:02.560
so weiter und so und es passiert immer wieder und so lernt dieser Agent oder im Grunde genommen

14:02.560 --> 14:09.880
wird das neuronale Netzwerk, das das Gehirn des Agenten ist, immer mehr Beschreibender für die Umgebung und der Agent kann

14:09.880 --> 14:12.100
daher in der Umgebung navigieren.

14:12.130 --> 14:17.980
Wenn wir eine deskriptive Umgebung sagen, bedeutet dies im Wesentlichen, dass, wenn wir

14:17.980 --> 14:25.510
die Zustände der Umgebung angeben, in der sich dieser Agent befindet, wir uns mit großer Wahrscheinlichkeit den

14:25.510 --> 14:30.790
tatsächlichen Cue-Werten nähern Aktion und das geschieht, weil diese neuen

14:30.790 --> 14:36.940
Ziele tatsächlich empirisch abgeleitet werden, so dass er jeden Tag diese niedlichen Ziele findet.

14:37.090 --> 14:40.090
Das ist tatsächlich da, also beobachtet er tatsächlich.

14:40.100 --> 14:42.940
OK, wenn ich diesen Schritt mache, was ist die Belohnung, die ich bekomme?

14:43.060 --> 14:45.070
Und was sind dann die Werte dieses Staates?

14:45.070 --> 14:48.850
Das gleiche, wie wir es zuvor beim Q-Lernen und der einfachen Lernintuition gesehen haben.

14:48.850 --> 14:54.550
Er lernt dies durch Ausprobieren und baut dann sein Netzwerk auf oder so

14:54.880 --> 14:59.260
ist es, dass die vorhergesagten Werte nahe beieinander liegen.

14:59.380 --> 15:01.330
Das Ziel erreichen.

15:01.330 --> 15:07.360
Q-Werte sind dem Konzept, das wir hier erörtert haben, beim einfachen Lernen des

15:07.420 --> 15:09.870
einfachen Skill-Lernens sehr ähnlich.

15:09.910 --> 15:10.460
Hier bitteschön.

15:10.460 --> 15:12.540
So lernt der Agent.

15:12.550 --> 15:13.930
Wir sind also hier.

15:14.260 --> 15:15.490
Und das ist der Lernteil.