WEBVTT

00:01.060 --> 00:04.460
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.460 --> 00:07.630
Heute werden wir über die Belman-Gleichung sprechen.

00:07.630 --> 00:12.580
Es ist ein ziemlich komplexes Thema, und wir werden es Schritt für Schritt in diesem gesamten

00:12.580 --> 00:17.110
Abschnitt des Kurses vorstellen. Ich werde also nicht gleich in die komplexeste Version der

00:17.110 --> 00:21.730
Belmont-Gleichung einsteigen, sondern wir Ich werde es langsam einführen, um nach und nach zu

00:21.730 --> 00:23.250
verstehen, wie es funktioniert.

00:23.410 --> 00:28.480
Und ich hoffe Ihr Ziel mit diesem Ansatz, wenn Sie G. sind. R. Kommen wir gleich rein.

00:28.690 --> 00:33.820
Wir werden also ein paar Schlüsselkonzepte haben, mit denen wir arbeiten werden, und diese Konzepte sind

00:33.820 --> 00:34.430
es.

00:34.600 --> 00:41.110
S steht für Zustände, dh der Zustand, in dem sich unser Agent befindet, oder ein anderer möglicher Zustand, in dem es

00:41.740 --> 00:45.490
ein Agent sein kann, repräsentiert eine Aktion, die ein Agent ausführen kann.

00:45.490 --> 00:50.680
So kann ein Agent auf eine bestimmte Liste von Aktionen zugreifen, und Aktionen sind sehr

00:50.680 --> 00:53.610
wichtig, wenn sie in einer Statuskombination betrachtet werden.

00:53.620 --> 00:57.880
Wenn Sie sich also in einem Swing-Zustand befinden und sich dann Aktionen ansehen, wird klar,

00:57.880 --> 01:01.870
was aus diesen Aktionen resultieren wird, weil Sie eine Aktion von alleine betrachten oder

01:01.870 --> 01:07.390
ein Zustand nicht wirklich sinnvoll ist, weil Sie dies tun Ich weiß nicht, wo Sie sind und wo Sie

01:07.390 --> 01:13.240
möglicherweise enden können, und dann haben wir unser Wer steht für Belohnung, und das ist der Weg, den der Agent bekommt,

01:13.240 --> 01:16.980
um in einen bestimmten Zustand zu gelangen, und Gamma ist der Diskontfaktor.

01:16.990 --> 01:21.510
Und wir sprechen in einer Sekunde über den Diskontfaktor. Alles macht gerade jetzt Sinn, aber sie machen sich nur

01:21.510 --> 01:21.810
Notizen.

01:21.820 --> 01:26.300
Denken Sie daran, dass wir diesen Brief haben werden, mit dem Gamelin später arbeiten wird.

01:26.620 --> 01:31.230
Die Person hinter der Bellman-Gleichung ist also Richard Ernest Bellman.

01:31.360 --> 01:39.400
Er war ein Flugmathematiker und entwickelte die Konzepte der dynamischen Programmierung, die wir jetzt als

01:39.400 --> 01:43.790
Verstärkungslernen bezeichnen, oder die wir die Belman-Gleichung nennen.

01:44.110 --> 01:45.490
Nun, so heißen wir jetzt.

01:45.490 --> 01:52.350
Und 1953 kam er zu diesem Konzept und zu dieser Zeit kam mir die Belmont-Belman-Gleichung.

01:52.630 --> 01:56.530
Schauen wir uns also an, wie das alles funktioniert.

01:56.540 --> 02:02.410
Es gibt unseren reizenden Agenten in der unteren linken Ecke und er ist in einem Labyrinth, und dies ist

02:02.500 --> 02:08.680
ein ziemlich klassisches Labyrinth, in dem Sie einige Blöcke haben. Die breiten Blöcke sind Blöcke, in denen der Agent in

02:08.680 --> 02:13.800
den grauen Block treten kann nur nicht zugänglich sagt wie eine Wand in diesem Labyrinth.

02:13.900 --> 02:20.150
Das Grün ist, wo der Agent sein sollte, um dort zu landen. Dort wollen wir, dass der Agent das

02:20.150 --> 02:20.910
Ziel erreicht.

02:21.220 --> 02:25.050
Und das Rot ist Feuergrube oder der Motor fällt in die Feuerstelle.

02:25.060 --> 02:26.660
Er wird das Spiel verlieren.

02:26.950 --> 02:31.330
In der Feuerstelle ist die Belohnung also R minus 1.

02:31.330 --> 02:36.330
Das ist unsere Art, dem Agenten mitzuteilen, dass dies nicht etwas ist, das wir von Ihnen möchten.

02:36.430 --> 02:41.320
Zum Beispiel erinnern wir uns an das Beispiel, wenn wir Hunde trainieren, möchten wir ihnen sagen, dass es ein böser Hund ist,

02:41.320 --> 02:46.030
wenn es nicht das Richtige tut, was dasselbe tun wollte. Wir sagen dem Agenten, dass dies nicht etwas ist, das Sie

02:46.030 --> 02:49.480
sein sollten Wenn Sie nicht auf dem Platz enden, wird das Eichhörnchen jedes Mal,

02:49.480 --> 02:53.300
wenn es nicht passiert, eine negative Belohnung erhalten, so dass Sie mit einer negativen Belohnung bestraft werden.

02:53.530 --> 02:57.610
Auf der anderen Seite, wenn es auf dem Grünen Platz landet, wird es eine Belohnung plus eins

02:57.610 --> 02:59.330
geben, was bedeutet, dass wir das wollten.

02:59.590 --> 03:02.470
Das sind also die beiden Belohnungen, die der Agent nicht bekommen kann.

03:02.470 --> 03:06.210
Und wie lernt es, in diesem Irrgarten zu arbeiten?

03:06.370 --> 03:10.750
Genau wie in diesem Beispiel der Roboter-Hunde, die das Laufen gelernt haben und die wissen lassen, dass es

03:10.750 --> 03:12.490
die Aktion ist, die Sie ausführen können.

03:12.490 --> 03:18.360
Sie können nach rechts oder unten gehen. Dies sind vier mögliche Aktionen, die Sie ausführen können.

03:18.360 --> 03:21.430
Haben Sie ein Spiel mit dem, was Sie sich vorstellen können.

03:21.430 --> 03:26.320
Der Agent könnte nach rechts gehen, dann zwei weitere nach rechts, vielleicht nach links, indem er

03:26.320 --> 03:31.160
einfach die Taste drückt und versucht zu sehen, was passiert, und sie kehren hierher zurück.

03:31.180 --> 03:34.660
Sie gehen hoch gehen runter gehen runter gehen rechts gehen.

03:34.660 --> 03:38.450
Für den Moment haben sie nichts gelernt, es ist bisher nichts passiert.

03:38.470 --> 03:41.790
Sie biegen rechts ab und landen auf dem Green Square.

03:41.830 --> 03:48.150
Sie merken, wow, dass ich gerade einen Plus-Awar bekam. Sobald ich den Green Square betrat, bekamen sie

03:48.150 --> 03:49.040
eine Plus-Prämie.

03:49.090 --> 03:53.560
Und das löst den Algorithmus aus und sagt, OK, das ist wirklich cool.

03:53.830 --> 03:58.920
Ich werde dafür belohnt, dass ich auf dem Platz gelandet bin, also möchte ich auf dem Platz landen.

03:58.930 --> 04:00.650
Was bedeutet das für den Agenten?

04:00.910 --> 04:04.310
Das heißt, es stellt sich die Frage, wie ich zu diesem Platz gekommen bin.

04:04.300 --> 04:10.690
Was war der vorhergehende Zustand, in dem ich mich befand und welche Maßnahmen ich unternehme, um zum Quadrat zu gelangen,

04:10.690 --> 04:14.810
und blickt zurück und sagt, OK, also war der vorhergehende Zustand dieser.

04:14.950 --> 04:17.400
Es erweist sich in diesem Zustand als wertvoll.

04:17.410 --> 04:19.240
Derjenige, der den roten Pfeil entzündet.

04:19.270 --> 04:26.230
Denn von diesem Zustand aus bin ich nur noch einen Schritt davon entfernt, die maximale Belohnung zu erhalten, von

04:26.230 --> 04:33.210
der ich nur träumen kann, und einen Keks für einen Hund, sobald ich weiß, ob ich jemals in diesem Zustand bin.

04:33.250 --> 04:35.150
Das mit dem roten Pfeil markierte Quadrat.

04:35.200 --> 04:36.740
Ich muss nur richtig drücken.

04:37.030 --> 04:41.440
Also, wie sage ich mir, um mich daran zu erinnern, dass dieser Zustand wertvoll ist?

04:41.440 --> 04:45.170
Nun, für mich gibt es eigentlich keinen Unterschied als Agent.

04:45.170 --> 04:50.380
Es gibt keinen Unterschied, ob ich mich auf dem Grünen Platz oder auf dem Weißen Platz rechts

04:50.380 --> 04:51.610
im Grünen Platz befinde.

04:51.610 --> 04:58.810
Ich markiere also für mich, dass das Y-Quadrat für mich gilt, es hat einen Wert von 1, da es genau dazu führt, einen zu belohnen,

04:58.810 --> 05:03.280
sobald ich im weißen Quadrat bin. Ich weiß, ich werde nur noch eine Aktion ausführen.

05:03.350 --> 05:08.180
Ich bin auf dem grünen Platz und bekomme eine Belohnung oder eine Belohnung. Deswegen werde ich sagen,

05:08.180 --> 05:14.690
dass der Wert dieses Quadrats gleich eins ist, da es direkt zu eventuellen Subtraktionen führt Ich meine hier, ich weiß, dass meine Belohnung

05:14.690 --> 05:18.890
eine sein wird. Ich werde dieses Quadrat als den Aufruf an eines markieren, das der

05:18.890 --> 05:22.430
Wert ist, der den wahrgenommenen Wert des Zustands des Staates darstellt.

05:22.430 --> 05:24.740
Als nächstes wird der Agent in Ordnung sein.

05:24.800 --> 05:26.930
Wie komme ich in dieses Feld?

05:27.050 --> 05:29.990
Und du weißt, dass er vielleicht wieder herumlaufen könnte und so weiter.

05:29.990 --> 05:33.800
Und wieder oben auf dem Platz und sei OK, wie bin ich vorher auf diesen Platz gekommen.

05:33.800 --> 05:36.860
Und der Weg, den ich in dieses Feld gelangte, war von diesem Feld.

05:36.860 --> 05:37.530
Interessant.

05:37.550 --> 05:42.980
OK, sobald ich diesen Platz betrete, weiß ich, dass ich alles richtig machen muss.

05:42.980 --> 05:45.640
Und von hier weiß ich bereits, dass ich gewinnen werde.

05:45.650 --> 05:49.970
Ich weiß genau, wie sich hier alles entfalten wird, und ich weiß, dass der Wert, in diesem Zustand zu

05:49.970 --> 05:50.970
sein, gleich eins ist.

05:51.020 --> 05:58.340
Und da es nichts gibt, hält mich nichts davon ab, von hier aus zu wachsen. Hier wird der Wert zu

05:58.340 --> 06:03.920
einem wahrgenommenen Wert, den ich als Fahrzeug hier zu schätzen wünsche, da ich dies hier

06:03.920 --> 06:04.640
meine.

06:04.650 --> 06:06.660
Sei hier und ich bin ziemlich schnell hier.

06:06.740 --> 06:07.980
Also werde ich gewinnen.

06:08.180 --> 06:10.490
Und wie kommst du davor in dieses Feld?

06:10.490 --> 06:12.940
Nun, ich bin von diesem Platz in dieses Feld gekommen.

06:13.070 --> 06:19.670
Der Wert ist also ein ähnlicher Ansatz. Der Wert des Seins ist auch gleich Eins usw. Daher ist der Wert des Seins hier

06:19.670 --> 06:23.690
gleich dem Wert des Seins hier gleich Eins, da jeder von ihnen zum nächsten

06:23.690 --> 06:25.710
und diesen zu führt die Ziellinie.

06:26.240 --> 06:29.850
Das ist alles ziemlich logisch in dieser Phase.

06:29.960 --> 06:33.410
Das sind wir, die Belman-Gleichung gerade jetzt entwerfen.

06:33.410 --> 06:40.460
Das heißt, wir könnten möglicherweise darüber nachdenken, eine Gleichung zu entwerfen, die einem Agenten hilft, durch das Labyrinth zu gehen.

06:40.490 --> 06:45.840
Schauen Sie sich die Belohnung an, dann geben Sie dem vorherigen Zustand einen Wert von gleich, um das

06:45.840 --> 06:51.920
Verfahren zu belohnen, und so ist es, als ob ein Weg ein guter Weg wäre, aber das Problem hier ist in

06:52.010 --> 06:58.790
Ordnung, was passiert, wenn unser Agent aus irgendeinem Grund beginnt diesen Zustand, anstatt hier zu beginnen und diese Maßnahmen zu ergreifen, und dass

06:58.880 --> 07:00.480
es tatsächlich im Staat beginnt.

07:00.650 --> 07:06.980
Woher weiß es, wie erinnert es sich, welche Aktion er ergreifen soll, wenn es richtig läuft oder nach unten geht oder vielleicht nach links geht

07:06.980 --> 07:08.540
oder nach oben gehen sollte?

07:08.540 --> 07:13.220
Wie erinnert es sich, welche die nächste Fortsetzung von hier ist.

07:13.220 --> 07:18.660
Wenn die einzigen Werte darin liegen, sind diese Werte gleich, wenn sie nicht sehen können, was weiter weg ist.

07:18.660 --> 07:19.700
Es kann nur sehen.

07:19.700 --> 07:20.030
Gut.

07:20.030 --> 07:21.940
Was ich hier habe und was ich hier habe.

07:21.980 --> 07:23.530
Woher weiß es, welchen Weg es gehen soll.

07:23.660 --> 07:27.920
Nun, zu diesem Zeitpunkt ist es nicht so ziemlich identisch für das Alter und welchen Weg.

07:27.960 --> 07:30.770
Deshalb funktioniert dieser Ansatz nicht wirklich.

07:30.790 --> 07:32.930
Das ist eine sehr vereinfachende Erklärung.

07:32.930 --> 07:34.500
Natürlich ist noch viel mehr dabei.

07:34.520 --> 07:40.550
Aber auf eine intuitive Art und Weise können wir diesen Wert nicht einfach rückgängig machen.

07:40.790 --> 07:46.210
Denn einer der Gründe liegt darin, dass der Agent sich zwischen diesen beiden Werten befindet und wohin er gehen soll.

07:46.210 --> 07:48.560
Es kann nicht so verwirrt werden.

07:48.620 --> 07:52.350
Und wie lösen wir dieses Problem, was werden wir tun?

07:52.400 --> 07:57.860
Und hier werden wir langsam beginnen, die Belman-Gleichung in ihrer tatsächlichen Form Schritt für

07:57.860 --> 07:58.640
Schritt einzuführen.

07:58.670 --> 08:01.510
Die Belman-Gleichung sieht also ungefähr so aus.

08:01.640 --> 08:07.100
Wir haben also bereits über den Wert eines bestimmten Zustands gesprochen, wie Sie es von

08:07.100 --> 08:10.250
Ihrem gegenwärtigen Zustand oder einem bestimmten Zustand sind.

08:10.370 --> 08:17.270
Und als Prime ist der Staat der folgende Staat der Staat, in dem Sie nach dem Staat und durch

08:17.270 --> 08:18.990
konzertierte Aktionen landen werden.

08:19.000 --> 08:24.160
Aber wir wissen, dass es viele Aktionen gibt, die ein Agent ausführen kann, und deshalb haben wir diesen Max hier.

08:24.260 --> 08:30.020
Wenn wir also eine Maßnahme ergreifen, was mit einem Agenten geschehen wird, nehmen wir an, wir sind in einem Zustand, in dem

08:30.050 --> 08:32.700
wir eine Maßnahme in Staatsvermögen ergreifen und Maßnahmen ergreifen.

08:32.780 --> 08:36.690
Was passieren wird ist, wird sofort eine Belohnung erhalten, wenn Sie in einen neuen Zustand gelangen.

08:36.770 --> 08:41.960
Denken Sie daran, dass die Belohnung eins oder plus eins oder minus eins sein kann, wenn sie sich am Ende des

08:41.960 --> 08:46.240
Spiels befindet, oder es kann eine Null sein, wenn sie während des gesamten Spiels vorhanden ist.

08:46.280 --> 08:55.160
Das ist die Belohnung Plus wir werden in einen neuen Zustand kommen, der den Wert von s prime hat.

08:55.160 --> 08:57.820
Das ist also der Wert des neuen Zustands und des Gammawerts.

08:57.820 --> 08:58.820
Wir werden in einer Sekunde darüber sprechen.

08:58.820 --> 09:03.560
Aber der Punkt, den ich hier ansprechen möchte, oder der Punkt, den ich hier anspreche, ist, dass es viele verschiedene Aktionen gibt,

09:03.560 --> 09:05.810
die wir ergreifen können, und deshalb haben wir das Maximum.

09:05.810 --> 09:09.630
Indem wir handeln, erhalten wir eine Belohnung und landen in einem neuen Zustand.

09:09.740 --> 09:14.660
Und so werden wir für jeden Abzug aus dem in unserem Fall vor unseren möglichen Aktionen für

09:14.660 --> 09:17.810
jede der möglichen 4 Aktionen eine Gleichung wie diese haben.

09:17.810 --> 09:22.980
Dies hat also einen Wert, denn sie haben für jede von vier Aktionen einen anderen

09:23.480 --> 09:28.750
Wert und wir werden nur das Maximum betrachten, da der Agent natürlich den optimalen Zustand einnehmen möchte.

09:28.760 --> 09:33.860
Wenn er also im Zustand ist, wird er sich diese Werte anschauen, dann wird er das Maximum anhand der

09:33.860 --> 09:37.500
Aktion ermitteln und die Aktion ausführen, die das Maximum dieser Werte benötigt.

09:37.640 --> 09:41.480
Hoffentlich macht das Sinn, warum wir hier das Maximum erreichen.

09:41.660 --> 09:45.400
Dann bekamen wir die Belohnung und den Wert, der besagte, warum wir diesen Gabaa-Parameter hier haben.

09:45.650 --> 09:52.220
Nun, es ist genau dort, um das Problem zu lösen, wo der Agent nicht weiß, welchen Weg er gehen soll, weil er es

09:52.220 --> 09:52.850
nicht kann.

09:52.950 --> 09:56.600
Es vergleicht die Werte von zwei Zuständen auf beiden Seiten und sie sind die gleichen.

09:56.810 --> 10:00.890
Aus diesem Grund haben die Spieler den Abzinsungsfaktor genannt, also werden wir uns das genauer ansehen

10:00.890 --> 10:02.050
und es besser verstehen.

10:02.060 --> 10:04.680
Nehmen wir also eine Formel, die ich oben rechts aufschreibe.

10:04.760 --> 10:09.100
Und jetzt werden wir analysieren, welche Werte die verschiedenen Zustände haben.

10:09.140 --> 10:11.470
Und jeder Staat hier ist ein Quadrat.

10:11.470 --> 10:11.820
Nein.

10:11.840 --> 10:16.610
Eines dieser weißen Quadrate ist also ein Zustand. Ich meine, wir berechnen

10:16.610 --> 10:18.290
den Wert dieses Zustands.

10:18.290 --> 10:19.770
Fangen wir also mit dem Platz an.

10:19.790 --> 10:21.610
Was ist der Wert, in diesem Zustand zu sein.

10:21.860 --> 10:25.830
Nun, wir müssen das Maximum dieses Wertes über alle Aktionen hinweg nehmen.

10:26.120 --> 10:31.440
Und wir wissen, dass dieser Wert maximiert wird, wenn wir uns der Ziellinie nähern, und so

10:31.440 --> 10:36.440
wird er konstruiert. Wenn Sie einfach nur nachsehen, können Sie sehen, dass hier die Belohnung

10:36.590 --> 10:40.900
und hier ein Abzinsungsfaktor mit dem Wert des nächsten multipliziert wird Zustand.

10:41.060 --> 10:46.670
Und es macht einfach Sinn, dass wir diese Gleichung so konstruieren, dass es von hier aus das

10:46.670 --> 10:50.350
Maximum dieses Wertes ist, wenn wir uns nach rechts bewegen.

10:50.360 --> 10:56.120
So berechnen wir die Werte, die dieser Wert für diesen Zustand ist, den er als Maximum bezeichnet oder

10:56.300 --> 10:57.470
diesem Wert entspricht.

10:57.500 --> 11:01.000
Wenn wir uns nach rechts bewegen, gehen wir nach rechts.

11:01.010 --> 11:02.330
Wie wird dieser Wert aussehen?

11:02.360 --> 11:04.850
Nun, die Belohnung, wenn man sich nach rechts bewegt, ist gleich 1.

11:05.090 --> 11:10.490
Und unabhängig davon, welche Farbe Gamma ist, haben wir keinen Wert im Staat, weil wir bereits im

11:10.490 --> 11:11.720
bestmöglichen Zustand sind.

11:11.720 --> 11:12.880
Das ist also die letzte Stufe.

11:12.890 --> 11:16.280
Es wird keinen Wert haben, wir bekommen hier nur eine Belohnung und das ist das Ende des Spiels.

11:16.280 --> 11:20.300
Der Wert dieses Maximums wird also 1 sein.

11:20.510 --> 11:23.870
Und deshalb ist der Wert des Staates wie hier gleich 1.

11:23.870 --> 11:27.970
Jetzt werden die Dinge interessant, wenn wir uns nach links bewegen, wenn wir uns etwas nach hinten bewegen.

11:28.010 --> 11:34.060
Nun berechnen wir den Wert davon, in diesem Zustand zu sein, und dafür brauchen wir Gabaa.

11:34.070 --> 11:39.920
Nehmen wir also an, unser Abzinsungsfaktor ist ein Nullpunkt und es macht Sinn, was ein Abzinsungsfaktor ist, wenn wir

11:39.920 --> 11:40.960
diesen Wert berechnen.

11:40.960 --> 11:47.410
Also von hier aus basierend auf unserer Intuition und basierend darauf, weil wir wissen, wie dies funktioniert, wie dies funktioniert.

11:47.450 --> 11:51.340
Wir wissen, dass die beste Aktion nach rechts geht, denn von hier gehen wir hier hin.

11:51.530 --> 11:56.120
Das heißt, das Maximum wird in diesem Zustand erreicht, wenn Sie nach rechts gehen.

11:56.270 --> 11:58.970
Und so sehen wir, was passiert, wenn wir es hier anschließen.

11:58.970 --> 12:02.650
Wenn du also von hier nach hier gehst, bekommst du keine Belohnung.

12:02.720 --> 12:07.440
Aber dann bekommst du Camis, die neunmal den Nullpunkt des neuen Zustands bekommen, der eins ist.

12:07.640 --> 12:14.030
In diesem Fall ist das Ergebnis also das 1-fache einer 0. 9 mal ist eins gleich 2. 9

12:14.030 --> 12:15.890
Das sind also alle Werte pro.

12:16.250 --> 12:18.570
Wenn wir das jetzt berechnen, sehen Sie das von hier aus.

12:18.620 --> 12:23.990
Wir wissen nur, wenn wir uns das Labyrinth ansehen, das wir kennen, weil wir als Menschen

12:23.990 --> 12:28.450
verstehen, wie diese Gleichung funktioniert. Natürlich muss ein KI-Agent mit diesen Dingen experimentieren.

12:28.460 --> 12:32.180
Aber weil wir wie eine Kristallkugel haben, können wir dieses ganze Labyrinth sehen.

12:32.180 --> 12:33.860
Wir haben jetzt die Vogelperspektive.

12:33.860 --> 12:36.170
Wir wissen, dass die beste Aktion nach rechts geht.

12:36.320 --> 12:42.230
Wenn wir also alles hier einstecken, wird es null sein, keine Belohnung und der Bericht ist neunmal so

12:42.230 --> 12:45.530
hoch wie der Wert 0. 9 ist Nullpunkt einundachtzig und so weiter.

12:45.530 --> 12:50.420
Also hier wird es 0 sein. 23 und er wird 0 sein. 66.

12:50.420 --> 12:57.590
Sie können also sehen, dass der diskontierte Faktor so aussieht, als würde er den Wert des Staates herabsetzen, wenn Sie weiter

12:57.590 --> 12:58.610
weg sind.

12:58.610 --> 13:05.810
Wenn Sie also mit der Finanztheorie vertraut sind, ist dies dem Zeitwert des Geldes ähnlich, wie Sie es auf diese

13:05.810 --> 13:12.990
Weise denken würden. Was würden Sie heute vorziehen, 5 US-Dollar oder 5 US-Dollar in 10 Tagen zu haben?

13:13.050 --> 13:17.840
Nur wenn Ihnen jemand eine Wahl geben sollte, gebe ich Ihnen heute fünf Dollar, alle fünf, fünfzehn

13:17.840 --> 13:18.280
Tage.

13:18.390 --> 13:20.300
Natürlich würden Sie heute 5 Dollar wählen.

13:20.300 --> 13:20.850
Warum das.

13:20.870 --> 13:26.750
Nun, denn Sie können diese 5 Dollar einnehmen und sie zu einem bestimmten Zinssatz anlegen, der dem Gamma sehr

13:26.750 --> 13:27.470
ähnlich ist.

13:27.680 --> 13:33.950
Und Ihre $ 5 in 10 Tagen werden tatsächlich auf vielleicht 5 Dollar und 73 Cents oder so etwas anwachsen.

13:34.070 --> 13:36.410
Und so funktioniert der Zeitwert des Geldes.

13:36.410 --> 13:38.310
Und hier sehr ähnliches Konzept.

13:38.330 --> 13:43.250
Und das Wichtigste hier zu verstehen, ist nur eine Theorie, die das Lernen verstärkt.

13:43.260 --> 13:45.850
Richard Belman hat diese Gleichung aufgestellt.

13:46.190 --> 13:48.880
Und so verwenden wir es ab jetzt.

13:48.880 --> 13:51.430
Sie könnten also eine andere Gleichung aufstellen.

13:51.430 --> 13:54.820
Es muss nicht Gamla haben, es könnte einen anderen Faktor haben, den Sie vielleicht nicht kennen.

13:54.950 --> 14:01.550
Aber dieser Ansatz funktioniert und deshalb verwenden wir ihn, und so sieht es aus. Je weiter Sie also entfernt sind,

14:01.550 --> 14:06.670
desto weniger wert ist er im Staat und in Bezug auf Zeit und Geld.

14:06.680 --> 14:09.850
Wenn ich Ihnen sagen könnte, wo Sie lieber wären, wären Sie lieber hier.

14:09.950 --> 14:11.200
Möchten Sie lieber hier sein?

14:11.350 --> 14:12.920
Sie würden sagen, ich wäre lieber hier.

14:12.920 --> 14:18.770
Wir schaffen also dasselbe Phänomen wie der Zeitwert des Geldes, das wir künstlich durch Gamma

14:18.770 --> 14:24.680
erstellen, um Agenten zu motivieren oder Agenten dazu zu bringen, näher an der Ziellinie zu sein.

14:24.680 --> 14:29.720
Wenn Sie also nach einem Agenten gefragt werden, würden Sie aufgrund der Funktionsweise dieser Gleichung lieber hier oder hier

14:29.930 --> 14:31.590
sein, würde dies der Fall sein.

14:31.640 --> 14:33.380
Es gibt nichts mehr dazu.

14:33.380 --> 14:35.810
Es ist nicht etwas, dass die Welt so funktioniert.

14:35.810 --> 14:42.630
Nein, es ist nur etwas, das wir künstlich schaffen, damit unsere Agenten verstehen

14:42.750 --> 14:48.140
können, dass dies gut ist. Das ist gut hat

14:48.140 --> 14:50.030
in diesem gewesen.

14:50.120 --> 14:54.790
Auf diese Weise können Sie sehen, was der Agent sehen kann, in welche Richtung er gehen muss.

14:54.800 --> 15:00.270
Wenn ich hier stehe, kann man sehen, dass man sich an das Problem erinnert, das wir hier hatten oder hatte. Wenn

15:00.270 --> 15:05.130
ich hier stehe, gehe ich runter oder bin ich plötzlich hier, um hinaufzugehen oder gehe ich runter.

15:05.250 --> 15:10.080
Nun, jetzt gibt es kein Problem mehr, denn er kann sehen, dass es besser ist, zu steigen, weil

15:10.080 --> 15:11.480
die Werte hier sind.

15:11.550 --> 15:14.490
Und dann muss er richtig laufen, weil der Wert hier größer ist als hier.

15:14.550 --> 15:17.480
Und von hier aus geht Bertschi nach rechts, weil der Wert hier größer ist, als Sie wissen.

15:17.670 --> 15:22.620
Und von hier weiß er bereits, dass er richtig gehen muss, weil er hier eine Belohnung bekommt.

15:22.680 --> 15:24.960
So funktioniert dieser ganze Ansatz.

15:24.960 --> 15:27.600
Schauen wir uns jetzt den Rest des Platzes an.

15:27.600 --> 15:29.800
Wie berechnen wir den Wert in diesem Quadrat.

15:30.030 --> 15:32.450
Nun, hier wird es schwierig.

15:32.460 --> 15:38.400
Von hier aus kann es sein, dass Sie nicht nach rechts gehen, sondern nach rechts gehen, sodass wir einfach so weitermachen können,

15:38.400 --> 15:41.360
weil es tatsächlich kürzer sein könnte, diesen Weg zu gehen.

15:41.520 --> 15:44.720
Also werden wir zuerst den Wert im Quadrat berechnen.

15:45.000 --> 15:48.200
Und weil offensichtlich von hier aus die besten Wege zu gehen sind.

15:48.240 --> 15:52.740
Das ist auch so, weil wir die Crew sehen, wir haben die Kristallkugel, die wir sehen können, und Sie

15:52.740 --> 15:57.060
werden weiter unten in dem Abschnitt sehen, in dem Sie sehen, wie der Agent dies tatsächlich auf ihre

15:57.060 --> 15:58.030
Vorlieben durch Experimente versteht.

15:58.080 --> 16:02.580
Aber für uns wissen wir, dass es besser ist, diesen Weg zu gehen, also berechnen wir

16:02.580 --> 16:06.410
hier den Wert. Deshalb berechnen wir zuerst den Wert in diesem Feld.

16:06.420 --> 16:09.230
Hier haben wir drei mögliche Aktionen.

16:09.270 --> 16:11.590
In Wirklichkeit haben wir tatsächlich vier, die wir auch verlassen können.

16:11.610 --> 16:15.330
Der Agent könnte hypothetisch nach links drücken und gegen die Wand stoßen und hier bleiben.

16:15.420 --> 16:21.030
Aber zur Vereinfachung, die die Handlungen zeigen wird, von denen wir wissen, was wir wissen, und

16:21.030 --> 16:25.920
mit der Glaskugel wissen wir, welche Handlungen tatsächlich zu etwas anderem als dem gleichen

16:25.920 --> 16:26.780
Zustand führen.

16:26.850 --> 16:32.010
Daher wissen wir hier von hier, dass wir, nur weil wir eine Kristallkugel haben, wissen, dass der beste Weg auf

16:32.010 --> 16:36.840
diese Weise ist, dass ein Agent natürlich experimentieren und den besten Weg finden muss, und Sie werden sehen, wie

16:36.840 --> 16:37.500
das passiert.

16:37.560 --> 16:42.270
Weiter unten in diesem Abschnitt erfahren Sie, wie ein Agent herumläuft und wie Sie versuchen würden,

16:42.360 --> 16:43.610
diese Werte zu finden.

16:43.620 --> 16:45.190
Aber für uns wissen wir, dass es so ist.

16:45.360 --> 16:50.420
Wenn wir also alles in einen stecken, ist die maximale Leistung die beste Leistung, wenn Sie nach oben gehen.

16:50.510 --> 16:53.820
Und hier ist ein Bericht 9: 0 Also steckst du das ein.

16:53.820 --> 16:55.870
Sie erhalten null Punkt neun.

16:56.220 --> 16:58.730
OK, also Kalika, die diese berechnet.

16:58.770 --> 16:59.810
Gleicher Ansatz.

16:59.820 --> 17:02.070
Hier haben Sie drei Möglichkeiten, wie Sie gehen können.

17:02.070 --> 17:05.580
Eigentlich vier für den Agenten, aber für uns sind es nur drei.

17:05.880 --> 17:10.780
Also Nullpunkt einundachtzig von hier aus haben Sie NULL-Punkt dreiundsiebzig.

17:11.130 --> 17:16.410
Und es passt tatsächlich gut zu diesem Wert, denn in Ihnen, wenn Sie erneut Rabatt gewähren, setzen Sie 66

17:16.890 --> 17:20.120
und hier haben Sie 0. 23 weil dies die optimale Route ist.

17:20.130 --> 17:21.190
Hier bitteschön.

17:21.210 --> 17:23.750
Das sind die Werte all dieser Zustände.

17:23.760 --> 17:29.700
Und jetzt können Sie sehen, dass, weil wir diese Gleichung erstellt haben oder wir synthetisch dieses

17:29.730 --> 17:37.890
ganze Konzept des Endes der Ziellinie erstellt haben, der Wert dieses Zustandes nicht wertvoller ist, nicht weil wir befürchten, dass es

17:37.890 --> 17:41.840
jetzt offensichtlich ist Agent welchen Weg es gehen soll.

17:41.970 --> 17:44.230
Und darüber werden wir in Zukunft noch mehr reden.

17:44.910 --> 17:52.290
Ich hoffe, dass Ihnen die heutige Sitzung gefallen hat und ich weiß, dass dies ein bisschen sehr einfach klingt, aber

17:52.320 --> 17:56.590
wenn wir diesen Abschnitt durchgehen, werden wir etwas mehr Komplexität hinzufügen.

17:56.700 --> 18:01.500
Wenn Sie nicht abwarten können, ob Sie hineinspringen möchten, gibt es eine Zeitung, die Sie sich ansehen

18:01.500 --> 18:04.290
können, und es ist die Originalarbeit von Richard Belman.

18:04.290 --> 18:08.130
Man nennt es die Theorie der dynamischen Programmierung von 1954.

18:08.370 --> 18:10.200
Und Sie können es unter diesem Link finden.

18:10.320 --> 18:16.490
Und los geht's, damit Sie direkt in die Belman-Gleichung eintauchen können.

18:16.620 --> 18:20.860
Denken Sie jedoch daran, dass dies ein recht mathematisch schweres Papier ist.

18:20.970 --> 18:22.820
Und in diesem Sinne werde ich nach Ihrem nächsten suchen.

18:22.850 --> 18:24.590
Und bis dahin genießen Sie AI.
