WEBVTT

00:01.090 --> 00:04.270
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.290 --> 00:07.260
Heute reden wir über die lebende Strafe.

00:07.600 --> 00:13.540
Also gut, hier haben wir alle Belman-Gleichungen und als wir diesen Kurs

00:13.540 --> 00:20.030
durchlaufen haben, wurden wir langsam immer komplexer. Bisher haben wir diese Wahrscheinlichkeiten hier bereits hinzugefügt.

00:20.200 --> 00:22.930
Außerdem haben wir den Abzinsungsfaktor hinzugefügt.

00:22.930 --> 00:28.440
Auf diese Seite der Frage, auf der wir jetzt die Belohnung haben, werden wir uns jetzt genauer anschauen.

00:28.480 --> 00:34.660
Erinnern Sie sich vorher, als wir darüber sprachen, wie Verstärkungslernen funktioniert, sagten wir, dass wir einen Agenten haben und

00:34.660 --> 00:41.290
dass er Aktionen in der Umgebung und in einem Austausch ausführt oder als Folge davon, dass er einen neuen Zustand

00:41.320 --> 00:45.600
erhält und der jetzt in und eine Belohnung für diese Aktion ist.

00:45.610 --> 00:52.210
Nun, in unserem Beispiel haben wir bisher nur Belohnungen erhalten, entweder wenn wir die Ziellinie erreichen oder wenn wir

00:52.210 --> 00:58.640
für den Agenten in der Feuerstelle landen, erhält er eine Belohnung von plus 1 oder minus 1.

00:58.960 --> 01:05.770
Dies ist jedoch eine sehr vereinfachte Herangehensweise an verstärktes Lernen. In realistischeren Szenarien werden Sie während der gesamten

01:05.800 --> 01:11.380
Reise wahrscheinlich Belohnungen haben, nicht nur am Ende, sondern auch während der gesamten Reise.

01:11.380 --> 01:20.680
Wenn es sich zum Beispiel um eine KI handelt, die ein Spiel spielt, und wenn es zum Beispiel so ist, als würde man jemanden im Schicksal erschießen, erhält

01:20.680 --> 01:26.320
er möglicherweise Punkte, wenn er den Feind tötet, oder es könnte ein anderes anderes Spiel sein.

01:26.470 --> 01:32.260
Wenn es ein anderes Auto oder etwas ähnliches überführt, nur aufgrund der Spielregeln, nicht

01:32.260 --> 01:39.400
aufgrund seiner Analyse des Spiels, sondern tatsächlich ist das Spiel so strukturiert, dass es seine Punkte für bestimmte

01:39.400 --> 01:43.230
Aktionen verstärkt, noch bevor das Spiel ausgeführt wird Über.

01:43.540 --> 01:49.570
Solche Sinatras sind also nicht nur in Spielen und auch im wirklichen Leben üblich, und deshalb werden wir

01:49.570 --> 01:55.120
in unserem Beispiel etwas Ähnliches einführen, eine vereinfachte Version davon, aber dennoch eine Belohnung, die dem

01:55.330 --> 02:01.180
Agenten während des gesamten Spiels kontinuierlich gegeben wird Nicht nur am Ende und wie wir es tun,

02:01.180 --> 02:04.450
ist, wenn wir uns die anderen Steine ansehen.

02:04.450 --> 02:10.060
Im Moment haben wir also nur eine Belohnung plus eine Belohnung auf der Schlussplatine und eine Belohnung von minus 1

02:10.060 --> 02:11.530
auf der anderen Belichtungsplatine.

02:11.800 --> 02:14.310
Aber jetzt werden wir jedes Mal Belohnungen hinzufügen.

02:14.430 --> 02:17.770
Eine kleine Belohnung wird minus 0 sein. 04.

02:17.770 --> 02:23.440
Und wie Sie sehen, ist es negativ. Wenn der Agent sich bewegt, erhält er eine negative Belohnung. Dies wird als lebende

02:23.440 --> 02:28.300
Strafe bezeichnet, denn unabhängig davon, wo er hingeht, wird er immer diese negative Belohnung erhalten, abgesehen von diesen

02:28.450 --> 02:31.000
letzten Plättchen, denn das ist das Ende das Spiel.

02:31.300 --> 02:35.120
Und so kann man sehen, dass die Belohnung selbst auf dieser Fliese Wahnsinn oder ein Rätsel ist.

02:35.170 --> 02:37.960
Das heißt aber nicht, dass er mit dieser Belohnung beginnt.

02:37.960 --> 02:39.470
Er bekommt nur diese Belohnung.

02:39.760 --> 02:44.860
Und das ist wichtig zu wissen, dass er seine Belohnung nur erhält, wenn er ein Plättchen betritt. Wenn er also eine

02:44.860 --> 02:51.110
Aktion versprochen hat, geht er hierher und erhält diese Belohnung minus 0. 04 und dann kehrt er zu diesem Stil zurück, er bekommt einen

02:51.130 --> 02:53.650
anderen Verstand und 0. 04 wort.

02:53.770 --> 03:00.370
Je länger er also herumläuft, desto mehr sammelt er seine negative Belohnung und ist daher ein Ansporn,

03:00.370 --> 03:03.870
das Spiel so schnell wie möglich früher zu beenden.

03:03.890 --> 03:10.390
Schauen wir uns nun an, wie sich unsere Richtlinie oder wie sich die Agentenpolitik ändern wird,

03:10.420 --> 03:14.150
abhängig davon, welchen Wert wir für diese Belohnung legen.

03:14.410 --> 03:18.730
Hier sind vier Umgebungen, in denen wir eine andere erkunden werden.

03:18.770 --> 03:21.070
Wir werden die Berechnungen nicht machen.

03:21.130 --> 03:25.690
Wir werden nur die Ergebnisse projizieren und Sie werden sehen, dass sie intuitiv absolut sinnvoll sind.

03:25.690 --> 03:31.820
Hier haben wir eine Belohnung für jedes Schrittangebot, um in einen Zustand zu gelangen.

03:32.050 --> 03:32.830
Ist gleich null.

03:32.830 --> 03:36.890
Genau wie das, was wir hier zuvor gesehen haben, wird die Belohnung Mei's 0 sein. 0

03:36.910 --> 03:43.150
Für das, was wir gerade getan haben, wissen Sie, dass die Belohnung bei minus 0 liegt. 5 oder das Niveau der Bestrafung wird so

03:43.150 --> 03:47.690
hoch sein, dass man sie hier mehr als zehnmal höher sehen kann.

03:47.800 --> 03:50.170
Und hier ist der lebende Penhall, es wird minus zwei sein.

03:50.170 --> 03:59.050
Also noch mehr als die Belohnungen, die man fürs Springen bekommt, oder sogar weniger als die Belohnung, die man als Agent erhält, wenn man

03:59.050 --> 04:00.700
in der Feuerstelle landet.

04:00.700 --> 04:07.660
Schauen wir uns also an, wie sich die Aktionen oder die optimalen Richtlinien für das Weitergeben dieser Umgebung abhängig

04:07.660 --> 04:09.160
von dieser Belohnung ändern.

04:09.170 --> 04:11.560
Das ist also unsere ursprüngliche Politik.

04:11.920 --> 04:18.280
Und wie Sie sich erinnern können, hatten wir diese zwei sehr interessanten und sogar ein bisschen seltsamen Entscheidungen

04:18.280 --> 04:23.950
des Agenten, die aber durchaus Sinn machen, wenn er so lange leben kann, wie er möchte.

04:23.950 --> 04:29.530
Wenn Sie nur so lange herumreisen können, wie er möchte, ohne bestraft zu werden, weil Sie lange am

04:29.530 --> 04:30.430
Leben bleiben.

04:30.670 --> 04:37.630
Warum nicht, warum sollte er nicht einfach in die Ecke gehen und einfach so weitermachen, bis es

04:37.870 --> 04:38.470
passiert.

04:38.470 --> 04:41.300
Es kommt vor, dass er diesen Weg geht und dann wird er herumlaufen.

04:41.500 --> 04:46.120
Und hier ist es viel sicherer für ihn, in die Wand zu springen, in der Hoffnung,

04:46.120 --> 04:51.970
dass eines davon irgendwann auftaucht und er dann trotzdem ins Ziel geht, weil er durch die Wahl dieser beiden Aktionen nicht

04:51.970 --> 04:53.680
in die Feuerstelle gerät .

04:53.690 --> 04:59.950
Nun wollen wir sehen, was passiert, wenn wir eine negative Belohnung hinzufügen, wenn Sie nur ein Leben für einen Schritt sind.

05:00.270 --> 05:04.960
Bewegen Sie hier, dass Sie sofort sehen, dass sich diese beiden geändert haben.

05:04.970 --> 05:07.940
Nun will der Agent nicht in die Wand springen.

05:07.940 --> 05:13.490
Es ist wahrscheinlicher, dass er riskiert, an die Feuerstelle zu kommen, da er eine Chance von 10 Prozent hat, hier hineinzuspringen. Er

05:13.490 --> 05:19.400
wird jedoch vorwärts gehen, denn jedes Mal, wenn er hierher kommt, um zu gucken, wenn er es auch hier tun würde, wenn er sich

05:19.850 --> 05:24.620
gut in Szene setzt führt eine Aktion aus, in die er mit einer 80-prozentigen Chance in diesen Zustand

05:24.620 --> 05:24.990
gelangt.

05:25.010 --> 05:31.180
Und das bedeutet eine Chance von 80 Prozent, dass Sie eine minus 0 erhalten. 04 Belohnung, was bedeutet, dass

05:31.190 --> 05:34.940
er diese negative Belohnung häufig sammeln wird.

05:34.940 --> 05:41.600
Gleiches hier, wenn er in die Wand springt und auf den Moment wartet, in dem er tatsächlich zufällig nach

05:41.600 --> 05:42.780
rechts bewegt wird.

05:42.980 --> 05:49.340
Wenn er dies wiederholt, sammelt er diese negative Belohnung und das Ergebnis davon, wenn Sie die

05:49.340 --> 05:55.670
Berechnungen durchführen, werden Sie feststellen, dass der erwartete Wert dieses Ansatzes, der an die

05:55.670 --> 06:02.840
Wand springt, schlechter ist, als das Risiko einzugehen, dass er vorwärts geht und tatsächlich in der Feuerstelle landen.

06:02.840 --> 06:10.230
Er ändert also seine Entscheidungen in diesen beiden Blöcken, statt sich vorwärts zu bewegen und hier nach links zu gehen, sogar zu

06:10.230 --> 06:15.320
wissen, dass die Gefahr besteht, dass die Feuerstelle brennt, nur weil jetzt, je länger er

06:15.320 --> 06:18.830
lebt, diese Lebensstrafe in der nächsten Umgebung angesammelt wird.

06:18.830 --> 06:23.720
Jetzt erhöhen wir den lebenden Pouncey auf eine noch größere Zahl Meinzer Punkt fünf und lassen Sie uns sehen, was

06:23.720 --> 06:24.590
sich hier ändert.

06:24.860 --> 06:27.220
Jetzt können Sie das im Vergleich zu dieser Umgebung sehen.

06:27.260 --> 06:31.740
Das einzige, was sich hier geändert hat, ist, dass dieser Pfeil nach rechts zeigt.

06:32.060 --> 06:38.360
Und das bedeutet, dass es jetzt keine gute Option für den Agenten mehr ist, oder tatsächlich zeigen

06:38.360 --> 06:42.340
auch diese Pfeile nach links und die Düsennase nach oben.

06:42.350 --> 06:48.740
Daher ist es jetzt keine gute Idee für den Agenten, von hier aus zu gehen oder den ganzen Weg zu gehen, denn wenn er den ganzen Weg falsch

06:49.100 --> 06:53.330
läuft, ist er in Sicherheit oder es besteht eine geringere Chance, dass er keine Chance hat, die Feuerkraft

06:53.340 --> 06:54.030
zu erreichen.

06:54.320 --> 06:57.640
Aber zur selben Zeit oder weniger wird es passieren.

06:57.710 --> 07:03.140
Gleichzeitig wird er jedoch eine beträchtliche negative Belohnung sammeln, wenn er herumläuft.

07:03.140 --> 07:05.540
Es ist also nur der Weg zu lang.

07:05.540 --> 07:12.350
Das zwingt ihn, ob er hier ist oder hier ist, um den kürzeren Weg zu nehmen, um hierher zu gelangen, obwohl er ein viel höheres

07:12.350 --> 07:17.330
Risiko hat, in die Feuerstelle zu geraten, denn sobald er auf dem Platz landet, besteht eine Chance von

07:17.330 --> 07:19.350
10 Prozent, zum Feuer zu gelangen .

07:20.120 --> 07:21.760
Nach seinen Berechnungen.

07:21.800 --> 07:27.980
Es ist nur der erwartete Wert dieses Ansatzes, der besser ist als der erwartete Wert, nur

07:27.980 --> 07:30.480
weil wir die Lebensstrafe erhöht haben.

07:30.710 --> 07:37.130
Und zum Schluss kommen wir mit der lebenslangen Strafe von minus zwei Punkten Null zum Beispiel.

07:37.130 --> 07:43.010
Ich möchte Sie daher dazu ermutigen, das Video jetzt zu posten, da Sie gesehen haben, wie sich die Richtlinie geändert hat, da wir die Strafe

07:43.010 --> 07:44.430
für das Laden von Punks erhöhen.

07:44.450 --> 07:49.850
Ich ermutige Sie, das Video zu pausieren und zu überlegen, was in diesem Szenario passieren wird.

07:49.850 --> 07:57.070
Was denkst du wird die optimale Politik sein, dass die Todesstrafe so hoch ist, so dass all dieses angebliche Video,

07:57.090 --> 07:58.280
wenn du möchtest.

07:58.490 --> 08:04.880
Und jetzt werde ich Ihnen die Lösung zeigen, wenn Sie die Strafe

08:04.880 --> 08:13.460
auf minus 2 erhöhen. 0 Es ist so hoch, dass die Strafe hier nur minus 1 ist. 0 Es ist so hoch, dass der Agent nur

08:13.680 --> 08:18.540
so weit wie möglich aus dem Spiel heraus will, auch wenn er nur in die Feuerstelle springt.

08:18.560 --> 08:19.200
Er wird es machen.

08:19.220 --> 08:25.460
Er wird jedes Mal so sein, wenn ich jedes Mal einen Schritt mache, wenn ich in einem neuen Zustand in Ihrem Staat lande, oder

08:25.460 --> 08:30.020
jedes Mal, wenn ich eine Aktion mache, und am Ende eine Belohnung von minus zwei bekomme.

08:30.020 --> 08:36.280
Also, was ist der Punkt, wenn ich versuche, die Ziellinie zu erreichen, wenn ich von hier aus zwei zusätzliche Schritte benötige?

08:36.350 --> 08:41.060
Ich gehe einfach hierher und dann direkt in die Feuerstelle, denn auf

08:41.060 --> 08:49.190
diese Weise wird meine Belohnung weniger als eine negative Belohnung sein, so schlecht wie im Fall, dass nur zusätzliche Schritte unternommen

08:49.190 --> 08:56.770
werden, damit Sie sehen können, dass dieses Leben hinzukommt Belohnung und je nach dem Wert der lebenden Belohnung, die wir

08:56.780 --> 08:59.270
hinzufügen, werden die Ergebnisse unterschiedlich sein.

08:59.270 --> 09:06.290
Der Agent wird verschiedene Richtlinien auswählen, und so kann der Belohnungswert im Wesentlichen in die Belmont-Gleichung einbezogen werden,

09:06.440 --> 09:12.020
auch wenn dies nicht nur am Ziel oder am Ende des Spiels, sondern sogar

09:12.020 --> 09:13.790
im gesamten Spiel stattfindet.

09:13.790 --> 09:19.250
Und noch einmal muss es in jedem Zustand je nach Umgebung selbst nicht auf jedem

09:19.250 --> 09:20.180
einzelnen stehen.

09:20.180 --> 09:26.540
Es kann dem Agenten in bestimmten Zuständen nicht in jedem Zustand gegeben werden, aber in unserem vereinfachten

09:26.540 --> 09:29.880
Beispiel verwenden wir Belohnungen in jedem gegebenen Zustand.

09:30.050 --> 09:34.470
Um dieses Konzept zu veranschaulichen, hoffe ich, dass Ihnen das heutige Tutorial gefallen hat.

09:34.580 --> 09:40.550
Und wie Sie sehen, haben wir unsere Belman-Gleichung bereits sehr ausgefeilt und können nun auf viele verschiedene Szenarien angewendet

09:40.550 --> 09:44.340
werden. Ich kann es kaum erwarten, im nächsten Tutorial zu sehen.

09:44.360 --> 09:46.200
Und bis dahin genieße ich.