WEBVTT

00:00.930 --> 00:03.970
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:03.990 --> 00:08.480
Wir haben also über die Belman-Gleichung gesprochen und unser kleines Labyrinth analysiert.

00:08.520 --> 00:11.100
Schauen wir uns den Plan an.

00:11.100 --> 00:12.400
Wie ist der Plan.

00:12.750 --> 00:14.650
Nun, hier ist unsere Hauptanalyse.

00:14.670 --> 00:20.970
Und wir wissen, dass wir tatsächlich die Zustände sehen können, die Werte jedes Zustands. Wir können sehen, welchen Wert es

00:20.970 --> 00:23.310
hat, in jedem einzelnen Zustand zu sein.

00:23.400 --> 00:27.810
Daher kann die KI oder der Agent in diesem Irrgarten navigieren.

00:27.840 --> 00:28.770
Was ist also der Plan?

00:28.770 --> 00:35.640
Nun, der Plan ist einfach eine Schatzkarte für künstliche Intelligenz, anstatt diese Werte zu betrachten, die sie

00:35.730 --> 00:41.420
einfach durch Pfeile ersetzen, die angeben, in welche Richtung der Agent gehen soll.

00:41.490 --> 00:43.360
Wegen denen, weil sie diese Werte kennt.

00:43.350 --> 00:47.230
Ein ideales Szenario, nachdem diese Umgebung erforscht wurde.

00:47.250 --> 00:50.860
Es kennt den Wert, in jedem Zustand zu sein, und daher können Sie diese Karte finden.

00:50.870 --> 00:52.330
Also, schauen wir uns das nochmal an.

00:52.380 --> 00:58.410
Wir wissen, dass Ihre Werte eins sind. Wenn Sie also von den beiden hier sind, ist dies der bessere. Sobald Sie von hier

00:58.830 --> 01:02.010
aus direkt zu den beiden gehören, ist dieser eine bessere, der bessere.

01:02.010 --> 01:02.750
Dieser ist ein besserer.

01:02.760 --> 01:04.740
Oder von hier aus haben Sie zwei Möglichkeiten richtig.

01:04.770 --> 01:11.130
Er war ein bisschen wie ein Unentschieden, so dass es einfach egal

01:11.130 --> 01:16.110
ist, welches der beiden in beiden Fällen derselbe ist

01:16.110 --> 01:18.390
Schritte bis zum Ende.

01:18.690 --> 01:22.520
Von hier aus haben Sie drei Optionen, aber hier ist der bessere Wert.

01:22.530 --> 01:24.360
Dieser ist von hier aus ein besserer Wert.

01:24.360 --> 01:29.380
Offensichtlich war dies ein besserer Wert, weil Sie wissen, dass Sie es sofort abzüglich einer Belohnung erhalten.

01:29.590 --> 01:35.250
Und von hier aus haben Sie tatsächlich drei, aber dieser ist der beste Wert des Staates.

01:35.400 --> 01:41.190
Wenn wir sie also durch Pfeile ersetzen, ist es sinnvoll, dass der Agent so aussieht, wenn er hier spielt

01:41.200 --> 01:44.570
oder aus irgendeinem Grund löst, wenn er in dieses Feld fällt.

01:44.580 --> 01:46.070
Es weiß, wie man hier rauskommt.

01:46.280 --> 01:48.980
Stars und dieses Quadrat wissen, wie man hier vorankommt und so weiter.

01:48.980 --> 01:51.440
Das ist also ein Plan.

01:51.440 --> 01:56.850
Verwechseln Sie den Plan nicht mit der Politik, denn wir werden über eine Politik für den Iran sprechen,

01:56.850 --> 02:01.660
die den Plänen sehr ähnlich ist, aber sie haben einen kleinen Trick, weil die Umgebung etwas

02:01.670 --> 02:02.380
anders ist.

02:02.420 --> 02:07.560
Es wird stochastisch sein und darüber werden wir im nächsten Tutorial sprechen.

02:07.910 --> 02:10.000
Also, Conway, zum nächsten.

02:10.020 --> 02:12.060
Und bis dahin genießen.
