WEBVTT

00:00.720 --> 00:03.210
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:03.210 --> 00:08.400
Heute reden wir über den ersten Teil von A-3, den Schauspieler-Kritiker-Teil.

00:08.400 --> 00:10.540
Hier haben wir also einen synchronen Vorteil.

00:10.550 --> 00:12.380
Schauspieler-Kritikalgorithmus.

00:12.420 --> 00:15.440
Und wir werden darüber sprechen, betonte Akrotiri.

00:15.570 --> 00:17.210
Dort fangen wir an.

00:17.400 --> 00:21.960
Man könnte technisch überall anfangen, aber es ist viel sinnvoller, von

00:22.320 --> 00:29.640
einem Kritiker auszugehen, denn auf diese Weise haben wir eine sehr konsekutive Erklärung des intuitiven Verstehens der Vorgänge, was uns

00:29.640 --> 00:30.470
erleichtern wird.

00:30.480 --> 00:33.970
Beginnen wir aber erst am Ende dieser Abweichung mit Überraschungen.

00:34.170 --> 00:41.840
In Ordnung, so weit in diesem Kurs haben wir uns ein tiefes bedingtes Kule-Lernen ausgedacht, das hier Illustrator ist. Wir haben also

00:41.880 --> 00:48.780
den Computer dazu gebracht, die Pixel zu sehen, also das tatsächliche Bild und die Pixel nicht nur einen Vektor.

00:48.780 --> 00:53.610
Es ist also kein Schummeln, es sieht tatsächlich genau das, was ein Mensch sieht, wie er die

00:53.610 --> 01:00.540
Monster sieht. Er sieht die Gesundheit. Er sieht die Parameter an der Unterseite. Er sieht die Karte oder er sieht die Waffe. Es ist genau

01:00.540 --> 01:03.080
das, was ein Mensch beim Spielen sieht Spiel.

01:03.090 --> 01:09.450
Dann wird dieses Bild durch ein Faltungslager geleitet und dann durch ein ziehendes Lariat flacher und geht

01:09.450 --> 01:16.380
in ein neuronales Netzwerk. An der Ausgabe haben wir Aktionen, da wir uns daran erinnern, dass wir diese

01:16.380 --> 01:20.270
Würfelwerte haben, und dann eine Aktionsauswahlrichtlinie anwenden zu ihnen.

01:20.270 --> 01:24.540
So wenden wir zum Beispiel ein weiches Max an und finden heraus, welche Aktion wir durchführen wollen.

01:24.540 --> 01:28.470
Es gibt also einige Explorations- und Ausbeutungsaktivitäten.

01:28.470 --> 01:29.860
Es gibt eine Kombination der beiden.

01:30.270 --> 01:33.480
So funktioniert tiefgreifendes cooles Lernen.

01:33.640 --> 01:34.980
Aber jetzt wollen wir mal sehen, was wir damit machen.

01:34.970 --> 01:39.510
Der Einfachheit halber ist es einfacher für uns, damit zu arbeiten, weil wir

01:39.510 --> 01:41.770
dieses Bild anpassen und verschieben.

01:41.790 --> 01:46.490
Wir werden Kreise durch Quadrate durch diese oder diese rechteckigen Kästchen ersetzen.

01:46.560 --> 01:53.190
Und wir werden auch diese Linien loswerden und zwischendurch einfach sie in Pfeile ändern, damit sich das

01:53.190 --> 01:54.440
Wesentliche nicht ändert.

01:54.450 --> 01:56.590
Dies ist nur die Darstellung in diesem Diagramm.

01:56.610 --> 02:01.620
Auch wenn diese Darstellung immer noch tief greifend ist. Das Lernen mit Kule wird für uns

02:01.620 --> 02:05.520
einfacher, es zu ändern und genau zu zeigen, was es ist.

02:05.520 --> 02:08.820
So werden wir also die Dinge von hier aus darstellen.

02:08.820 --> 02:13.070
Und was macht dieser bestimmte Teil schon?

02:13.080 --> 02:16.680
Denken Sie daran, wir beginnen wie Schritt für Schritt mit dem aktiven Kritiker-Teil.

02:16.680 --> 02:23.490
Wir werden also sehen, wie wir von tiefgreifendem Kule-Lernen zu A-3 gelangen. Schritt für Schritt und als ersten Schritt werden

02:23.490 --> 02:27.520
wir diesen Schauspieler-Kritiker PARTOVI hier vorstellen, also werden wir darüber sprechen.

02:27.750 --> 02:32.490
Das erste, was passiert, ist also das letzte Stück.

02:32.640 --> 02:36.990
Die Ausgabe ist eigentlich so, dass wir es einfach so neu zeichnen, also ist es genau

02:36.990 --> 02:40.350
die gleiche Ausgabe, genau die gleichen q-Werte und genau die gleiche Aktion.

02:40.350 --> 02:45.810
Wenn er also acht mögliche Aktionen hatte, gibt es noch acht mögliche Aktionen, die sie an die Spitze

02:45.810 --> 02:50.280
stellen, damit sie weniger Platz beanspruchen, und daher hat sich bisher nichts geändert.

02:50.280 --> 02:52.080
Dies und das ist genau das Gleiche.

02:52.080 --> 02:55.080
Aber jetzt kommt der aktive Kritiker Teil.

02:55.110 --> 02:56.580
Wir werden eine zweite Ausgabe haben.

02:56.580 --> 03:02.460
Wir haben die erste Ausgabe als eine Reihe von Ausgaben und hier haben wir eine separate individuelle

03:02.460 --> 03:06.040
Ausgabe, also werden wir technisch unser neuronales Netzwerk verwenden.

03:06.040 --> 03:08.310
Also einmal in der Stunde.

03:08.340 --> 03:14.720
Oder das Image und alles wie die Werte gehen hier von links nach rechts durch das Netzwerk.

03:14.730 --> 03:17.910
Sie spucken nicht nur einen Satz von Werten aus, sondern tatsächlich zwei Sätze.

03:17.910 --> 03:23.910
Und so sagte die Spitze, wir wissen wirklich, was es ist, es sind mögliche Aktionen, aber hier haben wir tatsächlich

03:23.910 --> 03:26.970
einen zusätzlichen Mehrwert, also schauen wir uns das an.

03:27.000 --> 03:28.430
Was ist das für ein Wert?

03:28.620 --> 03:31.260
Also los, das ist die Spitze.

03:31.380 --> 03:35.190
Wir verkleinern also die Größe dieser Abbildung.

03:35.340 --> 03:41.210
Die oberste Ausgabe sind die Cube-Werte, die wir zuvor für die Aktionen besprochen haben.

03:41.220 --> 03:42.500
Also sind sie dasselbe.

03:42.510 --> 03:43.240
Alles ist gleich.

03:43.410 --> 03:47.640
Aber jetzt heißt dieser untere Teil und der obere Teil eigentlich das X oder wir geben

03:47.640 --> 03:53.400
ihm einen Namen, der der Schauspieler ist, denn in diesem Teil wählt der Agent aus, was er will, so dass es

03:53.400 --> 03:59.160
so ist, als würde er handeln Es tritt auf der Bühne auf und es wird sinnvoller, wenn wir auch den zweiten

03:59.160 --> 04:00.730
Namen auf dem Bildschirm haben.

04:00.900 --> 04:08.120
Und dann ist die zweite Ausgabe genau wie ein Wert und das ist V von S, also der Wert des Zustands.

04:08.130 --> 04:16.800
Wenn also q von S ist, ist Q von A der q-Wert einer bestimmten Aktion, und wie Sie sehen können, gibt es daher Aktion Eins Aktion Zwei Aktion

04:16.980 --> 04:21.450
Drei ist bis Aktion Sechs oder höher, dh, es gibt möglicherweise Aktionen in diesem

04:21.450 --> 04:22.030
Zustand.

04:22.030 --> 04:28.410
Also in einem bestimmten Zustand s Was ist der Wert von q, wenn eine Aktion ausgeführt wird, um eine Aktion bis und so weiter auszuführen.

04:28.460 --> 04:34.900
Dann prognostizieren wir auch, dass wir auch ein neuronales Netzwerk verwenden, um vorherzusagen, welchen Wert die

04:34.900 --> 04:40.620
Stufe hat, in der wir uns gerade befinden. Dieser Teil wird Kritiker genannt.

04:40.820 --> 04:47.070
Und das ist das Intuitive für die Art von nicht einmal vollständig Intuitiv, wie der Beginn der Intuition hinter

04:47.880 --> 04:53.260
dem Schauspieler voraussagt, dass es jetzt zwei Ausgänge aus dem neuronalen Netzwerk gibt, nicht nur einen.

04:53.380 --> 04:56.470
P, bevor wir gerade den einen hatten, den wir jetzt die Aktion nennen.

04:56.470 --> 04:59.040
Aber jetzt haben wir zwei Ausgaben Akshara und Kritiker.

04:59.250 --> 05:02.320
Und es wird eine Dynamik zwischen ihnen geben, die wir weiter erforschen werden.

05:02.370 --> 05:08.850
Für den Moment ist es jedoch wichtig zu verstehen, dass wir nicht nur die Werte der Aktionen vorhersagen, die der

05:09.330 --> 05:14.100
Agent aus dem aktuellen Status ausführen kann, sondern auch den Wert dieses Zustands in

05:14.100 --> 05:15.750
einem solchen Netzwerk vorhersagen.

05:15.750 --> 05:20.700
Das ist also der Kern des ersten Schrittes in die aktive Kritik.

05:20.790 --> 05:24.990
Und jetzt müssen wir über ein Synchrones sprechen, das wir

05:24.990 --> 05:30.900
als nächstes ausführen werden, um genau zu verstehen, was zwischen der Pflicht und dem Endergebnis

05:30.900 --> 05:32.640
für heute geschieht .

05:32.640 --> 05:39.720
In einigen Blogs und einigen Diskussionen, die Sie möglicherweise in der aktiven Kritik finden, finden Sie, dass der Autor

05:39.720 --> 05:47.400
auf der Seite des Schauspielers über Cue-Werte spricht, in anderen Literaturstellen und Blogbeiträgen und Diskussionen finden Sie den Autor des Autors

05:47.400 --> 05:53.780
Wenn man über die Richtlinie spricht, ist es üblich, den Benutzer wie einen griechischen Buchstaben P zu

05:53.860 --> 05:59.810
verwenden, um die Richtlinie zu repräsentieren oder einfach nur die Politik des Staates zu sagen.

05:59.970 --> 06:05.790
Alles in allem ist dies also die Politik des Staates, denn wenn wir uns erinnern, ist

06:05.790 --> 06:11.660
die Politik, dass, wenn Sie alle Aktionen zusammenstellen, die möglichen Aktionen und dann entscheiden, welche Maßnahmen Sie ergreifen.

06:11.660 --> 06:15.400
Das sind also die Wahrscheinlichkeiten für jede Maßnahme, also ist dies die Politik.

06:15.540 --> 06:19.410
Lass dich also nicht abschrecken, wenn du das eine oder das andere siehst.

06:19.410 --> 06:21.090
Sie bedeuten im Grunde dasselbe.

06:21.090 --> 06:24.720
Auf der einen Seite haben Sie also die Richtlinie oder die q-Werte, auf der anderen Seite haben

06:24.720 --> 06:27.620
Sie den tatsächlichen Wert des Staates und werden ab diesem Jahr vorhergesagt.

06:27.750 --> 06:31.770
Das ist also der Beginn der aktiven Kritiker, die im nächsten Tutorial weitergeführt wird, wenn

06:31.770 --> 06:34.320
wir über einen Synchronus sprechen und dort suchen.

06:34.380 --> 06:35.910
Bis dahin genießen Sie die.