WEBVTT

00:00.980 --> 00:04.960
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:05.000 --> 00:12.140
Zuvor hatten wir ein ziemlich anstrengendes und langes Tutorial zu Margrove-Entscheidungsprozessen, und hoffentlich kamen Sie

00:12.200 --> 00:13.710
damit gut zurecht.

00:13.760 --> 00:19.010
Und hoffentlich konnte ich die Dinge auf ansprechende und ansprechende Weise erklären.

00:19.130 --> 00:22.750
Und heute werden wir über Richtlinien und Pläne sprechen.

00:22.760 --> 00:27.910
Es wird ein schnelles und unterhaltsames Tutorial geben, da wir jetzt in eine neue Welt eintreten

00:27.910 --> 00:34.310
und in eine Welt stochastischer Suche eintauchen, die nicht deterministisch ist, wenn Sie einfach nicht durch das Labyrinth geraten, sondern auch

00:34.310 --> 00:38.990
zufällige Faktoren berücksichtigen, die möglicherweise auftreten Sie im Kopf, wenn Sie durch dieses Labyrinth gehen,

00:38.990 --> 00:41.080
und Sie müssen darauf vorbereitet sein.

00:41.080 --> 00:42.070
Das ist die Welt.

00:42.080 --> 00:48.640
Unser Agent lebt und es macht mehr Spaß, aber es ist auch gefährlicher, es ist weniger vorhersehbar.

00:48.650 --> 00:50.880
Wie wird sich unser Agent verhalten?

00:50.960 --> 00:52.280
Werfen wir einen Blick.

00:52.280 --> 00:58.190
Es gibt unser Kennzeichen für den Entscheidungsprozess, das wiederum unsere Belman-Gleichung ist.

00:58.250 --> 01:02.010
Mit der fortgeschritteneren Version der Belman-Gleichung arbeiten wir jedoch.

01:02.010 --> 01:04.760
Von jetzt an nennen wir das einfach die Beldon-Gleichung.

01:04.760 --> 01:10.970
Und hier haben wir unsere maximale Aktion und die Crucell-Aktion, so dass der Wert eines Staates jeder Zustand so groß ist wie

01:10.970 --> 01:14.020
alle Aktionen, die ein Agent in diesem Zustand ausführen kann.

01:14.120 --> 01:21.230
Die Maxime wurde aus der Belohnung gezogen, die der Agent durch Ausführen von Aktion A erhält, und einen Abzinsungsfaktor

01:21.230 --> 01:26.590
plus den erwarteten Wert des neuen Status, in dem er sich befinden wird.

01:26.830 --> 01:31.850
Und ich würde erwarten, dass diejenigen, die hier aufgenommen wurden, nicht genau wissen, wo die Traurigkeit endet.

01:31.880 --> 01:40.390
Dies sind einige zufällige Effekte, die in der Umgebung vorhanden sind und den Status möglicherweise ändern und nicht in

01:40.800 --> 01:42.630
den gewünschten Status gelangen.

01:42.640 --> 01:44.200
Es könnte in einem anderen Zustand enden.

01:44.210 --> 01:47.760
Deshalb nehmen wir hier irgendwo den erwarteten Wert.

01:47.990 --> 01:53.750
Schauen wir uns das als unser Beispiel an oder in unserem Beispiel des Labyrinths.

01:53.750 --> 02:00.220
Dies war also das, was wir zuvor hatten, also haben wir es mit der deterministischen Suche nach Leben zu tun.

02:00.230 --> 02:01.960
Das wussten wir also.

02:01.970 --> 02:05.550
Wenn ich hier bin, muss ich unbedingt hier sein, wenn ich hier bin.

02:05.570 --> 02:09.030
Ich muss auf jeden Fall hier sein, wenn ich hier bin. Ich muss auf jeden Fall hier sein, wenn ich hier bin.

02:09.140 --> 02:11.360
Es war also alles ziemlich unkompliziert.

02:11.480 --> 02:14.680
Sobald Sie diese Karte haben und sich an sie erinnern, nannten wir sie einen Plan.

02:14.690 --> 02:18.050
Sobald Sie den Plan haben, ist das ziemlich einfach.

02:18.050 --> 02:18.990
Es gibt.

02:18.990 --> 02:20.490
Das ist also der Plan mit Pfeilen.

02:20.580 --> 02:25.000
Und von hier aus war es sehr unkompliziert, dass dies die Routen sind, die sie nehmen werden, wenn Sie

02:25.010 --> 02:26.210
auf dieser blauen Linie beginnen.

02:26.210 --> 02:28.210
Das ist genau der Weg, den Sie gehen würden.

02:28.680 --> 02:31.120
Jetzt haben wir jedoch keinen Plan mehr.

02:31.120 --> 02:38.060
Wir können keinen Plan haben, weil Sie wissen, dass alles, was wir planen, nicht passieren könnte, es nicht unter Kontrolle ist oder wenn

02:38.060 --> 02:40.940
Sie genau wissen, was Sie als Nächstes tun müssen.

02:40.940 --> 02:41.820
Du kennst die Schritte.

02:41.840 --> 02:46.640
Sie haben also einen Ausgangspunkt, Sie haben ein Ziel, und Sie kennen jeden einzelnen Schritt, so dass Sie

02:46.640 --> 02:50.500
sie so planen können, wie ich es tun werde. Ich werde dieses tun .

02:50.630 --> 02:54.870
Aber gleichzeitig ist so viel Zufall los.

02:54.890 --> 03:00.080
Du kannst einen Plan haben, denn wenn du hierher kommst und dann klickst du nach rechts und bringt dich tatsächlich

03:00.080 --> 03:00.560
runter.

03:00.680 --> 03:02.100
Das ist also nicht Teil Ihres Plans.

03:02.390 --> 03:04.120
Deshalb nennt man das Planung mehr.

03:04.220 --> 03:09.080
Und hier berechnen wir, dass die Werte tatsächlich nur die berechneten

03:09.410 --> 03:11.990
Werte für dasselbe Problem betrachten.

03:12.080 --> 03:16.700
Aber basierend darauf, dass wir diese Zufälligkeit im Inneren haben.

03:16.700 --> 03:18.380
Das sind also die neuen Werte.

03:18.800 --> 03:22.840
Warum unterscheiden sich diese Werte also, vergleichen wir wir mit dem, was wir zuvor hatten.

03:22.850 --> 03:24.710
Das hatten wir zuvor.

03:24.710 --> 03:25.650
Das sind dann Sie.

03:25.660 --> 03:29.750
Also hatten wir vorher noch einmal, weil er 3 gewonnen hatte. 9 Prozent.

03:29.770 --> 03:31.590
Er war wirklich 366.

03:31.790 --> 03:36.750
Und das ist es, was wir jetzt in weniger als einmal in Kraft haben und 1 6 3.

03:36.800 --> 03:43.850
Übrigens sind dies nicht gerade die aktuellen Rallyes aus meinem Kopf, aber wenn wir einen Agenten leiten würden, wären

03:43.850 --> 03:49.220
einige Werte ähnlich wie diese und die Werte könnten sich ändern, denn je nach

03:49.220 --> 03:54.650
dem Spiel würden sie sich entscheiden 3. 9 oder einen anderen Wert, aber um der Argumentation willen sind dies

03:54.650 --> 04:00.560
die Werte, mit denen wir uns jetzt befassen, und sie sind ungefähr, sie vermitteln den ganzen Begriff auf die richtige Art und Weise, also lassen

04:00.560 --> 04:02.270
Sie uns einen Blick darauf werfen.

04:02.270 --> 04:03.240
Warum haben sie sich verändert?

04:03.410 --> 04:07.480
Warum ist hier mit diesem hier der Wert eins.

04:07.490 --> 04:10.520
Warum ist es plötzlich 0. 26 Warum ist es weniger als eins.

04:10.560 --> 04:11.730
Gehen Sie einfach von hier.

04:11.930 --> 04:18.620
Nun, wir haben tatsächlich angerufen, denn von hier aus, wenn wir nach rechts gehen, was unsere Absicht ist,

04:18.640 --> 04:22.340
wenn wir nach rechts gehen, könnten wir es tun.

04:22.340 --> 04:25.130
Also würden wir gegen die Wand gehen und wären wieder in diesem Zustand.

04:25.130 --> 04:30.740
Und denk dran, wir haben ein Gamla. Also wäre der Wert reduziert und wir gehen um 10 Uhr hin und her und der Zufall

04:30.740 --> 04:32.150
würde hier in diesem Zustand enden.

04:32.150 --> 04:37.670
Es ist also nicht eine 100-prozentige Wahrscheinlichkeit, dass ich hierher komme, also kann ein Unwert nicht länger eine sein, es ist

04:37.670 --> 04:41.310
etwas weniger und es ist 0. 26.

04:41.570 --> 04:43.770
Das ist also ein Beispiel, warum es so ist.

04:43.770 --> 04:49.130
Und Sie könnten den exakten Wert erhalten, wenn Sie die Belman-Gleichung vollständig berechnet hätten, aber meine Frage, die wir

04:49.130 --> 04:49.850
jetzt haben.

04:49.850 --> 04:53.540
Das einzige Problem ist, dass es eine Rekursion geben wird, weil Sie den Wert dafür

04:53.540 --> 04:57.440
wissen müssen und dann den Wert für diesen Wert kennen müssen, der ziemlich komplex ist. Deshalb führen

04:57.440 --> 04:59.180
wir die Berechnungen hier nicht manuell aus.

04:59.240 --> 05:06.000
Das ist der Grund, warum ich sie tun kann, weil es durch all das geht, es ist, als ob es für einen nicht zu komplex

05:06.000 --> 05:06.510
wäre.

05:06.540 --> 05:08.520
Sie können diese Dinge nicht spielen.

05:08.520 --> 05:10.090
Das ist also unser Wert hier.

05:10.110 --> 05:11.520
Aber davon ist etwas anderes.

05:11.520 --> 05:16.830
Also hier nur 0 sein. 9 nur aus Diskontierungsgründen von hier bis hierher zurück jetzt

05:16.830 --> 05:23.070
von hier aus springen wir hier von hier aus hier einfach her, weil selbst wenn wir springen, wenn wir so weitermachen, könnten

05:23.070 --> 05:24.680
wir hier wieder hierher kommen.

05:24.700 --> 05:28.440
Richtig, diese 20-prozentige Chance, die immer noch auf dem Platz bleiben wird, weil wir eine Mauer treffen.

05:28.710 --> 05:29.730
Und wieder und so weiter.

05:29.730 --> 05:32.700
Der Wert hier zu sein ist also Nullpunkt einundsiebzig.

05:32.850 --> 05:35.370
Wieder dies und der Diskontierungsfaktor.

05:35.370 --> 05:39.970
Sie wissen, dass dies für Sie seltsam erscheinen kann, dass dies sogar bei einem Abschlag im Faktor zu hoch ist.

05:40.050 --> 05:44.440
Möglicherweise ist der Abzinsungsfaktor in diesem Beispiel nicht 0. Vielleicht ist es sieben Punkte

05:44.500 --> 05:46.310
oder neunundneunzig, oder?

05:46.350 --> 05:48.480
Nur irgendwie wie Fokus darauf.

05:48.480 --> 05:53.210
Die Werte haben sich tatsächlich so geändert, dass die Werte jetzt niedriger sind.

05:53.460 --> 05:58.700
Meistens weil es nicht eine hundertprozentige Wahrscheinlichkeit ist, zu dem Zustand zu gelangen, den Sie erreichen möchten und was

05:59.100 --> 06:00.180
Sie finden werden.

06:00.210 --> 06:06.660
Interessant ist hier, dass hier nur 0 sein soll. 9 tatsächlich ist sehr viel gesunken.

06:06.660 --> 06:07.110
Warum das.

06:07.110 --> 06:12.120
Nun, denn wenn Sie von hier nach oben gehen, was unsere Absicht ist, besteht eine

06:12.120 --> 06:18.700
Chance von 10 Prozent, eine Wand zu treffen, aber es besteht eine Chance von 10 Prozent, tatsächlich im Firepit zu

06:18.700 --> 06:22.820
enden und ein Minus zu verlieren, um zu belohnen des Spiels.

06:23.160 --> 06:25.640
Das ist also ein sehr schlechter Zustand.

06:25.680 --> 06:29.910
Plötzlich erinnerte man sich, dass wir im Abstand von neun Jahren einen Nullpunkt hatten und daher waren sie gleichwertig.

06:29.910 --> 06:34.900
Es spielt keine Rolle, dass Sie hier hören, dass sie in jedem dieser Zustände ziemlich gleichwertig sind.

06:34.980 --> 06:43.440
Aber plötzlich ist dieses Datum fast doppelt so gut wie dieses hier, nur weil hier, wenn Sie direkt dorthin gehen,

06:43.590 --> 06:46.980
Sie genau dorthin gehen, wo Sie hin wollen.

06:47.050 --> 06:51.270
Sie wissen, dass die Folgen der zufälligen Ereignisse nur hier bleiben.

06:51.290 --> 06:55.070
Hier ist eine der 10% igen Chancen, dass Sie in der Grube landen.

06:55.110 --> 07:02.160
Wie Sie sehen können, ist dies nicht mehr ein so guter Zustand, nur weil etwas Schwankungen

07:02.160 --> 07:03.460
passieren kann.

07:03.570 --> 07:09.150
Wie Sie sehen, ist dieser auch sehr schlecht, weil er so schlecht ist, wie Sie wissen, es ist nur eine 10-prozentige Chance, in

07:09.150 --> 07:12.660
der Box zu enden und eine 10-prozentige Chance, in der Mauer zu enden.

07:12.660 --> 07:18.480
Aber gleichzeitig gibt es einen Diskontierungsfaktor. Also zuerst den Diskontierungsfaktor und auch nach diesem Faktor

07:18.480 --> 07:20.390
müsstest du hier gehen.

07:20.700 --> 07:23.900
Und selbst wenn Sie hypothetisch hierher gekommen wären, könnten Sie wieder in der Grube landen.

07:23.910 --> 07:28.710
Diese Chance würde also auch berücksichtigt, weil sich erinnern, dass diese Werte von diesem Wert

07:28.710 --> 07:31.760
abhängen und dieser Wert von diesem Wert abgeleitet wird.

07:31.820 --> 07:32.350
Recht.

07:32.400 --> 07:37.560
Und deshalb ist es klein, aber in Wirklichkeit war das, was ich sagte, falsch.

07:37.560 --> 07:39.640
Dieser Wert wird nicht von der Fed abgeleitet.

07:39.810 --> 07:46.800
Wenn Sie jetzt nur einen Blick darauf werfen, werden Sie feststellen, dass dieser Wert hier tatsächlich größer ist als

07:46.800 --> 07:47.300
dieser.

07:47.610 --> 07:54.780
Sie werden feststellen, dass es für den Agenten besser ist, den ganzen Weg als diesen Weg zu gehen, und es ist sinnvoll.

07:54.780 --> 07:58.580
Weil es auf diese Weise nicht verloren geht, besteht keine Chance, in die Grube zu gelangen.

07:58.590 --> 08:03.450
Ja ist etwas länger und daher wirkt sich der Diskontierungsfaktor stärker aus.

08:03.510 --> 08:07.470
Aber zur gleichen Zeit, einfach weil es eine Chance gibt, hier in die Box zu kommen, wenn es geradeaus geht,

08:07.530 --> 08:09.140
wird es eine Chance haben, zu springen.

08:09.160 --> 08:15.120
Es braucht also ein Unentschieden, um sich Zeit zu nehmen und einfach herumzulaufen, weil auf diese Weise die Wahrscheinlichkeit geringer ist, dass

08:15.120 --> 08:16.530
es zu bekommen ist.

08:16.530 --> 08:19.590
Also von hier geht es dort von dort aus.

08:19.590 --> 08:23.590
Es könnte möglicherweise in die Grube gelangen, weil es dort landen könnte und dies in der Rechnung landen könnte.

08:23.730 --> 08:27.430
Aber es ist trotzdem eine geringere Chance, also geht es einfach so weiter.

08:27.430 --> 08:32.430
Es ist sehr interessant zu sehen, wie sie sich alle ändern.

08:32.430 --> 08:34.790
Von hier aus würdest du so gehen und von hier aus gehen wir so.

08:35.010 --> 08:36.870
Und jetzt können Sie plötzlich sehen, wie sich das ändert.

08:36.870 --> 08:41.000
Lass uns die Pfeile rollen und sehen, wie es jetzt aussieht und voila.

08:41.010 --> 08:43.760
Sie sehen sogar eine zufälligere Sache richtig.

08:43.770 --> 08:45.260
Ja, das stimmt.

08:45.270 --> 08:46.500
Aber schau dir an, was hier passiert ist.

08:46.500 --> 08:47.610
Schau dir dieses an.

08:47.690 --> 08:48.970
Schau dir dieses an.

08:49.050 --> 08:50.490
Haben Sie das erwartet?

08:50.520 --> 08:54.570
Das ist etwas, was ich definitiv mag, als ich das erste Mal sah, dass ich sehr beeindruckt war.

08:54.570 --> 08:59.800
Ich war nicht super Ich war nicht überrascht und ich hatte das überhaupt nicht erwartet.

08:59.970 --> 09:04.860
Und dies ist ein Beispiel von Ihnen, wenn ich einen Menschen überlisten kann.

09:05.120 --> 09:10.680
Es klingt wie etwas, das Sie selbst erwischt haben, obwohl Sie vorhergesagt haben, aber das Ich durch Zwangslernen erinnere daran,

09:10.680 --> 09:14.400
dass ein Beispiel für Hunde manchmal besser funktionieren kann als das normale Leben.

09:14.400 --> 09:21.330
Hunde sind vorprogrammiert. Roboterhunde können einfach Fußball spielen, weil sie auf diese Ideen kommen, die selbst wir nicht

09:21.390 --> 09:22.350
sehen können.

09:22.440 --> 09:27.330
Und als tolles Beispiel haben Sie wahrscheinlich nicht erwartet, dass die Asiaten nicht

09:27.330 --> 09:29.690
nach oben gehen, sondern warum.

09:29.850 --> 09:33.120
Wenn ich nach oben gehe, besteht eine Chance von 10 Prozent, dass ich in die Grube springe.

09:33.120 --> 09:35.130
Aber was erreicht es, wenn es in den Krieg geht?

09:35.280 --> 09:38.330
Nun, 80 Prozent der Zeit werden zurückschlagen und im Staat bleiben.

09:38.490 --> 09:42.360
Aber 10 Prozent der Zeit werden hier und 10 Prozent der Zeit ich hier sein.

09:42.360 --> 09:49.130
Plötzlich kann man also sehen, dass es sich nun tatsächlich um diesen neuen Ansatz handelt, in die Mauer zu springen.

09:49.170 --> 09:53.350
Es besteht eine Chance von null Prozent, dass es ins Feuer geht, aber von diesem Punkt aus.

09:53.370 --> 09:57.690
Und es ist, als wollte es wirklich nicht in die Feuerstelle gehen, also ein paar

09:57.690 --> 10:03.050
Mal in die Wand eingedrungene Bonbons und dann geht es irgendwann nach rechts oder links, weil diese Zufälligkeit passieren wird.

10:03.080 --> 10:09.680
Und so lernte es, dass es durch Experimente gelernt hat, dass OK, wenn ich vorankomme, die Ergebnisse nicht so gut sind wie wenn

10:09.680 --> 10:11.440
ich an die Wand gehe.

10:11.510 --> 10:13.540
Und wenn Sie darüber nachdenken, ist es so.

10:13.580 --> 10:18.350
Dieser Roboter, wenn Sie darüber nachdenken, ist dies eine Feuerstelle. Dies ist wie ein Quadrat wie eine winzige

10:18.350 --> 10:21.630
Kante und dann ist dies wie ein Berg wie eine Klippe.

10:21.650 --> 10:27.830
Und dieser Roboter umarmt nur die Klippe und versucht zu warten, bis er nach rechts oder links drückt,

10:27.830 --> 10:32.640
denn als Mensch machen Sie wahrscheinlich dasselbe, dass Sie nicht so stehen würden

10:32.750 --> 10:34.970
oder die Klippe rechts umarmen würden.

10:35.000 --> 10:35.860
Oder sowas ähnliches.

10:35.940 --> 10:39.740
Und hoffentlich wissen Sie, dass wir niemals in solchen Situationen enden müssen.

10:39.770 --> 10:43.670
Aber visuell einfach nur visuell, wenn Sie hier über etwas nachdenken.

10:43.760 --> 10:46.450
Und das ist ziemlich intensiv richtig.

10:46.460 --> 10:51.860
So dass die KI mit dieser Idee kam und dass hier auch eine Art Linkes geht und Riskin sich in einen Kampf verwickelt, aber ich

10:51.860 --> 10:56.270
werde einfach Bälle von der Wand probieren, so wie man es kennt, eine Mauer umarmen und versuchen, in die Wand zu

10:56.300 --> 11:01.430
springen Irgendwann weiß ich, dass Sie wissen, dass es eine Wahrscheinlichkeit gibt, dass jedes Mal, wenn ich tue, eine 10-prozentige Chance besteht. Ich werde

11:01.430 --> 11:04.910
hier hingehen und etwas wird passieren. Ich werde hier enden und ich werde sicher sein und

11:04.910 --> 11:06.680
dann werde ich einfach mach weiter so.

11:06.830 --> 11:13.240
Es ist ein sehr interessanter Ansatz, den sie hier gemacht haben und man kann sehen, dass die Routen so sind. Von hier aus könnte es

11:13.250 --> 11:17.500
nach rechts gehen und dann geht es direkt zum Ausgang oder hier oder nach links.

11:17.690 --> 11:22.230
Und hier werden wir irgendwann nach links gehen und so weitergehen.

11:22.310 --> 11:23.170
Das ist wichtig.

11:23.180 --> 11:27.610
Ich bin keine Politik, auch wenn es von hier aus springt, wird es hier gehen.

11:27.650 --> 11:30.400
Vielleicht Und dann von hier aus könnte es tatsächlich gerade regnen.

11:30.410 --> 11:34.520
Es könnte tatsächlich von rechts nach rechts gehen und dann von hier aus und ich werde es mir erlauben, das richtig zu machen.

11:34.550 --> 11:38.260
Es gibt also viele verschiedene Möglichkeiten für Jungs, die vielleicht nicht genau diesem Eisenwarenhändler

11:38.270 --> 11:38.730
folgen.

11:38.960 --> 11:42.500
Dies ist nur die gewünschte Route, die es für sich selbst entworfen hat.

11:42.590 --> 11:44.690
Aber die Art und Weise, wie es funktioniert, könnte tatsächlich anders sein.

11:44.690 --> 11:46.130
Das hängt von der realen Welt ab.

11:46.340 --> 11:46.940
Also los geht's.

11:46.950 --> 11:50.090
Das ist die Welt der künstlichen Intelligenz.

11:50.090 --> 11:56.780
Das ist, was eine Politik im Vergleich zu einem Plan ist, und hoffentlich werden Sie langsam davon begeistert, was die

11:57.000 --> 12:01.220
KI in Anbetracht dessen, was wir hier gesehen haben, tun kann.

12:01.340 --> 12:07.430
Dies sind einige sehr virtuose Entscheidungen, mit denen sich die KI befassen.

12:07.610 --> 12:12.500
Und wie Sie sehen können, wenn Sie KI spielen, selbst an diesem kleinen Beispiel, können

12:12.500 --> 12:19.240
Sie erkennen, dass Sie vielleicht sogar in einer realen Welt mit Ideen und Entscheidungen aufkommen, die sogar Menschen mit sich bringen können.

12:19.250 --> 12:25.460
Und das ist genau so, wie in jenen Spielen, in denen

12:25.520 --> 12:32.320
das Google-Alpha-Tor gegen den Idol-Weltmeister von Lisa in Korea beim Weltmeister von go spielte.

12:32.390 --> 12:37.000
Und sie spielten 2016 in Korea back bakla. Ich denke es ist März 2016.

12:37.000 --> 12:42.370
Es gab einige Züge, die der Mensch in 3000 Jahren noch nie gespielt hatte oder die Menschen nicht daran gewöhnt waren zu spielen.

12:42.380 --> 12:45.510
Und das ist genau ein Beispiel dafür.

12:45.740 --> 12:50.290
Ich hoffe also, Sie werden aufgeregt und gespannt auf den Diskurs und darauf, was wir integrieren können.

12:50.330 --> 12:51.840
Und ich suche es.

12:51.840 --> 12:52.720
Bis zum nächsten Mal.

12:52.730 --> 12:54.410
Bis dahin genießen.

12:54.410 --> 12:54.640
ICH.
