WEBVTT

00:01.080 --> 00:04.050
Hallo und herzlich willkommen zum Kurs über künstliche Intelligenz.

00:04.050 --> 00:09.810
Heute setzen wir unsere Reise in die Welt fort, und zwar alle drei, und wir reden über die synchrone

00:09.870 --> 00:13.530
Seite eines C, also haben wir unsere Abkürzung für synchronen Vorteil.

00:13.550 --> 00:14.430
Aktiver Kritiker

00:14.430 --> 00:19.040
Und heute werden wir herausfinden, was hier ein Synchrones bedeutet, was es bedeutet.

00:19.080 --> 00:20.990
Und lass uns einen Schritt zurückgehen.

00:21.000 --> 00:27.270
Schauen wir uns an, was wir diesen ganzen Kurs für die Durchsetzung begonnen haben, um zu lernen, worauf es ankommt, dass der

00:27.270 --> 00:29.050
Asiat in einem bestimmten Zustand ist.

00:29.340 --> 00:30.690
Sie beobachten den Staat.

00:30.730 --> 00:37.080
Sie treffen bestimmte Entscheidungen, sie ergreifen Maßnahmen in diesem Zustand, und dann ändert sich der Zustand, sodass sie in einen neuen

00:37.080 --> 00:39.010
Zustand versetzt werden und erhalten Belohnung.

00:39.150 --> 00:46.830
Also die Belohnung für das Ergreifen dieser Aktion oder eine Art Belohnung, die ebenfalls eine Strafe sein könnte, und sie landen in einem

00:46.830 --> 00:47.780
neuen Zustand.

00:47.790 --> 00:50.180
Und darauf basierend machen sie jetzt wieder eine andere Aktion.

00:50.250 --> 00:56.280
Sie erhalten eine Belohnung und landen in einem neuen Zustand, und sie ergreifen eine andere Aktion und so

00:56.280 --> 00:59.670
weiter, und dies ist die Grundlage für das Verstärkungslernen.

00:59.700 --> 01:06.030
Das ist es, was wir beim Lernen im tiefen Lernen und im tiefen konvolutionellen Lernen gelernt haben, und das hat

01:06.030 --> 01:10.660
es unseren Agenten ermöglicht, nach und nach komplexere und komplexere Umgebungen zu schlagen.

01:10.770 --> 01:18.310
Aber jetzt werden wir ein noch besseres Konzept einführen und sogar noch weiter gehen.

01:18.720 --> 01:25.530
Was A-3 durch dieses und synchrones Element einführt, ist, anstatt einen Agenten die Umgebung angreifen

01:25.520 --> 01:26.730
zu lassen.

01:26.790 --> 01:34.140
Sie haben drei Agenten oder eine beliebige Anzahl von Agenten oder mehrere Agenten, die dieselbe Umgebung angreifen.

01:34.290 --> 01:39.360
Und der Schlüssel hier ist, warum es die Synchronisierungen genannt wird, weil sie anders initialisiert werden, so

01:39.360 --> 01:40.920
dass ihre Sterneneingaben unterschiedlich sind.

01:40.920 --> 01:46.520
Wie Sie beispielsweise aus praktischen Quellen sehen werden, setzen Sie einen zufälligen Startwert und legen ihn für

01:46.530 --> 01:47.980
jeden Agenten anders fest.

01:48.030 --> 01:51.150
Und das so, weil ihre Ausgangspunkte unterschiedlich sind.

01:51.270 --> 01:55.260
Sie werden zuerst auf verschiedene Weise durch Umgebungen gehen und dann auf unterschiedliche Weise erkunden, und

01:55.260 --> 01:58.620
dann werden sie in den nächsten Iterationen auch auf unterschiedliche Weise erforscht.

01:58.620 --> 02:01.190
So haben wir zum Beispiel drei Agenten.

02:01.300 --> 02:06.390
Sie erhalten plötzlich die dreifache Menge an Erfahrung und nicht nur ein einziges Lebensalter.

02:06.390 --> 02:12.480
Sie gehen durch und erkunden die Umgebung und versuchen zu verstehen, wie sie in dieser Umgebung betrieben wird.

02:12.570 --> 02:18.780
Sie haben jetzt drei oder so viele von ihnen, die diese Erfahrung machen und diese Erfahrung machen,

02:18.930 --> 02:25.140
so dass jeder von ihnen für diese größere Erfahrung lernt. Abgesehen davon, dass er nur ein breiteres

02:25.140 --> 02:31.300
Spektrum an Erfahrungen bietet, verringert dies auch die Chancen eines Agenten in einem lokalen Maximum stecken.

02:31.320 --> 02:38.040
Wenn zum Beispiel ein Agent einen Weg findet, die Umgebung zu schlagen, die nicht die optimalste ist, weil ein Link von rechts

02:38.130 --> 02:43.470
nach rechts von dieser Lösung abweicht und er immer als bestraft empfunden wird, als wäre er bestrafter

02:43.470 --> 02:45.710
und könnte in einem lokalen Maximum stecken.

02:45.710 --> 02:49.530
Es könnte einfach weitergehen, wenn man denkt, dass dies die optimale Lösung ist, wo es eigentlich nicht ist.

02:49.680 --> 02:58.830
Nun, die Wahrscheinlichkeit, dass mehrere Agenten in demselben lokalen Maximum stecken bleiben, nimmt mit der Anzahl der Agenten ab, so dass die

02:58.830 --> 03:04.440
Wahrscheinlichkeit, dass ein Agent in einem bestimmten lokalen Maximum stecken bleibt, hoch sein

03:04.440 --> 03:07.990
könnte, oder aber ein bestimmter Wert sein könnte.

03:08.130 --> 03:11.730
Aber die Wahrscheinlichkeit, dass drei von ihnen in diesem lokalen Maximum stecken,

03:11.730 --> 03:13.020
ist viel geringer.

03:13.020 --> 03:18.630
Und solange sie Erfahrungen austauschen, können sie sich gegenseitig helfen. Wenn also einer von ihnen stecken bleibt,

03:18.630 --> 03:23.370
ist dies ein lokales Maximum. Denken Sie einfach, dass dies die beste und die beste

03:23.370 --> 03:25.700
Lösung ist macht das immer wieder.

03:25.830 --> 03:30.740
Nun, solange es mit den anderen Agenten interagiert. Nehmen wir also an, dieser Kerl bleibt in einer ruhigen

03:30.770 --> 03:35.710
Aktion stecken, solange er mit anderen Agenten auf die Art und Weise interagiert, wie wir unseren gesamten Algorithmus durch

03:35.710 --> 03:37.620
Mobilfunk entwickeln, und sie werden ihm helfen.

03:37.620 --> 03:42.960
Sie werden ihm das Wissen vermitteln, dass Sie eigentlich wissen, dass Sie dies untersuchen sollten, oder er

03:43.020 --> 03:44.630
wahrscheinlich eher aus diesem herauskommt.

03:44.760 --> 03:50.370
Und insgesamt wird die Umgebung wissen, dass dies ein hervorragendes Maximum ist, das in anderen Zeiten bessere

03:50.370 --> 03:55.230
Optionen gesehen hat, und wir sollten weiter erkunden, da es anscheinend bessere Optionen gibt.

03:55.230 --> 04:00.750
In einem sehr kurzen groben intuitiven Verständnis bedeutet dies, dass dies einige der Vorteile dieser synchronen Agenten

04:00.750 --> 04:05.970
sind, so dass Sie mehr Erfahrung zur Auswahl haben und von denen Sie lernen können.

04:06.210 --> 04:12.750
Sie könnten schneller und generell zur Lösung gelangen, wenn die Wahrscheinlichkeit geringer ist,

04:13.080 --> 04:16.640
in einem lokalen CRN-Maximum zu stecken.

04:16.680 --> 04:18.710
Mal sehen, wie das alles klappt.

04:18.720 --> 04:24.300
In diesem Modell, das wir bisher gebaut haben, denken Sie daran, dies ist das, was wir durch den eigentlichen Kritiker so weit gebracht haben,

04:24.300 --> 04:29.730
und das ist, als ob wir alle necken, dies ist so weit, wie Sie sich an die erste Schildkröte erinnern, die wir

04:29.730 --> 04:33.030
eingeführt haben Das wissen Sie, wir hatten das auch schon im tiefen Ozean.

04:33.030 --> 04:38.340
Q learning's So haben wir gerade das X benannt, aber jetzt haben wir Kritik eingeführt, aber bis jetzt

04:38.340 --> 04:43.620
macht es keinen Sinn, was es heißt, diesen Kritiker zu haben und den Wert des Staates zu messen

04:43.620 --> 04:48.320
oder den Wert einer Stufe mit demselben neuronalen Wert vorherzusagen Netzwerke oder der gleiche Ansatz.

04:48.510 --> 04:52.350
Aber jetzt ist dies der Partner, der mehr Sinn macht.

04:52.350 --> 04:57.750
Was wir tun werden, ist, dass wir dies replizieren werden, weil wir jetzt mehrere Agenten haben. Wenn also mehrere Agenten

04:57.750 --> 04:59.410
dies sind, sieht es so aus.

04:59.410 --> 05:07.380
Die erste Möglichkeit, sich vorzustellen, ist, dass wir uns diese drei Tage gut erinnern können, was wir darüber gesagt haben, dass sie

05:07.380 --> 05:09.210
ihre Erfahrungen miteinander geteilt haben.

05:09.210 --> 05:12.270
Das ist eigentlich so, als wären sie jetzt alle unabhängig.

05:12.260 --> 05:15.420
Sie haben eine, die das Spiel spielt, und nicht nur ein anderes Spiel im Spiel.

05:15.450 --> 05:20.500
Es ist, als würden Sie Ihren Agenten auf drei verschiedenen Computern starten, indem Sie drei verschiedene Computer nebeneinander stellen und

05:20.500 --> 05:23.030
sie starten, und Sie wissen, dass das großartig ist.

05:23.050 --> 05:29.100
Als ob Sie wirklich möchten, erhalten Sie mehr Erfahrung und mehr Abwechslung, besonders wenn sie initialisiert

05:29.100 --> 05:29.760
werden.

05:29.790 --> 05:33.600
Wir können also von hier aus davon ausgehen, dass sie anfänglich nicht initialisiert werden, obwohl wir

05:33.600 --> 05:34.770
hier dasselbe Bild haben.

05:34.870 --> 05:39.900
Werden wir wissen, dass sie tatsächlich anders initialisiert werden, so wird es nicht wie

05:39.900 --> 05:43.460
ein identisches Training aussehen, das aus diesem Spiel lernt.

05:43.890 --> 05:47.700
Und selbst wenn Sie möchten, dass Sie drei Computer nebeneinander

05:47.700 --> 05:55.560
stellen und starten, ja, Sie werden mehr Erfahrung haben, da Sie drei Agenten spielen und auch eine größere Auswahl

05:55.680 --> 05:58.600
an möglichen Lösungen haben werden .

05:58.620 --> 06:00.120
Das stimmt also.

06:00.120 --> 06:03.840
Das Problem ist jedoch, dass sie unsere Erfahrungen nicht miteinander teilen oder nicht voneinander

06:03.840 --> 06:04.120
lernen.

06:04.220 --> 06:06.840
Sie haben also diese Synergie nicht.

06:06.840 --> 06:11.670
Sie haben weder den Vorteil noch die zusätzliche Kraft, die sie bekommen würden, wenn

06:11.670 --> 06:17.930
sie sich einreden würden. Sie wissen, wie, wenn Sie ein Team hätten, das besser zusammenarbeitet als jeder einzelne von ihnen.

06:17.920 --> 06:20.650
Wie in einem Team hier hast du eins plus eins plus eins.

06:20.730 --> 06:25.200
Es sind drei, aber in einem Team sind eins plus eins zu spawnen und nicht drei sind wie die drei, weil

06:25.200 --> 06:29.220
sie die Stärken des anderen nutzen und die Schwächen des anderen abschwächen und die gleichen Dinge hier abmildern.

06:29.220 --> 06:34.080
Wenn Sie also diese beiden Computer nebeneinander setzen, haben Sie mehr Erfahrungsspeicher und möglicherweise hat

06:34.150 --> 06:35.580
jemand eine bessere Lösung.

06:35.580 --> 06:39.710
Eine andere, die großartig ist, aber es wäre noch besser, wenn sie diese Erfahrung teilen.

06:39.780 --> 06:41.120
Und wie machen sie das?

06:41.130 --> 06:47.820
Nun, durch diese Wii berechnen wir sie so, dass dieser Wii-Wert, der die Ausgabe unseres Netzwerks

06:47.820 --> 06:49.550
darstellt, tatsächlich so ist.

06:49.560 --> 06:54.960
So haben sie jedes Mal das gleiche.

06:54.960 --> 06:58.050
Alle diese Agenten tragen zum selben Kritiker bei.

06:58.050 --> 07:04.290
Sie haben keine getrennten Kritiker, sie haben einen gemeinsamen Kritiker, und das ist der Schlüssel dafür, wie sich der

07:04.290 --> 07:06.270
Schauspieler mit ihrem Synchronous verbindet.

07:06.270 --> 07:09.850
Es gibt also einen Kritiker, der uns beobachtet, wie sie Erfahrungen sammeln.

07:09.870 --> 07:12.420
Wie berechnen wir die Wii?

07:12.570 --> 07:13.920
Wir müssen die Wii durchbringen.

07:14.220 --> 07:20.190
Wenn Sie sich erinnern, können wir durch die Werte, die wir erhalten, Fernsehen machen, und die Belohnungen, die wir durch die Umgebung

07:20.190 --> 07:20.750
bekommen.

07:20.760 --> 07:28.310
Und wenn die Agenten ihre Umgebung erkunden, sind sie Kalküle, die die Wii vorhersagen.

07:28.320 --> 07:30.710
Außerdem haben sie die Wii, die sie berechnen können.

07:30.720 --> 07:35.010
Dies ist das alles, was wir in den vorherigen Abschnitten der Partituren bereits

07:35.010 --> 07:35.730
besprochen haben.

07:35.850 --> 07:42.870
Sie haben also bereits eine Wii, die sie vorhersagen können, wie durch die Belohnungen, die sie in diesem Labyrinth kennen

07:42.870 --> 07:48.700
und die sie bereits erforscht haben, und die sie natürlich erkunden, und dass sich dieser Wert

07:48.750 --> 07:49.770
ändern kann.

07:49.890 --> 07:55.410
Aber sie haben auch die Wii, dass dies die Ausgabe des neuronalen Netzwerks ist.

07:55.410 --> 08:01.530
Wenn sie das durchgehen, werden sie ihre neuronalen Netzwerke anpassen, um das erwartete besser zu erreichen.

08:01.530 --> 08:10.080
Im Grunde genommen wird dies geteilt. Der kritische Teil wird zwischen den Agenten geteilt. Auf diese Weise teilen sie die Informationen untereinander. So

08:10.080 --> 08:15.490
können sie irgendwie sehen, was in der gemeinsam genutzten Umgebung vor sich geht, und

08:15.490 --> 08:20.890
diese dann als wir verwenden werde im nächsten teil weiter nach vorne sehen.

08:20.930 --> 08:25.450
Verwenden Sie das also, um das Verhalten der Umgebung zu optimieren.

08:25.710 --> 08:27.960
Und die andere Sache, die hier zu beachten ist, ist.

08:28.080 --> 08:29.510
Das war also ein durchgehendes C.

08:29.520 --> 08:33.150
Dies ist wie der Kern von A-3 bis hier.

08:33.150 --> 08:38.610
Dies ist eine Version von 08:30. Es gibt jedoch eine noch bessere Implementierung.

08:38.610 --> 08:45.450
A bis C, von dem Sie hören würden, dass ich gerne in einem der ersten Tutorials und den praktischen Aspekten

08:45.450 --> 08:52.680
darüber sprechen würde, und worüber er sprechen wird, ist, wie der Schöpfer von Pi torche tatsächlich eine Anpassung vorgenommen hat Von den

08:52.980 --> 08:58.530
Codes, die gemeinsam genutzt wurden und wo er alle diese Informationen verwendet hat, haben sie, wie

08:58.530 --> 09:03.420
Sie jetzt sehen können, separate neuronale Netzwerke, und sie zeigten der Wii, dass die

09:03.420 --> 09:09.300
Anpassung tatsächlich vorgenommen wurde, um all diese neuronalen Netzwerke zu übernehmen nimm sie und füge sie zusammen.

09:09.300 --> 09:15.100
Letztendlich gibt es hier nur ein neuronales Netzwerk, das von den Agenten gemeinsam genutzt wird.

09:15.120 --> 09:21.180
Bevor sie also hatten, hatte jeder von ihnen ein neuronales Netzwerk, das für den Schauspieler gemeinsam genutzt wurde, und für

09:21.180 --> 09:25.790
den Kritiker ein neuronales Netzwerk, das für den Kritiker tatsächlich ein neuronales Netzwerk war.

09:25.800 --> 09:31.730
Jetzt haben sie alle ein neuronales Netzwerk, das für den Schauspieler oder Kritiker X oder Kritiker gemeinsam genutzt wird.

09:31.980 --> 09:35.130
Und dann ist der Kritiker hier gemeinsam.

09:35.310 --> 09:36.690
Also lass uns mal sehen.

09:36.690 --> 09:39.840
Verschieben Sie diese Bilder hier nach links, um Platz zu schaffen.

09:40.100 --> 09:47.430
Dies ist im Wesentlichen die Architektur oder Struktur, die wir in den praktischen Übungen verwenden

09:47.430 --> 09:48.250
werden.

09:48.300 --> 09:55.020
Ich weiß, dass sich dies in dieser Phase vielleicht etwas überwältigend anhört, aber wir haben noch einen weiteren Grund, über

09:55.020 --> 09:59.370
den Vorteil zu sprechen, und wir werden es in Aktion besser sehen.

09:59.370 --> 10:02.780
Wie geht das? Wir sprechen über die Intuition in Aktion.

10:02.870 --> 10:05.680
Aber im Allgemeinen ist es das, was es ist.

10:05.700 --> 10:10.640
Dies ist ein Netzwerk, das von jedem Agenten verwendet oder gemeinsam genutzt wird.

10:10.640 --> 10:15.820
Im Grunde bedeutet das, dass sie die Gewichte teilen, die die Gewichte des Netzwerks zwischen verschiedenen Altersstufen haben, und wenn

10:15.840 --> 10:19.920
sie es aktualisieren, aktualisieren sie das gesamte Netzwerk und nicht nur das eigene Netzwerk.

10:20.480 --> 10:26.270
Und dann haben sie Ausgaben, die sie für jeden Agenten wie diese Aktionen haben, und dann haben sie den Kritiker, der

10:26.270 --> 10:27.710
geteilt wird, der überwacht wird.

10:27.700 --> 10:34.280
Ich weiß, dass das alles so ist, als ob es im Moment eine Menge Sachen gibt, aber hoffentlich kommt es

10:34.850 --> 10:35.900
zumindest langsam zusammen.

10:35.900 --> 10:39.660
Der Haupt-Take-Away von hier ist, dass der Kritiker geteilt wird.

10:39.670 --> 10:47.810
So können die Agenten sicherstellen, dass sie zusammenarbeiten, um das Ergebnis viel schneller zu

10:47.810 --> 10:48.660
erreichen.

10:48.860 --> 10:52.690
Und im nächsten Tutorial werden wir noch genauer sehen, wie sich das alles summiert.

10:52.700 --> 10:53.650
Das alles kommt zusammen.

10:53.900 --> 11:01.210
Und fürs Erste gibt es das, was ich empfehlen möchte, oder wir möchten Ihnen eine zusätzliche Lektüre empfehlen.

11:01.210 --> 11:06.780
Das ist also ein Blog von Jaromir Jansch.

11:06.860 --> 11:11.570
Es heißt Let's make a A3. Implantationen sind eigentlich zwei Teile, Implementierung und Theorie.

11:11.820 --> 11:19.010
Es gibt den Link und es ist dem sehr ähnlich, was Adlon in der praktischen Seite des Tutorials

11:19.010 --> 11:25.880
implementieren wird. Es ist also nicht speziell für dieses Tutorial gedacht, nicht nur für Sutro, sondern für

11:25.880 --> 11:27.200
diesen gesamten Abschnitt.

11:27.200 --> 11:30.900
Ermutigung gibt es einige zusätzliche Informationen, einige zusätzliche Einblicke dort.

11:31.040 --> 11:33.260
Deshalb bringen wir es hier auf.

11:33.320 --> 11:38.030
Aber trotzdem werden wir im nächsten Tutorial anfangen, all das zusammen zu ziehen.

11:38.030 --> 11:39.040
Alles was wir besprochen haben.

11:39.200 --> 11:40.590
Und ich freue mich darauf, Sie das nächste Mal zu sehen.

11:40.590 --> 11:42.200
Und bis dahin genieße ich