WEBVTT

00:01.080 --> 00:04.050
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.050 --> 00:09.810
Aujourd'hui, nous continuons notre voyage dans le monde tous les trois ans et nous parlons du côté synchrone de

00:09.870 --> 00:13.530
l'un ou l'autre C, d'où nous avons notre abréviation d'avantage synchrone.

00:13.550 --> 00:14.430
Critique actif.

00:14.430 --> 00:19.040
Et aujourd'hui, nous allons découvrir ce que synchrone signifie ici ce que cela signifie.

00:19.080 --> 00:20.990
Et revenons en arrière.

00:21.000 --> 00:27.270
Regardons ce que nous avons commencé tout ce cours pour apprendre à comprendre en quoi consiste le fait que l'Asiatique

00:27.270 --> 00:29.050
est dans un certain état.

00:29.340 --> 00:30.690
Ils observent l'état.

00:30.730 --> 00:37.080
Ils prennent certaines décisions, ils prennent des mesures dans cet État, puis l'État est modifié de manière à entrer dans un nouvel

00:37.080 --> 00:39.010
État et à obtenir une récompense.

00:39.150 --> 00:46.830
Donc, la récompense pour avoir pris cette action ou une sorte de récompense qui pourrait aussi être une pénalité et ils se retrouvent dans un

00:46.830 --> 00:47.780
nouvel état.

00:47.790 --> 00:50.180
Et basé sur cela maintenant, ils prennent une autre action à nouveau.

00:50.250 --> 00:56.280
Ils obtiennent une récompense et se retrouvent dans un nouvel état

00:56.280 --> 00:59.670
et prennent une autre mesure, etc.

00:59.700 --> 01:06.030
Et c’est ce que nous avons utilisé pour apprendre en apprentissage approfondi et en convolution continue, et cela a permis

01:06.030 --> 01:10.660
à nos agents de battre progressivement des environnements de plus en plus complexes.

01:10.770 --> 01:18.310
Mais maintenant, nous allons introduire un concept encore meilleur et même aller encore plus loin.

01:18.720 --> 01:25.530
Ce que A-3 voit introduit à travers cela et élément synchrone est au lieu d’avoir un agent

01:25.520 --> 01:26.730
qui attaque l’environnement.

01:26.790 --> 01:34.140
Ils ont trois agents ou quel que soit le nombre d'agents ou plusieurs agents attaquant le même environnement.

01:34.290 --> 01:39.360
Et la clé ici est que c’est pourquoi on l’appelle les synchronisées parce qu’elles sont initialisées différemment, de sorte que

01:39.360 --> 01:40.920
leurs entrées étoiles sont différentes.

01:40.920 --> 01:46.520
Ainsi, par exemple, comme vous le verrez de sources pratiques, vous définissez une graine aléatoire et vous la définissez différemment

01:46.530 --> 01:47.980
pour chacun des agents.

01:48.030 --> 01:51.150
Et cela parce que leurs points de départ sont différents.

01:51.270 --> 01:55.260
Ils vont d'abord parcourir les environnements de différentes manières, puis ils vont explorer de différentes manières,

01:55.260 --> 01:58.620
puis dans les prochaines itérations, ils vont aussi explorer de différentes manières.

01:58.620 --> 02:01.190
Et ainsi, par exemple, nous avons trois agents.

02:01.300 --> 02:06.390
Tout à coup, vous obtenez le triple d'expérience, au lieu d'un seul

02:06.390 --> 02:12.480
âge, pour explorer et explorer l'environnement et essayer de comprendre comment l'utiliser dans cet environnement.

02:12.570 --> 02:18.780
Maintenant, trois ou beaucoup d’entre eux traversent cette épreuve et acquièrent

02:18.930 --> 02:25.140
cette expérience, afin que chacun d’entre eux apprenne à vivre cette

02:25.140 --> 02:31.300
expérience plus vaste. se coincer dans un maximum local.

02:31.320 --> 02:38.040
Ainsi, par exemple, si un agent trouve un moyen de surpasser l'environnement, ce qui n'est pas optimal car s'il s'écarte de la

02:38.130 --> 02:43.470
gauche vers la droite de cette solution, il se trouve qu'il devient toujours plus pénalisé qu'il risque

02:43.470 --> 02:45.710
de rester bloqué au maximum local.

02:45.710 --> 02:49.530
Cela pourrait bien continuer de penser que c'est la solution optimale là où ce n'est pas le cas.

02:49.680 --> 02:58.830
La probabilité que plusieurs agents restent bloqués dans le même maximum local diminue de diminution avec le nombre d'agents, de

02:58.830 --> 03:04.440
sorte que la probabilité qu'un agent reste bloqué dans un certain maximum

03:04.440 --> 03:07.990
local peut être élevée, mais peut-être aussi.

03:08.130 --> 03:11.730
Mais la probabilité que trois d'entre eux soient bloqués dans ce maximum local

03:11.730 --> 03:13.020
est beaucoup plus faible.

03:13.020 --> 03:18.630
Et tant qu'ils partagent leurs expériences, ils peuvent s'entraider. Ainsi, si l'un d'entre eux est bloqué, par

03:18.630 --> 03:23.370
exemple, il atteint un maximum local et pense simplement que c'est la meilleure solution et

03:23.370 --> 03:25.700
la meilleure continue à faire ça.

03:25.830 --> 03:30.740
Tant qu'il interagit avec les autres agents, disons que ce gars est coincé dans une action calme tant

03:30.770 --> 03:35.710
qu'il interagit avec d'autres agents via la façon dont nous construisons l'ensemble de notre algorithme par le biais

03:35.710 --> 03:37.620
d'un système cellulaire, et ils l'aideront.

03:37.620 --> 03:42.960
Ils lui apprendront que vous devez explorer ce domaine ou il sera plus susceptible

03:43.020 --> 03:44.630
de s'en sortir.

03:44.760 --> 03:50.370
Et dans l’ensemble, l’environnement saura que même si le maximum est atteint, ces autres âges ont vu de meilleures

03:50.370 --> 03:55.230
options et nous devrions continuer à explorer car il semble y avoir de meilleures options.

03:55.230 --> 04:00.750
En résumé, dans une compréhension intuitive très succincte, c’est là quelques-uns des avantages d’avoir

04:00.750 --> 04:05.970
ces agents synchrones. Vous avez ainsi plus d’expérience à choisir et à apprendre.

04:06.210 --> 04:12.750
Vous pouvez trouver la solution plus rapidement et d’une manière générale s’il ya moins de chances

04:13.080 --> 04:16.640
de rester bloqué dans un maximum local CRN.

04:16.680 --> 04:18.710
Voyons donc comment cela se passe.

04:18.720 --> 04:24.300
Dans ce modèle que nous avons construit jusqu’à présent, rappelez-vous que c’est ce que nous avons obtenu jusqu’à présent avec la critique elle-même et

04:24.300 --> 04:29.730
c’est comme si nous plaisantions tous, c’est aussi loin que vous vous en souveniez, de la première à la tortue que nous avons présentée.

04:29.730 --> 04:33.030
tu sais que nous avions déjà cela même dans les profondeurs de l'océan.

04:33.030 --> 04:38.340
Q learning's Donc, nous venons de nommer le X mais nous avons maintenant introduit la critique, mais jusqu'à présent, cela

04:38.340 --> 04:43.620
n'a pas vraiment de sens. Quel est l'intérêt de cette critique et de mesurer la valeur de l'état ou de

04:43.620 --> 04:48.320
prédire la valeur d'une étape en utilisant le même système neuronal? réseaux ou la même approche.

04:48.510 --> 04:52.350
Mais maintenant c'est comme ça que le partenaire va commencer à avoir plus de sens.

04:52.350 --> 04:57.750
Ce que nous allons faire, c'est reproduire cela car nous avons maintenant plusieurs agents. Donc, si vous avez plusieurs agents,

04:57.750 --> 04:59.410
voici à quoi cela ressemble.

04:59.410 --> 05:07.380
La première façon de l’imaginer, c’est que ces trois jours ont bien

05:07.380 --> 05:09.210
été mémorisés.

05:09.210 --> 05:12.270
Donc, c'est comme si à l'heure actuelle, ils étaient tous indépendants.

05:12.260 --> 05:15.420
Vous en avez un qui joue le jeu et autre que le jeu, un autre jeu dans le jeu.

05:15.450 --> 05:20.500
C'est comme si vous lanciez votre agent sur trois ordinateurs différents: vous mettez trois ordinateurs différents l'un à côté de l'autre

05:20.500 --> 05:23.030
et vous les lancez et vous savez que c'est génial.

05:23.050 --> 05:29.100
Comme si vous aimiez, vous obtiendrez plus d'expérience, plus de variété, surtout s'ils sont

05:29.100 --> 05:29.760
initialisés.

05:29.790 --> 05:33.600
Nous pouvons donc supposer à partir d’ici qu’ils sont mal initialisés toujours initialisés avant même si nous

05:33.600 --> 05:34.770
avons la même image ici.

05:34.870 --> 05:39.900
Allons-nous savoir qu'ils sont en fait initialisés différemment pour que ce ne soit pas un

05:39.900 --> 05:43.460
entraînement identique, un apprentissage identique à celui de ce jeu?

05:43.890 --> 05:47.700
Et donc, même si vous aimez mettre trois ordinateurs côte

05:47.700 --> 05:55.560
à côte et les lancer, vous aurez plus d'expérience parce que vous aurez trois agents en jeu et que vous disposerez d'une

05:55.680 --> 05:58.600
plus grande variété de solutions possibles. .

05:58.620 --> 06:00.120
Donc c'est vrai.

06:00.120 --> 06:03.840
Mais le problème est qu’ils ne partagent pas notre expérience les uns avec les autres ou n’apprennent pas les uns des

06:03.840 --> 06:04.120
autres.

06:04.220 --> 06:06.840
Donc, ils n'ont pas cette synergie.

06:06.840 --> 06:11.670
Ils n’ont ni l’avantage ni le pouvoir supplémentaire qu’ils obtiendraient s’ils étaient compétitifs.

06:11.670 --> 06:17.930
Vous savez, par exemple, si vous avez une équipe de personnes, elles travaillent mieux ensemble que chacune d’elles séparément.

06:17.920 --> 06:20.650
Donc, comme dans une équipe ici, vous avez un plus un plus un.

06:20.730 --> 06:25.200
C'est trois, mais dans une équipe, un plus un pour apparaître et non pas trois, c'est comme les trois

06:25.200 --> 06:29.220
parce qu'ils exploitent les forces de chacun et atténuent leurs faiblesses et la même chose ici.

06:29.220 --> 06:34.080
Donc, si vous mettez ces deux ordinateurs côte à côte, vous aurez plus de mémoire d’expérience et vous

06:34.150 --> 06:35.580
obtiendrez peut-être une meilleure solution.

06:35.580 --> 06:39.710
Un autre excellent, mais ce sera encore mieux s’ils commencent à partager cette expérience.

06:39.780 --> 06:41.120
Et comment font-ils cela?

06:41.130 --> 06:47.820
Eh bien, c’est par le biais de cette Wii que nous la calculons pour que la valeur de la Wii qui est la sortie de notre

06:47.820 --> 06:49.550
réseau soit en fait la même.

06:49.560 --> 06:54.960
Donc, ils ont la même chose à chaque fois.

06:54.960 --> 06:58.050
Tous ces agents contribuent au même critique.

06:58.050 --> 07:04.290
Ils n'ont pas de critiques séparées, ils ont une critique commune et c'est la clé de la relation entre

07:04.290 --> 07:06.270
l'acteur critique et son synchrone.

07:06.270 --> 07:09.850
Il y a donc un critique qui nous observe pendant qu'il acquiert de l'expérience.

07:09.870 --> 07:12.420
Alors, comment calculons-nous la Wii?

07:12.570 --> 07:13.920
Nous devons faire passer la Wii.

07:14.220 --> 07:20.190
Comme vous vous en souvenez, nous pouvons transmettre à la télévision les valeurs que nous obtenons, ainsi que les récompenses obtenues grâce

07:20.190 --> 07:20.750
à l'environnement.

07:20.760 --> 07:28.310
Et ainsi, alors que les agents explorent leur environnement, ils calculent qu'ils prédisent la Wii.

07:28.320 --> 07:30.710
De plus, ils ont la Wii qu'ils peuvent calculer.

07:30.720 --> 07:35.010
C’est tout cela qui est lié à ce que nous avons déjà discuté dans les sections précédentes

07:35.010 --> 07:35.730
des partitions.

07:35.850 --> 07:42.870
Ils disposent donc déjà d’une Wii qu’ils peuvent prédire comme ils le souhaitent grâce aux récompenses qu’ils savent avoir

07:42.870 --> 07:48.700
dans ce labyrinthe et qu’ils ont déjà explorées et qu’ils explorent, bien sûr, que cette valeur

07:48.750 --> 07:49.770
peut changer.

07:49.890 --> 07:55.410
Mais ils ont aussi dit à la Wii qu’il s’agissait de la sortie du réseau de

07:55.410 --> 08:01.530
neurones; ils devront alors ajuster leur réseau de neurones afin de mieux correspondre à ce qui était prévu.

08:01.530 --> 08:10.080
Donc, fondamentalement, cela est partagé, la partie critique est partagée entre les agents et c’est ainsi qu'ils partagent l’information entre eux, ce qui

08:10.080 --> 08:15.490
leur permet de voir ce qui se passe dans l’environnement partagé entre eux, puis

08:15.490 --> 08:20.890
de l’utiliser comme Je verrai plus loin dans la partie suivante avec avantage.

08:20.930 --> 08:25.450
Alors utilisez-le afin d'optimiser la façon dont ils se comportent de l'environnement.

08:25.710 --> 08:27.960
Et l'autre chose à noter ici est.

08:28.080 --> 08:29.510
C'était donc un C.

08:29.520 --> 08:33.150
C'est comme le noyau de A-3 voir jusqu'ici.

08:33.150 --> 08:38.610
Ceci est un type de version de 08:30 Mais sa mise en oeuvre est encore meilleure.

08:38.610 --> 08:45.450
C’est l’un des premiers tutoriels et l’aspect pratique de la question. Il explique comment le créateur de Pi torche a

08:45.450 --> 08:52.680
modifié son comportement. des codes qui ont été partagés et deviennent une plaque tournante où il a pris tout cela, comme

08:52.980 --> 08:58.530
vous pouvez le voir maintenant, ils ont des réseaux de neurones distincts et ils ont montré

08:58.530 --> 09:03.420
à la Wii que le réglage qui avait été fait consistait en réalité

09:03.420 --> 09:09.300
à prendre tous ces réseaux de neurones et à les mettre en un prenez-les et mettez-les ensemble.

09:09.300 --> 09:15.100
En fin de compte, il n’ya qu’un seul réseau de neurones partagé entre les agents.

09:15.120 --> 09:21.180
Ainsi, avant d’avoir chacun d’eux avait un réseau de neurones qui étaient partagés pour l’acteur et pour le critique un réseau

09:21.180 --> 09:25.790
de neurones Shelfer réel pour le critique un partage de réseau de neurones par précision.

09:25.800 --> 09:31.730
Maintenant, ils ont tous un réseau de neurones qui est partagé par l'acteur ou le critique actuel x ou le critique.

09:31.980 --> 09:35.130
Et puis la critique est ici en commun.

09:35.310 --> 09:36.690
Voyons donc voyons.

09:36.690 --> 09:39.840
Déplaçons ces images vers la gauche ici alors faites de la place.

09:40.100 --> 09:47.430
Et c’est essentiellement l’architecture ou la structure que nous allons utiliser dans les tutoriels

09:47.430 --> 09:48.250
pratiques.

09:48.300 --> 09:55.020
Je sais que cela peut sembler un peu écrasant à ce stade, mais nous en avons un autre

09:55.020 --> 09:59.370
pour parler de l'avantage et nous le verrons mieux en action.

09:59.370 --> 10:02.780
Comment ça se passe alors nous allons parler de l'intuition en action.

10:02.870 --> 10:05.680
Mais d’une manière générale, c’est ce qu’il est.

10:05.700 --> 10:10.640
Il existe un réseau que chaque agent utilise ou partage.

10:10.640 --> 10:15.820
En gros, cela signifie qu'ils partagent les poids, les poids du réseau sont partagés entre les âges et lorsqu'ils le

10:15.840 --> 10:19.920
mettent à jour, ils mettent à jour l'ensemble du réseau, pas seulement leur propre réseau.

10:20.480 --> 10:26.270
Et puis ils ont des sorties comme celles-ci pour chaque agent, puis ils ont la critique partagée

10:26.270 --> 10:27.710
qui sera surveillée

10:27.700 --> 10:34.280
Je sais donc que tout se passe comme s'il y avait beaucoup de choses en ce moment, mais j'espère que ça se concrétisera

10:34.850 --> 10:35.900
au moins lentement.

10:35.900 --> 10:39.660
La principale conclusion d’ici est que la critique est partagée.

10:39.670 --> 10:47.810
C'est ainsi que les agents sont en mesure de s'assurer qu'ils coopèrent ensemble afin d'obtenir le résultat beaucoup plus

10:47.810 --> 10:48.660
rapidement.

10:48.860 --> 10:52.690
Et ensuite, dans le prochain tutoriel, nous verrons plus loin comment tout cela s’ajoute.

10:52.700 --> 10:53.650
Tout cela vient ensemble.

10:53.900 --> 11:01.210
Et pour l’instant, je voudrais recommander ou nous vous recommandons une lecture supplémentaire.

11:01.210 --> 11:06.780
C'est donc un blog de Jaromir Jansch.

11:06.860 --> 11:11.570
Il s’appelle Faisons une implantation A3, c’est en fait une implémentation et une théorie en deux parties.

11:11.820 --> 11:19.010
Il existe un lien et il est très similaire à ce qu'Adlon implémentera dans la partie pratique

11:19.010 --> 11:25.880
du didacticiel. Ce n'est donc pas spécifiquement pour ce didacticiel, pas seulement pour Sutro, mais pour

11:25.880 --> 11:27.200
toute cette section.

11:27.200 --> 11:30.900
Encouragement là-bas quelques informations supplémentaires quelques idées supplémentaires là-bas.

11:31.040 --> 11:33.260
Et voilà pourquoi nous en parlons ici.

11:33.320 --> 11:38.030
Mais néanmoins, dans le prochain tutoriel, nous allons commencer à rassembler tout cela.

11:38.030 --> 11:39.040
Tout ce que nous avons discuté.

11:39.200 --> 11:40.590
Et j'ai hâte de vous voir la prochaine fois.

11:40.590 --> 11:42.200
Et jusque-là profitez de moi