WEBVTT

00:00.730 --> 00:03.690
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:03.730 --> 00:07.440
Dans l'histoire d'aujourd'hui, nous parlons de la finale a dans un 3C.

00:07.450 --> 00:09.400
Nous parlons d'avantage.

00:09.550 --> 00:10.340
Tiens voilà.

00:10.360 --> 00:14.040
Nous avons déjà parlé de critique d'acteur et d'un synchrone auparavant.

00:14.260 --> 00:20.500
Il a donc trouvé un moyen d’aboutir à ce que nous allons examiner aujourd’hui et, avec avantage, nous allons tout

00:20.500 --> 00:21.560
mettre en place.

00:21.730 --> 00:28.750
C'est donc ce que nous avons jusqu'à présent. Nous avons un réseau de neurones qui est partagé entre les agents et les agents asynchrones,

00:28.840 --> 00:33.550
puis nous avons la critique qui est également partagée entre l'âge et ainsi de suite.

00:33.580 --> 00:36.490
Comment cela se passe-t-il et pourquoi cette critique est-elle partagée entre les agents?

00:36.500 --> 00:37.390
Regardons ça.

00:37.600 --> 00:42.250
Comprend mieux que nous allons mieux regarder un exemple. Nous allons examiner cet agent, par exemple, et voir ce qui se

00:42.280 --> 00:46.730
passe lorsqu'il est dans un certain état et qu'il doit prendre une décision quant au type d'action à jouer.

00:46.840 --> 00:53.890
Donc, cet agent est dans un état où il voit cette image et ensuite ce qui se passe est

00:53.980 --> 00:59.200
que cette information entre dans le réseau de neurones, elle se rend dans le

00:59.200 --> 01:04.330
repaire de convolution des couches cachées du réseau de neurones, puis, en

01:04.330 --> 01:09.870
sortie, il obtient toutes ces valeurs de stratégie que vous définissez comme étant la stratégie.

01:09.970 --> 01:14.160
Et aussi il obtient la valeur du critique.

01:14.230 --> 01:21.640
Ainsi, comme nous le savons pour fonctionner, les réseaux de neurones ont besoin de propager certaines erreurs ou pertes à travers

01:21.640 --> 01:22.720
le réseau.

01:22.720 --> 01:29.020
Donc, de cette façon, afin de mettre à jour les poids afin de savoir ce qui attend ou quelles pertes nous allons subir

01:29.080 --> 01:29.520
ici.

01:29.590 --> 01:30.540
Eh bien, nous sommes deux défaites.

01:30.540 --> 01:32.970
Nous avons la perte de valeur et les postaux.

01:32.980 --> 01:38.360
Ainsi, la perte de valeur est liée à la valeur, la perte partielle est liée aux pools et est donc précieuse.

01:38.400 --> 01:41.080
Nous avons déjà traité avec avant.

01:41.260 --> 01:48.850
Nous savons que nous avons des récompenses et nous avons un facteur de réduction, ce qui en fait est très

01:48.850 --> 01:54.690
similaire à ce dont nous parlions dans la conversion en didacticiels d'apprentissage en profondeur.

01:54.730 --> 02:03.190
Fondamentalement, le réseau prédit une certaine valeur V et en même temps, nous pouvons estimer ce qui devrait être basé sur ce que

02:03.190 --> 02:09.160
nous savons de l’environnement jusqu’à présent, nous pouvons estimer ce que devrait être la valeur dans

02:09.190 --> 02:13.730
l’état. perte, puis retour réseau propagateur mettre à jour les poids.

02:13.870 --> 02:17.670
La nouvelle politique est donc la perte de la politique.

02:17.770 --> 02:21.700
Et alors, quelle est cette perte de politique et comment ça marche.

02:21.700 --> 02:28.960
Eh bien, c’est la partie où toute la situation où la critique est partagée entre les acteurs

02:28.960 --> 02:32.520
ou entre les agents va enfin émerger.

02:32.590 --> 02:38.920
Donc, pour comprendre la perte de palsu, nous devons introduire une valeur

02:39.340 --> 02:45.460
appelée Avantage d'où le nom de cette partie de l'histoire sur toute

02:45.480 --> 02:47.900
cette partie du Salyut.

02:47.920 --> 02:54.550
Donc, fondamentalement, la valeur Q ou celle que vous avez choisie pour exécuter l’ensemble des actions que vous avez choisies de jouer dans l’état où vous

02:54.550 --> 02:57.420
vous trouvez dans l’état S moins la valeur de cet état.

02:57.640 --> 03:00.670
C'est donc la différence entre les deux et cela s'appelle celui-là.

03:00.670 --> 03:04.950
Et l'avantage est utilisé dans le calcul de l'impulsé.

03:04.990 --> 03:10.510
Maintenant, nous n'entrerons pas dans la formule du calcul sans impulsion car il est assez complexe d'utiliser entropie

03:10.710 --> 03:12.860
ou vous ne pouvez pas utiliser l'entropie.

03:12.990 --> 03:17.020
Nous n'allons pas disséquer cette formule mais nous allons comprendre cela de manière intuitive.

03:17.020 --> 03:21.470
Pourquoi faisons-nous cela, pourquoi calculons-nous cet avantage et comment va-t-il nous aider?

03:21.640 --> 03:24.190
Eh bien, regardons cette prémisse pour une seconde.

03:24.190 --> 03:33.040
La valeur Q ici provient de ce que le réseau de neurones a prédit pour cet agent et donc prédictif de cette action spécifique

03:33.040 --> 03:37.840
dans cet état spécifique pour l'action qu'il peut jouer pour qu'il ait ces

03:38.110 --> 03:45.790
actions et qu'il puisse en faire glisser une bien alors que la valeur Wii est la valeur dictée par le

03:45.790 --> 03:46.480
critique.

03:46.480 --> 03:52.320
C’est la valeur que nous avons ici dans cette partie partagée et c’est la clé de cette partie qui est partagée,

03:52.330 --> 03:56.310
donc casser la critique parce que c’est ainsi que le crédit entre en jeu.

03:56.470 --> 04:01.300
Parce que nous avons une valeur que nous choisissons ou l'action que nous choisissons de jouer pour cet agent dans

04:01.300 --> 04:01.930
cet état.

04:01.990 --> 04:09.340
Mais alors le critique peut nous dire quelle est la valeur connue de cet état et quelle est globalement la valeur connue pour tout

04:09.340 --> 04:15.790
ce groupe d'agents qui travaillent ensemble parce que leur partage ne répond pas parce que le B initial parce qu'ils partagent

04:15.820 --> 04:21.280
le critique ils contribuent tous à cela à ces valeurs v qui sont calculées pour un ensemble

04:21.280 --> 04:25.690
différent de sorte que l'ensemble a. algorithme z dit OK.

04:25.690 --> 04:34.060
Ainsi, le critique connaît une valeur v, votre valeur q que vous sélectionnez est bien meilleure par rapport à la valeur

04:34.060 --> 04:35.290
v connue.

04:35.350 --> 04:36.480
C'est ce que ça dit.

04:36.640 --> 04:37.930
Donc c'est fondamentalement ça.

04:37.930 --> 04:45.430
Je vais donc sélectionner ici une valeur q en fonction de ma stratégie, que nous utilisions une fonction soft

04:45.700 --> 04:50.150
max, une stratégie Epsilon Grealy ou quelque chose du genre.

04:50.170 --> 04:55.660
Et bien sûr, nous aurons une exploration et une exploitation combinées, mais nous avons sélectionné la valeur

04:55.660 --> 04:59.260
Q et la question est de savoir quel est le supplément.

04:59.290 --> 05:05.820
Qu'est-ce que cela réprimande? Quel est l'avantage de l'action que vous avez sélectionnée par rapport à

05:05.820 --> 05:12.480
la valeur connue de cet état? C'est l'essence même de l'avantage. Elle sert en principe à

05:12.480 --> 05:17.940
calculer la perte, puis la perte est répercutée. à travers le réseau.

05:17.940 --> 05:23.910
Donc, ils sont tous les deux propagés à travers un réseau et les poids sont ajustés afin que le réseau puisse

05:23.910 --> 05:28.280
mieux représenter la valeur de la critique, ce qui en fait la partie supérieure.

05:28.410 --> 05:33.030
Mais alors, cette partie de la clé est que les poids sont en bakra.

05:33.120 --> 05:40.530
Quand est-ce que ces bureaux de poste sont de retour oubliez que les tarifs sont ajustés de manière à maximiser cet

05:40.590 --> 05:46.200
avantage, de sorte que c’est le côté intuitif de la compréhension intuitive du fait

05:46.350 --> 05:52.010
que nous revenons cette dernière politique à travers le réseau pour aider à maximiser cet avantage.

05:52.050 --> 05:57.660
Et cela signifie fondamentalement que lorsqu'un agent rencontre des actions mauvaises, telles que des actions où les valeurs

05:57.660 --> 06:00.930
q sont inférieures à la valeur connue de l'état.

06:00.930 --> 06:07.110
Donc, fondamentalement, l’algorithme ATC dans son ensemble sait que la valeur de l’état est X et qu’un coup, vous vous

06:07.110 --> 06:11.690
êtes retrouvé face à une très mauvaise action et que vous avez choisi l’action.

06:11.700 --> 06:17.130
Et ce que cela signifie pour l’enthousiasme, c’est que nous ferions une telle chose alors que c’est pire que ce

06:17.130 --> 06:21.960
que nous connaissons déjà de tout cet environnement et de ce que nous aurions pu faire.

06:22.080 --> 06:23.500
Donc, nous ne devrions pas faire plus de cela.

06:23.610 --> 06:27.670
Et par conséquent, les poids ne sont en quelque sorte que plus rares.

06:27.690 --> 06:29.900
Donc, cela arrive moins rare.

06:30.300 --> 06:33.430
C'est donc un événement moins fréquent que nous choisissons cette mauvaise action.

06:33.510 --> 06:38.880
D'autre part, si vous choisissez une très bonne action où la valeur de q est supérieure à V ou bien

06:39.050 --> 06:43.220
supérieure à celle de l'endroit où, au cours de la régression de la perte polonaise

06:43.230 --> 06:50.780
à travers le réseau, les poids vont être mis à jour et de manière à renforcer encouragez à rassurer que cela se reproduise pour que les poids

06:50.790 --> 06:55.140
soient ajustés de manière à ce que l’algorithme atresia pense que c’est vraiment bien que

06:55.140 --> 06:56.790
Wantage soit très élevé là-bas.

06:56.880 --> 07:03.750
Je devrais en faire plus et par conséquent, vous mettrez à jour les poids de manière à ce que cette

07:03.750 --> 07:05.550
action se produise plus vraisemblablement.

07:05.560 --> 07:13.080
Vous savez donc que le réseau va lentement s’adapter et se construire lentement en quelque

07:13.080 --> 07:19.770
chose qui calcule la valeur correctement d’une part, puis de la manière la

07:19.770 --> 07:21.990
plus correcte possible.

07:21.990 --> 07:28.330
Et d'autre part, il encourage ou il a des actions qui ont un grand avantage.

07:28.380 --> 07:30.570
Donc voilà, c'est ça cette partie.

07:30.570 --> 07:35.930
Et maintenant, examinons-en un autre pour renforcer ce que nous venons de discuter en haut 1.

07:36.000 --> 07:37.210
Donc, même chose ici.

07:37.350 --> 07:45.330
Les agences les plus importantes d’une situation dans laquelle un État se trouve dans un état et doit ensuite décider quoi faire car ces informations vers

07:45.330 --> 07:50.100
les réseaux de cette image utilisent Internet se régénèrent de manière convolutionnelle, elles tirent leur Lehre

07:50.100 --> 07:56.290
aplatissant pour aller dans les couches masquées nous obtenons un résultat nous obtenons les valeurs aiguës de la politique nous

07:56.310 --> 08:00.960
obtenons à nouveau les valeurs V la même chose que nous avons deux pertes.

08:00.960 --> 08:05.240
Nous avons la perte de valeur qui est ici la perte polonaise qui est ici la perte de valeur.

08:05.250 --> 08:06.830
Nous savons déjà comment est calculé.

08:06.960 --> 08:10.950
Lorsque nous avons discuté de cela dans le cadre de l'apprentissage Q approfondi et que nous venons tout juste de discuter.

08:10.950 --> 08:17.340
C’est ainsi que la valeur a été calculée, puis à nouveau la perte de contrat afin de calculer ce que nous ne ferons

08:17.340 --> 08:18.370
pas pour lui.

08:18.390 --> 08:25.530
Mais au niveau intuitif, nous calculons cet avantage, ce qui est correct. Nous avons donc pris certaines mesures. Nous avons choisi une action

08:25.530 --> 08:31.140
déterminée en fonction de notre politique de sélection, qu'il s'agisse de politique souple Max ou de vente incontrôlable

08:31.170 --> 08:34.470
d'avidité ou de toute autre politique sociale que nous utilisons.

08:34.620 --> 08:42.630
Et ensuite, quelle action avons-nous entreprise? Comparons cela à la valeur connue et à la valeur de l’état

08:42.630 --> 08:47.670
qui provient des critiques partagés. En ce qui concerne celui-ci,

08:47.670 --> 08:52.950
ils contribuent tous à former un critique afin de le familiariser davantage

08:52.950 --> 08:58.140
avec l'environnement et de s'assurer que le critique est représentatif de

08:58.380 --> 09:03.600
ce qui se passe dans l'environnement réel, de sorte que les poids.

09:03.660 --> 09:10.170
C’est là que la perte de valeur intervient de sorte que le poids du réseau de

09:10.260 --> 09:17.700
neurones actuel reflète très bien la situation réelle dans l’environnement, de sorte qu’il puisse ensuite s’appuyer sur cette

09:17.700 --> 09:20.090
valeur et l’utiliser ensuite ici.

09:20.090 --> 09:21.550
Et si fondamentalement.

09:21.720 --> 09:26.880
Donc, tous ces agents, tous ces agents contribuent à cette critique.

09:26.880 --> 09:32.850
Mais en même temps, le critique observe les décisions ou les

09:32.850 --> 09:35.490
politiques de ces agences.

09:35.490 --> 09:39.960
C'est comme si c'était comme regarder en arrière comme si j'essayais de tracer comme une flèche vers les

09:39.960 --> 09:40.740
pôles une flèche.

09:40.830 --> 09:45.780
Donc, en regardant en arrière, la décision qu’ils prennent est de critiquer ces décisions dans cette optique et de

09:45.780 --> 09:50.210
dire OK vous avez pris une décision, vous avez choisi cela, vous avez choisi cette action.

09:50.220 --> 09:51.240
C'est génial.

09:51.240 --> 09:56.570
Calculons maintenant que l'avantage ou le désavantage d'un ranch est égal, vous savez que la valeur

09:56.590 --> 10:04.040
Q aurait pu prendre la décision que j'ai prise ou que le choix que j'ai fait a choisi de prendre moins la valeur

10:04.100 --> 10:05.100
connue du critique.

10:05.110 --> 10:06.470
Pas à propos de la critique.

10:06.470 --> 10:12.010
Donc, Kalika fait la différence si la différence est que vous êtes polonais alors quand vous corrigerez vos

10:12.020 --> 10:16.580
pertes propagées à travers le réseau, la façon dont elles seront ajustées va encourager

10:16.580 --> 10:22.010
les ajustements des pondérations de telle sorte de nouveau que cette valeur Q ou cette valeur Q sera

10:22.010 --> 10:28.910
inférieure, de sorte que, comme notre politique sélectionne les actions en fonction des valeurs q, plus la valeur Q est élevée, plus il

10:28.910 --> 10:30.560
est probable qu'elle sera sélectionnée.

10:30.560 --> 10:35.210
Donc, si nous utilisions comme une règle Arc Max, nous sélectionnons toujours celle qui est la plus élevée. Vous vous souviendrez que

10:35.360 --> 10:38.870
nous en avons parlé, nous sélectionnions toujours celle qui avait la valeur la plus élevée.

10:38.870 --> 10:43.790
Mais nous utilisions en fait une approche probabiliste dans laquelle j’utilisais une politique de Max soft ou une stratégie de

10:43.790 --> 10:44.420
vente inconditionnelle.

10:44.540 --> 10:49.220
Et ensuite, nous sélectionnions essentiellement où nous pouvions choisir l’un d’entre eux, mais plus le cube était haut, mieux c'était.

10:49.220 --> 10:55.310
Donc, si nous choisissons quelque chose et que l'avantage est très faible, le réseau sera bombardé de

10:55.310 --> 11:01.970
telle sorte que la prochaine fois, la valeur de cette action sera moindre et peut-être que quelque chose d'autre

11:01.970 --> 11:02.910
sera plus.

11:02.960 --> 11:09.770
C’est la répartition des coûts. Par contre, si nous sélectionnons un avantage important, les lois relatives

11:09.770 --> 11:15.050
aux politiques, puis les réseaux, seront mis à jour de manière à

11:15.060 --> 11:19.590
ce que cet événement soit plus communément observé: scénario.

11:19.640 --> 11:26.300
Et donc, fondamentalement, toute cette perte polonaise aide le réseau à s’adapter ou à se transformer de la même manière que nous.

11:26.300 --> 11:31.620
Morale des bonnes choses bonnes actions et bonnes choses et moins des mauvaises choses.

11:31.700 --> 11:35.040
Et c’est ainsi que ces deux pertes entrent en jeu et que leur retour est approprié.

11:35.120 --> 11:41.800
J'espère donc que cela s'éclaircit de manière très intuitive bien sûr, nous n'avons pas examiné les formules

11:41.810 --> 11:46.930
dans les mathématiques complexes derrière tout cela, ni dans les détails très complexes.

11:47.060 --> 11:50.940
Mais dans le même temps, espérons-le, de manière intuitive.

11:50.990 --> 11:58.850
Tout cela explique pourquoi nous avons l'acteur et le critique et comment ils interagissent, vous

11:58.850 --> 12:03.780
savez que ces agents sont asynchrones ou synchrones.

12:03.790 --> 12:08.480
Ensuite, c’est votre acteur et votre critique, c’est là l’avantage et la manière dont tout cela entre en jeu.

12:08.480 --> 12:10.840
Donc, ce sont des agents synchrones.

12:10.850 --> 12:11.920
Ils vont.

12:12.040 --> 12:18.740
Ils jouent à cela ou explorent l'environnement et travaillent à travers l'environnement et

12:18.740 --> 12:26.720
ils contribuent tous à un critique qui observe ensuite leurs politiques en observant les acteurs, comme on

12:26.720 --> 12:27.400
l'appelle.

12:27.560 --> 12:34.610
Et par le biais de cet avantage, et par conséquent, cela crée une perte, puis une perte de politique et de

12:34.610 --> 12:38.210
valeur ou une propagation en retour sur le réseau uniquement.

12:38.240 --> 12:43.540
D'une part, représentent le véritable mode de fonctionnement de l'environnement.

12:43.580 --> 12:47.630
Une autre main pour améliorer les performances des acteurs.

12:47.930 --> 12:48.410
Alors on y va.

12:48.410 --> 12:52.800
C'est un récapitulatif rapide de l'intuition dont nous avons discuté.

12:52.790 --> 12:58.550
Une fois de plus, j'espère que tout se résume de manière intuitive et que, bien sûr, dans les tutoriels

12:58.550 --> 13:04.880
pratiques. Nous parlerons davantage de la manière dont tout cela fonctionne à Atlanta et nous vous expliquerons le processus des propriétaires

13:04.880 --> 13:05.560
de bâtiments.

13:05.570 --> 13:11.240
Mais avoir cette image dans votre esprit et ceci comme une sorte de feuille de route de tout ce

13:11.240 --> 13:17.240
qui va se passer va bien se passer. J'espère que cela vous sera très utile pour mieux naviguer dans l'aspect pratique

13:17.240 --> 13:18.160
des choses.

13:18.290 --> 13:25.710
Et en termes de lecture supplémentaire pour aujourd'hui, nous avons deux éléments, donc le premier est l'avantage.

13:25.760 --> 13:32.480
Nous avons donc ici un contrôle continu élevé des démences utilisant l’estimation d’avantages généralisée de

13:32.480 --> 13:38.930
John Shulman. C’est l’image d’un bonhomme bâton se levant comme si on se levait.

13:38.930 --> 13:44.030
Et vous trouverez ici encore plus d’informations sur les avantages et les avantages, ainsi que sur les

13:44.030 --> 13:44.960
différents types d’avantages.

13:44.990 --> 13:50.870
Vous disposez de l’avantage général en matière d’estimation et des avantages que vous utilisez réellement

13:51.110 --> 13:56.360
dans les formulaires des calculs. Par conséquent, si vous souhaitez en savoir plus

13:56.360 --> 14:05.330
sur l’avantage et son fonctionnement, les formules utilisées les éléments du haut en haut ou des formules et pas de trous dans l'espace

14:05.330 --> 14:06.810
de cet avantage.

14:06.830 --> 14:08.700
Nous en avons discuté.

14:08.720 --> 14:10.140
C'est l'article à consulter.

14:10.490 --> 14:19.880
Nous souhaitons également rappeler au blog une série de publications de blog par Arthur Giuliani, que

14:19.990 --> 14:24.350
nous avons déjà mentionnées à quelques reprises.

14:24.350 --> 14:28.010
C'est la huitième partie qui concerne spécifiquement la mer A-3.

14:28.280 --> 14:33.280
Donc, ici, vous pouvez obtenir une autre explication.

14:33.650 --> 14:38.900
Donc, avec un peu plus de mathématiques sur ce qui se passe et vous pouvez peut-être prendre quelques choses supplémentaires à

14:38.900 --> 14:39.420
partir d’ici.

14:39.440 --> 14:45.470
Juste deux choses à garder à l’esprit tout d’abord, comme toujours, ce blog est un groupe d’adhérents de plus en plus nombreux, nous utilisons la

14:45.470 --> 14:46.130
torche pi.

14:46.130 --> 14:46.840
Alors garde cela en tête.

14:46.840 --> 14:53.330
Et deuxièmement, la façon dont nous avons structuré notre approche est que nous avons d'abord parlé de critique

14:53.960 --> 14:55.730
actif, puis de synchrone.

14:55.730 --> 15:03.040
Ensuite, nous avons parlé d’avantage alors que dans le premier journal d’Arthur, le premier

15:03.050 --> 15:07.260
critique d’Arthur parle d’un acteur critique pour Synchronoss.

15:07.340 --> 15:10.480
Mais à part cela, bien sûr, c'est un excellent contenu.

15:10.490 --> 15:14.510
Et nous vous recommandons vivement de vérifier pour quelques informations supplémentaires.

15:14.780 --> 15:16.840
Nous espérons donc profiter du tutoriel d'aujourd'hui.

15:16.880 --> 15:18.710
Et j'ai hâte de vous voir la prochaine fois.

15:18.710 --> 15:20.240
Jusque-là profiter.

15:20.260 --> 15:20.520
JE.