WEBVTT

00:00.830 --> 00:04.470
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.580 --> 00:09.520
J'espère que vous êtes enthousiasmé par le tutoriel d'aujourd'hui car nous faisons notre tout premier pas dans le monde,

00:09.520 --> 00:10.170
le I.

00:10.460 --> 00:13.150
Et aujourd'hui, nous parlons d'apprentissage par renforcement.

00:13.280 --> 00:18.710
C'est une histoire très importante car elle sous-tendra tout ce qui va se passer dans ce cours.

00:18.770 --> 00:21.010
Alors commençons ici.

00:21.020 --> 00:27.140
Nous avons un petit labyrinthe et ce labyrinthe est notre représentation d'un environnement et c'est ce à quoi nous

00:27.140 --> 00:29.210
allons nous intéresser dans ce cours.

00:29.210 --> 00:34.040
Nous allons avoir affaire à certains environnements dans lesquels notre intelligence artificielle va

00:34.040 --> 00:39.950
agir et prendre des mesures qui vont chercher à les vaincre dans mon avenir, elle

00:39.950 --> 00:42.350
voudra gagner dans ces environnements.

00:42.350 --> 00:44.190
Et ici nous avons un agent.

00:44.360 --> 00:46.990
L'agent est notre intelligence artificielle.

00:47.030 --> 00:52.910
C'est la personne ou l'esprit qui va naviguer dans ces environnements et apprendre de la rétroaction que

00:53.000 --> 00:57.110
leur esprit va lui donner afin de pouvoir effectuer certaines actions.

00:57.150 --> 01:02.180
Et ainsi, cela fonctionne comme si l'agent exécutait certaines actions dans cet environnement.

01:02.360 --> 01:09.050
Et en conséquence, l'état dans lequel il se trouve va changer, de sorte qu'il pourrait être plus loin ou plus proche ou plus à gauche

01:09.050 --> 01:10.070
plus à droite.

01:10.070 --> 01:15.030
Il peut avoir en quelque sorte les autres paramètres décrivant son état et ces paramètres.

01:15.100 --> 01:20.970
Donc, l'état va changer à cause des actions entreprises et il obtiendra également des récompenses basées sur l'action.

01:20.970 --> 01:24.950
Donc, chaque fois que cela prend une action, l'état change et il reçoit une récompense.

01:24.950 --> 01:29.170
Maintenant, gardez à l’esprit que parfois il peut arriver que cela ne changera pas l’état, que l’action

01:29.170 --> 01:33.070
ne changera pas une suspension ou qu’il n’y aura pas de récompense pour cette action.

01:33.110 --> 01:34.530
En ce sens c'était.

01:34.670 --> 01:38.480
Mais néanmoins, l’agent va continuer à faire cela et va prendre des actions tromper l’Etat en obtenant

01:38.480 --> 01:42.510
des récompenses en changeant les actions en prenant des actions pour changer l’Etat et en obtenant des récompenses.

01:42.800 --> 01:47.840
Et en faisant ce processus, vous apprendrez ce qui allait être l'exploration de l'environnement en

01:48.200 --> 01:53.970
comprenant quelles actions mènent à de bonnes récompenses et à des états favorables et quelles actions les

01:53.990 --> 01:55.840
deux récompensent un état défavorable.

01:56.000 --> 01:59.690
Et ceci est un problème très global de représentation très simpliste.

01:59.690 --> 02:04.390
Donc, si vous y réfléchissez, les environnements ne doivent en réalité pas être que des labyrinthes.

02:04.400 --> 02:09.170
Il ne s'agit pas simplement de sortir d'un labyrinthe ou de trouver un trésor dans un labyrinthe.

02:09.170 --> 02:11.740
Un environnement peut être à peu près n'importe quoi dans la vie.

02:11.750 --> 02:15.180
Alors, imaginez-vous vous réveiller le matin et cuisiner une omelette.

02:15.410 --> 02:22.010
Donc, pour obtenir cette omelette, vous devez suivre certaines étapes et obtenir le sel, les œufs, les

02:22.010 --> 02:27.770
poêles à frire, etc., et cela ressemble à une chose banale et banale.

02:27.770 --> 02:29.870
Mais c'est devenu une routine parce que vous l'avez fait tant de fois.

02:29.960 --> 02:34.670
Mais en réalité, c’est dans un environnement où vous effectuez certaines actions que vous prenez que vous mettez le

02:34.670 --> 02:40.250
feu sur vous en mettant une poêle sur le feu vous mettez tous les œufs dans la poêle et vous mettez du sel

02:40.250 --> 02:43.190
sur les œufs et vous vous retournez et ainsi de suite.

02:43.190 --> 02:49.970
Comme vous pouvez le constater, il s’agit d’actions CRN qui prennent des actions dans certains États et qui conduisent à

02:49.970 --> 02:52.460
certains autres États et parfois récompensent.

02:52.460 --> 02:57.650
Ainsi, par exemple, lorsque vous allumez le feu et que vous attendez, attendez, attendez, attendez, vous agissez, attendez,

02:57.650 --> 03:01.900
attendez, attendez, attendez trop longtemps, puis vous mettez les œufs dans la poêle.

03:01.910 --> 03:03.560
Les récompenses vont être très négatives.

03:03.560 --> 03:05.120
Tout va brûler.

03:05.120 --> 03:10.130
D'un autre côté, si vous faites toutes les actions correctes au bon moment, il est également très

03:10.130 --> 03:13.850
important de comprendre que les actions doivent être prises aux moments appropriés.

03:13.850 --> 03:20.090
Ainsi, par exemple, mettre le sel dans la poêle avant de mettre les œufs n'est peut-être pas la meilleure

03:20.090 --> 03:20.770
idée.

03:20.780 --> 03:26.190
Vous voudrez peut-être prendre cette mesure en mettant le sel dans la poêle une fois que les œufs sont dedans, afin

03:26.200 --> 03:28.320
que le tout soit dans un état différent.

03:28.370 --> 03:29.620
Il est donc important de s'en souvenir.

03:29.780 --> 03:34.070
Et en même temps, si vous prenez toutes les mesures correctes dans le bon ordre et dans les

03:34.580 --> 03:38.840
états appropriés, votre récompense finale pourrait être que vous obteniez une omelette que vous pourrez manger.

03:38.900 --> 03:44.660
C’est donc une activité de base dans votre vie, mais si vous y réfléchissez, c’est un environnement et vous êtes

03:44.990 --> 03:50.060
l’agent qui traverse cet environnement et accomplit une tâche dont vous n’avez pas vraiment besoin d’apprendre parce

03:50.060 --> 03:52.190
que vous le connaissez déjà assez .

03:52.220 --> 03:56.170
Mais en même temps, vous pourriez apprendre que vous pourriez peut-être apprendre à faire une meilleure omelette ou surtout si

03:56.340 --> 03:59.010
c'est votre première omelette que vous faites, vous allez probablement la perdre.

03:59.030 --> 04:04.010
Mais vous en tirerez des leçons car vous comprendrez quelles actions mènent vers des états, des routes et tout ce qui

04:04.490 --> 04:05.890
se passe dans la vie.

04:06.050 --> 04:11.900
Par exemple, même en négociant sur le marché boursier, vous savez acheter et vendre et obtenir certaines

04:11.900 --> 04:16.390
réactions du marché en termes de rendement, des rendements positifs ou négatifs.

04:16.430 --> 04:20.160
C'est aussi un environnement auquel vous participez en tant qu'âge.

04:20.210 --> 04:25.220
Conduire une voiture, c’est aussi un environnement où vous pouvez tourner le volant, vous pouvez accélérer, vous

04:25.220 --> 04:29.510
pouvez casser et ainsi de suite. L’environnement vous fait savoir que l’un de ces commentaires

04:29.510 --> 04:35.840
est que le policier vous inflige une amende pour excès de vitesse. allez au-dessus de la limite de vitesse acceptable ou autorisée

04:35.840 --> 04:36.960
sur cette autoroute.

04:37.040 --> 04:41.900
Et donc à partir de là, vous apprenez que ce n’est pas quelque chose qui devrait être fait car cela mène

04:41.900 --> 04:43.020
à une récompense négative.

04:43.220 --> 04:45.590
Il ne faut donc pas que les récompenses se situent à la toute fin du processus.

04:45.590 --> 04:48.020
Ils peuvent être tout au long du voyage tout au long du processus.

04:48.020 --> 04:49.490
Voilà donc quelques exemples.

04:49.490 --> 04:54.980
Et en termes de je, la manière la plus simple de penser à l'apprentissage par renforcement est comme former un chien lorsque vous entraînez

04:54.980 --> 05:00.270
le chien à lui donner certaines commandes et s'il obéit à ces commandes, vous lui donnez une portée vous le donnez comme un

05:00.440 --> 05:04.820
biscuit ou quelque chose comme ça Si ce n'est pas le cas, Abeles Kamaz, dites-lui que c'est un

05:04.820 --> 05:06.600
mauvais chien ou ne lui accordez rien.

05:06.830 --> 05:13.820
Et à travers ce processus, il apprend quelles sont certaines commandes ou ce qu'il doit faire, quelles actions il doit entreprendre

05:13.820 --> 05:18.470
dans certains états et les états sont les ordres que vous lui donnez.

05:18.470 --> 05:22.700
Et basé sur cela, il obtiendra certaines récompenses bien sûr dans le monde de l'IA.

05:22.700 --> 05:24.590
Ce n'est pas si complexe.

05:24.590 --> 05:26.910
Vous n'êtes pas obligé de donner les friandises.

05:26.960 --> 05:32.120
Vous n'avez pas besoin d'avoir un sac de biscuits avec vous chaque fois que vous lui donnez un plus

05:32.120 --> 05:37.290
ou un moins, c'est donc un avantage énorme que dans le monde de l'IA, nous avons créé nous-mêmes ces IA.

05:37.310 --> 05:42.680
Donc, les récompenses que nous leur donnons si vous pensez que c’est vraiment cool, les récompenses

05:42.680 --> 05:48.490
leur donnent qu’elles n’existent pas, c’est juste un plus ou un moins ou un plus ou un zéro.

05:48.500 --> 05:51.100
Donc, tout est non-existence, tout ce qui est imaginaire.

05:51.110 --> 05:56.300
Mais en même temps, cela donne d'excellents résultats car nous pouvons créer ces

05:56.300 --> 06:01.760
choses étonnantes, cette intelligence artificielle étonnante, mais en fournissant simplement des récompenses, nous n'existons pas.

06:01.790 --> 06:05.670
Plus et moins un ne coûte rien, mais les résultats de publication du même temps.

06:05.900 --> 06:08.170
Donc, très similaire au monde réel.

06:08.210 --> 06:15.140
Et vous savez par exemple Dokes Mais ici, les récompenses sont numériques et uniquement numériques.

06:15.140 --> 06:20.920
Et dans cet esprit, nous pouvons parler de chiens robots. J'aime cet exemple. C’est donc tout simplement en

06:20.920 --> 06:26.630
images pas nécessairement le chien robot exact que vous connaissez qui est entraîné par le renforcement, en apprenant

06:26.710 --> 06:31.050
certains des chiens robots, en particulier les plus âgés. un algorithme là-bas.

06:31.370 --> 06:39.260
Et c’est en fait un bon exemple de la différence entre les agents préprogrammés et l’agent d’apprentissage par renforcement

06:39.260 --> 06:46.120
afin que vous puissiez avoir un chien robot qui est préprogrammé pour savoir marcher, dit-on.

06:46.160 --> 06:51.500
Donc, dans l'algorithme derrière le chien dans le logiciel dira OK, donc pour marcher, vous devez déplacer votre jambe gauche en

06:52.370 --> 06:58.160
avant, jambe avant gauche en avant, votre jambe arrière droite en avant puis votre jambe avant droite en avant, puis votre jambe arrière

06:58.160 --> 07:02.480
gauche en et répétez cette action et vous savez que telle est la définition de la marche

07:02.480 --> 07:04.870
est une fonction à l'intérieur de ce chien.

07:05.040 --> 07:09.060
Et puis, vous saurez peut-être comment vous asseoir et comment faire des choses comme ça.

07:09.680 --> 07:16.710
Tandis que chez un chien robot formé par renforcement, on ne préprogramme pas.

07:16.730 --> 07:23.810
C'est le concept clé de tout ce qui est écrit ici, à savoir qu'aucun algorithme n'est codé en dur dans

07:23.810 --> 07:24.850
le chien.

07:24.860 --> 07:28.300
Au lieu de cela, vous avez ce dont nous discuterons à l'avenir.

07:28.460 --> 07:36.710
Vous avez cet algorithme d’apprentissage par renforcement qui dit OK. L’objectif est donc d’aller de là où vous

07:36.860 --> 07:41.990
ne savez plus rien jusqu’au bout de la pièce, par exemple.

07:42.170 --> 07:44.270
Et voici les actions que vous pouvez entreprendre.

07:44.270 --> 07:48.950
Vous pouvez bouger votre pied droit, vous pouvez bouger votre pied gauche, vous pouvez bouger votre pied

07:48.950 --> 07:53.000
arrière droit, vous avez le pied arrière gauche. Ici, tous les degrés de liberté

07:53.000 --> 07:59.180
possibles Les actions que vous pouvez entreprendre et vos récompenses sont chaque fois que vous faites un pas en avant, vous obtenez un

07:59.210 --> 08:01.430
plus à chaque fois que vous tombez.

08:01.430 --> 08:04.090
Vous obtenez un moins un et c'est tout ce qu'il y a à faire.

08:04.160 --> 08:07.390
Et puis, ils laissent le chien et le laissent lui-même.

08:07.400 --> 08:13.460
Alors le chien essaie de se tenir debout il tombe alors il se rend compte que OK je ne devrais pas faire l'action qui m'a conduit à tomber parce

08:13.460 --> 08:17.040
que chaque fois que je tombe, je reçois un signe moins qui n'est pas bon pour moi.

08:17.060 --> 08:21.560
Il en va de même pour l’autre action qui l’a aidé à se

08:21.560 --> 08:26.090
relever. Il s’agit donc d’expériences d’expériences d’expériences menées au hasard, puis il a compris

08:26.090 --> 08:31.410
qu’il pouvait faire un pas en avant en déplaçant son pied avant droit. faire plus de cela.

08:31.460 --> 08:35.620
OK, cool, alors il apprend maintenant qu'il devrait faire plus et moins de ceci.

08:35.630 --> 08:42.270
Et à travers ce processus d’apprentissage, il comprend très vite rapidement comment il peut marcher.

08:42.410 --> 08:49.130
Et ces chiens qui ont découvert par eux-mêmes peuvent parfois parfois mieux marcher que les chiens qui

08:49.130 --> 08:53.930
sont préprogrammés, parce que des choses vraiment préprogrammées nous regardent les

08:53.930 --> 09:00.300
vrais chiens et ou vous savez nous utilisons notre propre imagination optimiser les choses par lui-même.

09:00.320 --> 09:03.540
Et parce qu’en intelligence artificielle, les résultats peuvent être encore meilleurs.

09:03.680 --> 09:05.290
Et c'est comme ça qu'ils peuvent entraîner ces robots.

09:05.320 --> 09:07.320
Les mêmes robots robots jouent au football.

09:07.520 --> 09:12.970
Vous pouvez entraîner un chien normal à jouer au football parce que vous savez simplement que l'approche est différente.

09:12.980 --> 09:20.900
Et ce n’est pas quelque chose pour lequel vous savez probablement qu’un chien normal a été entraîné ou a déjà évolué au

09:20.900 --> 09:23.030
cours de son processus d’évolution.

09:23.030 --> 09:28.190
Tandis qu’un chien-robot apprenant en renfort peut très facilement comprendre comment jouer au football,

09:28.190 --> 09:32.760
à condition de lui indiquer les avantages, les objectifs, les actions possibles.

09:33.080 --> 09:36.390
C'est ainsi que fonctionne l'apprentissage par renforcement.

09:36.410 --> 09:39.160
En général, il existe un aperçu rapide de l'apprentissage par renforcement.

09:39.170 --> 09:45.500
J'espère que cela vous passionnera pour l'avenir, car c'est un monde complètement différent de celui des solutions de

09:45.530 --> 09:51.980
préprogrammation, des solutions difficiles à coder en dur dans le cadre d'un programme, dans lesquelles vous avez les mêmes conditions.

09:51.980 --> 09:53.750
C'est très différent.

09:53.840 --> 09:56.010
Et nous allons parler plus à ce sujet.

09:56.150 --> 10:03.400
En attendant, nous avons quelques lectures supplémentaires à vous proposer, donc si vous souhaitez avoir des documents à l'appui, voici un

10:03.700 --> 10:06.810
excellent article sur lequel vous pourrez vous pencher.

10:06.830 --> 10:09.300
C'est ce qu'on appelle l'apprentissage par renforcement simple avec flux tensoriel.

10:09.430 --> 10:10.570
Il a dix parties.

10:10.570 --> 10:14.790
Le lien est ici et vous trouverez le lien complet sur lequel vous pouvez cliquer.

10:14.820 --> 10:22.540
Dans les ressources de l'article d'Arthur Giuliani de 2016, vous pouvez suivre ce cours et obtenir des informations supplémentaires

10:22.540 --> 10:24.770
à partir de cet article.

10:24.790 --> 10:30.010
Mais gardez à l'esprit que cet article a tendance à couler là où,

10:30.520 --> 10:35.830
comme dans ce cours, nous utilisons une implémentation différente mais implémentée, mais vous pouvez en

10:35.830 --> 10:41.260
même temps trouver quelques éléments qui pourraient compléter votre apprentissage. va faire dans ce cours.

10:41.260 --> 10:44.910
Donc, d'excellents articles vous suivent si vous envisagez de le suivre à coup sûr.

10:44.920 --> 10:45.820
Toujours au cas où.

10:45.820 --> 10:51.890
Vérifiez cette première partie et voyez si vous l'aimez si vous souhaitez la lire un peu plus.

10:52.210 --> 10:58.210
Et puis nous avons spécifiquement dans ce tutoriel un apprentissage en matière de contrôle des frontières, un article de

10:58.210 --> 11:00.380
Richard Sutton appelé apprentissage par renforcement.

11:00.420 --> 11:08.170
Une introduction est que les articles de 1998 sont assez anciens, mais vous pouvez en même temps en apprendre un peu plus

11:08.170 --> 11:13.960
sur l’apprentissage par renforcement, comme par exemple cet exemple omlet et d’autres exemples d’application de l’apprentissage

11:13.960 --> 11:17.710
par renforcement, et simplement un aperçu général de cet apprentissage.

11:17.710 --> 11:23.220
Si vous recherchez des lectures supplémentaires et que sur cette note nous allons conclure ce tutoriel.

11:23.230 --> 11:24.640
J'ai hâte de te voir la prochaine fois.

11:24.640 --> 11:26.560
Et jusque-là, profitez de l'IA.
