WEBVTT

00:01.090 --> 00:04.270
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.290 --> 00:07.260
Aujourd'hui, nous parlons de la peine vivante.

00:07.600 --> 00:13.540
D'accord, nous avons donc toute l'équation de Belman et, au cours de ce

00:13.540 --> 00:20.030
cours, nous avons progressivement compliqué la tâche. Nous avons déjà ajouté ces probabilités à ce jour.

00:20.200 --> 00:22.930
Et nous avons également ajouté le facteur d'actualisation.

00:22.930 --> 00:28.440
Maintenant, nous allons examiner plus en détail de ce côté de la question où nous avons la récompense maintenant.

00:28.480 --> 00:34.660
Rappelez-vous que précédemment, lorsque nous avons expliqué comment fonctionne l'apprentissage par renforcement, nous avons dit que nous avions

00:34.660 --> 00:41.290
un agent qui effectue des actions dans l'environnement et lors d'un échange ou à la suite de quoi un

00:41.320 --> 00:45.600
nouvel état apparaît et qui est maintenant récompensé pour cette action.

00:45.610 --> 00:52.210
Jusqu'à présent, dans notre exemple, nous n'obtenons des récompenses qu'à la fin si nous atteignons la ligne d'arrivée ou

00:52.210 --> 00:58.640
si, pour l'agent, nous nous retrouvons dans le foyer, il obtient une récompense plus ou moins une.

00:58.960 --> 01:05.770
Mais c’est une approche très simpliste de l’apprentissage par renforcement et, dans des scénarios plus réalistes, vous obtiendrez probablement des récompenses tout au

01:05.800 --> 01:11.050
long du voyage, et pas seulement à la fin, vous pourriez en bénéficier tout au long du

01:11.050 --> 01:11.380
voyage.

01:11.380 --> 01:20.680
Par exemple, si c'est une IA qui joue à un jeu et si, par exemple, c'est comme tirer sur quelqu'un de malheur, cela peut donner

01:20.680 --> 01:26.320
des points pour avoir tué cet ennemi ou ce pourrait être un jeu différent.

01:26.470 --> 01:32.260
Si elle dépasse une autre voiture ou quelque chose du genre simplement à cause des règles du jeu, non

01:32.260 --> 01:39.400
pas à cause de sa façon d’analyser le jeu mais en fait, le jeu est structuré de manière à renforcer les points qu’il donne

01:39.400 --> 01:43.230
pour certaines actions avant même que le jeu soit terminé. plus de.

01:43.540 --> 01:49.570
Ainsi, les Sinatras comme ceux-là sont très courants et pas seulement dans les jeux mais aussi dans la vie réelle

01:49.570 --> 01:55.120
et c'est pourquoi nous allons introduire dans notre exemple quelque chose de similaire: une version simplifiée de cela

01:55.330 --> 02:01.180
mais néanmoins une récompense qui est continuellement donnée à l'agent tout au long du jeu. pas seulement à la fin

02:01.180 --> 02:04.450
et nous allons le faire en regardant les autres tuiles.

02:04.450 --> 02:10.060
Donc, pour le moment, nous avons seulement une récompense plus une à la dernière tuile et une récompense moins 1 à

02:10.060 --> 02:11.530
l’autre dernière tuile du foyer.

02:11.800 --> 02:14.310
Mais maintenant, nous allons ajouter des récompenses à chaque fois.

02:14.430 --> 02:17.770
Nous allons ajouter une très petite récompense sera moins 0. 04.

02:17.770 --> 02:23.440
Et comme vous pouvez le constater, c'est négatif. Chaque fois que l'agent change de position, il reçoit une récompense négative. C'est ce que

02:23.440 --> 02:28.300
l'on appelle une pénalité vivante, car peu importe où il s'en va, il obtiendra toujours cette récompense négative, à l'exception

02:28.450 --> 02:31.000
des dernières tuiles, car c'est la fin du le jeu.

02:31.300 --> 02:35.120
Et ainsi vous pouvez voir que la récompense même sur cette tuile est de la folie ou un puzzle.

02:35.170 --> 02:37.960
Mais cela ne signifie pas qu'il commence avec cette récompense.

02:37.960 --> 02:39.470
Il n'obtient que cette récompense.

02:39.760 --> 02:44.860
Et il est important de se rappeler qu’il n’obtient sa récompense que lorsqu’il entre dans une tuile. Ainsi, chaque fois qu’il promet

02:44.860 --> 02:51.110
une action, il se rend ici, il obtiendra cette récompense moins 0. 04 et ensuite il revient à ce style il va avoir un

02:51.130 --> 02:53.650
autre esprit et 0. Mot 04.

02:53.770 --> 03:00.370
Et plus il marche longtemps, plus il accumule sa récompense négative, ce qui l'incite à finir le

03:00.370 --> 03:03.870
jeu plus tôt et le plus rapidement possible.

03:03.890 --> 03:10.390
Et maintenant, regardons comment notre politique ou la politique des agents va changer en fonction de

03:10.420 --> 03:14.150
la valeur que nous avons définie pour cette récompense.

03:14.410 --> 03:18.730
Donc, voici quatre environnements et dans chacun nous allons explorer un différent.

03:18.770 --> 03:21.070
Nous n'allons pas faire les calculs.

03:21.130 --> 03:25.690
Nous allons simplement projeter les résultats et vous verrez que, intuitivement, ils ont un sens total.

03:25.690 --> 03:31.820
Nous avons donc ici une récompense pour toute proposition d’étape pour entrer dans n’importe quel état.

03:32.050 --> 03:32.830
Est égal à zéro.

03:32.830 --> 03:36.890
Tout comme ce que nous avons vu auparavant, la récompense sera le 0 de Mei. 0.

03:36.910 --> 03:43.150
Pour ce que nous venons de faire, vous savez que la récompense sera à moins 0. 5 ou le niveau de pénalité sera le mien est le

03:43.150 --> 03:47.690
feu ouvert tellement plus haut que vous pouvez les voir ici plus de 10 fois plus grand.

03:47.800 --> 03:50.170
Et voici le Penhall vivant, il sera moins deux.

03:50.170 --> 03:59.050
Donc, même plus que les récompenses que vous obtenez pour le saut ou même moins que la récompense que vous êtes l'agent que vous obtenez pour vous

03:59.050 --> 04:00.700
retrouver dans le foyer.

04:00.700 --> 04:07.660
Voyons maintenant comment les actions ou la politique optimale pour passer cet environnement vont changer en fonction

04:07.660 --> 04:09.160
de cette récompense.

04:09.170 --> 04:11.560
C'est donc notre politique d'origine.

04:11.920 --> 04:18.280
Et comme vous vous en souvenez peut-être, la décision de l'agent était très intéressante et même un peu

04:18.280 --> 04:23.950
bizarre, mais elle est tout à fait logique s'il peut vivre aussi longtemps qu'il le souhaite.

04:23.950 --> 04:29.530
Si vous pouvez voyager aussi longtemps qu'il le souhaite sans être pénalisé pour rester en vie

04:29.530 --> 04:30.430
très longtemps.

04:30.670 --> 04:37.630
Il pourquoi pas pourquoi ne pas simplement aller dans le coin, dans le mur et continuer à le faire jusqu'à ce que cela se

04:37.870 --> 04:38.470
produise.

04:38.470 --> 04:41.300
Il se trouve qu'il va dans cette direction et qu'il se promène ensuite.

04:41.500 --> 04:46.120
Et la même chose ici, il est beaucoup plus sûr pour lui de sauter dans le mur en espérant

04:46.120 --> 04:51.970
qu’une de ces choses finira par arriver, puis il ira quand même à la ligne d’arrivée car, en choisissant ces deux actions, il ne risque

04:51.970 --> 04:53.680
pas d’entrer dans le feu .

04:53.690 --> 04:59.950
Voyons maintenant ce qui se passe si nous ajoutons une récompense, une récompense négative pour être juste une vie pour faire un pas.

05:00.270 --> 05:04.960
Déplacer ici, vous pouvez voir que instantanément ces deux ont changé.

05:04.970 --> 05:07.940
Maintenant, l'agent ne veut pas sauter dans le mur.

05:07.940 --> 05:13.490
Il est plus susceptible de risquer de se rendre au foyer avec 10% de chances de sauter ici, mais

05:13.490 --> 05:19.400
il ira de l'avant parce que chaque fois qu'il vient voir ici s'il allait le faire aussi chaque fois qu'il

05:19.850 --> 05:24.620
saute bien effectue une action dans laquelle il se retrouve dans cet état avec 80% de

05:24.620 --> 05:24.990
chance.

05:25.010 --> 05:31.180
Et cela signifie une chance de 80 pour cent que vous obtenez un moins 0. 04 récompense, ce qui

05:31.190 --> 05:34.940
signifie qu’il obtiendra souvent cette récompense négative.

05:34.940 --> 05:41.600
Même chose s'il saute dans le mur en attendant le moment où il sera déplacé au hasard

05:41.600 --> 05:42.780
vers la droite.

05:42.980 --> 05:49.340
S'il continue de le faire, il accumulera cette récompense négative et, si vous effectuez

05:49.340 --> 05:55.670
les calculs, vous constaterez que la valeur attendue de cette approche est bien

05:55.670 --> 06:02.840
pire que de prendre le risque d'aller de l'avant. et effectivement se retrouver dans le foyer.

06:02.840 --> 06:10.230
Il change donc ses décisions dans ces deux blocs pour aller de l'avant et se déplacer ici vers la gauche même s'il sait qu'il y

06:10.230 --> 06:15.320
a un risque d'incendie du poste de pilotage tout simplement parce que plus il est en

06:15.320 --> 06:18.830
vie, plus il accumulera longtemps cette pénalité vivante dans l'environnement suivant.

06:18.830 --> 06:23.720
Maintenant, nous augmentons le nombre de Pouncey vivant à un nombre encore plus grand de points Meinzer cinq et voyons ce

06:23.720 --> 06:24.590
qui change ici.

06:24.860 --> 06:27.220
Alors maintenant, vous pouvez voir que comparé à cet environnement.

06:27.260 --> 06:31.740
La seule chose qui a changé ici est que cette flèche pointe vers la droite.

06:32.060 --> 06:38.360
Et ce que cela signifie, c’est que ce n’est plus une bonne option pour l’agent ou que les flèches

06:38.360 --> 06:42.340
pointant vers la gauche et les becs dirigés vers le haut.

06:42.350 --> 06:48.740
Alors maintenant, ce n'est plus une bonne idée pour l'agent de faire le tour d'ici ou de faire tout le chemin parce que s'il se trompe

06:49.100 --> 06:53.330
complètement, il est en sécurité ou il y a moins de chance qu'il n'y ait aucune chance d'obtenir

06:53.340 --> 06:54.030
le foyer.

06:54.320 --> 06:57.640
Mais en même temps ou il y a moins de chances que cela se produise.

06:57.710 --> 07:03.140
Mais en même temps, il accumulera une importante récompense négative en se promenant.

07:03.140 --> 07:05.540
Donc c'est juste que le chemin est trop long.

07:05.540 --> 07:12.350
Cela l'oblige donc, qu'il soit ici ou ici, à emprunter l'itinéraire le plus court, même s'il risque beaucoup plus d'entrer

07:12.350 --> 07:17.330
dans le foyer, car dès qu'il se retrouve sur la place, il y a 10%

07:17.330 --> 07:19.350
de chance d'atteindre l'incendie .

07:20.120 --> 07:21.760
Selon ses calculs.

07:21.800 --> 07:27.980
C'est juste que la valeur attendue de cette approche est meilleure que la valeur attendue du simple fait de faire le tour simplement

07:27.980 --> 07:30.480
parce que nous avons augmenté cette peine vivante.

07:30.710 --> 07:37.130
Et enfin, nous arrivons à l'exemple avec la peine vivante de moins deux points zéro.

07:37.130 --> 07:43.010
Je vous encourage donc à poster la vidéo maintenant que vous avez vu comment la politique a changé à mesure que nous augmentons la

07:43.010 --> 07:44.430
pénalité de botté de chargement.

07:44.450 --> 07:49.850
Je vous encourage à mettre la vidéo en pause et à penser par vous-même à ce qui se passera dans ce scénario.

07:49.850 --> 07:57.070
Selon vous, quelle sera la politique optimale en ce qui concerne le fait que la peine encourue est si élevée, donc toute cette supposée vidéo

07:57.090 --> 07:58.280
si vous le souhaitez

07:58.490 --> 08:04.880
Et maintenant, je vais vous montrer la solution, donc dans ce cas, si vous

08:04.880 --> 08:13.460
augmentez la pénalité à moins 2. 0 c'est tellement élevé, souvenez-vous que la pénalité n'est que de moins 1. 0 C'est tellement élevé que l'agent veut juste sortir

08:13.680 --> 08:18.540
du jeu de toutes les manières possibles, même si c'est juste en sautant dans le foyer.

08:18.560 --> 08:19.200
Il le fera

08:19.220 --> 08:25.460
Il sera comme chaque fois que je fais un pas à chaque fois que je me retrouve dans un nouvel état de vie dans votre état

08:25.460 --> 08:30.020
ou que chaque fois que je fais une action, je finis par recevoir une récompense de moins deux.

08:30.020 --> 08:36.280
Alors, quel est l’intérêt d’essayer d’atteindre la ligne d’arrivée si à partir de là, il me faudra faire deux pas de plus.

08:36.350 --> 08:41.060
Je vais juste aller ici et ensuite directement dans le foyer parce que de

08:41.060 --> 08:49.190
cette façon ma récompense sera moins qu'une récompense négative sera aussi mauvaise que dans le cas où je ferais juste des étapes supplémentaires pour

08:49.190 --> 08:56.770
que vous puissiez voir que l'ajout de cette vie récompense et en fonction de la valeur de la récompense de vie que

08:56.780 --> 08:59.270
nous ajoutons, les résultats seront différents.

08:59.270 --> 09:06.290
Et l’agent choisira différentes politiques et c’est essentiellement l’équation de Belmont qui intègre la valeur de la récompense même lorsque

09:06.440 --> 09:12.020
cela n’est pas seulement à la ligne d’arrivée ou à la fin du jeu, mais tout

09:12.020 --> 09:13.790
au long du match.

09:13.790 --> 09:19.250
Et encore une fois, il n'est pas nécessaire que chacun soit dans chaque état, en fonction de

09:19.250 --> 09:20.180
l'environnement lui-même.

09:20.180 --> 09:26.540
Cela peut être donné à l'agent dans certains états spécifiques, mais pas dans tous les états, mais dans notre exemple

09:26.540 --> 09:29.880
simpliste, nous utilisons simplement les récompenses dans chaque état donné.

09:30.050 --> 09:34.470
Pour illustrer ce concept, j'espère que vous avez apprécié le tutoriel d'aujourd'hui.

09:34.580 --> 09:40.550
Et comme vous pouvez le constater, notre équation de Belman est déjà assez sophistiquée et elle peut maintenant être appliquée à de

09:40.550 --> 09:44.340
nombreux scénarios différents. Je suis impatient de voir cela dans le prochain tutoriel.

09:44.360 --> 09:46.200
Et jusque-là profiter d'un I.