WEBVTT

00:01.060 --> 00:04.460
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.460 --> 00:07.630
Aujourd'hui, nous allons parler de l'équation de Belman.

00:07.630 --> 00:12.580
C'est un sujet assez complexe et nous allons le présenter étape par étape tout au long

00:12.580 --> 00:17.110
de cette partie du cours. Je ne vais donc pas passer tout de suite

00:17.110 --> 00:21.730
à la version la plus complexe de l'équation de Belmont allons l'introduire lentement afin de

00:21.730 --> 00:23.250
comprendre progressivement son fonctionnement.

00:23.410 --> 00:28.480
Et j'espère que votre objectif avec cette approche si vous êtes G. R. Allons droit au but.

00:28.690 --> 00:33.820
Nous allons donc utiliser quelques concepts clés, et ces concepts le

00:33.820 --> 00:34.430
sont.

00:34.600 --> 00:41.110
S représente les états de sorte que l'état dans lequel se trouve notre agent ou tout autre état possible dans lequel

00:41.740 --> 00:45.490
il peut être un représente une action qu'un agent peut effectuer.

00:45.490 --> 00:50.680
Ainsi, un agent peut avoir accès à une certaine liste d’actions et les actions sont très

00:50.680 --> 00:53.610
importantes lorsqu’elles sont examinées dans une combinaison d’états.

00:53.620 --> 00:57.880
Ainsi, lorsque vous êtes dans un état dynamique et que vous examinez ensuite les actions, cela

00:57.880 --> 01:01.870
commence à comprendre le résultat de ces actions, parce que vous regardez une action en

01:01.870 --> 01:07.390
tant que telle ou qu'un état n'a pas vraiment de sens, car Je ne sais pas où vous êtes et où

01:07.390 --> 01:13.240
vous pouvez éventuellement vous retrouver et ensuite nous aurons notre qui signifie récompense et c'est par la protection que l'agent obtient pour

01:13.240 --> 01:16.980
entrer dans un certain état et le gamma est le facteur de réduction.

01:16.990 --> 01:21.510
Et nous parlerons du facteur de réduction dans une seconde, cela a du sens, mais ils ne font que prendre des

01:21.510 --> 01:21.810
notes.

01:21.820 --> 01:26.300
Notez que nous aurons cette lettre avec laquelle Gamelin opérera plus tard.

01:26.620 --> 01:31.230
Donc, la personne derrière l'équation de chasseur est Richard Ernest.

01:31.360 --> 01:39.400
Il était un mathématicien de vol et a proposé les concepts de programmation dynamique que nous sommes maintenant que nous appelons maintenant

01:39.400 --> 01:43.790
l'apprentissage par renforcement ou que nous appelons maintenant l'équation de Belman.

01:44.110 --> 01:45.490
Eh bien c'est ce que nous appelons maintenant.

01:45.490 --> 01:52.350
Et en 1953, il a proposé ce concept et c’est à ce moment-là que l’équation Belmont Belman m’est venue à l’esprit.

01:52.630 --> 01:56.530
Voyons donc comment tout cela fonctionne.

01:56.540 --> 02:02.410
Il y a notre charmant agent dans le coin inférieur gauche et il est

02:02.500 --> 02:08.680
dans un labyrinthe et c'est un labyrinthe assez classique dans lequel vous avez quelques blocs.

02:08.680 --> 02:13.800
Tout simplement pas accessible dit comme un mur dans ce labyrinthe.

02:13.900 --> 02:20.150
Le vert est ce que l’agent devrait viser et c’est là que nous voulons que l’agent

02:20.150 --> 02:20.910
s’installe.

02:21.220 --> 02:25.050
Et le rouge est des foyers ou le moteur tombe dans le foyer.

02:25.060 --> 02:26.660
Il va perdre la partie.

02:26.950 --> 02:31.330
Donc, dans le foyer, la récompense qui est R est moins 1.

02:31.330 --> 02:36.330
Donc, c'est notre façon de dire à l'agent que ce n'est pas quelque chose que nous voulons que vous fassiez.

02:36.430 --> 02:41.320
Comme dans l'exemple suivant, lorsque nous formons des chiens, nous voulons leur dire comme un mauvais chien si ce n'est pas

02:41.320 --> 02:46.030
la bonne chose à faire que nous voulions faire la même chose. En faisant cela, vous ne devriez pas

02:46.030 --> 02:49.480
vous retrouver sur la place afin que chaque fois que cela ne se

02:49.480 --> 02:53.300
produise pas, l'écureuil reçoive une récompense de moins un, vous serez donc puni de ce dernier.

02:53.530 --> 02:57.610
D'un autre côté, si cela se termine sur la Place Verte, vous obtiendrez une récompense plus un, ce qui

02:57.610 --> 02:59.330
signifie que c'est ce que nous voulions faire.

02:59.590 --> 03:02.470
Ce sont donc les deux récompenses que l’agent ne peut obtenir.

03:02.470 --> 03:06.210
Et comment apprend-il à fonctionner dans ce labyrinthe?

03:06.370 --> 03:10.750
Tout comme dans cet exemple de chiens-robots qui ont appris à marcher et qui vont lui faire savoir qu'il

03:10.750 --> 03:12.490
leur dira simplement qu'ici l'action est possible.

03:12.490 --> 03:18.360
Vous pouvez monter en haut à gauche ou en bas. Ce sont quatre actions possibles que vous pouvez entreprendre et c'est tout.

03:18.360 --> 03:21.430
Avoir un jeu avec qui voir ce que vous pouvez trouver.

03:21.430 --> 03:26.320
Ainsi, l'agent peut aller à droite, puis deux autres à droite, puis à gauche, en appuyant simplement

03:26.320 --> 03:31.160
au hasard sur le bouton. Ils essaient de voir ce qui se passe et reviennent ici.

03:31.180 --> 03:34.660
Ils montent, montent, descendent, montent, vont à droite.

03:34.660 --> 03:38.450
Donc, pour l'instant, ils n'ont rien appris. Rien n'est arrivé jusqu'à présent.

03:38.470 --> 03:41.790
Ils vont à droite et puis bam ils se retrouvent sur la place verte.

03:41.830 --> 03:48.150
Alors ils réalisent que je viens de recevoir un plus un avantage. Dès que je suis arrivé sur la Place Verte, ils ont reçu une

03:48.150 --> 03:49.040
récompense plus un.

03:49.090 --> 03:53.560
Et cela déclenche l'algorithme pour dire OK c'est vraiment cool.

03:53.830 --> 03:58.920
Je suis récompensé pour avoir fini sur la place alors je veux finir sur la place.

03:58.930 --> 04:00.650
Alors qu'est-ce que cela signifie pour l'agent?

04:00.910 --> 04:04.310
Cela signifie que cela commence à poser la question de savoir comment je suis arrivé sur cette place.

04:04.300 --> 04:10.690
Quel était l'état précédent dans lequel j'étais et quelles mesures je prenais pour me rendre au carré, puis regarder

04:10.690 --> 04:14.810
en arrière et dire OK pour que l'état précédent soit celui-ci.

04:14.950 --> 04:17.400
Il s'avère être précieux dans cet état.

04:17.410 --> 04:19.240
Celui qui étincelle de la flèche rouge.

04:19.270 --> 04:26.230
Parce que de cet état, vous êtes je suis sur le point d’obtenir le maximum de récompense dont je

04:26.230 --> 04:33.210
puisse rêver plus un comme un biscuit pour un chien dès que je sais si je suis dans cet état.

04:33.250 --> 04:35.150
Cette place marquée avec la flèche rouge.

04:35.200 --> 04:36.740
Tout ce que j'ai à faire, c'est d'appuyer à droite.

04:37.030 --> 04:41.440
Alors, comment puis-je me dire de me rappeler que cet état est précieux.

04:41.440 --> 04:45.170
Eh bien, pour moi, il n'y a pas de différence en tant qu'agent.

04:45.170 --> 04:50.380
Il n'y a pas de différence pour que je sois dans le carré vert ou dans le carré blanc juste dans le carré vert,

04:50.380 --> 04:51.610
je reçois la récompense d'un.

04:51.610 --> 04:58.810
Donc, je vais marquer moi-même que le Y Square a pour moi une valeur de 1 car il permet de récompenser exactement un dès que je

04:58.810 --> 05:03.280
suis dans le carré blanc. Je sais que je vais juste faire une dernière action.

05:03.350 --> 05:08.180
Je serai sur la place verte et j'aurai une récompense ou une récompense, c'est pourquoi je dirai

05:08.180 --> 05:14.690
que la valeur de cette case est égale à un, car elle mène directement à toute soustraction Je veux dire ici, je sais

05:14.690 --> 05:18.890
que ma récompense sera une récompense, je vais donc marquer ce carré comme l'appel

05:18.890 --> 05:22.430
à une valeur qui est la valeur perçue d'être dans l'État.

05:22.430 --> 05:24.740
Suivant l'agent va être OK.

05:24.800 --> 05:26.930
Alors, comment puis-je entrer dans cette place.

05:27.050 --> 05:29.990
Et vous savez qu'il pourrait se promener encore et ainsi de suite.

05:29.990 --> 05:33.800
Et à nouveau sur la place et être comme OK, comment suis-je entré sur cette place avant cela.

05:33.800 --> 05:36.860
Et la façon dont je suis arrivé sur cette place a été de cette place.

05:36.860 --> 05:37.530
Intéressant.

05:37.550 --> 05:42.980
OK, dès que je suis sur cette place, je sais que tout ce que je dois faire, c'est aller bien.

05:42.980 --> 05:45.640
Et à partir de là, je sais déjà que je vais gagner.

05:45.650 --> 05:49.970
Je sais exactement comment tout va se dérouler d'ici et je sais que la valeur d'être dans cet état

05:49.970 --> 05:50.970
est égale à un.

05:51.020 --> 05:58.340
Et comme rien ne m’empêche de grandir d’ici à ici, c’est une valeur perçue que j’ai une grande valeur

05:58.340 --> 06:03.920
à être ici, c’est un véhicule à désirer, car c’est ce que je veux dire

06:03.920 --> 06:04.640
ici.

06:04.650 --> 06:06.660
Sois ici et je serai là assez rapidement.

06:06.740 --> 06:07.980
Donc je vais gagner.

06:08.180 --> 06:10.490
Et ensuite, comment entrez-vous sur cette place avant cela?

06:10.490 --> 06:12.940
Eh bien je suis entré dans cette place de cette place.

06:13.070 --> 06:19.670
Donc, la valeur est similaire approche la valeur d'être ici est également égale à un et ainsi de suite de sorte que la valeur d'être ici

06:19.670 --> 06:23.690
est égale à une valeur d'être ici est égale à un parce que chacun d'entre

06:23.690 --> 06:25.710
eux mène à l'autre la ligne d'arrivée.

06:26.240 --> 06:29.850
Donc, tout cela est assez logique à ce stade.

06:29.960 --> 06:33.410
C'est à peu près en train de concevoir l'équation de Belman pour le moment.

06:33.410 --> 06:40.460
Nous pourrions donc envisager de concevoir une équation permettant à un agent de traverser le labyrinthe.

06:40.490 --> 06:45.840
Alors regardez la récompense, puis l’état précédent lui donne une valeur égale à la

06:45.840 --> 06:51.920
récompense des procédures et si elles sont un peu comme crée un chemin, c’est génial, mais

06:52.010 --> 06:58.790
le problème est OK. cet état au lieu de commencer ici et prendre ces actions et qu'il commence

06:58.880 --> 07:00.480
réellement dans l'état.

07:00.650 --> 07:06.980
Comment sait-il comment il se souvient de la marche à suivre s'il doit aller à droite ou s'il doit baisser ou devrait peut-être aller

07:06.980 --> 07:08.540
à gauche ou doit monter?

07:08.540 --> 07:13.220
Comment se souvient-il quelle est la prochaine suite d'ici?

07:13.220 --> 07:18.660
Si les seules valeurs dont il dispose sont que ces valeurs sont égales à une fois, il est impossible de voir ce qui est plus éloigné.

07:18.660 --> 07:19.700
Il ne peut que voir.

07:19.700 --> 07:20.030
D'accord.

07:20.030 --> 07:21.940
Ce que j'ai ici et ce que j'ai ici

07:21.980 --> 07:23.530
Comment sait-il où aller?

07:23.660 --> 07:27.920
Eh bien, à ce stade, il n’est pas aussi joli pour l’âge et la voie à suivre.

07:27.960 --> 07:30.770
Et c'est pourquoi cette approche ne fonctionne pas vraiment.

07:30.790 --> 07:32.930
C'est une explication très simpliste.

07:32.930 --> 07:34.500
Bien sûr, il y a beaucoup plus que cela.

07:34.520 --> 07:40.550
Mais de manière intuitive, c’est pourquoi nous ne pouvons pas simplement assigner cette valeur à l’arrière.

07:40.790 --> 07:46.210
Parce que l'une des raisons est qu'une fois que l'agent est entre ces deux valeurs, où va-t-il aller.

07:46.210 --> 07:48.560
Ça ne peut pas être confus comme ça.

07:48.620 --> 07:52.350
Et alors, comment pouvons-nous résoudre ce problème, qu'allons-nous faire?

07:52.400 --> 07:57.860
Et c’est là que nous allons commencer à introduire progressivement, étape par étape, l’équation de Belman dans sa

07:57.860 --> 07:58.640
forme actuelle.

07:58.670 --> 08:01.510
Donc, l'équation de Belman ressemble à ceci.

08:01.640 --> 08:07.100
Nous avons donc déjà parlé de la valeur d'être dans un certain état, comme c'est le cas

08:07.100 --> 08:10.250
dans votre état actuel ou dans un état donné.

08:10.370 --> 08:17.270
Et en tant que Premier, l’Etat suivant indique l’Etat dans lequel vous vous retrouverez après l’Etat et en

08:17.270 --> 08:18.990
prenant des mesures concertées.

08:19.000 --> 08:24.160
Mais nous savons qu'il existe de nombreuses actions et qu'un agent peut prendre et c'est pourquoi nous avons ce Max ici.

08:24.260 --> 08:30.020
Donc, en prenant une action ce qui va arriver à un agent, disons que nous sommes en état d'agir en

08:30.050 --> 08:32.700
agissant sur les actifs d'un état et en agissant.

08:32.780 --> 08:36.690
Ce qui va arriver, c’est d’obtenir instantanément une récompense en entrant dans un nouvel état.

08:36.770 --> 08:41.960
Et rappelez-vous que la récompense peut être un ou plus un ou moins un si c'est à la fin du jeu ou elle peut

08:41.960 --> 08:46.240
être égale à zéro si c'est tout au long du jeu. Dans ce cas, notre récompense est nulle.

08:46.280 --> 08:55.160
C’est donc la récompense Plus nous allons entrer dans un nouvel état qui a la valeur s prime.

08:55.160 --> 08:57.820
Voilà donc la valeur du nouvel état et du gamma.

08:57.820 --> 08:58.820
Nous en parlerons dans une seconde.

08:58.820 --> 09:03.560
Mais le point que j'essaie de soulever ou que je soulève, c’est que vous pouvez prendre de

09:03.560 --> 09:05.810
nombreuses mesures et que nous avons le maximum.

09:05.810 --> 09:09.630
Donc, en agissant, nous obtenons une récompense Plus nous nous retrouvons dans un nouvel état.

09:09.740 --> 09:14.660
Et donc pour chaque déplacement hors de notre cas avant nos actions possibles pour chacune des

09:14.660 --> 09:17.810
4 actions possibles, nous allons avoir une équation comme celle-ci.

09:17.810 --> 09:22.980
Donc, cela va avoir une valeur car ils auront une valeur différente pour chacune des

09:23.480 --> 09:28.750
quatre actions et nous ne regarderons que le maximum, car bien sûr, l'agent veut prendre l'état optimal.

09:28.760 --> 09:33.860
Donc, s’il est en état de s’intéresser à ces valeurs, il trouvera le maximum en fonction de

09:33.860 --> 09:37.500
l’action et entreprendra l’action qui requiert le maximum de ces valeurs.

09:37.640 --> 09:41.480
Donc j'espère que cela a du sens pourquoi nous prenons le maximum ici.

09:41.660 --> 09:45.400
Puis, une fois que nous avons eu la récompense et la valeur qui dit pourquoi avons-nous ce paramètre Gabaa ici

09:45.650 --> 09:52.220
Eh bien, il s’agit exactement de résoudre le problème suivant: l’agent ne sait pas quel chemin prendre parce qu’il ne le

09:52.220 --> 09:52.850
peut pas.

09:52.950 --> 09:56.600
Il compare les valeurs de deux états des deux côtés et ils sont identiques.

09:56.810 --> 10:00.890
C'est pourquoi les joueurs ont appelé le facteur d'escompte afin que nous puissions examiner cela

10:00.890 --> 10:02.050
et qu'il comprenne mieux.

10:02.060 --> 10:04.680
Alors prenons une formule que je vais mettre ici en haut à droite.

10:04.760 --> 10:09.100
Et maintenant, nous analyserons quelles sont les valeurs des différents états.

10:09.140 --> 10:11.470
Et chaque état ici est un carré.

10:11.470 --> 10:11.820
Non.

10:11.840 --> 10:16.610
Donc, l’un de ces carrés blancs est un état, je veux dire, nous allons calculer la

10:16.610 --> 10:18.290
valeur d’être dans cet état.

10:18.290 --> 10:19.770
Commençons donc avec le carré.

10:19.790 --> 10:21.610
Quelle est la valeur d'être dans cet état?

10:21.860 --> 10:25.830
Nous devons prendre le maximum de cette valeur pour toutes les actions.

10:26.120 --> 10:31.440
Et nous savons que cette valeur est maximisée au fur et

10:31.440 --> 10:36.440
à mesure que nous nous rapprochons de la ligne d’arrivée.

10:36.590 --> 10:40.900
C’est ainsi que la structure est construite. Etat.

10:41.060 --> 10:46.670
Et il est tout simplement logique que nous construisions cette équation de manière à ce que le

10:46.670 --> 10:50.350
maximum de cette valeur soit calculé si nous allons à droite.

10:50.360 --> 10:56.120
C'est ainsi que nous calculons les valeurs correspondant à cette valeur de cet état qu'il appelle le maximum ou égal

10:56.300 --> 10:57.470
à cette valeur.

10:57.500 --> 11:01.000
Si nous nous déplaçons à droite si nous prenons une action de déplacement à droite.

11:01.010 --> 11:02.330
Alors, quelle sera cette valeur?

11:02.360 --> 11:04.850
Eh bien, la récompense de passer à droite est égale à 1.

11:05.090 --> 11:10.490
Et quel que soit le gamma de couleurs, nous n’avons pas de valeur dans cet état car nous sommes déjà dans

11:10.490 --> 11:11.720
le meilleur état possible.

11:11.720 --> 11:12.880
C'est donc la dernière étape.

11:12.890 --> 11:16.280
Cela n'aura pas de valeur si nous obtenons simplement une récompense ici et c'est la fin du jeu.

11:16.280 --> 11:20.300
Donc, la valeur de ce maximum sera égale à 1.

11:20.510 --> 11:23.870
Et c'est pourquoi la valeur de l'état comme ici est égale à 1.

11:23.870 --> 11:27.970
Maintenant, les choses deviennent intéressantes lorsque nous nous déplaçons à gauche lorsque nous reculons un peu.

11:28.010 --> 11:34.060
Alors maintenant, calculons la valeur de cet être dans cet état et pour cela nous aurons besoin de Gabaa.

11:34.070 --> 11:39.920
Supposons donc que notre facteur d'actualisation soit égal à zéro et qu'il soit logique que ce soit un facteur d'actualisation une fois que

11:39.920 --> 11:40.960
nous calculons cela.

11:40.960 --> 11:47.410
Donc, à partir d’ici, nous nous basons simplement sur notre intuition et parce que nous savons comment cela fonctionne, comment cela fonctionne.

11:47.450 --> 11:51.340
Nous savons que la meilleure action possible est d'aller à droite parce que d'ici nous allons ici.

11:51.530 --> 11:56.120
Cela signifie donc que le maximum sera atteint dans cet état où vous allez à droite.

11:56.270 --> 11:58.970
Et voyons ce qui se passe si nous le branchons ici.

11:58.970 --> 12:02.650
Donc, si vous allez d'ici à ici, vous n'obtenez pas votre récompense sera zéro.

12:02.720 --> 12:07.440
Mais ensuite, vous obtiendrez des camis qui obtiendront un point zéro neuf fois la valeur du nouvel état, qui est un.

12:07.640 --> 12:14.030
Donc, dans ce cas, la valeur du résultat total est 1 fois un 0. 9 fois on est égal à 2. 9

12:14.030 --> 12:15.890
C'est donc toutes les valeurs par.

12:16.250 --> 12:18.570
Donc, si nous calculons cela maintenant, vous le verrez d'ici.

12:18.620 --> 12:23.990
Nous savons simplement en regardant le labyrinthe que nous connaissons parce qu'en tant qu'humains, nous comprenons comment

12:23.990 --> 12:28.450
cette équation fonctionne, bien sûr, un agent de l'IA devrait expérimenter ces choses.

12:28.460 --> 12:32.180
Mais comme nous avons une boule de cristal, nous pouvons voir tout ce labyrinthe.

12:32.180 --> 12:33.860
Nous avons comme la vue à vol d'oiseau en ce moment.

12:33.860 --> 12:36.170
Nous savons que la meilleure action va à droite.

12:36.320 --> 12:42.230
Donc, si nous connectons le tout ici, ce sera zéro, pas

12:42.230 --> 12:45.530
de récompense. 9 est le point zéro quatre-vingt-un et ainsi de suite.

12:45.530 --> 12:50.420
Donc ici ce sera 0. 23 et il sera 0. 66.

12:50.420 --> 12:57.590
Ainsi, vous pouvez voir que le facteur réduit fonctionne de la manière dont il réduit la valeur de l'État à mesure que

12:57.590 --> 12:58.610
vous vous éloignez.

12:58.610 --> 13:05.810
Donc, si vous êtes familier avec la théorie financière, alors cela ressemble à la valeur-temps de l’argent. Que penseriez-vous de

13:05.810 --> 13:12.990
cette façon? Que préféreriez-vous avoir 5 $ aujourd'hui ou 5 $ dans 10 jours à partir de maintenant?

13:13.050 --> 13:17.840
Si quelqu'un vous donnait le choix, je vous donnerai cinq dollars aujourd'hui, tous vos dollars 5 à 10

13:17.840 --> 13:18.280
jours.

13:18.390 --> 13:20.300
Bien sûr, vous choisiriez 5 $ aujourd'hui.

13:20.300 --> 13:20.850
Pourquoi donc.

13:20.870 --> 13:26.750
Eh bien, parce que vous pouvez prendre ces 5 $ et les investir à un certain taux d’intérêt qui est très proche

13:26.750 --> 13:27.470
du gamma.

13:27.680 --> 13:33.950
Et vos 5 dollars en 10 jours atteindront peut-être 5 dollars et 73 cents ou quelque chose du genre.

13:34.070 --> 13:36.410
Et c'est ainsi que fonctionne la valeur temps de l'argent.

13:36.410 --> 13:38.310
Et concept très similaire ici.

13:38.330 --> 13:43.250
Et la chose importante à comprendre ici est juste une théorie d’une manière qui renforce l’apprentissage.

13:43.260 --> 13:45.850
Alors Richard Belman est venu avec cette équation.

13:46.190 --> 13:48.880
Et à partir de maintenant, c'est comme ça qu'on l'utilise.

13:48.880 --> 13:51.430
Donc, vous pouvez aller de l'avant et trouver une équation différente.

13:51.430 --> 13:54.820
Il n'est pas nécessaire que Gamla ait un autre facteur, mais vous ne le savez peut-être pas.

13:54.950 --> 14:01.550
Mais cette approche fonctionne et c'est la raison pour laquelle nous l'utilisons. C'est ce à quoi elle ressemble. Plus

14:01.550 --> 14:06.670
vous êtes éloigné, moins vous valez d'être dans l'État, en temps et en argent.

14:06.680 --> 14:09.850
Si je pouvais vous dire où préféreriez-vous être, préféreriez-vous être ici?

14:09.950 --> 14:11.200
Préférez-vous être ici?

14:11.350 --> 14:12.920
Vous diriez que je préférerais être ici.

14:12.920 --> 14:18.770
Nous créons donc le même phénomène que la valeur temporelle de l'argent. Nous le créons artificiellement

14:18.770 --> 14:24.680
par gamma afin d'inciter les agents ou de les inciter à se rapprocher de la ligne d'arrivée.

14:24.680 --> 14:29.720
Donc, si on demandait à un agent, préféreriez-vous être ici ou ici à cause du fonctionnement de cette

14:29.930 --> 14:31.590
équation, il choisirait d'être ici.

14:31.640 --> 14:33.380
Il n'y a rien de plus à cela, rien de moins.

14:33.380 --> 14:35.810
Ce n'est pas quelque chose que le monde fonctionne de cette façon.

14:35.810 --> 14:42.630
Non, c’est quelque chose que nous créons artificiellement pour que nos agents sachent que c’est bon, c’est bon, c’est

14:42.750 --> 14:48.140
bon, bon, mais celui-ci est meilleur que celui-ci et celui-ci est meilleur que celui-ci et

14:48.140 --> 14:50.030
celui-ci a été dans celui-ci.

14:50.120 --> 14:54.790
Et de cette façon, vous pouvez voir tous les agents peuvent voir dans quelle direction aller.

14:54.800 --> 15:00.270
Donc, vous pouvez voir que si je me tiens ici, souvenez-vous du problème que nous avions ou était-il ici, alors si

15:00.270 --> 15:05.130
vous vous tenez ici, je descends ou si je suis soudainement ici pour monter ou je descends.

15:05.250 --> 15:10.080
Eh bien maintenant, il n’ya plus de problème, car il voit bien qu’il est préférable de monter car

15:10.080 --> 15:11.480
les valeurs sont ici.

15:11.550 --> 15:14.490
Et puis à partir de là, il doit aller droit car la valeur est plus grande ici qu'ici.

15:14.550 --> 15:17.480
Et à partir de là, Bertschi va à droite car la valeur ici est plus grande que vous ne le savez.

15:17.670 --> 15:22.620
Et à partir de là, il sait déjà qu’il a besoin d’aller de l’avant parce qu’il obtiendra une récompense de celle-ci.

15:22.680 --> 15:24.960
C'est comme ça que toute cette approche fonctionne.

15:24.960 --> 15:27.600
Voyons maintenant le reste de la place.

15:27.600 --> 15:29.800
Alors, comment calculons-nous la valeur dans ce carré?

15:30.030 --> 15:32.450
Eh bien voici où les choses deviennent difficiles.

15:32.460 --> 15:38.400
Donc à partir de là, vous risquez de ne pas aller à gauche, vous pouvez aller à droite pour que nous puissions continuer

15:38.400 --> 15:41.360
comme cela, car il pourrait en fait être plus court.

15:41.520 --> 15:44.720
Donc, ce que nous allons faire, c'est calculer la valeur dans le carré en premier.

15:45.000 --> 15:48.200
Et parce que, de toute évidence, les meilleures solutions sont en place.

15:48.240 --> 15:52.740
Encore une fois, c’est parce que nous voyons l’équipage que nous avons la boule de cristal, nous pouvons voir les

15:52.740 --> 15:57.060
choses et vous verrez plus loin dans la section que vous verrez comment l’agent explore en fait cela, il

15:57.060 --> 15:58.030
comprend cela par l’expérimentation.

15:58.080 --> 16:02.580
Mais pour nous, nous savons qu'il est préférable de procéder ainsi. Nous allons donc calculer la valeur

16:02.580 --> 16:06.410
ici et c'est pourquoi nous allons calculer la valeur dans ce carré en premier.

16:06.420 --> 16:09.230
Nous avons donc trois actions possibles.

16:09.270 --> 16:11.590
En réalité, nous en avons quatre, nous pouvons aussi aller à gauche.

16:11.610 --> 16:15.330
L’agent pourrait hypothétiquement appuyer à gauche, cogner contre le mur et rester ici.

16:15.420 --> 16:21.030
Mais pour le jeu de simplicité qui va montrer aux actions que nous connaissons ce que nous savons et avec

16:21.030 --> 16:25.920
la boule de cristal nous savons quelles actions sont celles qui mènent réellement à autre chose que le

16:25.920 --> 16:26.780
même état.

16:26.850 --> 16:32.010
Et donc, à partir d’ici, nous savons à nouveau que, simplement parce que nous avons une boule de cristal, nous savons que la meilleure

16:32.010 --> 16:36.840
voie à suivre est la façon dont un agent devrait bien sûr expérimenter et trouver le meilleur moyen et vous verrez comment

16:36.840 --> 16:37.500
cela se produit.

16:37.560 --> 16:42.270
Plus bas dans la section, vous verrez en fait comment un agent se promène et comment expérimentez-vous pour essayer

16:42.360 --> 16:43.610
de trouver ces valeurs.

16:43.620 --> 16:45.190
Mais pour nous, nous savons que c'est comme ça.

16:45.360 --> 16:50.420
Donc, ici, si nous connectons le tout à l’un, le meilleur résultat est celui obtenu lorsque vous montez.

16:50.510 --> 16:53.820
Et voici un rapport 9: 0 Donc, vous mettez cela dans.

16:53.820 --> 16:55.870
Vous obtenez zéro point neuf.

16:56.220 --> 16:58.730
OK alors c'est Kalika celui qui calcule celui-ci.

16:58.770 --> 16:59.810
Même approche.

16:59.820 --> 17:02.070
C'est que vous avez trois façons d'y aller.

17:02.070 --> 17:05.580
En fait, quatre pour l'agent, mais pour nous, nous pouvons voir qu'il n'y en a que trois.

17:05.880 --> 17:10.780
Donc zéro point quatre-vingt-un d'ici, vous avez ZERO point soixante-treize.

17:11.130 --> 17:16.410
Et cela correspond vraiment bien avec cette valeur car en vous, si vous remettez à nouveau, vous mettez 66

17:16.890 --> 17:20.120
et ici vous avez 0. 23 parce que c'est l'itinéraire optimal.

17:20.130 --> 17:21.190
Alors voilà.

17:21.210 --> 17:23.750
Ce sont les valeurs que tous ces états ont.

17:23.760 --> 17:29.700
Et maintenant vous pouvez voir que parce que nous avons créé cette équation

17:29.730 --> 17:37.890
ou synthétiquement tout le concept de «plus on est proche de la ligne d'arrivée, plus cet état a de

17:37.890 --> 17:41.840
valeur agent dans quel sens il devrait aller.

17:41.970 --> 17:44.230
Et nous en reparlerons plus tard.

17:44.910 --> 17:52.290
J'espère que vous avez apprécié la séance d'aujourd'hui et je sais que cela peut sembler un peu très basique à ce

17:52.320 --> 17:56.590
stade, mais nous allons ajouter un peu de complexité à cette section.

17:56.700 --> 18:01.500
En même temps, si vous ne pouvez pas attendre si vous voulez vous lancer, il y a un document que vous

18:01.500 --> 18:04.290
pouvez consulter et qui est le document original de Richard Belman.

18:04.290 --> 18:08.130
C'est ce qu'on appelle la théorie de la programmation dynamique à partir de 1954.

18:08.370 --> 18:10.200
Et vous pouvez le trouver sur ce lien.

18:10.320 --> 18:16.490
Et voilà, vous pouvez y accéder directement et lire l'auteur de l'équation de Belman.

18:16.620 --> 18:20.860
Mais gardez à l’esprit que c’est un papier assez mathématiquement lourd.

18:20.970 --> 18:22.820
Et sur cette note, je vais chercher votre prochain.

18:22.850 --> 18:24.590
Et jusque-là, profitez de l'IA.
