WEBVTT

00:00.980 --> 00:04.960
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:05.000 --> 00:12.140
Auparavant, nous avions un tutoriel assez long et laborieux sur les processus de décision de Margrove et nous espérons que vous vous

00:12.200 --> 00:13.710
en êtes bien tiré.

00:13.760 --> 00:19.010
Et j'espère pouvoir expliquer les choses de manière abordable et engageante.

00:19.130 --> 00:22.750
Et aujourd'hui, nous allons parler des politiques par rapport aux plans.

00:22.760 --> 00:27.910
Il y aura un didacticiel rapide et amusant car nous entrons maintenant dans un nouveau monde.

00:27.910 --> 00:34.310
Nous entrons dans un monde de recherches stochastiques, non déterministes, lorsque vous ne comprenez pas le labyrinthe, mais que vous

00:34.310 --> 00:38.990
tenez compte de facteurs aléatoires vous dans la tête lorsque vous traversez ce labyrinthe et

00:38.990 --> 00:41.080
vous devez être prêt pour cela.

00:41.080 --> 00:42.070
C'est le monde.

00:42.080 --> 00:48.640
Notre agent y habite et c'est plus amusant, mais c'est aussi plus dangereux, plus c'est moins prévisible.

00:48.650 --> 00:50.880
Alors, comment va notre agent va se comporter.

00:50.960 --> 00:52.280
Regardons.

00:52.280 --> 00:58.190
Il y a notre cadre de processus de décision qui est encore une fois notre faveur, l'équation de Belman.

00:58.250 --> 01:02.010
Cependant, la version la plus avancée de l'équation de Belman avec laquelle nous travaillons.

01:02.010 --> 01:04.760
Donc, à partir de maintenant, nous allons simplement appeler cela l'équation de Beldon.

01:04.760 --> 01:10.970
Et nous avons ici notre action maximale et Crucell, de sorte que la valeur d’un état, quel qu’elle soit, est la valeur maximale pour

01:10.970 --> 01:14.020
toutes les actions qu’un agent peut éventuellement effectuer dans cet état.

01:14.120 --> 01:21.230
Et la maxime a été reprise de la récompense que l'agent obtiendra en effectuant l'action A instate as Plus un

01:21.230 --> 01:26.590
facteur de réduction multiplié par la valeur attendue du nouvel état dans lequel il sera

01:26.830 --> 01:31.850
Et je m'attendrais à ce que ceux qui sont pris ici, car ils sont, ne savent pas exactement dans quoi se termine Sadle.

01:31.880 --> 01:40.390
Certains effets aléatoires présents dans l’environnement peuvent modifier l’état et ne pas aboutir à

01:40.800 --> 01:42.630
l’état souhaité.

01:42.640 --> 01:44.200
Il pourrait se retrouver dans un état différent.

01:44.210 --> 01:47.760
C'est pourquoi nous prenons la valeur attendue ici quelque part ici.

01:47.990 --> 01:53.750
Alors regardons cela comme notre exemple notre ou dans notre exemple du labyrinthe.

01:53.750 --> 02:00.220
C’est donc ce que nous avions précédemment et jusqu’à présent, nous avons affaire à une recherche déterministe en direct.

02:00.230 --> 02:01.960
Donc nous le savions.

02:01.970 --> 02:05.550
Très bien alors si je suis là, je dois absolument y aller si je suis là.

02:05.570 --> 02:09.030
Je dois absolument aller ici si je suis là. Je dois absolument aller ici si je suis là. Je suis là.

02:09.140 --> 02:11.360
C'était donc assez simple.

02:11.480 --> 02:14.680
Une fois que vous avez cette carte et rappelez-vous que vous l'avez appelée, nous l'avons appelée un plan.

02:14.690 --> 02:18.050
Une fois que vous avez le plan, c'est assez simple à faire.

02:18.050 --> 02:18.990
Il y a.

02:18.990 --> 02:20.490
Voilà donc le plan avec des flèches.

02:20.580 --> 02:25.000
Et à partir d’ici c’était très simple. Voici les routes qu’ils emprunteront chaque fois que vous démarrez

02:25.010 --> 02:26.210
sur cette ligne bleue.

02:26.210 --> 02:28.210
C'est exactement la façon dont vous iriez.

02:28.680 --> 02:31.120
Cependant, maintenant, nous n'avons plus de plan.

02:31.120 --> 02:38.060
Nous ne pouvons pas avoir de plan car vous savez que tout ce que nous planifions peut ne pas arriver, ce n'est pas sous contrôle ou un plan,

02:38.060 --> 02:40.940
c'est quand vous savez exactement ce que vous devez faire ensuite.

02:40.940 --> 02:41.820
Vous connaissez les étapes.

02:41.840 --> 02:46.640
Donc, vous avez un point de départ, vous avez un objectif et vous connaissez chaque étape afin

02:46.640 --> 02:50.500
que vous puissiez les planifier comme vous le ferez, je ferai celui-ci. .

02:50.630 --> 02:54.870
Mais en même temps, il y a tellement de choses aléatoires.

02:54.890 --> 03:00.080
Vous pouvez avoir un plan parce que si vous arrivez ici et ensuite vous cliquez à droite et vous fait

03:00.080 --> 03:00.560
descendre.

03:00.680 --> 03:02.100
Cela ne fait donc pas partie de votre plan.

03:02.390 --> 03:04.120
C'est pourquoi on appelle cela la planification plus.

03:04.220 --> 03:09.080
Et ici, nous allons calculer les valeurs vont simplement regarder les valeurs

03:09.410 --> 03:11.990
calculées pour ce même problème.

03:12.080 --> 03:16.700
Mais sur la base de cela étant donné que nous avons ce hasard à l'intérieur.

03:16.700 --> 03:18.380
Donc, ce sont les nouvelles valeurs.

03:18.800 --> 03:22.840
Et donc, pourquoi ces valeurs sont-elles différentes, alors comparons-les à ce que nous avions précédemment.

03:22.850 --> 03:24.710
C'est ce que nous avions précédemment.

03:24.710 --> 03:25.650
Ce sont alors vous.

03:25.660 --> 03:29.750
Donc, encore une fois, nous l’avions déjà fait parce qu’il avait gagné 3. 9 pour cent.

03:29.770 --> 03:31.590
Il était vraiment 366.

03:31.790 --> 03:36.750
Et c’est ce que nous avons maintenant a moins d’une fois en vigueur et 1 6 3.

03:36.800 --> 03:43.850
Et en passant, ce ne sont pas exactement les rassemblements actuels qui me viennent à l’esprit, mais si nous devions faire

03:43.850 --> 03:49.220
appel à un agent, certaines valeurs seraient similaires à celles-ci et les valeurs pourraient changer car,

03:49.220 --> 03:54.650
en fonction du pari qu’il choisirait 3. 9 ou une autre valeur, mais néanmoins, pour l’argument

03:54.650 --> 04:00.560
de l’argument, il s’agit des valeurs dont nous traitons maintenant et qui sont approximatives; elles expriment l’ensemble de la

04:00.560 --> 04:02.270
notion de manière correcte; examinons-les.

04:02.270 --> 04:03.240
Pourquoi ont-ils changé?

04:03.410 --> 04:07.480
Eh bien pourquoi est ici avec celui-ci la valeur était un.

04:07.490 --> 04:10.520
Pourquoi est-ce tout d'un coup 0. 26 Pourquoi est-il inférieur à un.

04:10.560 --> 04:11.730
Il suffit d'aller d'ici ici.

04:11.930 --> 04:18.620
En fait, nous avons appelé parce que si nous allons bien, ce qui est notre intention, nous

04:18.640 --> 04:22.340
pourrions si nous avions 10% de chances d’être ici.

04:22.340 --> 04:25.130
Nous nous sommes donc heurtés au mur et nous serions de retour dans cet état.

04:25.130 --> 04:30.740
Et rappelez-vous que nous avons un Gamla. Ainsi, la valeur serait réduite et soit nous allions ou non à 10 et le hasard

04:30.740 --> 04:32.150
aboutissait ici dans cet État.

04:32.150 --> 04:37.670
Donc, ce n'est pas une probabilité de 100% que j'arrive ici, donc la disvalue ne peut plus être une cause, c'est quelque

04:37.670 --> 04:41.310
chose de moins et elle vaut 0. 26.

04:41.570 --> 04:43.770
Donc, c'est un exemple de pourquoi c'est comme ça.

04:43.770 --> 04:49.130
Et vous pourriez obtenir la valeur exacte si vous calculiez l'équation de Belman comme étant complète, mais ma question que nous

04:49.130 --> 04:49.850
avons maintenant.

04:49.850 --> 04:53.540
Le seul problème est qu’il y aura une certaine récursivité, car vous devez

04:53.540 --> 04:57.440
connaître la valeur de cette opération, puis celle-ci est assez complexe et c’est pourquoi nous

04:57.440 --> 04:59.180
ne faisons pas les calculs manuellement.

04:59.240 --> 05:06.000
C’est pourquoi je peux les faire pendant que cela se passe, c’est comme si rien n’était trop complexe pour

05:06.000 --> 05:06.510
un.

05:06.540 --> 05:08.520
Vous ne pouvez pas jouer ces choses.

05:08.520 --> 05:10.090
C'est donc notre valeur ici.

05:10.110 --> 05:11.520
Mais de celui-ci est différent.

05:11.520 --> 05:16.830
Donc ici, juste pour être 0. 9 juste à cause du facteur d’actualisation, rappelez-vous d’ici

05:16.830 --> 05:23.070
à ici d’ici les collèges, nous sautons d’ici à ici tout simplement parce que même si nous sautons comme cela, nous

05:23.070 --> 05:24.680
risquons de revenir ici.

05:24.700 --> 05:28.440
Exactement ces 20% de chances de rester sur la place parce que nous allons nous heurter à un mur.

05:28.710 --> 05:29.730
Et encore et ainsi de suite.

05:29.730 --> 05:32.700
Donc, la valeur d'être ici est le point zéro soixante et onze.

05:32.850 --> 05:35.370
Encore une fois cela et le facteur d'actualisation.

05:35.370 --> 05:39.970
Vous savez que cela peut sembler étrange à vos yeux que même avec la réduction du facteur, cela est trop élevé.

05:40.050 --> 05:44.440
Peut-être que le facteur d'actualisation dans cet exemple n'est pas 0. 9 peut-être sept points quatre-vingt-dix-neuf ou quelque chose

05:44.500 --> 05:46.310
qui ne vous inquiétez pas.

05:46.350 --> 05:48.480
Juste un peu comme se concentrer sur cela.

05:48.480 --> 05:53.210
Les valeurs ont en effet changé que les valeurs sont maintenant moins.

05:53.460 --> 05:58.700
Principalement parce que ce n'est pas une probabilité de cent pour cent d'arriver à l'état que vous voulez obtenir et ce

05:59.100 --> 06:00.180
que vous allez trouver.

06:00.210 --> 06:06.660
Un intéressant est ici que juste pour être 0. 9 a en fait chuté beaucoup a chuté considérablement.

06:06.660 --> 06:07.110
Pourquoi donc.

06:07.110 --> 06:12.120
Eh bien, parce que si vous montez à partir de là, ce qui est notre intention, il y

06:12.120 --> 06:18.700
a 10% de chance de heurter un mur, mais 10% de chance de finir dans le foyer et de perdre moins un pour gagner

06:18.700 --> 06:22.820
une récompense, ce qui signifie fondamentalement pour l'agent qui est fin Du jeu.

06:23.160 --> 06:25.640
Et donc c'est un très mauvais état d'être.

06:25.680 --> 06:29.910
Donc, tout à coup, souvenez-vous que nous avions zéro point neuf ans plus tard, ils étaient donc équivalents.

06:29.910 --> 06:34.900
Peu importe que vous entendiez ici, ils sont à peu près égaux en termes de valeur d'être dans chacun de ces états.

06:34.980 --> 06:43.440
Mais maintenant, tout à coup, cette date est presque deux fois meilleure que celle-ci tout simplement parce qu’ici, si vous y allez

06:43.590 --> 06:46.980
directement, vous allez là où vous voulez aller.

06:47.050 --> 06:51.270
Vous savez que le hasard a pour conséquence de rester ici.

06:51.290 --> 06:55.070
Dans ce cas, l’une des conséquences d’une chance sur 10 est que vous vous retrouviez dans la fosse.

06:55.110 --> 07:02.160
Comme vous pouvez le constater, cet état n’est plus aussi bon, simplement à cause de quelque chose

07:02.160 --> 07:03.460
qui fluctue.

07:03.570 --> 07:09.150
Comme vous pouvez le constater, celui-ci est également très mauvais, car il est aussi mauvais que celui-ci: vous savez qu'il ne vous reste que 10% de

07:09.150 --> 07:12.660
chance de finir dans le puits et 10% de chance de se retrouver dans le mur.

07:12.660 --> 07:18.480
Mais en même temps, il y a un facteur d'actualisation Donc, tout d'abord, le facteur d'actualisation et après celui-ci,

07:18.480 --> 07:20.390
vous devez vous rendre ici.

07:20.700 --> 07:23.900
Et même si vous y alliez de façon hypothétique, vous pourriez vous retrouver à nouveau dans la fosse.

07:23.910 --> 07:28.710
Donc, cette chance serait également prise en compte car rappelez-vous que les valeurs dérivent de cette

07:28.710 --> 07:31.760
valeur et que la valeur est dérivée de cette valeur.

07:31.820 --> 07:32.350
Droite.

07:32.400 --> 07:37.560
Et donc c'est petit mais en réalité ce que j'ai dit là était faux.

07:37.560 --> 07:39.640
Cette valeur ne provient pas de la Fed.

07:39.810 --> 07:46.800
Donc, si vous regardez simplement maintenant, vous remarquerez que cette valeur ici est en réalité supérieure à

07:46.800 --> 07:47.300
celle-ci.

07:47.610 --> 07:54.780
Vous remarquerez que pour l'agent, il est préférable d'aller tout ce chemin-là et c'est logique.

07:54.780 --> 07:58.580
Parce que de cette façon, il ne perd pas, il n'y a aucune chance d'entrer dans la fosse.

07:58.590 --> 08:03.450
Oui est un peu plus long et donc le facteur d'actualisation a un effet plus important.

08:03.510 --> 08:07.470
Mais en même temps, tout simplement parce qu'il y a une chance d'entrer dans le puits ici si ça va tout

08:07.530 --> 08:09.140
droit, il y aura une chance de sauter.

08:09.160 --> 08:15.120
Donc, il faudra un tirage au sort pour prendre son temps et juste faire le tour parce que de cette façon, il y a beaucoup moins

08:15.120 --> 08:16.530
de chances que cela se produise.

08:16.530 --> 08:19.590
Donc à partir d'ici, il y a d'ici.

08:19.590 --> 08:23.590
Cela pourrait éventuellement entrer dans la fosse, car cela pourrait finir dans le projet de loi.

08:23.730 --> 08:27.430
Mais néanmoins, c'est une chance moindre, donc ça va continuer comme ça.

08:27.430 --> 08:32.430
Il est donc très intéressant de voir comment ils changent tous. Souvenez-vous de ce qui précède.

08:32.430 --> 08:34.790
D'ici vous iriez comme ça et d'ici nous irons comme ça.

08:35.010 --> 08:36.870
Et maintenant, tout à coup, vous pouvez voir son changement.

08:36.870 --> 08:41.000
Roulons les flèches et voyons à quoi ça ressemble maintenant et le tour est joué.

08:41.010 --> 08:43.760
Vous voyez même une chose plus aléatoire juste.

08:43.770 --> 08:45.260
Alors oui c'est vrai.

08:45.270 --> 08:46.500
Mais regardez ce qui s'est passé ici.

08:46.500 --> 08:47.610
Regarder celui-ci.

08:47.690 --> 08:48.970
Regarder celui-ci.

08:49.050 --> 08:50.490
Vous attendiez-vous à cela?

08:50.520 --> 08:54.570
C'est quelque chose que j'aime vraiment quand j'ai vu celui-ci la première fois que j'étais très impressionné

08:54.570 --> 08:59.800
Je n'étais pas super, je n'étais pas surpris et je ne m'y attendais pas du tout.

08:59.970 --> 09:04.860
Et ceci est un exemple de ce que vous savez quand je peux déjouer un humain.

09:05.120 --> 09:10.680
Cela ressemble à quelque chose que vous avez même attrapé, mais que vous pouvez prévoir, mais grâce à l'apprentissage en matière d'application de la

09:10.680 --> 09:14.400
loi, rappelez-vous qu'un exemple de chien peut parfois parfois fonctionner mieux que la vie réelle.

09:14.400 --> 09:21.330
Les chiens sont des robots robotisés préprogrammés qui peuvent jouer au football simplement parce qu'ils ont des idées que même nous ne

09:21.390 --> 09:22.350
pouvons pas voir.

09:22.440 --> 09:27.330
Et comme bon exemple, vous ne vous attendiez probablement pas à ce que les Asiatiques, au lieu

09:27.330 --> 09:29.690
de monter, se demandent pourquoi je le ferais.

09:29.850 --> 09:33.120
Comme si je montais, il y a 10% de chances que je saute dans le puits.

09:33.120 --> 09:35.130
Mais que fait-il en entrant dans la guerre?

09:35.280 --> 09:38.330
Bien 80% du temps va revenir et rester dans l'état.

09:38.490 --> 09:42.360
Mais 10% du temps ira ici et 10% du temps j'irai ici.

09:42.360 --> 09:49.130
Alors tout d'un coup, vous pouvez voir que c'est maintenant dans cette nouvelle approche de sauter dans le mur.

09:49.170 --> 09:53.350
Il y a zéro pour cent de chance que cela aille dans le feu, mais à partir de cet endroit, donc.

09:53.370 --> 09:57.690
Et c'est comme si cela ne voulait vraiment pas aller dans le foyer, donc droguer Bon Bons dans

09:57.690 --> 10:03.050
le mur à plusieurs reprises et ensuite cela ira à droite ou à gauche à un moment donné parce que ce hasard va arriver.

10:03.080 --> 10:09.680
Et ainsi, il a appris que, grâce à des expériences, il avait appris que, quand je vais de l'avant, les résultats ne sont pas aussi bons

10:09.680 --> 10:11.440
que quand je vais au mur.

10:11.510 --> 10:13.540
Et si vous y réfléchissez, c'est comme ça.

10:13.580 --> 10:18.350
Si vous y réfléchissez, ce robot est un foyer, il est comme un carré, c’est comme un

10:18.350 --> 10:21.630
très petit rebord et c’est comme une montagne comme une falaise.

10:21.650 --> 10:27.830
Et ce robot serre juste la falaise et tente d'attendre jusqu'à ce qu'il pousse à droite ou à gauche, car même

10:27.830 --> 10:32.640
en tant qu'être humain, vous ferez probablement la même chose, vous ne seriez pas face à

10:32.750 --> 10:34.970
face ou vous serriez contre la falaise.

10:35.000 --> 10:35.860
Ou quelque chose comme ça.

10:35.940 --> 10:39.740
Et j'espère que vous savez que nous devons finir par ne jamais nous retrouver dans de telles situations.

10:39.770 --> 10:43.670
Mais comme visuellement juste visuellement si vous pensez à quelque chose ici.

10:43.760 --> 10:46.450
Et donc c'est assez intense droit.

10:46.460 --> 10:51.860
Alors que l’intelligence artificielle a eu cette idée et la même chose ici, c’est un peu comme aller à gauche et Riskin

10:51.860 --> 10:56.270
se battre, mais je vais juste essayer des balles contre le mur À un moment donné, je

10:56.300 --> 11:01.430
sais que vous savez qu'il y a une probabilité de 10% à chaque fois que je vais y aller et

11:01.430 --> 11:04.910
que quelque chose se passera et que je finirai ici et que je serai

11:04.910 --> 11:06.680
en sécurité, puis continue comme ça.

11:06.830 --> 11:13.240
C'est donc une approche très très intéressante qu'ils ont adoptée ici et vous pouvez voir que les itinéraires sont comme ceux-ci. À partir de là, tout peut aller

11:13.250 --> 11:17.500
à droite et ensuite aller à droite jusqu'à la sortie ou ici ou à gauche comme ça.

11:17.690 --> 11:22.230
Et nous y reviendrons à un moment ou à un autre.

11:22.310 --> 11:23.170
C'est important.

11:23.180 --> 11:27.610
Je ne suis pas une politique donc même quand ça saute d'ici, ça ira ici.

11:27.650 --> 11:30.400
Et peut-être qu'ici il pourrait pleuvoir directement.

11:30.410 --> 11:34.520
Cela pourrait en fait revenir à droite puis à partir d’ici et je vais me laisser bien faire les choses.

11:34.550 --> 11:38.260
Donc, il y a beaucoup d'options différentes pour les gars qui pourraient ne pas suivre exactement ce ferrailleur vont dans

11:38.270 --> 11:38.730
l'autre sens.

11:38.960 --> 11:42.500
Ce ne sont que les itinéraires souhaités qu'il est conçu pour lui-même.

11:42.590 --> 11:44.690
Mais la façon dont cela fonctionnera est en réalité peut être différent.

11:44.690 --> 11:46.130
Cela dépend du monde réel.

11:46.340 --> 11:46.940
Alors on y va.

11:46.950 --> 11:50.090
C'est le monde de l'intelligence artificielle.

11:50.090 --> 11:56.780
C'est ce qu'est une politique par rapport à un plan et j'espère que vous commencez à être enthousiasmé par ce que

11:57.000 --> 12:01.220
l'IA peut faire, surtout compte tenu de ce que nous avons vu ici.

12:01.340 --> 12:07.430
Ce sont des décisions très virtuoses de la part des IA.

12:07.610 --> 12:12.500
Et comme vous pouvez le constater lorsque vous jouez à l'IA, même à partir de ce petit exemple, vous

12:12.500 --> 12:18.950
pouvez voir que même lorsque vous jouez dans un monde réel, vous pourrez peut-être proposer des idées et des décisions que même parfois les humains peuvent

12:18.950 --> 12:19.240
proposer.

12:19.250 --> 12:25.460
Et c’est un peu comme ce qui s’est passé dans ces jeux où l’objectif de Google

12:25.520 --> 12:32.320
Alpha s’était joué contre Lisa, championne du monde des buts en Corée, et du champion du monde de départ.

12:32.390 --> 12:37.000
Et ils jouaient en Corée avec Bakla en 2016, je crois, en mars 2016.

12:37.000 --> 12:42.370
Il est venu avec des mouvements que les humains n'avaient jamais joué depuis 3000 ans ou les humains n'étaient pas habitués à jouer.

12:42.380 --> 12:45.510
Et ceci est exactement un exemple de cela.

12:45.740 --> 12:50.290
Donc, encore une fois, j'espère que vous êtes enthousiasmés par le discours et par ce que nous pouvons intégrer.

12:50.330 --> 12:51.840
Et je le cherche.

12:51.840 --> 12:52.720
À la prochaine.

12:52.730 --> 12:54.410
Jusque-là profiter.

12:54.410 --> 12:54.640
JE.
