WEBVTT

00:01.040 --> 00:04.020
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.040 --> 00:07.040
Aujourd'hui, nous parlons enfin de l'apprentissage de Kule.

00:07.070 --> 00:13.120
Très bien, nous avons déjà cette équation, l’équation du chasseur, à laquelle nous avons ajouté de nombreux composants.

00:13.130 --> 00:19.910
Nous avons la récompense ici qui peut être non seulement à la toute fin, mais à n'importe quelle étape.

00:19.940 --> 00:21.920
Nous avons le facteur de réduction.

00:21.950 --> 00:26.880
Nous avons la probabilité, car nous examinons maintenant les processus décisionnels.

00:26.900 --> 00:32.780
Et ici, nous avons la possibilité de nous retrouver dans des États différents, quelles que soient les mesures

00:33.350 --> 00:35.210
que nous prenons ou réellement.

00:35.210 --> 00:40.670
Il peut y avoir plusieurs états dans lesquels nous pouvons nous retrouver et ensuite nous avons la valeur

00:40.670 --> 00:46.790
des états suivants parce qu'il ressemble à une fonction récursive et ainsi de suite, mais vous avez probablement encore une question.

00:46.820 --> 00:53.560
La question est de savoir où dans tout cela il n’ya pas de lettre Q Pourquoi tout est-il appelé q.

00:53.750 --> 00:54.270
Apprentissage.

00:54.350 --> 00:55.790
Alors, où est la queue.

00:55.910 --> 00:58.940
Et c'est la question à laquelle nous allons répondre aujourd'hui.

00:58.940 --> 01:06.620
Jusqu'ici, nous avons traité des valeurs comme la valeur d'être dans un certain état et nous allons maintenant

01:06.620 --> 01:09.820
examiner comment Q s'intègre dans tout cela.

01:10.070 --> 01:16.360
Nous avons donc deux exemples à gauche: ce que nous serions en train de faire jusqu’à présent, notre agent l’a analysée.

01:16.400 --> 01:18.170
Ok je suis par ici.

01:18.230 --> 01:21.640
Ceci est une marque du processus de décision, alors peu importe comment je suis arrivé ici.

01:21.770 --> 01:28.250
Le reste de l'environnement ne se soucie pas des étapes qu'il m'a fallu pour arriver à partir de maintenant.

01:28.460 --> 01:32.050
Je dois prendre la décision optimale où aller ici ou ici.

01:32.060 --> 01:37.280
Basé sur l'état actuel et tous les états futurs qui viennent d'ici mais pas du passé.

01:37.490 --> 01:42.010
Et donc, il peut voir qu'il y a trois options: il y a un État à trois.

01:42.260 --> 01:48.920
Et sur la base de son expérience, il a calculé les valeurs dans ces états et utilise maintenant l’équation

01:48.920 --> 01:49.880
des chasseurs.

01:49.880 --> 01:54.260
Donc, même s’il s’agit d’un Proceso classique, il sait qu’il ira ici, mais il est possible qu’il

01:54.260 --> 01:56.120
aille à gauche, et ainsi de suite.

01:56.110 --> 02:02.450
Sur la base de ces valeurs, nous allons donc prendre une décision et c’est une approche tout à fait

02:02.450 --> 02:03.470
légitime ici.

02:03.560 --> 02:05.640
Mais maintenant, nous sommes un peu modifiés.

02:05.660 --> 02:12.860
Nous allons prendre le même concept exactement le même problème, mais ici, au lieu de regarder les

02:12.950 --> 02:21.440
valeurs de chaque état dans lequel il peut se retrouver, nous allons regarder les valeurs ou la valeur de chaque action.

02:21.440 --> 02:25.640
Donc, nous n'allons plus utiliser la lettre V parce que, pour la valeur

02:25.640 --> 02:30.740
de l'état, nous allons utiliser un Q et vous pourriez vous demander pourquoi la lettre Q Bien.

02:30.740 --> 02:32.300
Q Certaines personnes spéculent que.

02:32.300 --> 02:33.760
Q Est-ce que je vais lire ceci?

02:33.770 --> 02:35.420
Je pense à Quora.

02:35.420 --> 02:41.480
Quelqu'un a mentionné que Q était dû à la qualité mais en même temps, je ne pouvais trouver aucune

02:41.480 --> 02:45.520
autre référence à cela. Ce n'est peut-être pas parce que c'est

02:45.920 --> 02:50.750
la lettre qui était utilisée à l'époque. tous appelés apprentissage clé à cause de cela.

02:50.780 --> 02:52.520
Donc, aucune raison exacte n'a été retenue.

02:52.530 --> 02:58.830
Q Mais néanmoins, au moins, cela nous aide à distinguer entre V et Q Donc Q ici.

02:58.850 --> 03:03.340
Il y avait des cadeaux plutôt que la valeur de l'état qu'il représente laisse aller de la qualité.

03:03.410 --> 03:06.260
Cela représente la qualité de l'action que cela représente.

03:06.260 --> 03:07.980
OK, j'ai quatre actions.

03:08.300 --> 03:10.860
Quelles sont les différentes qualités de ces actions?

03:10.860 --> 03:16.340
Quelle est la valeur de l'action ou la qualité de l'action qui est plus lucrative, j'ai donc besoin d'une métrique

03:16.340 --> 03:21.380
qui me dise très bien comment je quantifie cette action et je peux ensuite les comparer et

03:21.380 --> 03:23.200
c'est exactement ce que Q est.

03:23.470 --> 03:26.240
Et donc il a quatre actions possibles.

03:26.360 --> 03:29.240
Comme toujours, montez à droite, à gauche ou en bas.

03:29.240 --> 03:35.480
Et basé sur l'action il y aura une formule qui nous dit la valeur quantifiable de cette action que nous

03:35.480 --> 03:38.410
appelons la valeur Q q de cette action.

03:38.630 --> 03:41.700
Voyons donc comment nous allons calculer cette formule.

03:41.710 --> 03:44.510
Q Quel rapport y a-t-il réellement avec ceux-ci.

03:44.510 --> 03:51.290
Parce que, comme vous pouvez l’imaginer, parce que les actions mènent à des États, il doit exister une sorte de lien entre les

03:51.290 --> 03:51.850
deux.

03:51.870 --> 03:56.060
Oui, nous avons déjà déterminé comment calculer cela et nous y excellons.

03:56.060 --> 04:02.030
Nous savons comment utiliser l'équation de Belman dans des environnements très différents, avec de nombreuses complications différentes.

04:02.270 --> 04:06.080
Tirons parti de ces connaissances pour comprendre comment calculer.

04:06.080 --> 04:12.170
Q Afin de faire les mêmes prévisions car, comme vous pouvez l'imaginer, l'environnement ne change pas en

04:12.500 --> 04:16.530
fonction de l'approche que nous utilisons, l'environnement sera toujours le même.

04:16.550 --> 04:22.130
Donc, par conséquent, cette approche et cette approche devraient toujours donner le même résultat et c'est donc une autre raison pour

04:22.460 --> 04:24.690
laquelle ces deux facteurs devraient être liés.

04:25.100 --> 04:26.290
Alors jetons un coup d'oeil.

04:26.300 --> 04:31.280
Voici donc notre approche selon laquelle nous devons simplement examiner la valeur d’un État donné, de cet État ou de

04:31.280 --> 04:32.260
tout autre État.

04:32.420 --> 04:37.190
Et là nous allons dans nous utilisons simplement le fil parce que c'est l'état actuel.

04:37.190 --> 04:43.730
Et donc donc la terminologie sera la même dans les deux équations et ici nous utilisons q comme Q est le s

04:43.790 --> 04:45.520
de l'état s et l'action

04:45.540 --> 04:51.970
A parce que l'action est en hausse mais dans quel état nous effectuons cette action nous effectuons cette action dans l'état.

04:53.000 --> 04:57.230
OK, nous allons maintenant utiliser l'équation de Belman pour la première approche, comme vous

04:57.230 --> 05:06.620
pouvez le voir ici. Nous avons le of ou la valeur d'un état donné. C'est le maximum de la récompense que vous obtenez avec un pari maximum. sur les actions

05:07.070 --> 05:08.660
que vous avez trois.

05:08.690 --> 05:14.210
Dans ce cas, vous avez en fait quatre actions, alors maximisez toutes les actions possibles de

05:14.210 --> 05:20.090
cette partie dont nous avons entendu parler à maintes reprises. C’est donc notre récompense que nous obtenons

05:20.090 --> 05:26.850
de la réalisation de cette action dans cet état. valeur du nouvel état que nous allons être dans une valeur

05:26.850 --> 05:29.420
attendue parce que c'est un processus stochastique.

05:29.420 --> 05:34.460
Nous ne savons pas exactement avec certitude que nous allons nous retrouver ici, nous pourrions nous retrouver à la gauche ou

05:34.460 --> 05:36.050
à la bonne sorte de probabilité.

05:36.050 --> 05:38.230
C'est pourquoi ces probabilités sont en vous.

05:38.240 --> 05:40.290
D'accord, c'est notre valeur.

05:40.350 --> 05:41.150
Et maintenant, regardons.

05:41.150 --> 05:43.530
Q Donc Q va être défini.

05:43.580 --> 05:49.550
Nous allons utiliser ceci pour définir Q Donc, disons que l'agent à partir de cet emplacement à partir de cet état effectue

05:49.550 --> 05:50.640
l'action vers le haut.

05:50.840 --> 05:54.350
Quelle est la valeur q à appeler.

05:54.500 --> 05:59.320
Eh bien tout d’abord, voyons ce qu’il obtiendra en retour de cette action.

05:59.420 --> 06:02.160
La première chose que vous obtiendrez est une récompense juste.

06:02.360 --> 06:04.180
Ne sait aucun doute à ce sujet.

06:04.250 --> 06:09.920
Il y aura une sorte de règle ou peut-être zéro, mais nous savons que le

06:09.920 --> 06:15.770
processus d'apprentissage par renforcement fonctionne comme suit: certaines villes effectuent certaines actions dans un État ou deux.

06:15.840 --> 06:17.140
Je vais donc ajouter cela ici.

06:17.480 --> 06:19.680
Et ensuite, nous allons ajouter ce que nous allons ajouter.

06:19.850 --> 06:21.090
Eh bien, réfléchissons-y.

06:21.110 --> 06:24.640
Quelle est la prochaine chose qui se passe après qu'il est allé là-bas.

06:24.860 --> 06:32.030
La prochaine chose qui se passe, c’est que maintenant que l’agent est dans un certain état, il pourrait se retrouver ici avec une

06:32.330 --> 06:34.640
probabilité de 80% ou une probabilité quelconque.

06:34.730 --> 06:36.670
Mais en réalité ici, ici.

06:36.800 --> 06:43.940
Mais là où il finit maintenant, nous avons déjà une métrique quantifiée pour cet état.

06:44.210 --> 06:47.100
Et c'est en fait la valeur de cet état.

06:47.180 --> 06:52.340
Mais comme il est arrivé dans de nombreux états et dans trois des états possibles, nous devons

06:52.370 --> 06:55.730
examiner la valeur attendue de l'état dans lequel il sera.

06:56.210 --> 06:58.610
Et donc nous allons ajouter que dans nous allons ajouter.

06:58.610 --> 07:04.020
Bien sûr, le facteur réduit, comme nous l’avions précédemment, car il se situe quelque part dans le futur.

07:04.190 --> 07:11.210
Et ensuite, nous allons en ajouter quelques uns parmi tous les états possibles parmi lesquels il pourrait finir

07:11.210 --> 07:12.910
par prendre cette mesure.

07:12.910 --> 07:14.240
Conditions de probabilité.

07:14.240 --> 07:20.150
Donc, ce que nous disons ici, c’est que c’est bien. En effectuant une action, vous obtiendrez une récompense

07:20.150 --> 07:22.700
Plus qui sera une métrique quantifiée Plus.

07:22.730 --> 07:25.820
Vous vous retrouvez dans un état où nous ne savons pas lequel il pourrait être ici.

07:25.850 --> 07:26.950
Pourrait être ici il pourrait être ici.

07:27.050 --> 07:32.240
Mais voici la valeur attendue de l'état dans lequel vous allez vous retrouver.

07:32.270 --> 07:36.290
Et maintenant, nous allons multiplier par le facteur d’actualisation, car c’est un déménagement.

07:36.380 --> 07:44.180
Voilà donc notre valeur Q pour cette section de performance et vous remarquerez tout de suite ici

07:44.180 --> 07:44.730
que.

07:44.760 --> 07:51.470
Q La valeur Q est en réalité exactement identique à ce qui se trouve entre ces crochets.

07:51.950 --> 07:52.660
Et pourquoi est-ce que.

07:52.670 --> 07:59.930
Eh bien, si vous réfléchissez bien ici, nous prenons le maximum de résultats, nous obtiendrons le maximum pour toutes les actions possibles,

07:59.930 --> 08:04.910
alors nous aurons une action prenant le maximum pour toutes les actions possibles du

08:04.910 --> 08:10.500
résultat que nous obtiendrons en prenant chacune de ces actions. et mettre en file d'attente nous définissons.

08:10.610 --> 08:11.160
Intéressant.

08:11.160 --> 08:14.000
Qu'obtiendrons-nous en prenant certaines mesures?

08:14.000 --> 08:19.340
Donc, si vous y réfléchissez, il est logique que la valeur d'un état.

08:19.370 --> 08:25.720
Ainsi, par exemple, cet état est le maximum de toutes les valeurs Q possibles.

08:25.790 --> 08:32.360
Ici, aux États-Unis, l’agent a une valeur clé pour conserver la valeur 3Q pour la valeur

08:32.360 --> 08:32.870
q.

08:32.870 --> 08:37.760
Donc, oui, positif pour les valeurs Q possibles alors que la valeur de la suspension reste

08:37.760 --> 08:42.460
logique, la valeur de l'état étant le maximum de toutes ces quatre valeurs clés.

08:42.490 --> 08:44.420
C'est exactement ce que nous pouvons voir ici.

08:44.420 --> 08:48.060
C'est une bonne confirmation de cette nouvelle formule que nous dérivons.

08:48.080 --> 08:53.080
Si ce n'était pas le cas, si cela ne concordait pas, nous aurions des questions.

08:53.270 --> 08:55.150
Alors pourquoi ne correspond-il pas?

08:55.160 --> 08:57.510
Pourquoi ne correspond-il pas si.

08:57.690 --> 09:05.810
La valeur Q est une mesure quantifiée de l'exécution d'une action et V dépend du sol.

09:05.930 --> 09:12.970
Est-ce que c'est comme le maximum des résultats possibles des quatre actions qu'il peut effectuer qui a du sens.

09:12.980 --> 09:21.050
Et cela confirme la formule que nous venons de dériver et nous allons maintenant la rendre encore plus intéressante.

09:21.080 --> 09:26.620
Nous allons nous débarrasser entièrement de la Wii, car vous pouvez voir que la Wii est une fonction récursive.

09:26.810 --> 09:29.750
Alors et puis vous avez moi et puis B et puis B et puis B et ainsi de suite.

09:29.760 --> 09:35.480
Ainsi, vous pouvez exprimer ce point de vue à travers tous les Vee suivants, le plus optimal

09:36.150 --> 09:36.830
sera celui-ci.

09:36.840 --> 09:43.210
Nous nous attendons à Q En tant que funk, une fonction récursive du OU en fonction du prochain V et vous devrez ensuite brancher

09:43.250 --> 09:45.200
ce V puis nous reviendrons au B.

09:45.200 --> 09:51.110
Alors, qu'est-ce que nous allons faire, c'est que nous allons prendre ce V et que nous

09:51.230 --> 09:54.280
allons le remplacer par Q Bien, examinons-le.

09:54.930 --> 10:01.410
Nous allons prendre ce V du prochain état et nous allons l'intégrer dans cette formule ici.

10:01.570 --> 10:07.180
Et comme vous pouvez le constater maintenant, cette partie ne change pas cette probabilité ne change pas.

10:07.180 --> 10:16.950
Mais comme nous venons de le dire, s est le maximum par toutes les actions de q sur S et un droit ici.

10:16.990 --> 10:19.180
C'est ce que nous allons remplacer ici.

10:19.180 --> 10:24.310
Nous allons donc dire que, bien entendu, la nouvelle action est l'action que nous allons entreprendre, car

10:24.310 --> 10:26.760
ici, nous avons la Wii comme prime.

10:26.770 --> 10:30.700
Nous avons donc maintenant la console maximale à son meilleur.

10:30.700 --> 10:34.510
Ainsi, les actions que nous allons entreprendre à partir de cet état

10:34.510 --> 10:41.200
proviennent de n’importe quel autre État dans lequel nous nous retrouvons, mais les actions que nous allons entreprendre à partir de là

10:41.260 --> 10:50.170
et de Maxima dans tous ces états et au maximum sont toutes les valeurs de cube qui sont disponibles pour nous dans ce nouvel état en tant que premier virgule.

10:50.170 --> 10:51.280
Et c'est l'action.

10:51.280 --> 10:52.140
Alors c'est ça.

10:52.210 --> 10:53.500
Donc, il y en aura quatre autres.

10:53.500 --> 10:54.530
Q valeurs là-bas.

10:54.610 --> 10:56.700
Alors maintenant, comme vous pouvez le constater, reprenons l’expérience.

10:57.040 --> 11:02.740
Donc, à partir de ce que nous dérivons, ce mot serait juste parce que logique et intuition, de sorte que nous

11:02.740 --> 11:07.400
puissions voir que les VNS sont réellement une vue de AS et de et sont liées.

11:07.400 --> 11:12.400
Le of S est le maximum dans toutes les actions de Cuba S et vous pouvez le voir ici, donc cette partie

11:12.400 --> 11:13.820
est identique à cette partie

11:14.290 --> 11:20.740
Et ensuite, nous allons tirer parti de cela et remplacer cet élément par VNS à partir d'ici, mais pas cet

11:20.740 --> 11:25.730
entonnoir exact, nous allons prendre cette partie interne et la remplacer par tuer l'innocent.

11:26.080 --> 11:32.920
Nous allons donc brancher cela ici et cette partie va être q de s prime un nombre premier maximum de cube par

11:33.430 --> 11:36.810
Crucell un Priam de Q As Prime un nombre premier.

11:37.060 --> 11:39.790
Et maintenant nous avons notre formule.

11:39.790 --> 11:46.880
Nous avons donc maintenant une formule récursive pour la valeur q, de sorte que l'agent peut maintenant déterminer quelle est la valeur de la section. Quelle est

11:46.890 --> 11:50.310
la qualité de cette section, qui était la nouvelle valeur de cette action.

11:50.470 --> 11:56.570
Eh bien, cela dépend de la récompense que je reçois immédiatement après cela, plus cela dépend du

11:56.590 --> 12:02.410
facteur actualisé multiplié par le maximum de toutes les actions Q possibles dans cet état.

12:02.410 --> 12:06.760
Mais je ne sais pas si je vais demander à leur côté d’examiner également cet état dans cet

12:06.760 --> 12:12.770
État et c’est pourquoi nous avons cette valeur attendue ici, de sorte que nous avons une probabilité multipliée par le maximum de la valeur

12:12.860 --> 12:13.300
attendue.

12:13.450 --> 12:18.010
Donc, une formule très similaire, comme vous pouvez le voir, mais cette fois,

12:18.490 --> 12:27.310
nous exprimons des choses à travers les valeurs q et c’est pourquoi tout cet algorithme s’appelle Kill learning parce que c’est ce qui est examiné.

12:27.310 --> 12:32.020
Lorsque les États examinent leurs actions possibles, ils se basent ensuite sur les actions

12:32.020 --> 12:35.760
pour déterminer la valeur q des actions à décider.

12:35.760 --> 12:40.330
Donc, ils vont simplement regarder la valeur Q maximale dans cet état donné, il a quatre actions.

12:40.330 --> 12:45.340
Quelle est la meilleure action à prendre pour pouvoir comparer en

12:45.350 --> 12:51.820
quelque sorte les différents états possibles? Comparera les actions possibles, puis trouvera la solution optimale.

12:51.820 --> 12:56.830
va répéter ce processus répéter ce processus et ainsi de

12:56.860 --> 12:57.440
suite.

12:57.580 --> 13:03.940
Alors maintenant, vous pouvez voir comment tout cela se combine et comment se combinent la récompense des faits

13:04.360 --> 13:10.330
d'actualisation ou des processus de décision de marché stochastiques, ainsi que des valeurs et des valeurs

13:10.690 --> 13:18.400
q, pour créer cette équation de Belman super puissante pour les valeurs q que nous pouvons maintenant appliquer et laissez nos

13:18.400 --> 13:20.410
agents apprendre à vaincre l'environnement.

13:20.410 --> 13:23.380
Et c'est donc une explication intuitive de ce qui se passe.

13:23.380 --> 13:28.510
Je sais que nous avons examiné les formules, mais cela est nécessaire, car notre formule ressemble à celle

13:28.510 --> 13:34.730
que nous avons suivie tout au long du chapitre et je pense que la transition entre le début et la fin est bonne.

13:34.780 --> 13:43.450
Q Et cela montre bien qu’il existe des liens entre Yishun. Et si vous souhaitez adopter une approche mathématique

13:43.450 --> 13:49.410
plus rigoureuse, regardez les mathématiques sous-jacentes et apprenez-en plus sur les valeurs

13:49.420 --> 13:51.600
q et leur fonctionnement.

13:51.640 --> 13:54.090
Ensuite, nous avons quelques lectures supplémentaires pour vous.

13:54.130 --> 14:02.980
Cet article s’appelle concepts de processus de décision de Markov et algorithmes de Martin von Autor 2009.

14:02.980 --> 14:09.610
Donc, vous coupez le lien ici comme toujours et ici vous pouvez lire un peu plus en détail pour comprendre

14:09.820 --> 14:15.220
tout le fond des valeurs de Hugh et ainsi de suite et maintenant que nous

14:15.220 --> 14:21.660
avons discuté de toutes ces choses concernant l'équation de Belman, nous sommes prêts examiner quelque chose de plus complexe, tel

14:21.790 --> 14:27.670
que le présent document, si nous voulons obtenir des informations supplémentaires à ce sujet afin de mieux comprendre.

14:27.670 --> 14:34.390
Mais même si vous ne lisez ni le journal ni la radio, vous devez avoir une bonne connaissance pratique de ce

14:34.390 --> 14:40.850
qu’est l’apprentissage et de la façon dont les agents définissent les actions qu’ils doivent entreprendre dans un environnement donné.

14:40.870 --> 14:43.980
J'espère donc que vous apprécierez aujourd'hui Statoil et j'attends avec impatience vos prochaines.

14:43.990 --> 14:45.360
Jusque-là profiter.

14:45.390 --> 14:45.620
JE.