WEBVTT

00:00.930 --> 00:03.970
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:03.990 --> 00:08.480
Nous avons donc parlé de l'équation de Belman et analysé notre petit labyrinthe.

00:08.520 --> 00:11.100
Regardons le plan.

00:11.100 --> 00:12.400
Quel est le plan.

00:12.750 --> 00:14.650
Eh bien voici notre analyse principale.

00:14.670 --> 00:20.970
Et nous savons que nous pouvons voir réellement les états, les valeurs de chaque état, nous pouvons voir quelle

00:20.970 --> 00:23.310
est la valeur d'être dans chaque état.

00:23.400 --> 00:27.810
Par conséquent, l'IA peut ou l'agent peut naviguer dans ce labyrinthe.

00:27.840 --> 00:28.770
Alors, quel est le plan.

00:28.770 --> 00:35.640
Bien, le plan est simplement comme une carte au trésor pour l’intelligence artificielle au lieu de regarder ces valeurs qui

00:35.730 --> 00:41.420
ne les remplacent que par des flèches qui indiquent dans quelle direction l’agent doit aller.

00:41.490 --> 00:43.360
À cause de ceux-ci, car il connaît ces valeurs.

00:43.350 --> 00:47.230
Donc, un scénario idéal après avoir exploré cet environnement.

00:47.250 --> 00:50.860
Il connaît la valeur d'être dans chaque état et vous pouvez donc créer cette carte.

00:50.870 --> 00:52.330
Alors regardons encore.

00:52.380 --> 00:58.410
Nous savons que vos valeurs sont une, donc si vous êtes ici parmi les deux, le meilleur est celui-ci. Une fois que

00:58.830 --> 01:02.010
vous arrivez à partir d'ici, celui-ci est meilleur, celui-ci est meilleur.

01:02.010 --> 01:02.750
Celui-ci est meilleur.

01:02.760 --> 01:04.740
Ou réellement à partir d'ici vous avez deux options à droite.

01:04.770 --> 01:11.130
Donc, il était un peu comme une cravate, alors choisissez-en un au hasard, cela importe peu car, dans les deux cas, la

01:11.130 --> 01:16.110
valeur est la même et même plus, même si vous regardez à travers, le même nombre d'étapes sera

01:16.110 --> 01:18.390
identique étapes pour arriver à la fin.

01:18.690 --> 01:22.520
De là, vous avez trois options, mais celle-ci est la meilleure valeur à partir de là.

01:22.530 --> 01:24.360
Celui-ci est une meilleure valeur à partir d'ici.

01:24.360 --> 01:29.380
Évidemment, c'était un meilleur rapport qualité-prix, car vous savez que vous obtenez tout de suite moins une récompense.

01:29.590 --> 01:35.250
Et à partir de là, vous en avez comme trois, mais celui-ci est le meilleur de la meilleure valeur de l'État.

01:35.400 --> 01:41.190
Et donc donc si nous les remplaçons par des flèches, il est logique que c’est la façon dont l’agent irait s’il joue ici

01:41.200 --> 01:44.570
ou résout pour une raison quelconque, il se retrouve dans cette case.

01:44.580 --> 01:46.070
Il sait comment sortir d'ici.

01:46.280 --> 01:48.980
Les étoiles et cette place savent comment s'y rendre et ainsi de suite.

01:48.980 --> 01:51.440
C'est donc ce qu'est un plan.

01:51.440 --> 01:56.850
Et ne confondez pas plan avec politique, car nous allons parler de politiques pour

01:56.850 --> 02:01.660
l’Iran, mais elles ont une petite astuce car l’environnement sera un peu

02:01.670 --> 02:02.380
différent.

02:02.420 --> 02:07.560
Cela va être stochastique et c'est ce dont nous allons parler dans le prochain tutoriel.

02:07.910 --> 02:10.000
Alors Conway à toi pour le prochain.

02:10.020 --> 02:12.060
Et jusque-là profiter.
