WEBVTT

00:00.710 --> 00:02.430
Salut à tous et bienvenue.

00:02.450 --> 00:04.970
Dans cette conférence, nous allons configurer notre environnement.

00:05.270 --> 00:10.820
Et je veux présenter cet aperçu de plus haut niveau pour ceux qui veulent essayer de le résoudre par

00:10.820 --> 00:11.180
eux-mêmes.

00:11.480 --> 00:14.120
Et cela peut sembler familier dans la dernière conférence que vous avez vue.

00:14.330 --> 00:15.740
Donc, si vous l'avez lu, toutes mes excuses.

00:15.740 --> 00:17.270
Nous allons simplement le parcourir très rapidement.

00:17.900 --> 00:18.740
Tout d'abord.

00:19.160 --> 00:24.230
Dans ce projet, nous visons vraiment à le garder aussi simple que possible dans le sens où nous n'avons pas besoin

00:24.230 --> 00:25.400
d'importer trop de bibliothèques.

00:25.400 --> 00:27.890
Nous allons simplement utiliser NumPy pour cela.

00:27.890 --> 00:33.050
Nous avons juste besoin d'importer NumPy en tant que et P, généralement la référence commune pour numpy.

00:33.350 --> 00:37.250
Et nous voulons également configurer notre environnement, comme vous le verrez ici.

00:37.520 --> 00:40.430
Et nous allons juste revenir en arrière très rapidement comme un aperçu.

00:40.580 --> 00:46.190
La première étape de notre apprentissage Q est que nous voulions trouver un environnement dans lequel le facteur doit naviguer.

00:46.190 --> 00:49.910
Nous avons besoin que cet environnement soit configuré afin que nous puissions réellement itérer et le parcourir.

00:50.570 --> 00:55.340
Dans cette conférence, l'environnement va se composer d'états, d'actions et de récompenses.

00:55.700 --> 01:01.100
Les états et les actions sont des entrées pour l'agent d'apprentissage Q, tandis que les actions possibles sont les

01:01.100 --> 01:06.410
agents, les sorties sont des états auxquels nous pouvons penser et considérer cette image comme notre représentation.

01:06.710 --> 01:11.360
Les états de notre environnement sont tous les emplacements possibles dans la ville que nous pouvons appeler cet exemple de

01:11.360 --> 01:11.630
ville.

01:11.960 --> 01:17.810
Certains de ces emplacements sont les limites de la ville qui seront nos carrés noirs, tandis que d'autres emplacements sont des îles

01:17.810 --> 01:21.050
que le facteur peut utiliser pour se déplacer dans la ville.

01:21.050 --> 01:22.310
Ce seront les carrés blancs.

01:22.820 --> 01:26.750
Le carré vert indique la zone d'emballage et d'expédition de l'article.

01:27.140 --> 01:31.310
Les carrés noirs et verts sont ce que nous allons appeler les états terminaux.

01:31.640 --> 01:35.990
Donc, globalement, notre objectif ou celui de notre agent, nous voulons utiliser le chemin le plus court.

01:35.990 --> 01:41.810
Nous voulons que notre agent connaisse le chemin le plus court entre la zone d'emballage des articles, le pot, le vert et tous les

01:41.810 --> 01:45.050
autres endroits de la ville où le facteur est autorisé à se déplacer.

01:49.330 --> 01:55.480
Dans l'image ci-dessus, nous avons 121 états ou emplacements possibles dans la ville.

01:55.930 --> 01:58.450
Ces états sont disposés dans une grille 11 par 11.

01:58.750 --> 02:02.140
Chaque emplacement peut être identifié par son index de ligne et de colonne.

02:02.560 --> 02:04.450
Alors, quelle serait notre première étape ?

02:04.450 --> 02:07.660
Et cela veut vraiment que vous commenciez à réfléchir à la façon dont vous pouvez le définir.

02:08.470 --> 02:10.340
Nous devons définir notre environnement.

02:10.360 --> 02:13.120
C'est un bon exemple de notre image et de la façon dont nous allons l'aborder.

02:13.120 --> 02:14.440
Alors, comment modéliseriez-vous cela ?

02:14.590 --> 02:20.890
N'oubliez pas que nous utilisons NumPy, nous devons donc définir ces limites et nous pouvons définir un tableau numpy

02:20.890 --> 02:27.010
3D pour contenir nos valeurs Q actuelles pour chaque paire d'état et d'action lorsque nous voyons notre représentation.

02:27.520 --> 02:32.380
Et pour ceux d'entre vous qui ne le connaissent pas, ou peut-être que c'est nouveau ou

02:32.380 --> 02:38.110
que vous voulez simplement vous rafraîchir la mémoire, le manuel Air Z de ce cours est extrêmement utile, fortement recommandé.

02:38.380 --> 02:39.820
Alors qu'est-ce qu'on a à faire ici ?

02:40.180 --> 02:41.140
On peut en fait.

02:41.440 --> 02:45.040
Permettez-moi de développer cela très rapidement pour nous afin que nous puissions le voir un peu plus facilement.

02:45.070 --> 02:46.420
Permettez-moi d'ajouter quelques cellules de code.

02:46.720 --> 02:48.610
Nous allons définir notre empire 3D.

02:49.480 --> 02:50.770
Comment procéderiez-vous ?

02:51.280 --> 02:52.900
Nous avons donc quelques options.

02:52.900 --> 02:57.070
Mais l'option la plus directe et la plus simple, appelons-la lignes d'environnement.

02:59.790 --> 03:01.450
Rose et mettons-le à 11.

03:01.470 --> 03:02.590
C'est un 11 par 11.

03:02.680 --> 03:06.660
Ensuite, nous pouvons également faire de l'environnement, des colonnes de soulignement.

03:08.860 --> 03:10.600
Et nous pourrions également le régler sur 11.

03:11.170 --> 03:17.920
Enfin, nous pouvons définir nos valeurs Q car nous devons ajouter notre numpy avec les lignes d'environnement, les colonnes

03:17.920 --> 03:18.370
d'environnement.

03:19.910 --> 03:30.260
Et nous pouvons définir cela comme des valeurs Q égales aux zéros NumPy et nous devons utiliser nos lignes d'environnement, colonnes

03:30.980 --> 03:31.730
d'environnement.

03:32.790 --> 03:40.050
Et nous avons notre tableau numpy 3D, notre représentation d'environnement 3D définie avec notre environnement.

03:41.040 --> 03:41.520
Génial.

03:42.330 --> 03:46.440
Maintenant et nous allons le laisser ici, mais je veux que vous commenciez à réfléchir à la façon de résoudre ce

03:46.440 --> 03:48.120
problème puisque vous avez déjà configuré votre environnement.

03:48.450 --> 03:52.620
La prochaine chose que vous voudrez faire comme indice est de configurer vos actions.

03:52.830 --> 03:55.470
Votre agent doit pouvoir se déplacer dans l'environnement.

03:55.710 --> 03:57.150
Alors, comment représenteriez-vous cela?

03:57.360 --> 03:58.830
Comment écririez-vous cela?

03:59.070 --> 04:01.890
Pour ce problème, laissons-le ici.

04:01.890 --> 04:04.650
Dans la prochaine vidéo, nous allons revoir ces actions.

04:05.100 --> 04:05.550
Génial.

04:05.940 --> 04:06.960
Je vous verrai dans la prochaine vidéo.