WEBVTT

00:01.340 --> 00:02.810
Salut et bienvenue.

00:03.200 --> 00:10.010
Dans la dernière conférence, vous avez vu comment nous utilisons nos fonctions d'assistance pour vraiment mettre en place le cœur de nos fonctionnalités afin

00:10.010 --> 00:11.300
de former nos modèles.

00:11.300 --> 00:16.370
Nous avions donc notre état terminal, notre emplacement de départ, notre prochaine action, notre prochain emplacement et le

00:16.370 --> 00:21.230
chemin le plus court définissant vraiment la majorité du fonctionnement de notre agent ou de notre environnement.

00:21.560 --> 00:25.460
La dernière chose que nous devons faire est d'utiliser notre formation afin d'utiliser notre formation.

00:25.460 --> 00:31.280
C'est assez simple dans le sens de ce que nous devons inclure, mais la façon dont nous procédons est une autre

00:31.280 --> 00:31.670
histoire.

00:32.240 --> 00:36.800
Cela étant dit, également, si vous utilisez une approche différente ou si vous souhaitez personnaliser cela

00:36.800 --> 00:38.300
et expérimenter, c'est fortement recommandé.

00:38.600 --> 00:42.410
En plus de cela, si vous utilisez une approche différente et que vous souhaitez en discuter, n'hésitez pas à

00:42.410 --> 00:43.520
partager les questions et réponses.

00:43.730 --> 00:45.410
Plus qu'heureux d'en discuter avec vous.

00:45.410 --> 00:50.480
C'est une excellente idée car il y a tellement de façons de résoudre ce problème et vous pourriez trouver

00:50.480 --> 00:52.190
un moyen bien meilleur, plus avantageux.

00:52.190 --> 00:55.520
Nous pourrions à nouveau examiner les avantages et les inconvénients, plus qu'heureux d'en discuter.

00:55.670 --> 00:56.030
Très bien.

00:56.090 --> 00:57.260
Alors que devons-nous faire ?

00:57.260 --> 00:58.880
Nous devons lancer notre formation.

00:59.210 --> 00:59.990
Pour notre formation.

00:59.990 --> 01:01.490
Nous voulons utiliser l'Epsilon.

01:01.490 --> 01:08.930
Donc, fondamentalement, le pourcentage que nous allons prendre pour la meilleure action pour R au lieu d'une action aléatoire.

01:08.930 --> 01:15.650
Alors définissons notre epsilon et mettons-le à 0. 9 et nous allons faire quelque chose de similaire avec nos valeurs

01:15.650 --> 01:17.900
pour notre facteur d'actualisation et notre taux d'apprentissage.

01:18.140 --> 01:23.030
Faisons donc un facteur d'actualisation égal à 0. 9.

01:23.690 --> 01:29.480
Prenons également notre taux d'apprentissage et fixons-le à 0. 9.

01:29.900 --> 01:33.620
Ce sera le taux que notre agent va ou devrait apprendre.

01:33.920 --> 01:39.140
Et nous voulons également prendre le nombre d'épisodes de formation, appelons-le, et d'épisodes de formation.

01:39.290 --> 01:41.300
Nous avons donc un certain nombre d'épisodes de formation.

01:41.300 --> 01:42.500
Mettons-le à mille.

01:42.500 --> 01:46.400
Combien de fois va-t-il s'entraîner ou sur combien d'épisodes cela va-t-il s'entraîner ?

01:48.050 --> 01:48.500
Génial.

01:49.130 --> 01:52.870
Maintenant, essentiellement, ce que nous voulons faire, c'est parcourir chaque épisode.

01:52.880 --> 02:00.060
Nous voulons prendre la plage de notre nombre d'épisodes de formation et définir notre epsilon.

02:00.080 --> 02:01.760
Nous voulons trouver notre différence temporelle.

02:01.760 --> 02:04.610
Pour définir cela, nous devons examiner certaines valeurs Q précédentes.

02:04.610 --> 02:08.210
Nous devons calculer notre position de départ dans notre index d'action.

02:08.660 --> 02:10.520
Alors, commençons.

02:11.060 --> 02:12.440
Prenons une grosse boucle for.

02:12.450 --> 02:14.450
Nous avons donc nos quatre épisodes.

02:16.810 --> 02:19.780
Dans la gamme de notre nombre d'épisodes de formation.

02:22.060 --> 02:22.540
Nous y voilà.

02:22.690 --> 02:31.360
Sauf erreur de syntaxe de ma part, nous voulons prendre l'index de ligne et l'index de colonne de notre grille pour

02:31.360 --> 02:33.700
notre Ms. indice de colonne.

02:36.080 --> 02:41.240
Et dit un emplacement de départ cible, nous avons besoin d'un emplacement de départ.

02:41.240 --> 02:44.210
Alors passons cette mauvaise heure à chaque épisode.

02:45.100 --> 02:49.300
Nous pouvons maintenant définir l'état de notre terminal while.

02:51.180 --> 02:51.690
Pas.

02:52.850 --> 02:56.110
Est l'état terminal.

02:56.360 --> 03:01.280
Nous voulons regarder l'index de ligne et l'index de colonne.

03:02.330 --> 03:02.720
D'accord.

03:03.110 --> 03:07.160
Ensuite, définissons notre index d'action pour notre prochaine action.

03:07.430 --> 03:08.990
Nous avons donc besoin de notre prochaine action.

03:08.990 --> 03:16.550
Au fur et à mesure que cet agent parcourt les moyens de notre index d'action, nous pouvons utiliser notre action suivante.

03:17.770 --> 03:24.730
Et nous pouvons utiliser notre index de colonne d'index de ligne et appelons notre epsilon.

03:24.730 --> 03:29.620
Nous voulons donc avoir ceci au lieu de notre action aléatoire, utilisons l'index de colonne.

03:31.930 --> 03:33.610
Et nous avons besoin d'Epsilon.

03:34.270 --> 03:34.650
Génial.

03:35.320 --> 03:36.610
Si je pouvais épeler correctement.

03:36.610 --> 03:38.950
Ici, nous voulons Epsilon.

03:39.790 --> 03:41.380
Très bien, permettez-moi de supprimer ceci.

03:41.680 --> 03:42.070
D'accord.

03:42.460 --> 03:46.930
Laissez-moi saisir le reste du code et nous allons le parcourir pour que vous n'ayez pas à me regarder taper

03:47.350 --> 03:47.980
chaque ligne.

03:48.400 --> 03:51.440
Mais gardez cela à l'esprit comment nous voulons aborder cela.

03:51.460 --> 03:54.940
En compensant l'ancienne ligne, nous aurions besoin d'un ancien index de ligne.

03:55.180 --> 04:00.130
Nous voudrions également avoir les récompenses pour nos colonnes et nos lignes.

04:00.370 --> 04:05.140
Nous devons examiner les valeurs de file d'attente et les anciennes valeurs de file d'attente, et nous devons calculer notre

04:05.140 --> 04:05.620
différence temporelle.

04:06.190 --> 04:06.640
D'accord.

04:06.880 --> 04:09.820
Vous voyez donc le changement de code ou la mise à jour du code.

04:10.030 --> 04:16.150
Nous prenons notre ancien index de ligne et notre ancien index de colonne pour examiner notre index de ligne et notre index de colonne.

04:16.480 --> 04:20.020
Notre index de colonne d'index de ligne est égal à notre prochain emplacement.

04:20.020 --> 04:24.070
Et notre prochain emplacement aurait besoin de l'index de ligne, de la colonne, de l'index et de l'action.

04:25.280 --> 04:27.110
Enfin, nous envisageons une récompense.

04:27.710 --> 04:34.580
Nos anciennes valeurs Q seraient des valeurs Q avec l'ancien index de ligne, l'ancien index de colonne, et encore une fois, faisant

04:34.580 --> 04:40.640
référence à notre index d'action et au calcul de notre différence temporelle, qui est notre récompense, plus le facteur

04:40.640 --> 04:47.630
de remise multiplié par les valeurs Q avec la ligne index et index de colonne moins l'ancienne valeur Q de la valeur Q

04:47.630 --> 04:48.140
précédente.

04:49.980 --> 04:55.980
Presque terminé là où nous avons besoin de notre nouvelle valeur Q, qui est notre ancienne valeur de repère, plus le

04:55.980 --> 05:03.330
taux d'apprentissage, les temps, la différence temporelle et nos valeurs de repère avec l'ancien index de ligne dans notre ancien index de colonne égal à la nouvelle

05:03.360 --> 05:04.320
valeur de repère.

05:05.770 --> 05:09.850
Si vous voulez en discuter davantage, encore une fois, je vous recommande vivement le Q&amp;A.

05:09.850 --> 05:11.080
N'hésitez pas à imprimer.

05:11.320 --> 05:13.630
Essayez d'expérimenter avec toutes les variables utilisées ici.

05:13.630 --> 05:18.430
Si vous voulez voir leur forme, voir comment ils peuvent être utilisés, à quoi il fait référence, je le recommande vivement

05:18.430 --> 05:20.380
et je serai plus qu'heureux d'en discuter davantage.

05:21.130 --> 05:24.430
Une dernière chose que nous pouvons faire, nous avons donc une petite notification.

05:24.700 --> 05:29.950
Ajoutons une déclaration d'impression afin que nous sachions quand la formation est terminée pour nos mille lignes.

05:29.980 --> 05:30.580
Très bien.

05:30.970 --> 05:34.570
S'il n'y a pas d'erreurs de syntaxe de ma part, nous devrions être prêts à partir.

05:34.600 --> 05:36.730
Le carnet de colonnes est initialisé.

05:36.730 --> 05:38.610
J'ai tout relancé, alors laissez-moi lancer ça.

05:38.620 --> 05:41.410
Cela devrait être très rapide puisque nous n'utilisons que numpy.

05:41.620 --> 05:43.750
C'est un modèle très optimisé dans un sens.

05:44.050 --> 05:46.840
Laissez-moi cliquer dessus et nous chercherons ensuite le chemin le plus court.

05:48.310 --> 05:48.750
Très bien.

05:48.760 --> 05:50.020
Nous avons terminé notre formation.

05:50.590 --> 05:54.760
Imprimons également le chemin le plus court pour certaines options de démarrage.

05:54.760 --> 05:59.650
Nous commençons donc une ligne trois, colonne neuf avec l'option de chemin le plus court avec notre chemin le plus court.

06:00.130 --> 06:06.670
Nous voulons examiner les rangées cinq et zéro et commencer par la rangée neuf et la colonne numéro cinq.

06:07.120 --> 06:08.080
Imprimons-les.

06:08.890 --> 06:09.370
Génial.

06:09.370 --> 06:12.280
Nous avons le chemin le plus court, mais nous n'avons pas fini.

06:12.460 --> 06:13.390
Nous y sommes presque.

06:13.930 --> 06:20.650
Nous pouvons voir notre facteur obtenir automatiquement le chemin le plus court entre un lieu légal que nous pouvons envisager de notre ville

06:20.650 --> 06:22.780
à la zone d'emballage de l'article.

06:22.790 --> 06:27.430
Mais qu'en serait-il de l'inverse du scénario opposé, en se référant essentiellement à, vous savez, notre facteur peut-il

06:27.430 --> 06:31.090
livrer un article de n'importe où dans la ville à la zone d'emballage ?

06:31.390 --> 06:37.510
Mais après l'article, il devrait alors aller de cette zone, de la zone d'emballage à un autre endroit de

06:37.510 --> 06:40.180
la ville, car il devrait ramasser l'article suivant.

06:40.660 --> 06:43.780
Alors, que pouvons-nous faire pour résoudre ce problème ?

06:43.780 --> 06:45.220
Et c'est en fait assez simple.

06:45.400 --> 06:47.890
Vous pourriez réviser l'ordre du chemin le plus court.

06:48.730 --> 06:51.940
Essayez d'y penser une seconde et ce serait alors la solution.

06:53.320 --> 06:55.110
Nous pouvons utiliser le chemin le plus court.

06:55.120 --> 07:00.550
Prenons donc écrit cinq et la colonne deux, puis tout ce que vous auriez à faire est d'utiliser l'option inverse

07:00.550 --> 07:01.150
avec Python.

07:01.270 --> 07:04.270
Nous utilisons path dot reverse et nous pourrions imprimer le chemin.

07:04.570 --> 07:06.040
Nous envisageons donc cinq et deux.

07:07.050 --> 07:07.800
Et voilà.

07:07.800 --> 07:09.220
Nous avons le chemin le plus court.

07:09.420 --> 07:14.250
Et c'est vraiment utile si vous voulez saisir l'image dans la cellule et la faire descendre pour comparer et regarder

07:14.250 --> 07:14.910
ces chemins.

07:14.910 --> 07:20.310
Mais vous pouvez réellement voir le chemin si vous prenez le relevé imprimé, regardez la colonne de

07:20.310 --> 07:23.250
la commande et voyez comment le vendeur se déplace.

07:23.250 --> 07:25.560
Tellement génial le travail que vous utilisez.

07:25.770 --> 07:26.610
Q Apprentissage.

07:26.880 --> 07:32.550
Ce que nous avons appris de ce cours a un petit bonus et un scénario amusant dans la section pour résoudre

07:32.550 --> 07:35.070
ce genre de problème essentiellement de voyageur de commerce.

07:35.070 --> 07:40.770
Nous regardons le facteur pour livrer des colis et des articles dans la ville pour trouver les options les plus courtes et les chemins

07:40.770 --> 07:41.640
les plus courts.

07:41.670 --> 07:47.400
Je vous recommande fortement de personnaliser, de tester d'autres options, de modifier les hyper paramètres, et si vous

07:47.400 --> 07:53.670
découvrez quelque chose de mieux, si vous découvrez des paramètres optimisés ou meilleurs à utiliser, n'hésitez pas à les partager

07:53.670 --> 07:54.990
dans le Q&amp;A.

07:55.620 --> 07:56.280
Étonnante.

07:56.300 --> 07:58.110
J'espère que vous avez vraiment apprécié cela.

07:58.320 --> 08:01.350
Veuillez personnaliser, expérimenter et continuer à apprendre.

08:01.380 --> 08:02.970
C'est tellement amusant de travailler avec vous.

08:02.970 --> 08:04.820
Apprendre et apprécier I.
