WEBVTT

00:00.300 --> 00:06.120
Bonjour et bienvenue dans la partie super excitante de notre création, la partie où nous la rendons intelligente.

00:06.270 --> 00:08.540
C'est donc exactement ce qui se passe lors de l'entraînement de l'air.

00:08.590 --> 00:13.200
Je formerai son intelligence pour atteindre l'objectif que nous voulions accomplir.

00:13.350 --> 00:18.870
Et pour ce faire, nous allons essentiellement former le réseau de neurones à produire les bonnes prédictions.

00:19.110 --> 00:24.360
Et puis tout est déjà prêt car ces signaux de sortie du cerveau ont déjà la bonne

00:24.360 --> 00:27.300
transmission au corps pour jouer les actions finales.

00:27.660 --> 00:32.130
Donc, fondamentalement, ce que nous sommes sur le point de faire est quelque chose que nous avons déjà fait auparavant.

00:32.280 --> 00:37.680
Nous allons simplement prendre des lots aléatoires de la mémoire, obtenir notre entrée à partir de ces échantillons, obtenir

00:37.680 --> 00:42.930
la sortie, obtenir la cible, obtenir les prédictions, calculer la dernière erreur entre les prédictions et la cible,

00:42.930 --> 00:48.360
puis effectuer une propagation en arrière était pour obtenir la descente du gradient pour mettre à jour les poids

00:48.360 --> 00:51.430
en fonction de leur contribution à cette dernière erreur.

00:51.900 --> 00:53.040
Alors faisons tout ça.

00:53.040 --> 00:57.660
Vous allez voir comment ça va être si facile car nous avons déjà tous les outils pour mettre en œuvre

00:57.660 --> 00:58.020
cela.

00:58.200 --> 01:04.230
Non seulement nous avons le chemin vers des outils comme l'optimiseur et les fonctions de perte, mais nous avons également toutes

01:04.440 --> 01:09.600
les classes que nous avons créées auparavant, comme notre cerveau, bien sûr, que nous allons utiliser pour obtenir

01:09.600 --> 01:10.290
les prédictions.

01:10.620 --> 01:17.970
Ensuite notre expérience, rejouer la trace d'éligibilité de la mise en œuvre et tous ces outils combinés au

01:17.970 --> 01:23.790
pilote, quels outils rendront la formation super performante et donc finalement nous obtiendrons un

01:23.790 --> 01:26.250
A. JE. Alors faisons en sorte que cette formation se réalise.

01:26.400 --> 01:28.110
Rendons nos yeux intelligents.

01:28.290 --> 01:33.380
Et la première chose que nous allons faire maintenant est d'obtenir la dernière fonction que nous utiliserons pendant la

01:33.390 --> 01:36.200
formation lors du calcul de l'erreur et de l'optimiser.

01:36.540 --> 01:37.680
C'est la première chose que nous ferons.

01:37.980 --> 01:40.590
Créons donc une variable pour la dernière fonction.

01:40.590 --> 01:42.150
Nous allons appeler cela la perte.

01:42.810 --> 01:50.340
Et ce sera égal à la fonction de perte MSE du module d'extrémité.

01:50.850 --> 01:52.470
Et puis ce Mercilus.

01:52.740 --> 01:56.940
C'est la dernière fonction que nous utiliserons car nos prédictions sont essentiellement des valeurs.

01:56.940 --> 01:59.940
Vous savez, nous prédisons les valeurs fondamentales des différentes actions.

01:59.940 --> 02:05.970
Et par conséquent, puisque ce sont des nombres réels, eh bien, nous faisons en quelque sorte un réseau de neurones pour la régression

02:05.970 --> 02:08.910
et donc la fonction de perte est le moyen d'erreur.

02:09.120 --> 02:11.880
C'est la fonction de perte que nous utilisons en général pour la régression.

02:12.450 --> 02:12.960
D'accord.

02:13.080 --> 02:18.180
Alors maintenant que nous avons notre dernière fonction, optimisons notre optimiseur ici.

02:18.180 --> 02:21.240
C'est la variable que nous créons pour l'optimiseur.

02:21.270 --> 02:23.940
Et nous allons prendre comme d'habitude.

02:23.940 --> 02:30.750
Quant à la voiture autonome, l'optimiseur d'atome, c'est un optimiseur très puissant qui fera des merveilles pour

02:30.930 --> 02:31.710
l'entraînement.

02:32.130 --> 02:35.820
Alors, amenons celui-ci à cet atome.

02:36.810 --> 02:42.720
Et rappelez-vous, c'est exactement ce que la voiture autonome dont nous avons à introduire deux arguments essentiels.

02:43.080 --> 02:49.200
Le premier est celui qui fera le lien entre l'optimiseur et les paramètres de notre réseau de

02:49.200 --> 02:52.650
neurones, c'est-à-dire les poids des neurones de notre cerveau.

02:53.040 --> 02:56.640
Et pour ce faire, nous prenons notre cerveau, que nous avons appelé CNN.

02:57.030 --> 02:59.040
C'est l'objet que nous avons créé pour notre cerveau.

02:59.280 --> 03:05.860
Et donc CNN qui se souvient des paramètres que nous allons et quelques parenthèses.

03:06.270 --> 03:11.970
Cela fait donc le lien entre l'optimiseur et les poids des neurones dans le

03:11.970 --> 03:18.630
cerveau de notre A. JE. Et puis le deuxième argument est un taux d'apprentissage, et c'est donné par l. R.

03:18.990 --> 03:24.510
Et donc ici, nous devons prendre un taux d'apprentissage plus petit car nous ne voulons pas converger trop vite et nous voulons avoir un

03:24.510 --> 03:29.370
peu d'exploration et donc un bon moyen d'apprentissage que nous pouvons dire ici est un petit qui est de quatre points

03:29.370 --> 03:33.150
ou un qui est égal à 0. 01 pour cent.

03:33.390 --> 03:36.270
Je pense que c'est la même chose que nous avons utilisée pour la voiture autonome.

03:37.320 --> 03:43.410
Très bien, nous avons maintenant un optimiseur de fonction perdu, nous sommes donc presque prêts à démarrer la boucle complète.

03:43.470 --> 03:45.890
Eh bien, en fait, nous allons commencer la boucle complète dès maintenant.

03:46.140 --> 03:52.100
Mais juste avant de le faire, nous allons décider de la taille du nombre d'époques dans

03:52.100 --> 03:58.170
lesquelles nous allons devenir et donc créer une nouvelle variable ici qui répondra à ce nombre d'époques.

03:59.320 --> 04:02.140
Et définissons-le égal à cent.

04:02.530 --> 04:08.350
Ce sera assez bien pour entraîner l'air et je parie même que l'air parviendra à atteindre le meilleur

04:08.500 --> 04:11.140
chemin avant cent comme vingt ou trente.

04:11.500 --> 04:12.000
Voyons voir.

04:12.010 --> 04:13.750
Mais pour l'instant, prenons cent.

04:13.990 --> 04:15.940
Et si nous en avons besoin, nous l'augmenterons.

04:16.090 --> 04:17.710
Mais je ne pense pas que ce sera nécessaire.

04:18.370 --> 04:22.660
OK, maintenant que nous avons notre nombre d'aéroports, nous pouvons commencer à faire la boucle complète, vous

04:22.840 --> 04:26.680
savez, cette boucle principale complète de la formation lorsque nous nous entraînons au-dessus des aéroports.

04:27.010 --> 04:31.530
Alors pour alors tout le volleyball va être au travail.

04:31.540 --> 04:34.240
C'est ce que nous choisissons pour revenir.

04:34.990 --> 04:42.310
Maintenant, bien sûr, nous allons utiliser la fonction range pour dire que nous voulons passer du

04:42.670 --> 04:44.500
premier au nombre d'env.

04:47.120 --> 04:52.730
Plus un, car, rappelez-vous, la limite supérieure d'une plage n'est pas incluse, et donc, si vous

04:52.730 --> 04:58.730
voulez aller jusqu'à 100, eh bien, nous devons spécifier et être un plus un pour aller jusqu'à 100.

04:59.390 --> 04:59.840
D'accord.

04:59.840 --> 05:00.800
Alors, Colin.

05:00.980 --> 05:02.800
Et maintenant, entrons dans la boucle.

05:03.620 --> 05:03.980
D'accord.

05:03.980 --> 05:08.300
Donc, la première chose que nous allons faire est de faire 200 séries de dix étapes.

05:08.660 --> 05:13.630
Ainsi, chaque époque sera de 200 pistes, l'une après l'autre de 10 étapes.

05:13.940 --> 05:19.550
Et pour ce faire, nous avons cette fonction one steps de notre classe d'expérience et donc d'utiliser cette fonction,

05:19.550 --> 05:24.770
qui est en fait une méthode car nous allons l'obtenir à partir de notre objet mémoire,

05:24.770 --> 05:30.080
qui est un objet de la classe de remplacement pour générer ces deux exécutions de dix étapes.

05:30.320 --> 05:36.020
Eh bien, nous devons prendre notre objet mémoire que je vous rappelle que nous avons créé ici même.

05:36.170 --> 05:40.400
La mémoire est un objectif pour rejouer la classe de mémoire avec Insteps.

05:40.400 --> 05:43.300
C'est 10 étapes et une capacité de dix mille.

05:43.910 --> 05:52.370
Nous avons créé cet objet et à partir de cet objet nous prenons bien, cette fonction Rundstedt exécute des étapes et nous

05:52.370 --> 06:00.430
spécifions deux cents tours successifs de dix étapes de sorte que nous allons juste à chacun exécuter essentiellement 200 étapes.

06:00.860 --> 06:08.060
Et maintenant que nous avons ces 200 étapes en cours d'exécution à chaque apoc, eh bien, il est temps d'échantillonner certains lots

06:08.060 --> 06:10.630
de ces analyses et d'échantillonner ces lots.

06:10.640 --> 06:16.700
Nous avons une autre fonction de notre mémoire, qui est le lot d'échantillons, et qui générera exactement des lots

06:16.700 --> 06:18.910
à partir de ces 200 analyses.

06:19.400 --> 06:26.720
Mais rappelez-vous, ces lots sont cette fois des lots d'une série de transitions qui consistent en une série de dix étapes par opposition

06:27.020 --> 06:31.630
à avant où les lots n'étaient que quelques lots de transitions uniques ici.

06:31.640 --> 06:37.040
Cette fois, ce seront des lots de dix étapes, dix transitions, et il est donc maintenant

06:37.040 --> 06:41.870
temps de récupérer ces lots aléatoires de notre mémoire et de les obtenir.

06:41.870 --> 06:48.320
Nous avons utilisé la fonction de lot simple à laquelle nous devons appliquer la taille du lot et pour la

06:48.320 --> 06:53.480
taille du lot où nous pouvons prendre trente-deux ou même soixante-quatre ou même cent vingt-huit.

06:54.080 --> 06:57.830
N'oubliez pas, pour cette taille, c'est une pratique courante d'utiliser trente-deux.

06:58.070 --> 07:03.470
C'est ce que vous verrez en général dans les architectures des réseaux de neurones lors de l'apprentissage par lots.

07:03.740 --> 07:05.470
Mais cette fois, c'est assez différent.

07:05.660 --> 07:11.530
Nous, nous échantillonnons juste des lots de 10 étapes, il est donc préférable de prendre des lots de plus grandes tailles.

07:11.690 --> 07:14.710
C'est donc là que nous pouvons prendre soixante-quatre, cent vingt-huit.

07:15.170 --> 07:16.940
Nous allons donc en prendre cent vingt-huit.

07:17.150 --> 07:25.130
Et en fait, cela va être à l'intérieur de la boucle car nous voulons prendre plusieurs lots et nous les prenons dans ce qui

07:25.130 --> 07:28.870
est retourné par cette simple fonction de traitement par lots.

07:29.420 --> 07:36.020
Donc, cette boucle complète pour un lot dans un lot d'échantillons en mémoire, cent vingt huit signifie que tous

07:36.020 --> 07:41.720
les cent vingt-huit pas, eh bien notre mémoire nous donnera un lot de taille, cent vingt-huit,

07:41.720 --> 07:47.210
qui contiendra en fait le dernier cent vingt-huit étapes que nous venons de parcourir.

07:47.960 --> 07:53.060
Nous recevons juste des lots de six, cent vingt-huit et l'apprentissage va se faire sur

07:53.210 --> 07:54.080
ces lots.

07:54.320 --> 07:58.910
Et en plus de ces lots, nous aurons des plateaux d'éligibilité en cours d'exécution, vous savez, pour apprendre toutes les

07:58.910 --> 07:59.480
10 étapes.

08:00.230 --> 08:00.620
D'accord.

08:00.620 --> 08:06.950
Alors maintenant, dans cette boucle, qui se produit encore à une époque, mais maintenant cette fois, nous sommes dans un lot

08:06.950 --> 08:07.360
spécifique.

08:07.790 --> 08:14.060
Et donc maintenant, la première chose que nous allons faire est de recueillir nos contributions et notre objectif séparément.

08:14.570 --> 08:16.610
Et ça, comme je vous l'ai dit, c'est très facile.

08:16.610 --> 08:21.290
Nous pouvons le faire avec l'un des outils que nous avons mis en place, qui est le suivi de l'éligibilité.

08:21.620 --> 08:27.950
Comme vous pouvez le voir ici, cette fonction de trace d'éligibilité prend comme entrées et maintenant nous avons le

08:28.310 --> 08:32.060
lot et retourne en sortie, les entrées et les cibles.

08:32.420 --> 08:37.490
Donc maintenant, ce que nous pouvons simplement faire, c'est créer deux nouvelles variables, qui seront les entrées et

08:37.490 --> 08:38.300
la cible.

08:38.690 --> 08:48.080
Et si ces entrées arrivent à des cibles, cela équivaut exactement à ce que cette fonction de suivi d'éligibilité s'applique à un

08:48.080 --> 08:48.610
lot.

08:49.010 --> 08:51.950
Nous allons donc appliquer cette fonction au lot de notre boucle.

08:52.280 --> 08:55.160
Et donc, ce que nous ferons, c'est simplement l'admissibilité.

08:56.460 --> 09:00.110
Trace appliquée au lot de notre espoir.

09:00.660 --> 09:07.110
D'accord, cela nous permet d'obtenir les intrants et les objectifs, mais dans les vagues, il y a toujours quelque chose de plus

09:07.110 --> 09:07.850
à faire.

09:08.100 --> 09:13.530
Et bien sûr, il s'agit de convertir l'entrée du réseau neuronal et également la cible en certaines variables

09:13.530 --> 09:14.030
tahj.

09:14.340 --> 09:16.170
Mais il n'y a rien de nouveau non plus.

09:16.200 --> 09:17.310
Nous savons comment le faire.

09:17.490 --> 09:18.450
Nous pouvons le faire de cette façon.

09:18.460 --> 09:24.930
Nous prenons nos apports, puis nos objectifs et bien, ils seront égaux au verbal.

09:25.820 --> 09:26.510
Contributions.

09:27.750 --> 09:30.210
C'est pour l'entrée et le verbal.

09:31.150 --> 09:33.580
Cibles, et c'est pour les cibles.

09:34.090 --> 09:42.250
Très bien, donc les entrées du cerveau sont converties en certaines variables tahj et les cibles sont également converties en

09:42.250 --> 09:43.900
certaines variables tahj.

09:44.320 --> 09:48.320
Alors maintenant, nous pouvons obtenir les entrées dans le réseau neuronal.

09:48.640 --> 09:50.530
Et pourquoi devons-nous faire cela?

09:50.530 --> 09:55.270
Parce que la prochaine étape consiste à obtenir les prédictions, nous avons les entrées que nous devons cibler.

09:55.540 --> 09:59.980
Maintenant, bien sûr, nous avons besoin de nos prédictions, car alors ce qui se passe, c'est que nous allons calculer

10:00.190 --> 10:02.120
la perte entre les prédictions et les cibles.

10:02.890 --> 10:06.350
Alors prenons ces prédictions pour les obtenir.

10:06.640 --> 10:07.930
Eh bien, encore une fois, c'est si simple.

10:07.930 --> 10:14.650
Maintenant, nous devons simplement prendre notre cerveau, qui est CNN, notre réseau neuronal convolutif, et

10:14.830 --> 10:16.730
l'appliquer à nos entrées.

10:17.320 --> 10:17.950
On y va.

10:18.320 --> 10:23.320
Les entrées vont dans le réseau neuronal et le réseau neuronal produira les prédictions.

10:24.170 --> 10:29.270
Parfait, donc maintenant nous avons les prédictions, nous avons les objectifs pour que nous puissions obtenir les lois

10:29.270 --> 10:34.640
et c'est la prochaine étape, nous allons en introduire un nouveau parce que maintenant nous allons avoir la dernière erreur,

10:34.790 --> 10:39.660
qui est différente que la dernière fonction, car nous l'utilisons comme fonction pour obtenir la dernière erreur.

10:40.100 --> 10:50.570
Donc moins d'erreur ici et que nous l'obtiendrons avec moins de fonction appliquée à nos prédictions et aux cibles que

10:50.570 --> 10:54.860
nous allons voir comment tout se passe maintenant.

10:55.070 --> 10:56.170
Tout est logique.

10:56.180 --> 11:00.590
Nous obtenons d'abord l'entrée, les cibles, puis grâce à l'entrée, nous obtenons les prédictions.

11:00.590 --> 11:03.800
Et puis grâce aux prédictions et aux cibles que nous obtenons, moins d'erreur.

11:05.070 --> 11:08.850
Alors très logique et fluide, et maintenant quelle est la prochaine étape?

11:09.150 --> 11:14.940
Eh bien, même chemin logique maintenant que nous avons le dernier, nous pouvons propager cette erreur moins en arrière dans le nouveau

11:14.940 --> 11:16.890
réseau pour mettre à jour les poids.

11:17.190 --> 11:21.540
Et nous faisons cela avec une descente de gradient stochastique et pour effectuer une descente de gradient stochastique.

11:21.540 --> 11:24.010
Nous avons besoin de notre optimiseur, mais nous l'avons déjà.

11:24.030 --> 11:26.040
Voici Adam Optimizer.

11:26.430 --> 11:29.010
Mais maintenant, à ce stade, rappelez-vous ce que nous devons faire.

11:29.370 --> 11:32.380
Nous devons l'initialiser et l'initialiser.

11:32.400 --> 11:40.620
Rappelez-vous, nous prenons notre objet optimiseur, puis nous appliquons la méthode du zéro grad.

11:41.440 --> 11:48.220
Voilà, nous n'oublions pas les parenthèses qui l'initialisent, et maintenant l'étape suivante consiste à propager la

11:48.220 --> 11:55.630
dernière erreur dans le nouveau réseau et à faire cela là où nous prenons notre dernière erreur

11:55.630 --> 11:58.950
et nous y appliquons la méthode inverse.

11:58.960 --> 12:01.800
C'est donc exactement pour appliquer la propagation vers l'arrière.

12:02.110 --> 12:06.380
Et puis enfin, maintenant que la dernière erreur est de retour, propagez-la dans le nouveau réseau.

12:06.610 --> 12:09.610
Eh bien, nous pouvons mettre à jour les poids avec la descente de gradient Cassi.

12:10.300 --> 12:16.950
Et pour ce faire, rappelez-vous, nous prenons notre optimiseur puis nous appliquons la méthode step.

12:17.500 --> 12:18.210
On y va.

12:18.400 --> 12:19.900
Les poids sont maintenant mis à jour.

12:20.200 --> 12:25.500
Comme je vous l'ai dit, non seulement nous l'avons déjà fait, mais maintenant cela semble si simple et si naturel.

12:26.200 --> 12:28.440
Alors maintenant, nous allons faire quelque chose d'amusant.

12:28.600 --> 12:31.650
Nous allons imprimer la récompense moyenne à chaque apoc.

12:31.840 --> 12:35.830
Donc, vous savez, nous pouvons suivre comment le A. JE. va, comment se déroule la formation.

12:36.190 --> 12:40.420
Nous voulons voir la récompense moyenne augmenter au fil des étapes, au fil de la boîte.

12:40.630 --> 12:44.070
Et au début, bien sûr, il y a cette phase d'exploration.

12:44.080 --> 12:49.690
Ainsi, la récompense moyenne pourrait ne pas augmenter au début, mais une fois qu'elle aura atteint

12:49.690 --> 12:56.050
la phase d'exploitation, nous verrons la récompense moyenne augmenter définitivement et elle augmentera jusqu'à un certain niveau, c'est-à-dire lorsqu'elle

12:56.290 --> 12:58.740
atteindra l'ouest aussi vite que possible.

12:59.380 --> 13:01.210
Commençons donc par l'impression.

13:02.200 --> 13:07.660
Vous savez, nous faisons cela dans un seul, donc nous devons revenir à l'impression plus bouclée

13:07.660 --> 13:12.610
et ensuite nous allons bien imprimer, d'abord environ une colonne, puis le pourcentage.

13:12.610 --> 13:18.850
S, parce que nous allons tout convertir en une chaîne qui est meilleure et ensuite nous

13:18.850 --> 13:21.100
allons ajouter la récompense moyenne.

13:22.490 --> 13:27.620
Et puis nous ajoutons également un pourcentage, puis nous allons fermer le devis.

13:28.890 --> 13:35.220
Et puis nous ajoutons un pourcentage et de l'autre côté, vous savez, nous entrons les variables qui vont être

13:35.220 --> 13:41.430
la première personne car c'est l'épopée ici et la deuxième variable correspondant à la récompense moyenne, qui va calculer

13:41.610 --> 13:42.840
tout de suite.

13:43.020 --> 13:45.560
La variable de récompense moyenne n'existe donc pas encore.

13:45.780 --> 13:47.600
Nous allons le créer maintenant.

13:48.120 --> 13:51.930
Nous allons donc utiliser ETR au travail.

13:52.470 --> 13:55.440
Même si Époque est le nombre, nous le convertirons en chaîne.

13:55.440 --> 13:57.090
C'est mieux et.

13:58.110 --> 14:03.150
Nous allons ajouter, Estie, est-ce que cela va être la récompense moyenne et nous allons

14:03.150 --> 14:09.810
donc créer une variable que nous allons appeler une grande récompense et maintenant nous allons créer cette variable et la calculer ?

14:10.560 --> 14:12.430
OK, alors faisons ça.

14:12.450 --> 14:13.980
C'est la seule chose qu'il nous reste à faire.

14:13.980 --> 14:15.900
Alors Époque, nous l'avons déjà.

14:16.170 --> 14:20.040
Maintenant, calculons le monde moyen et nous devons le calculer ici.

14:20.130 --> 14:27.090
Toujours dans la boucle, mais hors de la boucle, car maintenant nous avons notre lot échantillonné et nous avons notre formation qui se passe

14:27.090 --> 14:28.050
dans le lot.

14:28.350 --> 14:31.940
Mais maintenant, la propagation vers l'avant plus la propagation vers l'arrière sont effectuées dans le lot.

14:32.190 --> 14:39.900
Nous nous remettons donc dans la boucle et nous pouvons maintenant calculer les récompenses cumulatives que nous pouvons faire avec

14:39.900 --> 14:41.100
notre objet Insteps.

14:41.430 --> 14:47.910
Parce que notre objet cou-de-pied contient cette fonction, nous utiliserions des étapes qui nous permettent d'obtenir les récompenses cumulatives se produisant

14:47.910 --> 14:51.250
dans les étapes, vous savez, lors de l'exécution du cou-de-pied.

14:51.660 --> 14:57.330
Nous allons donc l'utiliser dès maintenant pour mettre à jour les nouvelles récompenses des étapes.

14:57.660 --> 15:05.640
Ensuite, nous mettrons à jour l'objet moyenne mobile en ajoutant les récompenses cumulées à l'objet quotidien en mouvement,

15:05.640 --> 15:07.770
puis recalculons la moyenne.

15:07.780 --> 15:09.910
Et c'est ainsi que nous allons obtenir la récompense moyenne.

15:10.590 --> 15:11.510
Alors faisons ça.

15:11.520 --> 15:14.640
La première chose dont nous avons besoin, ce sont les données de récompenses DARABA.

15:14.970 --> 15:16.950
Alors appelons-les récompenses.

15:18.100 --> 15:27.700
Etapes et puis, comme nous l'avons dit, nous prenons notre objet d'étapes de fin, qui a été, je le rappelle, créé ici un objet de

15:27.700 --> 15:33.310
la classe de progrès instantané de notre expérience nous encrassons un sujet si sensible.

15:34.000 --> 15:39.410
Ensuite, nous ajoutons des récompenses, des étapes et ensuite des parenthèses.

15:39.760 --> 15:40.150
D'accord.

15:40.180 --> 15:43.690
Cela nous donnera les nouvelles récompenses cumulatives des étapes.

15:43.990 --> 15:44.500
D'accord.

15:45.310 --> 15:50.800
Mais ensuite, nous devons ajouter ces nouvelles récompenses cumulatives dans nos objets de moyenne mobile.

15:50.980 --> 15:57.760
Et pour ce faire, nous avons une méthode cette fois dans la classe moyenne mobile, qui est cette méthode publicitaire très

15:57.760 --> 15:58.210
simple.

15:58.220 --> 16:03.190
Nous prenons notre objet moyenne mobile, que nous avons créé ici avec une centaine de pas.

16:03.790 --> 16:11.710
Ensuite, nous allons utiliser notre méthode ADD, puis dans l'atmosphère, nous entrons nos étapes de récompense et cela ajoutera

16:11.710 --> 16:15.130
les récompenses des étapes dans la moyenne mobile.

16:15.970 --> 16:16.360
D'accord.

16:16.360 --> 16:21.960
Et enfin, on peut calculer la récompense moyenne et c'est bien, vous savez, c'est la même variable ici.

16:22.690 --> 16:26.440
C'est donc ce qui va être égal à la récompense moyenne.

16:26.860 --> 16:33.250
Et pour l'obtenir, il suffit d'utiliser la méthode de la moyenne cette fois à partir de notre objet de moyenne mobile.

16:33.700 --> 16:41.470
Et c'est ce que nous faisons et une moyenne de points comme ça, parce que notre moyenne mobile a déjà été mise à jour avec les nouvelles

16:41.710 --> 16:45.520
étapes de récompenses que nous venons d'ajouter des choses à la méthode ADD.

16:46.430 --> 16:46.890
Génial.

16:46.960 --> 16:52.990
Nous avons donc maintenant notre prix moyen, donc c'est très populaire ici et cela va être imprimé chaque année.

16:53.420 --> 16:54.990
Très bien, alors nous avons terminé.

16:55.030 --> 16:57.170
Je suis donc ravi de voir les résultats.

16:57.170 --> 17:01.670
Et en fait, je vais avoir une surprise pour vous dans le prochain tutoriel en regardant les résultats.

17:01.700 --> 17:03.380
Ça va donc être assez excitant.

17:03.650 --> 17:06.740
Et maintenant, je suppose qu'il est temps de jouer avec l'air et de s'amuser.

17:07.610 --> 17:08.060
D'accord.

17:08.060 --> 17:11.240
Alors préparez-vous un bon café ou un bon thé.

17:11.480 --> 17:17.410
Il est maintenant temps de s'asseoir confortablement dans notre fauteuil et de regarder des vidéos très cool de notre avion pour voir, c'est

17:17.430 --> 17:18.760
dans le prochain tutoriel.

17:18.770 --> 17:20.160
Et jusque-là, profitez-en.
