WEBVTT

00:00.600 --> 00:02.360
Bonjour et bienvenue dans l'histoire.

00:02.520 --> 00:07.920
Maintenant, nous allons faire la boucle pour calculer la perte de police et la perte de valeur et

00:07.920 --> 00:13.260
une fois ces deux leçons apprises, nous pourrons utiliser notre optimiseur pour placer la cigarette dans le sable

00:13.260 --> 00:14.820
afin de réduire les pertes.

00:14.820 --> 00:15.990
D'accord, alors on y va.

00:15.990 --> 00:22.740
Nous commençons ici par le chemin dans le tutoriel précédent, nous avons implémenté cette section et j'ai oublié de

00:22.740 --> 00:24.280
supprimer les retraits désolé.

00:24.420 --> 00:28.210
Donc, à partir d'ici, ce n'est pas à l'automne.

00:28.530 --> 00:32.650
Et maintenant, nous commençons une nouvelle boucle complète donc je commence ici avec quatre.

00:32.840 --> 00:38.340
Et maintenant, ce que nous allons faire, c'est que nous allons commencer par la dernière étape qui a été faite pendant l'exploration et que nous

00:38.670 --> 00:40.420
allons revenir en arrière dans le temps.

00:40.470 --> 00:51.250
C’est la raison pour laquelle je fais pour i dans la plage inversée des récompenses terrestres, les plus grandes récompenses étant le moins.

00:51.260 --> 00:57.000
Et puisque chaque étape de l’exploration est associée à l’endroit où nous travaillons car à chaque étape nous obtenons une récompense lorsque

00:57.230 --> 00:58.400
nous formulons des mots.

00:58.400 --> 01:05.090
Est-ce que ce nombre d'étapes et l'inverse sont utilisés ici pour nous permettre de remonter dans le temps afin de pouvoir y aller?

01:05.160 --> 01:10.890
Et maintenant, nous allons mettre à jour la récompense cumulée qui est loin et la mettre à jour de

01:10.890 --> 01:11.570
cette façon.

01:11.640 --> 01:14.110
C'est en fait la même chose que ce que nous avons fait pour Doom.

01:14.170 --> 01:23.280
Cela équivaut au gamma que nous obtenons de nos paramètres et aux premiers programmes, mais pas à la récompense de

01:24.060 --> 01:31.290
ce que nous pouvons obtenir en prenant le moins de récompenses et en prenant l’indice.

01:31.500 --> 01:36.680
Donc pour nous, ce sera le travail du dernier et ensuite ce sera la récompense du jour précédent, etc.

01:37.080 --> 01:43.320
et chaque fois que nous mettons à jour notre En le multipliant par le gamma, puis en ajoutant cette récompense à l'ensemble.

01:43.650 --> 01:47.090
Et en faisant cela, rappelez-vous que nous arriverons à la fin.

01:47.210 --> 01:53.070
Je vais donc l'écrire au fur et à mesure et nous aurons notre récompense communautaire qui sera cool

01:53.070 --> 01:55.910
à la fin de la boucle, à zéro.

01:56.060 --> 02:02.100
La récompense de l'étape zéro plus les temps gamma sont égaux à un.

02:02.290 --> 02:09.040
Nous avons été les premiers à dire que les temps plus gamma sont au rendez-vous.

02:09.060 --> 02:21.960
La deuxième étape plus celle plus gamma à la puissance de et moins une fois la récompense obtenue à l'étape et moins 1 où que

02:22.800 --> 02:30.690
ce soit, mais attention à la fin, nous aurons un gamma à la puissance du

02:31.050 --> 02:32.250
nombre d'étapes.

02:33.530 --> 02:40.110
Les temps dévaluent la valeur de la fonction appliquée au dernier état.

02:40.150 --> 02:42.450
C'est ce que nous devrions obtenir pour l'instant.

02:42.680 --> 02:49.130
Et cela, nous l'obtiendrons parce que souvenez-vous ici, nous avons obtenu cette valeur et la dernière étape car cela a été fait à

02:49.130 --> 02:50.840
la fin de cette boucle ici.

02:51.200 --> 02:56.140
Et donc nous avons eu la valeur et nous avons mis notre pour être égal à cette valeur.

02:56.420 --> 03:02.710
Donc en ce moment, au début de la seconde boucle complète, ici sera égal à cette valeur de la dernière

03:02.710 --> 03:03.310
date.

03:03.590 --> 03:10.300
Mais alors, en faisant cela, nous obtiendrons à la fin un nombre égal ou nul, ou un court de tennis

03:10.520 --> 03:16.620
ou deux plus peuvent ajouter la puissance et moins une fois que nous étions au pas et moins un

03:16.620 --> 03:20.990
plus à la puissance du nombre d'étapes fois cette valeur de Lastings.

03:21.020 --> 03:25.900
C'est donc l'essentiel à comprendre et cela peut être l'action de la récompense cumulative.

03:26.090 --> 03:33.560
Et c’est pourquoi il est important de commencer par initialiser ou par le ici et de faire

03:33.820 --> 03:37.390
cette boucle inversée pour obtenir l’équation finale parfaite.

03:37.400 --> 03:43.430
Et maintenant que nous avons la bonne valeur pour la récompense cumulée, nous allons calculer l’avantage

03:43.850 --> 03:49.110
et l’avantage ici est simplement l’avantage d’obtenir cette récompense par rapport à eux.

03:49.160 --> 03:56.600
Donc, je vais présenter un avantage évolutif et donc il sera égal à cette récompense cumulative moins

03:57.020 --> 04:01.390
la valeur de la fonction V obtenue au stade.

04:01.610 --> 04:06.690
Voilà donc nos valeurs moins.

04:07.130 --> 04:07.740
Parfait.

04:07.760 --> 04:13.160
Et maintenant que nous avons la communauté sur laquelle nous travaillons et l'avantage, nous pouvons alors obtenir la perte de valeur.

04:13.190 --> 04:15.170
C'est le premier que nous pouvons obtenir maintenant.

04:15.200 --> 04:20.940
Donc, nous allons obtenir notre valeur fait très bien et cela sera mis à jour de la manière suivante.

04:20.960 --> 04:24.530
Rappelez-vous jusqu'à présent que nous avons dévalué a été initialisé à zéro.

04:24.800 --> 04:34.670
Et donc nous allons prendre la perte de valeur à nouveau et à 0. 5 fois la case à l'avantage afin que nous puissions l'obtenir de cette

04:34.670 --> 04:35.480
façon.

04:35.490 --> 04:39.410
Avantage pensé aussi.

04:39.470 --> 04:46.460
Cela signifie donc que nous voulons juste concilier l'avantage du pouvoir et c'est exactement la valeur plus la

04:46.580 --> 04:52.830
perte générée par les prédictions de la valeur de la fonction fournie par le ruisseau.

04:53.120 --> 04:59.840
Il est donc logique que cela soit dévalué simplement parce qu’il faut se rappeler que l’avantage de l’action dans l’état s

04:59.840 --> 05:04.820
est la différence entre la valeur Q et la valeur de la fonction B.

05:04.880 --> 05:14.660
Et ainsi lorsque nous jouons l'action optimale Eh bien, nous obtenons l'état stationnaire avec Q optimal de l'action optimale

05:14.660 --> 05:20.080
d'un joueur étoile dans l'état égal à la valeur optimale.

05:20.080 --> 05:22.000
Vistar de l'état s.

05:22.180 --> 05:28.390
Il est donc assez intuitif de comprendre que lorsque l'avantage n'est pas égal à zéro, il y aura une

05:28.390 --> 05:29.990
différence entre les deux.

05:30.220 --> 05:32.930
Et c'est ainsi que le dernier est mesuré.

05:33.370 --> 05:34.120
D'ACCORD.

05:34.120 --> 05:37.410
Donc, tout dernier calculé un dernier bas.

05:37.420 --> 05:39.000
Nous avons maintenant un plus à faire.

05:39.010 --> 05:44.560
C’est la perte de politique et c’est ce que nous allons calculer pour le moment.

05:44.560 --> 05:51.990
Pour le calculer, nous devons réexaminer l’estimation de l’avantage généralisé, car pour calculer la perte de politique, nous avons besoin d’estimer

05:52.000 --> 05:58.450
l’avantage généralisé et d’obtenir les avantages généralisés du pays. nous avons d’abord besoin de la différence temporelle des

05:58.540 --> 05:59.760
vannes à étage.

05:59.830 --> 06:06.220
Nous avons donc plusieurs choses à calculer ici et nous allons commencer par cette différence temporelle une fois que nous

06:06.220 --> 06:07.710
aurons la différence temporelle.

06:07.780 --> 06:12.850
Nous obtiendrons l'estimation des avantages généralisés et une fois que nous aurons les avantages généralisés à

06:13.180 --> 06:14.900
mentionner, nous obtiendrons les péninsules.

06:14.920 --> 06:15.460
D'accord.

06:15.670 --> 06:28.100
Commençons donc par la différence temporelle T. G. DD correspond à la récompense de l’étape I

06:28.700 --> 06:39.200
plus le Ghana, ce qui nous place dans notre liste de programmes; ainsi, le gamma Bromstad est multiplié par la valeur

06:39.200 --> 06:50.260
de cette dette et nous ajoutons les données pour y accéder, moins la valeur de l’étape I, et nous ajoutons les données.

06:50.280 --> 06:50.610
D'accord.

06:50.670 --> 06:53.900
C'est la formule de la différence temporelle et des valeurs d'état.

06:54.180 --> 06:59.690
Et maintenant, nous pouvons mettre à jour l'estimation de l'avantage généralisé et comment est-elle datée.

06:59.880 --> 07:10.230
Nous prenons R-GA et nous le multiplions par le paramètre gamma gamma times auquel nous avons également accès avec nos

07:10.230 --> 07:10.940
paramètres.

07:10.950 --> 07:18.410
Nous prenons donc la cellule de programmes et nous ajoutons cette différence temporelle des valeurs d'état.

07:18.510 --> 07:19.890
Donc sois prudent.

07:19.890 --> 07:21.280
Nous sommes au courant.

07:21.450 --> 07:27.060
Et chaque fois que nous multiplions le par et le, nous ajoutons une différence temporelle.

07:27.150 --> 07:33.720
Il est donc important de comprendre qu’à la fin de cette boucle, cette estimation

07:34.170 --> 07:46.180
d’avantage généralisée sera égale à la somme de tous les pas des temps gamma, de sorte que la puissance de i fois la différence temporelle au pas

07:46.480 --> 07:50.360
soit si importante pour le conserver. à l'esprit.

07:50.700 --> 07:57.000
Et maintenant que nous avons l'estimation de l'avantage généralisé et la différence générale, nous pouvons

07:57.000 --> 07:58.880
enfin calculer la politique.

07:59.070 --> 08:00.210
Alors faisons ceci.

08:00.210 --> 08:10.020
Nous allons mettre à jour nos lois sur les politiques de la manière suivante en reprenant l'ancienne politique pour

08:10.230 --> 08:20.280
nous et nous soustrayons les probabilités LUGG obtenues à l'étape que nous multiplions par cette estimation généralisée de l'avantage que nous

08:20.280 --> 08:23.920
devons mettre dans une variable les gradients.

08:24.150 --> 08:33.170
Il faut donc l’attacher aux gradients du graphique, puis on ajoute moins 0. 1 fois l'entropie.

08:33.170 --> 08:36.660
L'entropie obtenue à l'étape en automne.

08:37.200 --> 08:38.130
Et encore.

08:38.220 --> 08:39.540
Maintenant soyez prudent.

08:39.540 --> 08:50.830
C’est l’intérieur de la boucle, ce qui signifie qu’à la fin de la grippe, vous obtiendrez une

08:51.280 --> 09:03.110
politique plus égale à moins certaines étapes du produit de la stratégie aux étapes de l’estimation généralisée de

09:03.110 --> 09:04.090
l’avantage.

09:04.160 --> 09:10.710
Plus ce 0. 01 fois l'entropie fait le pour que nous obtenons.

09:10.720 --> 09:13.240
Et maintenant quelle est la politique du I.

09:13.280 --> 09:19.100
Eh bien, c’est les faibles probabilités Max des actions et l’entropie de cela qui vous permettront de savoir ce

09:19.100 --> 09:21.320
que nous avons calculé plus tôt.

09:21.430 --> 09:22.870
Et ce que nous avions l'intention de faire la liste.

09:22.940 --> 09:24.130
Donc, nous avons déjà cela.

09:24.290 --> 09:29.950
Mais cette année, j’entends dire que c’est la probabilité modérée des actions.

09:30.170 --> 09:32.080
Et pourquoi mettons-nous un moins ici.

09:32.150 --> 09:37.220
C'est parce que la chance de la probabilité et l'entropie sont des valeurs négatives.

09:37.220 --> 09:43.340
Et puisque nous voulons minimiser leur valeur absolue, nous devons considérer ce dernier comme la probabilité LUGG, par opposition

09:43.340 --> 09:44.370
à une distance.

09:44.370 --> 09:51.530
Non, nous voulons maximiser la probabilité de l’action qui maximisera l’avantage.

09:51.530 --> 09:53.130
C'est toute l'idée derrière cela.

09:53.210 --> 09:59.060
Nous voulons maximiser la probabilité de jouer l'action qui maximisera l'avantage et pour ceux d'entre vous

09:59.060 --> 10:03.500
qui pourraient se demander quel est le but de cette entropie efficace.

10:03.650 --> 10:05.720
Il y a ce facteur 0. 01 ici.

10:05.930 --> 10:13.430
L’objectif est simplement de l’empêcher de tomber trop rapidement dans un piège dans lequel nous avons une distribution de

10:13.430 --> 10:19.340
probabilités avec des zéros pour toutes les actions sauf une qui en a une.

10:19.550 --> 10:22.370
Et si cela se produit, cela minimiserait l'entropie.

10:22.550 --> 10:29.060
C'est pourquoi nous ajoutons cette petite révision 0. 01 année qui fera augmenter l'entropie dans le

10:29.060 --> 10:30.940
Grand dans le sens.

10:31.020 --> 10:35.460
OK, la bonne nouvelle est que la partie la plus difficile est terminée.

10:35.500 --> 10:41.050
Nous avons les deux défaites et par conséquent, ce que nous devons seulement faire maintenant et nous savons déjà comment le faire consiste

10:41.050 --> 10:44.820
à effectuer simplement pour obtenir une note dans le sens de réduire ces deux classes.

10:45.190 --> 10:51.170
Et donc, ce que nous allons faire maintenant, c'est sortir de cette boucle et nous allons utiliser notre optimiseur.

10:51.390 --> 10:57.220
Celui que nous avons créé séparément puis nous rappelons que la première chose à faire est

10:57.220 --> 11:04.810
d’initialiser tous les paramètres de notation à zéro et, pour ce faire, nous ajoutons cela à zéro et nous l’appelons méthode grad.

11:04.810 --> 11:06.980
Bon alors c'est fait alors.

11:07.000 --> 11:11.890
Nous allons maintenant effectuer une propagation en amont, mais nous allons accorder deux fois plus d'importance à la stratégie

11:11.890 --> 11:15.670
en dernier lieu qu'à la valeur perdue, car la stratégie est plus petite.

11:15.970 --> 11:28.190
Donc, pour ce faire, nous allons mettre entre parenthèses la politique et le score plus plus 0. 5 perte de valeur, donc 0. 5 fois la valeur pour nous et nous allons

11:28.970 --> 11:37.400
ajouter ici que nous appliquons la méthode de retour en arrière pour effectuer la propagation en arrière et, grâce

11:37.400 --> 11:43.880
à cette astuce, ici avec la politique moins la moitié de la valeur que nous

11:43.880 --> 11:47.460
avons deux fois plus d'importance la vaness.

11:47.480 --> 11:53.630
OK, nous allons utiliser une autre astuce qui consiste à empêcher le gradient de prendre des

11:53.630 --> 11:56.890
valeurs extrêmement grandes et donc à générer l’algorithme.

11:57.020 --> 12:03.530
Et le truc à faire est d’obtenir d’abord notre bibliothèque de flambeau,

12:04.220 --> 12:13.040
puis la fin et le module de la bibliothèque de flambeau, puis le sous-module utils et nous allons

12:13.530 --> 12:20.830
maintenant utiliser une fonction paramètres du modèle avec une deuxième entrée qui sera 40.

12:21.200 --> 12:26.560
Et cette astuce va fondamentalement faire en sorte que les gradients ne prennent pas de très grandes

12:26.560 --> 12:28.000
valeurs et générer l'algorithme.

12:28.220 --> 12:30.770
Et pour ceux d'entre vous qui pourraient se demander si ces 40 ans.

12:30.800 --> 12:31.640
Exactement.

12:31.850 --> 12:37.130
Cela signifie simplement que nous utilisons ces valeurs, de sorte que la norme du gradient

12:37.130 --> 12:42.510
reste comprise entre 0 et 40, ce qui empêche le gradient de prendre des valeurs élevées.

12:43.000 --> 12:45.170
OK maintenant nous avons presque fini.

12:45.170 --> 12:52.550
N'oubliez pas que nous avons créé cette fonction et que nous avons bien sûr partagé la fonction de Gretz au début de l'automne, qui

12:52.670 --> 12:59.450
consiste à s'assurer que l'agent et le modèle partagé partagent les mêmes gradients et à le faire pour nous assurer que nous

12:59.450 --> 13:01.090
pouvons appliquer cette fonction ici.

13:01.220 --> 13:13.310
Et nous allons donc ajouter et partager les diplômés pour nous assurer que le modèle moral et le modèle partagé partagent les

13:13.310 --> 13:14.690
mêmes gradients.

13:14.690 --> 13:16.670
D'accord, c'est juste une précaution.

13:16.670 --> 13:21.620
Je ne suis pas sûr que ce soit absolument nécessaire, mais vous savez au moins que nous n’aurons pas de problème ici.

13:22.040 --> 13:22.550
D'accord.

13:22.550 --> 13:29.900
Et enfin, dernière ligne de code, nous allons bien sûr effectuer l’optimisation pour réduire les pertes et

13:29.900 --> 13:38.900
vous savez le faire. Nous prenons bien sûr notre optimiseur et nous ajoutons cette étape entre parenthèses et nous passons

13:39.320 --> 13:43.300
ensuite à l’entraînement de notre cerveau. plus de.

13:43.550 --> 13:44.780
Alors félicitations.

13:44.780 --> 13:47.030
J'espère que ce n'était pas trop écrasant.

13:47.060 --> 13:49.620
Ne vous inquiétez pas, je fournirai le code avec tous les commentaires.

13:49.670 --> 13:53.330
Donc, si vous avez oublié certains détails, vous pouvez consulter les commentaires.

13:53.420 --> 13:57.260
Et ne vous inquiétez pas si vous n'avez rien compris, c'est très avancé.

13:57.410 --> 14:04.020
Mais rassurez-vous, c’est également la visite la plus puissante du créateur de pi.

14:04.100 --> 14:06.770
Nous travaillons donc vraiment avec les meilleurs ici.

14:06.850 --> 14:12.560
L’état de la technique est donc tout à fait normal si vous n’avez pas tout compris la première fois

14:12.560 --> 14:16.520
mais en y travaillant plusieurs fois, vous vous sentirez de mieux en mieux.

14:16.520 --> 14:19.150
Alors maintenant, nous en avons terminé avec la formation.

14:19.220 --> 14:26.080
Nous avons donc conçu toutes les choses les plus importantes que vous savez, nous avons créé le cerveau en construisant les architectures

14:26.120 --> 14:30.610
des réseaux de neurones avec les convolutions LCN et les couches entièrement connectées.

14:30.620 --> 14:34.360
Nous avons entraîné son cerveau en créant ce code de train ici.

14:34.520 --> 14:37.190
Donc, fondamentalement, le cœur de l'algorithme est terminé.

14:37.310 --> 14:39.800
Vous avez fait le A3 voir les félicitations.

14:39.800 --> 14:43.940
Nous avons maintenant un peu plus de choses à faire, mais c’est juste pour obtenir la partie amusante.

14:43.940 --> 14:52.540
Vous savez que nous devons effectuer le test que nous avons découvert, qui permettra de tester les agents et de fournir les vidéos et

14:52.550 --> 14:54.020
que l'avion se déclenche.

14:54.170 --> 15:00.860
Ce sera donc très amusant de voir que nous ne coderons pas toutes les lignes de ce test que je suis tombé parce que, comme nous l'avons dit, nous

15:00.860 --> 15:02.720
avons fait la chose la plus importante.

15:02.840 --> 15:10.310
Tous liés 23C mais je vais bien sûr expliquer le code et finalement nous avons ce composé que j'ai trouvé qui

15:10.310 --> 15:11.770
va exécuter le code.

15:11.890 --> 15:15.900
Et à partir du moment où nous exécutons ce code, tout le code sera généré.

15:16.040 --> 15:18.150
Alors le cerveau sera fait.

15:18.200 --> 15:24.080
L'entraînement aura lieu et l'oeil jouera de nouveaux jeux d'évasion et nous obtiendrons toutes les vidéos.

15:24.080 --> 15:26.480
J'ai donc hâte de les regarder.

15:26.550 --> 15:29.810
Nous allons voir s'il est assez intelligent pour attraper le ballon.

15:29.990 --> 15:36.380
Alors maintenant, je vais voir dans le prochain tutoriel pour cette interface utilisateur de bureau afin que nous puissions tester l'IA sur de

15:36.380 --> 15:37.250
nouveaux jeux.

15:37.300 --> 15:38.980
Et jusque-là, profitez de l'IA.