WEBVTT

00:00.760 --> 00:02.520
Bonjour et bienvenue au Statoil.

00:02.830 --> 00:10.050
Ainsi, l'agent a maintenant effectué son exploration et lorsqu'il est sur le point de le faire, il doit mettre à jour le réseau partagé.

00:10.240 --> 00:17.050
Donc, la première chose que nous allons faire est d’initialiser le cumulatif que nous appellerons notre capital R et

00:17.070 --> 00:25.180
nous allons l’initialiser en tant que tenseur de torche mais cela aura des dimensions un par un parce que c’est juste une valeur

00:25.180 --> 00:27.710
mais nous voulions être un tenseur.

00:27.940 --> 00:33.460
Et donc j'utilise ici mais des zéros et ensuite 1 1.

00:33.790 --> 00:37.230
Donc, fondamentalement, la récompense cumulée est initialisée à 0.

00:37.610 --> 00:43.870
OK, puis dire que si nous n’avons pas terminé, c’est si le jeu n’est pas terminé.

00:43.870 --> 00:50.200
Ce que nous voulons maintenant, c’est que la récompense cumulée soit égale à la valeur du dernier échange atteint

00:50.200 --> 00:51.750
par le réseau partagé.

00:51.820 --> 00:54.400
Nous allons donc obtenir la sortie de valeur.

00:54.460 --> 01:00.870
Vous connaissez la valeur des sorties de fonction de notre modèle et c'est la valeur que nous allons donner à la communauté que

01:00.870 --> 01:01.490
nous travaillons.

01:01.780 --> 01:05.500
Alors obtenons d'abord cette valeur, nous pouvons l'obtenir de cette façon.

01:05.560 --> 01:12.820
Valeur Alors vous savez, puisque nous voulons seulement la valeur que nous pouvons ajouter ici, soulignez et soulignez encore et ensuite nous obtenons

01:13.240 --> 01:19.980
notre modèle car il produira cette valeur, mais seul le premier résultat de la chose morale à faire est le double

01:19.980 --> 01:25.310
de son parcours ici et ici nous pouvons simplement copier coller ce que nous avons ici.

01:25.430 --> 01:33.050
C’est l’entrée du modèle avec les images d’entrée et l’attraction des États et des États du Sud.

01:33.220 --> 01:35.820
Donc, je ne fais que coller ça et c'est parti.

01:35.860 --> 01:37.490
Nous allons obtenir la valeur.

01:37.810 --> 01:47.080
Et maintenant, ce que nous allons faire, c'est donner à notre valeur pour que tous soient égaux pour la valeur et pour accéder à la

01:47.080 --> 01:49.350
valeur que nous commençons ici.

01:49.750 --> 01:50.430
D'accord.

01:50.440 --> 01:57.610
Maintenant, la condition if est remplie et ce que nous allons faire depuis que nous venons de recevoir une nouvelle valeur. Vous

01:57.670 --> 02:04.090
savez que la sortie du modèle est la première sortie du modèle et ajoute déjà cette nouvelle valeur à la

02:04.090 --> 02:05.330
liste des valeurs.

02:05.500 --> 02:16.340
Nous pouvons donc prendre directement notre liste de valeurs puis vers une tente et nous mettons variable sont parce que notre.

02:16.530 --> 02:20.560
Cette dernière valeur si grande qui se fait maintenant.

02:20.850 --> 02:25.180
Nous allons initialiser les pertes et nous rappeler les conférences sur l’intuition.

02:25.260 --> 02:26.320
Vous avez deux pertes.

02:26.340 --> 02:31.780
Vous avez le dernier de la politique qui est le dernier lié aux prédictions de l'agent.

02:31.860 --> 02:36.070
Et puis vous avez le dernier de la valeur qui est moins liée aux prédictions du critique.

02:36.180 --> 02:41.130
Nous allons donc introduire ces deux variables initialisées à zéro et elles vont prendre ici

02:41.250 --> 02:44.600
la politique pour nous une perte de politique horrible.

02:44.690 --> 02:52.680
Initialisez-le à zéro puis perdez beaucoup de valeur et dites l'initialisé à zéro, n'oublions pas de définir la récompense cumulée comme variable

02:52.680 --> 02:58.680
de la flamme, car nous aurons besoin que ce soit une lampe de poche Roybal, car

02:58.680 --> 03:03.990
nous allons calculer un gradient avec respect, car la récompense cumulative sera un terme de

03:03.990 --> 03:05.850
la perte de valeur.

03:05.850 --> 03:10.050
Donc, est-ce viable? Il est maintenant associé aux graphiques dynamiques avec un dégradé.

03:10.530 --> 03:16.150
Et maintenant, enfin, la dernière chose que nous devons faire avant de commencer la grande boucle de tendance que vous connaissez lorsque nous avons appliqué

03:16.170 --> 03:20.580
à la dégradation du gaz au soleil afin de réduire ce dernier entre les prévisions et les objectifs.

03:20.850 --> 03:28.160
Eh bien, nous devons initialiser les PCGR pour une estimation généralisée de l’avantage et ne pas l’obtenir ou le masquer.

03:28.260 --> 03:34.530
Soyez prudent avec ce GAAP, la variable que nous sommes sur le point d'initialiser actuellement est une estimation généralisée

03:34.590 --> 03:35.510
de l'avantage.

03:35.520 --> 03:42.480
Pour rappel, l'estimation de l'avantage généralisé est par définition l'avantage de jouer l'action a

03:42.540 --> 03:45.170
en observant l'état s.

03:45.210 --> 03:51.330
Donc, c'est une fonction de l'action et de l'état s et il est égal à la différence entre les q

03:51.450 --> 03:54.780
valeurs QA S et la valeur de la fonction V.

03:54.780 --> 03:57.120
Donc en fait je peux l'écrire ici.

03:57.540 --> 04:05.130
L'estimation de l'avantage généralisé est fonction de l'action et de l'état s et est égale aux q valeurs

04:05.580 --> 04:12.570
de l'action A et de l'état S moins la valeur de la fonction V appliquée à l'état

04:12.650 --> 04:13.440
s.

04:13.530 --> 04:19.000
Ce sont les avantages généralisés à mentionner et c'est ce que nous voulons initialiser maintenant.

04:19.200 --> 04:20.770
Et nous allons l'initialiser à zéro.

04:21.470 --> 04:27.320
Mais cela doit viser les danseurs qui allaient utiliser le même truc que ce que nous venons

04:27.730 --> 04:35.330
de faire, nous allons prendre la bibliothèque de flambeau et l’appliquer à la fonction de zebra pour la définir comme un tenseur de valeur

04:35.330 --> 04:36.730
unique égale à zéro.

04:37.160 --> 04:45.730
Et nous allons utiliser cette nouvelle variable g et qui sera égale à cette torche qui zéros 1 on

04:45.740 --> 04:46.540
initialise.

04:46.550 --> 04:52.730
Donc, cela sera initialisé à zéro et donc les q valeurs de l'action l'état s seront égales à la

04:52.730 --> 04:55.600
valeur de la fonction V de l'état s.

04:55.780 --> 04:56.290
D'accord.

04:56.320 --> 04:58.810
Et maintenant, nous sommes prêts à lancer la boucle for.

04:58.850 --> 05:00.470
Nous allons donc avoir une aventure ici.

05:00.500 --> 05:04.700
Alors, faites une bonne pause et je vous verrai dans le prochain tutoriel pour vous attaquer à cela.

05:04.820 --> 05:06.170
Et alors alors je
