WEBVTT

00:00.330 --> 00:05.990
Bonjour et bienvenue dans ce tutoriel de Statoil nous allons synchroniser avec le modèle partagé.

00:06.150 --> 00:13.370
Donc, ce que nous allons faire, c'est toujours envoyer la fonction, bien sûr, puis initialiser la longueur d'un

00:13.380 --> 00:13.980
épisode.

00:14.190 --> 00:22.020
Nous allons donc appeler la durée d'un épisode et les longueurs de base que nous allons et nous

00:22.020 --> 00:23.800
allons l'initialiser à zéro.

00:23.880 --> 00:27.280
Mais alors cette longueur actuelle sera incrémentale.

00:27.570 --> 00:30.450
Et en parlant d’incréments, c’est exactement ce que nous ferons.

00:30.660 --> 00:40.600
Nous allons donc utiliser une boucle while et utiliser cette astuce pour dire au vrai Kallen de répéter ce qui va se passer maintenant, ce qui

00:40.600 --> 00:43.840
va se passer à l'intérieur de ce monde.

00:44.160 --> 00:49.360
Et donc la première chose qui va se passer dans cette boucle est cette incrémentation de la durée

00:49.360 --> 00:50.070
d'un épisode.

00:50.260 --> 00:56.900
Donc, la première chose que nous allons faire est d’augmenter de 1 et pour ce faire,

00:57.010 --> 01:02.680
nous pouvons simplement prendre la longueur des épisodes et ajouter ici plus 1.

01:03.200 --> 01:06.440
Et maintenant, nous allons synchroniser davantage avec le partage.

01:06.560 --> 01:13.520
Cela signifie que c'est maintenant que l'agent obtiendra utilisera le modèle partagé pour effectuer sa petite exploration sur

01:13.700 --> 01:18.730
un certain nombre d'étapes et comment le modèle va-t-il obtenir ce modèle partagé.

01:18.860 --> 01:27.710
Eh bien, nous devons prendre notre morale, puis utiliser la méthode de Dick, car nous allons l’utiliser pour

01:27.710 --> 01:37.310
obtenir le dictionnaire d’état de notre modèle partagé. Nous devons donc placer le modèle partagé en premier et appliquer ensuite la

01:37.310 --> 01:41.870
méthode statique à récupère les paramètres du modèle partagé.

01:41.900 --> 01:48.500
Et c’est comme cela que notre modèle ici permettra au modèle partagé d’explorer sa petite exploration OK.

01:48.500 --> 01:53.670
Et une fois que le modèle obtient ce modèle partagé, nous devons maintenant distinguer deux cas.

01:53.840 --> 02:03.280
Le premier est si terminé c'est-à-dire que si le jeu est terminé, le jeu est terminé, puis ce qui se passe dans ce cas.

02:03.530 --> 02:09.840
Nous devons réinitialiser les états cachés et les états de cellule du LSD et du centre commercial.

02:09.950 --> 02:17.510
Et c'est pourquoi je vais prendre See X les états de la cellule et également vieillir X les états cachés et je

02:17.510 --> 02:21.030
vais les réinitialiser, les livres et comment allez-vous les réinitialiser.

02:21.170 --> 02:29.080
Eh bien, avec seulement des zéros, il y aura un vecteur de 256 zéros, car souvenez-vous des sorties du reste.

02:29.270 --> 02:31.770
Comme je l'ai mentionné 1 et 256.

02:31.820 --> 02:38.970
Donc, voilà, nous allons les initialiser en utilisant la bibliothèque de torches, puis la fonction du zéro.

02:39.170 --> 02:46.730
Et comme nous voulons un vecteur de 256 zéros, nous allons entendre les dimensions un pour le vecteur et

02:46.730 --> 02:51.560
256 pour le nombre d’éléments qui seront des zéros, puis nous irons.

02:51.770 --> 02:58.570
Mais ensuite, nous convertirons cela en un voivode de la torche, car certains gradients seront calculés.

02:58.640 --> 03:02.000
Nous devons donc intégrer cela avec un dégradé.

03:02.030 --> 03:02.510
D'accord.

03:02.540 --> 03:09.860
Et nous allons faire la même chose pour les états cachés situés juste en dessous et les analyser de la même manière.

03:09.980 --> 03:10.680
Nous y voilà.

03:10.790 --> 03:13.050
Donc, si le jeu est terminé.

03:13.360 --> 03:20.810
Et maintenant, l’autre cas auquel nous pouvons accéder avec Else autrement que ce qui se passe dans ce cas.

03:20.990 --> 03:27.270
Eh bien, nous allons conserver les anciens états de cellules et les enjeux cachés et

03:27.270 --> 03:37.910
ainsi très facilement, nous pouvons conserver les anciens de cette façon en tapant voir X est égal à la variable cx cette donnée et identique pour les États

03:39.050 --> 03:45.580
que nous pouvons simplement ajouter ici H x est égal variable xx que les données sont à.

03:45.650 --> 03:46.570
Bonne chose faite.

03:46.580 --> 03:52.880
Maintenant, nous pouvons nous en sortir parce que nous en avons presque fini avec ces deux cas, que le jeu soit

03:52.910 --> 03:58.340
terminé ou non, mais nous restons dans le coup, car nous allons faire encore plus de choses

03:58.340 --> 04:00.450
qui sont essentiellement la formation processus.

04:00.530 --> 04:05.960
Nous allons donc maintenant initialiser plusieurs variables qui seront au cœur des

04:06.050 --> 04:07.990
calculs de la formation.

04:08.180 --> 04:13.660
Faisons donc cela, nous aurons besoin des valeurs dont le souvenir est la sortie du critique.

04:13.790 --> 04:15.170
C'est la fonction.

04:15.170 --> 04:17.850
Et nous les initialiserons comme un nid vide.

04:17.960 --> 04:22.790
De cette façon, nous devrons avoir des probabilités.

04:22.930 --> 04:27.570
Donc, bonne chance et nous allons également l'initialiser comme une liste vide.

04:27.590 --> 04:33.540
Ensuite, bien sûr, nous aurons besoin de tous les mots que nous initialiserons également sous forme de liste vide.

04:33.650 --> 04:38.810
Et finalement, nous allons avoir besoin que l'entropie soit quelque chose de nouveau.

04:38.960 --> 04:43.240
Mais c’est bien au cœur des conditions de formation.

04:43.280 --> 04:45.120
Donc jusqu'à ce que tout se passe bien.

04:45.170 --> 04:50.690
Donc, maintenant que nous initialisons ces quatre variables, nous pouvons commencer une nouvelle boucle FOR, puis ce nymphal mettra

04:50.690 --> 04:53.350
à jour les valeurs de ces quatre variables.

04:53.420 --> 04:59.330
Et donc cette nouvelle Foluke va être un cerceau complet sur les étapes d’expiration et donc la

04:59.330 --> 05:01.530
variable de bouclage sera nos étapes.

05:01.550 --> 05:11.570
Donc, pour un pas dans la plage et à l'intérieur, nous pouvons directement mettre peut-être des points non-stop car le paramètre dans certaines étapes

05:11.660 --> 05:15.170
est exactement le nombre de pas de l'accélération.

05:15.170 --> 05:19.190
Donc, pour toutes les étapes de l'accélération Que faisons-nous.

05:19.370 --> 05:22.690
Eh bien, nous allons obtenir les prévisions du modèle.

05:22.740 --> 05:28.730
Maintenant, ce qui est renvoyé par le modèle et pour obtenir ces prévisions, nous pouvons simplement prendre le modèle et

05:28.730 --> 05:33.670
l’appliquer aux entrées qui signalent le signal d’entrée, il passe par les cerveaux du modèle.

05:33.830 --> 05:39.020
Et cela nous donnera les résultats, mais il y en aura plusieurs. Vous savez que cela nous donnera les

05:39.020 --> 05:42.010
valeurs de la fonction qui est le résultat du critique.

05:42.200 --> 05:48.560
Ensuite, les q valeurs QSA qui sont la sortie de l'acteur mais n'oubliez pas que cela produira aussi le

05:48.680 --> 05:54.830
renversement des états de Doheny et des petits états, car rappelez-vous que si nous retournons à notre modèle

05:54.830 --> 06:00.230
dans la fonction avant, nous pouvons le voir. il renvoie la sortie du critique.

06:00.320 --> 06:08.090
C’est la valeur de la fonction oui, puis la sortie de l’acteur qui, du cube, attribue la valeur QSA, ainsi

06:08.090 --> 06:14.930
que la sortie du CM, qui vérifie et voit X puis États et États de la cellule.

06:14.930 --> 06:16.910
Nous devons donc faire attention à cela.

06:16.910 --> 06:22.310
Ceci est très différent de ce qui s'est passé auparavant et nous allons donc maintenant les appliquer

06:22.310 --> 06:24.470
tous aux entrées qui sont l'état.

06:24.530 --> 06:28.020
Mais maintenant, il y a plusieurs choses à faire qui sont liées à la torture.

06:28.030 --> 06:31.130
Mais cela donne bien sûr du pouvoir à ce que nous faisons.

06:31.190 --> 06:39.920
La première chose à faire est de compresser les états pour ajouter cette dimension qui doit avoir l'index

06:39.920 --> 06:40.880
0.

06:40.910 --> 06:47.080
En effet, le modèle ne peut accepter qu'un lot d'entrées et non une fin en soi dans un vecteur ou plus intense.

06:47.240 --> 06:53.320
C’est la première chose que nous devons faire et presser, mais ce n’est pas tout ce dont nous

06:53.360 --> 06:58.950
avons besoin pour convertir nos états d’entrée en un flambeau annulable, et j’y suis ici.

06:59.180 --> 07:05.660
Nous sommes donc maintenant avec la police d'État, mais rappelons-nous que les entrées des quatre fonctions sont en

07:05.660 --> 07:06.990
réalité l'image d'entrée.

07:06.990 --> 07:14.660
C’est ce dont nous venons de nous occuper, mais aussi de ce type d’âge X les États et les États cellulaires et nous

07:14.900 --> 07:16.500
devons donc ajouter ici.

07:16.610 --> 07:23.160
Cette deuxième partie de l’intrant avec son attrait des âges X et 6.

07:23.190 --> 07:23.690
D'accord.

07:23.730 --> 07:26.410
Et nous devons reprendre la parenthèse.

07:26.430 --> 07:32.550
Voilà, nous avons nos deux entrées. La première est l’état d’entrée, c’est-à-dire que les images d’entrée sont toutes

07:32.550 --> 07:38.580
converties en variable et compressées pour ajouter cette fausse dimension du lot et arrêtent tous les états et

07:38.760 --> 07:40.260
les états du Sud.

07:40.440 --> 07:41.630
Nous sommes donc tous prêts à partir.

07:41.670 --> 07:43.890
Nous sommes prêts à obtenir nos prévisions.

07:44.100 --> 07:46.360
Et maintenant depuis ce retour.

07:46.500 --> 07:52.530
Eh bien, nos trois prédictions sont la sortie de la critique jusqu'à l'acteur et le sommet de toutes les réintégrations

07:52.530 --> 07:54.430
rendues nécessaires par le CME.

07:54.630 --> 07:59.840
Eh bien, nous allons maintenant introduire trois nouvelles variables qui produiront trois sorties.

07:59.910 --> 08:05.380
Donc, alors nous obtenons que la première sortie est la valeur de la fonction V qui est la sortie de la critique.

08:05.520 --> 08:07.960
Nous allons donc appeler ça comme ça.

08:08.490 --> 08:08.960
Alors on y va.

08:08.970 --> 08:10.250
C'est la première sortie.

08:10.350 --> 08:14.630
Ensuite, la deuxième sortie sera la sortie de l'acteur.

08:14.760 --> 08:16.820
Et ce sont les valeurs Q QSA.

08:17.130 --> 08:24.570
Mais puisque les valeurs q sont associées aux actions, nous pouvons aussi les appeler les valeurs d’action.

08:24.690 --> 08:25.550
D'accord.

08:25.710 --> 08:28.850
Et puis trouver une sortie renvoyée par le lendemain.

08:28.920 --> 08:37.380
C'est le double de la taxe de vente cachée et les états des cellules voient X, puis nous obtenons trois résultats

08:37.620 --> 08:40.110
renvoyés, qui sont tous parfaits.

08:40.110 --> 08:45.750
Alors maintenant que nous avons les préditions, nous devons utiliser un logiciel Max pour jouer la bonne action.

08:45.750 --> 08:48.560
Et maintenant, c’est exactement ce que nous avons fait auparavant.

08:48.600 --> 08:57.320
La prochaine étape consiste à obtenir nos probabilités afin que nous puissions les appeler et c’est là où nous utilisions la méthode

08:57.320 --> 09:05.570
Max que nous prenons à partir du module fonctionnel qui a une chance de ff que Soughed Max produira une distribution

09:05.570 --> 09:12.270
des probabilités de l’entrée que nous sommes sur le point de mettre maintenant et qui bien

09:12.290 --> 09:19.150
sûr les valeurs réelles qui sont les q valeurs qui sont les sorties de l'acteur dans le modèle.

09:19.220 --> 09:25.070
Nous avons parfois des probabilités, mais comme vous l'avez remarqué, nous allons travailler avec

09:25.130 --> 09:31.280
l'entropie. Ensemble, l'entropie ne conduirait pas seulement les probabilités, mais également les probabilités LUGG, car l'entropie

09:31.280 --> 09:37.280
est la somme du produit Lucke prob. fois trub tout cela multiplié par moins 1.

09:37.400 --> 09:46.420
Et nous devons aussi connaître notre amour pour ce qui va être généré par LUGG soft max.

09:46.460 --> 09:51.580
Ainsi, au lieu de prendre une distribution des probabilités, nous prenons une distribution des

09:51.860 --> 10:01.260
probabilités et c'est ce que nous faisons avec LUGG soughed frappe la fonction Optimax pour dire que nous nous appliquons au cube et utilisons ce que

10:02.500 --> 10:04.490
nous appelons les valeurs d'action.

10:04.500 --> 10:07.520
Bon maintenant nous avons le prob et le lock up.

10:07.600 --> 10:11.700
Nous sommes donc prêts à obtenir l'entropie et l'entropie.

10:12.250 --> 10:13.680
Quelle est la formule pour cela.

10:13.780 --> 10:19.830
Comme je viens de le dire, nous prenons le message de chance que nous multiplions par le produit.

10:20.200 --> 10:28.250
Ensuite, nous allons prendre la somme de tout cela et pour faire cela, nous pouvons ajouter ici que nous utilisons effectivement la

10:28.250 --> 10:29.920
rue plusieurs fois maintenant.

10:30.230 --> 10:33.500
Et comme nous l’avons dit, nous le multiplions par moins 1.

10:33.740 --> 10:37.150
Donc, c'est le moins de la somme du produit.

10:37.170 --> 10:38.600
Beaucoup de fois.

10:39.140 --> 10:39.750
Parfait.

10:39.860 --> 10:45.380
Et maintenant, nous allons stocker cette entropie qui vient d'être calculée dans notre liste d'entropie.

10:45.650 --> 10:48.550
Voilà, nous avons le dernier calcul de l'entropie.

10:48.590 --> 10:53.660
Nous avons donc besoin de la stocker dans la liste des entropies. Pour ce faire, rien de plus simple,

10:53.660 --> 10:57.450
nous allons utiliser la fonction append bien sûr, car entropies est une liste.

10:57.500 --> 11:04.790
Nous prenons donc notre liste d'entropies, puis nous commençons et nous utilisons la fonction append pour ajouter

11:04.790 --> 11:06.550
l'entropie à celle calculée.

11:06.560 --> 11:08.440
Très bien, nous allons faire une pause maintenant.

11:08.450 --> 11:14.210
Nous allons faire cela étape par étape dans la prochaine histoire. Nous allons jouer l'action en tirant

11:14.360 --> 11:16.740
au sort cette distribution générée des probabilités.

11:17.030 --> 11:22.310
Et après que nous ayons joué, nous obtiendrons la valeur de cet état et nous conserverons éventuellement

11:22.310 --> 11:24.310
notre nouvelle récompense d’États en transition.

11:24.360 --> 11:29.430
Ce sera donc un nouveau grand pas en avant que nous accomplirons à la prochaine étape.

11:29.570 --> 11:31.020
Jusque là je