WEBVTT

00:00.330 --> 00:02.170
Bonjour et bienvenue au Statoil.

00:02.400 --> 00:06.270
OK, nous venons de calculer l'entropie et de l'ajouter à la liste des entropies.

00:06.270 --> 00:11.640
Et maintenant, ce que nous allons faire, c'est abandonner une action au hasard en fonction de la distribution des

00:11.700 --> 00:13.190
probabilités de la suivante.

00:13.200 --> 00:14.540
Alors faisons ceci.

00:14.540 --> 00:15.780
C'est la prochaine étape.

00:15.870 --> 00:19.910
Nous sommes toujours dans la boucle parce que nous courons toujours sur les marches ici.

00:20.160 --> 00:22.550
Et vous savez maintenant comment jouer l'action.

00:22.590 --> 00:28.740
Nous allons d'abord introduire une variable pour l'action appelée action puis nous prenons

00:28.740 --> 00:37.350
notre distribution de probabilités et nous allons utiliser la fonction multi-non-neuronale pour tirer au hasard de cette distribution

00:37.350 --> 00:41.390
de probabilités, puis nous ajoutons ces données.

00:41.500 --> 00:48.550
Il est donc important de noter que l'action sera en réalité un tenseur avec une seule valeur, mais vous ne devriez

00:48.550 --> 00:51.010
pas voir cela comme une simple valeur.

00:51.010 --> 00:57.050
Vous devriez voir cela comme un damier de tenseur, un par un, contenant cette valeur pour l'action.

00:57.190 --> 01:02.970
Et c’est parce qu’il n’est pas évincé mais reste dans la même boucle.

01:02.970 --> 01:09.880
Nous allons obtenir la probabilité de journal associée à l'action qui vient d'être jouée.

01:10.170 --> 01:16.750
Et donc, quand je sors de ma chance de chance ici en prenant le précédent la chance précédente

01:16.810 --> 01:25.480
de celle que nous avons calculée ici et puis je vais utiliser l'autre méthode à laquelle je vais entrer 1 et l'action qui vient d'être

01:25.480 --> 01:31.510
jouer parce que nous voulons obtenir la probabilité de chance qui est associée à cette action.

01:31.510 --> 01:38.230
Et donc le deuxième argument ici je vais mettre mon action, mais il doit y avoir une torture horrible

01:38.860 --> 01:44.530
comme l'exige la fonction collectée et la fonction collectée indexe simplement avec un entier tenseur.

01:44.530 --> 01:48.910
D'accord, nous avons maintenant l'apparence d'associé à l'action affichée.

01:49.030 --> 01:53.790
Et maintenant, la prochaine étape consiste à ajouter ce que nous avons eu à la liste ici.

01:53.800 --> 01:55.570
Nous avons donc eu la valeur.

01:55.750 --> 01:58.820
C'est ce que nous avons obtenu ici en tant que sortie du modèle.

01:58.840 --> 02:00.880
Ensuite, nous avons également eu le problème de verrouillage.

02:00.910 --> 02:04.030
Nous allons donc ajouter le verrou à la liste des accessoires de verrouillage.

02:04.180 --> 02:09.610
Nous ajoutons déjà que l'entropie à l'entropie est moins bonne et les récompenses l'obtiendront par la suite.

02:09.700 --> 02:15.250
Nous allons donc maintenant nous ouvrir à la valeur et à la consultation de la liste de valeurs et du processus juridique.

02:15.520 --> 02:16.180
Faisons cela.

02:16.180 --> 02:23.800
Nous prenons notre liste de valeurs, nous ajoutons que nous utilisons la fonction dépenser et nous ajoutons la valeur

02:23.920 --> 02:32.700
renvoyée par le modèle parfait, puis identique pour les probs de verrouillage Nous venons de recevoir nos nouveaux accessoires et nous allons

02:32.710 --> 02:36.080
l’ajouter à la liste des accessoires de verrouillage.

02:36.180 --> 02:43.960
Et donc dans cette fonction append, nous pouvons mettre un journal de notre chance, il a probablement été calculé ici.

02:43.960 --> 02:47.320
Très bien, nos listes sont maintenant bien mises à jour.

02:47.350 --> 02:53.060
Maintenant, ce que nous allons faire, c'est jouer l'action parce qu'en fait nous avons choisi l'action

02:53.060 --> 02:56.570
en tirant au sort parmi la distribution des probabilités.

02:56.650 --> 03:03.040
Mais en réalité, nous ne l'avons pas encore joué et nous allons le jouer maintenant pour pouvoir atteindre le nouvel état

03:03.220 --> 03:06.150
et donc obtenir la nouvelle transition et la jouer.

03:06.170 --> 03:10.960
Nous allons prendre notre environnement parce que nous jouons l'action dans notre environnement puis nous

03:10.960 --> 03:12.990
allons utiliser la méthode step.

03:13.210 --> 03:20.650
Et à l'intérieur, nous spécifions l'action qui a été sélectionnée pour la jouer. Pour ce faire, nous prenons notre action et

03:20.650 --> 03:25.280
nous ajoutons que none, car c'est ce qui est attendu, c'est la fonction.

03:25.750 --> 03:35.820
Ok, mais cela renvoie en fait le nouvel état et la nouvelle récompense car en atteignant le nouvel état, nous obtenons une nouvelle récompense

03:36.000 --> 03:43.500
et nous obtenons une nouvelle valeur pour que Dunn sache si le jeu est terminé ou non.

03:43.500 --> 03:49.180
Très bien, avec cela, nous jouons l'action, nous atteignons un nouvel état et nous obtenons une récompense et nous savons si nous en

03:49.200 --> 03:50.510
avons fini avec le jeu.

03:50.520 --> 03:52.740
Et en parlant d'être fait avec le jeu.

03:52.990 --> 03:58.590
Eh bien, nous allons simplement ajouter quelque chose ici qui garantira qu'un agent n'est pas empilé dans un

03:58.590 --> 03:59.180
état.

03:59.280 --> 04:04.240
Et pour ce faire, nous allons mettre à jour cela très bien de la manière suivante.

04:04.860 --> 04:11.910
Eh bien ça va être égal à fait ou nous allons ajouter une condition disant que l'épisode du jeu

04:11.910 --> 04:19.200
ne devrait pas durer trop longtemps et nous verrons dans la fonction principale qu'il y aura un paramètre de longueur

04:19.200 --> 04:21.960
maximale qui sera égal à à 10000.

04:22.170 --> 04:25.750
Et nous ne voulons pas qu'un épisode dure plus de 10000 unités.

04:25.860 --> 04:34.200
Nous allons donc entendre la longueur de l'épisode qui correspond à la durée d'un épisode et

04:34.830 --> 04:43.250
écrire une condition plus grande que l'épisode max Lex que nous n'avons pas vraiment expliqué en détail.

04:43.250 --> 04:49.210
Nous obtenons cela de nos paramètres pour une fin ici Paramjit mais Ramstad.

04:49.210 --> 04:50.600
Max est en longueur.

04:50.600 --> 04:59.330
Cela signifie donc que si le jeu est terminé ou si la longueur de l'épisode est supérieure à la longueur maximale de l'ensemble

04:59.330 --> 05:02.110
d'épisodes qui sera égale à 10 000.

05:02.270 --> 05:05.410
Le jeu sera terminé et nous commencerons un nouveau jeu.

05:05.960 --> 05:08.040
OK, ce n'est qu'une précaution.

05:08.180 --> 05:14.360
Et en parlant de précaution, nous allons ajouter une autre précaution pour fixer la récompense entre moins 1

05:14.360 --> 05:15.400
et plus 1.

05:15.470 --> 05:20.450
Nous avons déjà reçu le nous étions ici mais nous voulons nous assurer que la récompense est comprise entre moins 1 et

05:20.450 --> 05:20.960
plus 1.

05:21.140 --> 05:27.740
Et pour faire cela, nous devons simplement mettre à jour la récompense en faisant ceci en prenant le maximum puis

05:28.240 --> 05:31.060
en prenant les hommes de récompense et 1.

05:31.190 --> 05:37.790
Et ici nous prenons le maximum du minimum de récompense et 1 et moins 1 et cela assurera que la récompense

05:37.790 --> 05:40.040
est comprise entre moins un et un.

05:40.160 --> 05:40.910
D'accord.

05:40.910 --> 05:42.180
Donc une autre percussion.

05:42.380 --> 05:49.070
Et maintenant, nous voulons juste vérifier si le jeu est terminé, auquel cas nous allons redémarrer l'environnement.

05:49.220 --> 05:53.010
Et pourquoi devons-nous vérifier cela maintenant parce que nous venons d'atteindre un nouvel état.

05:53.090 --> 05:54.880
Nous venons de passer une nouvelle transition.

05:54.890 --> 05:58.010
Nous devons donc vérifier cela après avoir passé cette nouvelle transition.

05:58.130 --> 06:06.860
Eh bien, le jeu n'est pas terminé. Si c'est à refaire, le cas échéant, nous

06:07.250 --> 06:14.180
redémarrerons les environnements en réglant la longueur de l'épisode à zéro.

06:14.330 --> 06:21.800
Et aussi l'état sera ré-initialisé pour ré-initialiser lorsque nous prenons notre environnement et que nous

06:21.800 --> 06:25.270
utilisons la fonction de réinitialisation OK.

06:25.310 --> 06:29.040
Maintenant, nous sortons de cette condition qui était en train de vérifier.

06:29.230 --> 06:34.640
Et maintenant, ce que nous allons faire, c’est que nous avons atteint un nouvel état alors que ce nouvel état

06:34.640 --> 06:40.410
est de temps en temps par Ray, car rappelez-vous que les états sont les images d’entrée nommées à l’origine par des tableaux.

06:40.570 --> 06:44.430
Et maintenant, nous devons convertir le nouvel État en une réponse torturée.

06:44.600 --> 06:50.410
Nous allons donc mettre à jour notre état et nous allons utiliser la bibliothèque de flambeau.

06:50.630 --> 07:00.880
Et bien sûr, la fonction de non-thaïlandaise pour convertir ces images de non-payeurs indique les images d'entrée dans un capteur de

07:00.890 --> 07:01.800
torche.

07:02.150 --> 07:03.150
Parfait.

07:03.260 --> 07:08.620
Et maintenant, la dernière chose que nous devons faire avant de sortir de cette boucle, c'est la boucle

07:08.810 --> 07:13.030
sur nos pas. C'est bien sûr de dépenser la récompense dans la Watchlist.

07:13.040 --> 07:18.310
C'est la dernière chose à mettre à jour: nous avons mis à jour toute la liste sauf la récompense.

07:18.320 --> 07:24.830
Donc, nous allons le faire tout de suite, nous recevons nos récompenses et nous utilisons votre fonction cérébrale

07:24.830 --> 07:28.110
pour ajouter le dernier mot qui vient d'être parfait.

07:28.220 --> 07:36.110
Et juste avant de sortir de la boucle, nous avons juste besoin de faire une dernière vérification pour vérifier que si c'est

07:37.340 --> 07:39.490
fait, nous voulons arrêter l'expiration.

07:39.530 --> 07:42.550
Et donc nous allons simplement ajouter ici une pause.

07:42.560 --> 07:48.590
Cela signifie que si cela est fait, nous arrêtons l'exploration et passons directement à l'étape

07:48.590 --> 07:56.930
suivante qui consistera à mettre à jour le modèle partagé. Nous en avons maintenant terminé avec cette opération, car l'agent a effectué

07:56.930 --> 07:57.980
son exploration.

07:58.190 --> 08:04.910
Il mettra à jour le modèle partagé et nous nous en occuperons dans le prochain tutoriel, et ainsi de suite.