WEBVTT

00:00.330 --> 00:07.100
Bonjour et bienvenue dans le troisième module de la mer H-3 en tant qu’agent critique actif synchrone.

00:07.200 --> 00:11.850
Et maintenant, je peux vraiment dire bienvenue à l’apprentissage automatique à la pointe de la technologie.

00:12.180 --> 00:16.560
Eh bien, à l'époque, je dis cela parce que peut-être certains d'entre vous suivront le cours dans

00:16.590 --> 00:20.080
un ou deux ans, mais à l'époque, je le dis en 2017.

00:20.190 --> 00:25.410
Eh bien, vous êtes sur le point de travailler sur l’un des modèles les plus puissants en intelligence artificielle,

00:25.410 --> 00:28.780
mais il n’ya pas que ce qui est spécial dans ce module.

00:28.830 --> 00:35.280
Non seulement nous sommes sur le point de travailler avec le modèle le plus puissant, mais nous

00:35.280 --> 00:42.630
allons implémenter la version la plus puissante de cet algorithme, qui est la version la plus optimisée du modèle A-380,

00:42.990 --> 00:47.030
car vous pouvez imaginer qu'il existe le cœur de l'algorithme.

00:47.190 --> 00:50.880
Mais il existe de nombreux outils que nous pouvons utiliser pour optimiser l’ensemble du modèle.

00:50.970 --> 00:55.110
Ainsi, non seulement vous allez avoir le coeur du chemin à travers l'algorithme,

00:55.110 --> 00:59.450
mais vous allez également implémenter tous ces outils pour rendre le modèle super puissant.

00:59.670 --> 01:01.490
Et pourquoi je voulais faire ça.

01:01.590 --> 01:03.110
Eh bien c'est pour deux raisons.

01:03.120 --> 01:06.210
La première raison est que nous approchons de la fin du discours.

01:06.210 --> 01:10.770
Ce cours est le cours le plus élevé entre les trois cours et ils traiteront de l'IA.

01:10.870 --> 01:14.340
C'est que maintenant je pense que vous êtes prêt à passer au niveau suivant.

01:14.400 --> 01:19.230
Et la deuxième raison est que la résolution de l'évasion est en réalité un défi de taille.

01:19.230 --> 01:24.270
Rappelez-vous que dans la vidéo promotionnelle, nous voulions que Breakout soit le premier module, car nous pensions que

01:24.270 --> 01:29.410
ce serait le défi le plus facile, mais pas du tout. C’était en fait le défi le plus difficile

01:29.400 --> 01:36.060
et le moyen le plus facile d’expliquer que c’était bien que les monstres sont énormes. et donc plus facile à détecter et donc plus facile

01:36.060 --> 01:37.620
à tuer ou à éviter.

01:37.830 --> 01:44.160
Mais dans Breakout, nous avons cette boule minuscule que l’œil doit détecter, car il aura toujours des

01:44.160 --> 01:44.810
yeux.

01:44.800 --> 01:47.670
Vous nous continuez à faire un apprentissage en renforcement profond.

01:47.910 --> 01:53.340
C'est donc très difficile et c'est pourquoi nous n'avons pas vraiment le choix de le mettre en œuvre.

01:53.340 --> 01:59.080
La version la plus puissante de l'A-3 comprend maintenant pourquoi je dis que c'est la version la plus puissante.

01:59.120 --> 02:00.350
C'est pour une raison particulière.

02:00.350 --> 02:05.270
Ce n'est pas comme si je disais que je vais implémenter la version la plus puissante de l'A-380.

02:05.460 --> 02:06.420
Non ce n'est pas ça.

02:06.540 --> 02:11.550
La raison pour laquelle je dis cela est que la version que nous étions sur le point de mettre en

02:11.550 --> 02:18.090
œuvre et que nous allons faire quelque chose de très spécial est en fait une version du 3 C qui a été mise en œuvre par

02:18.240 --> 02:23.910
quelqu'un mais corrigée par l'une des personnes les plus influentes. dans l'apprentissage de la machine aujourd'hui qui se trouve être le créateur de

02:23.910 --> 02:24.810
la torche Pi.

02:24.810 --> 02:27.330
Il s'appelle Dan Pashka.

02:27.710 --> 02:28.840
Maintenant ce que nous allons faire.

02:29.040 --> 02:35.430
Nous allons continuer à avoir sur la page principale et si vous faites défiler de haut

02:35.790 --> 02:40.700
en bas, vous verrez l’équipe lutter contre les créateurs et les contributeurs.

02:40.800 --> 02:45.500
Et vous pouvez voir ici que mon flambeau est actuellement maintenu par Adam Pascal.

02:45.690 --> 02:51.340
C'est la personne à qui nous devrions vraiment être reconnaissants car il existe très peu de versions

02:51.340 --> 02:57.120
des trois choses qui fonctionnent bien pour l'évasion et il a corrigé l'un des codes de l'A-380 pour que

02:57.120 --> 02:58.470
cette opération fonctionne parfaitement.

02:58.470 --> 03:04.320
Donc, Pascal ne maintient pas seulement Envers, mais il est aussi l’un des créateurs de flambeau et, comme je l’ai dit aujourd’hui,

03:04.320 --> 03:08.090
il fait partie des 10 personnes les plus influentes en matière d’apprentissage automatique.

03:08.190 --> 03:13.500
Nous pouvons donc être certains que la version que nous sommes sur le point d’implémenter est probablement la version la plus

03:13.500 --> 03:15.050
puissante de l’A-3 disponible aujourd’hui.

03:15.240 --> 03:17.580
Et alors quelle est cette implémentation.

03:17.760 --> 03:23.100
Eh bien à l'origine, il provient d'un développeur appelé histoire iliaque de.

03:23.220 --> 03:29.400
Et comme vous pouvez le constater, il a procédé à la mise en œuvre de l’A3 C qui, à l’origine, n’avait

03:29.400 --> 03:32.950
pas bien fonctionné en évasion, mais quelqu'un a ensuite demandé à tirer.

03:32.970 --> 03:39.170
Si nous allons à la demande de la piscine ici, nous pouvons voir dans la lettre proche que nous allons nous avons celle-ci une

03:39.170 --> 03:41.030
solution plus propre au problème de Gretchen.

03:41.190 --> 03:43.810
Et devinez de qui cette demande de traction a été faite.

03:43.950 --> 03:51.060
Il a été fabriqué à partir d’Adam Pashka créé par une torche et a résolu le problème qui fait que l’A-380 fonctionne très

03:51.060 --> 03:54.720
bien lors d’une sortie sans attendre des jours et des jours.

03:55.200 --> 04:01.950
Et donc, si nous revenons à cette implémentation, nous pouvons voir les quatre contributeurs de cette implémentation la

04:01.950 --> 04:02.900
plus puissante.

04:03.180 --> 04:04.590
Et voici les contributeurs.

04:04.590 --> 04:10.380
Merci beaucoup à chacun d’entre eux et nous pouvons dire un grand merci à Adam, passionné, qui a

04:10.380 --> 04:12.810
résolu le problème du partage du fil.

04:12.810 --> 04:16.590
Il a commencé par faire un fork, qui est une sous-branche du code.

04:16.590 --> 04:20.970
Et il a ensuite fait une demande d'extraction au développeur pour résoudre ce problème.

04:20.970 --> 04:26.790
Il n'y avait pas de code qui soit un gros problème de partage et c'est pourquoi il est devenu un

04:26.790 --> 04:32.850
contributeur majeur de cette implémentation, ce qui a permis à l'ensemble de fonctionner parfaitement et, croyez-moi, j'ai beaucoup expérimenté le modèle

04:33.000 --> 04:36.390
CA / CC mis en œuvre à l'aide de cinq modèles.

04:36.390 --> 04:41.430
J'étais même désespéré que cela ne fonctionne pas bien alors j'ai fait mon propre évasion et mon cavy pour avoir un

04:41.550 --> 04:44.300
ballon plus gros et donc un prétraitement plus facile des images.

04:44.340 --> 04:48.780
Puis je suis revenu à l’œil et ai réalisé ma propre implémentation du 3C.

04:48.860 --> 04:53.280
Mais cela a pris des années à courir et à s'entraîner sur un ordinateur assez puissant.

04:53.460 --> 04:55.190
Je voulais donc trouver un meilleur moyen.

04:55.380 --> 04:56.990
Et c'est comme ça.

04:57.150 --> 05:03.460
Très puissante implémentation du Silmaril dont l'un des contributeurs majeurs est le Créateur

05:03.530 --> 05:04.530
au flambeau.

05:04.580 --> 05:11.270
Donc, ce que nous allons faire dans ce Mudgal, je pense que vous êtes prêt, c’est d’implémenter ce code de

05:11.270 --> 05:13.980
plus haut niveau pour l’implémentation de l’A3.

05:14.060 --> 05:19.720
Nous allons donc fondamentalement réimplémenter tous ces fichiers et nous allons surtout insister sur les fichiers qui sont

05:19.720 --> 05:24.650
directement liés aux trois parties C qui sont directement liées à ce que nous voyons.

05:24.680 --> 05:27.800
Nous allons implémenter le code ligne par ligne pour les autres.

05:27.820 --> 05:33.290
Je vais juste développer le code pour que nous puissions nous attaquer à ce problème sans le trouver trop accablant, de sorte

05:33.850 --> 05:36.150
que nous puissions utiliser un module assez spécial.

05:36.170 --> 05:42.220
Nous travaillons non seulement dans un modèle ultramoderne d'intelligence artificielle, mais nous sommes également confiants de

05:42.230 --> 05:45.730
pouvoir utiliser la version la plus puissante de l'A-380.

05:46.070 --> 05:47.050
Alors faisons-le.

05:47.090 --> 05:51.740
Revenons à Python et commençons tout cela avant de commencer.

05:51.770 --> 05:54.800
Nous allons faire la chose la plus simple que nous allons faire dans ce module.

05:54.830 --> 05:56.870
Définition du dossier du répertoire de travail.

05:57.080 --> 06:02.660
Allons à notre intelligence artificielle. Ce sont les modules de dossiers de modèles que nous distinguons le plus difficile.

06:02.930 --> 06:03.830
Et c'est parti.

06:03.830 --> 06:05.070
C'est tous nos fichiers.

06:05.240 --> 06:09.130
Voyons donc lesquels sont directement liés à A-3 C.

06:09.200 --> 06:11.610
Et voyons quels sont ceux que nous allons implémenter.

06:11.690 --> 06:14.770
Ligne par ligne, concentrez votre énergie.

06:14.840 --> 06:16.450
Donc, il y a en fait deux fichiers.

06:16.490 --> 06:22.250
Le premier n’est pas tout à fait celui-ci, nous allons donc le réimplémenter ligne par ligne car c’est le plus important, c’est

06:22.250 --> 06:25.450
là que nous faisons en sorte que les A-3 voient la tête.

06:25.550 --> 06:30.590
Et la chose la plus importante à comprendre ici est que nous aurons un modèle partagé qui

06:30.590 --> 06:34.340
contiendra les mêmes données des poids pour l’acteur et le critique.

06:34.370 --> 06:39.490
C'est une partie de cette version spéciale de l'A-3 voir le modèle partagé avec les données partagées les

06:40.130 --> 06:43.890
poids et ensuite l'autre fondateur le plus important à mettre en œuvre.

06:43.910 --> 06:51.270
Ligne par ligne, les oiseaux sauvages dressés bien sûr, juste après que nous ayons créé le cerveau de la mer.

06:51.500 --> 06:55.940
Eh bien, nous devons les former et nous les formons dans ce train que j’épouse.

06:56.180 --> 07:02.720
C'est donc un code assez long mais c'est ce qui contient le cœur du modèle A3 C qui

07:02.720 --> 07:08.900
devra à Lass's de réduire la valeur aux États-Unis qui est la dernière liée aux prédictions du

07:09.230 --> 07:14.640
critique et la dernière politique qui est la dernière liée aux prédictions de l'atome.

07:14.840 --> 07:20.570
C'est donc assez nouveau, mais vous savez que c'est parce que l'A-380 travaillait essentiellement avec plusieurs agents,

07:20.810 --> 07:23.210
chacun ayant sa propre copie de l'environnement.

07:23.330 --> 07:28.790
Nous avons également cette couche entièrement connectée qui fournit une valeur de la fonction et qui est fondamentalement une vision

07:28.790 --> 07:31.540
commune de ce qui se passe dans le jeu.

07:31.550 --> 07:34.130
Donc, ce sera assez difficile.

07:34.220 --> 07:40.840
Alors, assurez-vous d'être en forme et pour le reste des membres. Bien, je vais simplement les expliquer en détail, mais ne

07:40.880 --> 07:45.810
leur consacrez pas trop de temps, croyez-moi, vous voulez garder votre énergie pour cela.

07:45.830 --> 07:47.110
Ce sera déjà beaucoup.

07:47.150 --> 07:55.490
Donc, ces gars-là sont des fourmis ducky Y, une amélioration de l’environnement de la salle de sport grâce à l’univers.

07:55.490 --> 08:00.920
Donc, fondamentalement, cela améliore simplement l’environnement de la salle de sport avec l’univers et cela

08:00.920 --> 08:07.150
nous permet d’avoir un prétraitement optimal des images et également de normaliser toutes les valeurs de l’environnement, telles

08:07.160 --> 08:10.160
que l’intensité des couleurs ou celle des récompenses.

08:10.280 --> 08:15.710
Eh bien toutes les valeurs de l'environnement, ce fichier normalise toutes ces valeurs et veille à ce que nous en ayons assez

08:15.800 --> 08:18.110
pour ne pas poursuivre le traitement des images.

08:18.170 --> 08:24.720
Et comme vous pouvez le voir, cela provient de cette ouverture. Je vois sa page où l’agent de l’histoire de l’univers.

08:24.830 --> 08:28.870
Donc, nous ne passerons pas trop de temps là-dessus, nous nous arrêterons ici.

08:28.910 --> 08:34.390
Vous devez juste comprendre que nous avons amélioré l’environnement de la salle de sport grâce à l’univers nécessaire

08:34.390 --> 08:36.390
pour ne pas traiter les images.

08:36.440 --> 08:39.900
Le reste n'est pas si important, surtout pour le PC.

08:40.340 --> 08:45.190
Ensuite, nous avons principal ce P Y qui est le code qui exécutera le tout.

08:45.200 --> 08:50.190
Donc, vous connaissez le code qui va exécuter le tout, créer le cerveau, former le cerveau et sortir la vidéo.

08:50.210 --> 08:53.810
Et c’est parce que tous ces codes seront exécutés ici.

08:54.350 --> 08:57.700
Donc plus nous avons vu où il était alors peut-être trouvé.

08:57.710 --> 09:00.130
Pourquoi est l'optimiseur spécial.

09:00.380 --> 09:06.240
C'est fondamentalement l'optimiseur d'atomes mais adapté à ce modèle partagé que nous mettons en place.

09:06.260 --> 09:09.290
Nous allons donc expliquer tout ce code dans un tutoriel.

09:09.290 --> 09:11.490
Ensuite, nous avons testé W-pourquoi.

09:11.530 --> 09:13.610
C'est en fait le dernier à tester.

09:13.610 --> 09:17.410
Q Pourquoi est fondamentalement le fichier qui implémentera un agent de test.

09:17.510 --> 09:22.440
Il y a donc un agent qui jouera en éclats sans mettre à jour le modèle.

09:22.490 --> 09:24.740
Donc, c'est totalement indépendant de la formation.

09:24.860 --> 09:27.460
Et nous allons également développer ce code dans les détails.

09:27.530 --> 09:33.710
En plus des bonnes nouvelles, vous aurez deux codes: un code qui sera celui que nous implémentons dans

09:33.710 --> 09:36.080
les tutoriels, mais sans aucun commentaire.

09:36.290 --> 09:40.580
Et l'un des codes qui est l'un des dossiers de codes avec tous les codes le commande.

09:40.700 --> 09:44.060
Donc, avec toutes ces six fautes toutes bien connectées.

09:44.180 --> 09:49.520
Alors que si vous manquez quelque chose et tutoriel, vous serez en mesure de regarder le contenu du code pour

09:49.640 --> 09:51.010
comprendre ce qui se passe.

09:51.200 --> 09:52.130
Alors on y va.

09:52.130 --> 09:54.500
J'espère que vous êtes enthousiaste à l'idée de mettre cela en œuvre.

09:54.500 --> 09:59.020
Vous êtes vraiment au sommet de la montagne maintenant ou juste en dessous du sommet parce que vous devez

09:59.120 --> 10:01.160
comprendre ceci au préalable, mais vous y allez.

10:01.190 --> 10:02.910
Alors, prenez une bonne respiration d'oxygène.

10:03.020 --> 10:05.690
Et nous y voilà avec un voyage super excitant.

10:05.720 --> 10:06.870
Jusque-là profiter.
