WEBVTT

00:00.620 --> 00:04.010
Bonjour et bienvenue au cours sur l'intelligence artificielle.

00:04.010 --> 00:05.940
Dans le tutoriel d'aujourd'hui, nous allons nous amuser.

00:05.960 --> 00:11.900
Nous allons jeter un coup d'œil sur l'intelligence artificielle qui traverse ce labyrinthe dont nous parlons depuis si longtemps

00:11.900 --> 00:18.740
et qui va utiliser l'apprentissage de la connaissance pour naviguer dans son chemin et trouver le moyen de s'en sortir et nous

00:18.830 --> 00:24.350
verrons ce qu'il adviendra du q des valeurs allaient arriver à la politique et ainsi de suite.

00:24.350 --> 00:26.310
Alors jetons un coup d'oeil.

00:26.330 --> 00:31.910
Nous allons utiliser des matériaux aimablement fournis par l’Université de Berkeley.

00:31.910 --> 00:40.700
Donc, si vous allez dans un coin, je ne fais pas que le Birk. Pourquoi ne retournez-vous pas simplement vers ce lien.

00:40.790 --> 00:47.510
Vous verrez ce site Web et entendrez ce que nous allons examiner, c'est la nécessité d'aller vers

00:47.550 --> 00:49.130
les projets PacMan.

00:49.130 --> 00:58.160
Je pense que les projets de Pacman et ici si vous faites défiler vers le bas et vous les regardez dans la première à apprendre c'est ce que

00:58.160 --> 00:59.050
nous travaillons

00:59.180 --> 01:01.700
Donc, ici, vous pouvez télécharger l'archive zip.

01:01.700 --> 01:03.500
Donc, si vous voulez.

01:03.530 --> 01:08.330
Donc, ne vous y attendez pas, nous n'allons pas examiner ensemble une solution dans cet essai, nous

01:08.330 --> 01:11.860
vous ferons simplement savoir d'où vient tout cela, car nous ressemblons beaucoup.

01:11.870 --> 01:12.930
Nous apprécions vraiment cela.

01:12.980 --> 01:16.180
UC Berkeley a mis ces matériaux à disposition.

01:16.190 --> 01:19.300
Mais si vous souhaitez expérimenter cela par vous-même.

01:19.400 --> 01:20.660
Gardez juste à l'esprit que cela n'en fait pas partie.

01:20.680 --> 01:23.310
Ne fera pas partie de nos cours dans le cadre du cours Berkeley.

01:23.330 --> 01:27.860
Je ne suis pas sûr de savoir comment cela fonctionne à des fins d'illustration, mais si vous voulez expérimenter

01:27.860 --> 01:31.340
cela, vous pouvez le trouver ici l'archive zip et toutes les anciennes instructions.

01:31.430 --> 01:38.450
Et nous allons simplement passer immédiatement à Python et je voudrais tout d’abord vous montrer que c’est ici que nous

01:38.450 --> 01:42.790
avons les informations de licence, c’est ce que je veux dire.

01:42.870 --> 01:47.720
Nous sommes très chanceux d'avoir dit que nous sommes libres d'utiliser ou d'étendre ces projets à des fins éducatives, à

01:47.720 --> 01:51.120
condition que vous sachiez distribuer des solutions de publication que nous n'allons pas faire.

01:51.200 --> 01:56.750
Vous conservez cet avis et nous fournissons un archevêque clair à UC Berkeley, y compris un lien vers lequel nous avons

01:56.780 --> 01:57.860
également un lien.

01:57.860 --> 02:00.750
Donc, encore une fois, si vous souhaitez en savoir plus, cliquez sur le lien.

02:00.770 --> 02:01.720
Vous pouvez jeter un oeil.

02:01.730 --> 02:07.490
Et merci beaucoup à toutes ces personnes qui ont travaillé sur ce projet, alors voici le monde de la grille.

02:07.490 --> 02:09.370
Nous allons travailler s'il y a une solution.

02:09.460 --> 02:15.110
Pour le faire fonctionner correctement, vous devrez le résoudre vous-même ou éventuellement trouver une solution.

02:15.110 --> 02:18.980
Peut-être que certaines de vos personnes, quelqu'un que vous connaissez, pourraient vous aider avec cela.

02:19.160 --> 02:24.260
Si, encore une fois, ce que vous voulez, vous n’êtes pas obligé car nous allons simplement le regarder sur cet écran

02:24.320 --> 02:25.110
pour le moment.

02:25.160 --> 02:29.720
Donc, après avoir créé tous ces fichiers, nous pourrions simplement le lancer ici.

02:29.720 --> 02:36.680
Il existe donc certains paramètres en jeu dans ce monde et nous ne vous montrerons pas à quoi

02:36.680 --> 02:39.080
ça ressemble si nous le lançons.

02:39.080 --> 02:41.540
Essayons donc de le lancer en mode manuel.

02:41.540 --> 02:47.070
Donc, si je vais moins un de ces panoramas sont manuels, je peux donc commander votre agent de contrôle.

02:47.090 --> 02:52.820
Donc, ici, vous pouvez voir toutes les grilles afin que je puisse monter afin que vous puissiez voir que cela commence à agir et

02:52.820 --> 02:54.980
a commencé dans les États où je me trouvais.

02:55.100 --> 03:00.650
Et puis vous avez vu que je pressais Norf et que la première fois, je me retrouvais à zéro une fois que

03:00.650 --> 03:01.310
je montais.

03:01.490 --> 03:05.000
Mais la deuxième fois, je suis passé à l’action Norf et j’ai terminé dans le même triste qui n’a pas bougé.

03:05.000 --> 03:08.440
Donc quelque chose est arrivé vous savez le hasard est arrivé je suis allé à gauche ou à droite.

03:08.780 --> 03:10.910
Et par défaut, les paramètres sont définis.

03:10.910 --> 03:16.910
Vous pouvez voir ici que, par défaut, ils correspondent exactement à ce dont nous avons discuté, à savoir à quelle fréquence aboutit à

03:16.940 --> 03:18.250
une direction non souhaitée.

03:18.270 --> 03:20.960
20% du temps à 10% à gauche, certains à droite.

03:21.230 --> 03:23.520
Donc, si je monte et dis que je suis monté, je vais à droite.

03:23.520 --> 03:26.810
Je suis allé droit tout de suite n'a pas eu lieu.

03:26.810 --> 03:29.790
Encore et encore et j'ai terminé.

03:29.790 --> 03:35.810
Mais dans cette implémentation, vous devez cliquer à nouveau pour sortir de cette sortie finale, alors cliquez simplement à nouveau

03:35.810 --> 03:37.140
et vous avez terminé.

03:37.190 --> 03:40.700
C'est un état terminal afin que nous puissions exécuter notre manuel.

03:40.730 --> 03:45.620
Vous pouvez voir que si je vais à droite, à droite, à gauche.

03:45.740 --> 03:50.060
Donc, voici ce que nous avons vu précédemment que l’agent n’irait pas directement.

03:50.060 --> 03:53.300
Quel est l'intérêt de monter s'il y a une chance d'aller dans la fosse.

03:53.300 --> 03:54.580
Voyons ce que l'agent ferait.

03:54.610 --> 03:56.780
Il irait à gauche et irait à l'ouest ici irait à l'ouest.

03:56.780 --> 04:00.820
Et vous voyez que j'ai cliqué à gauche mais que ça a augmenté et ici je clique à droite.

04:00.860 --> 04:05.390
Et je me retrouve dans la phase de sortie finale et vous voyez la récompense de Dieu égale à un.

04:05.390 --> 04:07.190
Voilà à quoi ça ressemble manuellement.

04:07.190 --> 04:12.520
À présent, connectons un IA à ceci et le laissons passer.

04:12.510 --> 04:16.800
Alors faisons un H ici et ajoutons un peu de Brandner.

04:16.820 --> 04:24.170
Alors permettez-moi de voir ce que j'ai dactylographié ici. J'espère que vous pourrez voir par monde de grille pourquoi ici,

04:24.230 --> 04:25.370
moins nos moyens.

04:25.370 --> 04:27.980
C'est la récompense de la vie.

04:27.980 --> 04:31.840
Donc, j'en ai deux alors je devrais probablement enlever celui-ci.

04:32.190 --> 04:35.050
Donc, moins k est le nombre d'itérations.

04:35.060 --> 04:36.690
C'est beaucoup trop d'itérations.

04:36.690 --> 04:41.180
Faisons moins Faisons comme si 10 itérations devraient suffire.

04:41.180 --> 04:42.710
Minus a est un agent.

04:42.710 --> 04:47.040
Quel type d'agent ne veut pas faire honneur et image et une valeur ou un Q.

04:47.060 --> 04:49.120
Q Donc je veux un Q.

04:49.190 --> 04:57.090
Q agent d’apprentissage qui fait ce moins est la vitesse, c’est donc une force beaucoup trop grande qui utilise

04:57.090 --> 05:04.780
simplement la vitesse maximale pour le moment, moins R est une pénalité vivante, donc par défaut zéro.

05:04.820 --> 05:11.000
Donc, au tout début, relancez 0 pénitences vivantes, appelez-le également

05:11.000 --> 05:16.040
0 0 et supprimez simplement ce paramètre.

05:16.040 --> 05:20.660
Donc, je pense que nous allons garder ce point à zéro et être

05:20.660 --> 05:27.880
très similaire à ce que nous commençons dans cette section du parcours, alors allons-y bien trop vite pour que vous

05:27.880 --> 05:30.130
puissiez voir comment il explorant.

05:30.580 --> 05:35.650
Et jusqu’à présent, il est frappé négatif trois fois et vous pouvez voir comment les valeurs q sont mises à

05:35.650 --> 05:36.690
jour dans ces carrés.

05:36.700 --> 05:37.860
Ce sont donc des valeurs clés.

05:37.870 --> 05:39.310
Ils sont en quelque sorte à zéro.

05:39.320 --> 05:40.740
Vous pouvez voir maintenant la valeur Q.

05:40.740 --> 05:45.220
Il a donc appris que celui-ci est un outil un peu différent, car une fois que vous arrivez à la dernière

05:45.220 --> 05:46.560
étape, vous devez vous en sortir.

05:46.660 --> 05:48.990
Vous devez simplement cliquer sur un bouton de plus pour quitter.

05:49.000 --> 05:51.740
Et donc c'est très proche de l'un mais pas exactement un.

05:51.760 --> 05:57.530
Mais en même temps, vous pouvez voir que vous savez ici que la valeur de cristalliser lentement les mains est un point

05:57.520 --> 06:02.290
qui permet à un ex-collègue de gagner de l'argent, mais elles sont pour le moment zéros, car

06:02.290 --> 06:05.470
il n'a pas assez d'informations pour comprendre ce qui se passe.

06:05.470 --> 06:08.710
OK alors voyons voyons ce qui se passe ici.

06:10.180 --> 06:13.620
Explorer explorer explorer ce qui va se passer.

06:13.710 --> 06:15.300
Eh bien, ça faisait longtemps.

06:15.670 --> 06:17.940
Et nous obtenons cela un peu aléatoire impliqué ici.

06:18.100 --> 06:20.100
Donc, il y en a un bon quelques fois.

06:20.110 --> 06:22.500
Maintenant, il ne reçoit que 10 itérations.

06:22.510 --> 06:26.780
Donc, il doit apprendre vite Ok, j'ai besoin de toi là-bas.

06:27.220 --> 06:29.280
Voyons ce qui se passe.

06:29.320 --> 06:30.050
Allons.

06:30.060 --> 06:31.820
Sortez déjà de ce labyrinthe.

06:32.840 --> 06:38.450
Et oui 10 épisodes si moyen, il se trouve que.

06:38.590 --> 06:40.430
Ce n'est pas vraiment intéressé par ça.

06:40.460 --> 06:41.760
Alors, voyons.

06:41.760 --> 06:43.060
Je n'ai jamais vu assez d'un clic.

06:43.100 --> 06:43.460
Droite.

06:43.460 --> 06:43.810
Nous y voilà.

06:43.820 --> 06:47.780
Vous voyez donc que c’est la politique qu’il a élaborée.

06:48.020 --> 06:50.860
Même après 10 épisodes, il a déjà le pouls.

06:50.890 --> 06:55.820
Je vais monter une bombe et ici je vais descendre ici je vais descendre ici je vais aller dans le

06:55.820 --> 06:58.320
mur et ensuite je vais rebondir nous sommes ici.

06:58.550 --> 06:59.620
C'est plutôt cool.

07:00.000 --> 07:00.250
D'ACCORD.

07:00.260 --> 07:02.530
Alors maintenant augmentons la vitesse.

07:02.650 --> 07:04.220
Quel était le paramètre est là.

07:04.220 --> 07:06.240
Et c'est comme une double anarchie.

07:06.260 --> 07:13.070
C'est quatre fois plus rapide et augmentons le nombre d'itérations. Disons donc 20 pour rationner cette fois et voyons

07:13.070 --> 07:16.390
s'il peut en passer un peu plus maintenant.

07:16.790 --> 07:18.700
Alors vous pouvez voir qu'il va un peu plus vite.

07:19.600 --> 07:25.900
Et il apprend qu'il apprend que ce n'est pas vraiment que vous sachiez qu'en sortant de cet état, il n'y a pas beaucoup de

07:25.900 --> 07:30.220
bonnes actions Orio ces actions que les bonnes et les droites ne sont pas bonnes.

07:30.250 --> 07:32.400
Ce n'était vraiment pas bon.

07:32.410 --> 07:34.680
Il a encore besoin d'apprendre que c'est bien ici aussi.

07:34.680 --> 07:36.820
Vous pouvez voir que cette action est assez bonne.

07:36.820 --> 07:37.330
D'accord.

07:37.330 --> 07:38.380
Qu'a-t-il eu.

07:38.530 --> 07:39.100
D'ACCORD.

07:39.100 --> 07:42.200
Donc politique intéressante ici vous nous décidons de monter.

07:42.330 --> 07:43.270
Juste pas assez d'informations.

07:43.270 --> 07:45.610
Alors faisons vraiment ça.

07:46.850 --> 07:50.370
Et augmentons la vitesse pour aimer 100.

07:50.630 --> 07:56.570
Super rapide et le nombre d'itérations lui donnera 100 itérations cette fois, il exécute cette

07:56.570 --> 08:02.930
scène comme un fou rapide et vous pouvez le voir car il y a tellement plus

08:02.930 --> 08:09.500
d'itérations Il a plus d'informations plus d'opportunités d'expérimenter et de construire cette matrice ces valeurs pour chaque

08:09.500 --> 08:10.240
état.

08:10.250 --> 08:13.220
Il sait maintenant que vous pouvez voir que le point zéro quatre vingt neuf.

08:13.250 --> 08:16.050
Qu'avons-nous dit dans notre point zéro 86?

08:16.120 --> 08:20.660
Une autre chose à retenir est que la valeur de tout état donné.

08:20.720 --> 08:24.230
Rappelez-vous que la formule que nous avons est le maximum des valeurs de cube.

08:24.230 --> 08:27.160
Rappelez-vous cette chose que nous avons trouvé une formule de raccourci.

08:27.170 --> 08:30.690
Alors qu'est-ce que c'est que la valeur dans cet état soit le V de ceci.

08:30.900 --> 08:32.060
Ce serait 0. 18

08:32.060 --> 08:38.180
Parce que c'est le plus élevé des quatre ici la valeur de cet état 0. 7 vous voulez la valeur de cette journée.

08:38.210 --> 08:40.260
Y at-il point soixante et un et ainsi de suite.

08:40.400 --> 08:41.480
Donc, c'est quelque chose à retenir.

08:41.490 --> 08:45.590
Je me souviens que quand je me suis levé, je pense que nous avions comme point zéro 86 ou quelque chose d'aussi praecox.

08:45.770 --> 08:55.060
Et donc si nous y allons l'année prochaine, je disparais ou disparais encore et cela peut le faire revenir.

08:55.170 --> 08:55.750
D'ACCORD.

08:55.760 --> 08:56.210
D'ACCORD.

08:56.210 --> 09:00.680
Lentement, lentement, remplissant lentement certains espaces.

09:00.970 --> 09:01.450
Je vois.

09:01.490 --> 09:06.170
Et c'est aussi assez aléatoire car non seulement l'environnement est aléatoire, mais il explore également le fait

09:06.170 --> 09:10.750
que la star ne sait pas vraiment que la politique est qu'il explore au hasard.

09:11.190 --> 09:12.150
Continue à disparaître.

09:12.170 --> 09:13.420
Je ne comprends pas pourquoi.

09:13.680 --> 09:18.650
Quoi qu'il en soit, voyons ce qui se passera si vous augmentez le nombre ici.

09:18.650 --> 09:23.060
Ici, vous devriez prendre le même temps si la vitesse n'est pas limitée.

09:23.480 --> 09:27.610
OK, alors il a plus d'opportunités pour explorer des choses.

09:27.650 --> 09:30.850
OK, voyons comment ça se passe.

09:31.260 --> 09:35.010
Et vous pouvez voir que les valeurs convergent elles montent et descendent en fonction de ce que vous savez, car il

09:35.010 --> 09:38.640
y a un peu de hasard et il pourrait finir comme dans la fosse même s’il va comme cela.

09:38.640 --> 09:44.940
Mais en même temps, ils commencent lentement à converger vers une sorte de valeurs et de valeurs de repère.

09:44.950 --> 09:48.540
OK, probablement mille, c'est un peu trop en termes de temps.

09:48.540 --> 09:53.250
Il ne semble pas que la vitesse augmente proportionnellement également.

09:53.610 --> 09:55.560
Donc, il pourrait couper cette partie.

09:55.650 --> 09:57.560
Je veux dire comme réduire la vitesse.

09:57.600 --> 10:02.850
Vous savez bien que très bas, vous n’avez pas à regarder jusqu’à la fin de ce tutoriel,

10:02.850 --> 10:08.430
je veux juste en expérimenter un peu, pour vous donner quelques exemples de ce que nous avons traversé, mais

10:08.430 --> 10:10.920
vous comprenez que cela passe par tout cela.

10:10.950 --> 10:14.800
Il a un caractère aléatoire comme celui de Rambler dans son comportement.

10:14.820 --> 10:20.720
Ainsi, même si une politique est définie, elle continuera à l'explorer. Ainsi, une fois qu'elle aura une politique de

10:20.720 --> 10:23.420
base, elle ne suivra pas que sa politique.

10:23.460 --> 10:29.130
Il expérimentera encore d’autres variantes de temps en temps afin d’améliorer sa politique. Peut-être n’a-t-il pas

10:29.130 --> 10:31.350
déjà trouvé la meilleure politique.

10:31.350 --> 10:33.240
Peut-être que cela peut améliorer la politique.

10:33.360 --> 10:40.080
Et c’est pourquoi, même après tant d’itérations, vous pouvez toujours voir certains effets aléatoires, c’est parfois que l’on passe à des états aléatoires,

10:40.080 --> 10:45.060
non seulement à cause du caractère aléatoire de l’environnement, mais aussi parce qu’il existe un certain niveau,

10:45.060 --> 10:50.750
comme un paramètre, que vous pouvez définir. Demandez à votre agent de vous dire que vous savez que la

10:50.820 --> 10:56.040
plupart du temps, 80% du temps est conforme à votre politique mais 20% du temps, vous ne faites

10:56.040 --> 11:00.930
que vous amuser et voir ce qui se passe et utiliser les informations que vous collectez

11:00.930 --> 11:03.410
pour les mettre à jour. votre politique.

11:03.410 --> 11:05.300
OK, ça prend trop longtemps.

11:05.310 --> 11:06.360
Essayons cela à nouveau.

11:06.560 --> 11:11.640
Oui, c'est comme ça que l'agent apprend dans différents états.

11:11.640 --> 11:14.270
Peut-être allons-nous simplement en lancer un de plus par curiosité.

11:14.280 --> 11:16.590
Alors, y a-t-il autre chose que nous pouvons changer à ce sujet?

11:18.420 --> 11:20.110
Itérations.

11:21.630 --> 11:22.400
D'ACCORD.

11:22.430 --> 11:24.280
OK, jetons un coup d'oeil.

11:24.550 --> 11:26.680
Ouais ben on pourrait changer la discussion par exemple.

11:26.680 --> 11:39.860
Donc, dans ce cas, nous pourrions dire K moins cent moins un Q moins deux et moins sont OK mille.

11:39.920 --> 11:41.380
Alors récompensez.

11:41.390 --> 11:47.920
Nous voulons le garder peut-être gardons-le à 0. 04 Mais disons que contre cela, gardez la récompense à mon point de

11:47.920 --> 11:49.270
désert zéro pour chaque fois.

11:49.280 --> 11:58.340
Et puis ici, nous allons dire que la réduction n’est pas zéro point neuf, mais plutôt zéro point

11:58.340 --> 11:59.030
cinq.

11:59.060 --> 12:02.300
Cela fait donc l'objet de nombreuses réductions au fur et à mesure que vous avancez dans le jeu.

12:02.600 --> 12:08.960
Ainsi, il sera incité à se rapprocher de l’arrivée plutôt que d’aller plus loin. Les États proches de l’arrivée

12:08.960 --> 12:14.060
obtiendront une valeur élevée, ce qui vous permettra de voir que les valeurs chutent vraiment

12:14.060 --> 12:15.400
moins vertes qu’avant.

12:16.360 --> 12:20.190
Donc, ici vous pouvez voir que c'est la politique maintenant.

12:20.380 --> 12:26.490
Donc, ça va comme ça, comme ça, ça ressemble beaucoup à ce que nous avons vu auparavant, il n'y a probablement

12:26.500 --> 12:28.830
que des différences entre ici et ici.

12:28.840 --> 12:29.980
Donc c'est un.

12:30.000 --> 12:32.500
Et OK, courons juste un de plus.

12:32.500 --> 12:33.510
C'est trop amusant.

12:33.580 --> 12:39.020
Lançons-nous encore un peu pour que k moins k 100 et q soient écartés

12:39.130 --> 12:48.960
Conservez-le comme il était d'origine. Lançons simplement cette configuration vanille de base ok ok ok.

12:49.110 --> 12:51.110
Il va voir s'il va nous montrer la politique.

12:51.210 --> 12:54.820
Et oui nous avons la politique.

12:54.840 --> 12:55.150
Oui.

12:55.150 --> 12:56.350
Bonne finition.

12:56.350 --> 12:58.820
Nous avons donc la politique.

12:58.900 --> 12:59.830
Vous savez que c'est familier.

12:59.830 --> 13:05.260
Rappelez-vous le moment où nous avons vu que l'IA avait déjoué la bombe humaine dans le mur pour y

13:05.290 --> 13:08.530
aller et se projeter dans le mur pour aggraver le problème.

13:08.530 --> 13:09.270
Alors on y va.

13:09.280 --> 13:17.020
C’est un exemple d’inaction de l’intelligence artificielle, très simple mais très lucrative, donc aucun apprentissage en profondeur à

13:17.020 --> 13:18.190
ce stade.

13:18.610 --> 13:23.810
Mais en même temps, il est déjà très intelligent et j'espère que vous avez apprécié le tutoriel d'aujourd'hui.

13:23.810 --> 13:29.210
Et encore une fois merci à l’UC Berkeley et j’espère que vous avez apprécié le tutoriel d’aujourd’hui et j’attends avec impatience les

13:29.230 --> 13:29.630
paysages.

13:29.650 --> 13:31.120
Jusque-là, profitez de l'IA.
