WEBVTT

00:00.660 --> 00:03.540
Bonjour et bienvenue dans le cours sur l'intelligence artificielle.

00:03.540 --> 00:08.940
Dans le tutoriel d'aujourd'hui, nous allons couvrir un tutoriel assez complexe appelé trace d'éligibilité ou et

00:08.940 --> 00:09.500
step.

00:09.500 --> 00:14.970
Q apprendre et c’est quelque chose que je vais mettre en pratique de façon pratique, c’est

00:14.970 --> 00:21.390
pourquoi nous devons en sortir et, au centre, c’est un sujet assez complexe, nous avons donc une approche très

00:21.690 --> 00:24.880
intéressante pour nous mettre au courant l'intuition derrière.

00:24.890 --> 00:29.760
J'ai donc une approche différente de celle que nous avons l'habitude de suivre pour voir comment cela

00:29.760 --> 00:30.560
se passe.

00:30.780 --> 00:34.190
Je veux donc vous donner un exemple pour commencer.

00:34.260 --> 00:39.990
Je vais vous donner un exemple dans ce tutoriel et cela démontrera le pouvoir d'éligibilité.

00:40.020 --> 00:42.470
Et donnez-nous l'intuition derrière les choses.

00:42.540 --> 00:47.880
Et ensuite, si vous souhaitez approfondir vos connaissances sur les critères d'éligibilité, je vous indiquerai le meilleur endroit

00:47.880 --> 00:49.210
pour en savoir plus.

00:49.290 --> 00:52.560
Je vais vous donner une référence à un livre, mais sinon.

00:52.560 --> 00:57.120
Donc, même si cela va être différent parce que nous en sommes les premiers au lieu de nous plonger

00:57.420 --> 01:01.580
dans l'intuition, nous allons regarder un exemple et l'intuition deviendra évidente après que nous ayons parlé.

01:01.580 --> 01:03.010
Et c'est ce que j'espère.

01:03.130 --> 01:03.860
Alors jetons un coup d'oeil.

01:03.860 --> 01:06.000
Voyons, voyons si nous pouvons le faire.

01:06.000 --> 01:12.780
Nous avons donc ici deux agents qui naviguent dans le même environnement et nous allons voir comment fonctionnent ces

01:12.780 --> 01:13.740
deux agents.

01:13.740 --> 01:16.260
Le premier va travailler avec notre trace d'éligibilité.

01:16.260 --> 01:22.230
Le second va travailler avec des traces illisibles et nous espérons voir pourquoi le second va être

01:22.230 --> 01:24.450
tellement plus puissant que le premier.

01:24.630 --> 01:26.240
Alors jetons un coup d'oeil.

01:26.250 --> 01:28.040
Nous allons d'abord regarder cet agent.

01:28.320 --> 01:34.170
Et la façon dont il opère est la façon exacte dont nous avons discuté de la question de la grande circulaire jusqu'à présent.

01:34.530 --> 01:40.230
Donc, l'agent va faire un pas ou va bouger prendre un mouvement d'action dans un nouvel état.

01:40.260 --> 01:45.480
Ce qui est bien d’obtenir une récompense donnée va mettre cela à jour ou via son algorithme de mettre

01:45.480 --> 01:50.610
à jour le réseau de neurones qui exécute cet agent ou qui fonctionne dans l’esprit de cet agent.

01:50.610 --> 01:54.870
Donc, c’est fondamentalement ainsi que l’apprentissage à partir de ce moment va franchir une nouvelle étape.

01:54.870 --> 01:59.550
Donc, à partir de ce nouvel état va prendre une nouvelle action basée sur ce que son réseau de

01:59.550 --> 02:03.930
neurones lui dit de faire va obtenir des récompenses en cours de mise à jour etc.

02:03.930 --> 02:09.370
Donc, évidemment, cela va faire un assez bon travail et comme nous l'avons vu précédemment du précédent

02:09.400 --> 02:15.450
Squire to pratique aux scrutateurs, nous allons obtenir d'assez bons résultats ici mais nous allons maintenant ajouter une nouvelle fonctionnalité.

02:15.480 --> 02:21.380
Maintenant, cet agent numéro deux, ce gars-là, va naviguer dans le même environnement.

02:21.570 --> 02:23.770
Qu'est-ce qu'il va utiliser la lisibilité des arbres.

02:23.940 --> 02:25.170
Et c'est ce que cela signifie.

02:25.170 --> 02:30.280
Ce qu’il va faire, c’est qu’il va prendre toutes les mesures qu’il va prendre dans ce

02:30.300 --> 02:38.730
cas. Cinq forceps vont faire quatre pas, puis ce n’est qu’après avoir pris ces mesures qu’il calculera la récompense totale qu’il a obtenue de ces

02:38.730 --> 02:42.730
pas et il le fera. le mettre à travers son réseau.

02:42.730 --> 02:48.420
Il le transmettra à son réseau de neurones qui régit le processus de prise de décision et le

02:48.420 --> 02:50.690
réseau de neurones en tirera des leçons.

02:50.700 --> 02:51.600
Alors lequel.

02:51.630 --> 02:54.050
Tout de suite, quel est celui qui, selon vous, est le plus puissant?

02:54.150 --> 02:59.070
Le gars qui ne fait que marcher pas à pas et un peu comme pour fourrer à l'aveugle ou dans le noir et il va bien,

02:59.070 --> 03:01.550
alors je vais faire un pas pour voir ce qui se passe.

03:01.620 --> 03:02.830
Faites un pas pour voir ce qui se passe.

03:02.850 --> 03:03.480
Prendre des mesures.

03:03.480 --> 03:04.020
Ce qui se produit.

03:04.020 --> 03:10.680
Le gars au sommet ou celui qui prend très courageusement Marsha franchit quatre étapes de suite et décide ensuite s’il

03:11.130 --> 03:17.610
s’agit ou non de bonnes mesures et pourquoi vous pouvez voir ici ou pourquoi vous comprenez probablement pourquoi le

03:17.610 --> 03:22.470
deuxième type est meilleur ou plus puissant, c'est parce que le deuxième type sait

03:22.470 --> 03:25.160
ce qu'il y a à la fin.

03:25.170 --> 03:30.030
Le premier gars lorsqu'il évalue si cette étape est bonne ou non, il ne fait que regarder la

03:30.030 --> 03:31.170
récompense qu'il reçoit.

03:31.280 --> 03:34.430
Et donc il est seulement guidé par la récompense que l'environnement lui donne.

03:34.440 --> 03:39.570
Même chose ici, il est seulement guidé par la récompense que cet environnement lui procure ici.

03:39.620 --> 03:46.490
Donc, chaque fois que c'est sa seule sorte de boussole, il a la récompense la récompense la récompense.

03:46.560 --> 03:51.800
Alors qu'ici, il peut évaluer après avoir pris les mesures qu'il peut évaluer.

03:51.820 --> 03:53.960
OK, donc je suis arrivé à la ligne d'arrivée.

03:54.000 --> 03:56.640
Donc, cette combinaison d'étapes était bonne.

03:56.700 --> 03:57.680
Tous étaient bons.

03:57.840 --> 04:01.410
Ou oh non je me suis retrouvé dans le foyer ou Ohno I.

04:01.500 --> 04:08.100
Je l’ai fait et quand la ma voiture n’est pas arrivée à la ligne d’arrivée ou que j’ai franchi le mur de sable ou que j’ai perdu

04:08.100 --> 04:09.340
le jeu du destin.

04:09.450 --> 04:13.330
Et ensuite, il décide à partir de là que toute cette combinaison d’étapes est mauvaise.

04:13.650 --> 04:18.180
Et donc, pour ces étapes précédentes, il dispose de plus d'informations.

04:18.180 --> 04:23.490
Il a plus de perspicacité comme dans une approche très intuitive.

04:23.490 --> 04:26.000
Encore une fois, ce sujet est beaucoup plus complexe que ce que nous décrivons ici.

04:26.010 --> 04:32.370
Mais de manière intuitive, par exemple, si vous prenez cette étape, cette étape ne vous fournit que des informations pour l'obtenir. Vous

04:32.370 --> 04:34.990
ne disposez que d'informations provenant de cette récompense ici.

04:35.070 --> 04:38.580
Et pour cette étape dans ce cas, la même étape exacte.

04:38.640 --> 04:41.670
Il a plus d'informations a des informations venant tout le chemin.

04:41.820 --> 04:45.500
OK, quel a été le résultat après quatre ou cinq étapes?

04:45.520 --> 04:51.930
Oui, alors c’est ainsi que cela fonctionne et pourquoi on l’appelle trace d’éligibilité parce qu’au cours de ce processus, il

04:51.960 --> 04:58.170
ne se contente pas de regarder la récompense informatique de ce qui se passe, puis la perte cumulée et

04:58.200 --> 05:00.460
ensuite tout ce qui est approprié.

05:00.620 --> 05:05.210
Mais en réalité, il existe une trace d'admissibilité sous le nom de fiducie pour personnes handicapées.

05:05.210 --> 05:15.440
Il y a une trace qui est conservée dans un algorithme qui dit OK, donc si nous obtenons une punition, nous obtenons

05:15.470 --> 05:23.060
une récompense négative, laquelle de ces étapes est la plus susceptible d'être éligible pour cette punition.

05:23.090 --> 05:29.690
Ainsi, non seulement nous savons ce que sont dans l’ensemble ce modèle ou la combinaison d’étapes de l’école, mais

05:29.690 --> 05:36.350
nous gardons également une trace de l’éligibilité, étapes que nous allons mettre à jour si nous obtenons tout le monde.

05:36.350 --> 05:40.970
Ainsi, par exemple, si, en tant que récompense négative, nous pouvons avoir une trace

05:41.030 --> 05:47.360
d'éligibilité qui nous indique qu'il s'agit d'une étape qui est la plus responsable de ce que nous avons obtenu

05:47.390 --> 05:54.800
à la fin ou si c'est une récompense positive à nouveau, nous pourrions savoir que l'algorithme nous aide à garder une trace. Cet

05:54.830 --> 06:03.170
algorithme d'éligibilité nous aide également à savoir quelle étape ou quelle action doit être éligible pour pouvoir être mis à jour en fonction de la récompense

06:03.170 --> 06:03.820
obtenue.

06:03.860 --> 06:05.820
Et c'est pourquoi on l'appelle trace d'éligibilité.

06:06.160 --> 06:11.810
Et c’est donc l’intuition de base qui sous-tend l’éligibilité et, espérons-le, ces deux exemples de

06:11.810 --> 06:18.260
ces agents le rendent assez évident ou sont assez intuitifs, alors que ces capacités peuvent être si puissantes.

06:18.440 --> 06:25.760
Et si, comme promis, si vous souhaitez approfondir vos connaissances sur l'éligibilité ou l'apprentissage pas à pas, alors un

06:26.330 --> 06:31.220
livre merveilleux et merveilleux que vous pouvez trouver s'appelle l'apprentissage par renforcement.

06:31.220 --> 06:36.590
Une introduction est de Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Je pense qu'ils sont en train de créer une deuxième édition ou le problème très critique.

06:40.790 --> 06:49.210
Mais c’est le livre le plus répandu, le plus populaire ou le plus cité en matière d’apprentissage en matière d’application de

06:49.260 --> 06:53.050
la loi. Il contient un nombre ridicule de citations.

06:53.300 --> 06:56.630
Je pense comme des dizaines de milliers si je ne me trompe pas.

06:56.810 --> 07:01.120
Et le chapitre dont vous avez besoin pour cela est le chapitre 7.

07:01.130 --> 07:06.900
Donc, pour examiner les choix d'éligibilité, il y a tout un chapitre sur le chapitre 7.

07:06.920 --> 07:10.100
Vous pouvez lire à ce sujet et cela entre dans beaucoup de détails.

07:10.220 --> 07:17.660
En avant En arrière Les traces d’éligibilité et la différence temporelle intégrale d’une part et de l’autre extrémité du spectre, vous

07:17.660 --> 07:23.320
avez les méthodes de Monte-Carlo entre vous avez des traces d’éligibilité prétendument tracées ou vous vous

07:23.330 --> 07:27.280
connectez pour passer des différences temporelles aux méthodes de Monte-Carlo.

07:27.290 --> 07:34.190
Très intéressant lu beaucoup de photos que j'ai vraiment vraiment apprécié les explications très intuitives.

07:34.250 --> 07:40.550
Donc, vous pouvez apprendre beaucoup de choses de ce livre sur l'intelligence artificielle et l'apprentissage

07:40.550 --> 07:48.230
par renforcement, mais plus particulièrement, les traces d'éligibilité sont un très bon endroit où aller si vous êtes dans

07:48.230 --> 07:49.190
ce livre.

07:49.350 --> 07:57.070
Et la deuxième référence d’aujourd’hui est quelque chose qui va vous montrer dans les essais pratiques l’apprentissage en profondeur ou

07:57.440 --> 08:04.460
le document de recherche approfondi de Google sur les méthodes synchrones pour un apprentissage en renforcement plus

08:04.550 --> 08:05.120
profond.

08:05.270 --> 08:11.270
Oui, c’est le document qui figure dans l’article A-3 et dont nous discuterons plus loin dans

08:11.270 --> 08:12.240
la partition.

08:12.240 --> 08:14.410
Nous nous rapprochons de plus en plus.

08:14.510 --> 08:21.200
Et comme vous pouvez le constater, nous sommes très enthousiastes à ce sujet. Nous allons donc examiner un peu la

08:21.500 --> 08:28.400
façon dont ils ont implémenté les traces d’éligibilité dans ce document, de manière à ce que nous l’utilisions davantage pour des

08:28.400 --> 08:29.420
raisons pratiques.

08:29.420 --> 08:33.650
J'espère donc que vous avez apprécié le tutoriel d'aujourd'hui et que vous savez que vous êtes un peu plus à l'aise avec les traces

08:34.010 --> 08:35.920
d'éligibilité et j'ai hâte de vous voir la prochaine fois.

08:35.930 --> 08:37.680
Jusque là profiter
