WEBVTT

00:01.110 --> 00:04.770
Bonjour et bienvenue dans le cours sur l'intelligence artificielle.

00:04.770 --> 00:09.420
Aujourd’hui, nous allons discuter du plan d’attaque de la section dont nous parlons.

00:09.450 --> 00:15.000
Et comme nous avons pas mal de tutoriels, je pense que c’est une

00:15.000 --> 00:20.580
bonne idée de les parcourir rapidement pour comprendre à quoi s’attendre dans les prochaines vidéos.

00:20.580 --> 00:21.650
Alors on y va.

00:22.140 --> 00:22.560
D'accord.

00:22.560 --> 00:25.230
Ce que nous allons apprendre dans cette section.

00:25.230 --> 00:31.650
Tout d'abord, nous allons d'abord parler de ce qu'est l'apprentissage par renforcement et de ce qu'est la philosophie derrière l'apprentissage

00:31.690 --> 00:37.890
par renforcement, et de la manière dont l'apprentissage par renforcement peut être vu dans la vie réelle et comment

00:37.890 --> 00:44.540
il se rapporte à des choses que nous observons dans la vie réelle sont des choses que nous faisons nous-mêmes. .

00:44.790 --> 00:51.630
Ils ne parlent pas du concept très fondamental de l'équation des chasseurs qui sous-tendent tout ou beaucoup de choses qui se passent

00:51.630 --> 00:56.580
et de l'apprentissage par renforcement, en particulier dans le cadre de l'apprentissage CULE et de ce

00:56.940 --> 01:01.700
que nous allons discuter dans cette section du cours et dans les sections suivantes.

01:01.800 --> 01:09.280
Ensuite, nous parlerons du plan et du plan élaboré par l'intelligence artificielle en fer brut afin de

01:09.300 --> 01:15.990
naviguer à l'intérieur des environnements. Nous verrons comment cela se produit très rapidement, mais c'est

01:15.990 --> 01:17.270
très intéressant.

01:17.720 --> 01:22.890
Nous parlerons ensuite du marché des processus de décision et de votre concept.

01:22.890 --> 01:31.620
Nous allons introduire un concept très nouveau qui va même lentement ajouter une couche de sophistication à notre équation de Belman à tout notre

01:31.800 --> 01:37.070
apprentissage par renforcement à nos concepts d’apprentissage CULE. Cette section est structurée de manière

01:37.290 --> 01:43.080
à introduire l'équation de Bollmann sous une forme très simpliste, puis, lentement, tout au long des

01:43.260 --> 01:48.550
didacticiels, nous y ajoutons des couches de sophistication afin de parvenir à la version finale.

01:48.690 --> 01:53.880
C'est notre destination désignée pour Hillary, mais nous y arriverons lentement.

01:54.000 --> 01:58.830
Pour que nous ayons assez de temps pour traiter toute cette information et la laisser s’installer.

01:58.890 --> 02:05.400
Et la marque de proses dissidentes est une couche supplémentaire de sophistication en plus de ce dont nous avons discuté ou de

02:05.400 --> 02:11.220
ce que nous aurons ou discutons d’ici là, il sera question de politiques par rapport à des plans.

02:11.220 --> 02:13.830
Un autre Tauriel intéressant, ils sont tous intéressants.

02:13.830 --> 02:19.590
Juste un autre tutoriel rapide sur la façon dont la politique diffère des plans et quelles sont

02:19.590 --> 02:25.980
les différences. Ce sont des termes que vous entendrez ou que vous lirez probablement dans la littérature si vous

02:25.980 --> 02:29.980
allez approfondir pour obtenir des informations supplémentaires sur l’apprentissage par renforcement.

02:29.980 --> 02:34.590
Ils parlent tous d'ajouter une pénalité vivante à nos environnements.

02:34.770 --> 02:41.850
Et c’est là un autre moyen d’ajouter de la complexité aux environnements dans lesquels nos

02:41.850 --> 02:43.340
agents vont opérer.

02:43.370 --> 02:48.780
Ils parlent tous de l’intuition derrière l’apprentissage continu, donc jusqu’à ce tutoriel, nous parlerons

02:48.780 --> 02:50.690
des valeurs des États.

02:50.790 --> 02:57.300
Et finalement, nous allons maintenant parler de valeurs ou d’actions ou de valeurs de cube, puis

02:57.300 --> 02:59.880
nous allons introduire la différence temporelle.

02:59.910 --> 03:06.690
Ceci est un tutoriel où tout ce que nous avons appris va se réunir pour expliquer

03:06.690 --> 03:13.930
comment exactement les agents ou l'intelligence artificielle apprennent-ils comment elle met à jour ses valeurs tout au long

03:14.090 --> 03:16.420
du processus itératif en cours.

03:16.830 --> 03:23.100
Et finalement, nous allons examiner une partie visible de l’apprentissage, nous allons donc prendre tout ce que

03:23.100 --> 03:29.550
nous apprenons et nous allons regarder cela se passer sous nos yeux et regarder une intelligence artificielle effectuer

03:29.730 --> 03:35.870
réellement l’apprentissage CULE et faire toutes les choses dont nous allons discuter au niveau intuitif va

03:35.880 --> 03:42.600
réellement se faire dans la pratique et cela nous aidera à comprendre encore plus cette connaissance que nous allons

03:42.810 --> 03:44.530
dégager de la section.

03:44.550 --> 03:47.460
J'espère donc que vous êtes très enthousiasmé par ces prochains tutoriels.

03:47.460 --> 03:48.800
Je suis définitivement.

03:48.810 --> 03:55.380
Et il y a quelques diapositives très intéressantes à venir et plus important, les concepts eux-mêmes sont très très

03:55.380 --> 03:59.540
intéressants et je suis sûr que vous allez les apprécier beaucoup.

03:59.760 --> 04:01.410
Et j'ai hâte de vous voir la prochaine fois.

04:01.410 --> 04:03.080
Jusque-là, profitez de l'IA.