WEBVTT

00:00.490 --> 00:02.980
Bonjour et bienvenue au cours sur l'apprentissage en profondeur.

00:02.980 --> 00:06.900
Aujourd'hui, nous lançons des réseaux de neurones convolutionnels qui vont être passionnants.

00:06.910 --> 00:08.610
Plongeons-y directement.

00:08.620 --> 00:10.840
Nous allons commencer avec une image.

00:10.930 --> 00:13.210
Que voyez-vous quand vous regardez cette image.

00:13.580 --> 00:19.480
Voyez-vous une personne qui vous regarde ou voyez-vous une personne qui regarde à droite, vous

00:19.480 --> 00:25.860
pouvez voir que votre cerveau a du mal à s’adapter si vous regardez du côté droit de l’image.

00:25.870 --> 00:29.180
Il suffit de regarder la bordure droite sur laquelle vous verrez une personne regardant à droite.

00:29.260 --> 00:33.320
Si vous regardez le bord gauche de l'image, vous verrez une personne vous regarder.

00:33.700 --> 00:42.760
Et cela prouve simplement que ce que notre cerveau recherche quand nous voyons des choses, ce sont des fonctionnalités dépendant des fonctionnalités

00:42.760 --> 00:46.140
qu’il voit dépendant des fonctionnalités que vous traitez.

00:46.180 --> 00:48.610
Vous catégorisez les choses de certaines manières.

00:48.730 --> 00:54.010
Ainsi, lorsque vous regardez du côté droit de l'image, vous voyez certaines caractéristiques d'une personne qui cherche à piloter

00:54.010 --> 01:00.190
car elles sont plus proches de votre centre de mise au point et, par conséquent, votre cerveau est considéré comme une personne regardant

01:00.190 --> 01:00.930
de droite.

01:01.000 --> 01:06.790
Lorsque vous regardez à gauche de l'image, vous voyez plus de caractéristiques d'une personne qui vous regarde et

01:06.790 --> 01:09.580
par conséquent, votre cerveau la classe comme telle.

01:09.580 --> 01:11.150
Alors regardons un autre.

01:11.230 --> 01:12.840
C'est une image très célèbre.

01:12.910 --> 01:14.530
Vous l'avez probablement déjà vu.

01:14.680 --> 01:16.240
Mais ce que vous voyez ici

01:16.820 --> 01:23.830
Ainsi, certaines personnes diront qu’elles voient une jeune femme vêtue d’une robe qui regarde au loin.

01:23.830 --> 01:29.980
Certaines personnes disent voir une vieille dame portant un foulard sur la tête et baissant les yeux.

01:30.280 --> 01:36.250
Je vais donc le signaler et vous verrez que cela deviendra une évidence, c'est donc le visage de la jeune

01:36.250 --> 01:37.510
femme qui regarde ailleurs.

01:37.510 --> 01:40.450
Elle regarde au loin comme son manteau.

01:40.440 --> 01:44.940
Ce sont ses cheveux qui sont sa petite plume dans ses cheveux et d'autre part.

01:44.980 --> 01:53.530
C'est la tête de la vieille dame qui regarde son nez, sa bouche, son menton, c'est le foulard sur sa tête et

01:53.560 --> 01:55.560
elle baisse les yeux.

01:55.780 --> 02:01.960
Donc, comme vous pouvez le voir deux en un et en fonction des caractéristiques que votre cerveau

02:02.620 --> 02:06.710
capte, il basculera entre classer chaque image comme l'une ou l'autre.

02:06.910 --> 02:13.930
La plus ancienne de ces illusions consignées dans l’imprimé est celle-ci.

02:13.930 --> 02:15.220
C'est le canard ou le lapin.

02:15.230 --> 02:17.020
Alors est-ce un canard ou un lapin?

02:17.020 --> 02:18.330
Un autre exemple.

02:18.430 --> 02:25.030
Et maintenant, je vais montrer une image qui va juste pour une seconde la regarder et voir ce que quelles

02:25.030 --> 02:28.670
émotions ou quel genre d'expérience l'expérience visuelle que vous vivez

02:29.110 --> 02:36.610
Alors, que voyez-vous, vous sentez-vous un peu étourdi mais un peu ébloui, comme si votre cerveau essayait

02:36.610 --> 02:40.230
de comprendre ce que c'est que d'essayer?

02:40.330 --> 02:49.240
Saute entre ses yeux haut en bas et c’est un exemple classique de quand il ya certaines caractéristiques où il se pourrait que ce

02:49.240 --> 02:53.850
soit le cas mais que votre cerveau ne puisse pas décider.

02:54.130 --> 02:58.230
Et parce que les deux semblent plausibles.

02:58.290 --> 03:04.360
En gros, tous ces exemples illustrent le fonctionnement du cerveau, qu’il traite

03:04.360 --> 03:10.970
certaines caractéristiques d’une image ou de tout ce que vous voyez dans la vie réelle.

03:10.980 --> 03:16.150
Vous avez probablement été dans des situations où vous regardez rapidement par-dessus votre épaule et vous voyez quelque chose

03:16.150 --> 03:23.500
que vous pensez que je ne sais pas si c'est comme une balle mais que cela s'avère être un chat ou que vous pensez que c'est une

03:23.500 --> 03:24.030
voiture.

03:24.070 --> 03:28.030
Il s’avère que vous n’avez pas assez de temps pour traiter ces fonctionnalités ou que vous

03:28.030 --> 03:31.030
n’avez pas assez de fonctionnalités pour classer les éléments comme tels.

03:31.240 --> 03:38.570
Et ceci est pour moi très intéressant car ce que nous allons faire avec des réseaux de neurones avec des réseaux de neurones convolutionnels est

03:38.570 --> 03:43.630
très similaire et vous constaterez que la façon dont les ordinateurs vont traiter les images va être

03:43.630 --> 03:48.190
extrêmement de manière similaire à la façon dont nous traitons les images, il est donc

03:48.210 --> 03:53.580
très utile de comprendre et de ne pas oublier ces choses que c'est comme cela que nous procédons.

03:53.590 --> 03:58.450
Et je vais retirer cette dame de vos écrans car elle est probablement déjà en train de paniquer.

03:58.630 --> 04:00.940
Alors, voici quelque chose de différent.

04:00.940 --> 04:07.870
Voici une expérience réalisée sur des ordinateurs sur un réseau de neurones à convolution, nous

04:07.870 --> 04:11.150
passons maintenant lentement des humains aux ordinateurs.

04:11.350 --> 04:18.490
Et cette diapositive est tirée d’un récit de Geoffrey Hinton et décrit ici une expérience

04:18.490 --> 04:24.440
qu’il a faite sur certains réseaux de neurones classiques qu’il a formés.

04:24.460 --> 04:29.560
Donc, ici, vous voyez trois images et nous allons les parcourir avec la gauche à droite et voir comment vous

04:29.560 --> 04:31.870
les classeriez, puis voir comment elles peuvent être reclassées.

04:31.870 --> 04:35.440
Donc, à gauche, qu'est-ce que vous croyez?

04:35.440 --> 04:37.710
Il a probablement dit guépard et vous aurez raison.

04:37.710 --> 04:41.740
Et c’est ce que l’ordinateur a dit et dès le départ, nous

04:41.740 --> 04:48.400
allons apprendre à lire ces images, car si vous voulez aller plus loin dans les réseaux de neurones convolutionnels, aucun jeu de mots

04:48.400 --> 04:54.050
ne vous permet de commencer à apprendre. de plus en plus et en les utilisant, vous en verrez beaucoup.

04:54.070 --> 05:01.050
Donc, et en fait, j'ai vu des gens les lire de manière incorrecte, donc voici en haut

05:01.050 --> 05:01.470
Shida.

05:01.470 --> 05:07.920
Donc, c'est l'étiquette correcte de l'image, c'est l'étiquette des images, quel que soit

05:07.920 --> 05:09.180
le traitement.

05:09.300 --> 05:16.770
Et la vision par ordinateur, puis voici les suppositions des quatre ou cinq premières suppositions de l’algorithme et on leur

05:17.370 --> 05:24.520
donne les probabilités de sorte que l’ordinateur ou le réseau neuronal dise que les vêtements personnels Chitta ou le

05:24.810 --> 05:27.460
chat égyptien peuvent être l’un des quatre.

05:27.540 --> 05:29.120
Et le guépard a le plus grand vote.

05:29.130 --> 05:34.820
Et tout au long de cette partie du cours, vous comprenez ce que signifient ces votes et comment ils sont calculés.

05:34.830 --> 05:36.600
Mais pour l'instant, c'est plutôt intuitif.

05:36.600 --> 05:40.700
C'est donc un guépard dans la réalité et le réseau de neurones a bien deviné.

05:40.710 --> 05:44.600
Il a dit avec une hyper capacité d'environ 95 à 99%.

05:45.900 --> 05:46.860
Puis le second.

05:46.860 --> 05:51.050
Qu'est-ce que vous pensez que c'est que c'est un train de balle.

05:51.300 --> 05:57.600
Et le réseau de neurones a été en mesure de faire la distinction entre locomotive électrique du train de banlieue du train de

05:57.600 --> 05:58.020
banlieue.

05:58.020 --> 05:59.380
Ce sont le premier choix bien sûr.

05:59.400 --> 06:05.850
Ces réseaux de neurones apprenaient à distinguer bien plus d’options que quatre catégories parmi des dizaines de

06:06.000 --> 06:08.760
milliers de catégories en même temps.

06:08.760 --> 06:10.750
Ce sont donc les quatre options choisies.

06:10.920 --> 06:12.750
Et voilà le train de balles et sa volonté.

06:12.760 --> 06:17.210
Et alors qu'avez-vous pensé le dernier est-il très.

06:17.350 --> 06:22.470
Il y a quelques options ou ce n'est pas très clair ce que pourrait être une poêle

06:22.470 --> 06:29.550
à frire pourrait être une loupe ou peut-être même une paire de ciseaux, pourrait-on dire, alors que le réseau de neurones disait qu'il s'agissait d'une

06:29.550 --> 06:30.540
paire de ciseaux.

06:30.750 --> 06:32.590
Mais vous pouvez voir comment vous pouvez vous tromper ici.

06:32.610 --> 06:35.440
Tout d'abord ce n'est pas une image très claire.

06:35.520 --> 06:43.920
Et vous pouvez également voir que les probabilités ne sont pas aussi claires ici, de sorte que le réseau de neurones était un peu confus, un

06:43.920 --> 06:46.280
peu indécis, tout comme nous le sommes.

06:46.280 --> 06:51.710
Alors j'ai dit Ciseaux avec une forte probabilité, mais ensuite il y avait un verre à main avec lequel il était en

06:51.810 --> 06:55.760
fait pas très loin sur la deuxième place et stéthoscope à la poêle à frire.

06:55.920 --> 07:01.620
En gros, ici, vous pouvez voir que les ciseaux étaient sa première hypothèse, mais la bonne option était la deuxième et c'est pourquoi

07:01.620 --> 07:03.050
elle est surlignée en rouge.

07:03.300 --> 07:07.050
C’est donc ce dont tous les médicaments sont déjà capables.

07:07.050 --> 07:08.880
Et ceci est en fait une vieille diapositive.

07:08.880 --> 07:10.610
C'était il ya plusieurs années.

07:10.650 --> 07:16.100
Maintenant, ils sont encore meilleurs et vous verrez que, dans l’application pratique que vous allez coder ensemble, vous

07:16.170 --> 07:16.760
déjeunez.

07:16.920 --> 07:18.430
Mais maintenant essayons un peu mieux cela.

07:18.430 --> 07:23.770
Qu'est-ce que les réseaux de neurones conventionnels ou convolutionnels sont réellement et pourquoi ont-ils acquis une telle popularité?

07:23.970 --> 07:31.380
Et ils gagnent en popularité, vous pouvez donc voir ici une comparaison que j'ai faite hier avec Google Trends.

07:31.770 --> 07:39.420
Vous pouvez voir ici que les réseaux de neurones illusoires conventionnels s'emparent même des réseaux de

07:39.420 --> 07:43.260
neurones artificiels, ce qui représente une augmentation massive.

07:43.260 --> 07:49.530
Et cela va continuer comme ça parce que c’est un domaine très important dans lequel toutes les choses

07:50.130 --> 07:52.530
se passent, comme les voitures autonomes.

07:52.530 --> 07:59.340
Comment reconnaissent-ils les gens sur la route? Comment reconnaissent-ils les panneaux d'arrêt et des

07:59.340 --> 08:07.680
choses comme celle-ci? Comment Facebook peut-il identifier des personnes ou des images sur des images, et

08:07.980 --> 08:14.240
pas seulement reconnaître les visages, vous avez dû ajouter les noms.

08:14.250 --> 08:18.420
Et maintenant, il ne fait que reconnaître les visages et ajoute les noms en même temps.

08:18.630 --> 08:26.070
Eh bien, c’est ce que les réseaux de neurones convolutifs sont capables d’être sur Facebook.

08:26.160 --> 08:34.710
Si Jeffrey Hinton est le parrain des réseaux de neurones artificiels et de l'apprentissage en profondeur, alors Yalla

08:34.830 --> 08:43.650
Kuhn est le grand-père des réseaux de neurones convolutionnels. Lukken est un étudiant de Jeffrey Hinton et vous pouvez

08:43.650 --> 08:45.640
les voir ensemble ici.

08:45.720 --> 08:51.950
Et Jeffrey Hinton fait maintenant oeuvre de pionnier en matière de planification chez Google young.

08:52.020 --> 08:57.010
Est le directeur de la recherche sur l'intelligence artificielle sur Facebook et professeur à l'Université de New York.

08:57.030 --> 09:02.650
Nous sommes donc conscients de cette partie du noyau que nous construisons lentement de cette façon.

09:02.670 --> 09:10.770
Ces noms sont ce genre de photo des profils des personnes qui dirigent ce domaine et dans les prochains pars nous en

09:10.950 --> 09:16.680
apprendrons plus sur quelques autres et nous aurons toute cette mafia comme ils s’appellent eux-mêmes

09:16.680 --> 09:22.320
mafia ou conspiration d’apprentissage en profondeur et vous en apprendrez un peu plus sur le

09:22.320 --> 09:24.140
développement de ce domaine.

09:24.480 --> 09:27.200
Oui, ce ne sont que des gens formidables.

09:27.450 --> 09:35.370
C'est ainsi que RIKOON, dans les années 80 et 90, a apporté une contribution importante au domaine des réseaux de neurones

09:35.370 --> 09:36.300
à convolution.

09:36.330 --> 09:44.310
Et comme vous le verrez tout au long de ce cours, vous avez pu développer ou aider le monde à

09:44.340 --> 09:46.650
développer quelque chose d'aussi puissant.

09:46.650 --> 09:51.390
Passons maintenant au fonctionnement des réseaux de neurones illusoires.

09:51.420 --> 09:56.150
Vous avez une entrée c'est très simple c'est très simple donc ils ont une image d'entrée.

09:56.160 --> 10:01.930
Il passe par le réseau de neurones illusionnel de can et vous avez une étiquette qui classe cette image comme

10:01.990 --> 10:06.630
quelque chose comme a un Cheeto ou un train à grande vitesse ou quelque chose d'autre.

10:06.790 --> 10:10.780
Maintenant, un peu comme entrer dans un peu plus en détail.

10:10.900 --> 10:19.540
Par exemple, vous pouvez officier néroli a été formé sur certaines images sur certaines images classées ou

10:19.780 --> 10:23.600
images catégorisées avant il été plus élevé.

10:23.710 --> 10:29.510
Après cela, vous pouvez lui donner, disons qu'un réseau de neurones a été formé pour reconnaître les expressions et

10:29.510 --> 10:37.030
les mouvements du visage, vous pouvez lui donner le visage d'une personne souriante, pas seulement un visage comme un dessin d'un visage comme celui-ci, mais

10:37.030 --> 10:39.330
le visage réel d'une personne souriante. .

10:39.430 --> 10:44.910
Et je vais vous dire que cette personne est heureuse et que vous pouvez avoir le visage d’une personne qui fronce les sourcils.

10:44.910 --> 10:47.180
Je vais vous dire que la personne est triste.

10:47.280 --> 10:52.570
Il peut reconnaître ces émotions et, comme vous pouvez le constater, est déjà très puissant en termes

10:52.570 --> 10:59.740
de nombreuses implications différentes, tout comme cet exemple auquel vous pouvez penser tout de suite. Dans les deux cas, je vous donnerai une opérabilité

10:59.740 --> 11:04.970
pour ne pas dire que nous savons que La personne est heureuse ou triste à 100%.

11:04.970 --> 11:13.000
Ce sera 99 ou 98 ou peut-être 80% quand on ne sait pas ce qui se passe et, tout comme nous avons raison, nous pouvons

11:13.000 --> 11:16.620
parfois confondre les choses avec ce qu'elles ne sont pas.

11:16.660 --> 11:23.620
Ou parfois nous pouvons parfois parfois il est tout simplement pas clair si la personne sourit ou fronce les sourcils ou si c'est si c'est un

11:23.620 --> 11:27.910
chien ou un chat ou si c'est un train ou un train de grande vitesse

11:28.110 --> 11:32.620
Parfois, nous ne l’avons pas, nous n’avons pas assez de fonctionnalités, car c’est

11:32.980 --> 11:38.600
ainsi que nous traitons les informations visuelles comme nous l’avons vu depuis le début de ce didacticiel.

11:38.620 --> 11:44.140
Alors, comment un réseau de neurones hébergeant un réseau de neurones est-il capable de reconnaître ces caractéristiques?

11:44.140 --> 11:48.770
Eh bien, tout commence au niveau de base que vous avez.

11:48.790 --> 11:54.160
Supposons qu'une image ait deux images, une image en noir et blanc de deux par deux

11:54.160 --> 12:01.270
pixels et une image en couleur de deux par deux pixels, tandis que les réseaux de neurones exploitent le fait que

12:01.270 --> 12:04.690
l'image en noir et blanc est un tableau bidimensionnel.

12:04.690 --> 12:09.610
Donc, à gauche, nous voyons la représentation visuelle.

12:09.630 --> 12:11.110
Je suppose une sorte de photo.

12:11.250 --> 12:16.600
Et par souci de simplicité, il s’agit simplement d’une manière bidirectionnelle d’image, mais en termes informatiques, c’est

12:16.600 --> 12:22.180
en fait un tableau bidimensionnel avec chacun de ces pixels ayant une valeur comprise entre 0 et 55.

12:22.360 --> 12:27.670
Cela fait donc huit bits d’information pour les deux; la puissance de huit est donc 256.

12:27.670 --> 12:32.130
Donc, donc, les valeurs de 0 à 255 et l’intensité de la couleur.

12:32.260 --> 12:36.240
Et dans ce cas, la couleur blanche ainsi 0 sera un pixel complètement noir.

12:36.370 --> 12:43.720
255 sera un pixel complètement blanc et entre eux vous aurez la gamme d'options de niveaux de gris pour ce

12:43.720 --> 12:44.490
pixel.

12:44.650 --> 12:50.740
Et sur la base de ces informations, les ordinateurs sont ensuite en mesure de travailler avec l'image, ce qui est

12:50.740 --> 12:56.510
un peu comme le point de départ de toute image en tant que représentation numérique sous forme numérique.

12:56.620 --> 13:03.460
Et ce ne sont que des zéros et des zéros qui forment un nombre compris entre 0 et 255 pour chaque pixel, et c’est avec

13:03.460 --> 13:04.340
quoi l’ordinateur fonctionne.

13:04.340 --> 13:08.410
Cela ne fonctionne pas réellement avec vous connaissez des couleurs ou quoi que ce soit cela fonctionne avec les uns et les zéros à la fin de

13:08.410 --> 13:08.790
la journée.

13:08.800 --> 13:12.820
C'est comme un peu comme la base de tout.

13:13.360 --> 13:17.110
Et dans une image couleur, il s'agit en réalité d'un tableau en trois dimensions.

13:17.230 --> 13:24.580
Vous avez Larry Green, pixel bleu, et l’éblouissement rouge, les flèches et ce sens pour RGV rouge

13:24.580 --> 13:25.130
vert-bleu.

13:25.420 --> 13:29.740
Et chacune de ces couleurs a sa propre intensité.

13:29.740 --> 13:37.010
Donc, fondamentalement, un pixel a trois trois valeurs qui lui sont attribuées.

13:37.030 --> 13:41.090
Chacun d'entre eux est compris entre 0 et 256 255.

13:41.380 --> 13:48.340
Et par conséquent, vous pouvez savoir quelle est la couleur exacte de cette image.

13:48.340 --> 13:53.520
En combinant ces trois valeurs et encore une fois, les ordinateurs vont fonctionner avec cela.

13:53.530 --> 13:58.930
Voilà donc le fondement de tout cela: le canal rouge, le canal vert, le canal bleu.

13:59.530 --> 14:08.590
Et enfin, examinons par exemple un exemple très trivial de visage souriant.

14:08.820 --> 14:09.610
En termes informatiques.

14:09.610 --> 14:17.710
Si nous simplifions vraiment les choses au lieu d’avoir de 0 à 255 et d’avoir ces valeurs afin que

14:17.710 --> 14:25.690
nous puissions mieux comprendre les choses et saisir vraiment les concepts que nous allons dire: zéro, blanc: noir,

14:25.690 --> 14:26.590
c’est noir.

14:26.590 --> 14:26.800
Droite.

14:26.800 --> 14:33.460
Nous allons donc simplement simplifier les choses à l'extrême et vous verrez que cette image peut être représentée

14:33.460 --> 14:33.900
ainsi.

14:34.000 --> 14:39.150
La raison pour laquelle nous avons évoqué cette question est que nous entrons dans toutes nos

14:39.160 --> 14:44.680
intuitions. Il nous est possible de structurer une image. Ceci est très simple, mais en même temps, tous

14:44.680 --> 14:50.530
ces concepts peuvent être traduits en 0 2 256 gamme de valeurs et tout applique la même manière là.

14:50.740 --> 14:54.900
Et les étapes sont que nous allons passer si ces images sont une évolution optimale.

14:54.910 --> 14:56.820
Étape numéro deux pool maximum.

14:56.830 --> 15:02.550
L’étape trois met à plat et numérote une connexion complète et je peux imaginer

15:02.560 --> 15:09.880
que tous ces mots ont probablement une grande signification pour vous à l’heure actuelle, mais vous les comprendrez de

15:10.000 --> 15:13.940
manière détaillée à la fin de cette section Faire.

15:13.960 --> 15:16.020
Nous allons donc commencer dans le prochain tutoriel.

15:16.030 --> 15:24.400
Pour le moment, la lecture supplémentaire que vous voudrez peut-être examiner est un article original de Lukens qui a

15:24.640 --> 15:28.200
donné naissance à un réseau de neurones émotionnels.

15:28.200 --> 15:31.590
C'est ce qu'on appelle l'apprentissage par gradient appliqué à la cognition documentaire.

15:31.660 --> 15:34.550
Vous avez peut-être vu cette image avant de naviguer sur Internet.

15:34.630 --> 15:40.990
C'est à partir de ce papier, donc si vous voulez revenir au tout début de la façon dont tout cela s'est passé,

15:40.990 --> 15:46.420
c'est à partir du papier à examiner et j'ai hâte de voir cela dans le prochain tutoriel.

15:46.420 --> 15:48.280
Jusque-là, profitez d'un apprentissage en profondeur.