WEBVTT

00:00.680 --> 00:05.570
Bonjour et bienvenue au cours sur l'apprentissage en profondeur dans le tutoriel d'aujourd'hui, nous parlons de

00:05.600 --> 00:06.600
descente de gradient.

00:06.890 --> 00:13.610
Ce que nous avons appris précédemment, c’est que pour qu’un réseau de neurones apprenne ce qui doit

00:13.610 --> 00:21.140
se passer, c’est la propagation en retour, c’est-à-dire lorsque l’erreur, la différence ou la somme des différences au carré entre

00:21.170 --> 00:28.300
y hat et Y est propagée en retour par le réseau neuronal et les poids sont ajustés en conséquence.

00:28.520 --> 00:34.220
Nous avons donc vu cela et aujourd'hui nous allons apprendre exactement comment ces poids sont ajustés.

00:34.400 --> 00:35.930
Alors jetons un coup d'oeil.

00:36.080 --> 00:44.030
Ceci est notre version très simple d'un travail neuronal percept Trauner un réseau neuronal à lettre unique

00:44.030 --> 00:52.280
et ce que nous pouvons voir ici est tout ce processus en action où nous avons une valeur d'entrée

00:52.280 --> 00:57.000
alors nous devons attendre ensuite une fonction d'activation est appliqué.

00:56.990 --> 01:01.850
Nous obtenons votre chapeau et nous le comparons ensuite à la valeur réelle pour laquelle nous calculons la fonction de coût.

01:01.850 --> 01:05.420
Alors, comment pouvons-nous minimiser la fonction de coût.

01:05.420 --> 01:07.370
Que pouvons-nous y faire.

01:07.370 --> 01:14.750
Une approche pour le faire est une approche de force brute où nous prenons simplement toutes sortes de poids possibles et les examinons

01:14.750 --> 01:20.990
pour voir lequel s’avère le mieux et ce que nous faisons est, par exemple, nous essaierions par exemple avec

01:21.080 --> 01:26.240
un millier de poids et nous les essaierions pour obtenir quelque chose comme ceci pour

01:26.810 --> 01:32.900
la fonction de coût. Il s'agit d'un graphique de l'axe Y de l'axe transversal de l'axe transversal de

01:32.900 --> 01:34.770
l'axe vertical de y Hat.

01:34.860 --> 01:39.200
Et parce que vous pouvez voir les formules que j'avais moins Y au carré.

01:39.230 --> 01:42.470
Voilà à quoi ressemblerait la fonction de coût.

01:42.670 --> 01:47.830
Et fondamentalement, vous constateriez que le meilleur est ici.

01:47.950 --> 01:50.980
Donc, très simple approche très intuitive.

01:50.980 --> 01:53.200
Pourquoi ne pas faire cette méthode de force brute.

01:53.200 --> 02:01.630
Pourquoi ne pas simplement essayer mille coûts différents pour mille paramètres ou intrants différents pour les poids et voir lequel

02:01.690 --> 02:03.030
fonctionne le mieux.

02:03.030 --> 02:04.230
Vous trouverez le meilleur de cette façon.

02:04.420 --> 02:10.270
Eh bien, si vous n’avez qu’une possibilité d’optimiser cela pourrait fonctionner, mais si vous augmentez le nombre de

02:10.480 --> 02:16.630
poids, augmentez le nombre de Synopsys dans votre réseau, vous devez faire face à la malédiction de la dimensionnalité.

02:16.630 --> 02:19.370
Et alors quelle est la cause de la dimensionnalité.

02:19.450 --> 02:24.510
La meilleure façon de décrire ceci ou de l'expliquer consiste simplement à regarder un exemple pratique.

02:24.640 --> 02:30.610
Alors rappelez-vous cet exemple que nous avons eu lorsque nous parlions de la façon dont les

02:30.610 --> 02:37.120
réseaux de neurones fonctionnent réellement lorsque nous construisions ou exploitions un réseau de neurones pour une évaluation immobilière.

02:37.120 --> 02:43.030
Donc, voici à quoi cela ressemblait quand il était déjà bien formé, quand il n’a pas été formé avant d’être formé

02:43.030 --> 02:45.290
avant de savoir quels sont les poids.

02:45.550 --> 02:47.640
Le réseau de neurones actuel ressemble à ceci.

02:47.730 --> 02:54.860
Oui, parce que nous avons tous ces différents synopsis possibles et que nous devons encore former les poids.

02:55.280 --> 03:01.190
Ici, nous avons 25 poids au total, donc quatre fois cinq au départ et

03:01.310 --> 03:03.430
cinq autres poids au total.

03:03.680 --> 03:09.060
Et voyons comment nous pourrions possiblement recourir à la force brutale.

03:09.070 --> 03:12.610
C'est un réseau de neurones très simple ici.

03:12.620 --> 03:20.630
Très simple, un seul coup ici et comment pourrions-nous forcer notre chemin brutal à travers un réseau de neurones de cette

03:20.630 --> 03:21.320
taille.

03:21.320 --> 03:24.370
Eh bien, il y a quelques calculs mathématiques simples.

03:24.410 --> 03:25.890
Nous avons 25 poids.

03:25.910 --> 03:30.410
Cela signifie donc que si nous avons mille combinaisons que nous allons résoudre pour

03:30.410 --> 03:37.790
chaque poids, le nombre total de combinaisons sera de 1000 à la puissance 25 ou mille ou dix pour analyser cinq combinaisons différentes.

03:37.790 --> 03:48.260
Voyons maintenant comment Sun pourrait éclairer le supercalculateur Fosse du monde à partir de juin 2016 et comment il aborderait

03:48.260 --> 03:49.700
ce problème.

03:49.700 --> 03:52.390
Cravate donc Sunway qui allume.

03:52.680 --> 04:00.980
Il semble que ce soit un énorme bâtiment pour ce supercalculateur, qui a obtenu le record du

04:01.310 --> 04:04.940
monde Guinness comme étant le supercalculateur Fosses.

04:05.210 --> 04:12.620
À l’heure actuelle, c’est le supercalculateur le plus rapide au monde et, d’une certaine manière, les feux de croisement peuvent

04:12.620 --> 04:15.420
fonctionner à une vitesse de 93 flops.

04:15.510 --> 04:19.900
Flop signifie opération flottante par seconde.

04:19.970 --> 04:23.310
Donc, il peut faire quatre vingt treize ans à l'huile de puissance.

04:23.340 --> 04:28.010
Fois dix à la puissance de 15 opérations flottantes par seconde.

04:28.100 --> 04:32.340
C'est à quelle vitesse c'est en comparaison.

04:32.450 --> 04:38.210
Les ordinateurs moyens actuellement, ils aiment juste sur plusieurs gigaflops et ainsi de suite.

04:38.210 --> 04:41.320
Donc ça ressemble un peu à ces gammes.

04:41.450 --> 04:44.290
Moins que la lumière de type TEI Sunway.

04:44.390 --> 04:47.950
Alors tout à coup, c'est un mensonge, il est à la pointe de la technologie.

04:48.360 --> 04:57.920
Et supposons qu’il puisse effectuer un test, une combinaison de quatre sur votre propre réseau sur une disquette et une

04:58.010 --> 05:04.220
opération flottante impossible, ce qui n’est pas pratique, car vous avez besoin

05:04.220 --> 05:09.470
de plusieurs opérations flottantes pour tester un poids unique. peu.

05:09.480 --> 05:11.270
Mais même donnons-lui une longueur d'avance.

05:11.270 --> 05:17.990
Supposons qu'il puisse le faire dans un monde idéal. Il peut le faire en une opération flottante. Il peut effectuer un

05:18.290 --> 05:19.900
test par opération flottante.

05:20.120 --> 05:23.970
Cela signifie que Doddridge aura encore besoin de cinq.

05:24.080 --> 05:33.080
Divisez par quatre-vingt-treize fois dix à environ 15 secondes pour exécuter tous ces tests de force brutale à travers

05:33.080 --> 05:34.120
ce réseau.

05:34.130 --> 05:39.860
Cela signifie donc qu’une période approximative a tendance à durer 58 secondes, ce qui équivaut à

05:39.860 --> 05:42.120
une puissance de 50 ans.

05:42.170 --> 05:49.910
C'est un nombre énorme qui est plus long que l'univers n'a existé et qui ne va certainement

05:49.910 --> 05:59.150
pas simplement ce nombre est si énorme qu'il ne va tout simplement pas fonctionner pour nous du tout dans notre optimisation.

05:59.150 --> 06:00.020
Alors on y va.

06:00.140 --> 06:01.220
C'est un non non.

06:01.220 --> 06:05.450
Même sur le feu arrière Sunway du superordinateur le plus rapide au monde.

06:05.450 --> 06:10.140
Nous devons donc proposer une approche différente pour trouver le poids optimal.

06:10.310 --> 06:15.890
En passant, notre réseau de neurones était très simple. Si les réseaux de neurones ressemblaient

06:15.890 --> 06:22.740
à quelque chose comme ceci ou même plus grand que cela, alors oui, cela ne se produirait jamais du tout.

06:22.760 --> 06:28.490
La méthode à étudier s'appelle donc descente de gradient et vous en avez peut-être déjà entendu parler.

06:28.580 --> 06:30.770
Sinon, nous découvrirons ce que c'est maintenant.

06:30.840 --> 06:41.780
Donc, notre fonction de coût et nous allons maintenant voir comment nous pouvons favoriser un moyen plus rapide de trouver la

06:41.840 --> 06:43.190
meilleure option.

06:43.190 --> 06:45.920
Disons donc que nous commençons quelque part, vous allez commencer quelque part.

06:45.920 --> 06:47.390
Nous commençons donc là-bas.

06:47.390 --> 06:56.990
Et à partir de ce point en haut à gauche, ce que nous allons faire, c'est examiner l'angle de notre fonction de coût à ce moment-là. Nous allons

06:56.990 --> 07:00.800
simplement en arriver à ce que l'on appelle le gradient, car

07:00.800 --> 07:02.090
il faut différencier.

07:02.150 --> 07:04.190
Nous n'allons pas regarder les équations mathématiques.

07:04.250 --> 07:09.370
Nous donnerons quelques conseils sur la lecture supplémentaire à la fin de la prochaine conférence.

07:09.740 --> 07:17.150
Mais fondamentalement, il vous suffit de différencier pour savoir quelle est la pente en ce point spécifique et pour savoir si

07:17.150 --> 07:19.330
la pente est positive ou négative.

07:19.450 --> 07:25.640
Si la pente est négative, comme dans ce cas, vous allez en descente, donc à droite en descente,

07:25.640 --> 07:27.350
à gauche en montée.

07:27.350 --> 07:29.780
Et à partir de là, cela signifie que vous devez aller bien.

07:29.780 --> 07:31.510
Fondamentalement, vous devez descendre.

07:31.670 --> 07:33.070
Et c'est ce que nous allons faire.

07:33.090 --> 07:35.510
Boom fait un pas en avant.

07:35.510 --> 07:37.450
La balle roule à nouveau.

07:37.460 --> 07:38.300
Même chose.

07:38.390 --> 07:44.120
Vous calculez la pente et la pente est positive, ce qui signifie que la montée de l'écrivain est à gauche, en descente et que vous

07:44.120 --> 07:46.560
devez aller à gauche et vous êtes sur le ballon.

07:46.790 --> 07:54.900
Et encore une fois, vous calculez la pente et vous êtes tout le taureau, alors voici

07:55.040 --> 08:04.520
comment vous trouvez, en termes simples, comment trouver le meilleur WAITES, la meilleure situation qui minimise votre fonction de coût.

08:04.590 --> 08:08.970
Bien sûr, ce ne sera pas une approche très zigzague, mais il

08:09.210 --> 08:14.970
est plus facile de s'en souvenir ou il est plus amusant de la regarder comme si elle tournait.

08:14.970 --> 08:19.980
Mais en réalité, oui, cela va être comme une approche pas à pas,

08:19.980 --> 08:21.920
une méthode de type zigzag.

08:22.050 --> 08:25.020
Oui, et il y a beaucoup d'autres éléments.

08:25.050 --> 08:35.190
Il y a des choses telles que, par exemple, pourquoi, par exemple, pourquoi baisse-t-on, pourquoi ne passe-t-il pas au-dessus de la ligne, de sorte qu'il aurait pu sortir de

08:35.190 --> 08:40.740
cette tendance ascendante au lieu de descendre, et ainsi de suite, de sorte que certains paramètres

08:40.740 --> 08:41.950
puissent être modifiés.

08:41.970 --> 08:45.570
Et encore une fois, nous mentionnerons où vous pouvez en savoir plus à ce sujet.

08:45.580 --> 08:51.090
Et en plus nous aurons ceci dans une application pratique mais dans l'approche intuitive la plus simple, c'est ce qui

08:51.090 --> 08:51.770
se passe.

08:51.780 --> 08:56.670
Nous allons au fond des choses en comprenant tout simplement la voie à suivre.

08:56.700 --> 09:01.890
Au lieu de forcer brutalement à travers des milliers et des milliers et des millions et des milliards et des

09:01.890 --> 09:02.920
quadrillions de combinaisons.

09:03.030 --> 09:09.920
Nous pouvons simplement tout simplement regarder à chaque fois où se trouve quelle est la direction dans laquelle elle est inclinée, comme si vous imaginiez que

09:09.910 --> 09:11.690
vous êtes debout sur une colline.

09:11.700 --> 09:15.870
Dans quel sens sentez-vous que cela va vers le bas et quelle que soit la façon dont vous

09:15.870 --> 09:20.760
le faites et que vous continuez de marcher comme vous voulez, éloignez-vous de 50 marches et que vous vous remettez à

09:21.090 --> 09:21.470
l’évaluation.

09:21.500 --> 09:24.620
OK et je vais faire 50 pas ou moins faire 40 pas de cette façon.

09:24.690 --> 09:28.160
Donc, cela devient de moins en moins à mesure que vous vous rapprochez.

09:28.530 --> 09:32.720
Voici donc un exemple de descente de gradient appliqué dans un espace à deux dimensions.

09:32.720 --> 09:36.450
C'était donc un exemple unidimensionnel.

09:36.570 --> 09:41.880
Nous avons ici un espace à deux dimensions pour la descente de gradient, comme vous pouvez le constater,

09:41.970 --> 09:48.450
il se rapproche du minimum et est également appelé descente de gradient car vous descendez dans le minimum de la fonction de

09:48.480 --> 09:53.430
coût et vous constatez qu'il dispose d'une descente de gradient appliquée en trois étapes. dimensions.

09:53.430 --> 09:58.740
Voici à quoi ça ressemble si vous projetez sur deux dimensions, vous pouvez voir son chemin zigzaguer dans

09:58.740 --> 09:59.600
le minimum.

09:59.700 --> 10:03.810
Alors voilà que c'était l'indice de descente de Tauriel. Nous parlerons de stochastique.

10:03.810 --> 10:06.850
La descente de gradient est vraiment une continuation de ce tutoriel.

10:07.020 --> 10:08.720
Et j'ai hâte de vous voir là-bas.

10:08.740 --> 10:10.610
Et si la prochaine fois profiter de l'apprentissage en profondeur.