WEBVTT

00:01.130 --> 00:06.810
Bonjour et bon retour, alors bien sûr, sur l'apprentissage en profondeur, nous parlons aujourd'hui de la descente de gradient de Kostic.

00:07.220 --> 00:14.450
Auparavant, nous avions appris la descente de gradient et découvert que c’était une méthode très efficace pour résoudre notre

00:14.450 --> 00:19.590
problème d’optimisation dans lequel nous essayons de minimiser la fonction de coût.

00:19.640 --> 00:29.030
Il nous faut fondamentalement de 10 à la puissance de 57 ans pour résoudre un problème en quelques minutes ou quelques heures ou en un

00:29.480 --> 00:30.940
jour ou deux.

00:31.100 --> 00:37.490
Et cela aide vraiment à accélérer les choses, car nous pouvons voir quelle direction est la descente et nous pouvons simplement aller

00:37.490 --> 00:41.400
dans cette direction, faire des pas et atteindre le minimum plus rapidement.

00:41.600 --> 00:50.030
Mais le problème avec le manche avec descente de gradient est que cette méthode nécessite que la fonction de coût

00:50.030 --> 00:50.990
soit convexe.

00:51.140 --> 00:57.710
Et comme vous pouvez le voir ici, nous avons spécifiquement choisi une fonction de coût convexe, ce

00:58.160 --> 01:05.510
qui signifie que la fonction est semblable à ce que nous voyons maintenant. Elle est en quelque sorte orientée

01:05.510 --> 01:09.220
dans une direction et a essentiellement un minimum global.

01:09.380 --> 01:11.560
Et c'est celui que nous allons trouver.

01:11.630 --> 01:14.060
Mais que se passe-t-il si notre fonction n'est pas convexe?

01:14.060 --> 01:16.250
Et si notre fonction de coût n'est pas correcte.

01:16.370 --> 01:17.810
Et si ça ressemble à quelque chose comme ça.

01:18.020 --> 01:19.660
Eh bien tout d’abord, comment cela pourrait-il se produire?

01:19.880 --> 01:27.950
Cela peut arriver, car si nous choisissons d’abord une fonction de coût qui n’est pas la différence entre pourquoi, comment

01:28.010 --> 01:33.850
et pourquoi et si nous choisissons la fonction de coût qui est ainsi.

01:33.860 --> 01:39.650
Mais dans un espace multi-dimensionnel, il peut se transformer en quelque chose de non convexe.

01:39.780 --> 01:45.410
Et donc que se passerait-il dans ce cas si nous essayions simplement d'appliquer notre méthode normale à gradient décent, quelque chose comme

01:45.410 --> 01:46.390
ceci pourrait arriver.

01:46.520 --> 01:51.230
Nous pourrions trouver un minimum local de la fonction de coût plutôt que global.

01:51.230 --> 01:57.730
Donc, celui-ci était le meilleur et nous avons trouvé le mauvais et donc nous n'avons pas le poids correct.

01:57.740 --> 01:59.940
Nous n'avons pas de réseau neuronal optimisé.

02:00.230 --> 02:02.480
Nous avons un réseau de neurones inférieur à la normale.

02:02.610 --> 02:04.470
Et alors que faisons-nous dans ce cas.

02:04.670 --> 02:09.110
Eh bien, la réponse ici est stochastique.

02:09.110 --> 02:10.050
Descente graduelle.

02:10.070 --> 02:15.260
Et il s'avère que la descente de gradient sarcastique ne nécessite pas que la fonction de cause soit convexe.

02:15.380 --> 02:20.120
Examinons donc les deux différences entre la descente de gradient normale dont nous avons parlé

02:20.150 --> 02:21.600
et la plage stochastique.

02:21.860 --> 02:27.920
La descente verte est donc normale lorsque nous prenons toutes nos lignes, nous les connectons à notre réseau de neurones.

02:27.920 --> 02:33.890
Une fois encore, le réseau de neurones est copié plusieurs fois, mais les lignes sont connectées à ce même

02:33.890 --> 02:36.050
réseau de neurones à chaque fois.

02:36.050 --> 02:39.200
Donc, il y a seulement un truc vieux d'un an, c'est juste pour l'action de Kissel.

02:39.350 --> 02:43.880
Et puis, une fois que nous les avons branchés, nous avons calculé notre fonction de coût en

02:43.880 --> 02:49.400
fonction de la formule correcte et en regardant le graphique au bas de la page, puis nous ajustons les poids, nous appelons

02:49.400 --> 02:54.480
cela la méthode de descente sur gradient ou bien le terme approprié est cette méthode de descente en gradient par lots.

02:54.470 --> 03:01.940
Donc, nous prenons tout le lot de notre échantillon, nous l’appliquons et nous constatons que la méthode de descente de gradient

03:01.940 --> 03:03.730
stochastique est un peu différente.

03:03.800 --> 03:10.880
Ici, nous prenons les rangées une par une, donc nous courons cette rangée, nous exploitons notre réseau de neurones et ensuite nous

03:10.880 --> 03:12.020
ajustons les poids.

03:12.020 --> 03:16.420
Ensuite, nous passons à la deuxième rangée, nous prenons la deuxième, nous exploitons notre réseau de neurones.

03:16.580 --> 03:21.640
Nous examinons la fonction de coût, puis nous ajustons à nouveau les poids, puis nous prenons un autre Rohtak. Trois fois, nous

03:21.640 --> 03:25.430
gérons notre réseau de neurones. Nous examinons la fonction de coût, nous ajustons le poids.

03:25.430 --> 03:32.660
Nous cherchons donc à ajuster les poids après chaque rangée plutôt que de tout faire

03:32.660 --> 03:36.080
ensemble, puis à tester deux approches différentes.

03:36.230 --> 03:39.710
Et maintenant, nous allons simplement comparer les deux côte à côte.

03:39.710 --> 03:42.920
Alors les voici, voici comment les rappeler visuellement.

03:42.920 --> 03:49.490
Donc, vous avez la meilleure descente de gradient où vous ajustez les poids après les avoir exécutés après avoir exécuté toutes

03:49.490 --> 03:55.370
les lignes de votre réseau de neurones, puis en gros juste les poids et que vous exécutez à nouveau

03:55.370 --> 04:00.500
le tout en décembre de la sixième année et que vous courez une rangée à la

04:00.500 --> 04:06.650
fois et que vous ajustez les poids de la même manière que c’est juste les poids et que vous faites

04:06.770 --> 04:10.040
tout, encore et encore et que l’on parle de discussion.

04:10.080 --> 04:16.580
Et vous avez dit que les deux différences principales sont que la méthode de

04:16.580 --> 04:27.470
descente de gradient sarcastique vous aide à éviter le problème où vous trouvez ces extrémités locales ou ces minimums locaux plutôt que le minimum

04:27.470 --> 04:28.620
global global.

04:29.030 --> 04:34.850
Et la raison en est simplement qu’il existe une vidéo montrant que la méthode de descente de gradient stochastique présente des

04:35.150 --> 04:38.220
fluctuations beaucoup plus importantes, car elle peut se le permettre.

04:38.210 --> 04:43.650
Il effectue une itération ou une ligne à la fois et, par conséquent, les fluctuations sont beaucoup

04:43.650 --> 04:49.440
plus importantes et il est beaucoup plus probable que le minimum global soit trouvé plutôt que le minimum local.

04:49.460 --> 04:56.480
Et l’autre aspect de la descente de gradient sarcastique, je pense que c’est un mauvais gradient, c’est que c’est la première

04:56.480 --> 05:01.670
impression que vous pourriez avoir, c’est parce que ça grandit un à un, c’est plus

05:01.730 --> 05:09.050
lent, mais en fait c’est plus rapide parce n'a pas besoin de charger toutes les données en mémoire et de s'exécuter

05:09.080 --> 05:12.610
et d'attendre que toutes ces règles soient complètement activées.

05:12.710 --> 05:16.780
Vous pouvez simplement les contourner un par un pour que l'algorithme soit beaucoup plus

05:16.790 --> 05:24.020
léger et beaucoup plus rapide dans ce sens, donc il en a beaucoup plus dans ce sens car il présente plus d'avantages par rapport au mauvais.

05:24.110 --> 05:25.320
Méthode de descente par gradient.

05:25.430 --> 05:31.310
L’avantage principal de la méthode de descente sur gradient est qu’il s’agit d’un

05:31.310 --> 05:37.250
algorithme déterministe ou autre que de lancer une descente de gradient étant un

05:37.250 --> 05:44.570
algorithme sarcastique, c’est-à-dire qu’il s’agit d’un algorithme aléatoire mêmes poids de départ pour votre réseau de

05:44.570 --> 05:45.430
neurones.

05:45.500 --> 05:52.300
Chaque fois que vous exécutez la méthode de descente en gradient par lots, vous obtiendrez les mêmes itérations, les mêmes résultats pour vous, de la même

05:52.300 --> 05:57.960
manière que vos poids sont mis à jour pour que nous puissions les utiliser pour la méthode du gradient sarcastique

05:57.980 --> 05:58.300
décent.

05:58.310 --> 06:04.550
Vous n'obtiendrez pas cela parce que c'est une méthode stochastique si vous choisissez vos rôles au hasard et

06:04.570 --> 06:10.940
que vous mettez à jour votre réseau de neurones de manière sarcastique. Par conséquent, chaque fois que vous exécutez

06:10.940 --> 06:15.380
la catégorie, vous utilisez une méthode décente. Même si vous avez les

06:15.380 --> 06:20.770
mêmes poids au début, vous aurez un processus différent et des itérations différentes pour y parvenir.

06:20.780 --> 06:28.100
En bref, c’est en fait une méthode entre les deux, appelée méthode de descente sur gradient par

06:28.100 --> 06:34.520
lots, qui consiste à combiner les deux et à exécuter en gros plutôt que de

06:34.520 --> 06:37.640
lancer un lot complet à la fois.

06:37.640 --> 06:44.150
Vous exécutez des lots de lignes peut-être 5 10 100, quel que soit le nombre de lignes que vous décidez de définir, vous exécutez ce nombre de lignes

06:44.150 --> 06:47.690
à la fois, puis vous mettez à jour votre chemin à un chiffre, etc.

06:47.900 --> 06:52.670
Et c'est ce qu'on appelle la méthode de descente sur gradient Mini Bache. Si vous souhaitez en

06:52.670 --> 06:56.630
savoir plus sur la descente sur gradient, voici un excellent article à consulter.

06:56.660 --> 07:04.940
C'est ce qu'on appelle un réseau de neurones en 13 lignes de Python, conçu par Andrew

07:04.940 --> 07:12.840
Trask. Les liens ci-dessous constituent un bon article de 15 ans très bien écrit.

07:12.920 --> 07:21.860
Vous avez des idées philosophiques ou simplement intéressantes sur la manière d’appliquer de l’eau verte décente.

07:22.340 --> 07:28.460
Vous connaissez les avantages et les inconvénients, et comment faire les

07:28.460 --> 07:30.730
choses dans certaines situations.

07:31.370 --> 07:33.620
Très facile à lire, alors jetez-y un coup d'œil.

07:33.800 --> 07:37.010
Et un autre un peu plus lourd à lire.

07:37.010 --> 07:41.930
Pour ceux d'entre vous qui sont dans les mathématiques qui veulent aller au fond des mathématiques, pourquoi.

07:41.930 --> 07:45.180
La descente en gradient est spécifique.

07:45.260 --> 07:49.200
Quelles sont les formules qui dirigent les classements Et comment calcule-t-il et ainsi de suite.

07:49.220 --> 07:51.610
Consultez l'article ou en fait le livre.

07:51.620 --> 07:57.160
C'est un livre en ligne gratuit intitulé Réseaux de neurones et apprentissage en profondeur par le livre 2015 de Michael Nielsen.

07:57.160 --> 08:02.190
En gros, tout est en ligne, vous pouvez y aller et le vérifier.

08:02.450 --> 08:05.870
Et là encore une introduction très douce aux mathématiques.

08:05.870 --> 08:12.260
Mais ensuite, pour une mère, les mathématiques, mais les mathématiques sont assez lourdes au fur et à mesure que vous

08:12.530 --> 08:13.340
lisez l'article.

08:13.610 --> 08:20.240
Mais en même temps, cela vous met dans l'ambiance que vous voulez dire, c'est comme un chapitre d'échauffement dans lequel vous échauffez d'abord

08:20.240 --> 08:25.370
les mathématiques, puis vous passez à autre chose, je suis tellement intéressé par les mathématiques alors voici l'article

08:25.370 --> 08:26.110
à consulter.

08:26.540 --> 08:32.780
Et voilà, voilà en un mot la différence entre le sens de Graney de lancer

08:32.810 --> 08:36.360
la descente et la façon de travailler.

08:36.410 --> 08:39.830
Et sur cette note, nous allons conclure aujourd'hui, a déclaré Tauriel.

08:39.840 --> 08:42.000
J'ai hâte de vous voir à la prochaine.

08:42.020 --> 08:44.090
Et jusque-là, profitez d'un apprentissage en profondeur.
