WEBVTT

00:00.360 --> 00:06.480
Bonjour et bienvenue au cours d’apprentissage en profondeur, c’est un tutoriel supplémentaire pour parler des

00:06.480 --> 00:08.670
fonctions d’entropie douce et croisée.

00:08.670 --> 00:15.320
Il n'est pas nécessaire à 100% de passer en revue toutes les parties que nous avons décrites

00:15.330 --> 00:21.510
dans la partie principale de cette section où nous parlons des réseaux de neurones à

00:21.510 --> 00:26.580
convolution un bon ajout à votre sac de connaissances et de compétences.

00:26.580 --> 00:30.840
Alors allons-y et allons dans ces fonctions.

00:30.840 --> 00:37.530
Donc, pour commencer avec ce que nous avons ici, c'est la conclusion d'un réseau de neurones que nous avons

00:37.530 --> 00:44.210
construit dans la partie principale de la section, puis à la fin, certaines probabilités de zéro point quatre-vingt-quinze pour

00:44.220 --> 00:48.000
un chien 0 sont affichées. 05 cinq ou 5 pour cent pour un chat.

00:48.060 --> 00:53.250
C’est après que le train a été conduit qu’elle est en train

00:53.260 --> 00:57.210
de tourner et de classer une image donnée

00:57.360 --> 01:00.850
La question est donc de savoir comment ces deux valeurs peuvent s’ajouter à une.

01:00.900 --> 01:06.750
Parce que, autant que nous sachions de tout ce que j’ai appris sur les réseaux de neurones

01:06.750 --> 01:11.600
artificiels, rien ne dit que ces deux derniers neurones sont connectés entre eux.

01:11.730 --> 01:16.590
Alors, comment sauraient-ils quelle est la valeur de la retenue, chacun d’eux sachant quelle est la valeur

01:16.590 --> 01:17.310
de l’autre?

01:17.400 --> 01:20.140
Et comment sauraient-ils ajouter leurs valeurs à un?

01:20.340 --> 01:22.060
Eh bien, la réponse est qu'ils ne le feraient pas.

01:22.260 --> 01:28.500
Dans la version classique de notre réseau de neurones artificiels, le seul moyen d'y parvenir est que nous introduisons une

01:28.710 --> 01:33.960
fonction spéciale appelée fonction soft max afin de nous aider à sortir de la situation.

01:33.960 --> 01:40.890
Donc, normalement, ce qui se passerait serait que le chien et les neurones de chat aient toutes sortes de valeurs réelles dont ils

01:41.490 --> 01:44.940
n'ont pas besoin, ils n'ont pas à en ajouter une.

01:45.180 --> 01:51.900
Mais alors nous appliquerions la fonction soft max qui est écrite là-haut en haut et qui

01:51.900 --> 01:58.430
ramènerait ces valeurs entre 0 et 1 et leur ferait ajouter 1 et 3 PPTA.

01:59.250 --> 02:04.320
La fonction soft max ou la fonction exponentielle normalisée est une généralisation de la fonction logistique

02:04.350 --> 02:11.640
qui cite squash squash a un vecteur k dimensionnel de valeurs réelles arbitraires en k vecteur dimensionnel de valeurs réelles dans la

02:11.640 --> 02:15.320
plage allant de zéro à un et égal à 1.

02:15.330 --> 02:17.620
Donc, fondamentalement, cela fait exactement ce que nous voulons.

02:17.670 --> 02:22.700
Il porte ces valeurs entre 0 et 1 et veille à ce qu'elles totalisent 1.

02:22.960 --> 02:27.780
Et la façon dont cela fonctionne, c’est que la façon dont cela est possible, c’est qu’au fond, nous sommes

02:27.780 --> 02:29.970
ici, vous pouvez voir qu’il ya une somme.

02:29.970 --> 02:38.100
Donc, il faut l'exposant et le met dans le pouvoir de Zed et l'additionne de sorte que ce soit un deux dans toutes

02:38.100 --> 02:38.830
vos classes.

02:38.850 --> 02:39.990
Toutes ces valeurs.

02:39.990 --> 02:44.400
Et voilà votre normalisation qui se passe ici.

02:44.400 --> 02:51.300
Voilà comment fonctionne la fonction Saucebox. Il est donc logique d’introduire la fonction suivante

02:51.600 --> 02:59.490
dans les réseaux de neurones convolutifs. Comme ce serait étrange si vous aviez une classe possible

02:59.490 --> 03:05.140
de chien et de chat et que vous aviez 80% .

03:05.160 --> 03:08.660
Et pour les griffes de chat, vous aviez droit à 45%.

03:08.670 --> 03:14.430
Cela n’a tout simplement pas de sens. C’est donc beaucoup mieux lorsque vous introduisez la fonction suivante douce et

03:14.430 --> 03:19.760
c’est ce que vous constaterez le plus souvent dans les réseaux de convolution et de neurones.

03:19.770 --> 03:26.010
Maintenant, l’autre chose est que la fonction soft max s’accompagne d’une fonction appelée entropie croisée,

03:26.100 --> 03:29.040
ce qui est très pratique pour nous.

03:29.050 --> 03:30.610
Alors regardons d'abord la formule.

03:30.660 --> 03:33.090
Voici à quoi ressemble la fonction de saisie croisée.

03:33.090 --> 03:38.910
Nous allons en fait utiliser un calcul différent en utilisant cette représentation du siècle, mais les résultats

03:39.060 --> 03:40.670
sont fondamentalement les mêmes.

03:40.670 --> 03:42.300
C'est juste plus facile à calculer.

03:42.570 --> 03:49.220
Et ce que je sais, cela peut sembler sans aucun rapport avec quoi que ce soit actuellement, juste des formules sur votre écran, mais il y

03:49.850 --> 03:54.300
aura quelques lectures supplémentaires recommandées à la fin de cette section, alors ne vous inquiétez pas si

03:54.600 --> 03:56.380
vous ne suivez pas les calculs.

03:56.380 --> 03:58.350
Même si nous n’avons pas expliqué le calcul pour le moment.

03:58.350 --> 04:03.630
Mais le point ici est que ce qui est à travers l'entropie bien à travers la fonction d'entropie.

04:03.630 --> 04:11.870
Rappelez-vous comment nous avions auparavant dans les réseaux de neurones artificiels une fonction appelée fonction de flèche carrée moyenne

04:11.880 --> 04:17.760
que nous utilisions comme fonction de coût pour évaluer notre performance naturelle.

04:17.760 --> 04:23.750
Et notre objectif était de minimiser le MSE afin d'optimiser les performances de notre réseau.

04:23.940 --> 04:31.830
C’était notre fonction de coût à ce moment-là et dans les réseaux de neurones convolutionnels, nous pouvons toujours utiliser la MSE, mais une

04:31.830 --> 04:38.070
meilleure option dans les réseaux de neurones convolutionnels après l’application de la fonction soft max s’avère être la

04:38.070 --> 04:39.840
fonction à entropie croisée.

04:39.840 --> 04:46.080
Et dans les réseaux de neurones convolutifs, lorsque vous appliquez les fonctions de saisie croisée, la fonction de coût

04:46.080 --> 04:49.450
est appelée la dernière fonction et elles sont très similaires.

04:49.470 --> 04:55.520
Ils sont juste un peu de différences terminologiques et comme peu différent et sur ce qu'ils signifient.

04:55.530 --> 04:58.430
Mais à toutes fins utiles, c'est à peu près la même chose.

04:58.450 --> 05:07.530
Et ce qui se passe est que la dernière fonction est encore une fois quelque chose que nous voulons minimiser afin de maximiser

05:07.530 --> 05:09.670
les performances de notre réseau.

05:09.690 --> 05:15.260
Voyons donc un exemple rapide sur la manière dont cette fonction peut être appliquée.

05:15.260 --> 05:19.260
Alors disons que nous mettons une image d'un chien dans notre réseau.

05:19.650 --> 05:26.160
La valeur prévue pour chien est 0. 9 et nous faisons la formation pour que nous sachions que nous connaissons l’étiquette

05:26.160 --> 05:27.330
qui est un chien.

05:27.330 --> 05:34.140
Donc, la valeur prédictive 0. 9 la valeur prigged pour le chat est 0. 1 alors nous avons l'étiquette, donc nous savons que

05:34.140 --> 05:37.810
c'est un chien parce que c'est un entraînement 0 1 pour chiens ou pour chats.

05:37.980 --> 05:47.600
Et dans ce cas, vous devez utiliser, vous devez brancher ces nombres dans votre formule pour l'entropie croisée.

05:47.810 --> 05:53.340
Alors comment vous le faites, ce sont les valeurs de gauche qui vont au signal verbal.

05:53.420 --> 05:58.940
Celui qui se trouve sous le logarithme du côté droit et les valeurs de droite iraient en P

05:58.940 --> 06:04.340
et il est donc important de se rappeler laquelle y va car si vous vous trompez, vous

06:04.340 --> 06:09.620
ne voulez pas prendre un logarithme tout moi de valeur zéro et ou allant de 1.

06:09.620 --> 06:11.660
Donc, vous voulez juste les brancher.

06:11.720 --> 06:14.520
Assurez-vous de les brancher aux bons endroits.

06:14.840 --> 06:17.030
Et puis vous ajoutez essentiellement cela.

06:17.030 --> 06:22.370
C’est ainsi que fonctionne l’entrée croisée et nous allons examiner un exemple concret, étape

06:22.370 --> 06:28.130
par étape, d’application de cette fonction dans la vie réelle et ill, donner un sens plus

06:28.130 --> 06:32.360
clair à l’entropie croisée et ça va être moins comme ça.

06:32.360 --> 06:39.290
Mon but dans ce dur labeur est de vous rendre plus confortable du cross-siècle parce que cela peut sembler

06:39.320 --> 06:43.840
très compliqué et que le jeu de mots ne le permet pas.

06:43.850 --> 06:50.870
Comme les réseaux de neurones convolutifs, cela peut sembler très complexe et effrayant, mais ce n’est pas le cas.

06:50.870 --> 06:51.650
C'est ça le point.

06:51.650 --> 06:54.090
Alors allons-y et appliquons-le simplement pour que nous sachions que ce n'est pas effrayant.

06:54.080 --> 06:56.350
Alors voici ton tout ça.

06:56.360 --> 07:01.790
Et cela expliquera également pourquoi nous faisons cela et pourquoi nous examinons différentes fonctions de cause.

07:01.790 --> 07:06.650
Donc, réseau de neurones, un réseau de neurones, disons que nous avons deux réseaux de

07:06.650 --> 07:11.960
neurones, puis nous transmettons l'image d'un chien et nous savons qu'il s'agit d'un chien et non d'un chat.

07:12.200 --> 07:18.620
Et puis nous avons une autre image de notre chat cette fois un animal et c'est un chat pas un chien et ici nous avons un

07:19.040 --> 07:22.490
nous regardons un trou qui est en fait un chien pas un chat.

07:22.490 --> 07:24.280
Si vous regardez de très près.

07:24.320 --> 07:28.440
Nous voulons donc voir ce que nos réseaux de neurones ont été prédits dans le premier cas.

07:28.460 --> 07:36.110
Réseau de neurones 1 90% chien 10% chat correct pas de numéro de réseau 60% chien

07:36.110 --> 07:38.230
40% corrige encore pire.

07:38.270 --> 07:40.030
Mais correct.

07:40.280 --> 07:46.040
Deuxième option premier réseau neuronal 10% chat chien 90% chat.

07:46.040 --> 07:47.300
Correct.

07:47.300 --> 07:53.560
Vous connaissez ce nombre à 30% de chiens, 70% de chats pires mais toujours corrects.

07:53.570 --> 08:01.460
Et enfin, le réseau de neurones dans le réseau d'images d'une année a gagné 40 pour cent de chiens, 60 pour cent de chats, un

08:01.870 --> 08:08.270
numéro de réseau de neurones incorrect jusqu'à 10 pour cent de chiens et 90 pour cent de chats, incorrects.

08:08.270 --> 08:15.380
Donc, la clé est que même si les deux utilisateurs du réseau se sont trompés dans le dernier à travers les trois images

08:15.620 --> 08:18.870
du réseau de neurones, celui-ci surperformait le réseau de neurones.

08:18.890 --> 08:27.010
Ainsi, même dans le dernier cas, il était très probable que le réseau neuronal donne à un chien une chance sur 40

08:27.030 --> 08:32.330
pour cent de ne lui donner que 10% de chance ou qu'un réseau neural surperforme

08:33.200 --> 08:35.310
globalement le réseau neuronal 2.

08:35.520 --> 08:41.780
Et maintenant, nous allons examiner les fonctions permettant de mesurer la performance dont nous avons parlé en quelque sorte

08:41.780 --> 08:42.800
de la notation.

08:43.040 --> 08:48.090
Mettons-les dans un tableau pour qu'il y ait un mauvais numéro de réseau de neurones.

08:48.350 --> 08:49.430
Donc, c'est le numéro de l'image.

08:49.550 --> 08:51.140
Et puis pour l'image une que vous avez.

08:51.140 --> 08:54.010
Qu'est-ce qu'il a prédit 90% de chimpanzés et de chats.

08:54.110 --> 09:00.550
Donc, il y a le chapeau de Marable et alors vous avez la valeur réelle pour chien correct chat incorrect.

09:00.560 --> 09:07.720
Même chose pour l’image numéro deux et même chose pour un minimum de trois et identique pour le réseau de neurones numéro deux.

09:07.750 --> 09:11.060
So Dog 60% en conservait 40% dans la première image.

09:11.060 --> 09:13.800
C'est ce que prédit Crotons, c'était un chien et non un chat.

09:13.820 --> 09:14.820
Etc.

09:15.200 --> 09:18.050
Et maintenant, voyons quelles erreurs nous pouvons réellement obtenir.

09:18.050 --> 09:24.940
Alors, quelles erreurs pouvons-nous calculer pour estimer la performance et surveiller la performance de nos réseaux.

09:24.950 --> 09:28.480
Donc, un type d'erreur s'appelle l'erreur de classification.

09:28.640 --> 09:33.990
Et c’est simplement demander si cela s’est bien passé ou non.

09:34.010 --> 09:36.940
Peu importe les probabilités, C’est juste que vous l’avez bien compris.

09:36.950 --> 09:37.970
Ou avez-vous bien compris?

09:37.970 --> 09:44.790
Donc, dans les deux cas, pour les deux réseaux de neurones, ils en ont chacun un.

09:44.810 --> 09:46.330
Donc, c'est comme ça que vous vous trompez.

09:46.340 --> 09:48.460
Alors ils se sont trompés, un sur trois.

09:48.470 --> 09:54.960
Soit un taux d'erreur de 33% pour votre réseau et un taux d'erreur de 30% pour un réseau neuronal.

09:55.100 --> 09:59.750
En tant que base de ce point de vue, les deux réseaux de neurones fonctionnent au même niveau mais nous savons que ce n’est

09:59.750 --> 10:00.250
pas vrai.

10:00.260 --> 10:04.400
Nous savons que le réseau de neurones Ikhwan surpasse le réseau de neurones.

10:05.120 --> 10:10.850
C’est pourquoi une erreur de classement n’est pas une bonne mesure, en particulier pour les raisons de la propagation

10:11.810 --> 10:17.960
de l’erreur quadratique moyenne et, d’ailleurs, j’ai fait ces calculs dans Excel, je ne voulais tout simplement pas vous ennuyer avec

10:17.960 --> 10:22.010
eux, mais Tony peut s’asseoir et faites-les sur un papier ou dans Excel.

10:22.010 --> 10:28.760
Ce sont des calculs très simples qui prennent simplement la somme des erreurs carrées,

10:28.760 --> 10:35.010
puis la moyenne des observations, ce qui est à peu près tout.

10:35.060 --> 10:43.320
Donc, pour le réseau neuronal, on obtient 25%. Pour le réseau neuronal 2, vous obtenez un taux d'erreur de 71%. Vous constaterez

10:43.330 --> 10:45.930
ainsi que celui-ci est plus précis.

10:45.940 --> 10:50.380
Cela nous dit que près d'un pays a un taux d'erreur beaucoup plus bas que votre propre réseau.

10:51.150 --> 10:52.970
Et puis traverser à nouveau l'entropie.

10:52.990 --> 10:57.250
Nous avons vu la formule que vous pouvez également calculer, c'est en fait encore plus facile à calculer que l'erreur quadratique

10:57.250 --> 11:04.780
moyenne. La surface croisée sur l'entropie vous donne 38% pour les réseaux de neurones 1 et 1. 0 6 pour le réseau de neurones

11:04.780 --> 11:05.350
2.

11:05.500 --> 11:08.180
Donc, vous pouvez voir que les résultats sont un peu différents.

11:08.350 --> 11:16.510
Quand vous les regardez comme ça quand vous regardez, vous connaissez la zone de la mini-jupe et l'entropie croisée, et

11:16.510 --> 11:26.350
la question de savoir pourquoi vous utiliseriez l'entropie croisée au-dessus des erreurs carrées n'est pas simplement du genre Les calculs visaient simplement à vous

11:26.350 --> 11:32.030
montrer que tout cela est faisable. Vous pouvez simplement le faire sur un papier,

11:32.050 --> 11:34.680
mais ce n'est pas le cas.

11:34.780 --> 11:37.890
Ce ne sont pas des mathématiques très intenses.

11:37.890 --> 11:41.130
Ce sont de jolies choses simples et simples.

11:41.200 --> 11:47.680
Mais la question de savoir pourquoi vous utiliseriez des moyens cause d'entropie signifie qu'il y a une très très bonne question à

11:47.680 --> 11:48.250
poser.

11:48.250 --> 11:58.530
Je suis heureux que vous ayez demandé que la réponse à cette question soit la suivante: il existe plusieurs avantages de l'entropie croisée par rapport à l'erreur

11:58.540 --> 12:01.430
quadratique moyenne qui ne sont pas évidents.

12:01.450 --> 12:07.160
Je vais donc en mentionner quelques-uns, mais je vais vous laisser savoir où vous pouvez en savoir plus.

12:07.160 --> 12:18.550
Ainsi, l’un d’eux est que si, par exemple, vous êtes au tout début de votre propagation arrière, votre valeur de sortie est

12:18.550 --> 12:22.260
très très très très très petite.

12:22.360 --> 12:25.680
C'est donc beaucoup plus petit que la valeur réelle que vous voulez.

12:25.750 --> 12:32.920
Ensuite, au tout début, la pente dans votre monde grand et décent sera très très basse et vous ne serez

12:32.920 --> 12:33.840
pas assez.

12:33.850 --> 12:40.630
Il est très difficile pour le réseau de neurones de commencer à faire quelque chose, de bouger, d'ajuster ces

12:40.630 --> 12:45.010
poids et de commencer à faire avancer Movistar dans la bonne direction.

12:45.130 --> 12:50.920
Tandis que lorsque vous utilisez quelque chose comme l'entropie croisée parce qu'il contient un logarithme, cela

12:51.400 --> 12:57.310
aide en réalité le réseau à évaluer même une petite zone de ce type et à y remédier.

12:57.310 --> 12:58.520
Voici comment y penser.

12:58.520 --> 13:03.260
Alors disons encore une fois que c'est une approche très intuitive et très intuitive.

13:03.410 --> 13:08.830
Il y aura un lien avec les mathématiques et vous pourrez déduire ces choses par les mathématiques plus

13:08.830 --> 13:11.260
en détail, mais avec une approche très intuitive.

13:11.260 --> 13:16.030
Disons que vous aimez votre résultat que vous voulez.

13:16.030 --> 13:22.810
C'est un et à l'heure actuelle, vous êtes à un millionième d'un.

13:22.870 --> 13:23.140
Droite.

13:23.170 --> 13:30.790
0 $ 00 ou y en a-t-il et vous améliorerez la prochaine fois que vous augmenterez vos

13:30.790 --> 13:32.680
résultats d'un millionième à un millième.

13:32.860 --> 13:39.330
Et si vous calculez l'erreur au carré, il vous suffit de soustraire l'une de l'autre.

13:39.610 --> 13:44.980
Ou fondamentalement, dans chaque cas, vous êtes Kalka dans un carré et vous verrez que les erreurs au carré lorsque

13:44.980 --> 13:48.210
vous comparez un cas à un autre n'ont pas beaucoup changé.

13:48.220 --> 13:51.940
Vous n’avez pas beaucoup amélioré votre réseau en regardant le carré moyen.

13:52.120 --> 13:58.750
Mais si vous regardez l'entropie croisée parce que vous prenez un logarithme et que vous comparez cela à

13:58.750 --> 14:01.090
la division de l'un à l'autre.

14:01.390 --> 14:09.390
Vous constaterez que vous avez réellement amélioré votre réseau de manière significative, de sorte que le saut d'erreur d'un million à 1

14:09.460 --> 14:12.810
000 en termes d'erreur quadratique moyenne sera très faible.

14:12.820 --> 14:15.710
Ce sera insignifiant et ce ne sera pas le cas.

14:15.790 --> 14:22.270
Cela ne guidera pas votre processus de renforcement du gradient ou votre propagation du dos dans la bonne direction.

14:22.340 --> 14:28.180
Tout cela guidera dans la bonne direction mais ce sera comme un guidage très lent, il

14:28.540 --> 14:34.960
n'aura pas assez de puissance, mais si vous effectuez une entropie entrecroisée sur une entropie, vous comprendrez que,

14:34.960 --> 14:42.220
même si ce sont de très petits ajustements que vous savez faire, un petit changement en termes absolus en termes relatifs,

14:42.220 --> 14:43.770
c'est une énorme amélioration.

14:43.870 --> 14:46.110
Et nous allons certainement dans la bonne direction.

14:46.110 --> 14:54.820
Continuons dans cette voie afin que l'entropie croisée aide votre réseau de neurones à atteindre l'état optimal et constitue un

14:54.820 --> 15:01.090
meilleur moyen, pour le réseau de neurones, de parvenir à un état optimal.

15:01.090 --> 15:08.260
Mais gardez à l'esprit que cela ne fonctionne que lorsque l'entropie croisée n'est que la méthode préférée uniquement pour la classification.

15:08.260 --> 15:14.200
Donc, si vous parlez de choses comme la régression comme celle que nous avons eue dans les réseaux

15:14.230 --> 15:20.770
de neurones artificiels, vous préféreriez aller avec moi et l'erreur quadratique alors que l'entropie croisée est préférable pour la classification

15:20.770 --> 15:26.200
Ensuite, c’est une sorte d’explication intuitive qui en fait un bon endroit pour en apprendre

15:26.200 --> 15:31.690
un peu plus à ce sujet si vous êtes vraiment intéressé, vous savez pourquoi nous utilisons

15:31.690 --> 15:34.740
l’erreur croisée par rapport à l’erreur quadratique moyenne.

15:35.200 --> 15:43.160
Une vidéo de Geoffrey Hinton sur Google a appelé la fonction de sortie max max. Il l'explique très bien et vous savez

15:43.160 --> 15:48.760
être le parrain de l'apprentissage en profondeur qui peut mieux l'expliquer de toute façon.

15:48.890 --> 15:51.680
Et au fait, toute vidéo de Geoffrey Hinton est dorée.

15:51.680 --> 15:55.590
Il a juste un talent énorme pour expliquer les choses de toute façon.

15:55.610 --> 16:01.310
Donc, c’est ça doux contre croix et j’espère que cela vous donne une sorte de compréhension intuitive de ce qui se

16:01.310 --> 16:02.110
passe ici.

16:02.120 --> 16:08.030
Mais plus important encore, vous ne serez pas rebutés par le terme d'entropie croisée, car le titre le mentionnera dans les récits

16:08.030 --> 16:11.280
pratiques et je voulais m'assurer que vous êtes prêt pour cela.

16:11.280 --> 16:15.740
Et ce n'est qu'un autre moyen de calculer votre dernière fonction.

16:15.740 --> 16:21.830
Et une autre façon d'optimiser votre réseau, spécifiquement adaptée aux problèmes de classification

16:21.860 --> 16:28.180
et donc aux réseaux de neurones convolutifs, allant de pair avec la fonction soft max.

16:28.280 --> 16:35.480
Donc lecture supplémentaire si vous souhaitez une introduction légère dans l'entropie croisée si le concentré vous intéresse un

16:35.480 --> 16:37.170
peu plus bien sûr.

16:37.250 --> 16:43.370
Un bon article à découvrir s'appelle une introduction amicale à la perte d'entropie croisée par Rob

16:44.180 --> 16:45.280
DePietro 2016.

16:45.350 --> 16:46.860
Voici le lien ci-dessous.

16:47.150 --> 16:54.350
Très très sympa, très doux et rien de super math complexe.

16:54.440 --> 16:59.660
De bonnes analogies sont de bons exemples utilisant des analogies de voitures et vous regardez des voitures et vous

16:59.660 --> 17:04.910
parlez d'informations, de bits et de restrictions et vous savez comment décoderiez-vous cet Unico dans son ensemble, c'est donc

17:04.910 --> 17:10.730
un bon article à regarder et nous vous en donnerons un bonne vue d'ensemble d'une entrée croisée comme d'un point de

17:10.820 --> 17:11.680
vue introductif.

17:11.900 --> 17:18.590
Si vous voulez creuser dans les calculs lourds comme ce que vous voyez ici, consultez un article

17:18.680 --> 17:25.180
de ou un blog expliquant comment implémenter un réseau de neurones Intermezzo aussi, donc son

17:25.220 --> 17:27.410
utilisation est comme un intermédiaire.

17:27.550 --> 17:28.910
Intermittence dans.

17:28.990 --> 17:35.690
Vous savez, quand vous allez au théâtre, vous avez une pause entre la première et la deuxième

17:35.690 --> 17:36.290
partie.

17:36.350 --> 17:40.820
Donc, parce qu'il est comme passer par toutes ces étapes et ensuite il le dit et ensuite il dit

17:40.820 --> 17:42.210
que je dois d'abord l'expliquer.

17:42.470 --> 17:44.080
Et oui, c’est pourquoi on l’appelle intermezzo.

17:44.090 --> 17:51.620
Aucune autre raison pour autant que je comprenne les articles de Peter Rolands 2016, donc les deux sont

17:51.620 --> 17:52.470
assez récents.

17:52.580 --> 18:00.150
Et vous savez vérifier ceci si vous souhaitez creuser dans les mathématiques derrière l'entropie de Kross derrière le doux Max

18:00.150 --> 18:02.600
et l'entropie croisée dans cet article.

18:02.930 --> 18:03.790
Alors on y va.

18:03.860 --> 18:07.360
C'est tout ce qu'il y a pour ces deux-là.

18:07.370 --> 18:12.780
J'espère que j'ai pu ajouter un peu de clarté supplémentaire et bonne chance avec cela.

18:12.830 --> 18:16.970
Ça va être amusant et profiter des tutoriels pratiques.

18:16.970 --> 18:18.070
Je te vois la prochaine fois.

18:18.080 --> 18:19.700
Jusque-là profiter de l'apprentissage.
