WEBVTT

00:00.360 --> 00:06.480
Hola y bienvenidos de nuevo al curso de aprendizaje profundo, este es un tutorial adicional para hablar sobre

00:06.480 --> 00:08.670
las funciones de entropía suave y cruzada.

00:08.670 --> 00:15.320
No es necesario al 100% para que repasemos todas las partes que hemos visto en la parte

00:15.330 --> 00:21.510
principal de esta sección, donde hablamos de las redes neuronales convolucionales, pero al mismo tiempo pensé

00:21.510 --> 00:26.580
que sería una buena adición a su bolsa de conocimiento y conjunto de habilidades.

00:26.580 --> 00:30.840
Así que vamos a profundizar en estas funciones.

00:30.840 --> 00:37.530
tenemos aquí es la conclusión de una red neuronal que construimos en la parte principal de la sección

00:37.530 --> 00:44.210
y luego, al final, aparece algunas probabilidades para el cero punto noventa y cinco para un perro 0.

00:44.220 --> 00:48.000
Entonces, comenzar con lo que 05 cinco o 5 por ciento para un gato.

00:48.060 --> 00:53.250
Teniendo en cuenta que la foto de la izquierda es una entrada Esto es después de que se haya

00:53.260 --> 00:57.210
conducido el tren, en realidad se está ejecutando y está clasificando una determinada imagen.

00:57.360 --> 01:00.850
Entonces, la pregunta es cómo estos dos valores suman uno.

01:00.900 --> 01:06.750
Porque, por lo que sabemos por todo lo que aprendí sobre las redes neuronales artificiales, no

01:06.750 --> 01:11.600
hay nada que decir que estas dos neuronas finales están conectadas entre sí.

01:11.730 --> 01:16.590
Entonces, ¿cómo sabrían cuál es el valor de la retención que cada uno de ellos sabe cuál es el valor

01:16.590 --> 01:17.310
de la otra?

01:17.400 --> 01:20.140
Y cómo sabrían agregar sus valores hasta uno.

01:20.340 --> 01:22.060
Bueno, la respuesta es que no lo harían.

01:22.260 --> 01:28.500
En la versión clásica de nuestra red neuronal artificial, y la única forma en que lo hacen es

01:28.710 --> 01:33.960
porque presentamos una función especial llamada función soft max para ayudarnos a salir de la situación.

01:33.960 --> 01:40.890
Entonces normalmente lo que sucedería es que el perro y las neuronas gato tendrían cualquier tipo de valores reales

01:41.490 --> 01:44.940
que no tienen que ser, no tienen que sumar uno.

01:45.180 --> 01:51.900
Pero luego aplicaríamos la función soft max que está escrita arriba en la parte superior y eso

01:51.900 --> 01:58.430
llevaría estos valores a estar entre 0 y 1 y los haría sumar 1 y 3 PPTA.

01:59.250 --> 02:04.320
La función soft max o la función exponencial normalizada es una generalización de la función

02:04.350 --> 02:11.640
logística que cita squash tiene un vector dimensional k de valores reales arbitrarios a un vector k dimensional de valores reales

02:11.640 --> 02:15.320
en el rango de cero a uno que suman 1.

02:15.330 --> 02:17.620
Básicamente, hace exactamente lo que queremos.

02:17.670 --> 02:22.700
Trae estos valores entre 0 y 1 y se asegura de que sumen hasta 1.

02:22.960 --> 02:27.780
Y la forma en que funciona es que la forma en que esto es posible es porque en la parte

02:27.780 --> 02:29.970
inferior estamos aquí puede ver que hay una sumatoria.

02:29.970 --> 02:38.100
tanto, toma el exponente y lo pone en poder de Zed y lo suma para que uno sea un dos en todas sus clases.

02:38.100 --> 02:38.830
Por lo

02:38.850 --> 02:39.990
Todos estos valores

02:39.990 --> 02:44.400
Y entonces ahí está su normalización sucediendo allí mismo.

02:44.400 --> 02:51.300
Así es como funciona la función Saucebox y tiene sentido introducir la próxima función suave en

02:51.600 --> 02:59.490
redes neuronales convolucionales porque qué extraño sería si tuvieras clases posibles de un perro y un gato y para

02:59.490 --> 03:05.140
la clase de perro tuvieras la posibilidad de un 80 por ciento .

03:05.160 --> 03:08.660
Y para las garras de gato, tenías un buen 45 por ciento de razón.

03:08.670 --> 03:14.430
suave y eso es lo que ocurrirás la mayor parte del tiempo en las redes convolucionales y neuronales.

03:14.430 --> 03:19.760
Simplemente no tiene sentido así y, por lo tanto, es mucho mejor cuando introduces la próxima función

03:19.770 --> 03:26.010
Ahora, la otra cosa es que la función soft max viene de la mano con algo llamado la función

03:26.100 --> 03:29.040
de entropía cruzada y es muy útil para nosotros.

03:29.050 --> 03:30.610
Así que primero veamos la fórmula.

03:30.660 --> 03:33.090
Así es como se ve la función de entrada cruzada.

03:33.090 --> 03:38.910
En realidad vamos a utilizar un cálculo diferente que va a utilizar esta representación del siglo, pero los

03:39.060 --> 03:40.670
resultados son básicamente los mismos.

03:40.670 --> 03:42.300
Esto es simplemente más fácil de calcular.

03:42.570 --> 03:49.220
Y lo que sé que esto puede parecer muy diferente a cualquier otra cosa en este momento son las fórmulas en su pantalla,

03:49.850 --> 03:54.300
pero se recomendará una lectura adicional al final de esta sección, así que no se

03:54.600 --> 03:56.380
preocupe si no está aprendiendo matemáticamente.

03:56.380 --> 03:58.350
Me gusta incluso si no hemos explicado las matemáticas en este momento.

03:58.350 --> 04:03.630
Pero el punto aquí es que lo que atraviesa bien la entropía a través de la función de entropía.

04:03.630 --> 04:11.870
Recuerde cómo anteriormente en las redes neuronales artificiales teníamos una función llamada la función de flecha cuadrática media

04:11.880 --> 04:17.760
que usamos como la función de costo para evaluar nuestro rendimiento natural.

04:17.760 --> 04:23.750
Y nuestro objetivo era minimizar el MSE para optimizar el rendimiento de nuestra red.

04:23.940 --> 04:31.830
Bueno, esa era nuestra función de costos, allí y en las redes neuronales convolucionales todavía podemos usar MSE, pero una mejor

04:31.830 --> 04:38.070
opción en las redes neuronales convolucionales después de aplicar la función de máxima potencia resulta ser

04:38.070 --> 04:39.840
la función de entropía cruzada.

04:39.840 --> 04:46.080
Y en las redes neuronales convolucionales cuando aplicas las funciones de entrada cruzada no se llama costo, la función de

04:46.080 --> 04:49.450
costo ya se llama la última función y son muy similares.

04:49.470 --> 04:55.520
Son solo algunas diferencias terminológicas y algo diferentes y sobre lo que significan.

04:55.530 --> 04:58.430
Pero para todos los propósitos es más o menos lo mismo.

04:58.450 --> 05:07.530
es que la última función es otra vez algo que queremos minimizar para maximizar el rendimiento de nuestra red.

05:07.530 --> 05:09.670
Y lo que sucede

05:09.690 --> 05:15.260
Así que echemos un vistazo a un ejemplo rápido sobre cómo se puede aplicar esta función.

05:15.260 --> 05:19.260
Entonces digamos que ponemos una imagen de un perro en nuestra red.

05:19.650 --> 05:26.160
El valor predicho para el perro es 0. 9 y esto está haciendo el entrenamiento, así que sabemos que conocemos la

05:26.160 --> 05:27.330
etiqueta que es un perro.

05:27.330 --> 05:34.140
Entonces el valor predictivo 0. 9 el valor prigged para cat es 0. 1 entonces aquí tenemos la etiqueta, así que sabemos

05:34.140 --> 05:37.810
que es un perro porque está entrenando 0 1 para perros o para gatos.

05:37.980 --> 05:47.600
Y entonces, en este caso, necesita usar que necesita conectar estos números en su fórmula para la entropía cruzada.

05:47.810 --> 05:53.340
Entonces, ¿cómo lo haces? Los valores de la izquierda van a la señal verbal.

05:53.420 --> 05:58.940
El que está debajo del logaritmo en el lado derecho y los valores en el derecho

05:58.940 --> 06:04.340
entrarían en P, por lo que es importante recordar cuál va allí porque si los malinterpretas

06:04.340 --> 06:09.620
no quieres tomar un logaritmo para todo yo desde cero valor o yendo desde 1.

06:09.620 --> 06:11.660
Entonces solo quieres enchufarlos.

06:11.720 --> 06:14.520
Asegúrate de enchufarlos en los lugares correctos.

06:14.840 --> 06:17.030
Y luego básicamente lo sumas.

06:17.030 --> 06:22.370
en la vida real y tendremos más sentido que la entropía cruzada. será menos así.

06:22.370 --> 06:28.130
Entonces, así es como funciona la entrada cruzada y veremos un momento en particular. Vamos a

06:28.130 --> 06:32.360
ver un ejemplo paso a paso específico de cómo aplicar esta función

06:32.360 --> 06:39.290
Mi objetivo en este trabajo es hacerte sentir más cómodo en el siglo XIX porque puede sonar muy

06:39.320 --> 06:43.840
intrincado y no se pretende que sea un juego de palabras.

06:43.850 --> 06:50.870
Al igual que las redes neuronales convolucionales, puede sonar muy complejo y aterrador, pero no lo es.

06:50.870 --> 06:51.650
Ese es ese el punto.

06:51.650 --> 06:54.090
Así que sigamos adelante y aplíquelo solo para que sepamos que no da miedo.

06:54.080 --> 06:56.350
Así que aquí está tu todo eso.

06:56.360 --> 07:01.790
Y también esto explicará por qué estamos haciendo esto por qué estamos investigando diferentes funciones de causa.

07:01.790 --> 07:06.650
Entonces, una red neuronal de una red neuronal digamos que tenemos dos redes neuronales y

07:06.650 --> 07:11.960
luego pasamos la imagen de un perro y sabemos que es un perro y no un gato.

07:12.200 --> 07:18.620
Y luego tenemos otra imagen, nuestro gato esta vez es un animal y es un gato, no un perro, y aquí tenemos una,

07:19.040 --> 07:22.490
estamos mirando un agujero que, de hecho, es un perro, no un gato.

07:22.490 --> 07:24.280
Si miras muy de cerca.

07:24.320 --> 07:28.440
Entonces queremos ver qué predicen nuestras redes neuronales en el primer caso.

07:28.460 --> 07:36.110
perro 10 por ciento gato corregir número de red a 60 por ciento perro 40 por ciento gato aún corregir peor.

07:36.110 --> 07:38.230
Red neuronal 1 90 por ciento

07:38.270 --> 07:40.030
Pero correcto.

07:40.280 --> 07:46.040
Segunda opción primera red neuronal 10 por ciento perro gato 90 por ciento cat.

07:46.040 --> 07:47.300
Correcto.

07:47.300 --> 07:53.560
Usted sabe que el número de perros en un 30 por ciento es peor en un 70 por ciento, pero sigue siendo correcto.

07:53.570 --> 08:01.460
Y luego, finalmente, la red neuronal en una red de años de imagen ganó 40% de perro, 60% de

08:01.870 --> 08:08.270
gato, número de redes neuronales incorrecto, 10% de perros y 90% de gatos incorrectos y peores.

08:08.270 --> 08:15.380
ambas personas de la red se equivocaron en la última, a través de las tres imágenes, la red neuronal estaba superando a la red neuronal.

08:15.620 --> 08:18.870
Así que la clave aquí es que a pesar de que

08:18.890 --> 08:27.010
Así que incluso en el último caso fue muy difícil tener un 40 por ciento de posibilidades en comparación con la red neuronal para dar al

08:27.030 --> 08:32.330
perro un 10 por ciento de posibilidades o una red neuronal que está superando en general en

08:33.200 --> 08:35.310
comparación con la red neuronal 2.

08:35.520 --> 08:41.780
Y ahora vamos a ver las funciones que pueden medir el rendimiento que hemos hablado

08:41.780 --> 08:42.800
de la calificación.

08:43.040 --> 08:48.090
Así que pongámoslos en una tabla para que haya una red neuronal 1 que tenga el número equivocado.

08:48.350 --> 08:49.430
Entonces ese es el número de la imagen.

08:49.550 --> 08:51.140
Y luego, para la imagen uno que tienes.

08:51.140 --> 08:54.010
¿Qué es lo que predice el 90 por ciento de los chimpancés y gatos de perros?

08:54.110 --> 09:00.550
Así que está el sombrero de Marable y luego tienes el valor real, por lo que el gato correcto es incorrecto.

09:00.560 --> 09:07.460
Lo mismo para la imagen número dos y lo mismo para un mínimo de tres y lo mismo para la red neuronal número

09:07.460 --> 09:07.720
dos.

09:07.750 --> 09:11.060
Entonces, el 60 por ciento de los perros se quedó con el 40 por ciento en la primera imagen.

09:11.060 --> 09:13.800
Eso es lo que predijo Crotons era perro, no un gato.

09:13.820 --> 09:14.820
Y así.

09:15.200 --> 09:18.050
Y ahora veamos qué errores podemos obtener realmente.

09:18.050 --> 09:24.940
Entonces, ¿qué errores podemos calcular para estimar el rendimiento y controlar el rendimiento de nuestras redes?

09:24.950 --> 09:28.480
Entonces, un tipo de error se llama error de clasificación.

09:28.640 --> 09:33.990
Y eso es básicamente solo preguntar si lo hiciste bien o no.

09:34.010 --> 09:36.940
Independientemente de las probabilidades es solo ¿LO LOGRAS BIEN?

09:36.950 --> 09:37.970
O lo hiciste bien.

09:37.970 --> 09:44.790
Entonces, en ambos casos, para ambas redes neuronales, cada una de ellas obtuvo una.

09:44.810 --> 09:46.330
Así que así es como te salen mal.

09:46.340 --> 09:48.460
Así que obtuvieron uno de cada tres mal.

09:48.470 --> 09:54.960
Así que la tasa de error del 33 por ciento para su red 1 y el 30 por ciento de error para la red neuronal.

09:55.100 --> 09:59.750
Como punto de partida desde este punto de vista, ambas redes neuronales funcionan en el mismo nivel, pero sabemos que eso no

09:59.750 --> 10:00.250
es cierto.

10:00.260 --> 10:04.400
Sabemos que la red neuronal Ikhwan está superando a la red neuronal.

10:05.120 --> 10:10.850
Es por eso que un error de clasificación no es una buena medida, especialmente para los propósitos de propagación

10:11.810 --> 10:17.960
inversa del error cuadrático medio, y por la forma en que hice estos cálculos en Excel, simplemente no quería aburrirlo

10:17.960 --> 10:22.010
con ellos, pero puede Tony sentarse y hacerlos en un papel o en Excel.

10:22.010 --> 10:28.760
Estos son cálculos muy simples, básicamente toman la suma de los errores al cuadrado y

10:28.760 --> 10:35.010
luego solo toman el promedio en sus observaciones y eso es más o menos.

10:35.060 --> 10:43.320
Entonces, para la red neuronal uno obtiene el 25 por ciento de la red neuronal 2; obtienes tasas de error del 71 por ciento, de modo

10:43.330 --> 10:45.930
que puedes ver que esta es más precisa.

10:45.940 --> 10:50.380
Nos dice que casi uno tiene una tasa de error mucho más baja que su propia red.

10:51.150 --> 10:52.970
Y luego cruzar la entropía de nuevo.

10:52.990 --> 10:57.250
Hemos visto la fórmula. También puede calcular que esto es incluso más fácil de calcular que el error cuadrático medio. El

10:57.250 --> 11:04.780
área transversal a través de la entropía proporciona el 38 por ciento de la red neuronal 1 y 1. 6 para la red neuronal 2.

11:04.780 --> 11:05.350
0

11:05.500 --> 11:08.180
Entonces puedes ver que los resultados son un poco diferentes.

11:08.350 --> 11:16.510
Cuando los miras de esa manera cuando miras, conoces el área de la minifalda y la entropía cruzada, y la pregunta

11:16.510 --> 11:26.350
de por qué usarías la entropía cruzada significa que el error al cuadrado no es exactamente del tipo de los números que dicen, sino todo

11:26.350 --> 11:32.030
esto los cálculos fueron solo para mostrarte que esto es todo lo que puedes hacer

11:32.050 --> 11:34.680
en un papel, pero no es así.

11:34.780 --> 11:37.890
No es una matemática muy intensa.

11:37.890 --> 11:41.130
Estas son cosas simples bastante simples.

11:41.200 --> 11:47.680
Pero la pregunta de por qué usaría significa causa entropía significa que hay una muy buena pregunta

11:47.680 --> 11:48.250
que hacer.

11:48.250 --> 11:58.530
Me complace que haya preguntado que la respuesta es que hay varias ventajas de la entropía cruzada sobre el error

11:58.540 --> 12:01.430
cuadrático medio, que no son obvias.

12:01.450 --> 12:07.160
Y entonces mencionaré un par, pero luego les haré saber dónde pueden encontrar más.

12:07.160 --> 12:18.550
Entonces, uno de ellos es que si usted, por ejemplo, al comienzo de su propagación de la espalda, su valor de salida

12:18.550 --> 12:22.260
es muy, muy, muy pequeño, muy pequeño.

12:22.360 --> 12:25.680
Por lo tanto, es mucho más pequeño que el valor real que desea.

12:25.750 --> 12:32.920
Entonces, al principio, el gradiente en tu mundo grandioso y decente será muy bajo y no

12:32.920 --> 12:33.840
serás suficiente.

12:33.850 --> 12:40.630
Sería muy difícil para la red neuronal realmente comenzar a hacer algo y comenzar a moverse y comenzar a

12:40.630 --> 12:45.010
ajustar esos pesos y comenzar a Movistar realmente moviéndose en la dirección correcta.

12:45.130 --> 12:50.920
Mientras que cuando utilizas algo como la entropía cruzada porque tiene ese logaritmo, en realidad ayuda

12:51.400 --> 12:57.310
a la red a evaluar incluso un área pequeña como esa y hacer algo al respecto.

12:57.310 --> 12:58.520
He aquí cómo pensar sobre eso.

12:58.520 --> 13:03.260
Entonces, digamos de nuevo, esto está muy dentro y en un enfoque muy intuitivo.

13:03.410 --> 13:08.830
Habrá un enlace a las matemáticas y puede derivar estas cosas a través de las matemáticas en

13:08.830 --> 13:11.260
más detalle, pero con un enfoque muy intuitivo.

13:11.260 --> 13:16.030
Digamos que te gusta el resultado que deseas.

13:16.030 --> 13:22.810
Es uno y ahora estás en una millonésima de uno.

13:22.870 --> 13:23.140
Derecha.

13:23.170 --> 13:30.790
$ 0. 00 o hay uno y luego mejorará la próxima vez que mejore su

13:30.790 --> 13:32.680
resultado de una millonésima a una milésima.

13:32.860 --> 13:39.330
Y en términos de si calcula el error al cuadrado, solo resta uno del otro.

13:39.610 --> 13:44.980
O básicamente, en cada caso, eres Kalka en un cuadrado y verás que los errores al

13:44.980 --> 13:48.210
cuadrado cuando comparas un caso con otro no cambiaron demasiado.

13:48.220 --> 13:51.940
No mejoró mucho su red cuando mira el cuadrado medio allí.

13:52.120 --> 13:58.750
Pero si miras la entropía cruzada porque estás tomando un logaritmo y luego estás comparando eso

13:58.750 --> 14:01.090
para dividir uno con el otro.

14:01.390 --> 14:09.390
Verá que en realidad ha mejorado su red de manera significativa, de modo que ese salto de un millón a 1000

14:09.460 --> 14:12.810
en términos de error cuadrado medio será muy bajo.

14:12.820 --> 14:15.710
Será insignificante y no lo será.

14:15.790 --> 14:22.270
No guiará su proceso de aumento de gradiente o su propagación hacia atrás en la dirección correcta.

14:22.340 --> 14:28.180
Todo guiará en la dirección correcta, pero será como una guía muy lenta, no tendrá suficiente

14:28.540 --> 14:34.960
potencia, mientras que si lo haces recircula la entropía a través de la entropía, entenderás que, aunque

14:34.960 --> 14:42.220
estos son ajustes muy pequeños que solo tú sabes hacer un pequeño cambio en términos absolutos en términos relativos

14:42.220 --> 14:43.770
es una gran mejora.

14:43.870 --> 14:46.110
Y definitivamente vamos en la dirección correcta.

14:46.110 --> 14:54.820
Sigamos así, para que la entropía cruzada ayude a su red neuronal a llegar a la derecha y al estado

14:54.820 --> 15:01.090
óptimo es una mejor manera para que la red neuronal llegue a un estado óptimo.

15:01.090 --> 15:08.260
Pero tenga en cuenta que esto solo funciona cuando la entropía es solo el método preferido solo para la clasificación.

15:08.260 --> 15:14.200
Entonces, si estás hablando de regresiones como las que tuvimos en las redes neuronales artificiales, entonces prefieres ir conmigo

15:14.230 --> 15:20.770
y cuadrar el error, mientras que la entropía cruzada es mejor para la clasificación y nuevamente tiene que ver con el

15:20.770 --> 15:26.200
hecho de que estamos usando soft la siguiente función, así que es una especie de explicación intuitiva de

15:26.200 --> 15:31.690
eso, un buen lugar para aprender un poco más sobre eso si estás realmente interesado en saber por

15:31.690 --> 15:34.740
qué estamos usando el error cuadrado cruzado contra el cuadrado.

15:35.200 --> 15:43.160
Google, un video de Geoffrey Hinton, llamó a la función de salida suave máxima y él lo explica muy bien y usted

15:43.160 --> 15:48.760
sabe que es el padrino del aprendizaje profundo que puede explicarlo mejor de todos modos.

15:48.890 --> 15:51.680
Y, por cierto, cualquier video de Geoffrey Hinton es oro.

15:51.680 --> 15:55.590
Él simplemente tiene un gran talento para explicar las cosas de todos modos.

15:55.610 --> 16:01.310
Así que eso es suave, suave y no cruzado, y espero que eso les dé una especie de comprensión intuitiva de lo que

16:01.310 --> 16:02.110
está sucediendo aquí.

16:02.120 --> 16:08.030
Pero más importante aún es que no te desanime el término entropía cruzada porque el titular lo mencionará en las

16:08.030 --> 16:11.280
historias prácticas y quería asegurarte de que estás preparado para eso.

16:11.280 --> 16:15.740
Y es solo otra manera de calcular tu última función.

16:15.740 --> 16:21.830
lo tanto, a las redes neuronales convolucionales, y va de la mano con la función soft max.

16:21.860 --> 16:28.180
Y otra forma de optimizar su red que está específicamente adaptada a los problemas de clasificación y, por

16:28.280 --> 16:35.480
Por lo tanto, lectura adicional si desea una introducción ligera a la entropía cruzada, si está interesado en concentrarse

16:35.480 --> 16:37.170
un poco más, por supuesto.

16:37.250 --> 16:43.370
Un buen artículo para verificar se llama una introducción amistosa a la pérdida de entropía cruzada por

16:44.180 --> 16:45.280
Rob DePietro 2016.

16:45.350 --> 16:46.860
Aquí está el enlace a continuación.

16:47.150 --> 16:54.350
Muy, muy agradable, muy suave y nada matemático súper complejo.

16:54.440 --> 16:59.660
te daremos un buena visión general de una entrada cruzada como desde un punto de vista introductorio.

16:59.660 --> 17:04.910
Buenas analogías, buenos ejemplos usando analogías de autos y miras autos y habla sobre información y bits

17:04.910 --> 17:10.730
y restricciones y sabes cómo decodificarás todo este Unico que es así que es un buen artículo para echar

17:10.820 --> 17:11.680
un vistazo y

17:11.900 --> 17:18.590
Si quieres profundizar en las pesadas matemáticas, como lo que ves aquí, echa un vistazo a un artículo de

17:18.680 --> 17:25.180
o un blog sobre cómo implementar una red neuronal Intermezzo también, así que en términos de uso es

17:25.220 --> 17:27.410
como una cosa intermedia como a.

17:27.550 --> 17:28.910
Intermitencia en.

17:28.990 --> 17:35.690
cuando vas a un teatro y tienes un descanso entre la primera parte y la segunda parte.

17:35.690 --> 17:36.290
Ya sabes

17:36.350 --> 17:40.820
Entonces, porque es como pasar por todos estos pasos y luego él es como y luego dice que

17:40.820 --> 17:42.210
tengo que explicar esto primero.

17:42.470 --> 17:44.080
Y sí, así que es por eso que se llama intermezzo.

17:44.090 --> 17:51.620
No hay otra razón por la que entiendo los artículos de Peter Rolands 2016, así que ambos son

17:51.620 --> 17:52.470
bastante recientes.

17:52.580 --> 18:00.150
Y ya sabes, echa un vistazo a esto si quieres profundizar en las matemáticas detrás de la entropía de Kross detrás del Max y

18:00.150 --> 18:02.600
la entropía cruzada en este artículo en realidad.

18:02.930 --> 18:03.790
Entonces ahí vamos

18:03.860 --> 18:07.360
Eso es todo lo que hay para estos dos.

18:07.370 --> 18:12.780
Con suerte, pude agregar algo de claridad adicional y buena suerte con eso.

18:12.830 --> 18:16.970
Va a ser divertido y disfrutar de los tutoriales prácticos.

18:16.970 --> 18:18.070
Nos vemos la próxima vez.

18:18.080 --> 18:19.700
Hasta entonces disfruta el aprendizaje.