WEBVTT

00:01.130 --> 00:06.810
Hola y bienvenidos, así que por supuesto sobre el aprendizaje profundo hoy hablamos sobre el descenso del gradiente Kostic.

00:07.220 --> 00:14.450
Anteriormente aprendimos sobre el descenso de gradientes y descubrimos que es un método muy eficaz para resolver nuestro

00:14.450 --> 00:19.590
problema de optimización en el que intentamos minimizar la función de costos.

00:19.640 --> 00:29.030
Básicamente nos lleva de 10 a la potencia de 57 años para resolver un problema en cuestión de minutos u horas o dentro de un

00:29.480 --> 00:30.940
día más o menos.

00:31.100 --> 00:37.490
Y realmente ayuda a acelerar las cosas porque podemos ver qué camino es cuesta abajo y podemos ir en

00:37.490 --> 00:41.400
esa dirección y tomar medidas y llegar al mínimo más rápido.

00:41.600 --> 00:50.030
cosa con el stick con pendiente de gradiente es que este método requiere que la función de costo sea convexa.

00:50.030 --> 00:50.990
Pero la

00:51.140 --> 00:57.710
Y como pueden ver aquí, hemos elegido específicamente una función de costo convexo básicamente convexo, lo que significa

00:58.160 --> 01:05.510
que la función es similar a lo que estamos viendo ahora, que es solo una especie de sentido en una

01:05.510 --> 01:09.220
dirección y que en esencia tiene un mínimo global.

01:09.380 --> 01:11.560
Y ese es el que vamos a encontrar.

01:11.630 --> 01:14.060
Pero, ¿y si nuestra función no es convexa?

01:14.060 --> 01:16.250
¿Qué pasa si nuestra función de costo no es correcta?

01:16.370 --> 01:17.810
¿Qué pasa si se ve algo como esto?

01:18.020 --> 01:19.660
Bueno, antes que nada, ¿cómo pudo suceder eso?

01:19.880 --> 01:27.950
Bueno, eso podría suceder porque si primero elegimos una función de costo, que no es la diferencia cuadrada entre por

01:28.010 --> 01:33.850
qué, cómo y por qué, o si elegimos la función de costo, que es así.

01:33.860 --> 01:39.650
Pero luego, en un espacio multidimensional, puede convertirse en algo que no sea convexo.

01:39.780 --> 01:45.410
Y entonces, ¿qué pasaría en este caso si intentásemos aplicar nuestro método degradado decente normal algo

01:45.410 --> 01:46.390
así podría suceder?

01:46.520 --> 01:51.230
Podríamos encontrar un mínimo local de la función de costo en lugar de la función global.

01:51.230 --> 01:57.730
Así que este fue el mejor y encontramos el equivocado y, por lo tanto, no tenemos el peso correcto.

01:57.740 --> 01:59.940
No tenemos una red neuronal optimizada.

02:00.230 --> 02:02.480
Tenemos una red neuronal subpar.

02:02.610 --> 02:04.470
Y entonces, ¿qué hacemos en este caso?

02:04.670 --> 02:09.110
Bueno, la respuesta aquí es estocástica.

02:09.110 --> 02:10.050
Descenso de gradiente.

02:10.070 --> 02:15.260
Y resulta que el descenso gradiente sarcástico no requiere que la función de causa sea convexa.

02:15.380 --> 02:20.120
Echemos un vistazo a las dos diferencias entre el descenso normal del gradiente del que

02:20.150 --> 02:21.600
hablamos y el rango estocástico.

02:21.860 --> 02:27.920
Entonces, el descenso verde normal es cuando tomamos todas nuestras filas y las conectamos a nuestra red neuronal

02:27.920 --> 02:33.890
y una vez más aquí tenemos la red neuronal copiada varias veces, pero las filas se conectan a

02:33.890 --> 02:36.050
la misma red neuronal todo el tiempo.

02:36.050 --> 02:39.200
Entonces, solo hay un truco de un año, esto es solo para los propósitos de la acción de Kissel.

02:39.350 --> 02:43.880
Y luego, una vez que los conectamos, calculamos nuestra función de costos en función de la

02:43.880 --> 02:49.400
fórmula correcta y observamos la tabla en la parte inferior y luego ajustamos los pesos; a continuación, esto se denomina

02:49.400 --> 02:54.480
método de descenso de gradiente o también es el término correcto. ese método de descenso de gradiente discontinuo.

02:54.470 --> 03:01.940
lote de nuestra muestra, lo aplicamos y luego corremos que el método de descenso gradiente estocástico es un poco diferente.

03:01.940 --> 03:03.730
Así que tomamos todo el

03:03.800 --> 03:10.880
Aquí tomamos las filas una por una, de modo que tomamos esta fila para ejecutar nuestra red neuronal y luego

03:10.880 --> 03:12.020
ajustamos los pesos.

03:12.020 --> 03:16.420
Luego pasamos a la segunda fila donde tomamos la segunda fila donde ejecutamos nuestra red neuronal.

03:16.580 --> 03:21.640
Nos fijamos en la función de costos y luego ajustamos los pesos nuevamente y luego tomamos otro Rohtak rose tres. Ejecutamos

03:21.640 --> 03:25.430
nuestra red neuronal y observamos la función de costos en la que ajustamos el peso.

03:25.430 --> 03:32.660
Básicamente, estamos viendo que estamos ajustando los pesos después de cada fila en lugar de hacer todo juntos

03:32.660 --> 03:36.080
y luego probar los pesos dos enfoques diferentes.

03:36.230 --> 03:39.710
Y ahora vamos a comparar los dos al lado del otro.

03:39.710 --> 03:42.920
Así que aquí están, así es cómo recordarlos visualmente.

03:42.920 --> 03:49.490
Así que tienes el mejor descenso de gradiente donde estás ajustando los pesos después de haberlos ejecutado después de haber

03:49.490 --> 03:55.370
ejecutado todas las filas en tu red neuronal y, básicamente, solo los pesos y ejecutar todo de nuevo

03:55.370 --> 04:00.500
iteración iteración de iteración en el sexto grado en diciembre y usted corre una fila a

04:00.500 --> 04:06.650
la vez y ajusta los pesos de la misma manera en que solo son los pesos y luego lo

04:06.770 --> 04:10.040
hace todo una y otra vez, y eso se llama discutir.

04:10.080 --> 04:16.580
las extremidades locales o los mínimos locales en lugar del mínimo general general global.

04:16.580 --> 04:27.470
Y dijo que las dos principales diferencias son que el método de descenso de gradiente sarcástico le ayuda a evitar el problema donde

04:27.470 --> 04:28.620
se encuentran

04:29.030 --> 04:34.850
Y la razón de esto en términos simples es que hay un video del método de descenso de gradiente

04:35.150 --> 04:38.220
estocástico que tiene fluctuaciones mucho más altas porque puede permitírselo.

04:38.210 --> 04:43.650
Está haciendo una iteración o una fila a la vez y, por lo tanto, las fluctuaciones

04:43.650 --> 04:49.440
son mucho más altas y es mucho más probable encontrar el mínimo global en lugar del mínimo local.

04:49.460 --> 04:56.480
la vez, es más lento, pero en realidad es más rápido porque es no tiene que cargar todos los datos

04:56.480 --> 05:01.670
en la memoria y ejecutar y esperar hasta que todas esas reglas estén en total.

05:01.730 --> 05:09.050
Y la otra cosa sobre el descenso gradiente sarcástico, creo que es un gradiente malo, es que es como la primera

05:09.080 --> 05:12.610
impresión que podrías tener es porque está creciendo uno a

05:12.710 --> 05:16.780
Usted puede simplemente rodearlos uno por uno, por lo que es un algoritmo mucho

05:16.790 --> 05:24.020
más ligero, es mucho más rápido en ese sentido, aunque tiene mucho más en ese sentido, ya que tiene más ventajas que el malo.

05:24.110 --> 05:25.320
Método de descenso de gradiente

05:25.430 --> 05:31.310
de un dominio como Profer es que el método de gradiente de gradiente malo es que es un

05:31.310 --> 05:37.250
algoritmo determinístico o no para lanzar un descenso de gradiente siendo un algoritmo sarcástico, lo que significa que

05:37.250 --> 05:44.570
es aleatorio y con el mejor gradiente y método siempre y cuando tengas el mismos pesos iniciales para su red neuronal.

05:44.570 --> 05:45.430
La principal ventaja

05:45.500 --> 05:52.300
Cada vez que ejecute el método de gradiente de gradiente por lotes obtendrá las mismas iteraciones, los mismos resultados para usted

05:52.300 --> 05:57.960
en todo momento en que se actualicen sus pesos para que tengamos el método de gradiente sarcástico

05:57.980 --> 05:58.300
decente.

05:58.310 --> 06:04.550
No lo conseguirás porque es un método estocástico elegir tus roles posiblemente al azar y estás

06:04.570 --> 06:10.940
actualizando tu red neuronal de una manera sarcástica y por lo tanto solo vas a cada

06:10.940 --> 06:15.380
vez que ejecutas la categoría un método decente incluso si tiene

06:15.380 --> 06:20.770
los mismos pesos al principio, tendrá un proceso diferente y diferentes iteraciones para llegar allí.

06:20.780 --> 06:28.100
Así que eso es en pocas palabras lo que es criticar y disentir, también hay un método entre los dos llamado el

06:28.100 --> 06:34.520
método de descenso de gradiente Mini batch donde se combinan los dos y se ejecuta básicamente en lugar de

06:34.520 --> 06:37.640
ejecutar un lote completo de ejecución de uno en uno.

06:37.640 --> 06:44.150
Ejecutas lotes de filas, tal vez 5 10 100, sin embargo, muchas filas que decidas establecer ejecutas esas tantas filas a la

06:44.150 --> 06:47.690
vez, luego actualizas tu camino de un solo dígito y así sucesivamente.

06:47.900 --> 06:52.670
Y eso se llama el método de descenso de gradiente Mini Bache. Si desea obtener más

06:52.670 --> 06:56.630
información sobre el descenso de gradiente, hay un excelente artículo que puede consultar.

06:56.660 --> 07:04.940
y los enlaces a continuación son un buen artículo 12 15 muy bien redactado, términos muy simples.

07:04.940 --> 07:12.840
Se llama una red neuronal en 13 líneas de Python, parte importante y desciende por Andrew Trask

07:12.920 --> 07:21.860
Tiene interesantes reflexiones filosóficas o simplemente interesantes sobre cómo aplicar el agua verde y respetuosa, usted conoce las ventajas y

07:22.340 --> 07:28.460
desventajas y cómo hacer las cosas en determinadas situaciones, por lo que tiene algunos

07:28.460 --> 07:30.730
trucos y trucos muy interesantes.

07:31.370 --> 07:33.620
Muy fácil de leer, así que definitivamente échale un vistazo.

07:33.800 --> 07:37.010
Y otra lectura un poco más pesada.

07:37.010 --> 07:41.930
Para aquellos de ustedes que están en las matemáticas que quieren llegar al fondo de las matemáticas, por qué.

07:41.930 --> 07:45.180
El descenso de gradiente es específico.

07:45.260 --> 07:49.200
¿Cuáles son las fórmulas que impulsan las clasificaciones? ¿Cómo se calculan y demás?

07:49.220 --> 07:51.610
Mira el artículo o en realidad el libro.

07:51.620 --> 07:57.160
Es un libro gratuito en línea llamado redes neuronales y aprendizaje profundo del libro Michael Nielsen 2015.

07:57.160 --> 08:02.190
Básicamente, todo está en línea, puedes seguir y verificarlo allí.

08:02.450 --> 08:05.870
Y una vez más, una introducción muy suave a las matemáticas.

08:05.870 --> 08:12.260
Pero para una madre las matemáticas, pero las matemáticas son bastante pesadas a medida que avanzas mientras lees

08:12.530 --> 08:13.340
el artículo.

08:13.610 --> 08:20.240
en el que primero calientas las matemáticas y luego entraste. Estoy tan interesado en las matemáticas que este es el artículo al que debes dirigirte.

08:20.240 --> 08:25.370
Pero al mismo tiempo te hace entrar en ese estado de ánimo, creo que te refieres a que tiene un

08:25.370 --> 08:26.110
capítulo de calentamiento

08:26.540 --> 08:32.780
Y ahí vamos, esa es en pocas palabras la diferencia entre el sentido de Graney

08:32.810 --> 08:36.360
para lanzar el descenso de gradiente y cómo trabajar.

08:36.410 --> 08:39.830
Y sobre esa nota, vamos a concluir hoy, dijo Tauriel.

08:39.840 --> 08:42.000
Espero verte en la próxima.

08:42.020 --> 08:44.090
Y hasta entonces disfruta de un aprendizaje profundo.
