WEBVTT

00:00.680 --> 00:05.570
Hola y bienvenidos de nuevo al curso sobre aprendizaje profundo en el tutorial de hoy, estamos hablando

00:05.600 --> 00:06.600
de un descenso gradual.

00:06.890 --> 00:13.610
Lo que aprendimos anteriormente fue que para que una red neuronal aprenda lo que debe suceder es la

00:13.610 --> 00:21.140
propagación de retorno y es entonces cuando el error la diferencia o la suma de las diferencias cuadradas entre y

00:21.170 --> 00:28.300
hat e Y se propaga a través de la red neuronal y los pesos se ajustan en consecuencia.

00:28.520 --> 00:34.220
Entonces lo vimos y hoy vamos a aprender exactamente cómo se ajustan estos pesos.

00:34.400 --> 00:35.930
Así que echemos un vistazo.

00:36.080 --> 00:44.030
proceso en acción donde tenemos un valor de entrada, entonces tenemos que esperar una función de activación Está aplicado.

00:44.030 --> 00:52.280
Esta es nuestra versión muy simple de un trabajo neuronal. Percibimos a Trauner como una red neuronal feedforward de una

00:52.280 --> 00:57.000
sola letra y lo que podemos ver aquí es todo este

00:56.990 --> 01:01.850
Tenemos que obtener y luego lo comparamos con el valor real que calculamos la función de costo.

01:01.850 --> 01:05.420
Entonces, ¿cómo podemos minimizar la función de costos?

01:05.420 --> 01:07.370
Qué podemos hacer al respecto.

01:07.370 --> 01:14.750
vemos y vemos cuál se ve mejor y lo que hacemos es, por ejemplo, probarlo, digamos por ejemplo, mil pesos

01:14.750 --> 01:20.990
y los probaríamos, obtendríamos algo como esto para la función de costo, y esta es una tabla

01:21.080 --> 01:26.240
del eje Y del eje vertical multifuncional en el eje horizontal de y hat.

01:26.810 --> 01:32.900
Bueno, un enfoque para hacerlo es un enfoque de fuerza bruta donde simplemente tomamos todos los

01:32.900 --> 01:34.770
pesos posibles diferentes y los

01:34.860 --> 01:39.200
Y porque puedes ver las fórmulas que tenía menos Y al cuadrado.

01:39.230 --> 01:42.470
Esto es lo que la función de costo se vería más o menos así.

01:42.670 --> 01:47.830
Y básicamente encontrarías que el mejor está aquí.

01:47.950 --> 01:50.980
Muy simple enfoque muy intuitivo.

01:50.980 --> 01:53.200
¿Por qué no hacer este método de fuerza bruta?

01:53.200 --> 02:01.630
probar mil costos diferentes para miles de parámetros o entradas diferentes para pesos y ver cuál funciona mejor?

02:01.690 --> 02:03.030
¿Por qué no

02:03.030 --> 02:04.230
Encontrarás la mejor de esa manera.

02:04.420 --> 02:10.270
Bueno, si solo tiene una forma de optimizar esto, podría funcionar, pero a medida que aumente el

02:10.480 --> 02:16.630
número de pesas, aumente la cantidad de Sinopsis en su red, debe enfrentar la maldición de la dimensionalidad.

02:16.630 --> 02:19.370
Y entonces, ¿cuál es la causa de la dimensionalidad?

02:19.450 --> 02:24.510
La mejor manera de describir esto o explicarlo es simplemente mirar un ejemplo práctico.

02:24.640 --> 02:30.610
Así que recuerda este ejemplo que tuvimos cuando estábamos hablando de cómo las redes neuronales

02:30.610 --> 02:37.120
realmente funcionan donde estábamos construyendo o ejecutando una red neuronal para una valoración de la propiedad.

02:37.120 --> 02:43.030
Así que esto es lo que parecía cuando ya se había entrenado bien cuando no se entrenaba antes de que se

02:43.030 --> 02:45.290
entrenara antes de saber cuál eran los pesos.

02:45.550 --> 02:47.640
La red neuronal real se ve así.

02:47.730 --> 02:54.860
Correcto porque tenemos todas estas sinopsis posibles diferentes y todavía tenemos que entrenar las pesas y aquí tenemos un

02:55.280 --> 03:01.190
total de 25 pesos, por lo que cuatro veces cinco al inicio más cinco más del

03:01.310 --> 03:03.430
golpe, hay 25 pesos en total.

03:03.680 --> 03:09.060
Y veamos cómo podríamos forzar la fuerza bruta de 25 maneras.

03:09.070 --> 03:12.610
Esta es una red neuronal muy simple aquí.

03:12.620 --> 03:20.630
Muy simple solo un golpe allí y cómo podríamos abrirnos paso a fuerza a través de una red neuronal de

03:20.630 --> 03:21.320
este tamaño.

03:21.320 --> 03:24.370
Bueno, hay algunos cálculos matemáticos simples.

03:24.410 --> 03:25.890
Tenemos 25 pesos

03:25.910 --> 03:30.410
Entonces eso significa que si tenemos mil combinaciones que vamos a resolver para

03:30.410 --> 03:37.790
cada peso, la cantidad total de combinaciones es 1000 a la potencia 25 o mil o 10 para analizar cinco combinaciones diferentes.

03:37.790 --> 03:48.260
Ahora veamos cómo Sun el camino para tohu encender la supercomputadora Fosse del mundo a partir de junio de 2016, ¿cómo

03:48.260 --> 03:49.700
abordaría este problema.

03:49.700 --> 03:52.390
Correcto, Sunway empata quien enciende.

03:52.680 --> 04:00.980
Parece que este es un gran edificio para este supercomputador y obtuvo el récord mundial

04:01.310 --> 04:04.940
Guinness por ser el superordenador Fosses.

04:05.210 --> 04:12.620
En este momento es el supercomputador más rápido del mundo y de alguna manera las luces de enlace pueden operar

04:12.620 --> 04:15.420
a una velocidad de 93 de flops.

04:15.510 --> 04:19.900
Flop significa operación flotante por segundo.

04:19.970 --> 04:23.310
Entonces puede hacer noventa y tres con el aceite de poder.

04:23.340 --> 04:28.010
Veces diez a la potencia de 15 operaciones flotantes por segundo.

04:28.100 --> 04:32.340
Así de rápido es en comparación.

04:32.450 --> 04:38.210
Las computadoras promedio en este momento les gusta un poco más de varios gigaflops y así sucesivamente.

04:38.210 --> 04:41.320
Entonces me gustan esos rangos.

04:41.450 --> 04:44.290
Menos de TEI Sunway tipo de luz.

04:44.390 --> 04:47.950
De repente, todo es mentira, está a la vanguardia de la tecnología.

04:48.360 --> 04:57.920
Y supongamos hipotéticamente que puede hacer una prueba una combinación de cuatro en su propia red en un disquete y

04:58.010 --> 05:04.220
una operación flotante que no es posible, que no es práctica porque necesita

05:04.220 --> 05:09.470
múltiples operaciones flotantes para probar un solo peso en su propio pequeño.

05:09.480 --> 05:11.270
Pero incluso vamos a darle una ventaja.

05:11.270 --> 05:17.990
Digamos que puede hacerlo en un mundo ideal que puede hacer en una operación flotante que puede hacer una

05:18.290 --> 05:19.900
prueba por una operación flotante.

05:20.120 --> 05:23.970
Eso significa que Doddridge todavía requerirá de cualquiera de cinco.

05:24.080 --> 05:33.080
Divida noventa y tres veces diez a unos 15 segundos para pasar todas esas pruebas a la fuerza bruta a través de

05:33.080 --> 05:34.120
esa red.

05:34.130 --> 05:39.860
Entonces eso significa que uno o aproximadamente tienden a potenciar 58 segundos y eso es lo mismo que

05:39.860 --> 05:42.120
tender a la potencia de 50 años.

05:42.170 --> 05:49.910
Es un número enorme que es más largo de lo que el universo ha existido y que definitivamente no

05:49.910 --> 05:59.150
va a ser simplemente porque este número es tan grande que definitivamente no va a funcionar para nosotros en absoluto en nuestra optimización.

05:59.150 --> 06:00.020
Entonces ahí vamos

06:00.140 --> 06:01.220
Este es un no no.

06:01.220 --> 06:05.450
Incluso en la luz de cola Sunway del superordenador más rápido del mundo.

06:05.450 --> 06:10.140
Entonces tenemos que idear un enfoque diferente, ¿cómo vamos a encontrar el peso óptimo?

06:10.310 --> 06:15.890
Por cierto, esta nuestra red neuronal era muy simple, ¿qué tal si las redes neuronales se

06:15.890 --> 06:22.740
ven como algo así o incluso una más grande que eso? Sí, simplemente no va a suceder en absoluto.

06:22.760 --> 06:28.490
Entonces, el método que se va a mirar se llama pendiente descendente y es posible que ya haya oído hablar de él.

06:28.580 --> 06:30.770
Si no, descubriremos qué es en este momento.

06:30.840 --> 06:41.780
Así que nuestra función de costos es nuestra y ahora vamos a ver cómo podemos fomentar una forma más rápida de encontrar

06:41.840 --> 06:43.190
la mejor opción.

06:43.190 --> 06:45.920
Así que digamos que comenzamos en algún lugar donde vas a comenzar en algún lado.

06:45.920 --> 06:47.390
Entonces comenzamos allí.

06:47.390 --> 06:56.990
ese punto en la parte superior izquierda, lo que vamos a hacer es observar el ángulo de nuestra función de costos en ese punto, así que básicamente vamos

06:56.990 --> 07:00.800
a hacer lo que se llama gradiente porque hay que diferenciar.

07:00.800 --> 07:02.090
Y a partir de

07:02.150 --> 07:04.190
No vamos a ver las ecuaciones matemáticas.

07:04.250 --> 07:09.370
Proporcionaremos algunos consejos sobre lectura adicional al final de la próxima conferencia.

07:09.740 --> 07:17.150
Pero básicamente solo necesita diferenciar para averiguar cuál es la pendiente en ese punto específico y averiguar si la

07:17.150 --> 07:19.330
pendiente es positiva o negativa.

07:19.450 --> 07:25.640
Si la pendiente es negativa como en este caso significa que vas cuesta abajo, por lo que a la derecha está cuesta abajo

07:25.640 --> 07:27.350
a la izquierda está cuesta arriba.

07:27.350 --> 07:29.780
Y a partir de ahí significa que necesita ir a la derecha.

07:29.780 --> 07:31.510
Básicamente, tienes que ir cuesta abajo.

07:31.670 --> 07:33.070
Y eso es lo que vamos a hacer.

07:33.090 --> 07:35.510
Boom da un paso hacia la derecha.

07:35.510 --> 07:37.450
La pelota baja nuevamente.

07:37.460 --> 07:38.300
La misma cosa.

07:38.390 --> 07:44.120
Calcule la pendiente y la pendiente sea positiva, lo que significa que la pendiente ascendente del escritor hacia la izquierda es cuesta abajo y

07:44.120 --> 07:46.560
necesita ir hacia la izquierda y la bola hacia abajo.

07:46.790 --> 07:54.900
simples, así es como encuentras los mejores ESPERAS La mejor situación que minimiza tu función de costos.

07:55.040 --> 08:04.520
Y de nuevo calculas la pendiente y eres el toro allí mismo, así es como lo encuentras en términos

08:04.590 --> 08:08.970
Por supuesto, no va a ser como rodar una pelota va a ser un enfoque

08:09.210 --> 08:14.970
muy zigzagueante, pero es más fácil de recordar o algo así como más divertido de ver como una bola rodando.

08:14.970 --> 08:19.980
Pero en realidad, sí, va a ser como que un acercamiento paso a paso va a ser

08:19.980 --> 08:21.920
un tipo de método en zigzag.

08:22.050 --> 08:25.020
Sí, y también hay muchos otros elementos.

08:25.050 --> 08:35.190
por ejemplo, por qué, por ejemplo, por qué baja, por qué no pasa de la raya, por lo que podría haber salido de esta yendo hacia arriba

08:35.190 --> 08:40.740
en lugar de hacia abajo y cosas así, así que hay parámetros que puedes ajustar.

08:40.740 --> 08:41.950
Hay cosas como,

08:41.970 --> 08:45.570
Y nuevamente mencionaremos dónde puede encontrar más información al respecto.

08:45.580 --> 08:51.090
Y además lo tendremos en la aplicación práctica, pero en el enfoque intuitivo más simple esto es lo que

08:51.090 --> 08:51.770
está sucediendo.

08:51.780 --> 08:56.670
Estamos llegando al fondo solo para entender qué camino debemos tomar.

08:56.700 --> 09:01.890
En lugar de forzar a la fuerza a través de miles y miles y millones y billones y

09:01.890 --> 09:02.920
cuatrillones de combinaciones.

09:03.030 --> 09:09.920
a dónde está, en qué dirección está inclinada, tan derecha como tu o te imaginas que estás parado en una colina.

09:09.910 --> 09:11.690
Simplemente podemos simplemente echar un vistazo

09:11.700 --> 09:15.870
De qué manera se siente que va hacia abajo y de cualquier manera que esté bajando, y

09:15.870 --> 09:20.760
sigues caminando de la manera que prefieras, toma 50 pasos y luego vuelves a evaluar. OK, ¿hacia dónde va hacia

09:21.090 --> 09:21.470
abajo?

09:21.500 --> 09:24.620
De acuerdo, y daré 50 pasos o menos, daré 40 pasos de esa manera.

09:24.690 --> 09:28.160
Por lo tanto, cada vez se acerca menos.

09:28.530 --> 09:32.720
Así que aquí hay un ejemplo de descenso de gradiente aplicado en un espacio bidimensional.

09:32.720 --> 09:36.450
Entonces ese fue un ejemplo unidimensional.

09:36.570 --> 09:41.880
Aquí tenemos un espacio bidimensional para el descenso de gradiente ya que puedes ver que

09:41.970 --> 09:48.450
se está acercando al mínimo y también se llama descenso de gradiente porque estás descendiendo a la función de

09:48.480 --> 09:53.430
costo mínimo y encuentras que tiene un descenso de gradiente aplicado en tres dimensiones.

09:53.430 --> 09:58.740
Esto es lo que parece si proyectas en dos dimensiones que puedes ver zigzagueando hacia

09:58.740 --> 09:59.600
el mínimo.

09:59.700 --> 10:03.810
Así que ya ve que era un índice de gradiente de descenso de Tauriel. Hablaremos de estocástica.

10:03.810 --> 10:06.850
El descenso de gradiente es realmente una continuación de este tutorial.

10:07.020 --> 10:08.720
Y espero verte allí.

10:08.740 --> 10:10.610
Y así la próxima vez disfruta de un aprendizaje profundo.