WEBVTT

00:00.840 --> 00:05.380
Hola y bienvenidos de nuevo al curso y al aprendizaje profundo ahora que hemos visto sus propias

00:05.440 --> 00:08.280
redes en acción, es hora de que descubramos cómo aprenden.

00:08.470 --> 00:10.480
Así que vamos a entrar en eso.

00:10.510 --> 00:16.100
Son dos enfoques fundamentalmente diferentes para lograr que un programa haga lo que usted quiere que haga.

00:16.240 --> 00:24.610
Una es la codificación codificada en la que realmente se cuentan las reglas específicas del programa y los resultados que se

00:24.610 --> 00:25.120
desean.

00:25.120 --> 00:30.940
Y solo lo guía a lo largo de todo el camino y representa todas las opciones posibles

00:30.940 --> 00:33.130
con las que debe lidiar el programa.

00:33.310 --> 00:41.320
Por otro lado, tiene redes neuronales en las que crea una instalación para que el programa pueda comprender lo que necesita

00:41.800 --> 00:43.530
hacer por sí mismo.

00:43.530 --> 00:50.080
Así que básicamente creas esta red neuronal en la que proporcionaste entradas, le dices lo que quieres como salidas

00:50.110 --> 00:53.050
y luego dejas que resuelva todo por sí mismo.

00:53.350 --> 00:59.890
Dos enfoques fundamentalmente diferentes y eso es algo a tener en cuenta a medida que avanzamos en

00:59.890 --> 01:00.850
estos tutoriales.

01:00.850 --> 01:06.180
Nuestro objetivo es crear esta red que luego aprenda por sí misma.

01:06.220 --> 01:14.570
ejemplo que puedo darte ahora es que esto llegará más lejos en el curso, pero es solo un ejemplo muy visual, por ejemplo.

01:14.680 --> 01:18.680
Vamos a evitar tratar de poner las reglas y un buen

01:18.700 --> 01:25.690
¿Cómo se distingue entre un pelaje de perro y gato en el lado izquierdo? En el proceso que se muestra

01:25.690 --> 01:33.250
a la izquierda se programan cosas como las orejas del gato tienen que ser así. Busca a los bigotes que busquen este

01:33.250 --> 01:39.530
tipo de nariz. Busca este tipo de la forma de la cara, fíjate en estos colores, describirías todas

01:39.530 --> 01:45.310
estas cosas y tendrías condiciones como si las orejas son puntiagudas que el gato si las

01:45.310 --> 01:49.600
orejas están inclinadas hacia abajo y posiblemente el perro, y así sucesivamente.

01:49.600 --> 01:55.090
carpeta con todos estos gatos y perros con imágenes de perros y gatos que ya están categorizados

01:55.090 --> 02:01.030
y lo dices bien. Te tengo Tengo algunas imágenes de perros y gatos y aprende qué es un gato.

02:01.030 --> 02:06.580
Por otro lado, para una red neuronal solo codificas las redes neuronales, codificas la arquitectura y luego

02:06.880 --> 02:08.860
apuntas la red neuronal a una

02:08.860 --> 02:10.560
Ve y aprende lo que es un perro.

02:10.600 --> 02:16.000
Y la red neuronal comprenderá por sí misma todo lo que necesita comprender y luego, una vez que esté

02:16.000 --> 02:20.950
entrenada, cuando la entrenes con una nueva imagen de un gato o un perro, podrá comprender de qué

02:20.950 --> 02:21.600
se trata.

02:21.610 --> 02:25.600
Entonces, ahí están, esos son los dos enfoques fundamentalmente diferentes.

02:25.690 --> 02:31.090
Y hoy vamos a empezar lentamente a ver cómo funciona el segundo enfoque.

02:31.090 --> 02:31.530
Todo bien.

02:31.570 --> 02:33.340
Así que vamos directos a eso.

02:33.400 --> 02:39.880
Aquí tenemos una red neuronal muy básica con una capa llamada red neuronal feedforward de una

02:39.880 --> 02:42.760
sola capa y también se llama percepción.

02:42.760 --> 02:47.380
Ahora, antes de proceder, una cosa que necesitamos ajustar es ese valor de salida.

02:47.380 --> 02:49.320
En este momento puedes ver que es solo una Y.

02:49.330 --> 02:51.160
Necesitamos poner un sombrero allí.

02:51.190 --> 02:56.500
Y la razón de esto es generalmente y representa el valor real y eso es lo que vamos a usar.

02:56.500 --> 03:03.700
Entonces, ¿por qué va a ser el valor real que vemos en el valor de salida de realidad el valor predicho

03:03.700 --> 03:05.890
por el algoritmo por la red neuronal?

03:05.890 --> 03:09.220
¿Por qué cuál es el valor de salida?

03:09.220 --> 03:11.500
Básicamente esa es la denominación para el valor de salida.

03:11.740 --> 03:20.020
Y la percepción que se inventó por primera vez en 1957 por Frank Rosenblat y toda su

03:20.170 --> 03:25.010
idea fue crear algo que realmente pueda aprender y ajustarse.

03:25.240 --> 03:28.010
Y esto es lo que vamos a ver ahora.

03:28.030 --> 03:30.230
Así que tenemos nuestro precepto dibujado.

03:30.250 --> 03:32.070
Veamos cómo aprende nuestra percepción.

03:32.080 --> 03:39.130
Entonces digamos que tenemos algunos valores de entrada que se han suministrado a la percepción y, o básicamente, a

03:39.130 --> 03:40.210
nuestra propia red.

03:40.330 --> 03:44.190
Luego se aplica la función de activación.

03:44.200 --> 03:49.210
Tenemos un resultado y ahora vamos a trazar el resultado en un gráfico.

03:49.210 --> 03:51.830
Entonces ahí está nuestra salida y hat.

03:51.830 --> 03:57.520
Ahora lo que tenemos que hacer es poder aprender que necesitamos comparar el valor de salida

03:57.520 --> 04:01.310
con el valor real que queremos que la red neuronal consiga.

04:01.600 --> 04:04.520
Y ese es el valor y.

04:04.810 --> 04:08.230
Y si lo ponemos aquí verás que hay un poco de diferencia.

04:08.330 --> 04:13.510
Ahora vamos a calcular una función llamada función de costo que se calcula como la mitad de la diferencia

04:13.510 --> 04:17.200
de la diferencia cuadrada entre el valor real y el valor de salida.

04:17.200 --> 04:20.500
Ahora hay muchas formas en que puede surgir para la función de clase.

04:20.500 --> 04:23.300
Hay muchas funciones de costos diferentes que puede usar.

04:23.320 --> 04:30.280
gradiente decente, pero por ahora solo vamos a aceptar que esta es la función de costo y Básicamente, lo que nos dice

04:30.280 --> 04:34.900
la función de costos es cuál es el error que tienes en tu predicción.

04:34.900 --> 04:39.830
Esta es probablemente la función de llamada más utilizada y por qué es específicamente esta

04:40.420 --> 04:44.240
función que usamos para descubrir más abajo cuando estamos hablando de un

04:44.290 --> 04:50.770
Y nuestro objetivo es minimizar la función de costos porque cuanto menor sea la función de costos, más cerca está el y

04:50.790 --> 04:51.780
y de y.

04:52.150 --> 04:54.430
OK, así que solo estamos de acuerdo en eso procedamos.

04:54.430 --> 05:00.760
Así que, básicamente, a partir de aquí, lo que sucede es que hay una función de costos y, a partir

05:00.760 --> 05:08.950
de ahora, lo que sucede es que ahora que vamos a hacerlo, una vez que lo comparemos, volveremos a introducir esta información en la red neuronal.

05:08.980 --> 05:14.170
información vuelve a la red neuronal y va a los pesos y los pesos se actualizan.

05:14.200 --> 05:15.630
Así que ahí vamos, la

05:15.700 --> 05:20.880
Básicamente, lo único que tenemos control en esta red neuronal muy simple son los pesos

05:20.900 --> 05:23.490
w 1 W2 todo el camino a W. Y nuestro objetivo es minimizar la función de costos, de modo que todo lo que podemos hacer es actualizar los pesos.

05:23.980 --> 05:29.370
Así que actualizamos los pesos y los modificamos un poco.

05:29.500 --> 05:33.690
Y cómo exactamente vamos a averiguar por la caída, pero

05:33.940 --> 05:39.600
por ahora estamos de acuerdo en que tenemos los pesos y luego continuamos así.

05:39.600 --> 05:40.320
Pero aquí puse

05:40.320 --> 05:48.870
esta captura de pantalla de los datos solo para dejar en claro un punto que ahora mismo, a lo largo de todo este experimento, todo lo que estamos haciendo ahora es solo el papel.

05:48.930 --> 05:53.990
Así que estamos lidiando con que tenemos un conjunto de datos de una fila en

05:54.000 --> 06:00.330
el que, por ejemplo, tenemos que lidiar con cuánto tiempo se estudia como la variable que estamos prediciendo.

06:00.330 --> 06:05.720
¿Cuál es el resultado que obtendrás en un examen?

06:06.180 --> 06:08.230
Y las variables independientes dependientes que

06:08.430 --> 06:13.200
tenemos son cuántas horas estudiaste durante cuántas horas dormiste y qué obtuviste en el cuestionario.

06:13.200 --> 06:15.430
En la mitad del semestre Entonces, en la mitad del semestre es un cuestionario qué porcentaje llegaste allí.

06:15.460 --> 06:19.880
Por lo tanto, basándonos en esas variables, intentamos predecir qué

06:19.880 --> 06:26.100
puntaje obtendrás para el examen y examinaremos el 93 por ciento del valor real.

06:26.100 --> 06:28.010
Asi que es por eso.

06:28.010 --> 06:29.020
Asi que.

06:29.560 --> 06:30.460
Entonces volvemos a

06:30.660 --> 06:36.720
alimentar estos tres valores en una red neuronal por segunda vez y luego vamos a comparar el resultado con el blanco.

06:36.720 --> 06:38.980
Entonces veamos cómo funciona esto.

06:39.150 --> 06:40.690
Alimentamos estos valores en la red neuronal.

06:40.800 --> 06:43.710
volvemos a alimentar los valores, el punto aquí es que

06:43.830 --> 06:50.160
estamos alimentando en la misma bola, así que solo tenemos una tirada que estamos tratando de hacer, estamos entrenando en una fila.

06:50.190 --> 06:55.480
Todo se ajusta y los pesos se obtienen solo para que puedas ver que esto es otra vez,

06:55.480 --> 06:56.370
Esto se debe a que este es solo un ejemplo básico muy simple.

06:56.370 --> 06:59.580
Entonces veremos qué sucede cuando hay moral.

06:59.640 --> 07:01.610
Así que de nuevo alimentamos estas filas en nuestro ajuste funcional cruzado.

07:01.800 --> 07:06.180
Como puede ver, todo sucede a lo largo de esas líneas nuevamente.

07:06.180 --> 07:10.520
Como dices cada vez que nuestro sombrero blanco está cambiando porque hemos ajustado los pesos.

07:10.530 --> 07:15.030
Todo lo que tenía era cambiar la función de mi ropa cambiando todo este aspecto nuevamente, así que alimentamos a todos.

07:15.030 --> 07:20.550
¿Por qué ha cambiado la función de ropa está cambiando?

07:20.550 --> 07:22.840
Recibimos retroalimentación de información sobre los pesos para que los pesos se ajusten nuevamente.

07:22.920 --> 07:27.020
Nos alimentamos con los mismos valores cada vez que todo se ajusta vuelve a los pesos.

07:27.030 --> 07:31.850
Y una vez más alimentar.

07:31.860 --> 07:33.920
DE ACUERDO.

07:34.020 --> 07:34.990
Y otra vez, así que ajustamos la forma en que nos sentimos en la información.

07:35.730 --> 07:40.720
Y ahí vamos.

07:40.830 --> 07:41.370
Así que ahora esta vez el sombrero blanco es igual a 0 funcional cruzado.

07:41.370 --> 07:45.990
Por lo general, no obtendrá una función de costo igual a cero.

07:46.020 --> 07:48.410
Pero este es un ejemplo muy simple.

07:48.420 --> 07:50.720
Así que espero que todo eso tenga sentido

07:50.820 --> 07:57.480
cada vez que alimentamos exactamente en la misma fila, porque en este caso solo estamos tratando con esa fila en nuestra red neuronal.

07:57.480 --> 08:01.370
Bueno, entonces las ponderaciones hacen que los valores obtengan un suministro de suministro válido de la forma

08:01.400 --> 08:06.990
en que se aplica la función de activación que obtenemos y en comparación con Y, entonces vemos cómo se cambia la función de costo.

08:06.990 --> 08:12.320
Retroalimentación y el feed que informa Bakker en su propia

08:12.430 --> 08:16.500
red y luego simplemente ajustar los pesos nuevamente.

08:16.500 --> 08:17.470
Y luego repetimos el mismo proceso nuevamente con la misma fila exacta.

08:17.850 --> 08:21.410
Estamos tratando de minimizar ese costo.

08:21.570 --> 08:23.320
Hasta ahora, hemos estado lidiando solo con esa fila.

08:23.520 --> 08:26.860
Veamos qué pasa cuando tienes múltiples roles.

08:27.030 --> 08:29.470
Así que aquí está el conjunto completo de datos.

08:29.490 --> 08:31.320
Tenemos ocho filas de la cantidad

08:31.350 --> 08:38.610
de horas que durmió o tal vez estos son estudiantes diferentes en el día tomando el mismo examen cuántas horas más estudiaron cuántas

08:38.610 --> 08:44.070
horas durmieron antes de que el examen ingresara en el cuestionario y su resultado final en el examen.

08:44.070 --> 08:47.300
Y como pueden ver aquí a la izquierda, tengo ocho de estas percepciones en realidad.

08:47.490 --> 08:52.720
Todos tienen la misma percepción, así que esto también es importante.

08:53.100 --> 08:55.950
Simplemente lo multipliqué o me gusta duplicar ocho veces para que podamos.

08:56.010 --> 09:02.600
Concepción es eso.

09:03.330 --> 09:04.310
Pero lo importante

09:04.320 --> 09:10.010
aquí es la misma red neuronal que vamos a alimentar en una red de Samual.

09:10.040 --> 09:10.380
Así que vamos a comenzar.

09:10.380 --> 09:11.650
Así que un aeropuerto, como

09:11.650 --> 09:20.550
habrán escuchado, ha sido mencionar que un airpark es cuando atravesamos un conjunto de datos completo y entrenamos a nuestra red neuronal en todos estos roles, por lo que esas listas sí lo están.

09:20.610 --> 09:27.410
Así que está nuestra primera fila y hay ¿Por qué? Para la primera

09:27.420 --> 09:34.410
fila hay un segundo papel. Es por eso que tuve para la segunda ronda.

09:34.410 --> 09:35.260
Así que de nuevo se alimenta en la misma red neuronal todo el tiempo.

09:35.280 --> 09:39.590
Simplemente los copié varias veces para que podamos ver visualmente cómo está sucediendo esto.

09:39.600 --> 09:45.070
Por otra parte, como está sucediendo nuevamente, es la cuarta fila

09:45.090 --> 09:52.320
de la tercera fila, está nuestra cabeza blanca para la cuarta fila, y así sucesivamente.

09:52.320 --> 09:53.010
Básicamente, también obtenemos los mismos valores para las cuatro filas restantes.

09:53.010 --> 09:56.580
Entonces, cada vez que nos alimentamos en una fila de nuestra red neuronal lo solucionamos.

09:56.580 --> 10:03.440
Luego, lo comparamos con el valor real.

10:03.780 --> 10:06.930
Entonces ellos son los valores reales.

10:06.930 --> 10:08.550
Entonces, por cada rollo tenemos un valor real.

10:08.760 --> 10:11.340
Y ahora basándonos en todas estas diferencias entre y hat y por

10:11.640 --> 10:18.480
qué podemos calcular la función de costo que es la suma de todas esas diferencias al cuadrado entre por qué y por qué y cómo todo se reduce a la mitad.

10:18.480 --> 10:27.620
Y ahí está nuestra función de costos.

10:28.230 --> 10:30.360
Y, básicamente, ahora lo que hacemos

10:30.360 --> 10:36.750
después de que tenemos la función de costo total volvemos y actualizamos los pesos que actualizamos un W 1 WTW.

10:37.170 --> 10:39.480
Y lo importante para recordar aquí

10:39.510 --> 10:45.810
es que todas estas percepciones de todas estas redes neuronales son en realidad una red neuronal.

10:45.810 --> 10:47.340
Entonces, no hay ocho, solo hay uno.

10:47.340 --> 10:49.420
Y cuando actualicemos los pesos vamos a

10:49.680 --> 10:55.110
actualizar los pesos en esa red neuronal, así que básicamente los pesos serán los mismos para todas las filas.

10:55.110 --> 10:57.900
Entonces no es el caso que cada rol tenga su propio peso.

10:57.930 --> 11:00.560
Ahora todas las filas comparten los pesos y es por eso

11:00.580 --> 11:07.320
que miramos la función de costo que es la suma de las diferencias cuadradas y luego actualizamos los pesos y ahora desde aquí solo había una iteración.

11:07.620 --> 11:15.270
A continuación, vamos a ejecutar todo esto de nuevo.

11:15.270 --> 11:19.020
Vamos a alimentar cada fila en la

11:19.020 --> 11:25.440
red neuronal, descubramos nuestra función de costos y hacemos todo este proceso nuevamente.

11:25.440 --> 11:26.370
Así que como

11:26.370 --> 11:32.090
vimos anteriormente, donde teníamos solo una fila y estábamos haciendo todo una y otra vez lo mismo aquí.

11:32.140 --> 11:33.590
Pero ahora vamos a estar

11:33.600 --> 11:38.880
haciendo y Pedros o 800 filas u ocho mil filas, sin importar cuántas filas tenga en su conjunto de datos.

11:38.880 --> 11:40.590
Usted hace este proceso y luego calcula la función de costo.

11:40.830 --> 11:43.700
Y el objetivo aquí es minimizar la función

11:44.220 --> 11:51.510
de costo y obtener tan pronto como encuentre un minuto de la función de costo que es su red

11:51.510 --> 12:00.210
neuronal final, lo que significa que sus pesos se han ajustado y ha encontrado los pesos óptimos para este conjunto de datos que

12:00.750 --> 12:08.550
usted comenzó su capacitación en y está listo para pasar a la fase de prueba o a la fase de solicitud.

12:08.550 --> 12:11.130
Y todo este proceso se llama propagación de regreso.

12:11.550 --> 12:14.920
Así que algunas lecturas adicionales que podría querer hacer

12:15.000 --> 12:21.930
para la función de costos y sé que acabamos de hablar de una y hay muchas otras.

12:21.930 --> 12:24.840
Un buen artículo se encuentra en cruz validada.

12:24.840 --> 12:28.690
Se llama una lista de funciones de curso usadas en redes neuronales junto con aplicaciones.

12:28.740 --> 12:33.020
Entonces, el euro está ahí, pero puedes buscar el término

12:33.090 --> 12:39.840
exacto de búsqueda o la frase de búsqueda y verás que este será el primero que aparezca.

12:39.960 --> 12:42.150
De hecho, tiene algunos buenos ejemplos y casos

12:42.150 --> 12:48.660
de aplicación o uso para diferentes funciones de costos. Si está interesado en obtener más información sobre las funciones de costos, consulte este artículo.

12:48.660 --> 12:51.800
Y en esa nota espero que disfrutes este tutorial.

12:51.990 --> 12:54.380
Espero verte la próxima vez.

12:54.420 --> 12:56.070
Hasta entonces disfruta del aprendizaje profundo.

12:56.070 --> 12:58.020
&nbsp;