WEBVTT

00:00.490 --> 00:02.980
Hola y bienvenidos al curso de aprendizaje profundo.

00:02.980 --> 00:06.900
Hoy estamos iniciando redes neuronales convolucionales va a ser emocionante.

00:06.910 --> 00:08.610
Vamos a sumergirnos directamente en él.

00:08.620 --> 00:10.840
Vamos a comenzar con una imagen.

00:10.930 --> 00:13.210
¿Qué ves cuando miras esta imagen?

00:13.580 --> 00:19.480
¿Ves a una persona mirándote o ves a una persona que mira hacia la derecha, puedes ver

00:19.480 --> 00:25.860
que tu cerebro está luchando está luchando para ajustarse si miras hacia el lado derecho de la imagen?

00:25.870 --> 00:29.180
Solo mire en el borde derecho donde verá a una persona mirando hacia la derecha.

00:29.260 --> 00:33.320
Si miras el borde izquierdo de la imagen, verás a una persona mirándote.

00:33.700 --> 00:42.760
Y esto solo prueba que lo que nuestro cerebro está buscando cuando vemos cosas son características que dependen de las características

00:42.760 --> 00:46.140
que ve dependiendo de las características que procesa.

00:46.180 --> 00:48.610
Usted categoriza las cosas de ciertas maneras.

00:48.730 --> 00:54.010
Entonces, cuando miras en el lado derecho de la imagen, ves ciertas características de una persona que busca andar

00:54.010 --> 01:00.190
porque están más cerca de tu centro de atención y, por lo tanto, tu cerebro se clasifica como una persona que mira

01:00.190 --> 01:00.930
hacia la derecha.

01:01.000 --> 01:06.790
ves más características de una persona que te mira y, por lo tanto, tu cerebro lo clasifica como tal.

01:06.790 --> 01:09.580
Cuando miras hacia el lado izquierdo de la imagen,

01:09.580 --> 01:11.150
Echemos un vistazo a otro.

01:11.230 --> 01:12.840
Esta es una imagen muy famosa.

01:12.910 --> 01:14.530
Probablemente ya lo has visto.

01:14.680 --> 01:16.240
Pero lo que ves aquí.

01:16.820 --> 01:23.830
Entonces, algunas personas dirán que ven a una joven con un vestido que mira hacia otro lado.

01:23.830 --> 01:29.980
Algunas personas dicen que ven a una anciana con un pañuelo en la cabeza mirando hacia abajo.

01:30.280 --> 01:36.250
esto y verán que será muy obvio, así que esta es la cara de la joven que mira hacia otro lado.

01:36.250 --> 01:37.510
Así que voy a señalar

01:37.510 --> 01:40.450
Ella está mirando a lo lejos como su abrigo.

01:40.440 --> 01:44.940
Ese es su pelo, que es su pequeña pluma en el pelo y, por otro lado.

01:44.980 --> 01:53.530
Esta es la cabeza de la anciana mirando hacia abajo por su nariz, su barbilla que es la bufanda en su cabeza y

01:53.560 --> 01:55.560
que está mirando hacia abajo.

01:55.780 --> 02:01.960
Entonces, como puedes ver dos en uno, y dependiendo de qué características capte tu

02:02.620 --> 02:06.710
cerebro, cambiará entre clasificar cada imagen como una u otra.

02:06.910 --> 02:13.930
La más antigua de estas ilusiones registrada en el trabajo impreso es esta.

02:13.930 --> 02:15.220
Es el pato o el conejo.

02:15.230 --> 02:17.020
Entonces, ¿es esto un pato o es un conejo?

02:17.020 --> 02:18.330
Otro ejemplo.

02:18.430 --> 02:25.030
Y ahora voy a mostrar una imagen que por un momento solo la miraré y veré

02:25.030 --> 02:28.670
qué emociones o qué tipo de experiencia visual experimentaste.

02:29.110 --> 02:36.610
Entonces, ¿qué ves sientes como un poco no mareado pero un poco deslumbrado como si tu cerebro intentara tratar de

02:36.610 --> 02:40.230
entender qué es lo que está tratando de hacer?

02:40.330 --> 02:49.240
y este es un ejemplo clásico de cuando hay ciertas características en las que podría ser que podría ser eso, pero su cerebro no puede decidir.

02:49.240 --> 02:53.850
Está saltando entre sus ojos hacia arriba y hacia abajo en los ojos

02:54.130 --> 02:58.230
Y porque ambos parecen plausibles.

02:58.290 --> 03:04.360
Sí, así que, básicamente, todos estos ejemplos nos ilustran cómo funciona el cerebro que procesa ciertas características

03:04.360 --> 03:10.970
de una imagen o de lo que sea que veas en la vida real y lo clasifica como tal.

03:10.980 --> 03:16.150
Probablemente has estado en situaciones cuando miras por encima del hombro rápidamente y ves algo

03:16.150 --> 03:23.500
que crees que es, no sé si es como una pelota, pero resulta ser un gato o crees que es un

03:23.500 --> 03:24.030
automóvil.

03:24.070 --> 03:28.030
para procesar esas funciones o no tienes suficientes funciones para clasificar las cosas como tales.

03:28.030 --> 03:31.030
Resulta ser una sombra o cosas así porque no tienes suficiente tiempo

03:31.240 --> 03:38.570
Y esto es para mí, esto es muy interesante porque lo que vamos a hacer con redes neuronales con redes neuronales convolucionales es

03:38.570 --> 03:43.630
muy similar y encontrarás que la forma en que las computadoras van a procesar las imágenes

03:43.630 --> 03:48.190
va a ser extremadamente similar a la forma en que procesamos las imágenes, por

03:48.210 --> 03:53.500
lo que es muy valioso de entender y solo recordar estas cosas, así es como lo hacemos.

03:53.500 --> 03:53.580
&nbsp;

03:53.590 --> 03:58.450
Y voy a sacar a esta dama de tus pantallas porque probablemente ya esté volviéndose loca.

03:58.630 --> 04:00.940
Entonces aquí hay algo diferente.

04:00.940 --> 04:07.870
Aquí hay un experimento, un experimento hecho en computadoras en una red neuronal convolucional, así que ahora nos

04:07.870 --> 04:11.150
estamos moviendo lentamente de los humanos a las computadoras.

04:11.350 --> 04:18.490
Y esta diapositiva es de lo que dijo Geoffrey Hinton y aquí básicamente describiste un

04:18.490 --> 04:24.440
experimento que había hecho en algunas redes neuronales convencionales que había entrenado.

04:24.460 --> 04:29.560
Entonces, aquí puede ver tres imágenes y vamos a verlas de izquierda a derecha y ver cómo

04:29.560 --> 04:31.870
las clasificaría y luego verá cómo pueden reclasificarse.

04:31.870 --> 04:35.440
Entonces, a la izquierda, ¿qué crees que es esto?

04:35.440 --> 04:37.710
Probablemente dijo guepardo y tendrás razón.

04:37.710 --> 04:41.740
Y esto es lo que dijo la computadora, y la derecha enseguida,

04:41.740 --> 04:48.400
vamos a aprender a leer estas imágenes porque si vamos a profundizar en las llamadas redes neuronales convolucionales, no hay

04:48.400 --> 04:54.050
juego de palabras que pretenda comenzar a aprender más y más sobre y usándolos verás muchos de estos.

04:54.070 --> 05:01.050
Así que he visto personas que las leen de forma incorrecta, así que aquí, en la parte superior, Shida es lo que realmente

05:01.050 --> 05:01.470
es.

05:01.470 --> 05:07.920
Esa es la etiqueta correcta de la imagen que es la etiqueta de las imágenes independientemente

05:07.920 --> 05:09.180
de cualquier procesamiento.

05:09.300 --> 05:16.770
dijo o la red neuronal dijo que la ropa personal de Chitta o el gato egipcio pueden ser una de las cuatro.

05:17.370 --> 05:24.520
Y la visión por computadora y luego aquí son las conjeturas de las cuatro o cinco suposiciones del algoritmo y se

05:24.810 --> 05:27.460
les da la probabilidad de que la computadora

05:27.540 --> 05:29.120
Y el guepardo tiene el voto más alto.

05:29.130 --> 05:34.820
Y a lo largo de esta parte del curso, usted entiende lo que significan estos votos y cómo se derivan.

05:34.830 --> 05:36.600
Pero por ahora es bastante intuitivo, ¿verdad?

05:36.600 --> 05:40.700
Entonces, es un guepardo en realidad y la red neuronal acertó.

05:40.710 --> 05:44.600
Dijo que con una capacidad de hiper alrededor del 95 99 por ciento.

05:45.900 --> 05:46.860
Luego el segundo.

05:46.860 --> 05:51.050
¿Qué crees que significa que es un tren bala?

05:51.300 --> 05:57.600
Y la red neuronal fue capaz de distinguir entre la locomotora eléctrica del tren de pasajeros del tren de pasajeros del tren

05:57.600 --> 05:58.020
bala.

05:58.020 --> 05:59.380
Esas son la mejor elección, por supuesto.

05:59.400 --> 06:05.850
Tenía muchas más opciones. Estas redes neuronales aprenden a distinguir entre cuatro categorías de

06:06.000 --> 06:08.760
docenas de categorías al mismo tiempo.

06:08.760 --> 06:10.750
Entonces esas son las cuatro opciones que eligió.

06:10.920 --> 06:12.750
Y eso es un tren bala y su voluntad.

06:12.760 --> 06:17.210
Y entonces, ¿cuál crees que es el último?

06:17.350 --> 06:22.470
Hay un par de opciones o no está muy claro qué es lo que podría ser una

06:22.470 --> 06:29.550
sartén podría ser una lupa, podría ser incluso un par de tijeras que algunos podrían decir, mientras que la red neuronal dijo que era

06:29.550 --> 06:30.540
un par de tijeras.

06:30.750 --> 06:32.590
Pero puedes ver cómo puedes equivocarte aquí.

06:32.610 --> 06:35.440
En primer lugar, no es una imagen muy clara.

06:35.520 --> 06:43.920
Y también se puede ver que las probabilidades no son tan claras aquí, así que la red neuronal estaba un poco confundida,

06:43.920 --> 06:46.280
un poco indeciso, tal como estamos.

06:46.280 --> 06:51.710
Así que dije Tijeras con la alta probabilidad, pero luego tenía un vidrio de mano que en realidad tenía

06:51.810 --> 06:55.760
con no tan lejos en el segundo lugar y un estetoscopio de sartén.

06:55.920 --> 07:01.620
Así que, básicamente, aquí puede ver que las tijeras fueron su primera suposición, pero la opción correcta era la número dos y es por

07:01.620 --> 07:03.050
eso que está resaltada en rojo.

07:03.300 --> 07:07.050
Así que ahí vamos esos Eso es de lo que todas las drogas ya son capaces.

07:07.050 --> 07:08.880
Y esto es en realidad una diapositiva bastante antigua.

07:08.880 --> 07:10.610
Esto fue hace varios años.

07:10.650 --> 07:16.100
son aún mejores y verán que de la aplicación práctica que codificarán juntos almorzaron.

07:16.170 --> 07:16.760
Ahora

07:16.920 --> 07:18.430
Pero ahora probemos un poco mejor.

07:18.430 --> 07:23.770
Qué conveniencia o redes neuronales convolucionales son en realidad y por qué ganan tanta popularidad.

07:23.970 --> 07:31.380
Y en realidad están ganando popularidad, así que puedes ver aquí una comparación de Google Trends que hice ayer.

07:31.770 --> 07:39.420
Aquí se puede ver que las redes neuronales ilusionales de la convención incluso están tomando las redes

07:39.420 --> 07:43.260
neuronales artificiales por lo que un aumento masivo.

07:43.260 --> 07:49.530
Y esto va a seguir así porque es un campo muy importante que es donde pasan todas

07:50.130 --> 07:52.530
las cosas, como los autos sin conductor.

07:52.530 --> 07:59.340
¿Cómo reconocen a las personas en el camino cómo reconocer las señales de alto y cosas

07:59.340 --> 08:07.680
así? ¿Cómo Facebook puede Facebook etiquetar imágenes o personas en imágenes? Y no solo recordar recordar que hace años

08:07.980 --> 08:14.240
tenías que decírselo a ti mismo, entonces reconocer rostros que tenía que agregar los nombres.

08:14.250 --> 08:18.420
Y ahora solo reconoce las caras y agrega los nombres al mismo tiempo.

08:18.630 --> 08:26.070
Bueno, eso es lo que las redes neuronales convolucionales son capaces de estar en Facebook.

08:26.160 --> 08:34.710
Si Jeffrey Hinton es el padrino de las redes neuronales artificiales y el aprendizaje profundo, entonces yalla Kuhn

08:34.830 --> 08:43.650
es el abuelo de las redes neuronales convolucionales. Lukken es un estudiante de Jeffrey Hinton y, de hecho,

08:43.650 --> 08:45.640
aquí puedes verlos juntos.

08:45.720 --> 08:51.950
Y Jeffrey Hinton ahora es un pionero en el planeamiento en Google Young.

08:52.020 --> 08:57.010
Es el director de la investigación de inteligencia artificial de Facebook y también profesor de NYU.

08:57.030 --> 09:02.650
Así que lentamente nos damos cuenta de que esta parte del núcleo lentamente estamos formando de esta manera.

09:02.670 --> 09:10.770
Estos nombres son de este tipo de imágenes de los perfiles de las personas que conducen este campo y los próximos en los próximos

09:10.950 --> 09:16.680
pares de conocerán un poco más y tendremos toda esta Mafia como se llaman a sí mismos

09:16.680 --> 09:22.320
o puede llamar ellos mafia o conspiración de aprendizaje profundo y aprenderás un poco más sobre cómo

09:22.320 --> 09:24.140
se desarrolló este campo completo.

09:24.480 --> 09:27.200
Sí, son solo estas grandes personas maravillosas.

09:27.450 --> 09:35.370
Y así, RIKOON en los años 80 y 90 hizo contribuciones significativas al campo de las redes

09:35.370 --> 09:36.300
neuronales convolucionales.

09:36.330 --> 09:44.310
Y como verán a lo largo de este curso, han podido desarrollar o ayudar al mundo

09:44.340 --> 09:46.650
a desarrollar algo extremadamente poderoso.

09:46.650 --> 09:51.390
Así que pasemos a cómo pueden funcionar las redes neuronales ilusorias.

09:51.420 --> 09:56.150
Tienes una entrada, es muy simple, es muy sencillo, así que tienen una imagen de entrada.

09:56.160 --> 10:01.930
Pasa a través de la red neuronal ilusoria de latas y usted tiene una etiqueta por lo que clasifica

10:01.990 --> 10:06.630
esa imagen como algo así como un Cheeto o un tren bala u otra cosa.

10:06.790 --> 10:10.780
Ahora me gusta entrar en un poco más de detalle.

10:10.900 --> 10:19.540
Por ejemplo, puede oficial neroli ha sido entrenado en ciertas imágenes en ciertas imágenes clasificadas o imágenes

10:19.780 --> 10:23.600
categorizadas antes de que haya sido anterior superior.

10:23.710 --> 10:29.510
Después de eso, puede darlo, digamos que una red neuronal ha sido entrenada para reconocer expresiones faciales y

10:29.510 --> 10:37.030
movimientos, puede darle una cara de persona sonriente no solo una cara como el dibujo de una cara como esta, sino la cara

10:37.030 --> 10:39.330
real de una persona que sonríe .

10:39.430 --> 10:44.910
Y te diré que esa persona está feliz y que puedes ver la cara de una persona que frunce el ceño.

10:44.910 --> 10:47.180
Te diré que la persona está triste.

10:47.280 --> 10:52.570
Él puede reconocer estas emociones y, como puedes ver, eso ya es muy poderoso en términos

10:52.570 --> 10:59.740
de tantas implicaciones diferentes, solo este ejemplo en el que puedes pensar de inmediato y en ambos casos te otorgaré una operabilidad

10:59.740 --> 11:04.970
para que no diga que sabes ". 100 por ciento la persona está feliz o triste.

11:04.970 --> 11:13.000
Será 99 o 98 o tal vez 80 por ciento cuando no esté claro qué está pasando y, al igual que tenemos razón,

11:13.000 --> 11:16.620
a veces podemos confundir las cosas por lo que no son.

11:16.660 --> 11:23.620
O a veces, a veces, no está claro si la persona sonríe o frunce el ceño o si es un

11:23.620 --> 11:27.910
perro o un gato o si es un tren o un tren bala.

11:28.110 --> 11:32.620
así es como procesamos la información visual, como vimos desde el comienzo de este tutorial.

11:32.980 --> 11:38.600
De acuerdo, a veces no lo tenemos. No hemos visto suficientes características. Todo se reduce a las características porque

11:38.620 --> 11:44.140
Entonces, ¿cómo puede una red neuronal que alberga una red neuronal reconocer estas características?

11:44.140 --> 11:48.770
Bueno, todo comienza en el nivel básico que tienes.

11:48.790 --> 11:54.160
Digamos que tienes una imagen, tienes dos imágenes, una es una imagen en blanco y negro de dos

11:54.160 --> 12:01.270
por dos píxeles y otra es una imagen en color de dos por dos píxeles mientras que las redes neuronales aprovechan el hecho de

12:01.270 --> 12:04.690
que la imagen en blanco y negro es una matriz bidimensional.

12:04.690 --> 12:09.610
Entonces, la forma en que lo vemos ahora a la izquierda es solo la representación visual.

12:09.630 --> 12:11.110
Supongo que algún tipo de imagen.

12:11.250 --> 12:16.600
Y, por simplicidad, es solo una forma bidireccional de visualizar las imágenes, pero en términos informáticos, en

12:16.600 --> 12:22.180
realidad es una matriz bidimensional con cada uno de esos píxeles con un valor entre 0 y 55.

12:22.360 --> 12:27.670
Entonces eso es ocho bits de información para los dos a la potencia de ocho es 256.

12:27.670 --> 12:32.130
Entonces, los valores de 0 a 255 y esa es la intensidad del color.

12:32.260 --> 12:36.240
Y en este caso, el color blanco por lo que 0 será un píxel completamente negro.

12:36.370 --> 12:43.720
255 será un píxel completamente blanco y entre ellos tendrá el rango de escala de grises de las opciones posibles para

12:43.720 --> 12:44.490
este píxel.

12:44.650 --> 12:50.740
es como el punto de partida de que cualquier imagen tiene una representación digital con forma digital.

12:50.740 --> 12:56.510
Y sobre la base de esa información, las computadoras pueden entonces trabajar con la imagen y eso

12:56.620 --> 13:03.460
Y esos son básicamente unos y ceros que forman un número de 0 a 255 para cada píxel y con eso

13:03.460 --> 13:04.340
trabaja la computadora.

13:04.340 --> 13:08.410
En realidad, no funciona con los colores o cualquier cosa que funcione con los unos y los ceros al final

13:08.410 --> 13:08.790
del día.

13:08.800 --> 13:12.820
Eso es algo así como la base de todo.

13:13.360 --> 13:17.110
Y en una imagen en color, en realidad es una matriz tridimensional.

13:17.230 --> 13:24.580
azul pixel azul Larry Green y el resplandor rojo y las flechas y ese sentido para RGV rojo verde azul.

13:24.580 --> 13:25.130
Tienes

13:25.420 --> 13:29.740
Y cada uno de esos colores tiene su propia intensidad.

13:29.740 --> 13:37.010
Entonces, básicamente, un píxel tiene tres valores asignados.

13:37.030 --> 13:41.090
Cada uno de ellos está entre 0 y 256 255.

13:41.380 --> 13:48.340
Y por lo tanto, puede averiguar cuál es esta imagen de qué color es exactamente este píxel.

13:48.340 --> 13:53.520
Al combinar esos tres valores, las computadoras volverán a funcionar con eso.

13:53.530 --> 13:58.930
Esa es la base de todo eso es el canal rojo, el canal verde, el canal azul.

13:59.530 --> 14:08.590
Y, finalmente, echemos un vistazo, por ejemplo, a un ejemplo muy trivial de una cara sonriente.

14:08.820 --> 14:09.610
En términos de computadora.

14:09.610 --> 14:17.710
Si simplemente simplificamos las cosas en lugar de tener de 0 a 255 y tener esos valores solo para

14:17.710 --> 14:25.690
que podamos entender mejor las cosas y captar realmente los conceptos, vamos a decir que cero es blanco, uno

14:25.690 --> 14:26.590
es negro.

14:26.590 --> 14:26.800
Derecha.

14:26.800 --> 14:33.460
Así que simplificaremos las cosas al máximo y verás que esa imagen se puede representar

14:33.460 --> 14:33.900
así.

14:34.000 --> 14:39.150
nuevo al 0 2 256 rango de valores y todo se aplica de la misma manera allí.

14:39.160 --> 14:44.680
Entonces, la razón por la que hemos planteado esto es porque analizamos todas nuestras intuiciones. La estructura de

14:44.680 --> 14:50.530
Stroh es similar a esta, que es muy simple, pero al mismo tiempo, todos esos conceptos pueden traducirse de

14:50.740 --> 14:54.900
Y los pasos que vamos a seguir son si estas imágenes son una evolución óptima.

14:54.910 --> 14:56.820
Paso número dos de la agrupación máxima.

14:56.830 --> 15:02.550
El paso número tres de aplanamiento y el número de paso una conexión completa y puedo

15:02.560 --> 15:09.880
imaginar que probablemente todas estas palabras significan mucho para ti en este momento, pero al final de esta sección del

15:10.000 --> 15:13.940
curso las entenderás con gran detalle y exactamente qué son obra.

15:13.960 --> 15:16.020
Así que comenzaremos en el siguiente tutorial.

15:16.030 --> 15:24.400
Por ahora, la lectura adicional que tal vez desee examinar es un documento original joven de Lukens

15:24.640 --> 15:28.200
que dio lugar a redes neuronales emocionales.

15:28.200 --> 15:31.590
Se llama aprendizaje basado en gradiente aplicado a la cognición documental.

15:31.660 --> 15:34.550
Es posible que haya visto esta imagen antes de flotar en Internet.

15:34.630 --> 15:40.990
Es a partir de ese documento, así que si quieres volver a los comienzos de cómo sucedió todo de

15:40.990 --> 15:46.420
donde vino todo esto, este es el documento para analizar y espero ver en el siguiente tutorial.

15:46.420 --> 15:48.280
Hasta entonces disfruta del aprendizaje profundo.