WEBVTT

00:00.690 --> 00:05.730
Hola y bienvenidos de nuevo al curso sobre aprendizaje profundo en la prensa Tauriel, descubrimos de qué se

00:05.810 --> 00:07.290
tratan las redes neuronales convolucionales.

00:07.350 --> 00:11.050
Y hoy vamos a sumergirnos en la convolución del Paso 1.

00:11.100 --> 00:18.530
Así que esta es la función de convolución e intentamos mantenernos alejados de las matemáticas y mantener las cosas intuitivas.

00:18.540 --> 00:25.110
no pude evitar compartir esta fórmula para ti porque es una convolución tan simple que es básicamente una integración combinada

00:25.110 --> 00:31.380
de las dos funciones y te muestra cómo una función modifica a la otra o modifica la forma de

00:31.470 --> 00:36.520
la otra y si tienes hecho cualquier procesamiento de señal o ingeniería eléctrica o una

00:36.520 --> 00:42.030
profesión donde se requiera el procesamiento de la señal, inevitablemente habría encontrado una función de conclusión.

00:42.030 --> 00:42.390
Pero

00:42.390 --> 00:44.090
Es bastante popular ahora.

00:44.100 --> 00:49.490
Una vez más vamos a mantener las luces de las matemáticas o mantenerlas separadas.

00:49.500 --> 00:56.190
Y si desea adentrarse en las matemáticas detrás de las redes neuronales convolucionales, una gran

00:56.520 --> 01:05.010
lectura adicional es Introducción a las redes neuronales convolucionales de Jensine Wu, que es profesora de la Universidad de Nanjing

01:05.010 --> 01:05.820
en China.

01:05.820 --> 01:12.780
orientado específicamente a personas que están empezando con principiantes que están aprendiendo redes neuronales convolucionales, por lo que las

01:12.780 --> 01:17.690
matemáticas deben ser accesibles, en realidad enviadas por correo electrónico al Profesor Johnson.

01:18.250 --> 01:23.700
Este documento fue publicado literalmente días atrás, como hace cinco o seis días, y está

01:23.730 --> 01:32.040
Y sí, dijo que su objetivo es hacer o deshacer las cosas complejas para que las personas que son nuevas en este

01:32.040 --> 01:33.360
campo puedan entender.

01:33.360 --> 01:40.680
Y también mencionó que tiene algunos materiales disponibles en su página de inicio, así que si tú mismo eliminas las dos últimas partes,

01:40.680 --> 01:47.220
solo tienes que ir a Slash W. J. y podrá encontrar más tutoriales y

01:47.220 --> 01:52.380
materiales adicionales que no se han publicado como documentos, pero los usa en sus tutoriales

01:52.380 --> 01:59.120
para que pueda encontrarlos útiles, así que navegue por allí si ' Me gustaría obtener una introducción a las

01:59.130 --> 02:05.130
matemáticas detrás de las redes neuronales de coalición y construir una base sólida alrededor de esa área.

02:05.130 --> 02:08.470
X a esa parte que es su página de inicio

02:08.550 --> 02:12.570
Pero vamos a seguir adelante y vamos a hablar sobre la convolución.

02:12.570 --> 02:17.160
Entonces, ¿cuál es una buena solución en términos intuitivos aquí a la izquierda.

02:17.160 --> 02:21.690
Tenemos una imagen de entrada como discutimos, así es como vamos a ver las imágenes solo unos y ceros

02:21.690 --> 02:22.750
para simplificar las cosas.

02:22.950 --> 02:25.050
Y puedes ver la carita sonriente allí.

02:25.090 --> 02:28.660
Luego tenemos un detector de funciones para que los detectores tengan una Matriz de tres por tres.

02:28.740 --> 02:30.120
¿Tiene que ser tres por tres?

02:30.150 --> 02:31.920
No, no.

02:31.920 --> 02:35.810
Alex net creo que usa siete por siete.

02:35.850 --> 02:41.640
Y luego, algún otro de esos otros famosos usa detectores de características de cinco por cinco.

02:41.640 --> 02:48.270
Pueden ser diferentes, pero generalmente verás que son tres por tres y que son razones para hacerlo de tres

02:48.270 --> 02:52.110
en tres, por lo que vamos a seguir el camino convencional.

02:52.170 --> 02:57.510
Tener un detector de funciones de tres por tres también los detectores de funciones llamados estos son términos

02:57.510 --> 02:58.710
importantes porque puede encontrarlos.

02:58.710 --> 03:04.080
funciones o Eik podría escuchar que se llama kernel o puede escuchar que se llama Filter.

03:04.110 --> 03:09.540
Hay muchos términos diferentes para el detector de características, pero los más comunes son los detectores de

03:09.540 --> 03:14.760
Así que en este curso vamos a usar indistintamente un filtro o un detector

03:14.760 --> 03:23.670
de características, pero solo tenga en cuenta que tiene esos nombres y una operación de coalición se representa con una X en un círculo.

03:23.670 --> 03:31.230
Tal como lo viste en las fórmulas anteriores y aquí, lo que sucede es a nivel intuitivo o simplemente piensas en términos de lo

03:31.230 --> 03:34.980
que está sucediendo realmente en el fondo en lugar de las matemáticas.

03:35.010 --> 03:40.740
Bueno, toma este detector o filtro de características y lo pone en su imagen como lo ve a la izquierda.

03:40.740 --> 03:48.120
valioso para respetar el valor así que el 0 superior por el valor superior izquierdo por el valor superior izquierdo

03:48.450 --> 03:58.760
entonces básicamente en posición de 1 1 por posición alrededor de 1 1 número de posición o 0 1 0 1 0 2 por 0 2 y así sucesivamente.

03:58.780 --> 04:04.980
Así que cubres, por ejemplo, en este caso la esquina superior izquierda los nueve píxeles en la

04:05.090 --> 04:08.670
esquina superior izquierda y básicamente multiplicas cada uno un valor

04:08.670 --> 04:13.410
Entonces es una multiplicación sabia de los elementos en estas matrices.

04:13.410 --> 04:14.460
Y luego sumas el resultado.

04:14.460 --> 04:20.010
Entonces, en este caso, nada coincide, así que siempre es 0 por 0 0 o por 1.

04:20.010 --> 04:21.280
Entonces el resultado es cero.

04:21.530 --> 04:26.610
Y aquí puede ver que uno de ellos combinó uno de la izquierda emparejado.

04:26.610 --> 04:28.120
Y, por lo tanto, tenemos un 1 aquí.

04:28.120 --> 04:30.820
Nada emparejado nada coincide con nada emparejado.

04:30.890 --> 04:38.100
Luego pasamos al siguiente lanzamiento, y el paso en el que estamos moviendo todo este filtro se llama

04:38.100 --> 04:38.610
zancada.

04:38.610 --> 04:40.570
Así que aquí tenemos un paso de un píxel.

04:40.680 --> 04:45.820
Aquí puede ver de nuevo algo que coincide con la esquina inferior derecha emparejada a la zancada, pero uno

04:46.110 --> 04:50.850
inferior en el medio que coincide aquí arriba a la derecha coincide con la medida de nada.

04:50.970 --> 04:52.040
El paso es uno.

04:52.170 --> 04:53.930
Puedes cambiar la zancada.

04:54.330 --> 04:56.260
Puedes hacerlo uno dos.

04:56.340 --> 04:58.580
Vas a obtener tres lo que quieras.

04:58.830 --> 05:02.770
Eventualmente, el que funciona bien es generalmente o dos.

05:02.800 --> 05:04.280
Entonces, eso es a lo que las personas se apegan.

05:04.600 --> 05:09.480
Y vamos a hablar de lo que es el paso hacia el final de este tutorial.

05:09.520 --> 05:14.170
Así que aquí tenemos, así que estamos haciendo una coincidencia absoluta cuando escucho que puedes ver

05:14.170 --> 05:17.270
que tenemos dos porque dos de ellos coinciden y así sucesivamente.

05:17.290 --> 05:24.830
Así que, allí vamos, hay otro que coincidió allí, vamos y terminamos.

05:24.830 --> 05:27.770
Entonces, qué es lo que hemos creado.

05:27.800 --> 05:28.600
Derecha.

05:28.820 --> 05:31.860
Un par de cosas importantes aquí.

05:31.970 --> 05:38.240
La imagen de la derecha se llama mapa de características y también tiene varios términos. También se le puede

05:38.870 --> 05:40.530
llamar a veces función Vold.

05:41.000 --> 05:46.280
Entonces, en su blog y operador de operación de volución a algo que no se complica,

05:46.280 --> 05:53.680
se convoluciona y, a veces, como me lo pienso de la manera incorrecta, pero es el término correcto convolucionado es una especie

05:53.700 --> 05:57.900
de característica antigua o también puede ser llamado el mapa de activación.

05:58.040 --> 06:02.510
Pero vamos a llamarlo un mapa de características en este curso para que pueda llamarse

06:03.500 --> 06:06.300
cualquiera de esas cosas y qué hemos hecho aquí.

06:06.320 --> 06:09.910
Como puede ver, hemos reducido el tamaño de la imagen.

06:09.920 --> 06:15.500
Ese es el número uno y eso es lo importante que quería mencionar sobre su imagen de entrada y el texto

06:15.500 --> 06:17.090
de la función y la zancada.

06:17.240 --> 06:21.690
Si tiene una zancada de uno, puede ver que la imagen se reduce un poco, pero si

06:21.690 --> 06:25.410
tiene derecho a que la imagen produzca más, la característica será aún más pequeña.

06:25.610 --> 06:33.950
es hacer que la imagen sea más pequeña porque será más fácil procesarla y será más rápida.

06:33.950 --> 06:42.100
Y esa es una función muy importante del detector de funciones. Este paso de convolución completa

06:42.110 --> 06:51.830
Lo hará y serás solo de crianza porque imagina como aquí tenemos una imagen de siete por siete,

06:51.860 --> 06:55.310
pero imagínate si tienes una foto adecuada.

06:55.700 --> 07:02.270
O si tiene una imagen 256 en 56 píxeles, es una gran cantidad de píxeles. CHONE si es

07:02.900 --> 07:06.940
x al cuadrado o digamos que tiene 300 pero 300 píxeles.

07:07.060 --> 07:13.400
Para que no nos confundamos con la R. GRAMO. B 256 tiene que decir que tenemos una imagen de 300 por

07:13.400 --> 07:14.720
300 en términos de tamaño y píxeles.

07:14.780 --> 07:22.640
tanto, los detectores de funciones reducirán el tamaño de la imagen y, por lo tanto, el paso de dos es realmente beneficioso.

07:23.360 --> 07:27.580
Entonces tienes 300 píxeles cuadrados de un número enorme y, por lo

07:27.740 --> 07:29.970
Pero entonces la pregunta es ¿perdemos información?

07:29.990 --> 07:34.520
¿Estamos perdiendo información cuando aplicamos el detector de características?

07:34.520 --> 07:40.580
Bueno, cierta información que estamos perdiendo, por supuesto, porque tenemos menos valores y de la matriz resultante.

07:40.700 --> 07:45.950
Pero al mismo tiempo, el objetivo del detector de características es detectar ciertas características de ciertas

07:45.950 --> 07:48.170
partes de la imagen que son integrales.

07:48.620 --> 07:53.150
Y así, por ejemplo, si lo piensas de esta manera, como el detector de funciones tiene un

07:53.150 --> 07:54.080
cierto patrón en él.

07:54.080 --> 07:57.950
El número más alto en su mapa de características es cuando ese patrón coincide.

07:57.950 --> 08:04.820
De hecho, el número más alto que puede obtener es en un ejemplo totalmente simplificado cuando la característica es que coincide exactamente

08:04.820 --> 08:10.550
y puede ver que el número cuatro que tenemos en nuestro mapa de características es exactamente el mismo.

08:10.550 --> 08:16.910
Entonces, si lo miras aquí, ahí es exactamente donde está este detector de funciones, porque solo hay

08:16.910 --> 08:21.460
cuatro y se combinan perfectamente para que puedas ver esta parte aquí.

08:21.470 --> 08:23.220
Entonces la característica fue detectada aquí.

08:23.450 --> 08:32.340
Y como comentamos al comienzo de esta sección, lo que presenta es cómo vemos las cosas y cómo las

08:32.430 --> 08:33.080
reconocemos.

08:33.090 --> 08:40.410
No miramos cada píxel por así decirlo en lo que vemos en una imagen o en la vida real.

08:40.410 --> 08:46.440
No miramos cada imagen que vemos. Miramos la nariz, los sombreros, la pluma, los

08:47.070 --> 08:55.110
ojos bajo las pequeñas marcas negras debajo de los ojos del guepardo, para distinguir entre un guepardo y un

08:55.110 --> 08:57.470
leopardo o la forma del tren.

08:57.480 --> 09:02.610
No debemos distinguir entre un tren bala y un tren normal, y así sucesivamente para no mirar todo lo que vemos

09:02.610 --> 09:08.110
en las características y eso es lo que estamos preservando y eso es lo que el mapa de características nos ayuda a preservar.

09:08.110 --> 09:15.480
En realidad, eso es lo que nos permite sacar adelante y deshacernos de todas las cosas innecesarias que,

09:15.570 --> 09:22.740
incluso como humanos, no procesamos tanta información entrando en tus ojos que en un momento dado como gigabytes

09:22.740 --> 09:28.680
de información si miras cada punto si no te llenan terabytes de información por segundo

09:28.680 --> 09:35.640
y aún así podemos continuar porque nos deshacemos de lo innecesario solo nos enfocamos en las características

09:35.640 --> 09:41.510
importantes que son importantes para nosotros y eso es exactamente lo que hace la

09:41.640 --> 09:42.270
característica.

09:42.270 --> 09:51.030
Entonces, avanzando, esta es nuestra imagen de entrada y usted crea un mapa de características, así que la primera, digamos que la del frente es la que acabamos

09:51.030 --> 09:54.300
de crear, pero ¿cómo es que hay muchas de ellas?

09:54.300 --> 10:00.300
Pero creamos múltiples mapas de características porque usamos diferentes filtros.

10:00.300 --> 10:00.590
Derecha.

10:00.630 --> 10:05.430
Y esa es otra forma en que conservamos mucha información, por lo que no solo

10:05.880 --> 10:12.600
tenemos un mapa de características sino que buscamos ciertas características y luego o básicamente la red decide a través de su capacitación

10:12.600 --> 10:18.030
y esto es algo que discutiremos al final de la sección a través de su capacitación, decide

10:18.120 --> 10:23.670
qué características son importantes para ciertos tipos o categorías y las busca y, por lo tanto, tendrá diferentes

10:23.670 --> 10:26.070
filtros y hablaremos de filtros en este momento.

10:26.160 --> 10:32.280
Pero básicamente aplicaré estos filtros, para obtener este mapa de características se aplicó un filtro como el que vimos pero luego

10:32.280 --> 10:36.270
para obtener esta característica, Mabbett aplica un filtro diferente para obtener esta característica aplicando

10:36.270 --> 10:38.080
un filtro diferente, y así sucesivamente.

10:38.370 --> 10:43.430
Y básicamente, crea estos mapas de características.

10:43.650 --> 10:49.700
Y en realidad es por eso que personalmente creo que el término detector de características es mejor que los filtros.

10:49.710 --> 10:56.040
Recuerde que estamos aquí tenemos este filtro que también podemos llamar un detector de características. Bueno, en realidad, el

10:56.040 --> 10:59.440
detector de función de palabras creo que es más adecuado.

10:59.490 --> 11:03.390
Y la razón de eso es que el propósito es el correcto.

11:03.390 --> 11:06.510
No queremos simplemente no queremos solo filtrar nuestra imagen.

11:06.510 --> 11:10.220
Pero a pesar de que es un todo lo mismo es solo una cuestión de terminología.

11:10.230 --> 11:11.990
Pero básicamente queremos detectar características.

11:12.000 --> 11:12.270
Todo bien.

11:12.270 --> 11:19.680
En esto en esta guarida nos vamos a nuestro propio mapa de características que hemos detectado donde ciertas características están en la imagen

11:19.800 --> 11:24.240
y este mapa de características que hemos detectado donde ciertas otras características son donde

11:24.240 --> 11:30.350
se encuentra una determinada característica específica y este mapa de características se detectará cuando una cierta otra característica se

11:30.350 --> 11:31.420
encuentra en la imagen.

11:31.440 --> 11:33.420
Entonces eso es lo que estamos haciendo.

11:33.420 --> 11:40.470
Y escucha, tenemos un par de ejemplos, así que aquí estamos usando y esto es de Gip punto org.

11:40.610 --> 11:48.690
es un tipo de herramienta gratuita, como pintura, y puedes usarla para ajustar tus imágenes o trabajar con tus imágenes.

11:48.690 --> 11:49.550
Su documentación

11:49.560 --> 11:56.490
Pero básicamente tienen algunos ejemplos valiosos en su documentación y aquí tienen una imagen del Taj Mahal

11:56.490 --> 11:59.790
y usted puede elegir qué filtro desea aplicar.

11:59.880 --> 12:06.150
Entonces, si descargas este programa y cargas una foto y luego puedes comenzar una matriz de

12:06.150 --> 12:12.600
conversión y aplicar filtros, verás que estas cosas se aplicaron en realidad en el procesamiento y

12:12.600 --> 12:15.240
diseño de imágenes, y así sucesivamente.

12:15.240 --> 12:17.150
Así que echemos un vistazo a lo que obtenemos, lo que obtenemos.

12:17.240 --> 12:21.520
Entonces, si aplicamos este filtro cinco en el medio menos uno, uno es uno menos uno.

12:21.690 --> 12:23.780
Puedes ver que agudiza la imagen.

12:23.890 --> 12:29.010
Y esto es bastante intuitivo si piensas en eso.

12:29.010 --> 12:36.300
Entonces 5 es el píxel del píxel principal, como en el medio del filtro o el detector de

12:36.600 --> 12:43.410
características, y luego menos uno menos uno, solo uno, reduce los píxeles alrededor del a en un

12:44.430 --> 12:45.000
sentido intuitivo.

12:46.170 --> 12:47.020
Luego difumina.

12:47.040 --> 12:54.150
Así que, básicamente, toma igual importancia da igual importancia a todos los píxeles son todos los que están en el centro

12:54.150 --> 12:59.070
y por lo tanto, los combina juntos y se obtiene una mejora de borde borroso.

12:59.070 --> 13:03.860
Así que aquí puedes ver que es menos uno y uno y luego obtienes los ceros correctos.

13:03.870 --> 13:11.100
Así que eliminaste para eliminar los píxeles alrededor del principal en el medio y solo mantienes este en uno menos y te

13:11.100 --> 13:15.610
da una ventaja y esto fue un poco más difícil de entender cómo funciona.

13:16.290 --> 13:20.700
Como probablemente sea más difícil simplemente pensar intuitivamente Edge Detect.

13:20.700 --> 13:23.340
Correcto, entonces este probablemente tenga más sentido.

13:23.340 --> 13:25.860
Bien, tómalos en el medio.

13:25.850 --> 13:28.880
Usted reduce el medio.

13:29.050 --> 13:36.180
Probablemente le guste la fuerza del píxel del medio y luego busque las que busca.

13:36.420 --> 13:41.980
Estos que ves aumentan la fuerza de los que los rodean.

13:42.090 --> 13:43.910
Entonces tienes a los que están allí.

13:44.720 --> 13:45.610
Sí, esto es.

13:45.690 --> 13:50.700
Eso te da una ventaja y puedes ver cuál eres y mandar a otro.

13:50.700 --> 13:58.130
Entonces, la clave aquí es que es simétrica y puedes ver que la imagen también se vuelve

13:58.140 --> 14:03.580
asimétrica, así que tienes la sensación de que se está destacando hacia ti.

14:03.840 --> 14:08.910
eso es lo que obtienes cuando tienes los puntos negativos aquí y más aquí, de nuevo, esto es muy, esto se está volviendo

14:08.970 --> 14:13.860
un poco técnico ahora, pero al menos podemos obtener algún tipo de intuición y Lissa puede ir rápidamente a través de ellos nuevamente.

14:13.860 --> 14:14.160
Y

14:14.160 --> 14:21.480
Así que hay nitidez, hay desenfoque, hay manos edginales, hay una detección de bordes, y jefe, como se puede

14:21.480 --> 14:27.350
ver, estos son excelentes ejemplos de la misma imagen, pero estamos obteniendo mapas de características.

14:27.360 --> 14:32.430
Así que utilizamos diferentes detectores de funciones para obtener diferentes mapas de características de

14:32.430 --> 14:40.380
la misma imagen y, por lo tanto, ahora tenemos muchas de las últimas versiones de esta imagen, donde en cada una de ellas

14:40.440 --> 14:44.920
hemos intentado detectar ciertas cosas en estos términos, no son aplicables. para nosotros.

14:44.940 --> 14:50.460
Su segundo jefe probablemente no sea aplicable a nosotros en términos de redes neuronales convolucionales, pero la detección

14:50.550 --> 14:51.630
de edad es importante.

14:51.630 --> 14:58.590
Queremos detectar los bordes de borde mejorar probablemente no difuminar nitidez por lo que ciertas cosas como texto nervioso.

14:58.580 --> 15:02.450
Probablemente el más importante para nuestro tipo de trabajo.

15:02.460 --> 15:07.560
Y en términos de comprensión de las computadoras, ellos decidirán por sí mismos o las redes neuronales decidirán

15:07.560 --> 15:12.900
por sí mismas qué es importante, qué no y probablemente ni siquiera sea reconocible para el ojo humano.

15:12.900 --> 15:14.910
No podrá entender lo que significan esas características.

15:14.910 --> 15:22.530
que pueden procesar tantas cosas diferentes y comprender sin siquiera tener esa intuición o sin tener esa explicación por qué

15:22.530 --> 15:28.950
entenderán qué características son importantes para ellas, ya sea que tengamos un nombre para ellas o no

15:28.950 --> 15:34.380
es que sea un todo, es una pregunta irrelevante para la red neuronal artificial.

15:34.810 --> 15:39.830
Pero la computadora decidirá y esa es la belleza de las redes neuronales

15:39.990 --> 15:41.260
Y mi favorito

15:41.280 --> 15:50.940
Aquí hay una imagen de Geoffrey Hinton de Geoffrey Hinton que pasó por uno de estos filtros.

15:50.940 --> 15:53.070
De acuerdo, eso nos lleva al final de Teresa Tauriel.

15:53.070 --> 15:55.460
Espero que hayan disfrutado aprendiendo sobre la convolución.

15:55.470 --> 16:02.490
principal objetivo de la evolución. Encontrar características en su imagen usando el detector de características las pone en un

16:02.490 --> 16:08.280
mapa de características y al tenerlas en un mapa futuro conserva las relaciones espaciales entre

16:08.340 --> 16:15.710
píxeles, lo cual es muy importante. para que lo sepas, porque si están completamente revueltos, entonces hemos perdido el patrón.

16:15.720 --> 16:19.280
La conclusión clave es que la convolución es el

16:19.350 --> 16:25.110
Y, al mismo tiempo, es importante comprender que la mayoría de las veces las características que una

16:25.110 --> 16:32.430
red neuronal detectará y usará para reconocer ciertas imágenes y las de Klaas no significarán nada para los humanos, pero sin

16:32.460 --> 16:33.120
embargo funcionan.

16:33.120 --> 16:34.420
Y eso es lo que es la convolución.

16:34.440 --> 16:36.280
Y espero verte al lado de Tauriel.

16:36.300 --> 16:37.980
Hasta entonces disfruta el aprendizaje.