WEBVTT

00:00.630 --> 00:04.800
Hola y bienvenidos de nuevo al curso sobre aprendizaje profundo, hoy estamos hablando de la

00:04.800 --> 00:07.380
agrupación máxima y tenemos algunas diapositivas muy interesantes por venir.

00:07.500 --> 00:10.930
E incluso una sorpresa especial al final del tutorial.

00:11.010 --> 00:12.440
Entonces empecemos.

00:12.450 --> 00:15.860
La primera pregunta es qué es la agrupación y por qué la necesitamos.

00:16.050 --> 00:19.650
Bueno, para responder a esa pregunta, echemos un vistazo a estas imágenes en estas imágenes.

00:19.650 --> 00:20.780
Tenemos un guepardo

00:20.790 --> 00:23.680
De hecho, es el mismo guepardo exacto en la primera imagen.

00:23.680 --> 00:29.640
Esa imagen está posicionada correctamente y está mirando directamente a la segunda imagen.

00:29.640 --> 00:30.660
Está un poco girado.

00:30.660 --> 00:32.710
Y la tercera imagen un poco aplastada.

00:32.790 --> 00:40.020
Y la cosa aquí es que queremos que la red neuronal sea capaz de reconocer al guepardo en cada

00:40.020 --> 00:41.450
una de estas imágenes.

00:41.460 --> 00:43.230
De hecho, esto es solo un guepardo.

00:43.230 --> 00:45.070
¿Qué pasa si tenemos muchos tiradores diferentes?

00:45.090 --> 00:46.120
Aquí hay un guepardo.

00:46.180 --> 00:47.250
Él es un guepardo.

00:47.400 --> 00:53.130
Aquí hay otro guepardo, su Ashira su guepardo Ishida y él un guepardo y queremos que la red

00:53.130 --> 01:01.110
neuronal reconozca a todos estos tiradores como tramposos y cómo puede hacer eso si todos miran en diferentes direcciones, todos están en diferentes partes del En

01:01.110 --> 01:06.300
la imagen, son como si sus rostros estuvieran ubicados en diferentes partes de la imagen, alguien está

01:06.300 --> 01:10.080
en el lado derecho, alguien en la esquina izquierda o alguien en

01:10.080 --> 01:10.700
el medio.

01:11.010 --> 01:14.280
Todos son un poco diferentes y la textura es un poco diferente.

01:14.280 --> 01:16.200
La iluminación es un poco diferente.

01:16.200 --> 01:21.600
Hay muchas pequeñas diferencias, por lo que si la red neuronal busca exactamente una determinada

01:21.810 --> 01:29.700
característica, por ejemplo, una característica distintiva del guepardo son las lágrimas que salen de los ojos o las sombras de The Shadow

01:29.700 --> 01:35.310
que parecen lágrimas. el patrón que va desde sus ojos hacia abajo está en los lados

01:35.310 --> 01:40.890
de su nariz y se ve como lágrimas que es una característica distintiva del Cheetah.

01:40.890 --> 01:48.660
Pero si está buscando esa característica que aprendió de ciertos guepardos en una ubicación exacta o

01:48.660 --> 01:53.370
una forma o textura exacta, nunca encontrará estos otros tiradores.

01:53.460 --> 02:01.410
pero no tiene que importar si las características están un poco inclinadas si las características son un poco diferentes en textura

02:01.440 --> 02:10.170
si las características son un poco más cercanas a las características o un poco más separadas relativo al relativo el uno al otro.

02:10.520 --> 02:16.460
Así que tenemos que asegurarnos de que nuestra red neuronal tenga una propiedad llamada invarianza espacial,

02:16.800 --> 02:23.400
lo que significa que no le importa dónde están las características de nuevo, no tanto como qué parte

02:23.400 --> 02:29.940
de la imagen, porque hemos tomado ese tipo de en consideración con nuestro mapa somos pobres con nuestra

02:29.940 --> 02:30.210
convolucionalidad

02:30.210 --> 02:37.230
Entonces, si la característica en sí está un poco distorsionada, nuestra red neuronal debe tener cierto nivel de

02:37.410 --> 02:39.930
flexibilidad para poder encontrar esa característica.

02:40.050 --> 02:42.690
Y de eso se trata la puesta en común.

02:42.690 --> 02:45.140
Así que echemos un vistazo a cómo funciona la agrupación.

02:45.180 --> 02:51.090
Aquí está nuestro mapa de características, así que ya hemos hecho nuestra convolución y hemos completado esa parte y ahora

02:51.090 --> 02:52.680
estamos trabajando con la convolución allí.

02:52.680 --> 02:53.880
Ahora vamos a aplicar el agrupamiento.

02:53.880 --> 02:54.690
Entonces, cómo funciona.

02:54.690 --> 02:56.420
Vamos a aplicar la puesta en común de nuevo.

02:56.670 --> 03:01.640
Hay varios tipos diferentes de juegos que cumplen la media de la mancomunidad. Mapeo general de algunos grupos y comentarios sobre

03:01.710 --> 03:03.440
aquellos hacia el final de la historia.

03:03.540 --> 03:11.040
superior izquierda y encuentras el valor máximo en esa casilla y luego solo registras ese valor y haces caso omiso de los otros tres.

03:11.040 --> 03:15.020
Pero por ahora solo estamos aplicando Max pooling así que tomamos una caja

03:15.030 --> 03:21.900
de dos por dos píxeles así y de nuevo no tiene que ser de dos en dos, puedes elegir cualquier tamaño de caja

03:21.900 --> 03:26.310
y de nuevo lo comentaremos hacia y Tauriel y tú lo colocas en la esquina

03:26.310 --> 03:30.600
Entonces en su caja tiene cuatro valores, simplemente ignora tres; solo conserva uno máximo, que es

03:30.600 --> 03:31.830
uno en este caso.

03:31.830 --> 03:36.210
Luego mueves tu caja hacia la derecha para que, una vez más, selecciones la zancada.

03:36.210 --> 03:41.850
Así que aquí pasamos al paso de dos y eso es lo que normalmente pensaste, puedes decir como el paso de

03:41.850 --> 03:42.880
uno que puedes seleccionar.

03:42.990 --> 03:47.940
De modo que hay cuadros superpuestos que pueden seleccionar cualquier tipo de ataque que te gusten incluso tres si lo deseas,

03:48.770 --> 03:52.440
pero estamos seleccionando una zancada de dos aquí y eso es lo que se usa comúnmente.

03:52.470 --> 03:57.660
Y luego repites el proceso repite la máxima aquí si cruzas y no importa,

03:57.660 --> 04:00.080
solo sigue haciendo lo que estás haciendo.

04:00.090 --> 04:05.690
Entonces todavía registra el máximo aquí 0 aquí, el máximo es cuatro.

04:05.700 --> 04:11.380
Aquí están los máximos aquí, el máximo es 1 0 1 o 2 y luego 1.

04:11.400 --> 04:13.970
Entonces, como pueden ver, sucedieron algunas cosas.

04:13.980 --> 04:18.890
En primer lugar, aún pudimos preservar las funciones correctamente.

04:19.080 --> 04:23.730
Los números máximos que representan porque sabemos cómo funciona la conclusión Lehre.

04:23.730 --> 04:28.650
Sabemos que los números máximos o grandes en su mapa de características representan donde realmente

04:28.650 --> 04:31.480
encontró la similitud más cercana a una característica.

04:31.650 --> 04:38.250
Pero al reunir estas características, en primer lugar, nos deshacemos del 75 por ciento de

04:38.250 --> 04:46.110
la información que no es la característica, que no son las cosas importantes que estamos buscando porque

04:46.220 --> 04:49.410
solo estamos tres píxeles de cuatro. .

04:49.710 --> 04:51.510
Entonces solo estamos obteniendo el 25 por ciento.

04:51.510 --> 05:00.260
el máximo de píxeles que nosotros o los valores que tenemos, tenemos en cuenta cualquier distorsión.

05:00.770 --> 05:04.160
Y, además, también porque estamos tomando

05:04.160 --> 05:12.810
Así, por ejemplo, dos imágenes en las que, por ejemplo, las lágrimas del tramposo en los ojos están en una imagen un poco a la izquierda o

05:12.830 --> 05:16.550
un poco giradas hacia la izquierda y otra allí un poco.

05:16.580 --> 05:22.100
Y es cómo se supone que deben ser o cómo nos gusta si tomas una como base y otra vez hay

05:22.100 --> 05:23.800
bits que giran hacia la izquierda.

05:24.060 --> 05:26.570
La función de puck será exactamente la misma.

05:26.570 --> 05:32.900
Entonces, pueden ver aquí si estamos hablando de las lágrimas de los tramposos, entonces digamos que son los cuatro y

05:32.900 --> 05:36.050
aquí es donde estaban entonces, si estaban un poco girados.

05:36.050 --> 05:38.270
Entonces, por ejemplo, los cuatro terminaron aquí.

05:38.390 --> 05:44.180
Luego, cuando estemos haciendo la agrupación, obtendremos el mismo mapa de características de la piscina y ese

05:44.180 --> 05:46.270
es el principio detrás de esto.

05:46.430 --> 05:52.340
Es una explicación muy aproximada una vez más una explicación intuitiva, pero ese es el

05:52.340 --> 06:00.290
punto de agrupar que todavía podemos preservar las características y, además, tener en cuenta sus posibles distorsiones espaciales o de

06:00.290 --> 06:02.330
textura u otro tipo de distorsiones.

06:02.420 --> 06:07.370
Y, además de todo eso, estamos reduciendo el tamaño, por lo que hay otro beneficio.

06:07.370 --> 06:13.520
en un 75 por ciento, que es enorme, lo que realmente nos ayudará en términos de procesamiento.

06:13.520 --> 06:19.700
Así que tenemos que estamos preservando las características que estamos introduciendo invariantes espaciales, estamos reduciendo el tamaño

06:19.870 --> 06:25.970
Y, además, otro beneficio de la puesta en común es que estamos reduciendo el número de parámetros, por lo que reducimos

06:26.690 --> 06:31.370
nuevamente en un 75% o reducimos el número de parámetros que van a entrar en nuestro

06:31.370 --> 06:35.270
Lares final de la red neuronal y, por lo tanto, evitamos el sobreajuste.

06:35.300 --> 06:42.580
Es un beneficio muy importante de la puesta en común que estamos eliminando información y eso es algo bueno.

06:42.590 --> 06:50.660
de esa forma nuestro modelo no podrá sobreponerse a esa información porque especialmente porque esa información no está bien y recordar que al

06:50.690 --> 06:54.500
principio estamos hablando incluso de humanos como humanos, es importante ver

06:54.950 --> 07:00.650
exactamente las características en lugar de todo este otro ruido que está entrando en nuestros ojos.

07:00.650 --> 07:02.520
Eso es algo bueno porque

07:02.780 --> 07:09.070
Lo mismo ocurre con las redes neuronales, ya que, al ignorar la formación no importante

07:09.080 --> 07:12.470
e innecesaria, estamos ayudando a evitar el sobreajuste.

07:12.500 --> 07:14.590
Así que ahí vamos, de eso se trata la puesta en común.

07:14.600 --> 07:21.500
Y la pregunta aquí es, por supuesto, por qué la agrupación de WiMax tiene muchos tipos diferentes de agrupación y una

07:21.710 --> 07:26.780
gran amplitud de un tamaño demasiado grande de dos por dos píxeles, muchas de estas cosas.

07:26.780 --> 07:33.980
ese sentido me gustaría presentarles este encantador trabajo de investigación llamado evaluación de operaciones de agrupación en

07:33.980 --> 07:40.250
arquitecturas convolucionales para reconocimiento de objetos por Dominic Scherrer de la Universidad de Bonn.

07:40.250 --> 07:41.100
Y en

07:41.180 --> 07:47.540
Existe el vínculo y la belleza de este documento es que es muy simple, muy sencillo. Así que si nunca

07:47.550 --> 07:51.530
ha leído un trabajo de investigación antes de lo que le gustaría probarlo.

07:51.530 --> 07:54.440
Este es un excelente lugar para comenzar, es muy corto.

07:54.440 --> 07:55.400
Solo 10 páginas

07:55.400 --> 07:56.810
Muy fácil de leer.

07:57.080 --> 08:03.170
Y además, el beneficio adicional es que ahora que hemos discutido la convolución y la puesta en común, se

08:03.170 --> 08:07.040
sentirá totalmente cómodo con todo lo que están hablando en este documento.

08:07.100 --> 08:11.880
Esta es una gran manera de reforzar y también recomiendo consultar este documento.

08:11.930 --> 08:18.050
Me tomaré 20 minutos leerlo e incluso puedes saltarte la parte 2, que se llama trabajo relacionado, si te

08:18.050 --> 08:19.880
parece un poco descabellado o alienante.

08:19.880 --> 08:21.230
Simplemente no leas esa parte.

08:21.290 --> 08:23.950
Ir directamente de la parte 1 a la parte 3.

08:24.020 --> 08:29.600
Y una cosa que necesitas saber sobre este documento es que hablan sobre un concepto llamado submuestreo

08:30.360 --> 08:33.230
que es el submuestreo, básicamente, es la acumulación promedio.

08:33.230 --> 08:36.260
Así que recuerda cómo estábamos aquí.

08:36.280 --> 08:37.400
Estamos tomando el máximo.

08:37.400 --> 08:43.250
Entonces, en nuestro enfoque más cuadrado, hay un concepto llamado agrupamiento promedio o algo de extracción, ya

08:43.250 --> 08:48.590
que solo algunos de estos valores generan un promedio de agrupación o media, se toma el

08:48.650 --> 08:53.890
valor promedio de todos estos y el submuestreo es como una generalización de hombres reunidos.

08:53.900 --> 09:00.840
Es un enfoque más generalizado para tomar el promedio de estos valores.

09:00.860 --> 09:05.480
Y puede leer un poco más sobre esto en el periódico, pero de lo contrario solo piense en ello como una acumulación

09:05.480 --> 09:06.620
común cuando está leyendo un documento.

09:06.920 --> 09:11.180
puede obtener información adicional sobre este tema y ahora vamos a resumir dónde hemos llegado.

09:11.210 --> 09:12.310
Y ahí es donde

09:12.320 --> 09:14.440
Entonces ahí está nuestra imagen de entrada.

09:14.870 --> 09:18.960
Luego aplicamos la operación de convolución y llegamos a la conclusión.

09:19.070 --> 09:24.230
Y ahora a cada uno de esos mapas de características que obtenemos. Hemos aplicado el Pullinger.

09:24.260 --> 09:30.590
Así que hemos hecho estos dos pasos de evolución y puesta en común y ahora vamos a hacer

09:30.590 --> 09:32.160
algo muy divertido y emocionante.

09:32.220 --> 09:40.340
esto, así que esta es una captura de pantalla que tomé de una herramienta creada por Adam Harley desde que

09:40.340 --> 09:48.140
estaba en la Universidad Ryerson de informática y ahora está en Carnegie Mellon, creo que está haciendo su página.

09:48.320 --> 09:49.750
Vamos a experimentar con

09:50.060 --> 09:53.150
Y una gran herramienta, así que vamos a abrir, echemos un vistazo.

09:53.270 --> 09:55.780
Para que pueda encontrarlo, puede encontrarlo a través de Google.

09:55.780 --> 09:57.500
Debes conocer tu rol

09:57.500 --> 10:03.790
Es como que es difícil encontrarlo a través de Google porque no hay texto aquí, como lo estuvimos este año.

10:03.930 --> 10:08.350
Veré comenzar el dossier de Reierson y estas cosas.

10:08.510 --> 10:14.820
Y, básicamente, esto es exactamente lo que estamos haciendo, pero visualice. Entonces, aquí tiene que dibujar

10:14.820 --> 10:21.330
un número, digamos que dibujo el número cuatro y esta herramienta colocará el número cuatro aquí.

10:21.340 --> 10:22.960
Esa es tu imagen.

10:22.960 --> 10:26.620
En nuestro primer paso, este es el paso de convolución.

10:26.800 --> 10:27.100
Derecha.

10:27.100 --> 10:30.390
Y este es el paso de puesta en común y también la agrupación por el camino también se llama disminución de muestreo.

10:30.390 --> 10:33.770
Entonces, tirar y bajar la resolución son las mismas cosas.

10:33.930 --> 10:39.190
Entonces puede ver que se trata de convolución aplicada, luego se aplica el agrupamiento y puede ver cómo funciona exactamente.

10:39.190 --> 10:44.290
Puede ver qué tipo de convoluciones ha aplicado o qué tipo de filtros se aplica, cómo

10:44.290 --> 10:45.020
se ven.

10:45.130 --> 10:47.630
Qué características está buscando.

10:47.830 --> 10:53.340
Y luego se aplica la agrupación por lo que se reduce el tamaño y se puede ver aquí que esto es importante.

10:53.380 --> 11:01.090
Entonces puede ver que esta es la imagen convolucionada y esta es la imagen impresa y aún puede ver las

11:01.090 --> 11:05.830
mismas características con solo menos información, pero se conservan las mismas características.

11:05.830 --> 11:08.110
Esa es la parte importante.

11:08.350 --> 11:14.170
Y, además, si usted sabe si los cuatro eran un poco demasiado parecidos a los que giraron un poco hacia un

11:14.170 --> 11:16.960
lado, todavía podría recoger un grupo de Lares muy similar.

11:17.050 --> 11:19.810
Y luego, después de eso, tiene más letras de las que aún no hemos hablado.

11:19.810 --> 11:26.840
Entonces tiene otra guarida convolucional convolucional aquí que en realidad no tendremos.

11:27.130 --> 11:30.730
Y luego tiene otra guarida pobre, pero básicamente está repitiendo el mismo proceso.

11:31.000 --> 11:34.880
Y luego de eso, esto es a lo que vamos a seguir hablando en el curso.

11:34.910 --> 11:37.610
Él tiene a Lares completamente conectado y demás.

11:38.080 --> 11:39.880
Pero definitivamente puedes jugar con eso.

11:39.880 --> 11:47.890
Entonces, si elimino eso, me gustaría que dibujara un 7 y verá que en realidad le dice que la conjetura es una suposición es

11:47.890 --> 11:49.410
que este es un 7.

11:49.570 --> 11:52.850
Y el segundo supongo que la segunda probabilidad es tres.

11:53.050 --> 11:56.440
Para que pueda dibujar algunas cosas desafiantes y ver si puede recogerlas.

11:56.440 --> 12:02.680
Entonces, digamos que si dibujo algo que se parece a un 0 pero no es un 0 terminado, lo levantará esta vez y

12:02.770 --> 12:03.730
no lo recogió.

12:03.730 --> 12:06.190
Parece un 9 a eso a la imagen.

12:06.190 --> 12:08.550
¿Qué pasa si me gusta terminar así?

12:08.560 --> 12:14.430
Así que ahora piensa que es un 0 o un 9 y puedes ver por allí qué está iluminando al 0.

12:14.460 --> 12:16.600
Pero hablaremos de esa parte de la duda.

12:16.720 --> 12:20.030
Haz uno más digamos como 8.

12:20.260 --> 12:23.780
Creo que es bastante difícil para esto ahora recogió un 8.

12:23.800 --> 12:29.590
Entonces puedes ver que entra un 8 y luego, como después de que deje de ser reconocible, las paradas

12:29.590 --> 12:31.570
tienen sentido para nosotros los humanos.

12:31.570 --> 12:32.150
Derecha.

12:32.170 --> 12:34.390
Estas características con las que está trabajando.

12:34.570 --> 12:38.710
Pero al mismo tiempo, está reconociendo correctamente que es un 8.

12:39.100 --> 12:42.540
Así que definitivamente jueguen con eso, pueden dibujar una carita sonriente.

12:42.550 --> 12:43.460
Qué pasa entonces.

12:44.310 --> 12:50.070
Parece una herramienta de tres a esto porque la herramienta está obviamente entrenada solo en dígitos del

12:50.070 --> 12:50.950
0 al nueve.

12:51.120 --> 12:58.530
Así que tiene que reconocer algo que hay y reconocer un tres es como en la vida cuando ves algo como

12:58.530 --> 13:05.700
un tipo de fruta que nunca has visto antes como una chirimoya o algo así y piensas que es como si

13:06.120 --> 13:12.570
fuera una pera porque nunca has visto uno antes de no saber qué clasificar como lo mismo aquí,

13:12.570 --> 13:18.210
así que no se ha entrenado realmente en caras sonrientes y es por eso que cree

13:18.210 --> 13:20.480
que es un árbol como un árbol.

13:20.490 --> 13:25.770
que te será útil para jugar en realidad cuando colocas el mouse sobre un píxel que se mostrará.

13:26.130 --> 13:29.430
Así que ahí lo tienes, es una poderosa herramienta muy poderosa

13:29.430 --> 13:36.930
Le muestra dónde estaba el detector de características para recoger ese píxel para que pueda ver de dónde provienen esos

13:36.930 --> 13:43.170
píxeles y también para que pueda ver cómo el filtro era como pasar por la imagen

13:43.170 --> 13:47.910
exactamente de la forma en que hablamos y, por supuesto, aquí Puedes

13:47.910 --> 13:58.140
ver que puedes ver el agrupamiento. Puedes ver que el tirar se hace al tirar con un pequeño cuadrado de dos por dos y puedes ver que

13:58.200 --> 14:03.730
también es un paso de dos, tal como lo discutimos en el tutorial de hoy.

14:03.960 --> 14:09.240
Así que ve a jugar o juega con eso y espero que hayas disfrutado la sesión de hoy.

14:09.240 --> 14:10.610
Espero verte la próxima vez.

14:10.620 --> 14:12.470
Y hasta entonces disfruta de un aprendizaje profundo.