WEBVTT

00:00.630 --> 00:04.800
Olá e bem-vindo de volta ao curso de aprendizado profundo hoje estamos falando sobre o agrupamento

00:04.800 --> 00:07.380
máximo e nós temos alguns slides muito emocionantes por vir.

00:07.500 --> 00:10.930
E mesmo uma surpresa especial no final do tutorial.

00:11.010 --> 00:12.440
Então vamos começar.

00:12.450 --> 00:15.860
A primeira pergunta é o que é o agrupamento e por que precisamos disso.

00:16.050 --> 00:19.650
Bem, para responder a essa pergunta vamos dar uma olhada nessas imagens nessas imagens.

00:19.650 --> 00:20.780
Temos uma chita.

00:20.790 --> 00:23.680
Na verdade, é a mesma chita exata na primeira imagem.

00:23.680 --> 00:29.640
Essa imagem está posicionada corretamente e que ela está olhando diretamente para você na segunda imagem.

00:29.640 --> 00:30.660
É um pouco girado.

00:30.660 --> 00:32.710
E a terceira imagem um pouco esmagada.

00:32.790 --> 00:40.020
E o que está aqui é que queremos que a rede neural possa reconhecer a chita em cada

00:40.020 --> 00:41.450
uma dessas imagens.

00:41.460 --> 00:43.230
Na verdade, isso é apenas uma chita.

00:43.230 --> 00:45.070
E se nós tivermos muitos atiradores diferentes.

00:45.090 --> 00:46.120
Aqui está uma chita.

00:46.180 --> 00:47.250
Ele é uma chita.

00:47.400 --> 00:53.130
Aqui está outra chita, seu Ashira, sua chita de Ishida e ele é uma chita e queremos que

00:53.130 --> 01:01.110
a rede neural reconheça todos esses atiradores como trapaceiros e como pode fazer isso se todos estiverem olhando em direções diferentes, estão em partes diferentes

01:01.110 --> 01:06.300
da imagem que eles são como se seus rostos estejam posicionados em diferentes partes da imagem,

01:06.300 --> 01:10.080
alguém está no lado direito, alguém no canto esquerdo ou alguém no

01:10.080 --> 01:10.700
meio.

01:11.010 --> 01:14.280
Eles são um pouco diferentes e a textura é um pouco diferente.

01:14.280 --> 01:16.200
A iluminação é um pouco diferente.

01:16.200 --> 01:21.600
Há muitas pequenas diferenças e, portanto, se a rede neural procura exatamente um determinado recurso,

01:21.810 --> 01:29.700
por exemplo, uma característica distintiva da chita, as lágrimas que estão no rosto vão dos olhos ou das sombras de Shadow que

01:29.700 --> 01:35.310
se parecem com lágrimas, a textura de O padrão que vai de seus olhos para baixo

01:35.310 --> 01:40.890
é nos lados do nariz e parece lágrimas, que é uma característica distintiva do Cheetah.

01:40.890 --> 01:48.660
Mas se estiver procurando por essa característica que aprendeu de certas chitas em um local exato ou uma forma

01:48.660 --> 01:53.370
ou forma exata ou textura, ela nunca encontrará esses outros atiradores.

01:53.460 --> 02:01.410
com o nosso convolucional lá, mas não precisa se preocupar se os recursos estejam um pouco inclinados se os recursos forem um

02:01.440 --> 02:10.170
pouco diferentes em textura se os recursos estiverem um pouco mais próximos dos recursos ou um pouco mais separados em relação a relação entre si.

02:10.520 --> 02:16.460
Portanto, temos que nos certificar de que nossa rede neural possui uma propriedade chamada invariância espacial,

02:16.800 --> 02:23.400
o que significa que não se importa onde as características são novamente não são tanto como coceira em

02:23.400 --> 02:29.940
qual parte da imagem, porque nós estamos meio que tomamos isso em consideração com o nosso mapa, somos

02:29.940 --> 02:30.210
pobres

02:30.210 --> 02:37.230
Então, se o recurso em si é um pouco distorcido, nossa rede neural deve ter algum nível de

02:37.410 --> 02:39.930
flexibilidade para poder ainda encontrar esse recurso.

02:40.050 --> 02:42.690
E é disso que se trata o pool.

02:42.690 --> 02:45.140
Então, vamos dar uma olhada em como o pool funciona.

02:45.180 --> 02:51.090
Aqui está o nosso mapa de recursos, então já fizemos nossa convolução e concluímos essa parte e agora estamos

02:51.090 --> 02:52.680
trabalhando com o convolutivo lá.

02:52.680 --> 02:53.880
Agora vamos aplicar o agrupamento.

02:53.880 --> 02:54.690
Então, como isso funciona.

02:54.690 --> 02:56.420
Vamos aplicar o pool de volta.

02:56.670 --> 03:01.640
Existem vários tipos diferentes de jogos que cumprem o agrupamento médio que agrupa um pouco de pool e

03:01.710 --> 03:03.440
comentará sobre o final da história.

03:03.540 --> 03:11.040
superior esquerdo e você encontra o valor máximo nessa caixa e, em seguida, você grava apenas esse valor e ignora os outros três.

03:11.040 --> 03:15.020
Mas, por enquanto, estamos apenas aplicando o pool máximo, então nós levamos uma

03:15.030 --> 03:21.900
caixa de dois por dois pixels assim e, novamente, não precisa ser dois por dois, você pode escolher qualquer tamanho de caixa

03:21.900 --> 03:26.310
e novamente irá comentar sobre isso e é Tauriel e você colocá-lo no canto

03:26.310 --> 03:30.600
Então, na sua caixa, você tem quatro valores que você apenas ignora três, você só mantém um o máximo

03:30.600 --> 03:31.830
que é um neste caso.

03:31.830 --> 03:36.210
Então você move sua caixa para a direita por stride, você seleciona o passo mais uma vez.

03:36.210 --> 03:41.850
Então, aqui deslizamos o passo de dois e é o que você normalmente amava, você pode dizer como o passo de um

03:41.850 --> 03:42.880
que você pode selecionar.

03:42.990 --> 03:47.940
Então, há caixas sobrepostas que você pode selecionar qualquer tipo de ataque que você gosta, mesmo que três, se quiser,

03:48.770 --> 03:52.440
mas estamos selecionando um passo de dois aqui e é o que é comumente usado.

03:52.470 --> 03:57.660
E então você repete repetir o processo que você grava essa máxima aqui se você atravessar e não importa

03:57.660 --> 04:00.080
que você continue continuar fazendo o que está fazendo.

04:00.090 --> 04:05.690
Então você ainda grava o máximo aqui 0 aqui o máximo é quatro.

04:05.700 --> 04:11.380
Aqui estão os máximos até aqui o máximo é 1 0 1 ou 2 e depois 1.

04:11.400 --> 04:13.970
Então, como você pode ver algumas coisas aconteceram.

04:13.980 --> 04:18.890
Antes de tudo, ainda conseguimos preservar os recursos corretamente.

04:19.080 --> 04:23.730
Os números máximos que representam, porque sabemos como a conclusão de Lehre funciona.

04:23.730 --> 04:28.650
Sabemos que os números máximos ou grandes em seu mapa de recursos representam onde você

04:28.650 --> 04:31.480
realmente encontrou a similaridade mais próxima de um recurso.

04:31.650 --> 04:38.250
Mas, em seguida, juntando esses recursos, estamos em primeiro lugar a livrar-se de 75 por cento

04:38.250 --> 04:46.110
das informações que não é o recurso que é o que não é o importante que estamos procurando porque

04:46.220 --> 04:49.410
somos realmente três pixels de quatro .

04:49.710 --> 04:51.510
Então ficamos com apenas 25%.

04:51.510 --> 05:00.260
tomando o máximo de pixels que nós ou os valores que temos temos, portanto, contabilizamos qualquer distorção.

05:00.770 --> 05:04.160
E e também porque nós estamos

05:04.160 --> 05:12.810
Então, por exemplo, duas imagens em que, por exemplo, as lágrimas dos trapaceiros nos olhos estão em uma imagem, um pouco para a esquerda ou

05:12.830 --> 05:16.550
um pouco girado para a esquerda e outro lá um pouco.

05:16.580 --> 05:22.100
E é como eles deveriam ser ou como nós gostamos se você tomar uma como base e outra,

05:22.100 --> 05:23.800
há bits rodam para a esquerda.

05:24.060 --> 05:26.570
O poderoso recurso será exatamente o mesmo.

05:26.570 --> 05:32.900
Então, você pode ver aqui se estamos falando sobre as lágrimas do trapaceiro, então digamos que este é o quatro e

05:32.900 --> 05:36.050
aqui é onde estava aqui, se fosse um pouco girado.

05:36.050 --> 05:38.270
Então, por exemplo, os quatro acabaram por aqui.

05:38.390 --> 05:44.180
Então, quando estivermos fazendo o pooling, ainda vamos conseguir o mesmo mapa de recursos do pool e

05:44.180 --> 05:46.270
esse é o princípio do princípio.

05:46.430 --> 05:52.340
É uma explicação muito áspera novamente uma explicação intuitiva, mas é o ponto

05:52.340 --> 06:00.290
de reunir que ainda podemos preservar as características e, além disso, explicar o possível distorção espacial ou textural

06:00.290 --> 06:02.330
ou de outra natureza.

06:02.420 --> 06:07.370
E além de tudo isso, estamos reduzindo o tamanho, então há outro benefício.

06:07.370 --> 06:13.520
em 75%, o que é enorme, o que realmente nos ajudará em termos de processamento.

06:13.520 --> 06:19.700
Então, nós temos que preservar os recursos que estamos introduzindo invariantes espaciais, estamos reduzindo o tamanho

06:19.870 --> 06:25.970
E, além disso, outro benefício do agrupamento é que estamos reduzindo o número de parâmetros, de modo que

06:26.690 --> 06:31.370
estamos reduzindo novamente em 75% ou reduzindo o número de parâmetros que entrarão em

06:31.370 --> 06:35.270
nossos Lares finais da rede neural e, portanto, estamos impedindo a superposição.

06:35.300 --> 06:42.580
É um benefício muito importante de se juntar que estamos removendo informações e isso é uma coisa boa.

06:42.590 --> 06:50.660
dessa forma, nosso modelo não será capaz de se encaixar mais nessas informações porque, especialmente porque essa informação não está bem e lembre-se, como

06:50.690 --> 06:54.500
no começo, estamos falando, mesmo para seres humanos, como humanos, é importante

06:54.950 --> 07:00.650
ver exatamente os recursos em vez de todo esse outro ruído que está entrando em nossos olhos.

07:00.650 --> 07:02.520
Isso é uma coisa boa porque,

07:02.780 --> 07:09.070
Bem, o mesmo para as redes neurais, ao ignorar a formação desnecessária não importante

07:09.080 --> 07:12.470
que estamos ajudando na prevenção da superposição.

07:12.500 --> 07:14.590
Então, vamos lá, é disso que se trata o pooling.

07:14.600 --> 07:21.500
E a questão aqui é, naturalmente, por que o WiMax agrupando-se, há muitos tipos diferentes de agrupamento e um largo passo

07:21.710 --> 07:26.780
largo de um tamanho muito grande de dois por dois pixels de todas essas coisas.

07:26.780 --> 07:33.980
essa nota, gostaria de apresentar-lhe este adorável documento de pesquisa chamado avaliação de operações de agrupamento em

07:33.980 --> 07:40.250
arquiteturas convolutivas para o reconhecimento de objetos por Dominic Scherrer da Universidade de Bonn.

07:40.250 --> 07:41.100
E com

07:41.180 --> 07:47.540
Há o link e a beleza sobre este artigo é que é muito simples muito simples. Então, se você nunca leu

07:47.550 --> 07:51.530
um trabalho de pesquisa antes do que você gostaria de dar uma chance.

07:51.530 --> 07:54.440
Este é um ótimo lugar para começar, é muito curto.

07:54.440 --> 07:55.400
Apenas 10 páginas.

07:55.400 --> 07:56.810
Muito fácil de ler.

07:57.080 --> 08:03.170
E mais o benefício extra é que, agora que discutimos a convolução e o agrupamento, você ficará totalmente à

08:03.170 --> 08:07.040
vontade com tudo o que eles estão falando neste artigo em você.

08:07.100 --> 08:11.880
Esta é uma ótima maneira de realmente reforçar e também recomendo verificar este documento.

08:11.930 --> 08:18.050
Vou demorar 20 minutos para lê-lo e você pode saltar a parte 2, que é chamado de trabalho relacionado se

08:18.050 --> 08:19.880
parecer um pouco distorcido ou alienante.

08:19.880 --> 08:21.230
Apenas não leia essa parte.

08:21.290 --> 08:23.950
Vá diretamente da parte 1 para a parte 3.

08:24.020 --> 08:29.600
E uma coisa que você precisa saber sobre este artigo, eles falam sobre um conceito chamado subamostragem que

08:30.360 --> 08:33.230
é uma submissão em amostragem, basicamente, é um pool comum.

08:33.230 --> 08:36.260
Então lembre-se de como nós estávamos tomando.

08:36.280 --> 08:37.400
Nós estamos tomando o máximo.

08:37.400 --> 08:43.250
Então, em nosso quadrante, assumindo o valor máximo, existe um conceito chamado de agrupamento médio ou algum puxando puxando

08:43.250 --> 08:48.590
como você apenas alguns desses valores até o agrupamento médio ou o agrupamento médio você tira o

08:48.650 --> 08:53.890
valor médio de todos estes e a subamostragem é como uma generalização de homens em pool.

08:53.900 --> 09:00.840
É uma abordagem mais generalizada de tomar a média desses valores.

09:00.860 --> 09:05.480
E você pode ler um pouco mais sobre o papel, mas simplesmente pense nisso como agrupamento médio quando

09:05.480 --> 09:06.620
você está lendo um documento.

09:06.920 --> 09:11.180
você pode obter algumas informações adicionais sobre este tópico e agora tipo de vamos recapitular onde conseguimos.

09:11.210 --> 09:12.310
E é por isso que

09:12.320 --> 09:14.440
Então, há nossa imagem de entrada.

09:14.870 --> 09:18.960
Então, aplicamos a operação de convolução e chegamos à conclusão.

09:19.070 --> 09:24.230
E agora, para cada um dos mapas de recursos que recebemos, aplicamos o Pullinger.

09:24.260 --> 09:30.590
Então, nós fizemos essas duas etapas de evolução e agrupamento e agora vamos fazer algo

09:30.590 --> 09:32.160
muito divertido, algo excitante.

09:32.220 --> 09:40.340
isso, então esta é uma captura de tela que tirei de uma ferramenta criada por Adam Harley desde o início da época em

09:40.340 --> 09:48.140
que ele estava na Ryerson University of computer science e agora ele está no Carnegie Mellon. Eu acho que está fazendo sua página.

09:48.320 --> 09:49.750
Nós vamos experimentar com

09:50.060 --> 09:53.150
E uma ótima ferramenta, então vamos abrir, vamos dar uma olhada.

09:53.270 --> 09:55.780
Então, você pode encontrá-lo, você pode encontrá-lo através do Google.

09:55.780 --> 09:57.500
Você deve conhecer seu papel.

09:57.500 --> 10:03.790
É como é difícil encontrá-lo através do Google porque não há texto aqui como estávamos apenas este ano.

10:03.930 --> 10:08.350
Vou ver o dossiê de Reierson e isso.

10:08.510 --> 10:14.820
E, basicamente, isso é exatamente o que estamos fazendo, mas visualize. Então, aqui você precisa desenhar

10:14.820 --> 10:21.330
um número, então diga que desenhe o número quatro e essa ferramenta colocará o número quatro aqui.

10:21.340 --> 10:22.960
Essa é a sua imagem.

10:22.960 --> 10:26.620
Em nosso primeiro passo, este é o passo de convolução.

10:26.800 --> 10:27.100
Certo.

10:27.100 --> 10:30.390
E este é o passo de pool e também o pool por nós também é chamado downsampling.

10:30.390 --> 10:33.770
Então, puxar e baixar as coisas são as mesmas coisas.

10:33.930 --> 10:39.190
Então, você pode ver a convolução aplicada, então ela é aplicada em conjunto e você pode ver como isso funciona exatamente.

10:39.190 --> 10:44.290
Você pode ver que tipo de convoluções que aplicou ou que tipo de filtros é aplicado como

10:44.290 --> 10:45.020
eles se parecem.

10:45.130 --> 10:47.630
O que os recursos estão procurando.

10:47.830 --> 10:53.340
E então é aplicado o agrupamento por isso está reduzindo o tamanho e você pode ver aqui que isso é importante.

10:53.380 --> 11:01.090
Então, você pode ver que esta é a imagem convolvida e esta é a imagem vomitada e você ainda pode ver

11:01.090 --> 11:05.830
os mesmos recursos é apenas menos informações, mas os mesmos recursos são preservados.

11:05.830 --> 11:08.110
Essa é a parte importante.

11:08.350 --> 11:14.170
E, além disso, se você sabe se todos os quatro eram um pouco semelhantes, como girados um pouco para o lado,

11:14.170 --> 11:16.960
ainda seria capaz de pegar Lares, um parceiro muito parecido.

11:17.050 --> 11:19.810
E então, depois disso, tem mais cartas que ainda não falamos sobre isso.

11:19.810 --> 11:26.840
Então, ele tem outro convolucional um covil convolucional aqui que na verdade não teremos.

11:27.130 --> 11:30.730
E então ele tem outro covil pobre, mas ele basicamente apenas está repetindo o mesmo processo.

11:31.000 --> 11:34.880
E, depois disso, é isso que vamos falar ainda mais no curso.

11:34.910 --> 11:37.610
Ele tem os Lares totalmente conectados e assim por diante.

11:38.080 --> 11:39.880
Mas você definitivamente pode brincar com isso.

11:39.880 --> 11:47.890
Então, se eu excluir que você gosta, se eu desenhar um 7, você verá que ele realmente diz que o palpite é um palpite é

11:47.890 --> 11:49.410
que este é um 7.

11:49.570 --> 11:52.850
E a segunda hipótese, a segunda probabilidade é de três.

11:53.050 --> 11:56.440
Então, você pode desenhar algumas coisas desafiadoras e ver se pode pegá-las.

11:56.440 --> 12:02.680
Então, digamos, se eu desenhar algo que pareça com um 0, mas não é um final de ano, ele o pegará,

12:02.770 --> 12:03.730
não o pegou.

12:03.730 --> 12:06.190
Parece um 9 para isso para a imagem.

12:06.190 --> 12:08.550
E se eu gostar de terminar assim.

12:08.560 --> 12:14.430
Então, agora ele acha que é um 0 ou um 9 e você pode ver lá o que está acendendo o 0.

12:14.460 --> 12:16.600
Mas falaremos sobre essa parte para a dúvida.

12:16.720 --> 12:20.030
Mais uma vez, digamos como 8.

12:20.260 --> 12:23.780
Eu acho que é muito difícil para isso agora pegar um 8.

12:23.800 --> 12:29.590
Então você pode ver que isso vai para um 8 e, depois, depois, deixa de ser reconhecível, as

12:29.590 --> 12:31.570
paradas fazem sentido para nós humanos.

12:31.570 --> 12:32.150
Certo.

12:32.170 --> 12:34.390
Esses recursos com os quais está trabalhando.

12:34.570 --> 12:38.710
Mas, ao mesmo tempo, está reconhecendo corretamente que é um 8.

12:39.100 --> 12:42.540
Então, definitivamente brinque com isso, você pode desenhar um rosto sorridente.

12:42.550 --> 12:43.460
O que acontece depois.

12:44.310 --> 12:50.070
Parece um desses para esta ferramenta porque a ferramenta é obviamente treinada apenas em dígitos de

12:50.070 --> 12:50.950
0 a nove.

12:51.120 --> 12:58.530
Então, tem que reconhecer que há aqueles e reconhece um três é como na vida quando você vê algo como um

12:58.530 --> 13:05.700
tipo de fruta que você nunca viu antes como uma maçã ou algo assim e você acha que é como se

13:06.120 --> 13:12.570
fosse um perca porque você nunca viu um antes que você não soubesse o que classificá-lo como o

13:12.570 --> 13:18.210
mesmo aqui, então ele realmente não treinou em caras sorridentes e é por isso que pensa

13:18.210 --> 13:20.480
que é uma árvore como uma árvore.

13:20.490 --> 13:25.770
você jogar em torno dele, na verdade, quando você colocar o mouse sobre um pixel de pixel que irá mostrar.

13:26.130 --> 13:29.430
Então, você vai, é uma ferramenta poderosa e poderosa, será útil para

13:29.430 --> 13:36.930
Isso mostra onde o detector de recursos foi para pegar esse pixel para que você possa ver de onde esses pixels

13:36.930 --> 13:43.170
estão vindo e também para que você possa ver como o filtro era meio como passar pela

13:43.170 --> 13:47.910
imagem exatamente sobre o que conversamos e, claro, e aqui você pode ver

13:47.910 --> 13:58.140
que você pode ver o agrupamento, você pode ver que a puxar é feita com o puxar é feito com um pequeno tamanho quadrado de dois por dois e

13:58.200 --> 14:03.730
você pode ver que é um passo de dois, assim como discutimos no tutorial de hoje.

14:03.960 --> 14:09.240
Então, vá jogar ou brinde com isso e espero que você tenha gostado da sessão de hoje.

14:09.240 --> 14:10.610
Estou ansioso para vê-lo na próxima vez.

14:10.620 --> 14:12.470
E até então aproveite o aprendizado profundo.