WEBVTT

00:00.690 --> 00:05.730
Olá e bem-vindo de volta ao curso sobre aprendizado profundo na imprensa, o Tauriel descobrimos o que

00:05.810 --> 00:07.290
são as redes neurais convolutivas.

00:07.350 --> 00:11.050
E hoje vamos mergulhar na convolução da Etapa 1.

00:11.100 --> 00:18.530
Então, esta é a função de convolução e tentamos nos afastar da matemática e manter as coisas intuitivas.

00:18.540 --> 00:25.110
eu não pude deixar de compartilhar essa fórmula para você, porque é tão simples que uma convolução é basicamente

00:25.110 --> 00:31.380
uma integração combinada das duas funções e mostra como uma função modifica a outra ou modifica a forma

00:31.470 --> 00:36.520
do outro e se você tiver fez qualquer processamento de sinal ou engenharia elétrica ou

00:36.520 --> 00:42.030
uma profissão onde o processamento de sinal é necessário, você teria inevitavelmente encontrado uma função de conclusão.

00:42.030 --> 00:42.390
Mas

00:42.390 --> 00:44.090
É bastante popular agora.

00:44.100 --> 00:49.490
Mais uma vez, vamos manter as luzes matemáticas ou mantê-las separadas.

00:49.500 --> 00:56.190
E se você quiser entrar na matemática por trás das redes neurais convolutivas, uma excelente

00:56.520 --> 01:05.010
leitura adicional é Introdução às redes neurais convolutivas por Jensine Wu, que é professora na Universidade de Nanjing na

01:05.010 --> 01:05.820
China.

01:05.820 --> 01:12.780
orientado especificamente para as pessoas que estão começando em iniciantes que estão conhecendo as redes neurais convolutivas, de modo que

01:12.780 --> 01:17.690
a matemática deve ser acessível, de fato, enviada por correio eletrônico ao Professor Johnson.

01:18.250 --> 01:23.700
Este artigo foi publicado literalmente dias atrás, como cinco ou seis dias atrás, e está

01:23.730 --> 01:32.040
E sim, ele disse que seu objetivo é fazer ou quebrar as coisas complexas para que as pessoas que são novas neste

01:32.040 --> 01:33.360
campo possam entender.

01:33.360 --> 01:40.680
E também ele mencionou que ele tem alguns materiais disponíveis em sua página inicial, então, se você mesmo, se você simplesmente remover as duas últimas

01:40.680 --> 01:47.220
partes e você simplesmente vai como Slash W. J. e você poderá encontrar mais tutoriais e

01:47.220 --> 01:52.380
materiais adicionais que não foram publicados como papéis, mas ele os usa em seus tutoriais para

01:52.380 --> 01:59.120
que você possa encontrar aqueles úteis para navegar por aí se você ' Gostaria de ter uma introdução na matemática

01:59.130 --> 02:05.130
por trás de redes neurais de coalizão e tipo de construir uma base sólida em torno dessa área.

02:05.130 --> 02:08.470
X para a parte que é a sua página inicial

02:08.550 --> 02:12.570
Mas vamos seguir em frente e vamos falar sobre a convolução.

02:12.570 --> 02:17.160
Então, qual é uma boa solução em termos intuitivos aqui à esquerda.

02:17.160 --> 02:21.690
Nós temos uma imagem de entrada à medida que discutimos, é assim que vamos ver imagens apenas e zeros

02:21.690 --> 02:22.750
para simplificar as coisas.

02:22.950 --> 02:25.050
E você pode ver o rosto sorridente lá.

02:25.090 --> 02:28.660
Então, temos um detector de recursos para que os detectores de recursos sejam três ou três Matrix.

02:28.740 --> 02:30.120
Tem que ser três por três.

02:30.150 --> 02:31.920
Não, não.

02:31.920 --> 02:35.810
Alex net, eu acho que usa sete por sete.

02:35.850 --> 02:41.640
E então, algum outro desses outros famosos usa como cinco por cinco detectores de recursos.

02:41.640 --> 02:48.270
Eles podem ser diferentes, mas geralmente você verá que eles são três por três e eles sabem os motivos para

02:48.270 --> 02:52.110
fazê-los três por três, então vamos ficar com a maneira convencional.

02:52.170 --> 02:57.510
Ter um detector de recursos três por três também os detectores de recursos chamados estes são termos importantes

02:57.510 --> 02:58.710
porque você pode encontrá-los.

02:58.710 --> 03:04.080
ou o Eik pode ouvi-lo ser chamado de kernel ou você pode ouvi-lo ser chamado de Filtro.

03:04.110 --> 03:09.540
Existem muitos termos diferentes para o detector de recursos, mas os mais comuns são o detector de recursos

03:09.540 --> 03:14.760
Então, neste curso, vamos usar o filtro ou um detector de recursos de

03:14.760 --> 03:23.670
forma intercambiável, mas basta ter em mente que esses nomes e uma operação de coalizão são significados por um X em um círculo.

03:23.670 --> 03:31.230
Assim como você viu nas fórmulas anteriores e aqui, o que acontece é em um nível intuitivo ou apenas pense nisso em termos do

03:31.230 --> 03:34.980
que realmente está acontecendo no plano de fundo ao invés da matemática.

03:35.010 --> 03:40.740
Bem, você tira esse detector de recurso ou filtro e coloca-o em sua imagem como você vê à esquerda.

03:40.740 --> 03:48.120
assim o valor, de modo que o top 0 pelo valor superior esquerdo pelo valor superior esquerdo, basicamente, é na

03:48.450 --> 03:58.760
posição de um 1 por posição cerca de 1 1 número de posição ou 0 1 0 1 0 2 por 0 2 e assim por diante.

03:58.780 --> 04:04.980
Então, você cobre o exemplo, neste caso, no canto superior esquerdo, os nove pixels no canto

04:05.090 --> 04:08.670
superior esquerdo e, basicamente, multiplique cada um valor valioso, respeitando

04:08.670 --> 04:13.410
Portanto, é uma multiplicação de elementos nessas matrizes.

04:13.410 --> 04:14.460
E então, você adiciona o resultado.

04:14.460 --> 04:20.010
Então, neste caso, nada corresponde, então é sempre 0 por 0 0 ou por 1.

04:20.010 --> 04:21.280
Então, o resultado é zero.

04:21.530 --> 04:26.610
E aqui você pode ver que um deles coincidiu com um à esquerda combinado.

04:26.610 --> 04:28.120
E, portanto, temos um 1 aqui.

04:28.120 --> 04:30.820
Nada combinou nada combinado com nada combinado.

04:30.890 --> 04:38.100
Em seguida, avançamos para a próxima jogada e passo para o qual estamos movendo esse filtro inteiro é chamado de

04:38.100 --> 04:38.610
passo.

04:38.610 --> 04:40.570
Então, aqui temos um passo de um pixel.

04:40.680 --> 04:45.820
Aqui você pode ver novamente algo correspondente no canto inferior direito combinado contra stride, mas um

04:46.110 --> 04:50.850
inferior no meio combinado aqui, o lado superior direito, combina a medida de nada.

04:50.970 --> 04:52.040
O passo é um.

04:52.170 --> 04:53.930
Você pode mudar o passo.

04:54.330 --> 04:56.260
Você pode fazer um dois.

04:56.340 --> 04:58.580
Você terá três o que quiser.

04:58.830 --> 05:02.770
Eventualmente, o que funciona bem é geralmente ou dois.

05:02.800 --> 05:04.280
Então, é isso que as pessoas seguem.

05:04.600 --> 05:09.480
E vamos conversar sobre o que é o passo para o final deste tutorial.

05:09.520 --> 05:14.170
Então, aqui temos, então estamos combinando absolutamente quando ouvi, você pode ver que temos

05:14.170 --> 05:17.270
dois, porque dois deles são compatíveis e assim por diante.

05:17.290 --> 05:24.830
Então, lá, vamos lá, há outro que combinou lá, nós vamos e acabamos.

05:24.830 --> 05:27.770
Então, o que criamos?

05:27.800 --> 05:28.600
Certo.

05:28.820 --> 05:31.860
Um par de coisas importantes aqui.

05:31.970 --> 05:38.240
A imagem à direita é chamada de um mapa de recursos também tem vários termos que também pode ser chamado às

05:38.870 --> 05:40.530
vezes ele pode recurso Vold.

05:41.000 --> 05:46.280
Então, em seu blog e operador de operação volution para algo que não se torna complicado,

05:46.280 --> 05:53.680
torna-se convolvido e às vezes, como eu penso em mim mesmo no caminho errado, mas é o termo correto é convolvido é uma

05:53.700 --> 05:57.900
espécie de recurso antigo ou pode também seja chamado de mapa de ativação.

05:58.040 --> 06:02.510
Mas vamos chamá-lo de um mapa de recursos neste curso para que possa ser chamado

06:03.500 --> 06:06.300
de qualquer uma dessas coisas e o que fizemos aqui.

06:06.320 --> 06:09.910
Bem, como você pode ver, reduzimos o tamanho da imagem.

06:09.920 --> 06:15.500
Esse é o número um e isso é o importante que eu queria mencionar sobre sua imagem de entrada e o

06:15.500 --> 06:17.090
texto da característica e o passo.

06:17.240 --> 06:21.690
Se você tiver um passo de um, você pode ver a imagem reduzida um pouco, mas se

06:21.690 --> 06:25.410
você tiver um direito à imagem vai produzir mais, então o recurso será ainda menor.

06:25.610 --> 06:33.950
convolução é tornar a imagem mais pequena, pois será mais fácil processá-la e será mais rápido.

06:33.950 --> 06:42.100
E essa é uma função muito importante do detector de recursos de todo este passo de

06:42.110 --> 06:51.830
Será e você será apenas adotivo, porque imagine como aqui, temos uma imagem de sete por sete, mas

06:51.860 --> 06:55.310
imagine se você tem uma foto adequada.

06:55.700 --> 07:02.270
Ou se você tiver uma imagem de 256º em 56 pixels, é uma grande quantidade de pixels, se eu

07:02.900 --> 07:06.940
for x quadrado ou diga que você tem 300, mas 300 pixels.

07:07.060 --> 07:13.400
Então, não nos confundimos com a R. G. B 256 tem que dizer que temos uma imagem 300 por

07:13.400 --> 07:14.720
300 em termos de tamanho e pixels.

07:14.780 --> 07:22.640
enorme e, portanto, os detectores de recursos reduzirão o tamanho da imagem e, portanto, o passo de dois é realmente benéfico.

07:23.360 --> 07:27.580
Então você tem 300 números quadrados de pixels que é um número

07:27.740 --> 07:29.970
Mas, então, a questão é que perdemos informações.

07:29.990 --> 07:34.520
Estamos perdendo informações quando estamos aplicando o detector de recursos.

07:34.520 --> 07:40.580
Bem, algumas informações estamos perdendo, claro, porque temos menos valores e da matriz resultante.

07:40.700 --> 07:45.950
Mas, ao mesmo tempo, o objetivo do detector de recursos é detectar determinados recursos de

07:45.950 --> 07:48.170
certas partes da imagem que são integrantes.

07:48.620 --> 07:53.150
E, por exemplo, se você pensa sobre isso, como o detector de recursos tem

07:53.150 --> 07:54.080
um certo padrão.

07:54.080 --> 07:57.950
O número mais alto no seu mapa de recursos é quando esse padrão corresponde.

07:57.950 --> 08:04.820
Na verdade, o número mais alto que você pode obter é um exemplo simplificado é quando o recurso é que ele

08:04.820 --> 08:10.550
corresponde exatamente e você pode ver o número quatro que temos no nosso mapa de recursos exatamente.

08:10.550 --> 08:16.910
Então, se você olhar para aqui, é exatamente aonde este detector de recursos, porque há apenas quatro

08:16.910 --> 08:21.460
e isso corresponde perfeitamente para que você possa ver essa parte aqui.

08:21.470 --> 08:23.220
Então, o recurso foi detectado aqui.

08:23.450 --> 08:32.340
E como discutimos no início desta seção que apresenta é como vemos as coisas como a

08:32.430 --> 08:33.080
reconhecemos.

08:33.090 --> 08:40.410
Nós não olhamos para cada pixel, por assim dizer, no que vemos em uma imagem ou na vida real.

08:40.410 --> 08:46.440
Nós não olhamos para todas as imagens que olhamos para as características que olhamos para o nariz,

08:47.070 --> 08:55.110
os chapéus apontam os olhos sob as pequenas marcas negras sob os olhos da chita para distinguir entre uma chita e um

08:55.110 --> 08:57.470
leopardo ou a forma do trem.

08:57.480 --> 09:02.610
Nós não distinguimos entre um trem de bala e um comboio normal e assim por diante, para que não vejamos tudo

09:02.610 --> 09:08.110
que olhamos para os recursos e é isso que estamos preservando e é isso que o mapa de recursos nos ajuda a preservar.

09:08.110 --> 09:15.480
Na verdade, isso é o que isso nos permite avançar e livrar-se de todas as coisas desnecessárias que,

09:15.570 --> 09:22.740
mesmo que humanos, não processamos tanta informação em seus olhos que em qualquer momento como gigabytes de informações

09:22.740 --> 09:28.680
se você olhar para cada ponto se não terabytes de informação entrar em seus olhos

09:28.680 --> 09:35.640
por segundo e ainda podemos prosseguir porque nos livramos do que é desnecessário, apenas se concentra nos

09:35.640 --> 09:41.510
recursos importantes que são importantes para nós e é exatamente isso que o recurso

09:41.640 --> 09:42.270
faz.

09:42.270 --> 09:51.030
Então, agora, movendo-se sobre isso, é a nossa imagem de entrada e você criou um mapa de recursos para que a frente diga que a frente é a que

09:51.030 --> 09:54.300
acabamos de criar, mas então, como é que há muitos deles.

09:54.300 --> 10:00.300
Mas criamos múltiplos mapas de recursos porque usamos filtros diferentes.

10:00.300 --> 10:00.590
Certo.

10:00.630 --> 10:05.430
E essa é outra maneira de preservar muitas informações, de modo que não temos

10:05.880 --> 10:12.600
apenas um mapa de recursos, procuramos determinados recursos e, em seguida, ou basicamente a rede decide através do treinamento

10:12.600 --> 10:18.030
e é algo que discutiremos no final da seção Através de seu treinamento, ele decide quais

10:18.120 --> 10:23.670
recursos são importantes para certos tipos ou certas categorias e procura por eles e, portanto, terão

10:23.670 --> 10:26.070
diferentes filtros e falaremos sobre filtros agora.

10:26.160 --> 10:32.280
Mas, basicamente, eu aplico esses filtros para obter esse mapa de recursos que aplicou um filtro como o que vimos, mas, em seguida,

10:32.280 --> 10:36.270
para obter esse recurso, o Mabbett aplica um filtro diferente para obter esse recurso, aplique

10:36.270 --> 10:38.080
um filtro diferente e assim por diante.

10:38.370 --> 10:43.430
E, basicamente, ele apenas cria esses mapas de recursos.

10:43.650 --> 10:49.700
E, na verdade, é por isso que, pessoalmente, acho que o termo detector de recursos é melhor do que os filtros.

10:49.710 --> 10:56.040
Lembre-se que estamos aqui, temos esse filtro que também podemos chamar um detector de recursos. Bem, na verdade, o detector

10:56.040 --> 10:59.440
de características de palavras, eu acho que é mais adequado.

10:59.490 --> 11:03.390
E o motivo disso é que é isso que o propósito é certo.

11:03.390 --> 11:06.510
Nós não queremos que simplesmente não desejemos apenas filtrar nossa imagem.

11:06.510 --> 11:10.220
Mas, mesmo assim, é um todo que é o mesmo, apenas uma questão de terminologia.

11:10.230 --> 11:11.990
Mas, basicamente, queremos detectar recursos.

11:12.000 --> 11:12.270
Tudo bem.

11:12.270 --> 11:19.680
Neste neste lagarro, nós vamos ao nosso próprio mapa de recursos que detectamos onde determinados recursos estão na imagem e esse

11:19.800 --> 11:24.240
mapa de recursos que detectamos onde certos outros recursos são onde um determinado

11:24.240 --> 11:30.350
recurso específico está localizado e este mapa de recursos será detectado onde um determinado outro recurso está

11:30.350 --> 11:31.420
localizado na imagem.

11:31.440 --> 11:33.420
Então é isso que estamos fazendo.

11:33.420 --> 11:40.470
E ouça, temos alguns exemplos. Então, aqui estamos usando e isso é de Gip dot org.

11:40.610 --> 11:48.690
é um tipo de ferramenta livre como a pintura e você pode usá-la para ajustar suas imagens ou trabalhar com suas imagens.

11:48.690 --> 11:49.550
Sua documentação

11:49.560 --> 11:56.490
Mas, basicamente, eles têm alguns exemplos valiosos em sua documentação e aqui eles têm uma foto do Taj Mahal

11:56.490 --> 11:59.790
e você pode escolher qual filtro você deseja aplicar.

11:59.880 --> 12:06.150
Então, se você baixar este programa e você carrega uma foto nele e então você pode realmente iniciar uma

12:06.150 --> 12:12.600
matriz de conversão e aplicar filtros e você verá que essas coisas essas matrizes inglesas realmente aplicadas no processamento

12:12.600 --> 12:15.240
e design de imagens e assim por diante.

12:15.240 --> 12:17.150
Então, vamos dar uma olhada no que recebemos o que obtemos.

12:17.240 --> 12:21.520
Então, se aplicarmos este filtro cinco no meio menos um é um é um menos um.

12:21.690 --> 12:23.780
Você pode ver que afila a imagem.

12:23.890 --> 12:29.010
E isso é muito intuitivo se você pensa nisso.

12:29.010 --> 12:36.300
Então, 5 é o pixel do pixel principal como no meio do filtro ou o detector de recursos e, em

12:36.600 --> 12:43.410
seguida, menos um menos um, apenas um tipo de como reduz os pixels em torno do a em um

12:44.430 --> 12:45.000
sentido intuitivo.

12:46.170 --> 12:47.020
Então, borra.

12:47.040 --> 12:54.150
Então, basicamente, leva igual importância dá igual significado para todos os pixels são todos no

12:54.150 --> 12:59.070
centro e, portanto, combina-los e você obtém uma vantagem de desfocagem.

12:59.070 --> 13:03.860
Então, aqui, você pode ver que é menos um e um e depois você obtém zeros à direita.

13:03.870 --> 13:11.100
Então, você excluiu para remover os pixels em torno do principal no meio e você apenas mantém esse em um menos e isso

13:11.100 --> 13:15.610
lhe dá uma vantagem e isso foi um pouco difícil de entender como isso funciona.

13:16.290 --> 13:20.700
Como provavelmente mais difícil apenas pensar nisso, intuitivamente, detecção de borda.

13:20.700 --> 13:23.340
Certo, então este provavelmente faz mais sentido.

13:23.340 --> 13:25.860
Direito você leva-os um meio.

13:25.850 --> 13:28.880
Você reduz o meio.

13:29.050 --> 13:36.180
Provavelmente, gosta da força do pixel do meio e então você procura os que você procura.

13:36.420 --> 13:41.980
Aqueles que você vê aumentam a força dos que os rodeiam.

13:42.090 --> 13:43.910
Então você tem aqueles lá.

13:44.720 --> 13:45.610
Sim isso.

13:45.690 --> 13:50.700
Isso lhe dá uma vantagem e você pode ver o que você chegar lá e patrocinar outro.

13:50.700 --> 13:58.130
Então, a chave aqui é que é simétrico e você pode ver a imagem se torna assimétrica,

13:58.140 --> 14:03.580
então você conseguiu esse tipo de sentimento que está se destacando para você.

14:03.840 --> 14:08.910
isso é o que você obtém quando você tem desvios aqui e mais aqui novamente isso é muito, isso está ficando

14:08.970 --> 14:13.860
um pouco técnico agora, mas pelo menos podemos obter algum tipo de intuitivo e Lissa vai rapidamente por eles novamente.

14:13.860 --> 14:14.160
E

14:14.160 --> 14:21.480
Então, há aguçar que há borrão, há mãos de Edgin, há uma vantagem para detectar que há e chefe, assim como

14:21.480 --> 14:27.350
você pode ver que estes são ótimos exemplos da mesma imagem, mas estamos recebendo mapas de recursos.

14:27.360 --> 14:32.430
Então, usamos diferentes detectores de recursos para obter mapas de recursos diferentes

14:32.430 --> 14:40.380
da mesma imagem e, portanto, agora temos muitas das últimas versões desta imagem em que, em cada uma, tentamos

14:40.440 --> 14:44.920
detectar certas coisas nestes termos, elas não são aplicáveis para nós.

14:44.940 --> 14:50.460
O segundo chefe provavelmente não é aplicável a nós em termos de redes neurais convolutivas, mas a detecção

14:50.550 --> 14:51.630
de idade é importante.

14:51.630 --> 14:58.590
Nós queremos detectar a borda de borda, reforçar, provavelmente, não desfocar afiar tão certas coisas como texto nervoso.

14:58.580 --> 15:02.450
Provavelmente o mais importante para o nosso tipo de trabalho.

15:02.460 --> 15:07.560
E em termos de compreensão dos computadores, eles decidirão para si mesmos ou as redes neurais decidirem por si

15:07.560 --> 15:12.900
mesmo o que é importante o que não é e provavelmente não será nem mesmo reconhecível para o olho humano.

15:12.900 --> 15:14.910
Você não poderá entender o que essas características significam.

15:14.910 --> 15:22.530
que eles podem processar tantas coisas diferentes e entender sem mesmo ter essa intuição ou sem ter essa explicação porque

15:22.530 --> 15:28.950
entenderão quais recursos são importantes para eles se nós temos um nome para eles ou não é

15:28.950 --> 15:34.380
que esse seja um todo, uma questão irrelevante para a rede neural artificial.

15:34.810 --> 15:39.830
Mas o computador irá decidir e essa é a beleza das redes neurais

15:39.990 --> 15:41.260
E o meu favorito.

15:41.280 --> 15:50.940
Aqui está uma imagem de Geoffrey Hinton de Geoffrey Hinton passou por um desses filtros.

15:50.940 --> 15:53.070
Tudo bem para nos levar ao fim de Teresa Tauriel.

15:53.070 --> 15:55.460
Espero que tenha gostado de aprender sobre a convolução.

15:55.470 --> 16:02.490
objetivo da evolução é encontrar recursos em sua imagem, usando o detector de recursos, colocando-os em um mapa

16:02.490 --> 16:08.280
de recursos e, ao ter um mapa futuro, ainda preserva as relações espaciais entre pixels

16:08.340 --> 16:15.710
que é muito importante para nós para você saber, porque se eles estão completamente mexidos, então nós perdemos o padrão.

16:15.720 --> 16:19.280
O takeaway chave é que a convolução o principal

16:19.350 --> 16:25.110
E, ao mesmo tempo, é importante entender que, na maioria das vezes, as características que uma rede

16:25.110 --> 16:32.430
neural detectará e usam para reconhecer certas imagens e a vontade de Klaas não significarão nada para os humanos, mas, no entanto,

16:32.460 --> 16:33.120
elas funcionam.

16:33.120 --> 16:34.420
E é isso que é a convolução.

16:34.440 --> 16:36.280
E estou ansioso para ver você no próximo Tauriel.

16:36.300 --> 16:37.980
Até então, aproveite a aprendizagem.