WEBVTT

00:00.490 --> 00:02.980
Olá e bem-vindo de volta ao curso sobre aprendizagem profunda.

00:02.980 --> 00:06.900
Hoje, estamos iniciando redes neurais convolutivas que serão emocionantes.

00:06.910 --> 00:08.610
Vamos mergulhar diretamente nele.

00:08.620 --> 00:10.840
Vamos começar com uma imagem.

00:10.930 --> 00:13.210
O que você vê quando olha para esta imagem.

00:13.580 --> 00:19.480
Você vê uma pessoa olhando para você ou você vê uma pessoa olhando para a direita que você pode ver

00:19.480 --> 00:25.860
que seu cérebro é que está lutando está lutando para se ajustar se você olhar para o lado direito da imagem.

00:25.870 --> 00:29.180
Basta olhar para a borda direita lá, que você verá uma pessoa olhando para a direita.

00:29.260 --> 00:33.320
Se você olhar para a margem esquerda da imagem, você verá uma pessoa olhando para você.

00:33.700 --> 00:42.760
E isso apenas prova que o que o nosso cérebro está procurando quando vemos as coisas é características, dependendo dos recursos que

00:42.760 --> 00:46.140
ela vê dependendo dos recursos que você processa.

00:46.180 --> 00:48.610
Você categoriza as coisas de determinadas maneiras.

00:48.730 --> 00:54.010
Então, quando você olha no lado direito da imagem, você vê certos recursos de uma pessoa que

00:54.010 --> 01:00.190
procura andar porque está mais perto do seu centro de foco e, portanto, seu cérebro classifica como uma pessoa olhando

01:00.190 --> 01:00.930
para a direita.

01:01.000 --> 01:06.790
você vê mais recursos de uma pessoa que está olhando para você e, portanto, seu cérebro classifica isso como tal.

01:06.790 --> 01:09.580
Quando você olha para o lado esquerdo da imagem,

01:09.580 --> 01:11.150
Então vamos dar uma olhada em outro.

01:11.230 --> 01:12.840
Esta é uma imagem muito famosa.

01:12.910 --> 01:14.530
Você provavelmente já viu isso.

01:14.680 --> 01:16.240
Mas o que você vê aqui.

01:16.820 --> 01:23.830
Então, algumas pessoas dirão que vêem uma jovem senhora vestindo um vestido olhando longe.

01:23.830 --> 01:29.980
Algumas pessoas dizem que vêem uma velha senhora vestindo um lenço na cabeça olhando para baixo.

01:30.280 --> 01:36.250
isso e você verá que isso se tornará muito óbvio, então esse é o rosto da jovem que desvia o olhar.

01:36.250 --> 01:37.510
Então, eu vou apontar

01:37.510 --> 01:40.450
Ela está olhando para a distância como seu casaco.

01:40.440 --> 01:44.940
Esse é o cabelo dela, que é a sua pequena pena nos cabelos e, por outro lado.

01:44.980 --> 01:53.530
Esta é a cabeça da velha senhora olhando pelo nariz dela boca o queixo dela que é o lenço em sua cabeça e

01:53.560 --> 01:55.560
ela está olhando para baixo.

01:55.780 --> 02:01.960
Então, como você pode ver dois em um e, dependendo de quais recursos seu cérebro pega,

02:02.620 --> 02:06.710
ele alternará entre classificar cada imagem como uma ou outra.

02:06.910 --> 02:13.930
A mais antiga dessas ilusões registradas no trabalho impresso é essa.

02:13.930 --> 02:15.220
É o pato ou o coelho.

02:15.230 --> 02:17.020
Então, isso é um pato ou é um coelho.

02:17.020 --> 02:18.330
Outro exemplo.

02:18.430 --> 02:25.030
E agora vou mostrar uma imagem que só por um segundo apenas olhe para ele e veja quais são

02:25.030 --> 02:28.670
as emoções ou o tipo de experiência visual que você experimenta.

02:29.110 --> 02:36.610
Então, o que você vê, você se sente um pouco tontão, mas um pouco deslumbrado, como o seu cérebro está

02:36.610 --> 02:40.230
tentando tentar entender o que é como está tentando.

02:40.330 --> 02:49.240
este é um exemplo clássico de quando há certos recursos onde poderia ser isso poderia ser isso, mas seu cérebro não pode decidir.

02:49.240 --> 02:53.850
Está pulando entre seus olhos para cima e para baixo olhos e

02:54.130 --> 02:58.230
E porque ambos parecem plausíveis.

02:58.290 --> 03:04.360
Sim, basicamente, todos esses exemplos nos ilustram como funciona o cérebro que processa certos recursos

03:04.360 --> 03:10.970
de uma imagem ou de qualquer coisa que você vê na vida real e classifica isso como.

03:10.980 --> 03:16.150
Você provavelmente já esteve em situações quando olhou por cima do ombro rapidamente e vê

03:16.150 --> 03:23.500
algo que acha que é, eu não sei se é como uma bola, mas é um gato ou você acha que é

03:23.500 --> 03:24.030
um carro.

03:24.070 --> 03:28.030
tempo suficiente para processar esses recursos ou não possui recursos suficientes para classificar as coisas como tal.

03:28.030 --> 03:31.030
Acontece ser uma sombra ou coisas assim porque é que você não tem

03:31.240 --> 03:38.570
E isso é para mim, isso é muito interessante, porque o que vamos fazer com redes neurais com redes neuronais convolutivas

03:38.570 --> 03:43.630
é muito parecido e você achará que a forma como os computadores vão processar

03:43.630 --> 03:48.190
imagens será extremamente semelhante ao modo como estamos processando imagens, então é muito

03:48.210 --> 03:53.500
valioso para entender e apenas lembrar essas coisas de que é assim que a fazemos.

03:53.500 --> 03:53.580
&nbsp;

03:53.590 --> 03:58.450
E eu vou tirar essa senhora das suas telas porque provavelmente já está ficando louca por agora.

03:58.630 --> 04:00.940
Então, aqui está algo diferente.

04:00.940 --> 04:07.870
Aqui está uma experiência de um experimento feito em computadores na rede neural convolutiva, de modo que

04:07.870 --> 04:11.150
nos movemos lentamente dos humanos para os computadores.

04:11.350 --> 04:18.490
E este slide é de um contado por Geoffrey Hinton e aqui você descreveu basicamente um

04:18.490 --> 04:24.440
experimento que ele havia feito em algumas redes neurais convencionais que ele treinou.

04:24.460 --> 04:29.560
Então, aqui, você vê três imagens e as passaremos da esquerda para a direita e veremos como classificá-las

04:29.560 --> 04:31.870
e depois ver como elas podem ser reclassificadas.

04:31.870 --> 04:35.440
Então, à esquerda, o que você acha disso?

04:35.440 --> 04:37.710
Ele provavelmente disse a chita e você estará certo.

04:37.710 --> 04:41.740
E isso é o que o computador disse assim e o direito imediatamente

04:41.740 --> 04:48.400
fora do morcego, vamos aprender a ler essas imagens, porque se você for direto em redes neurais convolutivas de chamadas, sem

04:48.400 --> 04:54.050
trocadilhos, você vai começar a aprender mais e mais sobre e usando eles você verá muitos desses.

04:54.070 --> 05:01.050
Então, eu realmente vi as pessoas lê-las incorretamente, então aqui no topo Shida é o que é

05:01.050 --> 05:01.470
realmente.

05:01.470 --> 05:07.920
Então, esse é o rótulo real correto da imagem, qual é o rótulo das imagens, independentemente

05:07.920 --> 05:09.180
de qualquer processamento.

05:09.300 --> 05:16.770
dissesse ou a rede neural disse que o fato pessoal de Chitta ou o gato egípcio podem ser um dos quatro.

05:17.370 --> 05:24.520
E a visão por computador e, em seguida, aqui são as suposições, as quatro ou cinco vezes adivinham o algoritmo e

05:24.810 --> 05:27.460
eles recebem as probabilidades para que o computador

05:27.540 --> 05:29.120
E a chita tem o maior voto.

05:29.130 --> 05:34.820
E ao longo desta parte do Curso você entende o que esses votos significam e como eles são derivados.

05:34.830 --> 05:36.600
Mas, por enquanto, é bastante intuitivo.

05:36.600 --> 05:40.700
Então, é uma chita na realidade e a rede neural adivinhou direito.

05:40.710 --> 05:44.600
Ele disse com uma habilidade hiper sobre como 95 99 por cento.

05:45.900 --> 05:46.860
Então o segundo.

05:46.860 --> 05:51.050
O que você acha que é que é um trem bala.

05:51.300 --> 05:57.600
E a rede neural foi capaz de distinguir entre a locomotiva elétrica de trem de metrô de trem de

05:57.600 --> 05:58.020
bala.

05:58.020 --> 05:59.380
Essas são a melhor escolha, é claro.

05:59.400 --> 06:05.850
Ele tinha muitas opções mais essas redes neurais aprendem a distinguir não apenas quatro categorias de dezenas

06:06.000 --> 06:08.760
de milhares de categorias ao mesmo tempo.

06:08.760 --> 06:10.750
Então, essas são as quatro opções que escolheu.

06:10.920 --> 06:12.750
E isso é trem bala e sua vontade.

06:12.760 --> 06:17.210
E então, o que você acha que o último é muito.

06:17.350 --> 06:22.470
Existem algumas opções ou não é muito claro o que poderia ser uma frigideira poderia ser

06:22.470 --> 06:29.550
uma lupa, talvez seja mesmo um par de tesouras que alguns possam dizer, enquanto a rede neural disse que era um

06:29.550 --> 06:30.540
par de tesouras.

06:30.750 --> 06:32.590
Mas você pode ver como você pode dar errado aqui.

06:32.610 --> 06:35.440
Em primeiro lugar, não é uma imagem muito clara.

06:35.520 --> 06:43.920
E também você pode ver que as probabilidades não são tão claras aqui, então a rede neural foi um pouco confusa

06:43.920 --> 06:46.280
um pouco indecisa, assim como nós.

06:46.280 --> 06:51.710
Então eu disse que as tesouras com a alta probabilidade, mas depois tinha um copo de mão que na

06:51.810 --> 06:55.760
verdade era com não tão longe em segundo lugar e estetoscópio de frigideira.

06:55.920 --> 07:01.620
Então, basicamente, aqui, você pode ver que as tesouras foram seu primeiro palpite, mas a opção correta foi o número dois e é por

07:01.620 --> 07:03.050
isso que é realçado em vermelho.

07:03.300 --> 07:07.050
Então, vamos lá. É disso que todas as drogas já são capazes.

07:07.050 --> 07:08.880
E este é realmente um antigo slide.

07:08.880 --> 07:10.610
Isso foi há vários anos.

07:10.650 --> 07:16.100
são ainda melhores e você verá que a partir da aplicação prática que você estará codificando juntos almoçou.

07:16.170 --> 07:16.760
Agora eles

07:16.920 --> 07:18.430
Mas agora vamos tentar isso um pouco melhor.

07:18.430 --> 07:23.770
O que é a convenância ou as redes neurais convolutivas são e por que ganham tanta popularidade.

07:23.970 --> 07:31.380
E eles realmente estão ganhando popularidade para que você possa ver aqui uma comparação do Google Trends que fiz ontem.

07:31.770 --> 07:39.420
Aqui você pode ver que as redes neurais ilusórias da convenção são mesmo assumindo redes

07:39.420 --> 07:43.260
neuronais artificiais, de modo que um aumento maciço.

07:43.260 --> 07:49.530
E isso vai continuar assim, porque é um campo muito importante que é aí que todas

07:50.130 --> 07:52.530
as coisas acontecem, como carros auto-dirigidos.

07:52.530 --> 07:59.340
Como eles reconhecem as pessoas na estrada como reconhecer sinais de parada e coisas assim, como é que

07:59.340 --> 08:07.680
o Facebook é o Facebook capaz de marcar imagens ou pessoas em imagens e não apenas como lembrar, anteriormente, anos atrás, você

08:07.980 --> 08:14.240
tinha que dizer às pessoas, então reconheça os rostos que você teve para adicionar os nomes.

08:14.250 --> 08:18.420
E agora só reconhece os rostos e adiciona os nomes ao mesmo tempo.

08:18.630 --> 08:26.070
Bem, isso é o que as redes neurais convolutivas são capazes de estar no Facebook.

08:26.160 --> 08:34.710
Se Jeffrey Hinton é o padrinho de redes neurais artificiais e aprendizado profundo, então, Yalla Kuhn

08:34.830 --> 08:43.650
é o avô das redes neurais convolutivas. Lukken é um estudante de Jeffrey Hinton e, na verdade,

08:43.650 --> 08:45.640
você pode vê-los juntos.

08:45.720 --> 08:51.950
E Jeffrey Hinton agora é o pioneirismo para o Google Young.

08:52.020 --> 08:57.010
É o diretor da pesquisa de inteligência artificial do Facebook e também professor na NYU.

08:57.030 --> 09:02.650
Então, estamos lentamente conscientes dessa parte do núcleo lentamente, estamos construindo dessa maneira.

09:02.670 --> 09:10.770
Esses nomes são esse tipo de imagem dos perfis das pessoas que estão dirigindo esse campo e, no próximo par de pars,

09:10.950 --> 09:16.680
conheceremos mais alguns e teremos toda essa máfia como se chamam a si mesmos ou você

09:16.680 --> 09:22.320
pode ligar Mafia ou conspiração de aprendizado profundo e você aprenderá um pouco mais sobre como

09:22.320 --> 09:24.140
esse campo inteiro se desenvolveu.

09:24.480 --> 09:27.200
Sim, são só essas pessoas ótimas.

09:27.450 --> 09:35.370
E então, RIKOON nos anos 80 e 90 fez contribuições significativas para o campo das redes

09:35.370 --> 09:36.300
neurais convolutivas.

09:36.330 --> 09:44.310
E, como você verá ao longo deste curso, conseguiu desenvolver ou ajudar o mundo a

09:44.340 --> 09:46.650
desenvolver algo extremamente poderoso.

09:46.650 --> 09:51.390
Então, avançando para como as redes neurais ilusórias funcionam.

09:51.420 --> 09:56.150
Você tem uma entrada é muito simples, é muito direto, então eles têm uma imagem de entrada.

09:56.160 --> 10:01.930
Ele passa pela rede ilural de ilusão ilusional e você tem um rótulo para classificar essa imagem

10:01.990 --> 10:06.630
como algo como um Cheeto ou um trem bala ou qualquer outra coisa.

10:06.790 --> 10:10.780
Agora, tipo de entrar em um pouco mais de detalhes.

10:10.900 --> 10:19.540
Por exemplo, você pode o oficial neroli ter sido treinado para cima em certas imagens em certas

10:19.780 --> 10:23.600
imagens classificadas ou imagens categorizadas anteriormente antes.

10:23.710 --> 10:29.510
Depois disso, você pode dar, digamos, uma rede neural foi treinada para reconhecer expressões e movimentos faciais, você

10:29.510 --> 10:37.030
pode dar uma cara de uma pessoa sorridente e não apenas um rosto como um desenho de um rosto como esse, mas o

10:37.030 --> 10:39.330
rosto real de uma pessoa sorridente .

10:39.430 --> 10:44.910
E eu vou te dizer que essa pessoa está feliz e você consegue um rosto de uma pessoa que está de sobrancudo.

10:44.910 --> 10:47.180
Eu direi que a pessoa está triste.

10:47.280 --> 10:52.570
Ele pode reconhecer essas emoções e, como você pode ver, isso já é muito poderoso em termos

10:52.570 --> 10:59.740
de tantas implicações diferentes, apenas um exemplo que você pode pensar de imediato e, em ambos os casos, eu darei uma operabilidade para que

10:59.740 --> 11:04.970
não diga que você sabe que nós " é 100 por cento a pessoa feliz ou triste.

11:04.970 --> 11:13.000
Será 99 ou 98 ou talvez 80 por cento quando não está claro o que está acontecendo e, assim como estamos

11:13.000 --> 11:16.620
certos, às vezes podemos confundir coisas pelo que não são.

11:16.660 --> 11:23.620
Ou às vezes, às vezes, não é claro se a pessoa está sorrindo ou franzindo a testa ou se é um

11:23.620 --> 11:27.910
cão ou um gato ou se é um trem ou um trem bala.

11:28.110 --> 11:32.620
é assim que processamos a informação visual como vimos desde o início deste tutorial.

11:32.980 --> 11:38.600
Tudo certo, às vezes, não temos isso, não vimos recursos suficientes em tudo, desce para recursos porque

11:38.620 --> 11:44.140
Então, mas como uma rede neural que hospeda rede neural pode reconhecer esses recursos.

11:44.140 --> 11:48.770
Bem, tudo começa com o nível muito básico que você possui.

11:48.790 --> 11:54.160
Digamos que você tenha uma imagem que você tenha duas imagens. Uma é a imagem em preto e

11:54.160 --> 12:01.270
branco de dois por dois pixels e uma é uma imagem colorida de dois por dois pixels, enquanto as redes neurais alavancam o fato

12:01.270 --> 12:04.690
de que a imagem em preto e branco é uma matriz bidimensional.

12:04.690 --> 12:09.610
Assim, a maneira como a vemos agora na esquerda é apenas a representação visual.

12:09.630 --> 12:11.110
Suponho algum tipo de imagem.

12:11.250 --> 12:16.600
E, por motivos de simplicidade, é apenas uma maneira de representar, mas em termos de computador,

12:16.600 --> 12:22.180
é realmente uma matriz bidimensional com cada um desses pixels com um valor entre 0 e 55.

12:22.360 --> 12:27.670
Então são oito bits de informação para os dois para o poder de oito é 256.

12:27.670 --> 12:32.130
Então, portanto, os valores de 0 a 255 e a intensidade da cor.

12:32.260 --> 12:36.240
E neste caso a cor branca, então 0 será um pixel completamente preto.

12:36.370 --> 12:43.720
255 será um pixel completamente branco e, entre eles, você possui o intervalo de escala de cinza das opções possíveis para

12:43.720 --> 12:44.490
este pixel.

12:44.650 --> 12:50.740
como o ponto de partida, qualquer imagem é realmente uma representação digital tem uma forma digital.

12:50.740 --> 12:56.510
E, com base nessa informação, os computadores podem então trabalhar com a imagem e, assim

12:56.620 --> 13:03.460
E esses são basicamente uns e zeros que formam um número de 0 a 255 para cada pixel e é com o que

13:03.460 --> 13:04.340
o computador trabalha.

13:04.340 --> 13:08.410
Na verdade, ele não funciona com você conhece cores ou qualquer coisa que trabalha com as e zero no final

13:08.410 --> 13:08.790
do dia.

13:08.800 --> 13:12.820
Isso é tão amável como a base de tudo.

13:13.360 --> 13:17.110
E em uma imagem colorida é realmente uma matriz tridimensional.

13:17.230 --> 13:24.580
tem azul pixel azul Larry Green e o brilho vermelho e flechas e esse sentido para RGV vermelho verde azul.

13:24.580 --> 13:25.130
Você

13:25.420 --> 13:29.740
E cada uma dessas cores tem sua própria intensidade.

13:29.740 --> 13:37.010
Então, basicamente, um pixel tem três valores atribuídos a ele.

13:37.030 --> 13:41.090
Cada um deles está entre 0 e 256 255.

13:41.380 --> 13:48.340
E, portanto, você pode descobrir o que é essa imagem da cor exatamente desse pixel.

13:48.340 --> 13:53.520
Ao combinar esses três valores e novamente os computadores estarão trabalhando com isso.

13:53.530 --> 13:58.930
Então, essa é a base de tudo isso é o canal vermelho do canal verde do canal azul.

13:59.530 --> 14:08.590
E, finalmente, vamos dar uma olhada, por exemplo, em um exemplo muito trivial de um rosto sorridente.

14:08.820 --> 14:09.610
Em termos de computador.

14:09.610 --> 14:17.710
Se nós realmente simplificarmos as coisas em vez de ter de 0 a 255 e ter esses valores apenas para

14:17.710 --> 14:25.690
que possamos entender melhor as coisas e compreender realmente os conceitos, vamos dizer que zero é que o branco

14:25.690 --> 14:26.590
é preto.

14:26.590 --> 14:26.800
Certo.

14:26.800 --> 14:33.460
Então, vamos simplificar as coisas ao extremo e você verá que essa imagem pode ser representada

14:33.460 --> 14:33.900
assim.

14:34.000 --> 14:39.150
se traduzir para o 0 2 256 gama de valores e tudo aplica-se do mesmo jeito.

14:39.160 --> 14:44.680
Então, a razão pela qual nós trouxemos isso é porque entramos em todas as nossas intuições. A Stroh,

14:44.680 --> 14:50.530
nós conseguimos estruturar uma imagem é assim, que é muito simples, mas, ao mesmo tempo, todos esses conceitos podem

14:50.740 --> 14:54.900
E as etapas são as que estaremos passando se essas imagens forem uma evolução ideal.

14:54.910 --> 14:56.820
Etapa número dois agrupamento máximo.

14:56.830 --> 15:02.550
Passo número três achatando e passo número de uma conexão completa e eu posso imaginar

15:02.560 --> 15:09.880
que provavelmente todas essas palavras significam muito para você no momento, mas no final desta seção do curso, você vai

15:10.000 --> 15:13.940
entender com grande detalhe e exatamente o que eles são fazendo.

15:13.960 --> 15:16.020
Então vamos começar no próximo tutorial.

15:16.030 --> 15:24.400
Por enquanto, a leitura adicional que você pode querer examinar é um novo artigo original de Lukens

15:24.640 --> 15:28.200
que deu origem a redes nervosas emocionais.

15:28.200 --> 15:31.590
É chamado de aprendizagem baseada em gradiente aplicado à cognição documental.

15:31.660 --> 15:34.550
Você pode ter visto essa imagem antes de flutuar na Internet.

15:34.630 --> 15:40.990
É a partir desse artigo, então, se você quiser voltar aos começos de como tudo aconteceu,

15:40.990 --> 15:46.420
tudo isso veio do documento a ser observado e espero ver no próximo tutorial.

15:46.420 --> 15:48.280
Até então, aproveite a aprendizagem profunda.