WEBVTT

00:00.840 --> 00:05.380
Olá e bem-vindo de volta ao curso e aprendendo profundamente agora que vimos suas próprias

00:05.440 --> 00:08.280
redes em ação, é hora de descobrirmos como eles aprendem.

00:08.470 --> 00:10.480
Então vamos entrar nisso.

00:10.510 --> 00:16.100
Eles são duas abordagens fundamentalmente diferentes para obter um programa para fazer o que você quer que ele faça.

00:16.240 --> 00:24.610
Um é código codificado, onde você realmente conta as regras específicas do programa e quais os resultados

00:24.610 --> 00:25.120
desejados.

00:25.120 --> 00:30.940
E você apenas guia isso durante todo o caminho e você conta para todas as opções possíveis

00:30.940 --> 00:33.130
que o programa tem para lidar.

00:33.310 --> 00:41.320
Por outro lado, você possui redes neurais onde você cria uma facilidade para que o programa possa entender o que precisa

00:41.800 --> 00:43.530
fazer por conta própria.

00:43.530 --> 00:50.080
Então, basicamente, você criou essa rede neural onde você forneceu insumos, você diz o que deseja como

00:50.110 --> 00:53.050
saídas e então deixa tudo descobrir sozinho.

00:53.350 --> 00:59.890
Duas abordagens fundamentalmente diferentes e isso é algo a ter em mente à medida que passamos por

00:59.890 --> 01:00.850
esses tutoriais.

01:00.850 --> 01:06.180
Nosso objetivo é criar essa rede que, em seguida, aprenda sozinha.

01:06.220 --> 01:14.570
que posso lhe dar agora é que isso vai acontecer no curso, mas é apenas um exemplo muito visual, por exemplo.

01:14.680 --> 01:18.680
Vamos evitar tentar colocar as regras e um bom exemplo

01:18.700 --> 01:25.690
Como você distingue entre um cão e uma pele de gato no lado esquerdo no processo representado à esquerda,

01:25.690 --> 01:33.250
você proveria coisas como as orelhas do gato tem que ser assim, procure por whiskers, procure esse tipo de nariz,

01:33.250 --> 01:39.530
procure esse tipo De forma de rosto, procure por essas cores que você descreveria todas essas coisas

01:39.530 --> 01:45.310
e você teria condições como se as orelhas fossem pontuais do que o gato, se as

01:45.310 --> 01:49.600
orelhas estão inclinadas e, possivelmente, o cão e assim por diante.

01:49.600 --> 01:55.090
pasta com todos esses gatos e cachorros com imagens de gatos e cachorros que já estão classificados e você

01:55.090 --> 02:01.030
diz isso OK. Tenho você, eu tenho algumas imagens de gatos e cães e aprendo o que é um gato.

02:01.030 --> 02:06.580
Por outro lado, para uma rede neural, basta codificar as redes neurais, você codifica a arquitetura e, em seguida,

02:06.880 --> 02:08.860
você aponta a rede neural em uma

02:08.860 --> 02:10.560
Vá e aprenda o que é um cão.

02:10.600 --> 02:16.000
E a rede neural, por si só, entenderá tudo o que precisa para entender e depois mais uma vez

02:16.000 --> 02:20.950
treinada quando você lhe dará uma nova imagem de um gato ou cachorro, será capaz de entender o

02:20.950 --> 02:21.600
que era.

02:21.610 --> 02:25.600
Então, eles estão, essas são as duas abordagens fundamentalmente diferentes.

02:25.690 --> 02:31.090
E hoje vamos começar lentamente a entender como essa segunda abordagem funciona.

02:31.090 --> 02:31.530
Tudo bem.

02:31.570 --> 02:33.340
Então vamos direto para isso.

02:33.400 --> 02:39.880
Aqui temos uma rede neural muito básica com uma camada é chamada de uma rede neural de feedforward de

02:39.880 --> 02:42.760
uma única camada e também é chamada de percepção.

02:42.760 --> 02:47.380
Agora, antes de prosseguir, uma coisa que precisamos ajustar é esse valor de saída.

02:47.380 --> 02:49.320
Agora você pode ver que é apenas um Y.

02:49.330 --> 02:51.160
Nós precisamos colocar um chapéu lá dentro.

02:51.190 --> 02:56.500
E o motivo disso é geralmente o valor real e é isso que vamos usar.

02:56.500 --> 03:03.700
Então, por que o valor real que vemos no valor de saída da realidade é o valor previsto

03:03.700 --> 03:05.890
pelo algoritmo pela rede neural.

03:05.890 --> 03:09.220
Por que qual é o valor de saída?

03:09.220 --> 03:11.500
Basicamente, essa é a denominação para o valor de saída.

03:11.740 --> 03:20.020
E a percepção que foi inventada pela primeira vez em 1957 por Frank Rosenblat e sua idéia inteira

03:20.170 --> 03:25.010
foi criar algo que realmente possa aprender e se ajustar.

03:25.240 --> 03:28.010
E isso é o que vamos analisar agora.

03:28.030 --> 03:30.230
Então, temos nosso preceito desenhado.

03:30.250 --> 03:32.070
Vamos ver como a nossa percepção aprende.

03:32.080 --> 03:39.130
Então, digamos que temos alguns valores de entrada que foram fornecidos à percepção e, ou basicamente, à

03:39.130 --> 03:40.210
nossa própria rede.

03:40.330 --> 03:44.190
Em seguida, a função de ativação é aplicada.

03:44.200 --> 03:49.210
Nós temos um resultado e agora vamos traçar o resultado em um gráfico.

03:49.210 --> 03:51.830
Então, é o nosso chapéu de saída.

03:51.830 --> 03:57.520
Agora, o que precisamos fazer é para poder aprender que precisamos comparar o valor de saída

03:57.520 --> 04:01.310
com o valor real que queremos que a rede neural atinja.

04:01.600 --> 04:04.520
E esse é o valor y.

04:04.810 --> 04:08.230
E então, se colocarmos aqui, você verá que há uma pequena diferença.

04:08.330 --> 04:13.510
Agora vamos calcular uma função chamada a função de custo é calculada como metade da diferença

04:13.510 --> 04:17.200
da diferença quadrada entre o valor real e o valor de saída.

04:17.200 --> 04:20.500
Agora, há muitas maneiras de você virar para a função de classe.

04:20.500 --> 04:23.300
Existem muitas funções de custo diferentes que você pode usar.

04:23.320 --> 04:30.280
decente, mas agora estamos apenas a aceitar que esta é a função de custo e basicamente, o que a função de custo

04:30.280 --> 04:34.900
está nos dizendo é qual é o erro que você tem em sua previsão.

04:34.900 --> 04:39.830
Esta é provavelmente a função de chamada mais comumente usada e por que especificamente esta

04:40.420 --> 04:44.240
função que usamos vai descobrir mais abaixo quando falamos sobre um gradiente

04:44.290 --> 04:50.770
E nosso objetivo é minimizar a função de custo porque quanto menor for o custo, mais próximo do chapéu

04:50.790 --> 04:51.780
é para y.

04:52.150 --> 04:54.430
OK, então, apenas concordamos com isso vamos proceder.

04:54.430 --> 05:00.760
Então, basicamente, a partir daqui, o que acontece é que existe uma função de custo e, a partir

05:00.760 --> 05:08.950
daqui, o que acontece é agora que vamos fazer uma vez que comparamos, agora vamos alimentar essas informações de volta à rede neural.

05:08.980 --> 05:14.170
está voltando para a rede neural e vai para os pesos e os pesos são atualizados.

05:14.200 --> 05:15.630
Então, vamos lá, a informação

05:15.700 --> 05:20.880
Basicamente, a única coisa que temos controle nessa rede neuronal muito simples são os pesos

05:20.900 --> 05:23.490
w 1 W2 todo o caminho para W. E nosso objetivo é minimizar a função de custo, então tudo o que podemos fazer é atualizar os pesos.

05:23.980 --> 05:29.370
Então, atualizamos os pesos e alteramos um pouco.

05:29.500 --> 05:33.690
E, como exatamente vamos descobrir para baixo, mas,

05:33.940 --> 05:39.600
por enquanto, concordamos que temos os pesos e então continuamos assim.

05:39.600 --> 05:40.320
Mas aqui eu

05:40.320 --> 05:48.870
coloquei essa captura de tela dos dados apenas para deixar um pouco claro que, agora, durante todo este experimento, tudo o que estamos fazendo agora estamos lidando com o único papel.

05:48.930 --> 05:53.990
Então, estamos lidando com nós temos um conjunto de dados de uma linha onde,

05:54.000 --> 06:00.330
por exemplo, estamos lidando com quanto tempo você estuda, como a variável que estamos prevendo é o quê.

06:00.330 --> 06:05.720
Qual é o resultado que você receberá em um exame.

06:06.180 --> 06:08.230
E as variáveis ​​independentes dependentes que temos

06:08.430 --> 06:13.200
é quantas horas você estudou por quantas horas você dormiu e o que você obteve no questionário.

06:13.200 --> 06:15.430
No meio do semestre, então, no meio do semestre, é um questionário sobre o que você chegou lá.

06:15.460 --> 06:19.880
Então, com base nessas variáveis, estamos tentando prever o escore

06:19.880 --> 06:26.100
que você obterá para o exame e exame, o 93% desse valor real.

06:26.100 --> 06:28.010
Entao e por isso.

06:28.010 --> 06:29.020
Assim.

06:29.560 --> 06:30.460
Então, alimentamos esses

06:30.660 --> 06:36.720
três valores em uma rede neural novamente pela segunda vez, então, vamos comparar o resultado ao branco.

06:36.720 --> 06:38.980
Então, vamos ver como isso funciona.

06:39.150 --> 06:40.690
Alimentamos esses valores na rede neural.

06:40.800 --> 06:43.710
alimentamos os valores de novo. O ponto aqui é que

06:43.830 --> 06:50.160
estamos alimentando a mesma bola, então nós só temos um rolo que estamos tentando fazer nós estamos treinando em uma linha.

06:50.190 --> 06:55.480
Tudo fica ajustado e os pesos obtê-lo apenas para que você possa ver isso de novo, nós

06:55.480 --> 06:56.370
Isso ocorre porque este é apenas um exemplo básico muito simples.

06:56.370 --> 06:59.580
Então, veremos o que acontece quando há moral.

06:59.640 --> 07:01.610
Então, novamente, nós alimentamos essas linhas em nosso cross-functional, ajustado.

07:01.800 --> 07:06.180
Como você pode ver, tudo acontece ao longo dessas linhas novamente.

07:06.180 --> 07:10.520
Então, como você diz, cada vez que nosso chapéu branco está mudando, porque ajustamos os pesos.

07:10.530 --> 07:15.030
Tudo o que eu tive está mudando nossa função de roupas mudando esse olhar inteiro novamente, então alimentamos aqueles que estão dentro.

07:15.030 --> 07:20.550
Por que a mudança de função da roupa está mudando.

07:20.550 --> 07:22.840
Recebemos informações de volta aos pesos para que os pesos sejam ajustados novamente.

07:22.920 --> 07:27.020
Nós alimentamos os mesmos valores toda vez que tudo é ajustado volta aos pesos.

07:27.030 --> 07:31.850
E mais uma vez se dedica.

07:31.860 --> 07:33.920
ESTÁ BEM.

07:34.020 --> 07:34.990
E outra vez, então, ajustamos a maneira como nos sentimos na informação.

07:35.730 --> 07:40.720
E nós vamos lá.

07:40.830 --> 07:41.370
Então, agora, desta vez, o chapéu branco é igual a 0 funcional.

07:41.370 --> 07:45.990
Normalmente, você não terá função de custo igual a zero.

07:46.020 --> 07:48.410
Mas este é um exemplo muito simples.

07:48.420 --> 07:50.720
Então, espero que tudo isso tenha sentido

07:50.820 --> 07:57.480
toda vez que alimentamos exatamente essa mesma linha porque, neste caso, estamos lidando com essa linha em nossa rede neural.

07:57.480 --> 08:01.370
Bem, então, os pesos obtêm os valores para obter o fornecimento de suprimento válido, as formas como a

08:01.400 --> 08:06.990
função de ativação é aplicada, nós temos o que você teve em comparação com Y, então nós vemos como a função de custo é alterada.

08:06.990 --> 08:12.320
Comentários e o feed que a informação Bakker está em sua

08:12.430 --> 08:16.500
própria rede e depois ajuste os pesos novamente.

08:16.500 --> 08:17.470
E então repetimos o mesmo processo novamente com a mesma linha exata.

08:17.850 --> 08:21.410
Estamos tentando minimizar esse custo.

08:21.570 --> 08:23.320
Até agora, lidamos com essa única linha.

08:23.520 --> 08:26.860
Vamos ver o que acontece quando você tem vários papéis.

08:27.030 --> 08:29.470
Então, aqui está o conjunto completo de dados.

08:29.490 --> 08:31.320
Nós temos oito fileiras de

08:31.350 --> 08:38.610
quantas horas você dormiu ou talvez estes sejam estudantes diferentes no dia fazendo o mesmo exame quantas horas eles estudaram

08:38.610 --> 08:44.070
quanto horas dormiram antes do exame iria no questionário e seu resultado final no teste.

08:44.070 --> 08:47.300
E, como você pode ver aqui à esquerda, eu tenho oito dessas percepções na verdade.

08:47.490 --> 08:52.720
Eles são a mesma percepção, então isso também é importante.

08:53.100 --> 08:55.950
Acabei de multiplicar ou gostar de duplicar oito vezes apenas para que possamos.

08:56.010 --> 09:02.600
A concepção é essa.

09:03.330 --> 09:04.310
Mas o

09:04.320 --> 09:10.010
importante aqui é a mesma rede neural que iremos alimentá-los em uma rede de Samual.

09:10.040 --> 09:10.380
Então vamos, vamos começar.

09:10.380 --> 09:11.650
Então, um aeroporto, como

09:11.650 --> 09:20.550
você vai ouvir, falou em um parque de estacionamento quando passamos por todo um conjunto de dados e treinamos nossa rede neural em todas essas funções para que essas listas sejam.

09:20.610 --> 09:27.410
Então, está a nossa primeira fila e há Porquê para a primeira fila,

09:27.420 --> 09:34.410
há um segundo papel, por isso que eu tive para a segunda rodada.

09:34.410 --> 09:35.260
Então, novamente, está sendo alimentado na mesma rede neural de cada vez.

09:35.280 --> 09:39.590
Acabei de copiá-los várias vezes para que possamos visualizar visualmente como isso está acontecendo.

09:39.600 --> 09:45.070
Então, novamente, como está acontecendo novamente, é a terceira fila da

09:45.090 --> 09:52.320
terceira fila, a nossa cabeça branca é a quarta linha e assim por diante.

09:52.320 --> 09:53.010
Basicamente, nós também obtemos os mesmos valores para as quatro linhas restantes.

09:53.010 --> 09:56.580
Então, toda vez que nos alimentamos seguidamente em nossa rede neural, entendemos sobre isso.

09:56.580 --> 10:03.440
Em seguida, comparamos o valor real.

10:03.780 --> 10:06.930
Então eles são os valores reais.

10:06.930 --> 10:08.550
Então, para cada rolo, temos um valor real.

10:08.760 --> 10:11.340
E agora, com base em todas essas diferenças entre y hat e

10:11.640 --> 10:18.480
por que podemos calcular a função de custo, que é a soma de todas essas diferenças ao quadrado entre o porquê e o porquê e como tudo isso é dividido pela metade.

10:18.480 --> 10:27.620
E a nossa função de custo.

10:28.230 --> 10:30.360
E, basicamente, agora, o que fazemos

10:30.360 --> 10:36.750
depois de ter a função de custo total, voltamos e atualizamos os pesos, atualizamos um W 1 WTW.

10:37.170 --> 10:39.480
E o importante para lembrar aqui

10:39.510 --> 10:45.810
é que todas essas percepções são todas essas redes neurais é na verdade uma rede neural.

10:45.810 --> 10:47.340
Então, não há oito, há apenas um.

10:47.340 --> 10:49.420
E quando atualizamos os pesos, vamos atualizar

10:49.680 --> 10:55.110
os pesos nessa rede neural, de modo que basicamente os pesos serão os mesmos para todas as linhas.

10:55.110 --> 10:57.900
Portanto, não é o caso de cada papel ter seu próprio peso.

10:57.930 --> 11:00.560
Agora, todas as linhas compartilham os pesos e é por isso

11:00.580 --> 11:07.320
que analisamos a função de custo, que é a soma das diferenças quadradas e, em seguida, atualizamos os pesos e agora, a partir daqui, houve apenas uma iteração.

11:07.620 --> 11:15.270
Em seguida, vamos executar tudo isso de novo.

11:15.270 --> 11:19.020
Vamos alimentar todas as filas na rede

11:19.020 --> 11:25.440
neural, descobrir nossa função de custo e fazer todo esse processo novamente.

11:25.440 --> 11:26.370
Então, como vimos

11:26.370 --> 11:32.090
anteriormente, onde tínhamos apenas uma fila e estávamos fazendo tudo novamente e novamente, o mesmo aqui.

11:32.140 --> 11:33.590
Mas agora vamos fazer e

11:33.600 --> 11:38.880
Pedros ou 800 linhas ou oito mil linhas, no entanto, muitas linhas que você tem em seu conjunto de dados.

11:38.880 --> 11:40.590
Você faz esse processo e então você calcula a função de custo.

11:40.830 --> 11:43.700
E o objetivo aqui é minimizar a

11:44.220 --> 11:51.510
função de custo e começar logo que você encontrou um minuto da função de custo que é sua rede

11:51.510 --> 12:00.210
neural final, o que significa que seus pesos foram ajustados e você encontrou os pesos ótimos para este conjunto de dados que você

12:00.750 --> 12:08.550
começou seu treinamento e você está pronto para avançar para a fase de teste ou para a fase de aplicação.

12:08.550 --> 12:11.130
E todo esse processo é chamado de propagação traseira.

12:11.550 --> 12:14.920
Então, algumas leituras adicionais que você pode querer fazer

12:15.000 --> 12:21.930
para a função de custo e eu sei que acabamos de falar sobre um e há muitos diferentes.

12:21.930 --> 12:24.840
Um bom artigo está localizado na cruz validada.

12:24.840 --> 12:28.690
É chamada de lista de funções de curso usadas em redes neurais ao lado de aplicativos.

12:28.740 --> 12:33.020
Então, o euro está lá, mas você pode apenas google para esse

12:33.090 --> 12:39.840
termo de pesquisa exato ou frase de pesquisa e você será aquele que será o primeiro a aparecer.

12:39.960 --> 12:42.150
Na verdade, tem alguns bons exemplos e aplicativos

12:42.150 --> 12:48.660
ou casos de uso para diferentes funções de custo, portanto, se você estiver interessado em saber mais sobre as funções de custo, veja este artigo.

12:48.660 --> 12:51.800
E com essa nota, espero que você goste deste tutorial.

12:51.990 --> 12:54.380
Estou ansioso para ver você na próxima vez.

12:54.420 --> 12:56.070
Até então, aproveite a aprendizagem profunda.

12:56.070 --> 12:58.020
&nbsp;