WEBVTT

00:01.130 --> 00:06.810
Olá e bem-vinda de volta, então, claro, em aprendizado profundo, hoje falamos sobre a descida do gradiente Kostic.

00:07.220 --> 00:14.450
Anteriormente, aprendemos sobre a descida gradiente e descobrimos que é um método muito eficiente para resolver

00:14.450 --> 00:19.590
nosso problema de otimização, onde estamos tentando minimizar a função de custo.

00:19.640 --> 00:29.030
Isso basicamente nos leva de 10 para o poder de 57 anos para resolver um problema dentro de minutos ou horas ou dentro de

00:29.480 --> 00:30.940
um dia ou assim.

00:31.100 --> 00:37.490
E realmente ajuda a acelerar as coisas porque podemos ver de que maneira é em declive e podemos ir

00:37.490 --> 00:41.400
nessa direção e tomar medidas e chegar ao mínimo mais rápido.

00:41.600 --> 00:50.030
coisa com a vara com descida gradiente é que esse método exige que a função de custo seja convexa.

00:50.030 --> 00:50.990
Mas a

00:51.140 --> 00:57.710
E, como você pode ver aqui, escolhemos especificamente uma função de custo convexo, basicamente convexa, significa que

00:58.160 --> 01:05.510
a função se parece com o que estamos vendo agora que é apenas um tipo de vext em uma

01:05.510 --> 01:09.220
direção e que em essência tem um mínimo global.

01:09.380 --> 01:11.560
E essa é a única que vamos encontrar.

01:11.630 --> 01:14.060
Mas e se nossa função não for convexa.

01:14.060 --> 01:16.250
E se nossa função de custo não estiver correta.

01:16.370 --> 01:17.810
E se parecer algo assim.

01:18.020 --> 01:19.660
Bem, antes de tudo, como isso poderia acontecer.

01:19.880 --> 01:27.950
Bem, isso poderia acontecer, porque se nós, em primeiro lugar, escolhemos uma função de custo que não é a diferença quadrada entre

01:28.010 --> 01:33.850
o porquê e o porquê ou se nós escolhemos a função de custo que é assim.

01:33.860 --> 01:39.650
Mas, em um espaço multidimensional, ele pode realmente se transformar em algo que não é convexo.

01:39.780 --> 01:45.410
E então, o que aconteceria neste caso, se nós apenas tentássemos aplicar o nosso método de gradiente decente normal, algo

01:45.410 --> 01:46.390
assim poderia acontecer.

01:46.520 --> 01:51.230
Podemos encontrar um mínimo local da função de custo em vez do global.

01:51.230 --> 01:57.730
Então este foi o melhor e encontramos o errado e, portanto, não temos o peso correto.

01:57.740 --> 01:59.940
Não temos uma rede neural otimizada.

02:00.230 --> 02:02.480
Temos uma rede neural parcial.

02:02.610 --> 02:04.470
E então, o que fazemos neste caso.

02:04.670 --> 02:09.110
Bem, a resposta aqui é estocástica.

02:09.110 --> 02:10.050
Gradiente descendente.

02:10.070 --> 02:15.260
E resulta que a descida do gradiente sarcástico não requer que a função da causa seja convexa.

02:15.380 --> 02:20.120
Então, vamos dar uma olhada nas duas diferenças entre a descida gradiente normal de que

02:20.150 --> 02:21.600
falamos e a faixa estocástica.

02:21.860 --> 02:27.920
Então, a descida verde normal é quando tomamos todas as nossas linhas, as conectamos à nossa rede neural

02:27.920 --> 02:33.890
e, mais uma vez, temos a rede neural copiada várias vezes, mas as linhas estão sendo conectadas na

02:33.890 --> 02:36.050
mesma rede neural de cada vez.

02:36.050 --> 02:39.200
Então, há apenas um truque de um ano, isso é apenas para fins de ação de Kissel.

02:39.350 --> 02:43.880
E então, uma vez que os conectamos, calculamos nossa função de custo com base na fórmula

02:43.880 --> 02:49.400
direita e olhando o gráfico na parte inferior e depois ajustamos os pesos, isso é chamado de método de

02:49.400 --> 02:54.480
descida de gradiente ou é também o termo apropriado é esse método de descida de gradiente em lote.

02:54.470 --> 03:01.940
lote de nossa amostra aplicamos e então corremos que o método de descida de gradiente estocástico é um pouco diferente.

03:01.940 --> 03:03.730
Então, nós levamos todo o

03:03.800 --> 03:10.880
Aqui nós levamos as linhas uma por uma, então nós levamos essa linha, corremos nossa rede neural e depois

03:10.880 --> 03:12.020
ajustamos os pesos.

03:12.020 --> 03:16.420
Em seguida, passamos para a segunda linha, nós levamos a segunda linha, corremos nossa rede neural.

03:16.580 --> 03:21.640
Nós olhamos para a função de custo e então ajustamos os pesos de novo e depois tomamos outro Rohtak rose

03:21.640 --> 03:25.430
três que executamos nossa rede neural analisaremos a função de custo que ajustamos o peso.

03:25.430 --> 03:32.660
Então, basicamente, estamos observando que estamos ajustando os pesos depois de cada linha em vez de fazer tudo juntos

03:32.660 --> 03:36.080
e, em seguida, testar pesos de duas abordagens diferentes.

03:36.230 --> 03:39.710
E agora vamos apenas comparar os dois lado a lado.

03:39.710 --> 03:42.920
Então, aqui estão eles, é como se lembrar visualmente deles.

03:42.920 --> 03:49.490
Então você tem a melhor descida de gradiente, onde você está ajustando os pesos depois de executá-los depois de ter

03:49.490 --> 03:55.370
executado todas as linhas em sua rede neural e, basicamente, apenas os pesos e você corre o tempo

03:55.370 --> 04:00.500
todo novamente iteração iteração iteração na sexta série em dezembro e você corre uma linha de

04:00.500 --> 04:06.650
cada vez e você ajusta os pesos do jeito que é apenas os pesos e então você faz tudo

04:06.770 --> 04:10.040
de novo e de novo e isso é chamado de discussão.

04:10.080 --> 04:16.580
encontra essas extremidades locais ou mínimos locais em vez do mínimo global global global.

04:16.580 --> 04:27.470
E você disse que as duas principais diferenças são que o método sarcástico de descida de gradiente ajuda você a evitar o problema

04:27.470 --> 04:28.620
onde você

04:29.030 --> 04:34.850
E a razão para isso, em termos simples, é que existe um vídeo do método de descida de

04:35.150 --> 04:38.220
gradiente estocástico que possui flutuações muito maiores, porque pode pagar.

04:38.210 --> 04:43.650
Está fazendo uma iteração ou uma linha por vez e, portanto, as flutuações são muito

04:43.650 --> 04:49.440
maiores e é muito mais provável encontrar o mínimo global do que apenas o mínimo local.

04:49.460 --> 04:56.480
de uma vez por outra, é mais lento, mas na verdade é mais rápido porque é isso não precisa carregar todos

04:56.480 --> 05:01.670
os dados na memória e executar e aguardar até que todas essas regras estejam completamente.

05:01.730 --> 05:09.050
E a outra coisa sobre a descida do gradiente sarcástico, eu acho que é um pior gradiente, é o acolhimento como a

05:09.080 --> 05:12.610
primeira impressão que você pode ter é porque está crescendo

05:12.710 --> 05:16.780
Você pode simplesmente rolar em torno deles, um por um, então é um

05:16.790 --> 05:24.020
algoritmo muito mais leve é ​​muito mais rápido nesse sentido, embora tenha muito mais nesse sentido, pois tem mais vantagens em relação ao ruim.

05:24.110 --> 05:25.320
Método de descida gradual.

05:25.430 --> 05:31.310
ou tipo de domínio como profer o método de descida de gradiente ruim é que é um

05:31.310 --> 05:37.250
algoritmo determinista ou diferente de lançar uma descida de gradiente sendo um algoritmo sarcástico, o que significa que

05:37.250 --> 05:44.570
é aleatório e com o melhor gradiente e método, desde que você tenha o mesmos pesos iniciais para sua rede neural.

05:44.570 --> 05:45.430
A principal vantagem

05:45.500 --> 05:52.300
Toda vez que você executa o método de descida do gradiente em lote, você obterá as mesmas iterações os mesmos resultados para você

05:52.300 --> 05:57.960
todo o tempo em que seus pesos estão sendo atualizados para que possamos ter o método decente de gradiente

05:57.980 --> 05:58.300
sarcástico.

05:58.310 --> 06:04.550
Você não entenderá isso porque é um método estocástico que você está escolhendo seus papéis possivelmente aleatoriamente

06:04.570 --> 06:10.940
e você está atualizando sua rede neural de forma sarcástica e, portanto, você está indo cada vez que

06:10.940 --> 06:15.380
você executar a categoria um método decente mesmo se você tiver os

06:15.380 --> 06:20.770
mesmos pesos no início, você terá um processo diferente e diferentes iterações para chegar lá.

06:20.780 --> 06:28.100
Então, em poucas palavras, o que é para castigar e dissentir também existe um método entre os dois, chamado Método

06:28.100 --> 06:34.520
de descida de gradiente de lote, onde você combina os dois e basicamente executa em vez de executar

06:34.520 --> 06:37.640
um lote inteiro de executar um de cada vez.

06:37.640 --> 06:44.150
Você executa lotes de linhas talvez 5 10 100, no entanto, muitas linhas você decide configurá-lo para executar esse número de linhas de cada

06:44.150 --> 06:47.690
vez, então você atualiza seus dígitos de maneira única e assim por diante.

06:47.900 --> 06:52.670
E isso é chamado de método de descida gradiente Mini Bache se você quiser saber

06:52.670 --> 06:56.630
mais sobre a descida gradiente, há um ótimo artigo que você pode ver.

06:56.660 --> 07:04.940
Andrew Trask e os links abaixo são bons 12 15 artigos muito bem escritos termos muito simples.

07:04.940 --> 07:12.840
É chamada de rede neural em 13 linhas da parte de Python para grande e descer por

07:12.920 --> 07:21.860
Tem alguns pensamentos filosóficos ou interessantes interessantes sobre como aplicar água verde decente, você conhece vantagens e desvantagens e como

07:22.340 --> 07:28.460
ser como fazer coisas em certas situações para que você tenha algumas truques e

07:28.460 --> 07:30.730
hacks de dicas muito legais.

07:31.370 --> 07:33.620
Muito fácil de ler, então, definitivamente, verifique isso.

07:33.800 --> 07:37.010
E outro mais um pouco mais pesado.

07:37.010 --> 07:41.930
Para aqueles de vocês que estão em matemática que querem chegar ao fundo da matemática por quê.

07:41.930 --> 07:45.180
Gradient descente é específico.

07:45.260 --> 07:49.200
Quais são as fórmulas que estão gerando classificações? E como é calcular e assim por diante.

07:49.220 --> 07:51.610
Confira o artigo ou, na verdade, o livro.

07:51.620 --> 07:57.160
É um livro on-line gratuito chamado redes neurais e aprendizagem profunda pelo livro Michael Nielsen 2015.

07:57.160 --> 08:02.190
É basicamente tudo em linha, você pode seguir em frente e verificá-lo lá.

08:02.450 --> 08:05.870
E novamente, uma introdução muito suave à matemática.

08:05.870 --> 08:12.260
Mas então, para uma mãe, a matemática, mas as matemáticas são bastante pesadas enquanto você segue enquanto lê

08:12.530 --> 08:13.340
o artigo.

08:13.610 --> 08:20.240
onde você primeiro aquece a matemática e então você pula, estou tão interessado em matemática, então esse é o artigo a seguir.

08:20.240 --> 08:25.370
Mas, ao mesmo tempo, faz você entrar nesse humor. Eu acho que você quer dizer que tem um

08:25.370 --> 08:26.110
capítulo de aquecimento,

08:26.540 --> 08:32.780
E aí vamos, então, em poucas palavras, a diferença entre o sentido de Graney

08:32.810 --> 08:36.360
para lançar a descida gradiente e como trabalhar.

08:36.410 --> 08:39.830
E nessa nota, vamos encerrar hoje, disse Tauriel.

08:39.840 --> 08:42.000
Estou ansioso para vê-lo no próximo.

08:42.020 --> 08:44.090
E até então aproveite o aprendizado profundo.