WEBVTT

00:00.600 --> 00:02.360
Olá e bem-vindo à história.

00:02.520 --> 00:07.920
Agora, vamos fazer o loop for para calcular a perda de política e a perda de valor e,

00:07.920 --> 00:13.260
uma vez que temos essas duas lições, poderemos usar nosso otimizador para colocar para obter cigarro na

00:13.260 --> 00:14.820
areia para reduzir as perdas.

00:14.820 --> 00:15.990
Tudo bem, então vamos lá.

00:15.990 --> 00:22.740
Começamos aqui, a propósito, no tutorial anterior, implementamos esta seção e esqueci de remover as

00:22.740 --> 00:24.280
sangrentas desculpas por isso.

00:24.420 --> 00:28.210
Então, a partir daqui, não está no outono.

00:28.530 --> 00:32.650
E agora estamos iniciando um novo ciclo completo, então eu estou começando aqui com quatro.

00:32.840 --> 00:38.340
E agora, o que vamos fazer é que vamos começar do último passo que foi feito durante a

00:38.670 --> 00:40.420
exploração e vamos avançar no tempo.

00:40.470 --> 00:51.250
Então é por isso que eu estou fazendo por mim em recompensas de terra de alcance reverso, as maiores recompensas são as menores.

00:51.260 --> 00:57.000
E dado que cada passo da exploração está associado a onde trabalhamos, porque em cada etapa recebemos recompensa

00:57.230 --> 00:58.400
quando, então, nós falamos.

00:58.400 --> 01:05.090
Esse número de etapas e este reverso aqui são usados ​​para que possamos voltar para o tempo para que possamos ir.

01:05.160 --> 01:10.890
o que faremos é atualizar a recompensa cumulativa que está longe e vamos atualizá-la dessa maneira.

01:10.890 --> 01:11.570
E agora,

01:11.640 --> 01:14.110
Na verdade, é o mesmo que fizemos com a Doom.

01:14.170 --> 01:23.280
É igual à gama que obtemos de nossos parâmetros e a partir dos primeiros programas que não são muito maiores,

01:24.060 --> 01:31.290
além da recompensa deste, que podemos obter ao receber a menor recompensa e tomar o índice.

01:31.500 --> 01:36.680
Então, para nós, este será o trabalho do último e depois será a recompensa do dia anterior e etc.

01:37.080 --> 01:43.320
e cada vez que atualizamos nossa, multiplicando-a por gama e depois adicionando esta recompensa no conjunto.

01:43.650 --> 01:47.090
E assim, fazendo isso, lembre-se de que iremos no final.

01:47.210 --> 01:53.070
vierem e nós receberemos nossa recompensa da comunidade que será legal no final do loop para o nosso zero.

01:53.070 --> 01:55.910
Então eu vou escrever isso à medida que eles

01:56.060 --> 02:02.100
A recompensa do passo zero mais os tempos de gama são um.

02:02.290 --> 02:09.040
Nós fomos os primeiros que mais a gama de vezes são a palavra.

02:09.060 --> 02:21.960
O segundo passo mais que mais a gama na potência de e menos uma vez a recompensa alcançada no passo e menos 1, onde qualquer

02:22.800 --> 02:30.690
número de etapas, mas depois tenha cuidado no final, teremos uma gama na medida do

02:31.050 --> 02:32.250
número de etapas.

02:33.530 --> 02:40.110
Os tempos desvalorizam o valor da função aplicada ao último estado.

02:40.150 --> 02:42.450
É o que devemos conseguir ainda.

02:42.680 --> 02:49.130
E isso vamos conseguir isso porque lembre-se aqui, obtivemos esse valor e o último passo, porque isso foi feito

02:49.130 --> 02:50.840
no final deste loop aqui.

02:51.200 --> 02:56.140
E então obtivemos o valor e estabelecemos que seja igual a esse valor.

02:56.420 --> 03:02.710
Então, no momento, no início do segundo ciclo completo, será igual ao valor da última

03:02.710 --> 03:03.310
data.

03:03.590 --> 03:10.300
Mas então, ao fazer isso, isso é o que receberemos no final são iguais ou zero por cento ou um campo

03:10.520 --> 03:16.620
de tênis ou dois mais podem adicionar o poder e menos uma vez que estávamos no passo e menos

03:16.620 --> 03:20.990
um jogo mais ao poder do número de passos, esse valor dos Últimos tempos.

03:21.020 --> 03:25.900
Então, essa é a principal coisa a entender e esta pode ser a ação da recompensa cumulativa.

03:26.090 --> 03:33.560
E é por isso que é importante começar com isso inicializando ou com o aqui e fazendo esse

03:33.820 --> 03:37.390
loop invertido para obter esta equação final perfeita.

03:37.400 --> 03:43.430
E agora, agora que temos o valor certo para a recompensa cumulativa. Bem, calcularemos a vantagem e

03:43.850 --> 03:49.110
a vantagem aqui é apenas a vantagem de obter essa recompensa em relação a elas.

03:49.160 --> 03:56.600
Então, vou apresentar uma vantagem evolutiva e, portanto, será igual a essa recompensa cumulativa

03:57.020 --> 04:01.390
menos o valor da função V obtida no estágio.

04:01.610 --> 04:06.690
Então, portanto, esses são os nossos valores negativos.

04:07.130 --> 04:07.740
Perfeito.

04:07.760 --> 04:13.160
E agora que temos a comunidade em que trabalhamos e a vantagem, podemos obter a perda de valor.

04:13.190 --> 04:15.170
Este é o primeiro que podemos obter agora.

04:15.200 --> 04:20.940
Então, vamos conseguir que nosso valor seja muito bom e isso será atualizado da seguinte maneira.

04:20.960 --> 04:24.530
Lembre-se até agora de que nos desvalorizamos foi inicializado para zero.

04:24.800 --> 04:34.670
E então vamos levar a perda de valor novamente e em 0. 5 vezes o quadrado para a vantagem para que possamos conseguir isso

04:34.670 --> 04:35.480
dessa maneira.

04:35.490 --> 04:39.410
Advento pensou também.

04:39.470 --> 04:46.460
Então, isso significa apenas compensar a vantagem do poder e esse é exatamente o valor

04:46.580 --> 04:52.830
mais a perda gerada pelas previsões do valor das saídas de função pelo riacho.

04:53.120 --> 04:59.840
E então faz sentido que isso seja desvalorizado apenas porque lembrar a vantagem da ação no estado

04:59.840 --> 05:04.820
s é a diferença entre o valor Q eo valor da função B.

05:04.880 --> 05:14.660
E assim, quando jogamos a ação ideal Bem, obtemos o estado estacionário com Q otimizado da ação ideal,

05:14.660 --> 05:20.080
um jogador estrela no estado é igual ao valor ideal.

05:20.080 --> 05:22.000
Vistar do estado s.

05:22.180 --> 05:28.390
entender que, quando a vantagem não é igual a zero, haverá uma diferença entre esses dois.

05:28.390 --> 05:29.990
Portanto, é bastante intuitivo

05:30.220 --> 05:32.930
E, portanto, é assim que o último é medido.

05:33.370 --> 05:34.120
ESTÁ BEM.

05:34.120 --> 05:37.410
Então, o último cálculo final acabou.

05:37.420 --> 05:39.000
Agora temos mais um para ir.

05:39.010 --> 05:44.560
da política e é isso que vamos calcular agora e, para computá-la, precisamos considerar

05:44.560 --> 05:51.990
novamente a estimativa da vantagem generalizada porque, para calcular a perda de políticas, precisamos estimar a vantagem generalizada

05:52.000 --> 05:58.450
e obter as vantagens generalizadas da nação precisamos primeiro da diferença temporal das válvulas de estágio.

05:58.540 --> 05:59.760
É a perda

05:59.830 --> 06:06.220
Então, temos várias coisas para calcular aqui e vamos começar com essa diferença temporal uma vez que

06:06.220 --> 06:07.710
obtemos a diferença temporal.

06:07.780 --> 06:12.850
Obteremos a estimativa da vantagem generalizada e, uma vez que obtenhamos as vantagens

06:13.180 --> 06:14.900
generalizadas, faremos as penínsulas.

06:14.920 --> 06:15.460
Tudo bem.

06:15.670 --> 06:28.100
Então vamos começar com a diferença temporal T. G. gera o valor desta dívida mais uma

06:28.700 --> 06:39.200
e adicionamos esses dados para acessá-lo menos o valor do passo I e o mesmo que adicionamos os dados.

06:39.200 --> 06:50.260
DD é igual à recompensa do passo I, mais Gana, que obtemos a nossa lista de programas, então a Bromstad

06:50.280 --> 06:50.610
Tudo bem.

06:50.670 --> 06:53.900
Essa é a fórmula da diferença temporal e os valores do estado.

06:54.180 --> 06:59.690
E agora podemos atualizar a estimativa de vantagem generalizada e como é datado.

06:59.880 --> 07:10.230
Bem, nós tomamos o R-GA e nós o multiplicamos por gamma times gamma times, de modo que nós também acessamos com nossos

07:10.230 --> 07:10.940
parâmetros.

07:10.950 --> 07:18.410
Então, levamos programas de células e adicionamos essa diferença temporal dos valores do estado.

07:18.510 --> 07:19.890
Por isso tem cuidado.

07:19.890 --> 07:21.280
Estamos no circuito.

07:21.450 --> 07:27.060
E cada vez que multiplicamos o passo a passo e acrescentamos uma diferença temporal.

07:27.150 --> 07:33.720
Por isso, é importante entender que no final deste loop. Bem, essa estimativa de

07:34.170 --> 07:46.180
vantagem generalizada será igual à soma em todas as etapas de tempos-gama, de modo que o poder de i vezes a diferença temporal no passo

07:46.480 --> 07:50.360
seja tão importante para manter isso em mente.

07:50.700 --> 07:57.000
E agora que temos a estimativa de vantagem generalizada e a diferença geral, podemos

07:57.000 --> 07:58.880
finalmente calcular a política.

07:59.070 --> 08:00.210
Então vamos fazer isso.

08:00.210 --> 08:10.020
Vamos atualizar as nossas leis de política da seguinte maneira, levando a política antiga para nós e restravemos as

08:10.230 --> 08:20.280
probabilidades de LUGG obtidas no passo que multiplicamos por esta estimativa de vantagem generalizada que temos que colocar uma

08:20.280 --> 08:23.920
variável porque então vamos computar os gradientes.

08:24.150 --> 08:33.170
Portanto, ele deve ser anexado aos gradientes no gráfico e depois adicionamos menos 0. 1 vez a entropia.

08:33.170 --> 08:36.660
A entropia obtida no passo no outono.

08:37.200 --> 08:38.130
E de novo.

08:38.220 --> 08:39.540
Agora tenha cuidado.

08:39.540 --> 08:50.830
alguns sobre as etapas do luggin do produto na política nos tempos de etapa para estimativa de vantagem generalizada.

08:51.280 --> 09:03.110
Este é o interior do loop, o que significa que no final da gripe o que você receberá é política mais

09:03.110 --> 09:04.090
igual, menos

09:04.160 --> 09:10.710
Além disso, 0. 01 vezes a entropia faz o que nós conseguimos.

09:10.720 --> 09:13.240
E agora, qual é a política do eu.

09:13.280 --> 09:19.100
Bem, essas são as probabilidades macias de Max das ações e a entropia disso que eu vou saber o

09:19.100 --> 09:21.320
que é é onde nós calculamos anteriormente.

09:21.430 --> 09:22.870
E o que pretendemos fazer uma lista.

09:22.940 --> 09:24.130
Então nós já temos isso.

09:24.290 --> 09:29.950
Mas este ano eu ouço que é a probabilidade macia de Max das ações.

09:30.170 --> 09:32.080
E por que colocamos um menos aqui.

09:32.150 --> 09:37.220
Isso porque a sorte da probabilidade e a entropia são valores negativos.

09:37.220 --> 09:43.340
E como queremos minimizar seu valor absoluto, devemos ver isso como a probabilidade de LUGG, ao contrário

09:43.340 --> 09:44.370
de uma distância.

09:44.370 --> 09:51.530
Não, queremos maximizar a probabilidade de ação que maximize a vantagem.

09:51.530 --> 09:53.130
Essa é a ideia por trás disso.

09:53.210 --> 09:59.060
para aqueles de vocês que possam estar se perguntando qual é o propósito dessa entropia eficiente.

09:59.060 --> 10:03.500
Queremos maximizar a probabilidade de jogar a ação que maximizará a vantagem e

10:03.650 --> 10:05.720
Existe esse fator 0. 01 aqui.

10:05.930 --> 10:13.430
Bem, o objetivo disso é apenas evitar que ele caia muito rapidamente em uma armadilha onde temos uma distribuição de

10:13.430 --> 10:19.340
probabilidades com zeros para todas as ações, exceto uma que tenha uma probabilidade de uma.

10:19.550 --> 10:22.370
E se isso acontecer, isso minimizaria a entropia.

10:22.550 --> 10:29.060
Então é por isso que estamos adicionando essas pequenas revisões 0. 01 ano que fará com que a entropia

10:29.060 --> 10:30.940
aumente no Grande no sentido.

10:31.020 --> 10:35.460
Ok, então agora a boa notícia é que a parte mais difícil é feita.

10:35.500 --> 10:41.050
Nós temos as duas perdas e, portanto, o que precisamos fazer agora e já sabemos como fazê-lo é

10:41.050 --> 10:44.820
realizar apenas para obter uma nota no sentido de reduzir essas duas classes.

10:45.190 --> 10:51.170
E então o que vamos fazer agora é sair deste loop e nós vamos pegar o nosso otimizador.

10:51.390 --> 10:57.220
O que fizemos separadamente, então lembre-se que a primeira coisa que temos a fazer é inicializar todos

10:57.220 --> 11:04.810
os parâmetros de classificação para zero e, para isso, adicionamos que, em seguida, a zero e é chamado de método de graduação.

11:04.810 --> 11:06.980
Tudo bem, então está pronto.

11:07.000 --> 11:11.890
Agora vamos fazer propagação para trás, mas vamos dar duas vezes mais importância à

11:11.890 --> 11:15.670
política do que o valor perdido porque a política é menor.

11:15.970 --> 11:28.190
Então, para fazer isso, vamos colocar a política de parênteses e a pontuação mais mais 0. 5 perda de valor, portanto 0. 5 vezes o valor para nós e vamos adicionar

11:28.970 --> 11:37.400
aqui que aplicamos o método atrasado para realizar a propagação para trás e graças a este truque aqui

11:37.400 --> 11:43.880
com a política menos mais metade do valor que temos duas vezes mais importância

11:43.880 --> 11:47.460
para a política do que o Vaness.

11:47.480 --> 11:53.630
OK, então vamos usar outro truque, que é para evitar que o gradiente tire

11:53.630 --> 11:56.890
valores extremamente grandes e, portanto, gere o algoritmo.

11:57.020 --> 12:03.530
o módulo da biblioteca da tocha, em seguida, o submodule utils e agora vamos usar uma função

12:04.220 --> 12:13.040
CLEP undercore grad's na norma de pontuação e vamos entrar no nosso parâmetros do modelo com uma segunda entrada que será 40.

12:13.530 --> 12:20.830
E o truque para fazer isso é obter primeiro a nossa biblioteca de tocha, em seguida, o fim e

12:21.200 --> 12:26.560
E esse truque basicamente assegurará que os gradientes não tomem valores extremamente grandes

12:26.560 --> 12:28.000
e gerem o algoritmo.

12:28.220 --> 12:30.770
E para aqueles de vocês que talvez estejam se perguntando se esses 40 anos.

12:30.800 --> 12:31.640
Exatamente.

12:31.850 --> 12:37.130
Bem, isso significa que estamos usando esses valores, de modo que a norma do gradiente permanece

12:37.130 --> 12:42.510
entre 0 e 40 e, portanto, é assim que impedimos o gradiente de levar para grandes valores.

12:43.000 --> 12:45.170
OK, agora já terminamos.

12:45.170 --> 12:52.550
Lembre-se de que fizemos esta e certeza a função Gretz compartilhada no início do outono, que é garantir que

12:52.670 --> 12:59.450
o agente e o modelo compartilhado compartilhem os mesmos gradientes e para fazer isso para garantir que possamos

12:59.450 --> 13:01.090
aplicar esta função aqui.

13:01.220 --> 13:13.310
E então vamos adicionar e com certeza compartilhar grad's para garantir que o modelo moral e compartilhado compartilhe os

13:13.310 --> 13:14.690
mesmos gradientes.

13:14.690 --> 13:16.670
Tudo bem, então é apenas uma precaução.

13:16.670 --> 13:21.620
Não tenho certeza de que isso seja totalmente necessário, mas você sabe, pelo menos, não vamos ter um problema aqui.

13:22.040 --> 13:22.550
OK.

13:22.550 --> 13:29.900
E, finalmente, a última linha de código, é claro, vamos realizar o passo de otimização para reduzir

13:29.900 --> 13:38.900
as perdas e você sabe como fazê-lo, é claro, nós levamos o nosso otimizador e adicionamos esse passo com parênteses e

13:39.320 --> 13:43.300
então vamos ao treinamento de nossos cérebros é sobre.

13:43.550 --> 13:44.780
Então, parabéns.

13:44.780 --> 13:47.030
Espero que isso não seja muito esmagador.

13:47.060 --> 13:49.620
Não se preocupe. Vou fornecer o código com todos os comentários.

13:49.670 --> 13:53.330
Então, se você perdeu qualquer detalhe, pode dar uma olhada nos comentários.

13:53.420 --> 13:57.260
E não se preocupe se você não entendeu nada, isso é muito avançado.

13:57.410 --> 14:04.020
Mas tenha a certeza de que esta é também a visita de lembrança mais poderosa feita pelo criador de pi.

14:04.100 --> 14:06.770
Então, estamos realmente trabalhando com o melhor aqui.

14:06.850 --> 14:12.560
O estado da arte por isso é totalmente normal se você não conseguiu tudo pela primeira vez,

14:12.560 --> 14:16.520
mas trabalhando nisso muitas vezes, você ficará cada vez mais confortável.

14:16.520 --> 14:19.150
Então, acabamos com o treinamento.

14:19.220 --> 14:26.080
Então, basicamente, fizemos todas as coisas mais importantes que você conhece que criamos os cérebros construindo as arquiteturas das

14:26.120 --> 14:30.610
redes neurais com as convoluções do LCN e as camadas totalmente conectadas.

14:30.620 --> 14:34.360
Nós treinamos seu cérebro fazendo este código de trem aqui.

14:34.520 --> 14:37.190
Então, basicamente, o coração do algoritmo está pronto.

14:37.310 --> 14:39.800
Você fez o A3 ver parabéns.

14:39.800 --> 14:43.940
Agora, temos mais algumas coisas a fazer, mas isso é apenas para obter a parte divertida.

14:43.940 --> 14:52.540
Você sabe que precisamos fazer este teste que descobrimos que testará os agentes e fornecerá os vídeos e

14:52.550 --> 14:54.020
o avião explodir.

14:54.170 --> 15:00.860
Então, isso será muito divertido de assistir, não codificaremos todas as linhas desse teste que eu caí porque, como

15:00.860 --> 15:02.720
dissemos, fizemos o mais importante.

15:02.840 --> 15:10.310
relacionados, mas, claro, explicaremos o código e, eventualmente, teremos esse compósito que eu encontrei, que executará o código.

15:10.310 --> 15:11.770
Todos os 23C

15:11.890 --> 15:15.900
E a partir do momento em que executamos este código, todo o código será gerado.

15:16.040 --> 15:18.150
Então os cérebros serão feitos.

15:18.200 --> 15:24.080
O treinamento acontecerá e o olho vai jogar novos jogos de fuga e nós vamos receber todos os vídeos.

15:24.080 --> 15:26.480
Então eu não posso esperar para eventualmente vê-los.

15:26.550 --> 15:29.810
Vamos ver se ele é inteligente o suficiente para pegar a bola.

15:29.990 --> 15:36.380
Então, agora vou ver no próximo tutorial para esta UI de desktop, para que possamos testar a AI em

15:36.380 --> 15:37.250
alguns novos jogos.

15:37.300 --> 15:38.980
E até então, desfrute da AI.