WEBVTT

00:00.760 --> 00:02.520
Olá e bem-vindo ao Statoil.

00:02.830 --> 00:10.050
Então, agora o agente fez sua exploração e, em seguida, quando ele está prestes a fazer é atualizar a rede compartilhada.

00:10.240 --> 00:17.050
Então, a primeira coisa que vamos fazer é inicializar o cumulativo do que vamos chamar de capital R

00:17.070 --> 00:25.180
e nós o inicializaremos como um tensor da tocha, mas isso terá dimensões um por um porque é apenas um valor,

00:25.180 --> 00:27.710
mas nós queremos para ser um tensor.

00:27.940 --> 00:33.460
E então estou usando aqui, mas zeros e depois 1 1.

00:33.790 --> 00:37.230
Então, basicamente, a recompensa cumulativa é inicializada para 0.

00:37.610 --> 00:43.870
Ok, então, dizendo se não terminamos, se o jogo não acabar.

00:43.870 --> 00:50.200
O que queremos agora é a recompensa cumulativa para ser igual ao valor do último comércio

00:50.200 --> 00:51.750
alcançado pela rede compartilhada.

00:51.820 --> 00:54.400
Então, vamos conseguir o resultado do valor.

00:54.460 --> 01:00.870
Você conhece o valor das saídas de funções do nosso modelo e este é o valor que daremos à comunidade em

01:00.870 --> 01:01.490
que trabalhamos.

01:01.780 --> 01:05.500
Então, primeiro obtenhamos esse valor, podemos obtê-lo dessa maneira.

01:05.560 --> 01:12.820
seguida, o sublinhado novamente e, em seguida, obtemos o nosso modelo, porque ele irá produzir esse valor, mas apenas o primeiro resultado

01:13.240 --> 01:19.980
da coisa moral a fazer é o dobro em seu curso aqui e aqui podemos copiar apenas o que temos aqui.

01:19.980 --> 01:25.310
Valor, então você sabe, pois só queremos o valor que podemos adicionar aqui sub-core e, em

01:25.430 --> 01:33.050
Essa é a entrada do modelo com as imagens de entrada e a atração dos estados e estados do Sul.

01:33.220 --> 01:35.820
Então eu apenas coloco isso e lá vamos nós.

01:35.860 --> 01:37.490
Obteremos o valor.

01:37.810 --> 01:47.080
E agora, o que vamos fazer é dar o nosso valor para que todos sejam iguais ao valor e para acessar o

01:47.080 --> 01:49.350
valor que começamos a começar.

01:49.750 --> 01:50.430
Tudo bem.

01:50.440 --> 01:57.610
obter o resultado do modelo, o primeiro resultado do modelo, que já anexa esse novo valor à lista de valores.

01:57.670 --> 02:04.090
Agora, a condição if é feita e agora o que vamos fazer, já que acabamos de obter um

02:04.090 --> 02:05.330
novo valor, você sabe

02:05.500 --> 02:16.340
Portanto, podemos levar diretamente nossa lista de valores, em seguida, em direção a uma barraca e nós colocamos a variável são porque a nossa.

02:16.530 --> 02:20.560
Este último valor tão grande que é feito agora.

02:20.850 --> 02:25.180
Vamos inicializar as perdas e recordar as palestras de intuição.

02:25.260 --> 02:26.320
Você tem duas perdas.

02:26.340 --> 02:31.780
Você tem a última da política que é a última relacionada com as previsões do agente.

02:31.860 --> 02:36.070
E então você tem o último valor que está menos relacionado às previsões do crítico.

02:36.180 --> 02:41.130
Então, vamos apresentar essas duas variáveis ​​inicializadas em zero e eles vão levar

02:41.250 --> 02:44.600
aqui política para nós perda de política horrível.

02:44.690 --> 02:52.680
Inicialize-o para zero e, em seguida, o valor perdeu muito do valor e diga inicializado para zero, então não vamos esquecer de

02:52.680 --> 02:58.680
definir a recompensa cumulativa como uma variável de tocha porque precisamos que ela seja uma tocha Roybal

02:58.680 --> 03:03.990
porque estaremos calculando um gradiente com respeito a isso porque a recompensa cumulativa será um

03:03.990 --> 03:05.850
termo da perda de valor.

03:05.850 --> 03:10.050
Então, isso é viável, agora está ligado aos gráficos dinâmicos com um gradiente.

03:10.530 --> 03:16.150
tendência que você conhece quando aplicamos o gás degradado ao sol para reduzir esse último entre as previsões e os objetivos.

03:16.170 --> 03:20.580
E agora, finalmente, a última coisa que precisamos fazer antes de iniciar o loop de grande

03:20.850 --> 03:28.160
Bem, precisamos inicializar o GAAP para estimativa de vantagem generalizada e não obtê-lo ou não revestido.

03:28.260 --> 03:34.530
Tenha cuidado com essa GAAP, a variável que estamos prestes a inicializar agora é uma estimativa de

03:34.590 --> 03:35.510
vantagem generalizada.

03:35.520 --> 03:42.480
Assim, como lembrete, a estimativa de vantagem generalizada é, por definição, a vantagem de jogar a

03:42.540 --> 03:45.170
ação a observando o estado s.

03:45.210 --> 03:51.330
Portanto, é uma função da ação e do estado s e é igual à diferença entre os q

03:51.450 --> 03:54.780
valores Q A S e o valor da função V.

03:54.780 --> 03:57.120
Então, na verdade eu posso escrever aqui.

03:57.540 --> 04:05.130
A estimativa de vantagem generalizada é uma função da ação e do estado s e que é igual aos

04:05.580 --> 04:12.570
q valores da ação A e do estado S menos o valor da função V aplicado ao

04:12.650 --> 04:13.440
estado s.

04:13.530 --> 04:19.000
Estas são as vantagens generalizadas a mencionar e é isso que queremos inicializar agora.

04:19.200 --> 04:20.770
E vamos inicializá-lo para zero.

04:21.470 --> 04:27.320
para dançarinos que iriam usar o mesmo truque que o que acabamos de fazer aqui, vamos pegar

04:27.730 --> 04:35.330
a biblioteca da tocha e aplicar a função da zebra para configurá-la como um tensor de um único valor que é zero.

04:35.330 --> 04:36.730
Mas tem que ser

04:37.160 --> 04:45.730
E vamos usar essa nova variável g e isso será igual àquela tocha que os zeros 1 um como

04:45.740 --> 04:46.540
nos inicializamos.

04:46.550 --> 04:52.730
Então, isso será inicializado para zero e, portanto, os q valores da ação o estado s será igual

04:52.730 --> 04:55.600
ao valor da função V do estado s.

04:55.780 --> 04:56.290
Tudo bem.

04:56.320 --> 04:58.810
E agora estamos prontos para iniciar o loop for.

04:58.850 --> 05:00.470
Então vamos ter uma aventura aqui.

05:00.500 --> 05:04.700
Então dê uma boa pausa e vejo você no próximo tutorial para atacar isso.

05:04.820 --> 05:06.170
E então eu.