WEBVTT

00:00.330 --> 00:05.990
Olá e bem vindo a este tutorial no Statoil de hoje, vamos sincronizar com o modelo compartilhado.

00:06.150 --> 00:13.370
Então, o que vamos fazer é ainda enviar a função, é claro, e então inicializar o comprimento de

00:13.380 --> 00:13.980
um episódio.

00:14.190 --> 00:22.020
Então, vamos chamar o comprimento de um episódio e os comprimentos desse núcleo que vamos e

00:22.020 --> 00:23.800
vamos inicializar para zero.

00:23.880 --> 00:27.280
Mas, então, esse comprimento presente será incremental.

00:27.570 --> 00:30.450
E falando de incrementos em que é exatamente o que faremos.

00:30.660 --> 00:40.600
e usar esse truque para dizer, enquanto verdadeiro Kallen, repetir o que vai acontecer agora, o que acontecerá dentro desse mundo.

00:40.600 --> 00:43.840
Então, vamos usar um loop de tempo

00:44.160 --> 00:49.360
E então, a primeira coisa que vai acontecer neste loop é esse incremento da duração de

00:49.360 --> 00:50.070
um episódio.

00:50.260 --> 00:56.900
Então, a primeira coisa que vamos fazer é incrementada em 1 e, assim, podemos simplesmente

00:57.010 --> 01:02.680
ter comprimentos de episódios e adicionar aqui mais é igual a 1.

01:03.200 --> 01:06.440
E agora vamos sincronizar com o compartilhamento mais.

01:06.560 --> 01:13.520
Isso significa que é agora que o agente obterá usará o modelo compartilhado para fazer sua pequena exploração em

01:13.700 --> 01:18.730
um certo número de etapas e como o modelo vai conseguir esse modelo compartilhado.

01:18.860 --> 01:27.710
Bem, precisamos levar a nossa moral do que isso e, em seguida, usar o método de carga do Dick, porque vamos

01:27.710 --> 01:37.310
usá-lo para obter o dicionário de estado do nosso modelo compartilhado, então nós temos que colocar o modelo compartilhado primeiro e aplicar então

01:37.310 --> 01:41.870
o método estático para obtenha os parâmetros do modelo compartilhado.

01:41.900 --> 01:48.500
E é assim que o nosso modelo aqui irá obter o modelo compartilhado para sua pequena exploração Ok.

01:48.500 --> 01:53.670
E uma vez que o modelo obtém esse modelo compartilhado, agora temos que distinguir dois casos.

01:53.840 --> 02:03.280
O primeiro é se feito significando se o jogo é feito para que o jogo esteja pronto, então o que acontece nesse caso.

02:03.530 --> 02:09.840
Bem, devemos reinicializar os estados escondidos e os estados celulares do LSD e do shopping.

02:09.950 --> 02:17.510
X os estados celulares e também envelhecer X os estados escondidos e vou re-inicializar livros e como você vai reinicializá-los.

02:17.510 --> 02:21.030
E então é por isso que vou pegar Ver

02:21.170 --> 02:29.080
Bem, com apenas zeros, haverá um vetor de 256 zeros, porque lembre-se das saídas do resto.

02:29.270 --> 02:31.770
Como mencionei 1 e 256.

02:31.820 --> 02:38.970
Então, vamos lá, vamos iniciá-los usando a biblioteca da tocha e a função do zero.

02:39.170 --> 02:46.730
E uma vez que queremos um vetor de 256 zeros, iremos ouvir as dimensões um para o vetor e

02:46.730 --> 02:51.560
256 para o número de elementos que serão zero e depois iremos.

02:51.770 --> 02:58.570
Mas, então, vamos converter isso em uma tocha Voivode porque, em seguida, alguns gradientes serão computados.

02:58.640 --> 03:02.000
Portanto, precisamos integrar isso com um gradiente.

03:02.030 --> 03:02.510
Tudo bem.

03:02.540 --> 03:09.860
E nós vamos fazer o mesmo para os estados escondidos logo abaixo e realmente analisá-los da mesma maneira.

03:09.980 --> 03:10.680
Aqui vamos nós.

03:10.790 --> 03:13.050
Então, se o jogo estiver pronto.

03:13.360 --> 03:20.810
E agora o outro caso com o qual podemos acessar com Else além do que acontece nesse caso.

03:20.990 --> 03:27.270
Bem, vamos manter os antigos estados da célula e as apostas escondidas e, muito

03:27.270 --> 03:37.910
facilmente, podemos manter os antigos desta forma digitando ver X igual a variável cx que dados e mesmo para isso nos Estados Unidos,

03:39.050 --> 03:45.580
podemos simplesmente adicionar aqui H x igual variável xx que os dados estão em.

03:45.650 --> 03:46.570
Bom feito.

03:46.580 --> 03:52.880
Agora, podemos sair do outro, porque basicamente terminamos com estes dois casos, se o jogo acabou

03:52.910 --> 03:58.340
ou não, mas ficamos no loop while, porque agora vamos fazer mais coisas que

03:58.340 --> 04:00.450
basicamente são todos os treinamentos processo.

04:00.530 --> 04:05.960
E então, o que vamos fazer agora é inicializar várias variáveis ​​que estarão no

04:06.050 --> 04:07.990
centro dos cálculos no treinamento.

04:08.180 --> 04:13.660
Então, vamos fazer isso, vamos precisar dos valores que lembram é a saída do crítico.

04:13.790 --> 04:15.170
Essa é a função.

04:15.170 --> 04:17.850
E nós os inicializaremos como um ninho vazio.

04:17.960 --> 04:22.790
Desta forma, então, precisaremos ter probabilidades de arrastar.

04:22.930 --> 04:27.570
Então, problemas de sorte e também o inicializaremos como uma lista vazia.

04:27.590 --> 04:33.540
Então, é claro, vamos precisar de todas as palavras que também vamos inicializar como uma lista vazia.

04:33.650 --> 04:38.810
E, finalmente, vamos precisar que a entropia é algo novo.

04:38.960 --> 04:43.240
Mas isso é, de fato, no cerne das condições de treinamento.

04:43.280 --> 04:45.120
Então, até mesmo assim.

04:45.170 --> 04:50.690
iniciar um novo loop FOR e, em seguida, esse nymphal atualizará os valores dessas quatro variáveis.

04:50.690 --> 04:53.350
Então, agora que inicializamos essas quatro variáveis, podemos

04:53.420 --> 04:59.330
E então, este novo Foluke vai ser um aro completo durante as etapas de expiração e, portanto, a

04:59.330 --> 05:01.530
variável de looping será os nossos passos.

05:01.550 --> 05:11.570
Então, para um passo no alcance e no interior, podemos colocar diretamente pontos não-paradas porque o parâmetro em alguns passos é

05:11.660 --> 05:15.170
exatamente o número de etapas da aceleração.

05:15.170 --> 05:19.190
Então, para todas as etapas da aceleração, o que fazemos.

05:19.370 --> 05:22.690
Bem, nós vamos conseguir as previsões do modelo.

05:22.740 --> 05:28.730
levar o modelo e aplicá-lo às entradas que o sinal de entrada passa pelos cérebros no modelo.

05:28.730 --> 05:33.670
Agora, o que é retornado pelo modelo e para obter essas previsões, podemos simplesmente

05:33.830 --> 05:39.020
E isso nos dará as saídas, mas obterá vários resultados que você sabe que nos obterá

05:39.020 --> 05:42.010
os valores da função que é a saída do crítico.

05:42.200 --> 05:48.560
Então, o q valoriza QSA, que é a saída do ator, mas também não se esqueça de que

05:48.680 --> 05:54.830
ele também produzirá o derrube dos estados de Doheny e estados pequenos, porque lembre-se se voltarmos para

05:54.830 --> 06:00.230
nosso modelo bem na função direta, podemos ver isso mesmo Retorna a saída do crítico.

06:00.320 --> 06:08.090
Esse é o valor da função sim, então a saída do ator que do cubo valoriza QSA e também o

06:08.090 --> 06:14.930
resultado do CM, que é esse duplo verifica e vê X então Estados e os Estados celulares.

06:14.930 --> 06:16.910
Portanto, devemos ter cuidado com isso.

06:16.910 --> 06:22.310
Isso é bastante diferente do que aconteceu antes e, portanto, agora vamos aplicá-los todos

06:22.310 --> 06:24.470
aos insumos que são o estado.

06:24.530 --> 06:28.020
Mas agora existem várias coisas a fazer relacionadas à tortura.

06:28.030 --> 06:31.130
Mas isso dá, naturalmente, o poder para o que estamos fazendo.

06:31.190 --> 06:39.920
A primeira coisa que precisamos fazer é espremer os estados para adicionar essa dimensão que deve ter o

06:39.920 --> 06:40.880
índice 0.

06:40.910 --> 06:47.080
Isso porque o modelo só pode aceitar um lote de entradas e não um fim por si só em um vetor ou intenso.

06:47.240 --> 06:53.320
Essa é a primeira coisa que devemos fazer e espremer, mas isso não é tudo o

06:53.360 --> 06:58.950
que precisamos para converter nossos estados de entrada em uma tocha inesperada e eu aqui.

06:59.180 --> 07:05.660
Então, agora estamos com o estado da polícia estadual, mas lembre-se de que as entradas das quatro funções são na verdade

07:05.660 --> 07:06.990
a imagem de entrada.

07:06.990 --> 07:14.660
Isso é o que acabamos de cuidar, mas também esse tipo de idade X os estados e os estados celulares e,

07:14.900 --> 07:16.500
portanto, precisamos adicionar aqui.

07:16.610 --> 07:23.160
Esta segunda parte da contribuição com seu apelo de idade X e 6.

07:23.190 --> 07:23.690
Tudo bem.

07:23.730 --> 07:26.410
E devemos seguir os parênteses.

07:26.430 --> 07:32.550
Lá vamos nós temos nossas duas entradas, o primeiro é o estado de entrada que é imagens de entrada

07:32.550 --> 07:38.580
todas convertidas em variável e espremidas para adicionar esta dimensão falsa do lote e eles param todos os estados

07:38.760 --> 07:40.260
e os estados do Sul.

07:40.440 --> 07:41.630
Então, estamos todos bons para ir.

07:41.670 --> 07:43.890
Estamos prontos para obter nossas previsões.

07:44.100 --> 07:46.360
E agora desde este retorno.

07:46.500 --> 07:52.530
resultado do crítico, até o ator e o topo de todos os reinícios exigidos pelo CME.

07:52.530 --> 07:54.430
Bem, nossas três previsões, o

07:54.630 --> 07:59.840
Bem, vamos apresentar algumas três novas variáveis ​​agora que liberarão três saídas.

07:59.910 --> 08:05.380
Então, nós obtemos o primeiro resultado é o valor da função V, que é a saída do crítico.

08:05.520 --> 08:07.960
Então, vamos chamar isso.

08:08.490 --> 08:08.960
Então vamos lá.

08:08.970 --> 08:10.250
Esse é o primeiro resultado.

08:10.350 --> 08:14.630
Então, o segundo resultado será a saída do ator.

08:14.760 --> 08:16.820
E esse é o Q QSA dos valores.

08:17.130 --> 08:24.570
Mas, como os valores de q estão associados às ações, também podemos chamá-los de valores de ação.

08:24.690 --> 08:25.550
Tudo bem.

08:25.710 --> 08:28.850
E, em seguida, encontrar uma saída retornada pelo dia seguinte.

08:28.920 --> 08:37.380
Esse é o dobro do imposto de vendas escondido e os estados das células vêem X e então nós vamos, temos três

08:37.620 --> 08:40.110
saídas retornadas por todos eles perfeitos.

08:40.110 --> 08:45.750
Então, agora que temos as prédições, precisamos usar um Max suave para jogar a ação correta.

08:45.750 --> 08:48.560
E agora, isso vai ser exatamente o mesmo que fizemos antes.

08:48.600 --> 08:57.320
e quais, naturalmente, os valores reais que são os valores de q que são as saídas do ator no modelo.

08:57.320 --> 09:05.570
O próximo passo é obter nossas probabilidades para que possamos chamá-las de e é aí que costumamos usar o

09:05.570 --> 09:12.270
método Max que tomamos do módulo funcional que possui um tiro no ff que sofreu Max

09:12.290 --> 09:19.150
e que irá gerar uma distribuição das probabilidades da entrada que estamos prestes a colocar agora

09:19.220 --> 09:25.070
Ocasionalmente, temos nossas probabilidades, mas como você percebeu que vamos trabalhar com a entropia e

09:25.130 --> 09:31.280
a entropia conjunta não só lideraria as probabilidades, mas também as probabilidades LUGG porque a entropia

09:31.280 --> 09:37.280
é a soma do produto Lucke prob. vezes trub tudo isso multiplicado por menos 1.

09:37.400 --> 09:46.420
E também precisamos ter nosso amor sobre o qual os mesmos serão gerados a partir de LUGG soft max.

09:46.460 --> 09:51.580
que aplicamos ao cubo e usamos o que chamamos de valores de ação.

09:51.860 --> 10:01.260
Então, em vez de tomar uma distribuição das probabilidades, tomamos uma distribuição das probabilidades e é isso que fazemos com o LUGG sofreu

10:02.500 --> 10:04.490
a função Optimax para dizer

10:04.500 --> 10:07.520
Tudo bem, então agora temos o problema e o bloqueio.

10:07.600 --> 10:11.700
E então estamos prontos para obter a entropia e a entropia.

10:12.250 --> 10:13.680
Qual é a fórmula para isso.

10:13.780 --> 10:19.830
Bem, como acabei de mencionar, tomamos o prompt de chance que multiplicamos pelo produto.

10:20.200 --> 10:28.250
Então vamos tomar a soma de tudo isso e, para isso, podemos adicionar aqui que alguém que realmente usamos a

10:28.250 --> 10:29.920
rua muitas vezes agora.

10:30.230 --> 10:33.500
E, como dissemos, multiplicamos isso por menos 1.

10:33.740 --> 10:37.150
Portanto, é o menos da soma do produto.

10:37.170 --> 10:38.600
Muitas vezes.

10:39.140 --> 10:39.750
Perfeito.

10:39.860 --> 10:45.380
E agora vamos armazenar essa entropia que foi calculada apenas na nossa lista de entropia.

10:45.650 --> 10:48.550
Aí nós temos o último cálculo da entropia.

10:48.590 --> 10:53.660
E, portanto, precisamos armazená-lo na lista de entropias e para fazer isso, nada mais simples, vamos usar

10:53.660 --> 10:57.450
a função de anexar, é claro, porque as entropias são uma lista.

10:57.500 --> 11:04.790
Então, nós levamos a nossa lista de entropias, em seguida, comece e usamos a função de anexar para adicionar

11:04.790 --> 11:06.550
a entropia que é computada.

11:06.560 --> 11:08.440
Tudo bem, então vamos dar uma pausa agora.

11:08.450 --> 11:14.210
Vamos fazer isso passo a passo na próxima história, vamos jogar a ação fazendo um sorteio

11:14.360 --> 11:16.740
aleatório dessa distribuição gerada de probabilidades.

11:17.030 --> 11:22.310
E depois de jogarmos a ação, obteremos o valor desse estado e, eventualmente, vamos armazenar nossa

11:22.310 --> 11:24.310
nova recompensa de estados de transição.

11:24.360 --> 11:29.430
E assim será um novo grande passo feito e vamos completar isso no próximo obstáculo.

11:29.570 --> 11:31.020
Até então, eu.