WEBVTT

00:00.610 --> 00:03.190
Olá e bem vindo a este tutorial do Python.

00:03.190 --> 00:09.460
Então, vamos fazer isso, vamos fazer isso para o loop a partir da direita e indo para a

00:09.460 --> 00:11.900
esquerda e, para isso, vamos adicionar quatro.

00:11.920 --> 00:17.980
Então, este é um VAR iterativo seria o nosso passo porque iremos do último passo para o primeiro

00:17.980 --> 00:21.590
passo de uma série de transições e assim por diante.

00:21.960 --> 00:29.850
E então, o truque para ir da direita para a esquerda é usar para a inversão invertida.

00:30.160 --> 00:35.300
E agora só precisamos inserir uma seqüência e esta seqüência será, naturalmente, nossa série.

00:35.380 --> 00:41.790
Então podemos colocar nossas séries, mas como você pode ver no papel, vamos de T menos 1 para começar.

00:41.950 --> 00:47.760
Então, não vamos do último passo que é o estágio terminal, mas o passo antes disso é para

00:47.800 --> 00:50.380
menos, mas para começar é o primeiro passo.

00:50.430 --> 00:59.090
E então, aqui para ir de não para dar esse passo antes que precisemos adicionar entre colchetes coluna menos um.

00:59.380 --> 01:04.270
Tenho certeza de que para aqueles de vocês que seguiram a máquina aprendendo em um curso mais

01:04.560 --> 01:11.050
profundo, você conhece esse truque. Kollin menos um significa que você está indo até o elemento antes do último elemento, mas não

01:11.050 --> 01:14.740
até o último elemento e, portanto, nós conseguimos a sequência que queremos.

01:14.860 --> 01:20.890
Isso é o que vamos passar do elemento antes do último elemento para o primeiro elemento e que fazemos

01:20.890 --> 01:23.900
as coisas invertidas para ir da direita para a esquerda.

01:24.160 --> 01:26.810
Tudo bem, então estamos prontos para entrar no loop for.

01:27.170 --> 01:29.740
E então, dentro desse loop, o que vamos fazer.

01:29.780 --> 01:32.870
Onde vamos fazer exatamente como no papel.

01:32.900 --> 01:39.340
Vamos atualizar a recompensa cumulativa, multiplicando-a por Gana e adicionando a palavra alcançada na etapa

01:39.400 --> 01:42.500
atual que está no passo do seguimento.

01:42.670 --> 01:45.450
Tudo bem, então vamos fazer isso voltando para o Python.

01:45.590 --> 01:57.780
E então queremos atualizar o nosso acumulado, trabalhamos da seguinte maneira, multiplicando-o primeiro pela gama.

01:57.780 --> 01:58.580
Aqui vamos nós.

01:58.660 --> 02:07.910
Aqui, multiplicamo-lo por gama e depois queremos adicionar a recompensa daquela que podemos acessar dessa maneira com

02:07.970 --> 02:09.420
a estrutura especial.

02:09.450 --> 02:13.120
Lembre-se que a palavra é um atributo do objeto.

02:13.130 --> 02:15.910
E então, é claro, adicionamos uma vantagem.

02:16.020 --> 02:17.330
Tudo bem, é uma recompensa cumulativa.

02:17.450 --> 02:19.310
Igual queremos esse passo.

02:19.370 --> 02:25.620
Estamos no momento agora o loop mais Gahanna vezes a recompensa acumulada anterior antes de ser um.

02:26.150 --> 02:26.870
Perfeito.

02:26.870 --> 02:28.190
Então, agora acho que estamos bem.

02:28.220 --> 02:30.180
Estamos seguindo completamente o algoritmo.

02:30.500 --> 02:32.600
E agora tempo para os próximos passos.

02:32.840 --> 02:35.090
Bem, agora vai se tornar muito fácil.

02:35.090 --> 02:40.880
Voltamos ao primeiro acompanhamento, porque este para o loop é apenas para calcular a recompensa cumulativa, não

02:41.060 --> 02:44.010
indo da direita para a esquerda, atualizando desta forma.

02:44.030 --> 02:50.930
Seguindo o algoritmo e agora, como você lembra, o objetivo de fazer isso é preparar nossas insumos e nossos objetivos

02:50.930 --> 02:55.950
prontos para que possamos minimizar a diferença quadrática entre os dois para o treinamento.

02:55.950 --> 03:01.020
E agora, o único que temos que fazer é obter essas insumos e os WC preparados.

03:01.220 --> 03:08.410
Então, faça isso primeiro, o que precisamos fazer é adicionar a primeira data da série na nossa lista de peças.

03:08.510 --> 03:11.460
Até agora, esse estado está em parte em nosso objetivo.

03:11.480 --> 03:14.100
Isso foi apenas para calcular o resultado.

03:14.270 --> 03:19.370
Então, vamos ter esse estado de entrada do primeiro passo separadamente, porque é exatamente isso

03:19.370 --> 03:21.320
que precisamos acontecer na nossa lista.

03:21.380 --> 03:23.340
Então, vamos fazer isso separadamente.

03:23.360 --> 03:25.910
Portanto, nós vamos chamá-lo de estado.

03:26.000 --> 03:32.930
E exatamente o mesmo que aqui, podemos obter desse modo, levando o primeiro índice da série que contém a

03:32.930 --> 03:38.300
primeira transição e, em seguida, adicionando esse estado para obter o estado desta primeira transição.

03:38.330 --> 03:44.390
Então, esse é o site que precisamos, em seguida, dizendo que vamos obter separadamente os objetivos associados a

03:44.840 --> 03:46.830
esta etapa de entrada da transição.

03:46.880 --> 03:53.450
E então, uma nova variável interessante aqui alvo que será igual ao valor da primeira etapa.

03:53.540 --> 03:59.990
E uma vez que o valor Q é retornado pela rede neural e seu conteúdo e saída e,

04:00.070 --> 04:07.370
uma vez que as saídas são a saída associada a esta entrada que contém a primeira transição bem, podemos obter

04:07.370 --> 04:12.830
esse valor q da primeira data apenas tomando saída aqui e levando o índice zero.

04:13.100 --> 04:20.630
E então, adicionamos esses dados que simplesmente nos obterão o valor Q do estado de entrada da primeira transição e esse

04:21.050 --> 04:22.310
é exatamente o horário.

04:22.320 --> 04:30.080
Q Então, daqui a pouco, vamos atualizar essa variável de destino, mas apenas para a ação que foi

04:30.080 --> 04:35.680
selecionada no primeiro passo da série e acessar esta primeira etapa da série.

04:35.870 --> 04:42.710
Bem, precisamos tomar a primeira série 0 porque este é exatamente o primeiro passo em uma série 3 0.

04:42.970 --> 04:50.290
E para acessar a ação correspondente a este primeiro passo da série bem, precisamos adicionar aqui que a ação

04:50.380 --> 04:57.340
novamente essa é essa estrutura de atributos que estamos usando você sabe que a ação é um atributo

04:57.340 --> 04:58.900
do primeiro passo da série.

04:58.900 --> 05:04.570
Essa é a primeira transição da série, porque cada transição da série tem a seguinte estrutura

05:04.720 --> 05:11.350
de estado de ação de ação e, portanto, a ação aqui, essa ação de atributos aqui significa que estamos

05:11.500 --> 05:14.150
simplesmente começando a ação desta primeira data.

05:14.330 --> 05:21.320
E assim, o objetivo dessa ação específica do primeiro passo é exatamente o que precisa ser atualizado

05:21.410 --> 05:22.850
pela comunidade do mundo.

05:22.850 --> 05:29.490
Então, basicamente, aqui, vamos apenas escrever esse alvo associado à ação que foi tocada.

05:29.630 --> 05:35.810
O primeiro passo da série é essa recompensa cumulativa que acabamos de computar.

05:36.130 --> 05:44.780
estamos finalmente prontos para atualizar nossa entrada, acrescentando esta primeira estadia aqui e esta primeira está aqui pela primeira hora.

05:44.780 --> 05:46.770
Tudo bem e agora

05:46.970 --> 05:53.090
Só precisamos atualizar o primeiro passo da série, porque você sabe que treinamos o AI em 10 etapas e, portanto,

05:53.090 --> 05:56.000
a entrada é o primeiro passo das dez etapas.

05:56.180 --> 06:01.400
E também obtemos o alvo neste primeiro passo, mas, em seguida, não recebemos nenhum insumo ou

06:01.400 --> 06:06.310
nenhum banheiro nas seguintes etapas das 10 etapas, porque basicamente o aprendizado acontece 10 etapas depois.

06:06.500 --> 06:11.380
É por isso que agora nós apenas recebemos o estado e o alvo do primeiro passo da série.

06:11.840 --> 06:16.820
Portanto, é importante entender isso e, portanto, se entendermos que agora entendemos que devemos

06:16.820 --> 06:20.590
inseri-los em nossa lista de insumos e nossa lista de metas.

06:20.660 --> 06:21.560
Então vamos fazer isso.

06:21.560 --> 06:25.140
Primeiro vamos anexar os estados às nossas entradas.

06:25.190 --> 06:33.680
Então, nós levamos nossa lista de insumos e usamos a função de anexar para adicionar o estado que lembra o estado de entrada

06:33.680 --> 06:41.030
do primeiro passo da série e então vamos anexar o alvo no primeiro passo da nossa lista de alvos e

06:41.120 --> 06:47.270
para fazer isso nós levamos nossa lista de objetivos e dizemos que usamos a função de anexar

06:47.270 --> 06:49.460
para anexar este primeiro alvo.

06:49.490 --> 06:50.360
Aqui vamos nós.

06:50.540 --> 06:56.750
que precisávamos, como dissemos no início deste tutorial as entradas e os alvos que agora estão atualizados.

06:56.840 --> 07:01.760
Quase pronto e agora precisamos retornar as últimas coisas, que são, naturalmente, o

07:02.090 --> 07:07.580
Então, vamos adicionar aqui a cada turno e nós vamos começar nossas entradas primeiro, mas então

07:07.580 --> 07:14.660
é a coisa que precisamos para convertê-las em uma matriz de números primeiro, então faça uma conversão de tipo para

07:14.660 --> 07:21.710
ter certeza de que temos um único tipo com o tipo você é igual e isso flutua 32 o mesmo.

07:21.890 --> 07:28.520
E então, convertemos isso em um tensor da tocha porque, claro, estamos trabalhando com uma tocha

07:28.730 --> 07:29.540
totalmente obrigatória.

07:29.570 --> 07:36.040
E então estou usando a tocha de uma função não tailandesa novamente.

07:37.180 --> 07:39.000
E isso nos dá nossas entradas.

07:39.130 --> 07:39.590
Perfeito.

07:39.590 --> 07:42.460
E agora vamos fazer o mesmo para os alvos.

07:42.520 --> 07:44.620
Agora podemos usar esse truque que é mais rápido.

07:44.710 --> 07:50.950
Nós vamos empilhar os alvos juntos e, para fazer isso, precisamos levar a primeira nossa

07:50.950 --> 07:57.230
biblioteca de tochas porque vamos usar a função de pilha pela tocha para empilhar os alvos.

07:57.250 --> 07:57.550
Tudo bem.

07:57.550 --> 08:04.030
E, portanto, esta linha de código basicamente retorna as entradas e os banheiros que foram atualizados apenas

08:04.030 --> 08:07.100
por este algoritmo Sarsour de rastreio de elegibilidade.

08:07.180 --> 08:10.710
Ou podemos chamá-lo e entrar e enviar nossos parabéns.

08:10.780 --> 08:16.540
Estávamos prontos para fazer o treinamento final porque basicamente o treinamento consiste em minimizar as

08:16.540 --> 08:20.950
diferenças quadradas entre as previsões de nossos insumos e os banheiros.

08:21.160 --> 08:22.870
Então, procuremos nossos olhos inteligentes.

08:22.870 --> 08:25.150
Isso se tornará inteligente e o próximo.

08:25.210 --> 08:26.980
E então, até então, desfrute da AI.