WEBVTT

00:01.400 --> 00:02.990
Olá e bem-vindo de volta.

00:03.320 --> 00:08.930
Na última palestra, acabamos finalizando ou finalizando a definição real do nosso ambiente, a representação

00:08.930 --> 00:14.090
de nossos valores, nossa punição em recompensas e nossas ações no ambiente.

00:14.450 --> 00:20.510
Nesta palestra, o que eu quero fazer é apresentar o treinamento, a ideia por trás de como treinar o

00:20.510 --> 00:22.730
modelo e ajudar você a começar.

00:22.910 --> 00:28.340
E então, na próxima palestra, forneça a solução e mais detalhes para as etapas envolvidas.

00:28.610 --> 00:32.660
Então precisamos treinar o modelo o que seria necessário de treinamento.

00:33.620 --> 00:38.750
Essa é uma abordagem que podemos usar para as etapas a seguir para treinar o modelo.

00:38.750 --> 00:44.180
Queremos escolher um estado não terminal aleatório, que seria o quadrado branco do nosso agente, e é

00:44.180 --> 00:46.880
assim que queremos começar nosso episódio de treinamento.

00:47.330 --> 00:50.300
É claro que queremos escolher uma ação para o estado atual.

00:50.300 --> 00:53.030
Precisamos que nosso agente seja capaz de se movimentar pelo ambiente.

00:53.210 --> 00:59.150
Portanto, as ações para nós e nosso agente neste desafio serão escolhidas usando o Epsilon Greek.

00:59.780 --> 01:04.730
Esse algoritmo geralmente escolherá a ação mais promissora para o agente, mas ocasionalmente escolherá uma

01:04.730 --> 01:05.810
opção menos promissora.

01:05.810 --> 01:10.580
Para encorajar o agente a explorar o ambiente, realmente queremos encontrar a política ótima.

01:11.300 --> 01:14.960
Então queremos realizar a ação escolhida e fazer a transição para o próximo estado.

01:15.200 --> 01:16.340
Mover para o próximo local.

01:16.550 --> 01:21.200
E por que estou dizendo isso, quero que vocês pensem em como podem dividir isso em

01:21.200 --> 01:22.760
funções para resolver esse problema.

01:23.540 --> 01:29.390
Em seguida, precisamos receber uma recompensa por ir para um novo estado e depois calcular a diferença temporal.

01:29.750 --> 01:35.480
Temos que atualizar o valor Q para o estado anterior e o par de ações e, se a nova moeda for

01:35.480 --> 01:37.280
um estado terminal, iríamos para um.

01:37.610 --> 01:39.200
Caso contrário, iríamos para o passo número dois.

01:39.470 --> 01:43.400
Então, todo o processo, vamos ter como objetivo correr mil episódios para treinar.

01:43.670 --> 01:50.750
Isso nos dará oportunidade suficiente ou ao nosso agente oportunidade suficiente para calcular o caminho mais curto entre a área

01:50.750 --> 01:55.520
de embalagem do item e outros locais em nossa cidade de exemplo.

01:56.540 --> 01:57.020
Impressionante.

01:57.530 --> 02:02.840
Então, por favor, pense em como você aborda isso e eu quero ajudar a dar uma ideia para tentar resolver isso.

02:03.050 --> 02:07.970
Então, estaríamos olhando em nossa solução, usaremos as seguintes funções.

02:08.540 --> 02:11.540
Na verdade, posso comentar isso, pois é um código, então minhas desculpas.

02:11.960 --> 02:13.070
Não queremos um cifrão.

02:13.310 --> 02:17.990
Queremos comentá-los e eu ajudarei você a começar o primeiro.

02:18.990 --> 02:25.650
No geral, teremos essas funções definindo nossas etapas para treinar o modelo e para ajudar você a

02:25.650 --> 02:26.470
começar.

02:26.490 --> 02:31.140
Vamos dar uma olhada em como abordaríamos o estado terminal na criação de uma função dentro do python para

02:31.140 --> 02:31.440
isso.

02:31.800 --> 02:36.150
Em primeiro lugar, é claro que gostaríamos de definir nossa função como está.

02:37.640 --> 02:39.230
Estado terminal.

02:40.670 --> 02:44.630
E estes são os nomes das funções que você verá para dar uma ideia que pode ajudá-lo a

02:44.630 --> 02:45.050
decompô-lo.

02:45.500 --> 02:50.870
O que queremos fazer é pegar o índice da linha atual e o índice da coluna atual.

02:52.980 --> 03:01.440
Isso ajudará a nos dar a posição de nosso agente, e podemos adicionar aqui para nossas recompensas um verdadeiro ou

03:01.440 --> 03:02.000
falso.

03:02.010 --> 03:02.610
Então nós precisamos.

03:03.150 --> 03:05.490
Então vamos definir nosso if nossas recompensas.

03:07.430 --> 03:08.300
Da nossa corrente.

03:09.410 --> 03:11.270
Índice de linha.

03:12.510 --> 03:13.260
E atual.

03:14.040 --> 03:19.890
Índice da coluna igual a um negativo se estiverem nesse estado.

03:24.330 --> 03:28.200
Nós retornaríamos false ou de outra forma ou então.

03:29.880 --> 03:30.690
Nós voltaríamos.

03:31.500 --> 03:31.830
Verdadeiro.

03:33.620 --> 03:34.670
Bastante direto.

03:35.450 --> 03:41.360
E é assim que vamos ter nossa ideia do nosso estado terminal depois de sabermos se ele existe no

03:41.360 --> 03:44.090
estado terminal, então queremos obter o local inicial.

03:44.270 --> 03:50.660
Como dica, você pode dar uma olhada em usar o índice de linha atual no índice de coluna atual

03:50.660 --> 03:52.730
e definir numpy com um random.

03:52.730 --> 03:56.960
Queremos inicializar isso aleatoriamente nas colunas do ambiente das linhas do ambiente.

03:57.290 --> 04:00.590
Mas na próxima palestra você verá um colapso.

04:00.590 --> 04:04.520
Você verá o restante das funções com algumas notas para ajudar a ter uma ideia.

04:04.880 --> 04:08.960
Eu realmente espero que vocês tenham a chance de experimentar isso, porque é apenas uma maneira incrível de

04:08.960 --> 04:12.050
aprender, ajudar a dar uma ideia e isso é para você começar.

04:12.260 --> 04:15.080
Então não se preocupe, você terá a solução na próxima palestra.

04:15.320 --> 04:21.730
E então vamos encerrar as coisas realmente atribuindo um excelente fator de desconto para aprendizado, esse tipo de

04:21.800 --> 04:25.490
coisa para treinamento, execução do treinamento e visualização dos resultados.

04:26.030 --> 04:26.660
Impressionante.

04:27.380 --> 04:29.360
Vamos parar aqui novamente.

04:29.750 --> 04:30.830
Tente resolver isso.

04:30.830 --> 04:35.360
Mas se não, se você quiser apenas avançar, vá para a próxima palestra e você terá

04:35.360 --> 04:37.910
a solução para o treinamento para definição dessas funções.

04:38.450 --> 04:40.130
Certo, vejo vocês na próxima palestra.