WEBVTT

00:00.710 --> 00:02.430
Olá a todos e bem-vindos de volta.

00:02.450 --> 00:04.970
Nesta palestra, vamos configurar nosso ambiente.

00:05.270 --> 00:10.820
E quero apresentar esta visão geral de alto nível para aqueles que desejam tentar resolvê-lo por conta

00:10.820 --> 00:11.180
própria.

00:11.480 --> 00:14.120
E isso pode parecer familiar na última palestra que você viu.

00:14.330 --> 00:15.740
Então, se você lê-lo, minhas desculpas.

00:15.740 --> 00:17.270
Nós vamos passar por isso muito rapidamente.

00:17.900 --> 00:18.740
Primeiras coisas primeiro.

00:19.160 --> 00:24.230
Neste projeto, realmente pretendemos mantê-lo o mais simples possível no sentido de não precisarmos

00:24.230 --> 00:25.400
importar muitas bibliotecas.

00:25.400 --> 00:27.890
Basicamente, usaremos o NumPy para isso.

00:27.890 --> 00:33.050
Só precisamos importar NumPy como e P, geralmente a referência comum para numpy.

00:33.350 --> 00:37.250
E também queremos configurar nosso ambiente, como você verá aqui.

00:37.520 --> 00:40.430
E vamos passar por isso de novo muito rapidamente como uma visão geral.

00:40.580 --> 00:46.190
O primeiro passo para o nosso aprendizado Q é que queríamos encontrar um ambiente no qual o carteiro tenha que navegar.

00:46.190 --> 00:49.910
Precisamos desse ambiente configurado para que possamos realmente iterar e passar por ele.

00:50.570 --> 00:55.340
Nesta palestra, o ambiente vai consistir em estados, ações e recompensas.

00:55.700 --> 01:01.100
Estados e ações são entradas para o agente de aprendizagem Q, enquanto as ações possíveis são os agentes,

01:01.100 --> 01:06.410
saídas são estados sobre os quais podemos pensar e olhar para esta imagem como nossa representação.

01:06.710 --> 01:11.360
Os estados em nosso ambiente são todos os locais possíveis dentro da cidade que podemos chamar de cidade de

01:11.360 --> 01:11.630
exemplo.

01:11.960 --> 01:17.810
Alguns desses locais são os limites da cidade que serão nossos quadrados pretos, enquanto outros locais são ilhas

01:17.810 --> 01:21.050
que o carteiro pode usar para viajar pela cidade.

01:21.050 --> 01:22.310
Esses serão os quadrados brancos.

01:22.820 --> 01:26.750
O Quadrado Verde indica a área de embalagem e envio do item.

01:27.140 --> 01:31.310
Os quadrados pretos e verdes são o que vamos chamar de estados terminais.

01:31.640 --> 01:35.990
Portanto, no geral, nosso objetivo ou o objetivo de nosso agente, queremos usar o caminho mais curto.

01:35.990 --> 01:41.810
Queremos que nosso agente conheça o caminho mais curto entre a área de embalagem do item, jarra, verde e todos os

01:41.810 --> 01:45.050
outros locais da cidade onde o carteiro tem permissão para viajar.

01:49.330 --> 01:55.480
Na imagem acima, temos 121 estados ou localizações possíveis dentro da cidade.

01:55.930 --> 01:58.450
Esses estados são organizados em uma grade de 11 por 11.

01:58.750 --> 02:02.140
Cada local pode ser identificado por seu índice de linha e coluna.

02:02.560 --> 02:04.450
Então, qual seria o nosso primeiro passo?

02:04.450 --> 02:07.660
E isso é realmente quero que vocês comecem a pensar em como podem defini-lo.

02:08.470 --> 02:10.340
Precisamos definir nosso ambiente.

02:10.360 --> 02:13.120
Este é um bom exemplo da nossa imagem e como vamos abordá-la.

02:13.120 --> 02:14.440
Então, como você modelaria isso?

02:14.590 --> 02:20.890
Lembre-se, estamos usando NumPy, então precisamos definir esses limites e podemos definir um array numpy 3D para

02:20.890 --> 02:27.010
manter nossos valores Q atuais para cada par de estado e ação conforme vemos nossa representação.

02:27.520 --> 02:32.380
E para aqueles de vocês que não estão familiarizados com isso, ou talvez isso seja

02:32.380 --> 02:38.110
novo ou você queira apenas atualizar, o manual do Air Z deste curso é extremamente útil, altamente recomendado.

02:38.380 --> 02:39.820
Então o que temos que fazer aqui?

02:40.180 --> 02:41.140
Nós podemos na verdade.

02:41.440 --> 02:45.040
Deixe-me apenas expandir isso muito rapidamente para nós, para que possamos visualizá-lo um pouco mais fácil.

02:45.070 --> 02:46.420
Deixe-me apenas adicionar algumas células de código.

02:46.720 --> 02:48.610
Vamos definir nosso império 3D.

02:49.480 --> 02:50.770
Como você faria isso?

02:51.280 --> 02:52.900
Então temos algumas opções.

02:52.900 --> 02:57.070
Mas a opção mais direta e simples, vamos chamá-la de linhas de ambiente.

02:59.790 --> 03:01.450
Rose e vamos definir para 11.

03:01.470 --> 03:02.590
É um 11 por 11.

03:02.680 --> 03:06.660
Então também podemos fazer o ambiente, sublinhar as colunas.

03:08.860 --> 03:10.600
E também poderíamos definir isso para 11.

03:11.170 --> 03:17.920
Por fim, podemos definir nossos valores Q, pois precisamos adicionar nosso numpy às linhas do ambiente, colunas do

03:17.920 --> 03:18.370
ambiente.

03:19.910 --> 03:30.260
E podemos definir isso como valores Q iguais a zeros NumPy e precisamos usar nossas linhas de ambiente, colunas de

03:30.980 --> 03:31.730
ambiente.

03:32.790 --> 03:40.050
E temos nossa matriz numpy 3D, nossa representação de ambiente 3D definida com nosso ambiente.

03:41.040 --> 03:41.520
Impressionante.

03:42.330 --> 03:46.440
Agora vamos deixar aqui, mas eu quero que vocês comecem a pensar em como resolver isso já que

03:46.440 --> 03:48.120
vocês já têm seu ambiente configurado.

03:48.450 --> 03:52.620
A próxima coisa que você vai querer fazer como dica é configurar suas ações.

03:52.830 --> 03:55.470
Seu agente precisa ser capaz de se mover pelo ambiente.

03:55.710 --> 03:57.150
Então, como você representaria isso?

03:57.360 --> 03:58.830
Como você escreveria isso?

03:59.070 --> 04:01.890
Para este problema, vamos deixá-lo aqui.

04:01.890 --> 04:04.650
No próximo vídeo, vamos revisitar essas ações.

04:05.100 --> 04:05.550
Impressionante.

04:05.940 --> 04:06.960
Vejo vocês no próximo vídeo.