WEBVTT

00:00.650 --> 00:05.690
Olá e bem-vindo de volta ao curso em um I I na parte anterior, falamos sobre

00:05.750 --> 00:08.360
a intuição Killary, que aprendemos profundamente, começamos lá.

00:08.360 --> 00:14.900
E na verdade, nós realmente conseguimos todo o caminho para esta parte e onde conversamos sobre aprender e

00:14.900 --> 00:18.200
agora vamos passar para a parte de ação real.

00:18.200 --> 00:22.250
Então, há duas partes para partes distintas que temos que lembrar.

00:22.250 --> 00:25.520
Então, essa é a parte de aprendizagem, mas agora ele realmente fez tudo isso.

00:25.520 --> 00:26.390
Isso é bonito.

00:26.390 --> 00:30.500
uma ação que ele tem para decidir o que ele vai fazer é fazer uma ação de dois ou três.

00:30.500 --> 00:31.710
Agora ele realmente tem que tomar

00:31.740 --> 00:32.860
E então, como ele faz isso.

00:33.020 --> 00:39.370
Bem, o jeito que ele faz agora é dado esses mesmos valores para que os valores não mudem depois que nós temos esses

00:39.370 --> 00:43.430
valores para compará-los com Calcott os últimos dois por era arrogada, nós atualizamos os

00:43.430 --> 00:45.950
pesos, mas os valores não mudança nesse processo inteiro.

00:45.990 --> 00:47.410
Para obter os valores do cubo lá.

00:47.430 --> 00:48.380
Eles são corrigidos.

00:48.380 --> 00:49.440
Nós sabemos o que são.

00:49.440 --> 00:50.480
Tudo isso acontece.

00:50.510 --> 00:53.820
Redes atualizadas e usadas usando os mesmos valores que tivemos.

00:53.960 --> 00:58.600
O que nós vamos fazer é que vamos analisá-los através de uma função máxima macia.

00:58.610 --> 01:00.580
E, novamente, Max macio como descrito.

01:00.620 --> 01:05.160
Eu acho que um anexo 2 e vamos falar um pouco mais sobre soft max.

01:05.180 --> 01:12.070
Mais adiante, ou falaremos sobre esta política de seleção de ações mais abaixo no restante desta seção.

01:12.140 --> 01:13.610
Então, apenas em alguns tutoriais.

01:13.730 --> 01:17.270
Mas, por enquanto, vamos apenas dizer que estamos passando por uma próxima função suave.

01:17.270 --> 01:22.150
Basicamente, o que faz é que ele permite que ele ajude a selecionar o melhor selecionando a melhor ação possível.

01:22.250 --> 01:23.650
E há uma pequena advertência para isso.

01:23.660 --> 01:26.120
Não é apenas o melhor possível.

01:26.120 --> 01:28.940
Falaremos sobre isso no tutorial da política de seleção de ações.

01:28.940 --> 01:35.890
Mas, por enquanto, digamos que seleciona a melhor ação daqui, diz OK, então, Q1, você conhece a probabilidade.

01:36.140 --> 01:41.960
Basicamente, sabemos que os valores de q previam o valor de Q para que ele possa examiná-los e diga OK, então

01:41.960 --> 01:46.280
o valor Q mais alto desses, tal como fizemos no algoritmo de aprendizagem Q simples.

01:46.280 --> 01:50.240
para tudo isso, por exemplo, digamos, os valores mais altos que eu vou selecionar essa ação, vamos tomar esses.

01:50.240 --> 01:50.860
Eu apenas olho

01:50.900 --> 01:52.180
E isso é praticamente isso.

01:52.220 --> 01:57.300
É assim que ele escolhe qual ação leva toma ação e então todo esse processo acontece novamente.

01:57.290 --> 02:02.120
Para a próxima etapa, o agente acaba em nosso caso e no próximo quadrado do labirinto.

02:02.120 --> 02:04.540
Mas geralmente falando no próximo estado.

02:04.640 --> 02:05.420
Então vamos lá.

02:05.420 --> 02:14.660
É assim que alimentamos um problema de aprendizagem de reforço em uma rede neural através de um vetor descrevendo o estado

02:14.660 --> 02:16.160
em que estamos.

02:16.160 --> 02:17.510
E uma vez que nos encaixamos.

02:17.510 --> 02:22.210
Há duas partes do processo que acontecem. A primeira parte é a aprendizagem.

02:22.400 --> 02:26.840
Então lembre-se da parte em que comparamos cada um dos valores do cubo com o alvo

02:26.840 --> 02:32.360
e, em seguida, voltamos a propagar a perda através da rede para atualizar os pesos para que nossa rede esteja

02:32.360 --> 02:34.830
aprendendo enquanto passamos por este labirinto ou através deste ambiente.

02:35.210 --> 02:41.120
E também a segunda parte, é claro, temos que agir, temos que selecionar uma ação e é aí

02:41.120 --> 02:46.880
que passamos os valores através de uma função maxima macia e, ou basicamente, uma política de seleção de

02:46.880 --> 02:48.330
ações que falaremos mais abaixo.

02:48.470 --> 02:53.570
E então, simplesmente selecionamos a ação que queremos tomar e nós executamos essa ação e então todo esse

02:53.570 --> 02:54.580
processo começa novamente.

02:54.770 --> 02:59.570
E então, talvez o agente consiga, talvez o agente não faça o jogo.

02:59.630 --> 03:01.250
Em qualquer caso, o jogo termina.

03:01.250 --> 03:08.270
E, mais uma vez, todo o processo repete que o agente joga o jogo inteiro de novo e então pára tão basicamente que é

03:08.270 --> 03:14.460
esse outro parque aéreo sempre que o agente que você conhece sempre que o jogo termina com um favor além do

03:14.460 --> 03:16.680
fairie que é o fim de um aeroporto.

03:16.700 --> 03:19.560
E então ele começa de novo e então ele começa de novo e então ele começa de novo.

03:19.790 --> 03:20.420
E assim por diante.

03:20.420 --> 03:26.810
Então, isso acontece e esse processo acontece sempre que o agente está em você em um novo estado, então o estado

03:26.810 --> 03:32.240
está codificado aqui, de modo que é importante não apenas para cada jogo que ele joga, mas para

03:32.240 --> 03:33.020
cada estado.

03:33.020 --> 03:38.030
Então ele está em um estado que passa por suas datas de processo e assim por diante e acontece a cada momento.

03:38.150 --> 03:41.410
E assim a aprendizagem acontece e a atuação também acontece.

03:41.720 --> 03:47.090
Então, isso é uma aprendizagem profunda na intuição por trás do aprendizado profundo.

03:47.090 --> 03:54.200
cobrir e, claro, prático e, entretanto, se você quiser obter algumas informações adicionais sobre continuar aprendendo.

03:54.410 --> 03:56.720
Nós temos muito mais para

03:56.720 --> 04:05.200
Nós temos uma leitura recomendada para que já falamos sobre a série de postagens de blog de Arthur Giuliani.

04:05.210 --> 04:12.590
Se você olhar para a aprendizagem informal simples Lifton's flow part 4 você encontrará a parte que é relevante para

04:12.590 --> 04:14.260
o que discutimos hoje.

04:14.270 --> 04:21.170
Note-se que aqui ele fala sobre convoluções que não estamos cobrindo revoluções nesta seção, vamos falar sobre

04:21.170 --> 04:23.650
elas na próxima seção do curso.

04:23.720 --> 04:28.880
Então, a diferença aqui é que é apenas pular as conclusões por agora e vamos falar

04:28.880 --> 04:32.850
sobre elas na próxima parte do curso, mas a diferença está em evoluções.

04:32.850 --> 04:39.170
Você é como procurar que o agente esteja olhando a imagem e, portanto, ele tem que processar uma

04:39.170 --> 04:43.540
imagem uma complicação adicional por agora, onde gradualmente estamos gradualmente construindo isso.

04:43.580 --> 04:50.060
Por enquanto, estamos codificando o nosso ambiente através de você, olhamos aqui, estamos codificando o nosso ambiente ou

04:50.060 --> 04:58.700
talvez como olhar para este provavelmente na codificação do nosso ambiente como um ou para indicar que o agente está como um vetor.

04:58.700 --> 05:01.330
Então, no nosso caso, era um vetor de valores muito simples.

05:01.490 --> 05:06.190
Às vezes, as pessoas, mesmo que naquele simples podem às vezes ou como você verá a partir desta postagem no blog.

05:06.290 --> 05:10.180
Às vezes, as pessoas preferem a versão quente e codificada desse estado.

05:10.180 --> 05:13.380
Então, basicamente, onde cada caixa do labirinto tem um.

05:13.620 --> 05:17.780
Então você tem como um vetor de um caso nulo seria 12 valores três por quatro.

05:17.800 --> 05:22.130
Portanto, não é igual ou 1 ou 0, dependendo de quais elementos e em qual caixa você está.

05:22.160 --> 05:22.990
No ambiente.

05:23.060 --> 05:29.900
Então, em qualquer forma que você decida codificar o seu ambiente e o estado do seu ambiente, é assim que na

05:29.900 --> 05:31.520
codificação. É basicamente um vetor.

05:31.520 --> 05:36.410
A chave aqui é que não é uma convolução. Então, não é como uma imagem e não há volvo de convolução.

05:36.410 --> 05:37.810
Então, esta parte virá mais tarde.

05:37.820 --> 05:43.410
Para nós, começa aqui e isso simplesmente simplifica o processo para que possamos entender gradualmente melhor.

05:43.550 --> 05:49.130
E, claro, não esqueça que esta publicação é rude e tende a fluir e estamos usando pi torche

05:49.130 --> 05:50.090
em nossos tutoriais.

05:50.090 --> 05:51.910
Então espero que você goste disso.

05:51.920 --> 05:59.220
Uma rápida introdução em um profundo conhecimento convolucional profundo, ainda não profundo.

05:59.310 --> 06:02.910
E com essa nota, espero ver você em seguida.

06:02.930 --> 06:05.430
E até então, desfrute da inteligência artificial.