WEBVTT

00:00.510 --> 00:02.990
Olá e bem vindo a este tutorial do Python.

00:03.240 --> 00:08.400
Tudo bem, então agora vamos fazer a função de avanço que irá propagar os sinais de saída do nosso

00:08.400 --> 00:13.550
cérebro para o corpo da IA, de modo que ele jogará a ação correta para alcançar o colete.

00:13.770 --> 00:20.100
Mas ainda não há nenhuma reação porque não há treinamento que ainda não treinamos a AI, mas

00:20.100 --> 00:25.920
isso é exatamente o que faremos em parte para implementar em uma curvatura convolutiva profunda que,

00:25.920 --> 00:29.720
pelo jeito, renomearei o treinamento da AI com Killary convolucional profundo.

00:29.940 --> 00:35.340
Mas agora precisamos encaminhar o sinal da camada de saída do cérebro para o corpo.

00:35.370 --> 00:40.170
exatamente isso que vamos fazer com essa função avançada, que é a última função do nosso corpo.

00:40.170 --> 00:40.670
E é

00:41.420 --> 00:42.860
Então vamos fazer isso.

00:42.860 --> 00:50.140
Começamos com Teff para a frente e, de acordo com você, quais os argumentos que isso vai levar.

00:50.330 --> 00:55.030
Bem, ele vai assumir a força primeiro e então há outro.

00:55.220 --> 00:56.740
Bem sim, há.

00:56.870 --> 00:58.140
E o que será.

00:58.310 --> 01:04.700
Bem, muito naturalmente, queremos encaminhar o sinal de saída do cérebro para o corpo e, portanto, a

01:04.700 --> 01:07.470
entrada será o sinal de saída do cérebro.

01:07.850 --> 01:10.480
E agora precisamos dar um nome para esses sinais externos.

01:10.610 --> 01:14.390
E então vou adicionar aqui o argumento apresentado.

01:14.460 --> 01:21.200
Tudo bem, de modo que corresponde aos sinais de saída do cérebro depois que as imagens de entrada são propagadas através de

01:21.200 --> 01:26.540
todo o cérebro para alcançar a saída mais tarde, que é X aqui retorna pela função direta

01:26.540 --> 01:27.170
do cérebro.

01:27.380 --> 01:32.480
E agora, este sinal de saída do cérebro será encaminhado para o corpo com esta

01:32.480 --> 01:35.410
nova função de avanço que fazemos na próxima classe.

01:35.460 --> 01:41.760
alguma cor aqui e agora, como você entendeu, vamos usar o próximo método para jogar a ação.

01:41.870 --> 01:43.940
Então, vamos fazer isso, vamos adicionar

01:43.940 --> 01:49.820
Isso significa que o corpo de nossa AI depois de receber os sinais de saída do cérebro desempenhará as

01:49.820 --> 01:51.440
ações com a próxima técnica.

01:51.440 --> 01:56.510
Então, basicamente, agora, o que temos a fazer é exatamente o mesmo que fizemos pelo carro.

01:56.600 --> 01:59.390
Nós vamos obter a nossa distribuição de probabilidades.

01:59.540 --> 02:05.960
Esse é o primeiro passo e, em seguida, vamos provar uma ação de acordo com essa distribuição de probabilidades.

02:05.960 --> 02:11.510
Então, basicamente, o que podemos fazer agora é obter o nosso arquivo de automóvel auto-dirigido e copiar colar

02:11.510 --> 02:14.570
o que implementamos para selecionar realmente funcionar no carro auto-dirigido.

02:14.810 --> 02:15.700
Mas vamos fazer isso de novo.

02:15.710 --> 02:19.710
Será uma boa prática e na verdade você pode tentar digitá-lo antes de mim.

02:20.150 --> 02:23.870
Ok então, primeiro o que vamos fazer é obter nossas probabilidades.

02:23.870 --> 02:29.930
Então lembro que isso é uma distribuição de probabilidades para cada um dos q valores que dependem da imagem

02:29.960 --> 02:31.790
de entrada e de cada ação.

02:31.790 --> 02:38.120
Então, temos um valor-chave para cada uma das seis ou sete ações possíveis e, portanto, obtemos uma distribuição de

02:38.120 --> 02:43.600
sete probabilidades e, em seguida, 7 porque acho que existem sete ações em vez de seis.

02:43.670 --> 02:50.010
e, portanto, obtemos uma distribuição de sete probabilidades um para cada q valor associado a cada ação.

02:50.420 --> 02:57.260
Como, além de se mover para direita esquerda ou tiro, também podemos executar que faz sete ações possíveis

02:57.260 --> 02:58.930
Então, Propst é igual.

02:59.040 --> 03:00.670
E agora lembre-se do que devemos fazer.

03:00.860 --> 03:06.650
Bem, basicamente, temos que usar a função maxima do módulo funcional.

03:06.680 --> 03:13.010
Isso é muito simples, nós levamos o nosso módulo funcional primeiro, depois fazemos isso e depois tomamos nossa

03:13.130 --> 03:13.700
próxima função.

03:13.700 --> 03:14.480
Aqui está.

03:14.570 --> 03:22.430
da próxima função que lembro são os elementos para os quais você deseja criar uma distribuição de probabilidades.

03:22.430 --> 03:25.290
Pressionamos enter e agora colocamos os argumentos

03:25.550 --> 03:30.560
E é claro que são os q valores que são os resultados da rede neural.

03:30.680 --> 03:35.830
Esse é o resultado da rede neural para a qual deseja criar uma distribuição de probabilidades.

03:35.990 --> 03:41.270
Agora, lembre-nos que queremos criar esta distribuição de probabilidades para poder explorar as diferentes ações

03:41.270 --> 03:45.760
em vez de escolher diretamente o que possui o valor Q máximo.

03:46.010 --> 03:51.020
Se escolhermos diretamente aquele que tenha o valor Q máximo, onde não exploramos muito as outras ações

03:51.350 --> 03:52.650
e podemos perder alguma coisa.

03:52.880 --> 03:58.760
mais alguma exploração e, portanto, encontrar algumas soluções escondidas nos padrões que podem ser muito melhores.

03:58.760 --> 04:01.520
Mas com este próximo método, podemos fazer

04:01.850 --> 04:08.060
Então, novamente eu recomendo coisas Nax e, a partir de agora, o que temos a fazer é inserir os valores

04:08.060 --> 04:09.560
que são nossos resultados aqui.

04:09.560 --> 04:13.860
As saídas do nosso cérebro, portanto, produzem o que nós vamos.

04:13.970 --> 04:21.710
Mas, então, temos esse parâmetro de temperatura que podemos usar, que podemos configurar para personalizar a exploração.

04:21.710 --> 04:28.130
Lembre-se que, quanto mais alto, estabelecemos a temperatura, menos exploração das outras ações será feita porque

04:28.130 --> 04:33.260
a melhor ação será selecionada com maior probabilidade em oposição às outras ações

04:33.260 --> 04:35.910
que serão selecionadas com menor probabilidade.

04:35.930 --> 04:42.620
É exatamente assim com um carro e, portanto, temos que multiplicar a saída aqui pelo

04:43.010 --> 04:51.800
nosso parâmetro de temperatura t que ficamos perfeitos agora, recebemos um pequeno aviso porque ainda não usamos preparações, mas estamos

04:51.810 --> 04:53.220
prestes a usá-lo agora.

04:53.260 --> 04:55.540
E assim nos leva à próxima coisa que temos que fazer.

04:55.540 --> 04:57.750
Como vamos usar essas probabilidades?

04:57.910 --> 05:04.390
Bem, vamos provar a ação final para jogar a partir desta distribuição de probabilidades e, portanto, o que

05:04.990 --> 05:10.960
temos que fazer agora é usar a função multinomial para provar a ação de acordo com essa

05:10.960 --> 05:12.080
distribuição de probabilidades.

05:12.370 --> 05:15.030
Então, agora estamos prontos para obter nossas ações.

05:15.190 --> 05:20.500
Então eu estou criando um novo Voivode aqui, porque isso se tornará uma ação que será jogada pelo corpo

05:20.500 --> 05:21.490
de nossa AI.

05:21.520 --> 05:30.330
E agora, nós tomamos nossa distribuição de probabilidades de probs para o qual adicionamos pontos e, em seguida, o método

05:30.880 --> 05:31.480
multi-normal.

05:32.220 --> 05:38.030
Tudo bem e agora conseguimos nossas ações finais para jogar lá, reunidas a partir de nossa distribuição de adereços.

05:38.430 --> 05:39.570
Ok, perfeito.

05:39.570 --> 05:42.300
Então, agora estávamos prontos para retornar o que queremos.

05:42.360 --> 05:44.450
Essa é a ação a desempenhar.

05:44.670 --> 05:48.720
E estas são, claro, ações e agora o aviso deve desaparecer.

05:48.840 --> 05:50.440
Usamos tudo o que queremos.

05:50.460 --> 05:51.270
Aqui vamos nós.

05:51.270 --> 05:52.020
Perfeito.

05:52.210 --> 05:53.950
Então, agora, a função de avanço está pronta.

05:54.080 --> 05:55.740
E parabéns.

05:55.800 --> 05:57.300
O corpo também está pronto.

05:57.540 --> 05:59.070
Então, agora temos o nosso cérebro.

05:59.190 --> 06:05.760
Nós temos o nosso corpo e, portanto, estamos prontos para montá-los para tornar o futuro AI nosso futuro AI Eu serei

06:05.760 --> 06:08.900
composto de nada além de um cérebro e um corpo.

06:08.970 --> 06:14.160
E é por isso que a inteligência e um corpo desempenham as ações que serão as

06:14.160 --> 06:16.610
ações corretas para desempenhar graças à sua inteligência.

06:16.620 --> 06:22.060
Mas lembre-se antes que tenhamos que treinar sua inteligência e é isso que faremos em parte para

06:22.070 --> 06:25.180
treinar o olho com a aprendizagem convolutiva e legal.

06:25.200 --> 06:25.500
Tudo bem.

06:25.500 --> 06:28.470
Então, vamos fazer o AI nos próximos problemas.

06:28.490 --> 06:31.810
Vai ser uma classe de duas funções, eu acho.

06:31.950 --> 06:34.510
E isso requer dois ou três tutoriais.

06:34.680 --> 06:35.660
Então eu não posso esperar.

06:35.670 --> 06:36.780
Isso será emocionante.

06:36.780 --> 06:37.930
E até então eu.