WEBVTT

00:00.330 --> 00:07.100
Olá e bem-vindo ao terceiro módulo do discurso do mar H-3 como agentes críticos ativos síncrona.

00:07.200 --> 00:11.850
E agora, posso realmente dizer boas vindas ao aprendizado da máquina de última geração.

00:12.180 --> 00:16.560
Bem, no momento, estou dizendo isso porque talvez alguns de vocês possam seguir o curso em um

00:16.590 --> 00:20.080
a dois anos, mas no momento em que eu estou dizendo isso em 2017.

00:20.190 --> 00:25.410
Bem, você está prestes a trabalhar em um dos modelos mais poderosos da inteligência artificial, mas há

00:25.410 --> 00:28.780
mais que não é a única coisa especial sobre este módulo.

00:28.830 --> 00:35.280
mais poderoso, mas vamos implementar a versão mais poderosa deste algoritmo, que é a versão

00:35.280 --> 00:42.630
otimizada versão implementada do modelo A-380 porque você pode imaginar que existe o coração de o algoritmo.

00:42.990 --> 00:47.030
Não só estamos a ponto de trabalhar com o modelo

00:47.190 --> 00:50.880
Mas, em seguida, existem muitas ferramentas que podemos usar para otimizar todo o modelo.

00:50.970 --> 00:55.110
E não só você vai ter o coração do caminho através do algoritmo, mas

00:55.110 --> 00:59.450
também vai implementar todas essas ferramentas em torno dele para tornar o modelo super poderoso.

00:59.670 --> 01:01.490
E por que eu queria fazer isso.

01:01.590 --> 01:03.110
Bem, isso é por dois motivos.

01:03.120 --> 01:06.210
O primeiro motivo é que nos aproximamos do fim do discurso.

01:06.210 --> 01:10.770
Este curso é o curso de nível mais alto entre os três cursos e eles irão lidar com a AI.

01:10.870 --> 01:14.340
É agora que acho que você está pronto para levá-lo ao próximo nível.

01:14.400 --> 01:19.230
E o segundo motivo é que a solução de problemas é realmente super desafiadora.

01:19.230 --> 01:24.270
Lembre-se no vídeo de promoção que queríamos colocar como o primeiro módulo porque pensávamos que seria o

01:24.270 --> 01:29.410
desafio mais fácil, mas na verdade, na verdade, era o desafio mais difícil e a maneira mais

01:29.400 --> 01:36.060
fácil de explicar isso é bem na pena que os monstros são grandes e, portanto, mais fácil de detectar e, portanto, mais

01:36.060 --> 01:37.620
fácil de matar ou evitar.

01:37.830 --> 01:44.160
Mas em Breakout temos essa pequena bola que o olho tem que detectar também porque o olho ainda

01:44.160 --> 01:44.810
terá olhos.

01:44.800 --> 01:47.670
Você ainda vamos fazer uma aprendizagem de reforço profundo.

01:47.910 --> 01:53.340
Então, é realmente super desafiador e é por isso que na verdade não temos a opção de implementar.

01:53.340 --> 01:59.080
A versão mais poderosa do A-3 ver agora porque eu digo que esta é a versão mais poderosa.

01:59.120 --> 02:00.350
Isso é por um motivo particular.

02:00.350 --> 02:05.270
Não é como se eu dissesse que eu vou implementar a versão mais poderosa do A-380.

02:05.460 --> 02:06.420
Não, não é isso.

02:06.540 --> 02:11.550
especial que vamos fazer é, na verdade, uma versão do 3 C implementada por alguém,

02:11.550 --> 02:18.090
mas corrigida por uma das pessoas mais influentes na máquina de aprendizagem hoje, que é o criador da tocha Pi.

02:18.240 --> 02:23.910
A razão que eu estou dizendo é que a versão que estávamos prestes a implementar e isso

02:23.910 --> 02:24.810
é algo muito

02:24.810 --> 02:27.330
O nome dele é Dan Pashka.

02:27.710 --> 02:28.840
Agora, o que vamos fazer.

02:29.040 --> 02:35.430
Nós vamos continuar a ter na página principal e se você rolar para baixo até o final até a

02:35.790 --> 02:40.700
parte inferior, você verá o time que a equipe luta contra criadores e contribuidores.

02:40.800 --> 02:45.500
E você pode ver aqui que minha tocha atualmente é mantida por Adam Pascal.

02:45.690 --> 02:51.340
fugir e ele corrigiu um dos códigos para a A-380 para que o trabalho seja perfeito.

02:51.340 --> 02:57.120
Essa é a pessoa a quem devemos realmente agradecer, porque há poucas versões das três coisas

02:57.120 --> 02:58.470
que funcionam bem para

02:58.470 --> 03:04.320
Portanto, Pascal não está apenas mantendo por direção, mas também é um dos criadores da tocha e, como disse

03:04.320 --> 03:08.090
hoje, ele está entre as 10 pessoas mais influentes no aprendizado de máquinas.

03:08.190 --> 03:13.500
Então, podemos nos sentir confiantes de que a versão que estamos prestes a implementar é, provavelmente, a versão mais

03:13.500 --> 03:15.050
poderosa do A-3, ver hoje.

03:15.240 --> 03:17.580
E então, qual é essa implementação?

03:17.760 --> 03:23.100
Bem, originalmente, vem de um desenvolvedor chamado história ilíaca de.

03:23.220 --> 03:29.400
E assim como você pode ver, ele fez um até a implementação do A3 C, que originalmente não funcionou bem

03:29.400 --> 03:32.950
para fugir, mas, em seguida, alguém fez uma solicitação de puxar.

03:32.970 --> 03:39.170
Se nós vamos ao pedido da piscina aqui podemos ver no próximo que nós vamos, temos uma solução mais

03:39.170 --> 03:41.030
limpa para o problema de Gretchen.

03:41.190 --> 03:43.810
E acho que essa solicitação de atração foi feita.

03:43.950 --> 03:51.060
Foi feito de Adam Pashka criado pela tocha e que resolveu o problema que faz o A-380

03:51.060 --> 03:54.720
funcionar muito bem, sem esperar por dias e dias.

03:55.200 --> 04:01.950
se retornarmos a esta implementação, podemos ver os quatro contribuintes desta implementação mais poderosa.

04:01.950 --> 04:02.900
E, portanto,

04:03.180 --> 04:04.590
E aqui estão os contribuintes.

04:04.590 --> 04:10.380
Então, obrigado a todos e podemos dizer um grande e especial agradecimento à paixão de Adam por

04:10.380 --> 04:12.810
corrigir o problema de compartilhamento de tópicos.

04:12.810 --> 04:16.590
Ele começou fazendo um garfo que é uma subestrutura do código.

04:16.590 --> 04:20.970
E então ele fez uma solicitação de puxar para o desenvolvedor para corrigir esse problema.

04:20.970 --> 04:26.790
e foi assim que ele se tornou um dos principais contribuintes desta implementação, fazendo com que tudo funcionasse

04:26.790 --> 04:32.850
perfeitamente bem e confie em mim. Eu fiz muitas experimentações no modelo AC DC implementado atualmente em cinco modelos.

04:33.000 --> 04:36.390
Não havia um código que fosse um grande problema de compartilhamento

04:36.390 --> 04:41.430
Eu estava mesmo desesperado que não funcionou bem, então fiz minha própria descoberta e cavy para ter uma

04:41.550 --> 04:44.300
bola maior e, portanto, um pré-processamento mais fácil das imagens.

04:44.340 --> 04:48.780
Então eu voltei aos olhos e fiz minha própria implementação do 3C.

04:48.860 --> 04:53.280
Mas isso levou as idades para correr e treinar em um computador bastante poderoso.

04:53.460 --> 04:55.190
Então eu queria encontrar uma maneira melhor.

04:55.380 --> 04:56.990
E é assim que é.

04:57.150 --> 05:03.460
poderosa do Silmaril, de que um dos principais contribuintes é o Criador pela tocha.

05:03.530 --> 05:04.530
Implementação muito

05:04.580 --> 05:11.270
Então, o que vamos fazer neste Mudgal, acho que você está pronto para isso é implementar este código de

05:11.270 --> 05:13.980
nível mais alto para a implementação do A3.

05:14.060 --> 05:19.720
Então, basicamente, vamos reimplementar todos esses arquivos e, principalmente, insistiremos nos arquivos que estão diretamente

05:19.720 --> 05:24.650
relacionados aos três C, todas as partes que estão diretamente relacionadas ao que vemos.

05:24.680 --> 05:27.800
Vamos implementar o código linha por linha para os outros.

05:27.820 --> 05:33.290
Eu vou apenas expandir o código para que possamos ser capazes de resolver isso sem achar isso muito esmagador,

05:33.850 --> 05:36.150
de modo que vamos um módulo bastante especial.

05:36.170 --> 05:42.220
Não só trabalhamos em um modelo de arte mais avançado, mas também no momento em que estou falando

05:42.230 --> 05:45.730
e altamente confiante, estamos implementando a versão mais poderosa do A-380.

05:46.070 --> 05:47.050
Então, vamos fazê-lo.

05:47.090 --> 05:51.740
Vamos voltar para Python e vamos começar tudo isso antes de começar.

05:51.770 --> 05:54.800
Vamos fazer a coisa mais simples que faremos neste módulo.

05:54.830 --> 05:56.870
Configurando a pasta do diretório de trabalho.

05:57.080 --> 06:02.660
Vamos para a nossa AI é que os módulos de pasta de modelos que lançamos mais desafiadores.

06:02.930 --> 06:03.830
E nós vamos lá.

06:03.830 --> 06:05.070
São todos os nossos arquivos.

06:05.240 --> 06:09.130
Então, vamos ver quais estão diretamente relacionados ao A-3 C.

06:09.200 --> 06:11.610
E então vamos ver quais são as que vamos implementar.

06:11.690 --> 06:14.770
Linha por linha e concentra a nossa energia.

06:14.840 --> 06:16.450
Então, existem dois arquivos.

06:16.490 --> 06:22.250
O primeiro não é todo o caminho que é esse, então vamos re-implementar linha a linha, porque é o mais importante

06:22.250 --> 06:25.450
é o lugar onde fazemos que o A-3 veja os cérebros.

06:25.550 --> 06:30.590
modelo compartilhado que terá os mesmos dados dos pesos para o ator e o crítico.

06:30.590 --> 06:34.340
E o mais importante para entender aqui é que teremos um

06:34.370 --> 06:39.490
Essa é uma parte desta versão especial do A-3, veja o modelo compartilhado com os dados compartilhados,

06:40.130 --> 06:43.890
os pesos e, em seguida, o outro fundador mais importante para implementar.

06:43.910 --> 06:51.270
Linha por linha é a raça selvagem treinada, é claro, logo depois de fazermos os cérebros da visão.

06:51.500 --> 06:55.940
Bem, nós temos que treiná-los e treiná-los neste trem que eu esposa.

06:56.180 --> 07:02.720
Então, este é um código bastante longo, mas isso é o que contém o coração do modelo A3

07:02.720 --> 07:08.900
C que terá que Lass reduzir o valor nos EUA, que é o último relacionado às previsões

07:09.230 --> 07:14.640
do crítico e a última política que é a última relacionado às previsões do átomo.

07:14.840 --> 07:20.570
Então, isso é bastante novo, mas você sabe que é porque o A-380 estava basicamente trabalhando com vários agentes, cada

07:20.810 --> 07:23.210
um com sua própria cópia do meio ambiente.

07:23.330 --> 07:28.790
Também temos essa camada totalmente conectada que produz um valor da função e, basicamente, é uma

07:28.790 --> 07:31.540
visão comum do que está acontecendo no jogo.

07:31.550 --> 07:34.130
Então, isso será bastante desafiador.

07:34.220 --> 07:40.840
Então, certifique-se de estar em boa forma e para o resto dos companheiros. Bem, eu vou apenas explicá-los em detalhes, mas

07:40.880 --> 07:45.810
não gastando muito tempo neles, acredite em você, você quer manter sua energia para isso.

07:45.830 --> 07:47.110
Isso já será muito.

07:47.150 --> 07:55.490
Então, esses companheiros são formigas ducky Y que é uma melhoria do ambiente de ginástica graças ao universo.

07:55.490 --> 08:00.920
Então, basicamente, isso apenas melhora o ambiente de ginástica com o universo e isso nos

08:00.920 --> 08:07.150
permite ter um ótimo pré-processamento das imagens e também normalizar todos os valores do ambiente, como as

08:07.160 --> 08:10.160
intensidades de cores ou as intensidades de recompensas.

08:10.280 --> 08:15.710
Bem, todos os valores do ambiente este arquivo normalizam todos esses valores e também garantem que temos o

08:15.800 --> 08:18.110
suficiente para não continuar o processamento das imagens.

08:18.170 --> 08:24.720
E, como você pode ver, isso é tirado dessa abertura, recebo sua página onde o agente da história do universo.

08:24.830 --> 08:28.870
Então não vamos gastar muito tempo com isso, nós realmente pararemos aqui.

08:28.910 --> 08:34.390
Você só precisa entender que melhoramos o ambiente de ginástica com o universo para obter o suficiente para

08:34.390 --> 08:36.390
não ser o processamento das imagens.

08:36.440 --> 08:39.900
O resto não é tão importante, especialmente para o PC.

08:40.340 --> 08:45.190
Então, temos o principal que P Y, que é o código que executará o todo.

08:45.200 --> 08:50.190
Então, você conhece o código que executará o todo, crie o cérebro treinando o cérebro e produzindo o vídeo.

08:50.210 --> 08:53.810
E isso é porque ele executará todos esses códigos aqui.

08:54.350 --> 08:57.700
Então, mais nós vimos onde estava, então, pode ter aparecido.

08:57.710 --> 09:00.130
Por que o otimizador especial.

09:00.380 --> 09:06.240
Esse é basicamente o otimizador de átomos, mas adaptado a esse modelo compartilhado que estamos implementando.

09:06.260 --> 09:09.290
Então, explicaremos todo esse código em um tutorial.

09:09.290 --> 09:11.490
Então, temos teste W-porquê.

09:11.530 --> 09:13.610
Na verdade, é o último a testar.

09:13.610 --> 09:17.410
P Por que basicamente é o arquivo que implementará um agente de teste.

09:17.510 --> 09:22.440
Então, existe um agente que irá jogar sem atualizar o modelo.

09:22.490 --> 09:24.740
Então, isso é totalmente independente do treinamento.

09:24.860 --> 09:27.460
E também expandiremos este código em detalhes.

09:27.530 --> 09:33.710
Além disso, a boa notícia é que você terá dois códigos um código que será o código que

09:33.710 --> 09:36.080
implementamos nos tutoriais, mas sem qualquer comentário.

09:36.290 --> 09:40.580
E um dos códigos que é uma das pastas de código com todos os códigos o comanda.

09:40.700 --> 09:44.060
Então, com todas essas seis faltas, tudo bem conectado.

09:44.180 --> 09:49.520
Então, se você perder alguma coisa e um tutorial, você poderá analisar o conteúdo do código para entender

09:49.640 --> 09:51.010
o que está acontecendo.

09:51.200 --> 09:52.130
Então vamos lá.

09:52.130 --> 09:54.500
Espero que você esteja ansioso para implementar isso.

09:54.500 --> 09:59.020
Você está realmente no topo da montanha agora ou logo abaixo do topo, porque você precisa entender

09:59.120 --> 10:01.160
isso primeiro, mas você está chegando lá.

10:01.190 --> 10:02.910
Então tire uma boa respiração de oxigênio.

10:03.020 --> 10:05.690
E lá vamos uma jornada super emocionante.

10:05.720 --> 10:06.870
Até então, aproveite.
