WEBVTT

00:01.080 --> 00:04.050
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.050 --> 00:09.810
Hoje continuamos nossa jornada no mundo a cada três ver e estamos falando sobre o lado síncrono

00:09.870 --> 00:13.530
de cada C, então, temos nossa abreviatura de vantagem síncrona.

00:13.550 --> 00:14.430
Crítico ativo.

00:14.430 --> 00:19.040
E hoje vamos descobrir o que um sincrônico aqui representa o que isso significa.

00:19.080 --> 00:20.990
E vamos voltar um passo.

00:21.000 --> 00:27.270
Vejamos o que iniciamos neste curso inteiro para a aplicação do direito sobre o que é que o

00:27.270 --> 00:29.050
asiático está em certo estado.

00:29.340 --> 00:30.690
Eles observam o estado.

00:30.730 --> 00:37.080
Eles tomam certas decisões que tomam ações naquele estado e, em seguida, o estado é alterado para que eles entrem em

00:37.080 --> 00:39.010
um novo estado, mais eles recebem recompensa.

00:39.150 --> 00:46.830
Então, a recompensa por tomar essa ação ou algum tipo de recompensa que poderia ser uma pena também e eles acabam em

00:46.830 --> 00:47.780
um novo estado.

00:47.790 --> 00:50.180
E com base nisso agora eles tomam outra ação novamente.

00:50.250 --> 00:56.280
Eles recebem uma recompensa e acabam em um novo estado e eles tomam outra ação e assim por diante,

00:56.280 --> 00:59.670
e essa é a base de toda a aprendizagem de reforço.

00:59.700 --> 01:06.030
E é isso que usamos aprendendo em aprendizagem profunda e profundo convolucional, continuamos aprendendo e isso

01:06.030 --> 01:10.660
permitiu que nossos agentes vençam em ambientes gradualmente mais complexos e complexos.

01:10.770 --> 01:18.310
Mas agora vamos apresentar um conceito ainda melhor e até mesmo para levar esse nível ainda maior.

01:18.720 --> 01:25.530
O que A-3 vê introduz através deste e o elemento síncrono é em vez de ter um agente

01:25.520 --> 01:26.730
atacar o ambiente.

01:26.790 --> 01:34.140
Eles têm três agentes ou qualquer número de agentes ou vários agentes atacando o mesmo ambiente.

01:34.290 --> 01:39.360
E a chave aqui é por isso que é chamado de sincronização porque eles são inicializados de forma diferente para que

01:39.360 --> 01:40.920
suas entradas de estrelas sejam diferentes.

01:40.920 --> 01:46.520
Então, por exemplo, como você verá a partir de fontes práticas, você estabeleceu uma semente aleatória e você definiu de maneira

01:46.530 --> 01:47.980
diferente para cada um dos agentes.

01:48.030 --> 01:51.150
E assim porque seus pontos de partida são diferentes.

01:51.270 --> 01:55.260
Eles vão primeiro atravessar ambientes de diferentes maneiras e então eles vão explorar de diferentes

01:55.260 --> 01:58.620
maneiras e, em seguida, as próximas iterações também vão explorar de diferentes maneiras.

01:58.620 --> 02:01.190
E, por exemplo, temos três agentes.

02:01.300 --> 02:06.390
Você está de repente você está obtendo triplicar a quantidade de experiência em vez de

02:06.390 --> 02:12.480
apenas uma idade e atravessando e explorando o meio ambiente e tentando entender como operá-lo nesse ambiente.

02:12.570 --> 02:18.780
Agora você tem três ou muitos deles passando por isso e obtendo essa experiência e, portanto, lá

02:18.930 --> 02:25.140
para que cada um deles esteja aprendendo por essa experiência maior e, além de estar apenas oferecendo

02:25.140 --> 02:31.300
uma ampla gama de experiências, também reduz as chances de um agente ficando preso em um máximo local.

02:31.320 --> 02:38.040
Então, por exemplo, se um agente encontrar uma maneira de vencer o meio ambiente, o que não é o mais ideal, porque

02:38.130 --> 02:43.470
se desvia um lado esquerdo da solução que achou que sempre fica como se for mais penalizado, ele

02:43.470 --> 02:45.710
pode ficar preso em um máximo local.

02:45.710 --> 02:49.530
Pode continuar fazendo isso pensando que essa é a ótima solução onde, na verdade, não é.

02:49.680 --> 02:58.830
modo que a probabilidade de um agente ficar preso num determinado máximo local pode ser alta, ou pode ser um certo valor.

02:58.830 --> 03:04.440
Bem, a probabilidade de vários agentes ficarem presas nesse mesmo máximo local diminui em

03:04.440 --> 03:07.990
relação às diminuições com o número de agentes, de

03:08.130 --> 03:11.730
Mas a probabilidade quando você tem três deles de todos os três ficando presos no

03:11.730 --> 03:13.020
máximo local é muito menor.

03:13.020 --> 03:18.630
E enquanto eles compartilham experiências entre si, eles podem ajudar uns aos outros, então, se um deles ficar preso, por exemplo, está em

03:18.630 --> 03:23.370
um máximo local e simplesmente pensa que esse é o melhor e que é o melhor que é a

03:23.370 --> 03:25.700
melhor solução o tempo todo e continua fazendo isso.

03:25.830 --> 03:30.740
agentes, através da forma como construímos todo o algoritmo através de celular e eles vão ajudá-lo.

03:30.770 --> 03:35.710
Bem, enquanto interagir com os outros agentes, então digamos que este cara fica preso em uma

03:35.710 --> 03:37.620
ação calma, enquanto interage com outros

03:37.620 --> 03:42.960
Eles vão dar-lhe conhecimento de que, na verdade, você sabe, você deve explorar isso ou ele provavelmente terá

03:43.020 --> 03:44.630
mais chances de sair disso.

03:44.760 --> 03:50.370
E também, em geral, o ambiente saberá que oi, mesmo que este seja um ótimo máximo, essas

03:50.370 --> 03:55.230
outras idades tiveram melhores opções e devemos continuar explorando porque parece que há melhores opções.

03:55.230 --> 04:00.750
Então, em um tipo de entendimento intuitivo muito curto, isso é que essas são algumas das

04:00.750 --> 04:05.970
vantagens de ter esses agentes síncronos para que você tenha mais experiência para escolher e aprender.

04:06.210 --> 04:12.750
Você poderia chegar à solução mais rápida e geralmente falando, se houver uma menor chance

04:13.080 --> 04:16.640
de ficar preso no máximo local do CRN.

04:16.680 --> 04:18.710
Então, vamos ver como isso tudo se desenrola.

04:18.720 --> 04:24.300
Neste modelo que construímos até agora, é lembrar que é isso que conseguimos até agora através do crítico real e isso

04:24.300 --> 04:29.730
é como se estivéssemos todos provocando, isso é tão longe quanto você lembra do primeiro a tartaruga que nós apresentamos

04:29.730 --> 04:33.030
Isso você sabe que nós já tínhamos isso mesmo em um oceano profundo.

04:33.030 --> 04:38.340
agora não faz sentido o que é o ponto de ter esse crítico e medir o valor do

04:38.340 --> 04:43.620
estado ou prever o valor de um estágio usando o mesmo neural redes ou a mesma abordagem.

04:43.620 --> 04:48.320
Q Learning's Então, acabamos de chamar o X agora, mas agora introduzimos o crítico, mas até

04:48.510 --> 04:52.350
Mas agora é isso é que o parceiro vai começar a fazer mais sentido.

04:52.350 --> 04:57.750
O que vamos fazer é que vamos replicar isso porque agora temos vários agentes. Então, se vários agentes

04:57.750 --> 04:59.410
é isso, é o que parece.

04:59.410 --> 05:07.380
Então, a primeira maneira de imaginar isso é que agora temos esses três dias, lembre-se do que dissemos sobre eles

05:07.380 --> 05:09.210
compartilhando sua experiência entre si.

05:09.210 --> 05:12.270
Então, isso é realmente como agora eles são todos independentes.

05:12.260 --> 05:15.420
Você joga o jogo e, além de jogar o jogo, outro jogo no jogo.

05:15.450 --> 05:20.500
É como se fosse como lançar seu agente em três computadores diferentes, você colocou três computadores diferentes um ao lado do outro

05:20.500 --> 05:23.030
e você os lançou e você sabe que isso é ótimo.

05:23.050 --> 05:29.100
Como na verdade você gosta, você terá mais experiência, você terá mais variedade, especialmente se eles

05:29.100 --> 05:29.760
forem inicializados.

05:29.790 --> 05:33.600
Então, podemos assumir a partir daqui que eles são inicialmente inicializados inicialmente antes mesmo que

05:33.600 --> 05:34.770
tenhamos a mesma imagem aqui.

05:34.870 --> 05:39.900
Vamos saber que eles são realmente inicializados de forma diferente, então não será

05:39.900 --> 05:43.460
como um treinamento idêntico de aprendizado idêntico desse jogo.

05:43.890 --> 05:47.700
E mesmo assim, se você gosta de colocar três computadores

05:47.700 --> 05:55.560
lado a lado e você os lança sim, você terá mais experiência porque você terá três agentes jogando e também

05:55.680 --> 05:58.600
terá uma maior variedade de soluções possíveis .

05:58.620 --> 06:00.120
Então é verdade.

06:00.120 --> 06:03.840
Mas o problema é que eles não estão compartilhando nossa experiência entre si ou não aprendendo uns com os

06:03.840 --> 06:04.120
outros.

06:04.220 --> 06:06.840
Então eles não têm essa sinergia.

06:06.840 --> 06:11.670
se você tiver uma equipe de pessoas que trabalham melhor juntos do que cada um deles separadamente.

06:11.670 --> 06:17.930
Eles não têm a vantagem ou o poder extra que eles receberiam se eles estivessem atraindo você sabe como se você tivesse

06:17.920 --> 06:20.650
Então, como em uma equipe, você conseguiu um mais um mais um.

06:20.730 --> 06:25.200
São três, mas em uma equipe, um mais um para gerar e não três é como os três porque eles

06:25.200 --> 06:29.220
alavancam os pontos fortes uns dos outros e mitiram as fraquezas uns dos outros e o mesmo aqui.

06:29.220 --> 06:34.080
Então, se você colocar esses dois computadores lado a lado, sim, você terá mais memória de experiência e possivelmente

06:34.150 --> 06:35.580
alguém terá uma solução melhor.

06:35.580 --> 06:39.710
Outro que é ótimo, mas será ainda melhor se começarem a compartilhar essa experiência.

06:39.780 --> 06:41.120
E como eles fazem isso.

06:41.130 --> 06:47.820
Bem, é através deste Wii que calculamos isso, então esse valor Wii que é o resultado da

06:47.820 --> 06:49.550
nossa rede é realmente assim.

06:49.560 --> 06:54.960
Então, eles têm o mesmo de cada vez.

06:54.960 --> 06:58.050
Todos esses agentes estão contribuindo para o mesmo crítico.

06:58.050 --> 07:04.290
Eles não têm críticas separadas que eles têm um crítico comum e essa é a chave de como o ator

07:04.290 --> 07:06.270
crítico se relaciona com o seu síncrono.

07:06.270 --> 07:09.850
Então, há um crítico que está nos observando enquanto eles ganham experiência.

07:09.870 --> 07:12.420
Então, como calculamos o Wii.

07:12.570 --> 07:13.920
Temos de conseguir o Wii.

07:14.220 --> 07:20.190
Como você se lembra, podemos obter TV através dos valores que obtemos, de modo que as recompensas que recebemos pelo

07:20.190 --> 07:20.750
meio ambiente.

07:20.760 --> 07:28.310
E, assim como os agentes exploram seu ambiente, eles são calculistas, eles estão prevendo o Wii.

07:28.320 --> 07:30.710
Além disso, eles têm o Wii que eles podem calcular.

07:30.720 --> 07:35.010
Isto é tudo isso é tudo de volta ao que já discutimos nas seções anteriores

07:35.010 --> 07:35.730
das pontuações.

07:35.850 --> 07:42.870
existem neste labirinto e que eles já exploraram e, enquanto os exploram, é claro que esse valor pode mudar.

07:42.870 --> 07:48.700
Então eles já têm um Wii que eles podem prever como esperar através das recompensas que

07:48.750 --> 07:49.770
eles sabem que

07:49.890 --> 07:55.410
Mas também eles têm o Wii que este é o resultado da rede neural, de modo

07:55.410 --> 08:01.530
que eles estão passando por isso, eles estarão ajustando suas redes neurais para combinar melhor o esperado.

08:01.530 --> 08:10.080
Então, basicamente isso é compartilhado, a parte crítica é compartilhada entre os agentes e é assim que eles compartilham as informações entre si

08:10.080 --> 08:15.490
e assim são capazes de ver o que está acontecendo no ambiente compartilhado entre si

08:15.490 --> 08:20.890
e depois usar isso como nós Veremos mais adiante na próxima parte em vantagem.

08:20.930 --> 08:25.450
Então, use isso para otimizar a forma como eles estão se comportando no meio ambiente.

08:25.710 --> 08:27.960
E a outra coisa a notar aqui é.

08:28.080 --> 08:29.510
Então, isso foi um C.

08:29.520 --> 08:33.150
Isto é como o núcleo da A-3 até aqui.

08:33.150 --> 08:38.610
Este é um tipo de versão de 08:30 Mas existe uma implementação ainda melhor do que isso.

08:38.610 --> 08:45.450
e o lado prático das coisas e sobre o que ele vai falar é como o criador de Pi Torche

08:45.450 --> 08:52.680
realmente fez um ajuste para um dos códigos que foram compartilhados e obter o hub onde ele levou tudo isso, como você

08:52.980 --> 08:58.530
pode ver agora, eles têm redes neurais separadas e eles mostraram que o ajuste que foi feito

08:58.530 --> 09:03.420
foi realmente levar todas essas redes neurais e colocá-las em uma Pegue-os e coloque-os.

09:03.420 --> 09:09.000
A através de C, na qual você vai realmente ouvir, gostaria de falar sobre um dos primeiros

09:09.000 --> 09:09.300
tutoriais

09:09.300 --> 09:15.100
Então, em última análise, existe apenas uma rede neural compartilhada entre os agentes.

09:15.120 --> 09:21.180
Então, antes de cada um deles possuía uma rede neural compartilhada pelo ator e pela crítica, uma

09:21.180 --> 09:25.790
rede neural Shelfer real para o crítico, uma rede neural compartilhada por precisão.

09:25.800 --> 09:31.730
Agora todos eles têm uma rede neural compartilhada pelo ator ou crítico crítico real x ou crítico.

09:31.980 --> 09:35.130
E então o crítico está aqui em comum.

09:35.310 --> 09:36.690
Então vamos ver.

09:36.690 --> 09:39.840
Vamos mover essas fotos para a esquerda aqui, então faça algum espaço.

09:40.100 --> 09:47.430
E esta é basicamente a arquitetura ou a estrutura que vamos usar nos

09:47.430 --> 09:48.250
tutoriais práticos.

09:48.300 --> 09:55.020
Eu sei que assim pode parecer um pouco irresistível neste estágio, mas nós temos mais um para falar

09:55.020 --> 09:59.370
sobre qual é a vantagem e aí vamos vê-lo melhor em ação.

09:59.370 --> 10:02.780
Como é que vamos falar sobre a intuição em ação.

10:02.870 --> 10:05.680
Mas, em geral, isso é o que é isso.

10:05.700 --> 10:10.640
Isto é, existe uma rede que cada agente usa ou compartilha.

10:10.640 --> 10:15.820
Basicamente o que isso significa é que eles compartilham os pesos dos pesos da rede são compartilhados entre as

10:15.840 --> 10:19.920
idades e quando atualizá-lo, eles atualizam toda a rede não apenas a sua própria rede.

10:20.480 --> 10:26.270
E então eles têm resultados que eles têm como essas ações para cada agente e então eles têm o crítico que

10:26.270 --> 10:27.710
é compartilhado, que será monitorado.

10:27.700 --> 10:34.280
Então eu sei que tudo isso é como se houvesse muitas coisas agora, mas espero que ele esteja lentamente se

10:34.850 --> 10:35.900
juntando pelo menos.

10:35.900 --> 10:39.660
O principal takeaway daqui é o crítico porque é compartilhado.

10:39.670 --> 10:47.810
que os agentes conseguem garantir que eles estejam cooperando juntos para obter o resultado muito mais rápido.

10:47.810 --> 10:48.660
É assim

10:48.860 --> 10:52.690
E então, no próximo tutorial, veremos ainda mais como tudo isso se resume.

10:52.700 --> 10:53.650
Tudo isso vem junto.

10:53.900 --> 11:00.920
E por enquanto, há como eu gostaria de recomendar ou gostaríamos de recomendar uma leitura

11:00.920 --> 11:01.210
adicional.

11:01.210 --> 11:06.780
Então este é um blog de Jaromir Jansch.

11:06.860 --> 11:11.570
É chamado Vamos fazer um A3 ver implantações é realmente duas partes de implementação e teoria.

11:11.820 --> 11:19.010
é especificamente para este tutorial, apenas não apenas para o Sutro, mas é para toda essa seção.

11:19.010 --> 11:25.880
Existe o link e é muito semelhante ao que a Adlon estará implementando no lado prático do

11:25.880 --> 11:27.200
tutorial, portanto, não

11:27.200 --> 11:30.900
Incentive algumas informações adicionais sobre isso.

11:31.040 --> 11:33.260
E é por isso que estamos trazendo isso aqui.

11:33.320 --> 11:38.030
Mas, no entanto, no próximo tutorial, vamos começar a puxar tudo isso juntos.

11:38.030 --> 11:39.040
Tudo o que discutimos.

11:39.200 --> 11:40.590
E espero vê-lo na próxima vez.

11:40.590 --> 11:42.200
E até então, aprecio I.