WEBVTT

00:00.730 --> 00:03.690
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:03.730 --> 00:07.440
Na história de hoje, estamos falando sobre o final a em um 3C.

00:07.450 --> 00:09.400
Estamos falando de vantagem.

00:09.550 --> 00:10.340
Então está lá.

00:10.360 --> 00:14.040
Nós já falamos sobre crítico ator e um síncrono anteriormente.

00:14.260 --> 00:20.500
E então ele construiu um caminho para o que estaremos olhando hoje e com vantagem

00:20.500 --> 00:21.560
vamos juntar tudo.

00:21.730 --> 00:28.750
entre os agentes os agentes assíncronos e depois temos o crítico que também é compartilhado entre a idade e assim.

00:28.840 --> 00:33.550
Então, é isso que temos até agora, temos uma rede neural que é compartilhada

00:33.580 --> 00:36.490
Como tudo isso se desempenha e por que esse crítico é compartilhado entre os agentes.

00:36.500 --> 00:37.390
Vamos dar uma olhada nisso.

00:37.600 --> 00:42.250
Bem entende melhor, vamos ver um exemplo, vamos olhar para este agente, por exemplo, e ver o que acontece

00:42.280 --> 00:46.730
quando ele está em um determinado estado e ele precisa tomar uma decisão sobre as ações a serem executadas.

00:46.840 --> 00:53.890
é que esta informação entra na rede neural que ela vai para o covil convolucional, depois entra na laje de agrupamento, depois

00:53.980 --> 00:59.200
entra no covil achatado e, a partir daí, entra no camadas escondidas da rede neural e, em

00:59.200 --> 01:04.330
seguida, como saída, ele obtém todos esses valores de política que você valoriza é a política.

01:04.330 --> 01:09.870
Então, este agente está em um estado em que ele vê essa imagem e, então, o que acontece

01:09.970 --> 01:14.160
E também ele obtém o valor do crítico.

01:14.230 --> 01:21.640
E assim que conhecemos as redes neurais para operar, eles precisam propagar certos erros ou perdas de

01:21.640 --> 01:22.720
volta pela rede.

01:22.720 --> 01:29.020
Então, desta forma, para atualizar os pesos, então, o que espera ou então, quais perdas nós vamos tratar

01:29.080 --> 01:29.520
aqui.

01:29.590 --> 01:30.540
Bem, somos duas perdas.

01:30.540 --> 01:32.970
Temos a perda de valor e os postagens.

01:32.980 --> 01:38.360
Portanto, a perda de valor está vinculada ao valor que a perda parcial está vinculada a pools e tão valiosa.

01:38.400 --> 01:41.080
Nós já lidamos com isso antes.

01:41.260 --> 01:48.850
Sabemos que temos recompensas e sabemos que temos um fator de desconto, basicamente, isso é muito

01:48.850 --> 01:54.690
semelhante ao que estávamos falando na conversão em tutoriais de aprendizagem profunda.

01:54.730 --> 02:03.190
Basicamente, a rede prediz um certo valor V e, ao mesmo tempo, podemos estimar o que deveria basear-se no que sabemos sobre o meio ambiente até

02:03.190 --> 02:09.160
agora, podemos estimar o que o valor deve ser no estado e comparando os dois, podemos calcular o

02:09.190 --> 02:13.350
valor A perda e, em seguida, a rede de propagação traseira atualizam os

02:13.360 --> 02:13.730
pesos.

02:13.870 --> 02:17.670
Então, é por isso que está a favorecer o novo problema aqui é a perda da política.

02:17.770 --> 02:21.700
E então, qual é a perda dessa política e como isso funciona?

02:21.700 --> 02:28.960
Bem, esta é a parte em que toda a situação em que o crítico é compartilhado entre

02:28.960 --> 02:32.520
os atores ou entre os agentes vai finalmente surgir.

02:32.590 --> 02:38.920
Então, para entender a perda de palsu, precisamos introduzir um valor chamado Advantage, portanto, o nome desta

02:39.340 --> 02:45.460
parte da história nesta parte inteira do Salyut, a vantagem e a vantagem é calculada como Q

02:45.480 --> 02:47.900
como um A menos V de s.

02:47.920 --> 02:54.550
jogar toda a ação que você escolheu para jogar no estado em que você está no estado S menos o valor desse estado.

02:54.550 --> 02:57.420
Então, basicamente, o valor Q ou que você escolheu para

02:57.640 --> 03:00.670
Então, esta é a diferença entre os dois e isso é chamado aquele.

03:00.670 --> 03:04.950
E a vantagem é usada no cálculo do sem pulso.

03:04.990 --> 03:10.510
Agora, não vamos entrar na fórmula do cálculo sem pulso porque é bastante complexo usar entropia

03:10.710 --> 03:12.860
ou pode usar entropia não precisa.

03:12.990 --> 03:17.020
Não vamos dissecar essa fórmula, mas vamos entender isso em um nível intuitivo.

03:17.020 --> 03:21.470
Por que estamos fazendo isso por que estamos calculando essa vantagem e como isso vai nos ajudar.

03:21.640 --> 03:24.190
Bem, vamos ver essa premissa por um segundo.

03:24.190 --> 03:33.040
O valor Q aqui vem do que a rede neural previu para este agente e, portanto, preditiva nesta ação específica nesse estado específico

03:33.040 --> 03:37.840
para a ação que pode desempenhar, de modo que tenha essas ações

03:38.110 --> 03:45.790
e pode deslizar uma delas e pode reproduzi-la bem, enquanto o valor Wii é o valor que é ditado pelo

03:45.790 --> 03:46.480
crítico.

03:46.480 --> 03:52.320
É o valor que temos aqui nesta parte compartilhada e essa é a chave aqui que esta parte é compartilhada

03:52.330 --> 03:56.310
para que o crítico quebra porque é assim que o crédito entra em jogo.

03:56.470 --> 04:01.300
Porque temos um valor que escolhemos ou a ação que escolhemos jogar para esse agente

04:01.300 --> 04:01.930
nesse estado.

04:01.990 --> 04:09.340
Mas então o crítico pode nos dizer qual é o valor conhecido desse estado, o que é o valor conhecido para todo esse

04:09.340 --> 04:15.790
grupo de agentes que estão se apresentando juntos porque o compartilhamento não responde porque o B inicial porque eles estão

04:15.820 --> 04:21.280
compartilhando o crítico Todos eles contribuem para isso para esses valores de v que estão sendo calculados

04:21.280 --> 04:25.690
para um conjunto diferente para o todo a. O algoritmo z diz OK.

04:25.690 --> 04:34.060
Então, o crítico conhece um valor v quanto melhor seu valor q você está selecionando em comparação com o

04:34.060 --> 04:35.290
valor v conhecido.

04:35.350 --> 04:36.480
Isso é o que está dizendo.

04:36.640 --> 04:37.930
Então é basicamente isso.

04:37.930 --> 04:45.430
Então, eu vou selecionar um valor de q aqui com base em minha política baseada em se o que quer que possamos usar como

04:45.700 --> 04:50.150
uma função máxima macia ou sobre ou uma política de Epsilon Grealy ou algo assim.

04:50.170 --> 04:55.660
E é claro que iremos explorar a exploração e a exploração combinada, mas selecionamos o valor

04:55.660 --> 04:59.260
Q e agora a questão é o que é extra.

04:59.290 --> 05:05.820
O que isso repreende, qual é a vantagem que a ação selecionada traz em comparação com o valor conhecido desse

05:05.820 --> 05:12.480
estado e essa é a essência da vantagem e, basicamente, isso é usado para calcular a perda de política e,

05:12.480 --> 05:17.940
em seguida, a perda de política é então propagada novamente através da rede para a rede.

05:17.940 --> 05:23.910
são ajustados para que a rede represente melhor o valor do crítico e também é a parte superior.

05:23.910 --> 05:28.280
Então, eles estão de volta propagando através de uma rede e os pesos

05:28.410 --> 05:33.030
Mas, então, isso também faz parte da chave aqui é que o valor dos pesos é o bakra.

05:33.120 --> 05:40.530
Quando é que estas postagens de volta esquecem que as taxas são ajustadas de tal forma que esta vantagem é

05:40.590 --> 05:46.200
maximizada, de modo que é esse o lado intuitivo da compreensão intuitiva de que estamos

05:46.350 --> 05:52.010
de volta essa política por último através da rede para ajudar a maximizar essa vantagem.

05:52.050 --> 05:57.660
E o que isso significa é, basicamente, que quando um agente se depara com ações ruins, como ações em que

05:57.660 --> 06:00.930
o q é menor do que o valor conhecido para o estado.

06:00.930 --> 06:07.110
algo X e, de repente, você encontrou uma ação muito ruim e o que você escolheu sobre ação.

06:07.110 --> 06:11.690
Então, basicamente, todo o algoritmo ATC sabe que o valor para o estado é

06:11.700 --> 06:17.130
E o que isso significa para o entusiasmo é tão bom porque faremos algo assim quando é pior do

06:17.130 --> 06:21.960
que já sabemos o que já conhecemos sobre todo esse ambiente e o que poderia ter feito.

06:22.080 --> 06:23.500
Então não devemos fazer mais disso.

06:23.610 --> 06:27.670
E, portanto, os pesos são apenas de uma maneira para que isso aconteça é mais raro.

06:27.690 --> 06:29.900
Então isso acontece menos raro.

06:30.300 --> 06:33.430
Então, é uma ocorrência menos frequente que escolhemos aquela ação ruim.

06:33.510 --> 06:38.880
assim, o algoritmo de atresia pensará bem, o que realmente é legal, que o Wantage estava muito alto lá.

06:39.050 --> 06:43.220
Por outro lado, se você escolher uma ação muito boa, onde q valor é

06:43.230 --> 06:50.780
maior do que V ou muito maior, então, quando durante este atraso da perda polonesa através da rede, os pesos serão atualizados e de forma a

06:50.790 --> 06:55.140
reforçar isso para incentive-se a tranquilizar que isso aconteça de novo para que os pesos

06:55.140 --> 06:56.790
sejam ajustados de tal forma que,

06:56.880 --> 07:03.750
Eu deveria fazer mais disso e, portanto, você atualizará os pesos de tal forma que será mais provável que

07:03.750 --> 07:05.550
ocorram no futuro essa ação.

07:05.560 --> 07:13.080
que a rede está lentamente a adaptar-se lentamente e, lentamente, vai se construir em algo que, por

07:13.080 --> 07:19.770
um lado, calcula o valor corretamente e, por outro lado, ou o mais correto possível.

07:19.770 --> 07:21.990
Então e, portanto, você sabe

07:21.990 --> 07:28.330
E, por outro lado, incentiva ou tem ações que possuem uma grande vantagem.

07:28.380 --> 07:30.570
Então, vamos lá. É essa é essa parte.

07:30.570 --> 07:35.930
E agora vamos dar uma olhada em outro apenas para reforçar o que acabamos de discutir no topo 1.

07:36.000 --> 07:37.210
Então, o mesmo aqui.

07:37.350 --> 07:45.330
e, então, precisa decidir o que fazer, uma vez que esta informação para as redes dessa imagem usam a internet para se convolucionar, eles

07:45.330 --> 07:50.100
estão puxando seu achatado Lehre entra nas camadas ocultas e depois daqui obtemos um

07:50.100 --> 07:56.290
resultado que obtemos os valores agudos da política, obtemos os valores V novamente a mesma coisa, temos duas perdas.

07:56.310 --> 08:00.960
As principais agências de uma situação em que um estado está em um estado

08:00.960 --> 08:05.240
Nós temos a perda de valor que é a perda polonesa aqui que é perda de valor aqui.

08:05.250 --> 08:06.830
Nós já sabemos como é calculado.

08:06.960 --> 08:10.950
Quando discutimos isso na aprendizagem Q profunda e apenas discutimos agora também.

08:10.950 --> 08:17.340
Então foi assim que o valor foi calculado e, em seguida, a perda de política novamente para calcular o que não vamos

08:17.340 --> 08:18.370
entrar para ele.

08:18.390 --> 08:25.530
que está certo, então nós tomamos uma determinada ação, nós escolhemos uma determinada ação com base em nossa política de seleção,

08:25.530 --> 08:31.140
seja o Max macio ou o aumento de ganância ou qualquer outra política social que estamos usando.

08:31.170 --> 08:34.470
Mas, em um nível intuitivo, estamos calculando essa vantagem, o

08:34.620 --> 08:42.630
E então, qual é a ação que tomamos? Agora, vamos comparar isso com o conhecido e o valor do estado, que vem dos críticos compartilhados,

08:42.630 --> 08:47.670
de modo que esse crítico é como se você pensasse que é meio que observa todos

08:47.670 --> 08:52.950
esses agentes, ao mesmo tempo, está olhando Com este olhar para este, todos eles estão contribuindo para

08:52.950 --> 08:58.140
um crítico para obter o crítico mais rápido com o meio ambiente para se certificar de

08:58.380 --> 09:03.600
que o crítico é representativo do que está acontecendo no ambiente atual para que os pesos.

09:03.660 --> 09:10.170
valor vem para que os pesos da rede neural real que eles refletem muito bem a situação

09:10.260 --> 09:17.700
real das coisas no meio ambiente para que eles possam então contar com esse valor e depois usá-lo aqui.

09:17.700 --> 09:20.090
É aí que a perda de

09:20.090 --> 09:21.550
E, basicamente, basicamente.

09:21.720 --> 09:26.880
Então, todos esses agentes, todos esses agentes estão contribuindo para esse crítico.

09:26.880 --> 09:32.850
Mas, ao mesmo tempo, através desse valor sem valor, mas ao mesmo tempo o crítico está observando

09:32.850 --> 09:35.490
as decisões ou as políticas dessas agências.

09:35.490 --> 09:39.960
É como se fosse olhar para trás, eu estou tentando desenhar como uma flecha nos pólos, uma flecha

09:39.960 --> 09:40.740
e uma flecha.

09:40.830 --> 09:45.780
essa vantagem e dizendo que OK, você tomou uma decisão que escolheu, você escolheu essa ação.

09:45.780 --> 09:50.210
Então, olhando para eles na decisão que eles estão fazendo, está criticando essas decisões por

09:50.220 --> 09:51.240
Isso é ótimo.

09:51.240 --> 09:56.570
Agora vamos calcular a vantagem ou a vantagem da desvantagem é igual a que você sabe que

09:56.590 --> 10:04.040
o valor de Q pode ter feito a decisão que fiz ou a escolha que fiz naquilo que fiz escolhi pegar menos o valor

10:04.100 --> 10:05.100
conhecido para o crítico.

10:05.110 --> 10:06.470
Não sobre o crítico.

10:06.470 --> 10:12.010
de Q ou esse valor de Q vai ser menor para que, porque nossa política seleciona as ações com

10:12.020 --> 10:16.580
base nos valores de q, quanto maior o valor de Q, mais provável será selecionado.

10:16.580 --> 10:22.010
Então, Kalika a diferença se é uma diferença baixa, você é polonês, quando você polir suas perdas de

10:22.010 --> 10:28.910
volta propagadas através da rede da maneira como ela será ajustada vai encorajar os pesos a serem ajustados de tal forma que isso

10:28.910 --> 10:30.560
não aconteça novamente que esse valor

10:30.560 --> 10:35.210
Então, se estivéssemos usando como uma política de arco máximo, nós sempre selecionamos sempre um dos mais altos,

10:35.360 --> 10:38.870
como você se lembra, discutimos isso, então sempre selecionaremos aquele com o maior valor.

10:38.870 --> 10:43.790
Mas nós realmente estávamos usando uma abordagem probabilística em que eu estava usando como soft Max ou upselling

10:43.790 --> 10:44.420
política gananciosa.

10:44.540 --> 10:49.010
então estávamos basicamente selecionando onde podemos selecionar qualquer um deles, e quanto maior o cubo melhor.

10:49.010 --> 10:49.220
E

10:49.220 --> 10:55.310
Então, se selecionarmos algo e então a vantagem foi muito baixa, então a bomba será adicionada

10:55.310 --> 11:01.970
de maneira que a próxima vez que o valor dessa ação seja menor e talvez outra coisa

11:01.970 --> 11:02.910
seja mais.

11:02.960 --> 11:09.770
Então é assim que isso é dividido e, por outro lado, se selecionarmos algo em que essa vantagem

11:09.770 --> 11:15.050
será alta, então isso vai entrar nas leis de políticas e, em seguida, as

11:15.060 --> 11:19.590
redes e a atualizamos para que seja mais comummente observado evento como cenário.

11:19.640 --> 11:26.300
E, basicamente, toda essa perda polonesa ajuda a rede a se adaptar ou se transformar de forma tal que fazemos.

11:26.300 --> 11:31.620
Moral das coisas boas, boas ações boas e coisas boas e faça menos coisas ruins.

11:31.700 --> 11:35.040
E é assim que essas duas perdas entram em jogo e é assim que elas estão de volta.

11:35.120 --> 11:41.800
Então, espero que isso se acerte de uma maneira muito intuitiva, é claro, não entrou nas fórmulas para

11:41.810 --> 11:46.930
a complexa matemática por trás de tudo isso e gosta nos detalhes muito intrincados.

11:47.060 --> 11:50.940
Mas, ao mesmo tempo, espero que seja intuitivo de maneira intuitiva.

11:50.990 --> 11:58.850
Tudo isso aclara por que temos o ator e o crítico e como eles interagem juntos que você sabe

11:58.850 --> 12:03.780
que você tem esses agentes de lado assíncrono ou síncrono de coisas.

12:03.790 --> 12:08.480
Então, este é o seu ator e crítico e esta é a vantagem e como isso tudo entra em jogo.

12:08.480 --> 12:10.840
Portanto, esses são agentes síncronos.

12:10.850 --> 12:11.920
Eles estão indo.

12:12.040 --> 12:18.740
Eles estão jogando isso ou explorando o meio ambiente e trabalhando através do meio ambiente e

12:18.740 --> 12:26.720
todos contribuem para um crítico que está observando suas políticas observando os atores que é o que isso é

12:26.720 --> 12:27.400
chamado.

12:27.560 --> 12:34.610
E através dessa vantagem e, portanto, chegar isso representa uma perda e, em seguida, a perda de política e valor ou

12:34.610 --> 12:38.210
propagação de volta para apenas a rede, a fim de.

12:38.240 --> 12:43.540
Por um lado representam o verdadeiro caminho das coisas no meio ambiente.

12:43.580 --> 12:47.630
Outra mão para melhorar as performances dos atores.

12:47.930 --> 12:48.410
Então vamos lá.

12:48.410 --> 12:52.800
Esse é um rápido recapitulação da intuição que discutimos.

12:52.790 --> 12:58.550
Mais uma vez, espero que tudo isso esteja se juntando em um nível intuitivo e, claro, nos

12:58.550 --> 13:04.880
tutoriais práticos. Falaremos mais sobre como tudo isso funciona em Atlanta, nós o seguiremos por esse processo de proprietários

13:04.880 --> 13:05.560
de edifícios.

13:05.570 --> 13:11.240
imagem em sua mente e este tipo de como um roteiro de tudo como se juntará será

13:11.240 --> 13:17.240
bom, é o que espero seja muito útil para você navegar melhor o lado prático das coisas.

13:17.240 --> 13:18.160
Mas ter esta

13:18.290 --> 13:25.710
E em termos de leitura adicional para hoje, temos dois elementos, primeiro o primeiro em vantagem.

13:25.760 --> 13:32.480
Então, aqui temos um controle contínuo demencial elevado usando a estimativa de vantagem generalizada por

13:32.480 --> 13:38.930
John Shulman e esta é uma imagem de uma figura de vara levantando-se como pé.

13:38.930 --> 13:44.030
E aqui você pode encontrar ainda mais sobre vantagens e vantagem e você encontrará todos os diferentes

13:44.030 --> 13:44.960
tipos de vantagens.

13:44.990 --> 13:50.870
a vantagem e exatamente como funciona as fórmulas por trás disso e alguns dos

13:51.110 --> 13:56.360
os principais elementos ou fórmulas superiores e sem furos no espaço desta vantagem.

13:56.360 --> 14:05.330
Você obteve a vantagem geral na estimativa e você tem vantagens que você usa realmente nos formulários nos cálculos, então, se você

14:05.330 --> 14:06.810
quiser saber mais sobre

14:06.830 --> 14:08.700
Nós os discutimos.

14:08.720 --> 14:10.140
Este é o artigo a seguir.

14:10.490 --> 14:19.880
E mais um outro elemento que ou um trabalho que queríamos lembrá-lo sobre o blog é uma série de postagens

14:19.990 --> 14:24.350
do blog de Arthur Giuliani, que já mencionamos algumas vezes.

14:24.350 --> 14:28.010
Esta é a segunda parte, que é especificamente sobre o mar A-3.

14:28.280 --> 14:33.280
Então, aqui, você pode obter uma outra explicação.

14:33.650 --> 14:38.900
Então, com um pouco mais de matemática sobre o que está acontecendo e você talvez você possa pegar algumas coisas

14:38.900 --> 14:39.420
adicionais daqui.

14:39.440 --> 14:45.470
Apenas duas coisas a ter em mente, antes de tudo, como sempre, este blog é seguidores mais intensos, estamos usando

14:45.470 --> 14:46.130
pi tocha.

14:46.130 --> 14:46.840
Portanto, tenha isso em mente.

14:46.840 --> 14:53.330
E a segunda coisa é que a forma como estruturámos nossa abordagem é que falamos sobre crítico ativo primeiro,

14:53.960 --> 14:55.730
então falamos sobre um síncrono.

14:55.730 --> 15:03.040
Arthur sobre um Synchronoss um ator crítico, uma vantagem, então tenha isso em mente, então espero que não o expulse.

15:03.050 --> 15:07.260
E então conversamos sobre vantagem, enquanto que no primeiro registro de

15:07.340 --> 15:10.480
Mas, além disso, claro, é um ótimo conteúdo.

15:10.490 --> 15:14.510
E recomendamos que verifique algumas informações adicionais.

15:14.780 --> 15:16.840
Então, vamos lá, espero aproveitar o tutorial de hoje.

15:16.880 --> 15:18.710
E espero vê-lo na próxima vez.

15:18.710 --> 15:20.240
Até então, aproveite.

15:20.260 --> 15:20.520
EU.