WEBVTT

00:00.660 --> 00:03.920
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:03.930 --> 00:09.440
E, finalmente, estamos com as coisas divertidas que estamos aprendendo profundamente.

00:09.450 --> 00:10.660
Tudo bem, então vamos dar uma olhada.

00:10.720 --> 00:14.100
Bruce falamos sobre ganhos assassinos e sobre o que se trata.

00:14.140 --> 00:20.160
E aprendemos sobre o ambiente do Agente e como o agente examinará o estado.

00:20.210 --> 00:23.620
Ou ela está em uma ação ganha uma recompensa.

00:23.640 --> 00:28.610
Entre em um novo estado e com base nesse ciclo de feedback eles continuarão a tomar ações

00:28.610 --> 00:29.460
e aprenderão disso.

00:29.460 --> 00:32.310
Compreenda quais são as melhores ações a serem tomadas.

00:32.310 --> 00:35.040
E então olhamos para este exemplo básico de um labirinto.

00:35.040 --> 00:40.550
Entendemos que, à medida que a Ásia explora o ambiente, entende quais são os valores dos estados.

00:40.560 --> 00:45.150
Em seguida, passamos a lidar com os valores dos estados para lidar com os

00:45.150 --> 00:52.230
valores das ações com os valores e, em seguida, A-Basin que entendemos como os planos em ambientes não sarcásticos funcionam e como

00:52.560 --> 00:57.070
as políticas funcionam em ambientes estocásticos e isso é um exemplo de uma política.

00:57.120 --> 01:01.340
Então, esse é um recapitular rápido de tudo o que discutimos na aprendizagem básica.

01:01.450 --> 01:07.230
dar uma olhada em como isso pode ser levado ao próximo nível através de aprendizado profundo através da adição de aprendizado profundo.

01:07.230 --> 01:08.080
E agora vamos

01:08.260 --> 01:08.510
ESTÁ BEM.

01:08.520 --> 01:16.110
Então, este é o nosso ambiente e o que vamos fazer agora é que vamos adicionar em vez

01:16.110 --> 01:21.860
de apenas fazer cálculos básicos nesta matriz que temos o que é bastante simples.

01:21.870 --> 01:26.970
O que faremos é que vamos adicionar dois eixos que adicionem um eixo x e y ou

01:27.090 --> 01:28.480
os chamaremos x1 e x2.

01:28.560 --> 01:30.430
Apenas para tornar as coisas ainda mais gerais.

01:30.480 --> 01:36.830
E aqui temos o número real da linha as colunas 1 2 3 4 ele regerá o número das linhas 1 a 3.

01:36.960 --> 01:44.730
E assim, agora, cada estado pode ser descrito por um par de dois valores x1 e x2 para que qualquer

01:44.730 --> 01:50.940
um desses quadrados em que o agente possivelmente possa entrar pode ser descrito por x1 x2.

01:50.940 --> 01:58.280
Então, por exemplo, agora ele está no quadrado com X1 igual a 1 e x 2 igual a 2.

01:58.470 --> 02:03.430
E, portanto, não é assim que podemos escapar em seu quadrado, o que significa que podemos descrever em seu estado.

02:03.480 --> 02:08.330
Então, é claro, esta é uma versão muito simplificada de um ambiente de estados que descrevem.

02:08.340 --> 02:10.110
Mas, no entanto, funciona neste caso.

02:10.290 --> 02:17.260
E isso significa que agora podemos alimentar esses estados em uma rede neural.

02:17.400 --> 02:21.830
x número um e uma palhaçada e dois para prosseguir com sucesso nesta seção.

02:21.830 --> 02:26.880
E, a propósito, gostaria apenas de mencionar que, no final do curso de bons anexos, temos um

02:26.970 --> 02:32.280
Altamente recomendável que você verifique o que não é acessível, que está na rede neural

02:32.280 --> 02:37.470
artificial, para que você entenda como eles funcionam para que não possamos aprofundar isso e

02:37.470 --> 02:43.800
podemos usar os benefícios do conhecimento de como funcionam as redes neurais artificiais e por isso alimentamos essas

02:43.830 --> 02:51.870
informações sobre o estado em uma rede neural e, em seguida, processará essas informações, o X1 e x2, dependendo da estrutura da rede

02:51.870 --> 02:55.380
neural, talvez tenha múltiplas camadas ocultas e assim por diante.

02:55.380 --> 03:00.900
Então, isso é algo que você descobrirá nos tutoriais práticos, mas no final, vamos estruturar

03:00.900 --> 03:06.570
de forma que ele esculpe valores e esses quatro valores realmente serão o nosso valor Q.

03:06.570 --> 03:11.790
Portanto, os valores que determinam quais ações precisamos tomar e não neste tutorial veremos exatamente como

03:11.790 --> 03:15.220
esses valores-chave são usados ​​para decidir qual ação é tomada.

03:15.240 --> 03:22.490
Mas o ponto principal aqui é que não mais olhamos apenas este labirinto a partir de uma perspectiva de aprendizado.

03:22.650 --> 03:29.760
Agora estamos levando os estados do labirinto e estamos alimentando-os em uma rede neural profunda para

03:29.820 --> 03:31.360
obter esses cubículos e.

03:31.410 --> 03:35.080
E no final do dia, ainda vamos encontrar uma ação, ainda entenderemos as ações

03:35.150 --> 03:39.900
que precisamos tomar e vamos discutir tudo isso com mais detalhes, mas a questão agora é por que

03:39.900 --> 03:42.990
razão é porque estamos fazendo tudo isso por isso chamamos isso.

03:43.200 --> 03:47.990
Por que as coisas são muito mais complicadas quando essa abordagem inicial de aprendizagem já estava

03:48.280 --> 03:48.990
funcionando bem.

03:49.170 --> 03:54.980
A razão para isso é aprender a trabalhar neste ambiente muito simplista e continuamos a lidar

03:54.990 --> 03:59.830
por enquanto com este ambiente muito simplista, a fim de entender melhor os conceitos.

04:00.000 --> 04:06.220
Mas, ao mesmo tempo, o aprendizado simples do Kial não funcionará mais em ambientes mais

04:06.600 --> 04:12.780
complexos e estamos falando, por exemplo, dos carros auto-dirigentes que estarão criando ou jogando Doom

04:13.020 --> 04:19.200
quando a inteligência artificial estiver jogando Doom ou outros jogos do Atari como breakout ou

04:19.260 --> 04:26.400
mesmo auto-condução de carros e reforço mais avançado aprender coisas como, como, robôs andando e realizar ações em

04:26.730 --> 04:32.400
todos esses casos, basicamente aprender é insuficiente não é forte não é poderoso o

04:32.400 --> 04:34.700
suficiente para poder dominar esses desafios.

04:34.710 --> 04:41.250
E assim como vimos no curso de aprendizado profundo, se você esteve em nossa disciplina ou se você fez

04:41.250 --> 04:47.820
as seções anexas no x número um e X-2, você saberá que o aprendizado profundo é muito superior a

04:47.820 --> 04:51.640
qualquer tipo de aprendizagem de máquinas, muito menos um simples aprendizado legal.

04:51.660 --> 04:55.770
E é por isso que estamos aproveitando o poder da aprendizagem profunda aqui, então estamos alimentando

04:55.770 --> 04:58.580
a informação sobre o meio ambiente como um vetor de valores.

04:58.590 --> 05:04.240
e, em seguida, estamos usando isso para realizar as ações que queremos decidir quais ações os agentes serão levados.

05:04.240 --> 05:07.220
Neste caso, apenas para usar em uma rede neural profunda

05:07.420 --> 05:11.700
Então, é como uma visão geral de alto nível sobre por que estamos fazendo isso.

05:11.830 --> 05:17.920
E agora vamos dar uma olhada em um pouco mais de detalhes o que acontece com o conceito

05:17.920 --> 05:24.100
de aprendizado legal quando transferimos quando fazemos a transformação ou a transição do aprendizado simples para o Killary profundo.

05:24.130 --> 05:31.720
Então, como você viu nos tutoriais de intuição anteriores, tivemos um slide como esse, que é o fundamento da

05:31.960 --> 05:33.550
aprendizagem da diferença temporal.

05:33.700 --> 05:37.430
Esta é a fórmula para a diferença temporal e basicamente, então vamos passar.

05:37.430 --> 05:44.640
Então, basicamente, nós tínhamos um agente que estava nesse estado por aqui, o que é indicado na seta azul.

05:45.070 --> 05:51.760
E nós entendemos como a diferença temporal funciona para esse valor, por exemplo, subindo.

05:51.790 --> 05:57.250
E então, o que vimos aqui foi antes disso, é o simples Killary, não o aprendizado profundo é o simples

05:57.250 --> 05:57.610
assassino.

05:57.640 --> 06:05.560
O que vimos foi antes que o agente tivesse um valor de matiz subseqüente que ele tinha aprendido sobre essa ação

06:05.560 --> 06:06.260
de subir.

06:06.340 --> 06:08.700
E então ele decidiu tomar o tom para subir.

06:08.860 --> 06:14.830
E logo depois que ele toma sua ação ele recebe uma recompensa por tomar essa ação neste estado.

06:14.830 --> 06:21.070
ações que ele pode assumir no primeiro estado como impressão e leitura multiplicada pelo fator DK da gama.

06:21.070 --> 06:27.850
E essa é a recompensa mais agora ele pode avaliar o valor do estado atual em que ele é o

06:27.850 --> 06:32.400
máximo de todos os novos valores q de todo o cubo das novas

06:32.440 --> 06:40.450
Então, isso é essencialmente o sinal do novo valor do cubo ou tipo de como o valor do cubo empírico que ele

06:40.450 --> 06:43.200
acabou de receber para tomar essa ação.

06:43.270 --> 06:45.640
E, idealmente, esses dois dois devem ser os mesmos.

06:45.640 --> 06:51.430
Então, na verdade, o valor Q que ele tinha em sua memória sobre essa ação neste estado

06:51.430 --> 06:57.420
deve equiparar a recompensa real Além da gama vezes o valor do estado em que ele acabou.

06:57.610 --> 07:01.870
está procurando menos o que ele conseguiu o que ele tinha em mente o que ele esperava.

07:01.870 --> 07:05.200
E, portanto, é assim que calculamos a diferença temporal que tomamos o que você

07:05.200 --> 07:06.740
Você subtrairia um do outro.

07:06.780 --> 07:07.690
Essa é uma diferença temporal.

07:07.690 --> 07:14.890
E então você usa sua taxa de aprendizado Alpha para ajustar seu valor q seu novo valor q pela diferença temporal,

07:14.890 --> 07:16.940
mas com um coeficiente de Alfa.

07:17.110 --> 07:20.360
Então, essa é a essência da aprendizagem simples.

07:20.460 --> 07:25.990
Agora vamos dar uma olhada em como ele muda no Killary profundo e então ainda vamos trabalhar com

07:26.000 --> 07:29.440
o slide, mas nós vamos apenas ver exatamente o que está acontecendo.

07:29.620 --> 07:35.890
Então, em uma aprendizagem profunda, a rede neural irá prever para Valis como vimos no anterior e como

07:35.890 --> 07:36.320
veremos.

07:36.370 --> 07:42.340
Donna Citronelle a rede neural irá prever valores ou pode prever mais valores de ações

07:42.340 --> 07:44.790
mais possíveis em um determinado estado.

07:44.800 --> 07:48.500
Mas neste caso, sabemos que apenas quatro ações estão de pé para serem feitas.

07:48.670 --> 07:56.160
E assim a rede neural irá prever quatro desses valores, de modo que não haverá fim em uma situação de aprendizado

07:56.170 --> 07:58.800
profundo é importante, não há antes ou depois.

07:58.960 --> 08:01.610
E é assim que vamos conhecer isso um pouco melhor.

08:01.720 --> 08:08.080
Assim, a rede neural irá prever quatro desses valores e não irá comparar o que

08:08.140 --> 08:15.280
acontecerá depois, mas a rede neural se compara a esse valor exato, mas foi o valor que

08:15.400 --> 08:17.740
foi calculado no passo anterior.

08:17.740 --> 08:22.950
Então, no tempo anterior, quando o agente estava nesse quadrado exato.

08:23.080 --> 08:30.850
Então, digamos que não sei há algum tempo, o agente foi novamente também neste

08:30.850 --> 08:34.420
quadrado exato e calculou esse valor anteriormente.

08:34.420 --> 08:40.630
Então, no tempo anterior há muito tempo, o agente calculou esse valor, então os agentes armazenaram esse

08:40.630 --> 08:43.720
valor para o futuro e agora o futuro chegou.

08:43.720 --> 08:48.640
Então agora ele está no quadrado novamente e agora ele tem esses valores de cubo que está previsto e um

08:48.640 --> 08:50.510
deles é para os quatro que estão subindo.

08:50.680 --> 08:57.220
Então, agora, o que ele vai fazer é comparar o valor previsto de Q com esse valor que ele

08:57.220 --> 09:02.520
gravou no passo anterior e entenderá exatamente por que isso é importante neste momento, então é

09:02.530 --> 09:03.440
importante entender aqui.

09:03.520 --> 09:07.990
Não há antes de um oficial nesta praça específica esse tempo específico.

09:08.140 --> 09:14.650
comparamos isso com esse valor que ele teve no tempo anterior do tempo anterior, ele estava nesta

09:14.710 --> 09:22.060
praça, avaliando toda a situação e você sabe como o anterior tempo em que ele realmente executou essa ação.

09:22.110 --> 09:28.100
Estamos levando o valor Q que ele previu usando a rede neural desta vez e

09:28.270 --> 09:29.290
Então vamos lá.

09:29.290 --> 09:33.360
Agora vamos dar uma olhada em como tudo isso funciona na rede neural e por quê.

09:33.370 --> 09:38.740
Por que é como se eu soubesse que parece um pouco complicado agora, mas vamos dividi-lo em termos simples apenas

09:39.310 --> 09:39.990
em um segundo.

09:40.000 --> 09:44.380
Então, isso em sua própria rede, nós estamos alimentando os estados do meio ambiente na rede

09:44.380 --> 09:48.880
neural está passando pelas camadas escondidas que está saindo com essas saídas Q1 Q2 Q3 Q4.

09:48.880 --> 09:56.830
estado específico, estes são os valores do cubo que a rede neural está prevendo para possíveis ações.

09:56.830 --> 09:57.380
Nesse

09:57.400 --> 09:58.420
Esses são os cumulos.

09:58.420 --> 10:04.270
Então, estamos aparecendo para atingir e esses alvos existem exatamente, então, se voltarmos aqui, esse é o

10:04.270 --> 10:07.230
alvo, então esse é o valor que foi previsto.

10:07.300 --> 10:11.740
E então, mas também sabemos que temos um alvo da última vez que estávamos na praça.

10:11.800 --> 10:16.660
Nós temos um alvo para esta mesma ação, que é por exemplo.

10:16.660 --> 10:21.490
Então, aqui temos um alvo e vamos comparar, estamos comparando o Q1 versus esse alvo,

10:21.490 --> 10:28.390
estamos comparando o Q2 versus o objetivo do alvo que tivemos do Q3 anterior ao de um Q4 alvo versus o alvo.

10:28.420 --> 10:36.610
E, portanto, esta é a parte em que a rede neural ou o agente está agora aprendendo através de um

10:36.610 --> 10:38.630
aprendizado profundo para melhor passar.

10:38.650 --> 10:44.920
E o ponto chave aqui é que ainda estamos aplicando uma aprendizagem legal, mas a resposta a conceitos é simples, você

10:44.980 --> 10:48.940
aprende a aprender com diferenças temporais que são bastante diretas, que já discutimos e

10:48.940 --> 10:50.720
sabemos muito bem por que não.

10:50.920 --> 10:56.100
Mas, ao mesmo tempo, aprendendo profundamente como as redes neurais aprendem redes neurais aprendem através do

10:56.100 --> 10:56.970
ajuste das ponderações.

10:57.010 --> 11:07.120
de adaptar os conceitos de reforço aos conceitos de aprendizagem de matar simples à maneira como as redes neurais realmente funcionam.

11:07.120 --> 11:08.550
Por isso, temos

11:08.710 --> 11:10.950
E isso é através da atualização de seus pesos.

11:10.960 --> 11:14.950
E isso é o que estamos tentando descobrir aqui como podemos adaptar esse

11:15.400 --> 11:21.060
conceito de diferença temporal à sua própria rede para que possamos aproveitar todo o poder das redes neurais.

11:21.260 --> 11:27.790
Até agora, conseguimos isso, então entramos em nosso estado de ambiente aqui, à medida que um vetor passa por uma

11:27.790 --> 11:33.240
rede neural, obtemos previsão de valores-chave e, a partir do momento anterior, o agente estava nesse estado.

11:33.240 --> 11:39.480
Nós temos esse novo objetivo para atingir um dois três e quatro para cada uma dessas ações respectivas.

11:39.490 --> 11:40.870
E agora estamos fazendo isso.

11:40.870 --> 11:43.360
OK, vamos comparar cada um com cada um.

11:43.630 --> 11:50.500
E daqui é que se torna bastante direto se você estiver atualizado com as redes neurais.

11:50.500 --> 11:52.500
Mais uma vez, está em um Anax.

11:52.570 --> 12:00.070
Número um, vamos calcular uma perda que está aqui e vamos ser q alvo esta menos

12:00.070 --> 12:01.760
Q menos essa.

12:01.840 --> 12:06.160
Vamos calcular que, assim, a diferença quadrada de cada um desses e nós

12:06.160 --> 12:06.730
vamos resumi-los.

12:06.820 --> 12:12.310
das diferenças quadradas desses valores e seus alvos e nós vamos enviá-los e isso vai ser uma perda.

12:12.310 --> 12:13.940
Então, nós levamos a soma

12:14.020 --> 12:19.030
E de modo ideal exatamente como nós tínhamos na diferença temporal, aprendendo, então, se voltarmos

12:19.420 --> 12:25.180
para um segundo, lembre-se, dissemos. Idealmente, queremos que isso seja igual a isso, então queremos que a diferença

12:25.180 --> 12:31.750
temporal seja zero, então isso significa que basicamente o agente é Prever corretamente o que você conhece, o valor de

12:31.750 --> 12:37.900
Q é que o agente está preditor exatamente ou que ele possui e a memória é exatamente descritiva do

12:38.590 --> 12:42.940
meio ambiente e, portanto, o agente nunca pode obter o ambiente muito bem direito.

12:43.000 --> 12:48.880
Não há surpresas de que não há, não há s. uma vez que uma diferença temporal é um piloto altamente

12:48.880 --> 12:49.970
positivo ou altamente negativo.

12:50.040 --> 12:51.340
Então nós temos algumas surpresas.

12:51.340 --> 12:55.690
Mas se as diferenças gerais zero, ele conhece o ambiente tão bem que ele pode prever

12:55.690 --> 13:01.110
o que está acontecendo e ele pode e, portanto, sua política vai ser muito boa e ele será capaz de navegar.

13:01.350 --> 13:02.200
Então aqui.

13:02.200 --> 13:07.460
Mesmo assim, queremos que esta lei seja tão próxima de zero, suponho que seja o menor possível.

13:07.720 --> 13:14.680
em que vamos alavancar o verdadeiro e verdadeiro poder da rede neural, então vamos tomar essa perda e vamos usar a propagação

13:14.680 --> 13:19.910
traseira ou ficar como a descida gradiente para assumir essa perda e passá-la através da rede

13:19.970 --> 13:27.040
posit de volta ou de trás propagada através de uma rede e através de lançar uma grande e decente data dos pesos.

13:27.040 --> 13:31.120
E é por isso que agora estamos indo para isso é a parte

13:31.120 --> 13:37.780
Todas essas sinopses na rede para que a próxima vez que passemos por esta rede da maneira como já é um pouco

13:37.930 --> 13:41.050
melhor descritivo do meio ambiente e é exatamente isso que somos.

13:41.080 --> 13:48.090
Então, aqui você tem, se você voltar, isso é uma perda calculada Kalka e adivinhe provar propagador para a rede que

13:48.100 --> 13:49.330
os pesos são atualizados.

13:49.330 --> 13:55.720
isso acontece uma e outra vez aqui, isso acontece novamente e assim por diante e continua e continua acontecendo

13:55.780 --> 14:02.560
e é assim que este agente aprende ou, basicamente, agora, a rede neural que é o cérebro do agente é

14:02.560 --> 14:09.880
aprender está se tornando mais e mais descritivo do meio ambiente e, portanto, o agente é capaz de navegar no meio ambiente.

14:09.880 --> 14:12.100
Então, na próxima vez que chegarmos aqui,

14:12.130 --> 14:17.980
Quando dizemos que o ambiente descritivo significa, basicamente, que quando colocamos os estados do ambiente em

14:17.980 --> 14:25.510
que esse agente se encontra, é mais provável que nos aproximemos dos valores reais da sugestão e que acontece porque os

14:25.510 --> 14:30.790
valores do cubo que queremos encontrar o direito ação e isso acontece porque esses

14:30.790 --> 14:36.940
novos alvos são realmente empiricamente derivados, então ele todos os dias como ele encontra esses alvos fofos.

14:37.090 --> 14:40.090
Na verdade, está lá, então ele realmente observa.

14:40.100 --> 14:42.940
OK então, uma vez que eu dou esse passo, qual é a recompensa que recebo.

14:43.060 --> 14:45.070
E então, quais são os valores desse estado.

14:45.070 --> 14:48.850
Da mesma forma que vimos anteriormente na aprendizagem Q e na intuição de aprendizagem simples.

14:48.850 --> 14:54.550
Então, ele aprende isso através de tentativas e erros e então ele constrói sua rede ou é assim

14:54.880 --> 14:59.260
que é de tal forma que os valores previstos estão próximos e próximos.

14:59.380 --> 15:01.330
Consumindo esse alvo.

15:01.330 --> 15:07.360
Q valores muito semelhantes ao conceito que discutimos aqui na simples diferença temporal aprendendo do

15:07.420 --> 15:09.870
algoritmo de aprendizagem de habilidades simples.

15:09.910 --> 15:10.460
Então, você vai.

15:10.460 --> 15:12.540
É assim que o agente aprende.

15:12.550 --> 15:13.930
Então estamos aqui.

15:14.260 --> 15:15.490
E essa é a parte de aprendizagem.