WEBVTT

00:00.940 --> 00:04.150
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.150 --> 00:09.070
Tudo bem, espero que você esteja gostando do tutorial até agora, acabamos de fazer com a intuição que, em breve,

00:09.070 --> 00:13.390
logo chegaremos ao lado prático das coisas que acabamos de receber algumas pequenas coisas que precisamos cobrir.

00:13.510 --> 00:20.320
Tudo bem, então, anteriormente, falamos sobre como adicionamos redes neurais a toda essa equação da aprendizagem CULE

00:20.350 --> 00:25.360
e levamos o ular ao próximo passo e transformamo-lo em aprendizado profundo.

00:25.690 --> 00:33.130
E hoje vamos adicionar uma característica extra importante que codificará no lado prático das coisas, então mandei e eu decidi que é

00:33.130 --> 00:39.100
importante para nós cobri-lo muitas vezes no lado intuitivo das coisas para que você esteja mais preparado para

00:39.100 --> 00:42.430
isso quando se trata do lado da codificação das coisas.

00:42.430 --> 00:47.950
Então, como discutimos, temos a rede lá, há duas partes que acontecem.

00:47.950 --> 00:53.110
Antes de tudo, é a aprendizagem, então a rede realmente aprende com cada novo estado.

00:53.270 --> 00:58.870
Ele atualiza lentamente suas esperanças para melhorar cada vez mais e melhor em lidar com esse ambiente.

00:58.870 --> 01:06.910
E então há a atuação dentro do estado, então após os valores q foram contados no estado, então, uma vez

01:06.970 --> 01:08.220
que você selecionou.

01:08.230 --> 01:14.800
Então, hoje, ainda vamos falar sobre a parte de aprendizagem, vamos encontrar uma característica

01:14.800 --> 01:20.050
interessante que vai ajudar no graduação a criar esse recurso, mas

01:20.080 --> 01:29.690
falaremos sobre um recurso que é muito importante para um aprendizado profundo e esse recurso é chamado de repetição da experiência.

01:29.710 --> 01:30.030
Tudo bem.

01:30.040 --> 01:34.570
Então, aqui está nossa rede, então nós apenas copiamos isso aqui.

01:34.570 --> 01:39.000
Perdemos que Calcott está no fundo é propagador traseiro através da rede.

01:39.100 --> 01:44.770
E vamos dar uma olhada em um exemplo do que acontece para entender o problema que estamos lidando

01:44.770 --> 01:45.670
um pouco melhor.

01:45.670 --> 01:49.120
Então, aqui é um exemplo realmente das pontuações.

01:49.120 --> 01:54.820
Este é um tiro de tela disparado exatamente a partir deste curso, isso é o que você estará programando.

01:54.820 --> 02:02.170
de auto-condução que está dirigindo através deste através desta estrada e tem que aprender a navegar nesta estrada.

02:02.170 --> 02:03.780
Este é um carro

02:03.820 --> 02:09.290
E então, o que é, como discutimos anteriormente. O que é isso neste estado.

02:09.320 --> 02:15.850
E, claro, o estado não vai ser x1 x2. Lundell apenas descreve-o com muito mais detalhes sobre o

02:15.850 --> 02:23.650
que é o estado, será um par de parâmetros que se relacionam com o ângulo do carro e alguns parâmetros relativos, quais

02:23.650 --> 02:26.490
são os sensores leitura e assim por diante.

02:26.490 --> 02:29.820
Então, haverá mais parâmetros do que isso para descrever o estado.

02:29.830 --> 02:34.120
Mas, no entanto, será um vetor de valores que passará por uma rede neural e, em

02:34.120 --> 02:36.520
seguida, na saída, você terá alguns valores de ACU.

02:36.520 --> 02:39.850
Novamente haverá uma diferença dependendo do ambiente.

02:39.850 --> 02:44.380
Eles podem ser um número diferente de ações ações possíveis.

02:44.460 --> 02:49.660
Mas vamos simplesmente por motivos de simplicidade, deixe-o apenas para que possamos entender melhor o que

02:49.660 --> 02:50.830
está acontecendo aqui.

02:50.830 --> 02:55.710
Então, neste caso, qual é a questão é até agora o que é isso.

02:55.730 --> 03:03.510
Essas entradas para esta rede neural ou, mais especificamente, com que frequência desencadeamos essa rede neural.

03:03.520 --> 03:05.080
Com que frequência esse crescimento líquido neural.

03:05.110 --> 03:11.410
o carro acaba em um novo estado, então o carro faz um movimento, ele acaba em um novo estado e então tudo corre.

03:11.530 --> 03:12.650
Bem, cada vez que

03:12.670 --> 03:17.410
Todos os dados que toda a informação sobre o estado passam pela rede dão a Alice os

03:17.650 --> 03:18.200
erros calculados.

03:18.280 --> 03:22.960
Este erro é calculado com base no que discutimos em tutoriais anteriores.

03:22.990 --> 03:26.080
Isso é propagado de volta e seus pesos são atualizados.

03:26.080 --> 03:32.570
Em seguida, o carro seleciona qual ação foi a tomar faz que o movimento acabe em um novo estado no novo estado.

03:32.590 --> 03:34.390
Tudo começa de novo.

03:34.450 --> 03:39.880
E, basicamente, isso acontece toda vez que o carro está dentro e você disse que dê uma olhada neste exemplo.

03:39.880 --> 03:46.240
Eu especificamente tirei a tela porque parece que é muito bem ilustra o problema que é abordado através da

03:46.240 --> 03:51.430
repetição da experiência e as repetições de despesas não são apenas algo que usamos neste curso

03:51.430 --> 03:52.730
ou neste problema específico.

03:52.810 --> 03:57.190
É algo que você verá usado por toda parte.

03:57.340 --> 04:04.480
De vez em quando e de novo e de novo em algoritmos de inteligência artificial porque é tão poderoso e é

04:04.480 --> 04:05.140
tão importante.

04:05.140 --> 04:11.440
Então, olhe para este carro neste carro neste problema ou neste ambiente, o objetivo é vir de aqui para aqui

04:11.440 --> 04:12.440
e para trás.

04:12.440 --> 04:17.540
Seu objetivo é navegar aqui aqui sem cruzar essas paredes que são feitas de areia.

04:17.790 --> 04:24.430
E então, o carro começou aqui, desceu e, como sua recompensa é baseada em você, sabe o quão perto

04:24.430 --> 04:25.120
é começar.

04:25.120 --> 04:29.890
Então, o carro foi daqui, desceu e continuou assim como este, como este ou ao longo

04:29.890 --> 04:31.490
deste muro ao longo do paredão.

04:31.570 --> 04:34.990
E o que isso vai fazer em seguida vai virar vai continuar.

04:34.990 --> 04:37.450
Bem, o que queríamos fazer é continuar aqui.

04:37.690 --> 04:39.490
Mas vamos pensar sobre isso por um segundo.

04:39.580 --> 04:44.240
Uma vez que chegou a esta parede, cada vez que ela se move para a frente, ela avança.

04:44.260 --> 04:48.570
Ele avança para a frente, move-se para a frente, move-se para a frente, move-se para a frente, move-se para a frente e, assim, continua.

04:48.580 --> 04:53.320
Então, pode haver como, dependendo da estrutura, o ambiente pode ser como uma centena de movimentos

04:53.320 --> 04:54.710
aqui ou 50 movimentos aqui.

04:54.990 --> 04:59.100
Ele simplesmente continua avançando para a frente para a frente para a frente e nada muda.

04:59.160 --> 05:03.310
Na verdade, as mudanças não conseguem chegar mais longe, começaram mais perto dessa história.

05:03.310 --> 05:04.060
Isso é adorável.

05:04.210 --> 05:09.990
Mas, em termos do ambiente circundante, muitas coisas estão mudando ainda é a mesma parede.

05:10.090 --> 05:15.460
Se você está sentado no carro, provavelmente viu a situação quando está dirigindo no que quer que esteja

05:15.460 --> 05:21.220
a ver, é como o ambiente é tão monótono que você está apenas vendo um tipo de coisa que

05:21.220 --> 05:21.840
está passando.

05:21.840 --> 05:26.680
Mas como eu imagino que você está dirigindo por um deserto e você está apenas vendo a mesma coisa, é

05:26.680 --> 05:29.100
o mesmo som. É o mesmo que nada está acontecendo.

05:29.100 --> 05:30.340
Nada está mudando.

05:30.550 --> 05:36.820
E, portanto, baseados, cada vez que colocamos esse estado nesse novo estado aqui.

05:37.000 --> 05:42.010
para nós enquanto você está dirigindo o carro e seu GPS está mostrando que você está mais perto do seu destino.

05:42.010 --> 05:43.530
Sim, claro, algo pode estar mudando

05:43.540 --> 05:49.300
Então, uma dessas entradas é estranha, mas muitas dessas outras entradas, os sensores, por exemplo, que

05:49.300 --> 05:55.850
estão no carro, não estão mudando e, portanto, como você está dirigindo devagar nesse dia, coloque as insumos

05:55.850 --> 06:02.380
no seu próprio aqui aqui aqui aqui aqui aqui e aqui aqui o tempo todo, as entradas são

06:02.380 --> 06:03.220
praticamente as mesmas.

06:03.250 --> 06:11.140
E, portanto, se você continuar inserindo os mesmos valores dos mesmos vetores ou vetores muito similares na

06:11.140 --> 06:14.240
sua rede porque não há variedade.

06:14.320 --> 06:16.840
O carro vai aprender muito bem.

06:16.870 --> 06:22.420
Uma coisa que você vai aprender muito bem como dirigir ao longo deste muro que está à direita e assim é

06:22.420 --> 06:27.970
assim que a rede irá atualizar e ele será recompensado vai começar lentamente a ser recompensado por dirigir tão bem que

06:27.970 --> 06:28.570
será como.

06:28.580 --> 06:33.980
OK, então, a partir daqui, eu vou aprender tudo o que estou fazendo tão bem, eu estou melhorando, eu estou melhorando.

06:34.050 --> 06:34.420
Tudo isso.

06:34.480 --> 06:41.920
Isso terá essa falsa percepção de que realmente está indo muito bem, embora só aprenda a conduzir, assim como outras

06:41.920 --> 06:47.560
redes neurais tornar-se-ão muito adaptadas para conduzir ao longo deste bem e, de repente, há

06:47.560 --> 06:51.100
essa curva eo carro não Não sei o que fazer.

06:51.310 --> 06:55.240
E não se enquadra completamente nessa rede neural.

06:55.420 --> 07:01.870
E, mesmo que sim, de alguma forma, digamos hipotéticamente, passa um ponto e depois termina neste

07:01.870 --> 07:02.250
muro.

07:02.260 --> 07:05.320
O mesmo acontecerá vai chegar aqui aqui.

07:05.320 --> 07:10.870
OK agora, a rede neural está se reestruturando para se adaptar a essa parede e então, isso acontece.

07:10.900 --> 07:15.880
E então, mesmo que, de alguma forma, ele seja aprovado para que ele vá além dessa coisa e depois o mesmo ao longo

07:15.880 --> 07:16.260
dessas linhas.

07:16.260 --> 07:23.590
estão de alguma forma correlacionados ou são de alguma forma interdependentes e não queremos que a interdependência prejudique nossa rede.

07:23.590 --> 07:29.770
Então, basicamente, este é um exemplo muito vívido do problema de que somos o que temos

07:29.770 --> 07:36.490
é porque a maneira como estamos usando a rede neural atualizando-o todos os estados uma vez que

07:36.880 --> 07:44.950
temos muitas coisas consecutivas, eles nem precisam ser o o mesmo, mas há em ambientes que são normais, que são estados

07:44.980 --> 07:45.550
consecutivos

07:45.550 --> 07:52.600
Nós não queremos que o carro apenas aprenda a conduzir como uma linha reta ou uma longa

07:54.100 --> 08:01.750
linha curvada ou como qualquer coisa que você pensa que você possa pensar na vida em que um

08:01.780 --> 08:10.570
agente seria um ambiente navegante onde podemos pensar em correlação ou estados interdependentes que vêm após o outro que podem realmente

08:10.630 --> 08:12.130
estragar sua rede neural.

08:12.190 --> 08:15.270
Se você apenas deixa o agente aprender com isso.

08:15.430 --> 08:17.600
E é aí que entra a reprodução da experiência.

08:17.620 --> 08:24.850
O que acontece na repetição da experiência são essas experiências, por isso, afirma que está em um

08:24.850 --> 08:31.040
dois três, no entanto, muitos 50 estados aqui em neuro não recebem a rede imediatamente.

08:31.350 --> 08:35.980
Eles são realmente salvos na memória do agente.

08:36.160 --> 08:41.440
E, por exemplo, economiza tudo isso e salva todos estes e alguns em algum momento, uma vez que atinge um

08:41.590 --> 08:44.940
certo limite que você poderá codificar e Atlanta irá mostrar-lhe como fazer isso.

08:45.100 --> 08:51.310
Uma vez que atinge um determinado limite, então o agente decide por si mesmo, é hora de aprender.

08:51.310 --> 08:57.580
Eu tenho esse lote de experiências que eu tenho, não vou aprender com isso e, assim,

08:57.580 --> 09:04.120
seleciona aleatoriamente uma uniformidade de distribuição e uniformidade, a chave é importante aqui porque é algo sobre

09:04.240 --> 09:06.460
o qual falaremos no próximo slide.

09:06.820 --> 09:08.140
Nós iremos mencionar isso.

09:08.140 --> 09:12.400
Mas é preciso uma amostra uniformemente distribuída.

09:12.460 --> 09:15.660
Então, basicamente, todas as experiências são consideradas iguais.

09:15.670 --> 09:23.410
dessa ação nesse estado específico, então quatro elementos em cada experiência são um O estado de ação dois e recompensa e,

09:23.410 --> 09:28.060
portanto, leva todas essas experiências e depois as passa pela rede e aprende.

09:28.060 --> 09:33.130
É preciso uma amostra uniformemente distribuída desse lote de experiências que tem e depois

09:33.130 --> 09:39.940
passa por elas e aprende com elas, por isso não leva toda a experiência ou simplesmente leva a distribuição

09:40.000 --> 09:47.110
uniforme de amostras, que pode demorar um par daqui um casal de Aqui, um par daqui e cada experiência é

09:47.110 --> 09:53.470
caracterizada pelo estado que foi na ação que levou o estado em que acabou e a recompensa

09:53.470 --> 09:54.660
que conseguiu através

09:54.660 --> 10:05.160
E dessa forma ele quebra o padrão desse viés que vem da natureza seqüencial da experiência como se você fosse colocá-los através

10:05.160 --> 10:08.110
da rede um após o outro.

10:08.340 --> 10:11.930
Então esse é o foco principal da experiência que jogamos.

10:11.930 --> 10:17.730
É aí que é o problema e o endereço e outro benefício da repetição da experiência é que,

10:17.730 --> 10:22.400
por vezes, em um ambiente como este, você pode ter experiências raras muito valiosas.

10:22.410 --> 10:28.340
Então, por exemplo, eu não sei, digamos, vamos ver essa esquina, este é o canto direito.

10:28.440 --> 10:28.730
Certo.

10:28.740 --> 10:30.880
E um afiado é afiado.

10:30.900 --> 10:35.640
Então virá daqui assumindo que vai estar abraçando este canto.

10:35.640 --> 10:40.500
Então, tendo você ninhos afiados, temos neste neste todo, teremos um canto

10:40.500 --> 10:43.410
direito aqui e um canto direito aqui.

10:43.680 --> 10:46.240
Certo, então, quando estiver vindo dessa maneira, esse é o canto direito.

10:46.380 --> 10:48.630
E então, quando está voltando, é um canto direito afiado aqui.

10:48.620 --> 10:53.070
Então, este não é nítido desta maneira na loja, então há apenas uma oportunidade em

10:53.640 --> 10:56.770
todo o ambiente para aprender com um canto direito afiado.

10:56.970 --> 11:03.050
E essa é uma experiência muito importante, porque pode ser realmente bom na condução ao longo de linhas

11:03.060 --> 11:06.990
retas, é realmente bom em fazer como cantos suaves desse tipo.

11:07.170 --> 11:14.070
direito afiado simplesmente porque simplesmente porque não tem tanta oportunidade de aprender com isso e, portanto, ele aprenderá tudo o

11:14.070 --> 11:18.070
mais rapidamente, mas vai demorar muito para aprender o direito curso.

11:18.070 --> 11:20.180
E então continuará estragando este canto

11:20.180 --> 11:26.010
É um exemplo muito simplificado, uma explicação muito simplificada, mas ilustra o conceito de

11:26.280 --> 11:30.140
que, por vezes, são experiências raras que podem ser valiosas.

11:30.270 --> 11:35.880
E se você está apenas fazendo uma rede neural simples onde você está colocando seus valores aqui e você

11:35.880 --> 11:40.950
sabe que eles estão passando e você sabe, mesmo que se esqueça desse problema da natureza sequencial

11:40.950 --> 11:45.690
das experiências e como elas podem ser interdependentes e todos correlacionados com Thimphu até esquecem disso

11:45.680 --> 11:46.640
por um segundo.

11:46.800 --> 11:52.110
vez que você coloca uma experiência nela através de redes de dados, então você esquece instantaneamente, mas esquece essa experiência.

11:52.120 --> 11:53.370
O que acontece é uma

11:53.370 --> 11:54.380
Você passa para o próximo.

11:54.420 --> 11:56.180
É assim que funciona a rede neural.

11:56.220 --> 11:59.710
Em seguida, você passa para o próximo estado no próximo passo no próximo passo, a próxima experiência X experiência

11:59.780 --> 12:01.170
que a experiência e assim por diante.

12:01.170 --> 12:06.180
Então, este canto direito, assim que atravessa uma rede, desapareceu e você não tem nenhuma memória

12:06.510 --> 12:07.450
dessa experiência valiosa.

12:07.560 --> 12:14.220
seu lote, então, quando ele voltar daqui, é assim que Isso registrou essa experiência em seu lote.

12:14.220 --> 12:19.920
Enquanto nós experimentamos a repetição porque você está colocando essas experiências em lotes, você pode

12:19.920 --> 12:25.920
organizar seu bash como uma janela que rola, por exemplo, você poderia ter como 100 lotes.

12:25.920 --> 12:27.380
Assim, cem experiências em

12:27.390 --> 12:34.260
Então, como em algum momento, ele corre, toma uma distribuição uniforme de seu lote de experiências e, depois, há uma janela que

12:34.260 --> 12:37.980
rola para que ele esqueça essas experiências, mas depois mantém essas experiências.

12:37.980 --> 12:44.160
E, novamente, ele aprende de uma vez que está aqui, ele aprende com esse lote e, uma vez que está aqui, esquece todo

12:44.280 --> 12:45.410
o caminho até aqui.

12:45.420 --> 12:50.550
Mas, então, tem um lote de experiências como essa, portanto, não aprender com essas experiências.

12:50.730 --> 12:58.380
E dessa forma, o que você está recebendo é que esse canto da mão direita pode surgir várias vezes em seu processo

12:58.380 --> 13:03.480
de aprendizagem, porque estava nesse lote quando o lote era assim por aí do que

13:03.480 --> 13:08.760
havia no lote aqui aqui por aqui, então surgiu em vários lotes porque o abash

13:08.790 --> 13:11.430
pode ser atualizado como uma janela de experiência.

13:11.430 --> 13:15.630
Então, as experiências mais antigas são expulsas, as experiências mais recentes são adicionadas e, novamente, a experiência mais

13:15.630 --> 13:16.290
antiga é obtida.

13:16.440 --> 13:23.040
Então, experimente que permanece no lote por algum tempo e o carro ou agente pode aprender com essa

13:23.040 --> 13:24.100
experiência várias vezes.

13:24.210 --> 13:27.430
Então, essa é outra vantagem da repetição da experiência.

13:27.570 --> 13:33.480
E é claro que a vantagem final é a repetição da experiência que lhe dá uma oportunidade de aprender

13:34.220 --> 13:39.290
com mais experiências do que se você estiver apenas aprendendo por uma vez porque você possui

13:39.300 --> 13:46.710
esse lote e, portanto, é uma janela que rola e, portanto, mesmo que seu ambiente seja limitado para experimentar a sua abordagem de repetição

13:46.710 --> 13:49.260
de experiência pode ajudá-lo a aprender mais rápido.

13:49.410 --> 13:55.230
E, em vez de apenas refazer, há muitas muitas vezes que você pode aprender rápido porque você não

13:55.230 --> 13:55.710
precisa refê-lo.

13:55.710 --> 13:57.440
Você ganhou essas experiências.

13:57.810 --> 13:59.850
Então, essas são as principais vantagens da experiência.

13:59.910 --> 14:01.760
Vamos recapitular que temos o.

14:01.840 --> 14:09.280
Estamos rompendo esse padrão com a independência e a correlação de experiências seqüenciais, economizando experiências raras

14:09.280 --> 14:15.640
que podem ser importantes, portanto, podemos aprender com elas com mais freqüência e podemos

14:16.090 --> 14:21.260
aprender em ambientes, podemos aprender os ambientes Fosler que são experiências.

14:21.520 --> 14:27.310
Temos uma escassez de experiências que não possuem muitas experiências que o agente passa

14:27.310 --> 14:29.180
e ainda podemos aprender isso.

14:29.380 --> 14:32.470
Então, é disso que a experiência repete tudo.

14:32.470 --> 14:34.530
Se você gostaria de ler um pouco mais do que isso.

14:34.630 --> 14:41.290
Há um artigo interessante, publicado pela mente profunda em 2016, chamado de repetição de experiência

14:41.560 --> 14:44.380
priorizada e fala sobre o porquê.

14:44.410 --> 14:50.860
Por que estamos usando uma distribuição uniforme para selecionar nossas experiências da experiência Bachche porque não

14:50.860 --> 14:55.870
encontramos uma maneira melhor de selecionar nossas experiências e priorizar algumas das experiências

14:55.870 --> 14:57.160
que consideramos importantes.

14:57.220 --> 15:03.880
é uma coisa bastante interessante, você não só reforçará ou não reforçará seu conhecimento

15:03.880 --> 15:11.800
sobre a repetição da experiência, mas você realmente poderá se mover com a vanguarda da tecnologia.

15:11.800 --> 15:12.660
No entanto,

15:12.660 --> 15:15.120
Então, isso é 2016 e é publicado por mentes profundas.

15:15.120 --> 15:21.580
É um documento muito recente muito poderoso para que você possa realmente explorar os limites ou explorar ainda

15:21.580 --> 15:24.530
mais esse algoritmo e levá-lo ao próximo nível.

15:24.550 --> 15:31.270
Então, deixarei isso para você descobrir o porquê e como podemos mudar o uniforme para uma abordagem diferente para experimentar

15:31.270 --> 15:33.810
a repetição deste artigo, se você quiser.

15:33.940 --> 15:35.270
E espero que você goste disso.

15:35.270 --> 15:41.020
que é realmente a experiência e podemos usá-lo com confiança em nossos círculos práticos e eu procuro ver você na próxima vez.

15:41.440 --> 15:42.860
Tauriel e agora sabemos o

15:42.940 --> 15:44.550
Até então, desfrute da AI.