WEBVTT

00:00.660 --> 00:03.540
Olá bem-vindo de volta ao curso sobre inteligência artificial.

00:03.540 --> 00:08.940
No tutorial de hoje, vamos abordar um tutorial bastante complexo chamado de rastreamento ou etapa

00:08.940 --> 00:09.500
de elegibilidade.

00:09.500 --> 00:14.970
Q aprendendo e isso é algo que vou implementar no lado prático das coisas, então é

00:14.970 --> 00:21.390
por isso que precisamos sair e no centro é um assunto bastante complexo, então temos uma abordagem muito

00:21.690 --> 00:24.880
interessante para nos atualizar com a intuição por trás.

00:24.890 --> 00:29.760
Então eu tenho uma abordagem diferente em mente do que costumamos solapar o simples olhar para isso e ver

00:29.760 --> 00:30.560
como isso acontece.

00:30.780 --> 00:34.190
Então eu quero dar um exemplo para começar.

00:34.260 --> 00:39.990
Eu vou dar um exemplo neste tutorial e isso irá demonstrar o poder de elegibilidade.

00:40.020 --> 00:42.470
E nos da a intuição por trás das coisas.

00:42.540 --> 00:47.880
E então, se você quiser aprofundar os traços de elegibilidade, darei o melhor lugar onde você

00:47.880 --> 00:49.210
pode ler sobre isso.

00:49.290 --> 00:52.560
Eu lhe darei uma referência a um livro, mas de outra forma.

00:52.560 --> 00:57.120
Então, enquanto isso vai ser diferente porque estamos dentro dele primeiro, em vez de mergulhar

00:57.420 --> 01:01.580
na intuição, vamos ver um exemplo e a intuição torna-se óbvia depois que falamos.

01:01.580 --> 01:03.010
E essa é a minha esperança.

01:03.130 --> 01:03.860
Então vamos dar uma olhada.

01:03.860 --> 01:06.000
Vamos ver, vamos ver se podemos fazer isso.

01:06.000 --> 01:12.780
Então, aqui temos dois agentes e eles estão navegando no mesmo ambiente e vamos ver como esses dois

01:12.780 --> 01:13.740
agentes funcionam.

01:13.740 --> 01:16.260
O primeiro vai trabalhar com nosso rastreamento de elegibilidade.

01:16.260 --> 01:22.230
O segundo vai trabalhar com rastreamento ilegítimo e, espero, veremos por que o segundo será muito

01:22.230 --> 01:24.450
mais poderoso do que o primeiro.

01:24.630 --> 01:26.240
Então vamos dar uma olhada.

01:26.250 --> 01:28.040
Vamos primeiro olhar para este agente.

01:28.320 --> 01:34.170
E a maneira como ele opera é a maneira exata em que discutimos a coisa circular profunda até agora.

01:34.530 --> 01:40.230
Então, o agente vai dar um passo ou vai se mover, levar uma ação para um novo estado.

01:40.260 --> 01:45.480
Bom para obter uma certa recompensa, vai colocar isso através ou através de seu algoritmo atualizar

01:45.480 --> 01:50.610
a rede neural que está executando esse agente ou está funcionando na mente desse agente.

01:50.610 --> 01:54.870
Então, é basicamente como isso está aprendendo a partir desse momento vai dar um novo passo.

01:54.870 --> 01:59.550
rede neural está dizendo para fazer é obter recompensas atualizando e assim por diante e continuará fazendo isso.

01:59.550 --> 02:03.930
Então, a partir deste novo estado, vai tomar uma nova ação com base no que sua

02:03.930 --> 02:09.370
Então, obviamente, isso vai fazer um bom trabalho e, como já vimos anteriormente, do Escudeiro prático

02:09.400 --> 02:15.450
anterior para os DROs, vamos conseguir alguns bons resultados aqui, mas agora vamos adicionar um novo recurso.

02:15.480 --> 02:21.380
Agora, este agente, número dois, esse cara aqui, ele vai navegar no mesmo ambiente.

02:21.570 --> 02:23.770
O que ele usará legibilidade das árvores.

02:23.940 --> 02:25.170
E isso é o que isso significa.

02:25.170 --> 02:30.280
passos que ele vai tomar neste caso, cinco fórceps vai dar quatro passos e,

02:30.300 --> 02:38.730
depois de seguir estas etapas, ele calculará a recompensa total que ele obteve desses passos e ele irá coloque-o na sua rede.

02:38.730 --> 02:42.730
O que ele vai fazer é que ele vai tomar os

02:42.730 --> 02:48.420
Ele passará por sua rede neural que está governando o processo de tomada de decisão e, em

02:48.420 --> 02:50.690
seguida, a rede neural aprenderá com isso.

02:50.700 --> 02:51.600
Então, qual.

02:51.630 --> 02:54.050
De imediato, como o que você acha que é mais poderoso.

02:54.150 --> 02:59.070
O cara que está apenas levando um passo de cada vez e meio como cutucar no cego ou no escuro e ele é como

02:59.070 --> 03:01.550
OK, então eu vou dar um passo para ver o que acontece.

03:01.620 --> 03:02.830
Dê um passo para ver o que acontece.

03:02.850 --> 03:03.480
Tome medidas.

03:03.480 --> 03:04.020
O que acontece.

03:04.020 --> 03:10.680
O cara no topo ou o cara que leva apenas com muita coragem a Marsha através de quatro passos seguidos e então

03:11.130 --> 03:17.610
ele decide se foram bons passos ou não, e por que você pode ver aqui ou por que provavelmente está tendo uma

03:17.610 --> 03:22.470
idéia de por que o O segundo cara é melhor ou é mais poderoso porque o

03:22.470 --> 03:25.160
segundo cara realmente sabe o que está no final.

03:25.170 --> 03:30.030
O primeiro cara quando ele está quando ele está avaliando se este passo é bom ou não ele está apenas olhando a

03:30.030 --> 03:31.170
recompensa que ele está recebendo.

03:31.280 --> 03:34.430
E então ele é apenas guiado pela recompensa que o meio ambiente lhe está dando.

03:34.440 --> 03:39.570
A mesma coisa aqui, ele apenas é guiado pela recompensa que esse ambiente está lhe dando aqui.

03:39.620 --> 03:46.490
Então, cada vez que é seu único tipo de bússola que ele tem a recompensa, recompensa a recompensa.

03:46.560 --> 03:51.800
Enquanto aqui ele realmente pode avaliar depois de tomar as medidas que ele pode avaliar.

03:51.820 --> 03:53.960
OK, então eu cheguei à linha de chegada.

03:54.000 --> 03:56.640
Então, essa combinação de passos foi boa.

03:56.700 --> 03:57.680
Todos eram bons.

03:57.840 --> 04:01.410
Ou Oh, não acabei no fogo ou Ohno I.

04:01.500 --> 04:08.100
Eu fiz e quando o meu carro não chegou à linha de chegada ou cruzei a parede de areia ou perdi o jogo da

04:08.100 --> 04:09.340
desgraça ou algo assim.

04:09.450 --> 04:13.330
E então, ele decide que toda essa combinação de passos é ruim.

04:13.650 --> 04:18.180
E, portanto, para essas etapas anteriores, ele tem mais informações.

04:18.180 --> 04:23.490
Ele tem mais idéias em abordagens muito intuitivas.

04:23.490 --> 04:26.000
Mais uma vez, este é um tema muito mais complexo do que estamos retratando aqui.

04:26.010 --> 04:32.370
Mas, de forma intuitiva, por exemplo, se você tomar este passo, esta etapa apenas possui informações para você obtê-lo, você

04:32.370 --> 04:34.990
só tem informações que retornam desta recompensa aqui.

04:35.070 --> 04:38.580
E, para este passo neste caso, o mesmo passo exato.

04:38.640 --> 04:41.670
Tem mais informações que tenham vindo da informação.

04:41.820 --> 04:45.500
OK então, qual foi o resultado depois de quatro passos ou cinco passos ou o que for.

04:45.520 --> 04:51.930
Sim, então é assim que funciona e por que se chama rastreio de elegibilidade é porque, durante esse processo, ele

04:51.960 --> 04:58.170
não só olha a recompensa do computador sobre o que está acontecendo e, em seguida, a perda cumulativa e,

04:58.200 --> 05:00.460
em seguida, tudo o que é apropriado.

05:00.620 --> 05:05.210
Mas na verdade, há um vestígio de elegibilidade como o que é chamado de confiança de deficiência.

05:05.210 --> 05:15.440
que recebemos uma punição, obtemos uma recompensa negativa, então, quais desses passos é mais provável que sejam elegíveis para essa punição.

05:15.470 --> 05:23.060
Há um rastro que é mantido em um algoritmo que diz OK, então, se obtivéssemos, digamos

05:23.090 --> 05:29.690
Então, não só sabemos o que é todo esse padrão ou a combinação de etapas da

05:29.690 --> 05:36.350
escola, mas também mantemos um traço de elegibilidade, quais as etapas que vamos atualizar se conseguimos todos.

05:36.350 --> 05:40.970
Então, por exemplo, se, como uma recompensa negativa, possamos ter um rastreamento de

05:41.030 --> 05:47.360
elegibilidade que nos indica que este é um passo que é o mais responsável pelo que obtivemos no

05:47.390 --> 05:54.800
final ou se é uma recompensa positiva de novo, podemos saber que o algoritmo nos ajuda a acompanhar este algoritmo de

05:54.830 --> 06:03.170
elegibilidade também nos ajuda a acompanhar o que é o passo ou a ação que precisa ser elegível para ser atualizado com base na

06:03.170 --> 06:03.820
recompensa que obtemos.

06:03.860 --> 06:05.820
E é por isso que se chama rastreio de elegibilidade.

06:06.160 --> 06:11.810
E essa é a intuição básica por trás da elegibilidade e espero que esses dois

06:11.810 --> 06:18.260
exemplos desses agentes o tornem bastante óbvio ou sejam bastante intuitivos, enquanto essas habilidades podem ser tão poderosas.

06:18.440 --> 06:25.760
E se, como prometido, se você gostaria de aprofundar ainda mais os traços de elegibilidade tópica ou a aprendizagem progressiva, então um maravilhoso

06:26.330 --> 06:31.220
livro incrível que é o que você pode encontrar é chamado de aprendizagem de reforço.

06:31.220 --> 06:36.590
Uma introdução é de Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Eu acho que eles estão no processo de criar uma segunda edição ou a questão muito crítica.

06:40.790 --> 06:49.210
mais popular ou o mais referenciado sobre o aprendizado da lei, obteve um número ridículo de citações.

06:49.260 --> 06:53.050
Mas este é o livro mais comum ou

06:53.300 --> 06:56.630
Penso como dezenas de milhares se não me enganar.

06:56.810 --> 07:01.120
E também o capítulo que você precisa para isso é o Capítulo 7.

07:01.130 --> 07:06.900
Então, para analisar as escolhas de elegibilidade, há um capítulo inteiro sobre o Capítulo 7.

07:06.920 --> 07:10.100
Você pode ler sobre isso e vai em muitos detalhes.

07:10.220 --> 07:17.660
Traços de elegibilidade de avanço para trás e também como a diferença temporal integral de uma mão e a outra extremidade

07:17.660 --> 07:23.320
do espectro que você possui métodos Monte-Carlo entre você tem traços de elegibilidade supostamente traços ou

07:23.330 --> 07:27.280
você liga para passar de diferenças temporais aos métodos de Monte-Carlo.

07:27.290 --> 07:34.190
Muito interessante, leia muitas imagens que realmente apreciei explicações muito intuitivas.

07:34.250 --> 07:40.550
Então, há muitas coisas que você pode aprender com este livro sobre inteligência artificial e aprendizagem de

07:40.550 --> 07:48.230
reforço, mas especificamente os traços de elegibilidade são como um ótimo lugar para se chegar a este livro para os traços

07:48.230 --> 07:49.190
de elegibilidade.

07:49.350 --> 07:57.070
E a segunda referência para hoje é algo que irá mostrar-lhe nos ensaios práticos o aprendizado profundo ou o

07:57.440 --> 08:04.460
trabalho de pesquisa da mente profunda do Google sobre métodos síncronos para uma aprendizagem de reforço mais

08:04.550 --> 08:05.120
profundo.

08:05.270 --> 08:11.270
o papel que é o único artigo em que o A-3 vê o papel que vamos discutir mais abaixo na pontuação.

08:11.270 --> 08:12.240
Sim, esse é

08:12.240 --> 08:14.410
Estamos cada vez mais perto disso.

08:14.510 --> 08:21.200
E, como você pode dizer, estamos muito entusiasmados com isso, então, isso será um pouco sobre

08:21.500 --> 08:28.400
como eles implementaram vestígios de elegibilidade neste artigo, então vamos usar isso mais para o lado prático

08:28.400 --> 08:29.420
das coisas.

08:29.420 --> 08:33.650
Então, espero que tenha gostado do tutorial de hoje e saiba que você está um pouco mais confortável com vestígios de

08:34.010 --> 08:35.920
elegibilidade e não posso esperar para vê-lo na próxima vez.

08:35.930 --> 08:37.680
Até então, desfrute de um.