WEBVTT

00:01.040 --> 00:04.020
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.040 --> 00:07.040
Hoje estamos finalmente falando sobre o aprendizado de Kule.

00:07.070 --> 00:12.890
Tudo bem, então nós já entendemos esta equação, a equação de bellmen que nós adicionamos muitos

00:12.890 --> 00:13.120
componentes.

00:13.130 --> 00:19.910
Temos aqui a recompensa que pode não ser apenas no final, mas pode ser a qualquer passo.

00:19.940 --> 00:21.920
Temos o fator de desconto.

00:21.950 --> 00:26.880
Nós temos a probabilidade porque agora estamos olhando a marca de processos de decisão.

00:26.900 --> 00:32.780
acabar em um estado diferente, independentemente da ação que tomamos ou realmente dava a ação que tomamos.

00:33.350 --> 00:35.210
E aqui temos a possibilidade de

00:35.210 --> 00:40.670
Pode haver vários estados em que podemos terminar e depois obtemos o valor dos próximos estados,

00:40.670 --> 00:46.790
porque ele gosta de uma função recursiva e assim por diante, mas você provavelmente ainda tem uma pergunta.

00:46.820 --> 00:53.560
A questão é onde, em tudo isso, não há nenhuma letra Q Por que tudo é chamado de q.

00:53.750 --> 00:54.270
Aprendendo.

00:54.350 --> 00:55.790
Então, onde está a sugestão.

00:55.910 --> 00:58.940
E essa é a questão que vamos responder hoje.

00:58.940 --> 01:06.620
de estar em um determinado estado e agora vamos ver como Q se encaixa em tudo isso também.

01:06.620 --> 01:09.820
Até agora, estamos lidando com valores o valor

01:10.070 --> 01:16.360
Então, aqui temos dois exemplos à esquerda é o que seríamos fazer até agora nosso agente vem analisando.

01:16.400 --> 01:18.170
Ok, eu estou aqui.

01:18.230 --> 01:21.640
Esta é uma marca de processo de decisão, então não importa como eu cheguei aqui.

01:21.770 --> 01:28.250
O resto do ambiente não cuida dos passos que me levou a chegar aqui a partir de agora.

01:28.460 --> 01:32.050
Eu tenho que tomar a decisão ideal para ir aqui aqui ou aqui.

01:32.060 --> 01:37.280
Com base no estado atual e em todos os estados futuros que vêm daqui, mas não do passado.

01:37.490 --> 01:42.010
E então ele pode ver que há três opções, existe estado um estado para indicar três.

01:42.260 --> 01:48.920
E, com base em sua experiência, ele calculou os valores nesses estados e agora ele vai usar a

01:48.920 --> 01:49.880
equação dos bellmen.

01:49.880 --> 01:54.260
Então, embora este seja um Proceso clássico, ele sabe que ele irá aqui, mas há a chance de ele ir

01:54.260 --> 01:56.120
para a esquerda direita e assim por diante.

01:56.110 --> 02:02.450
Então, com base nesses valores, vamos tomar uma decisão, o que fazemos até agora e isso é uma abordagem

02:02.450 --> 02:03.470
totalmente legítima aqui.

02:03.560 --> 02:05.640
Mas agora nos modificamos um pouco.

02:05.660 --> 02:12.860
cada estado em que ele pode acabar, vamos analisar os valores ou o valor de cada ação.

02:12.950 --> 02:21.440
Vamos ter o mesmo conceito exato do mesmo problema exato, mas aqui em vez de olhar para os valores de

02:21.440 --> 02:25.640
Então, nós não vamos mais usar a letra V porque, pelo valor do estado,

02:25.640 --> 02:30.740
vamos usar um Q e você pode ter uma pergunta por que a letra Q Bem.

02:30.740 --> 02:32.300
Algumas pessoas especulam disso.

02:32.300 --> 02:33.760
P Vou ler isso.

02:33.770 --> 02:35.420
Eu penso em Quora.

02:35.420 --> 02:41.480
referências para isso, por isso pode não ser porque isso só pode ser porque a carta que foi usada no momento e

02:41.480 --> 02:45.520
agora tornou-se super popular porque é Todos chamaram de aprendizagem chave por causa disso.

02:45.920 --> 02:50.750
Alguém mencionou que Q é por causa da qualidade, mas ao mesmo tempo não consegui encontrar outras

02:50.780 --> 02:52.520
Portanto, nenhum motivo exato foi válido.

02:52.530 --> 02:58.830
Q Mas, no entanto, pelo menos isso nos ajuda a distinguir entre V e Q So Q aqui.

02:58.850 --> 03:03.340
Havia presentes em vez do valor do estado que representa, deixa a qualidade.

03:03.410 --> 03:06.260
Representa a qualidade da ação que representa.

03:06.260 --> 03:07.980
OK, então eu tenho quatro ações.

03:08.300 --> 03:10.860
Quais são as diferentes qualidades dessa ação.

03:10.860 --> 03:16.340
tudo bem como faço para quantificar essa ação e então posso compará-los e isso é exatamente o que Q é.

03:16.340 --> 03:21.380
Qual é o valor da ação ou a qualidade da ação que a ação é mais lucrativa, então eu

03:21.380 --> 03:23.200
preciso de uma métrica que me diga

03:23.470 --> 03:26.240
E então ele tem quatro ações possíveis.

03:26.360 --> 03:29.240
Como sempre, vá para a direita ou para baixo.

03:29.240 --> 03:35.480
E, com base na ação, haverá uma fórmula que nos diga o valor quantificável dessa ação

03:35.480 --> 03:38.410
que chamamos de valor Q q dessa ação.

03:38.630 --> 03:41.700
Então, vamos dar uma olhada em como vamos derivar essa fórmula.

03:41.710 --> 03:44.510
Q Como é que ele realmente se relaciona com estes?

03:44.510 --> 03:51.290
Porque, como você pode imaginar, porque as ações levam aos estados, tem que haver algum tipo de ligação entre

03:51.290 --> 03:51.850
os dois.

03:51.870 --> 03:56.060
Certamente, nós já determinamos como calcular isso e estamos muito bem nisso.

03:56.060 --> 04:02.030
Sabemos como usar a equação de Belman em ambientes muito diferentes com muitas complicações diferentes.

04:02.270 --> 04:06.080
Bem, vamos aproveitar esse conhecimento para entender como podemos calcular agora.

04:06.080 --> 04:12.170
Q Para fazer as mesmas previsões porque, como você pode imaginar, o ambiente não muda dependendo

04:12.500 --> 04:16.530
dependendo da abordagem que usamos, o ambiente será o mesmo independentemente.

04:16.550 --> 04:22.130
sempre dar o mesmo resultado e, portanto, essa é outra razão pela qual esses dois devem ser vinculados.

04:22.460 --> 04:24.690
Portanto, essa abordagem e essa abordagem devem

04:25.100 --> 04:26.290
Então vamos dar uma olhada.

04:26.300 --> 04:31.280
Então, aqui está a nossa abordagem de visão, onde acabamos de ver o valor de qualquer estado desse estado ou

04:31.280 --> 04:32.260
de qualquer outro estado.

04:32.420 --> 04:37.190
E aqui entramos, estamos apenas usando a liderança aqui, porque esse é o estado atual.

04:37.190 --> 04:43.730
E, portanto, a terminologia será a mesma em ambas as equações e aqui estamos usando q como um Q é

04:43.790 --> 04:45.520
o estado e a ação.

04:45.540 --> 04:51.970
A porque a ação está subida, mas em que estado realizamos essa ação, realizamos essa ação no Estado.

04:53.000 --> 04:57.230
OK, então agora vamos montar a equação de Belman para a primeira abordagem,

04:57.230 --> 05:06.620
como você pode ver aqui, temos o de s ou o valor de qualquer estado dado é o máximo da recompensa que você obtém uma aposta máxima baseada nas

05:07.070 --> 05:08.660
ações que você tem três.

05:08.690 --> 05:14.210
Neste caso, você realmente tem quatro ações para maximizar todas as ações possíveis desta parte

05:14.210 --> 05:20.090
que ouvimos discutidas muitas vezes, então esta é a nossa recompensa que obtemos de realizar essa

05:20.090 --> 05:26.850
ação naquele desconto de plaza estadual, de fato, multiplicado pelo esperado valor do novo estado em que estaremos no

05:26.850 --> 05:29.420
valor esperado porque é um processo estocástico.

05:29.420 --> 05:34.460
certeza que vamos acabar por aqui, podemos acabar no tipo de probabilidade à esquerda ou à direita.

05:34.460 --> 05:36.050
Nós não sabemos exatamente com

05:36.050 --> 05:38.230
É por isso que essas probabilidades estão em você.

05:38.240 --> 05:40.290
Tudo bem, então esse é o nosso valor.

05:40.350 --> 05:41.150
E agora vejamos.

05:41.150 --> 05:43.530
Q Então Q será definido.

05:43.580 --> 05:49.550
Nós vamos usar isso para definir Q Então digamos que o agente desse local desse estado

05:49.550 --> 05:50.640
executa a ação.

05:50.840 --> 05:54.350
Para o qual o q valor será chamado.

05:54.500 --> 05:59.320
Bem antes de tudo, vejamos o que ele receberá em troca de realizar essa ação.

05:59.420 --> 06:02.160
A primeira coisa que você receberá é uma recompensa certa.

06:02.360 --> 06:04.180
Não sabe nenhuma dúvida sobre isso.

06:04.250 --> 06:09.920
Haverá algum tipo de regra ou pode ser zero, mas sabemos que o todo é o modo como esse

06:09.920 --> 06:15.770
processo de aprendizagem de reforço é que algumas cidades estão realizando certas ações de um dado estado ou dois.

06:15.840 --> 06:17.140
Então vou adicionar isso aqui.

06:17.480 --> 06:19.680
E então vamos adicionar o que vamos adicionar.

06:19.850 --> 06:21.090
Bem, vamos pensar sobre isso.

06:21.110 --> 06:24.640
Qual é a próxima coisa que acontece depois que ele está indo lá.

06:24.860 --> 06:32.030
Bem, a próxima coisa que acontece é que agora o agente está em certo estado, ele poderia acabar aqui com

06:32.330 --> 06:34.640
uma probabilidade de 80% ou alguma probabilidade.

06:34.730 --> 06:36.670
Mas na verdade aqui mesmo.

06:36.800 --> 06:43.940
Mas onde quer que ele acabe agora, já temos uma métrica quantificada para esse estado em que ele está.

06:44.210 --> 06:47.100
E esse é realmente o valor desse estado.

06:47.180 --> 06:52.340
Mas porque ele surgiu em muitos estados diferentes e em três dos diferentes estados possíveis, temos

06:52.370 --> 06:55.730
que observar o valor esperado do estado em que ele estará.

06:56.210 --> 06:58.610
E então vamos adicionar isso em nós vamos adicionar.

06:58.610 --> 07:04.020
Claro que o fator descontado como anteriormente tínhamos, porque isso está em algum lugar no futuro.

07:04.190 --> 07:11.210
E então, vamos adicionar alguns de todos os estados possíveis em todos os estados possíveis que ele poderia

07:11.210 --> 07:12.910
acabar levando essa ação.

07:12.910 --> 07:14.240
Termos de probabilidade.

07:14.240 --> 07:20.150
Então, o que estamos dizendo aqui é que está bem então, ao realizar uma ação, você receberá uma recompensa Plus,

07:20.150 --> 07:22.700
que é uma métrica quantificada Plus, você vai conseguir.

07:22.730 --> 07:25.820
Você acaba em um estado, não sabemos qual deles poderia estar aqui.

07:25.850 --> 07:26.950
Poderia estar aqui, poderia estar aqui.

07:27.050 --> 07:32.240
Mas aqui está o valor esperado do estado em que você vai acabar.

07:32.270 --> 07:36.290
E agora vamos multiplicar pelo fator de desconto, porque isso é um afastamento.

07:36.380 --> 07:44.180
Então, esse é o nosso valor Q para esta seção de desempenho e o que você notará aqui imediatamente é

07:44.180 --> 07:44.730
isso.

07:44.760 --> 07:51.470
Q O valor Q é realmente exatamente idêntico ao que está dentro desses suportes aqui.

07:51.950 --> 07:52.660
E por que isto.

07:52.670 --> 07:59.930
máximo em todas as ações possíveis do resultado que obtemmos ao tomar cada uma dessas ações e enqueue estamos definindo.

07:59.930 --> 08:04.910
Bem, se você pensa sobre isso aqui, estamos levando o máximo de resultados, obteremos

08:04.910 --> 08:10.500
o máximo em todas as ações possíveis, de modo que obtivemos uma ação que leva o

08:10.610 --> 08:11.160
Interessante.

08:11.160 --> 08:14.000
O que obteremos tomando uma determinada ação.

08:14.000 --> 08:19.340
Então, se você pensar sobre isso, faz sentido que o valor de um estado.

08:19.370 --> 08:25.720
Então, por exemplo, este estado é o máximo de todos os possíveis valores de Q.

08:25.790 --> 08:32.360
Assim, então, nos Estados, ao estar no estado, o agente tem um valor-chave para manter o valor 3Q para o

08:32.360 --> 08:32.870
valor q.

08:32.870 --> 08:37.760
Então, sim positivo para possíveis valores de Q enquanto o valor da permanência faz

08:37.760 --> 08:42.460
sentido que o valor do estado é o máximo de todos esses quatro valores-chave.

08:42.490 --> 08:44.420
É exatamente isso que podemos ver aqui.

08:44.420 --> 08:48.060
Essa é uma boa confirmação dessa nova fórmula que derivamos.

08:48.080 --> 08:53.080
Se não fosse esse o caso, se isso não corresponderia, então teríamos perguntas.

08:53.270 --> 08:55.150
Então, por que porque não combina.

08:55.160 --> 08:57.510
Por que não coincide se.

08:57.690 --> 09:05.810
Q valor é uma métrica quantificada de executar uma ação e V depende do chão.

09:05.930 --> 09:12.650
É como o máximo dos possíveis resultados das quatro ações que ele pode realizar ao longo do que faz

09:12.650 --> 09:12.970
sentido.

09:12.980 --> 09:21.050
E isso confirma a fórmula que acabamos de derivar e agora vamos torná-la ainda mais interessante.

09:21.080 --> 09:26.620
Nós vamos nos livrar do Wii inteiramente porque você pode ver aqui, você tem Wii é uma função recursiva.

09:26.810 --> 09:29.750
De vez em quando você me pegou e depois B e depois B e depois B e assim por diante.

09:29.760 --> 09:35.480
Então você pode expressar essa visão através de todos os seguintes Vee's os mais ótimos que serão

09:36.150 --> 09:36.830
apresentados aqui.

09:36.840 --> 09:43.210
função recursiva do OR como uma função do próximo V e então você teria que conectar este V e depois voltar para o B.

09:43.250 --> 09:45.200
Estamos esperando Q Como um funk uma

09:45.200 --> 09:51.110
Então, o que vamos fazer é que realmente vamos levar este V e nós vamos substituí-lo

09:51.230 --> 09:54.280
com Q Right então vamos dar uma olhada nisso.

09:54.930 --> 10:01.410
Nós vamos levar este V do próximo estado e vamos ligar isso a essa fórmula aqui.

10:01.570 --> 10:07.180
E como você pode ver agora, então esta parte não muda, esta probabilidade não muda.

10:07.180 --> 10:16.950
Mas como acabamos de discutir o de s é o máximo por todas as ações de q de S e um direito aqui.

10:16.990 --> 10:19.180
Então, é isso que vamos substituir aqui.

10:19.180 --> 10:24.310
é a nova ação a ação que vamos tomar, porque aqui temos o Wii de como principal.

10:24.310 --> 10:26.760
Então, vamos dizer o máximo de, é claro,

10:26.770 --> 10:30.700
Então, agora, temos o console máximo em primeiro lugar.

10:30.700 --> 10:34.510
Então, as ações que vamos tomar deste estado são de

10:34.510 --> 10:41.200
onde quer que outro estado acabe, mas a ação que vamos levar de lá e o Maxima em

10:41.260 --> 10:50.170
todos esses e o máximo é de todos os valores de cubo que irão que estão disponíveis para nós nesse novo estado como primeira vírgula.

10:50.170 --> 10:51.280
E essa é a ação.

10:51.280 --> 10:52.140
Então, esse é o.

10:52.210 --> 10:53.500
Então, haverá mais quatro.

10:53.500 --> 10:54.530
Q valores lá.

10:54.610 --> 10:56.700
Então agora, como você pode ver, vamos passar novamente.

10:57.040 --> 11:02.740
Então, a partir do que derivamos esta palavra seria apenas uma causa apenas através da lógica e da intuição, para

11:02.740 --> 11:07.400
que possamos ver que os VNS são realmente vistas de AS e de e estão ligados.

11:07.400 --> 11:12.400
O de S é o máximo em todas as ações de Cuba S e você pode ver aqui, então esta

11:12.400 --> 11:13.820
parte é idêntica a esta parte.

11:14.290 --> 11:20.740
E então, vamos aproveitar isso e nós vamos substituir esse bit com o VNS daqui, mas não

11:20.740 --> 11:25.730
este embudo exato, vamos levar essa parte interna e substituí-la por matar inocentes.

11:26.080 --> 11:32.920
Então vamos ligar isso aqui e esta parte será q de s prime um máximo máximo de cubo por

11:33.430 --> 11:36.810
Crucell um Priam's de Q como Prime um primeiro.

11:37.060 --> 11:39.790
E agora temos nossa fórmula.

11:39.790 --> 11:46.880
Então, agora temos uma fórmula recursiva para o valor q, então agora o agente pode pensar qual é o valor da seção

11:46.890 --> 11:50.310
qual a qualidade desta seção foi o novo valor dessa ação.

11:50.470 --> 11:56.570
Bem, isso depende da recompensa que recebo no passo imediato depois disso, mais depende

11:56.590 --> 12:02.410
do fator com desconto, o máximo de todas as possíveis ações Q nesse estado.

12:02.410 --> 12:06.760
valor esperado por aqui, então nós temos alguns tempos de probabilidade, o máximo que é o valor esperado.

12:06.760 --> 12:12.770
Mas eu não sei se eu vou conseguir que seu lado precise também olhar para esse estado nesse estado e é por isso que

12:12.860 --> 12:13.300
temos esse

12:13.450 --> 12:18.010
Então, uma fórmula muito semelhante à que você pode ver, mas desta vez estamos expressando coisas

12:18.490 --> 12:27.310
através dos valores de q e é por isso que todo esse algoritmo é chamado de Kill learning porque isso é o que é analisado, é o que os agentes

12:27.310 --> 12:32.020
realmente usam eles não parecem nos estados analisam suas ações possíveis e, em seguida, com base

12:32.020 --> 12:35.760
nas ações sobre o valor q das ações, eles decidirão qual ação tomar.

12:35.760 --> 12:40.330
Então, eles apenas olharão para o valor Q máximo neste dado estado, ele tem quatro ações.

12:40.330 --> 12:45.340
ação e depois se envolver vai repetir esse processo, repita esse processo e assim por diante.

12:45.350 --> 12:51.820
Qual é a melhor ação a ser tomada para que possa comparar um tipo de comparação entre os diferentes estados que podem

12:51.820 --> 12:56.830
acabar acabando é comparar as ações possíveis que atualmente ele tem, então, encontrando o melhor que vai

12:56.860 --> 12:57.440
tomar essa

12:57.580 --> 13:03.940
Então agora você pode ver como tudo isso se junta como a recompensa que os fatos de

13:04.360 --> 13:10.330
desconto ou a decisão de mercado estocástica processam e os valores e os valores de q

13:10.690 --> 13:18.400
se juntam para cueist esta equação de Belman super potente para q valores que agora podemos aplicar e deixe nossos agentes

13:18.400 --> 13:20.410
aprenderem como vencer o meio ambiente.

13:20.410 --> 13:23.380
E então é uma explicação intuitiva sobre o que está acontecendo.

13:23.380 --> 13:28.510
Sei que passamos pelas fórmulas, mas é necessário, porque é como a nossa fórmula,

13:28.510 --> 13:34.730
é que estamos passando por todo este capítulo e acho que é uma boa transição do To.

13:34.780 --> 13:43.450
Q E ilustra como existem links entre Yishun E se você gostaria de obter um pouco mais de uma aproximação matemática de abordagem rigorosa

13:43.450 --> 13:49.410
e, como você vê a matemática por trás disso e aprender um pouco mais sobre valores

13:49.420 --> 13:51.600
de q e como eles funcionam.

13:51.640 --> 13:54.090
Então, temos uma leitura adicional para você.

13:54.130 --> 14:02.980
Este artigo é chamado de conceitos e algoritmos de processos de decisão Markov por martÃn von Autor low 2009.

14:02.980 --> 14:09.610
complexo, como esse artigo, se quisermos obter algumas informações adicionais sobre isso, a fim de obter uma compreensão mais profunda.

14:09.820 --> 14:15.220
Então, você corta o link aqui como sempre e aqui você pode ler um pouco mais

14:15.220 --> 14:21.660
de detalhes para entender todos os graciosos por trás dos valores de Hugh e assim por diante e agora

14:21.790 --> 14:27.670
que discutimos todas essas coisas relacionadas à equação de Belman agora estamos prontos para olhar para algo mais

14:27.670 --> 14:34.390
Mas mesmo que você não leia o jornal ou o rádio, você deve ter um bom conhecimento sobre o

14:34.390 --> 14:40.850
que é aprender e sobre como os agentes apresentam as ações que eles precisam levar em um determinado ambiente.

14:40.870 --> 14:43.980
Então espero que você aproveite hoje Statoil e estou ansioso para o seu próximo.

14:43.990 --> 14:45.360
Até então, aproveite.

14:45.390 --> 14:45.620
EU.