WEBVTT

00:01.060 --> 00:04.460
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.460 --> 00:07.630
Hoje vamos falar sobre a equação de Belman.

00:07.630 --> 00:12.580
É um tópico bastante complexo e vamos apresentá-lo passo a passo durante toda essa

00:12.580 --> 00:17.110
seção do curso, então não vou simplesmente pular direto para a versão mais

00:17.110 --> 00:21.730
complexa da equação de Belmont, mas sim nós '' vai apresentá-lo lentamente para

00:21.730 --> 00:23.250
entender gradualmente como isso funciona.

00:23.410 --> 00:28.480
E espero seu objetivo com essa abordagem se você for G. R. Vamos direto para ele.

00:28.690 --> 00:33.820
ter um par de conceitos-chave com os quais estaremos operando e esses conceitos são.

00:33.820 --> 00:34.430
Então, vamos

00:34.600 --> 00:41.110
S significa estados para que o estado em que nosso agente seja ou qualquer outro estado possível em que

00:41.740 --> 00:45.490
possa ser a representa uma ação que um agente pode tomar.

00:45.490 --> 00:50.680
Portanto, um agente pode ter acesso a uma determinada lista de ações e as ações são muito

00:50.680 --> 00:53.610
importantes quando são analisadas em uma combinação de estados.

00:53.620 --> 00:57.880
um estado realmente não faz sentido porque você não sei onde você está e onde você

00:57.880 --> 01:01.870
pode acabar e então nós teremos o nosso que representa uma recompensa e isso é

01:01.870 --> 01:07.390
através da ala que o agente obtém para entrar em um determinado estado e a gama é o fator de desconto.

01:07.390 --> 01:13.240
Então, quando você está em um estado de balanço e então você olha as ações e começa a ter sentido o que

01:13.240 --> 01:16.980
será o resultado dessas ações porque você verá uma ação por si só ou

01:16.990 --> 01:21.510
E vamos falar sobre o fator de desconto em um segundo, tudo faz sentido agora, mas eles estão apenas tomando

01:21.510 --> 01:21.810
notas.

01:21.820 --> 01:26.300
Faça uma nota mental para que possamos ter esta carta Gamelin que estará operando mais tarde.

01:26.620 --> 01:31.230
Então, a pessoa que está por trás da equação do Bellman é Richard Ernest Bellman.

01:31.360 --> 01:39.400
Ele era um matemático de vôo e criou os conceitos de programação dinâmica que agora somos, que agora chamamos de

01:39.400 --> 01:43.790
aprendizagem de reforço ou que chamamos de equação de Belman agora.

01:44.110 --> 01:45.490
Bem, isso é o que chamamos agora.

01:45.490 --> 01:52.350
E em 1953 ele veio com esse conceito e foi aí que veio a mim a equação de Belmont Belman.

01:52.630 --> 01:56.530
Então, vamos dar uma olhada em como tudo isso funciona.

01:56.540 --> 02:02.410
Há nosso agente adorável no canto inferior esquerdo e ele está em um labirinto e este é um

02:02.500 --> 02:08.680
labirinto clássico onde você tem alguns blocos, os blocos largos são blocos em que o agente pode entrar no

02:08.680 --> 02:13.800
bloco cinzento é aquele que é simplesmente não acessível diz como uma parede neste labirinto.

02:13.900 --> 02:20.150
O verde é onde o agente deve estar apontando para acabar naquele lugar onde queremos que o agente vá para

02:20.150 --> 02:20.910
o final.

02:21.220 --> 02:25.050
E o vermelho é firepits ou o motor cai no poço do fogo.

02:25.060 --> 02:26.660
Ele perderá o jogo.

02:26.950 --> 02:31.330
Então, no fogo, a recompensa que é R é menos 1.

02:31.330 --> 02:36.330
Então, essa é nossa maneira de dizer ao agente que não é algo que queremos que você faça.

02:36.430 --> 02:41.320
Como lembre-se no exemplo de quando estamos treinando cachorros, queremos dizer-lhes como um mau cão, se não estiver fazendo o

02:41.320 --> 02:46.030
certo que queria fazer o mesmo aqui, somos um dizer ao agente que isso não é algo que você deveria

02:46.030 --> 02:49.480
ser fazer você não deveria estar terminando na praça, então, cada vez que não

02:49.480 --> 02:53.300
acontece, o esquilo ganha uma recompensa menos, então você será punido com uma recompensa menos uma.

02:53.530 --> 02:57.610
Por outro lado, se acabar na Praça Verde, terá uma recompensa mais uma, o que

02:57.610 --> 02:59.330
significa que é o que queríamos fazer.

02:59.590 --> 03:02.470
Então, essas são as duas recompensas que o agente não pode obter.

03:02.470 --> 03:06.210
E como ele aprende a operar neste labirinto.

03:06.370 --> 03:10.750
Assim como nesse exemplo dos cachorros de robô que aprenderam a caminhar, o que o deixará saber, só vai dizer

03:10.750 --> 03:12.490
que aqui a ação que você pode fazer.

03:12.490 --> 03:18.360
Você pode subir para a direita ou para baixo, são quatro ações possíveis que você pode tomar e é isso.

03:18.360 --> 03:21.430
Tenha um brincar com isso, veja o que você pode encontrar.

03:21.430 --> 03:26.320
Então, o agente pode ir para a direita, então eles podem ir mais dois para a direita, eles podem voltar

03:26.320 --> 03:31.160
para a esquerda, pressionando aleatoriamente o botão e eles estão tentando ver o que acontece e eles voltam aqui.

03:31.180 --> 03:34.660
Eles vão subir, vá para baixo, vá para a direita.

03:34.660 --> 03:38.450
Então, por enquanto, eles não aprenderam nada que até agora nada aconteceu.

03:38.470 --> 03:41.790
Eles vão para a direita e, em seguida, bam eles acabam na Praça Verde.

03:41.830 --> 03:48.150
Então, eles percebem wow, eu acabei de obter uma vantagem. Então, assim que entrei na Praça Verde, eles receberam

03:48.150 --> 03:49.040
uma recompensa mais.

03:49.090 --> 03:53.560
E isso desencadeia o algoritmo para dizer OK, isso é realmente legal.

03:53.830 --> 03:58.920
Eu sou recompensado por acabar na praça, então eu quero acabar na praça.

03:58.930 --> 04:00.650
Então, o que isso significa para o agente.

04:00.910 --> 04:04.310
Isso significa que ele começa a fazer a pergunta como eu cheguei a este quadrado.

04:04.300 --> 04:10.690
Qual era o estado anterior em que eu estava e que ação eu tomava para chegar ao quadrado e

04:10.690 --> 04:14.810
depois olhava para trás e dizia, então o estado anterior era esse.

04:14.950 --> 04:17.400
Acontece ser valioso nesse estado.

04:17.410 --> 04:19.240
Aquele que provoca a seta vermelha.

04:19.270 --> 04:26.230
sonhe de mais um como um biscoito para um cachorro assim que eu sei se eu já estou nesse estado.

04:26.230 --> 04:33.210
Porque daquele estado você é, eu estou, estou apenas a um passo de obter a máxima recompensa que eu possivelmente

04:33.250 --> 04:35.150
Esse quadrado marcado com a seta vermelha.

04:35.200 --> 04:36.740
Tudo o que tenho a fazer é pressionar direito.

04:37.030 --> 04:41.440
Então, como eu me digo para lembrar que esse estado é valioso.

04:41.440 --> 04:45.170
Bem, para mim, na verdade não há diferença como agente.

04:45.170 --> 04:50.380
Não há diferença se estou no Green Square ou no quadrado branco, na Praça Verde, recebo

04:50.380 --> 04:51.610
a recompensa de um.

04:51.610 --> 04:58.810
valor de 1 porque leva exatamente a recompensar um logo que estou no quadrado branco, eu sei que vou tomar mais uma ação.

04:58.810 --> 05:03.280
Então, eu vou marcar para mim que a Praça Y tem para mim tem um

05:03.350 --> 05:08.180
Estarei no Green Square e receverei uma recompensa ou uma, por isso vou dizer que o valor

05:08.180 --> 05:14.690
desse quadrado é igual a um, porque ele leva diretamente a se em qualquer tipo de subtração assim que Quero dizer, eu sei que

05:14.690 --> 05:18.890
minha recompensa será uma, então eu vou marcar esse quadrado como o chamado a um

05:18.890 --> 05:22.430
que é o valor que é o valor percebido de estar no estado.

05:22.430 --> 05:24.740
Em seguida, o agente estará OK.

05:24.800 --> 05:26.930
Então, como faço para entrar neste quadrado?

05:27.050 --> 05:29.990
E você sabe que ele pode andar novamente e assim por diante.

05:29.990 --> 05:33.800
E voltei na praça e seja como OK, como eu entrei nessa praça antes disso.

05:33.800 --> 05:36.860
E a maneira como eu entrei nesta praça era desta praça.

05:36.860 --> 05:37.530
Interessante.

05:37.550 --> 05:42.980
Ok então, assim que eu entrar nesta praça, eu sei que tudo o que tenho que fazer é ir para a direita.

05:42.980 --> 05:45.640
E então, daqui, eu já sei que vou ganhar.

05:45.650 --> 05:49.970
Eu sei exatamente como tudo vai se desvendar a partir daqui e eu sei que o valor de estar neste

05:49.970 --> 05:50.970
estado é igual a um.

05:51.020 --> 05:58.340
valor nisso é um valor percebido, eu tenho grande valor aqui como um veículo para querer, porque isso significa que eu sei.

05:58.340 --> 06:03.920
E uma vez que não há nada que me impede de crescer a partir daqui até

06:03.920 --> 06:04.640
aqui, o

06:04.650 --> 06:06.660
Esteja aqui e eu estarei aqui muito rapidamente.

06:06.740 --> 06:07.980
Então eu vou ganhar.

06:08.180 --> 06:10.490
E então, como você entra nesse quadrado antes disso.

06:10.490 --> 06:12.940
Bem, entrei neste quadrado a partir desta praça.

06:13.070 --> 06:19.670
estar aqui também é igual a um e assim por diante, então o valor de estar aqui é igual a um valor de estar aqui é igual

06:19.670 --> 06:23.690
a um porque cada um deles leva ao próximo e estes para a linha de chegada.

06:23.690 --> 06:25.710
Portanto, o valor é semelhante, o valor de

06:26.240 --> 06:29.850
Então, isso é muito lógico nesta fase.

06:29.960 --> 06:33.410
Este é o projeto muito bonito da equação de Belman agora.

06:33.410 --> 06:40.460
Então, é possível que possamos pensar em projetar uma equação que ajude um agente a atravessar o labirinto.

06:40.490 --> 06:45.840
Então, olhe para a recompensa, em seguida, o estado anterior dá-lhe um valor igual a recompensar os procedimentos e,

06:45.840 --> 06:51.920
portanto, esses são um tipo de como criar um caminho é tudo ótimo e bom, mas o problema aqui está OK

06:52.010 --> 06:58.790
o que acontece se o nosso agente por algum motivo começar em Este estado em vez de começar aqui e tomar essas ações e

06:58.880 --> 07:00.480
que ele realmente começa no estado.

07:00.650 --> 07:06.980
Como sabe como ele lembra quais as ações a serem tomadas, deve ir para a direita ou deveria cair ou talvez devesse ir

07:06.980 --> 07:08.540
para a esquerda ou deveria subir?

07:08.540 --> 07:13.220
Como lembra qual é a próxima continuação a partir daqui.

07:13.220 --> 07:18.660
Se os únicos valores que tem é que esses valores são iguais a uma vez que não pode ver o que está mais longe.

07:18.660 --> 07:19.700
Só pode ver.

07:19.700 --> 07:20.030
Tudo bem.

07:20.030 --> 07:21.940
O que tenho aqui e o que tenho aqui.

07:21.980 --> 07:23.530
Como sabe o caminho a seguir?

07:23.660 --> 07:27.920
Bem, nesta fase, não é tão idêntico para a idade e para onde seguir.

07:27.960 --> 07:30.770
E é por isso que essa abordagem realmente não funciona.

07:30.790 --> 07:32.930
É uma explicação muito simplista.

07:32.930 --> 07:34.500
Claro que há muito mais para isso.

07:34.520 --> 07:40.550
Mas de uma maneira intuitiva, é por isso que não podemos simplesmente atribuir apenas continuar esse valor para trás como esse.

07:40.790 --> 07:46.210
Porque um dos motivos é uma vez que o agente está entre estes dois valores, onde é o que vai acontecer.

07:46.210 --> 07:48.560
Não pode ficar confuso assim.

07:48.620 --> 07:52.350
E então, como solucionamos esse problema, o que vamos fazer?

07:52.400 --> 07:57.860
E é aí que vamos começar a introduzir a equação de Belman em sua forma real lentamente passo

07:57.860 --> 07:58.640
a passo.

07:58.670 --> 08:01.510
Então, a equação de Belman parece ser assim.

08:01.640 --> 08:07.100
Então já falamos sobre o valor de estar em um determinado estado, como é o seu

08:07.100 --> 08:10.250
estado atual ou qualquer estado dado, e também existe.

08:10.370 --> 08:17.270
E como Prime é o estado, o seguinte afirma o estado em que você vai acabar depois do estado

08:17.270 --> 08:18.990
e tomando uma ação concertada.

08:19.000 --> 08:24.160
Mas sabemos que há muitas ações e um agente pode tomar e é por isso que temos esse Max aqui.

08:24.260 --> 08:30.020
Então, ao fazer uma ação, o que acontecerá com um agente, então digamos que estamos no estado como

08:30.050 --> 08:32.700
fazendo uma ação nos ativos do estado e agimos.

08:32.780 --> 08:36.690
O que acontecerá será instantaneamente obter uma recompensa entrando em um novo estado.

08:36.770 --> 08:41.960
E lembre-se de que a recompensa pode ser uma ou mais uma ou menos se estiver no final do jogo ou pode

08:41.960 --> 08:46.240
ser um zero se é durante todo o jogo, neste caso, nossa recompensa ao longo do jogo é zero.

08:46.280 --> 08:55.160
Então, essa é a recompensa Além disso, entraremos em um novo estado que tem valor de s prime.

08:55.160 --> 08:57.820
Então esse é o valor do novo estado e gama.

08:57.820 --> 08:58.820
Falaremos sobre isso em um segundo.

08:58.820 --> 09:03.560
Mas o ponto que eu estou tentando criar aqui ou o ponto que eu estou criando aqui é que você tem muitas ações diferentes

09:03.560 --> 09:05.810
que podemos tomar e é por isso que temos o máximo.

09:05.810 --> 09:09.630
Então, ao agir, obtemos recompensas. Mais, acabamos em um novo estado.

09:09.740 --> 09:14.660
E, portanto, para cada movimento do nosso caso antes de nossas possíveis ações para cada

09:14.660 --> 09:17.810
uma das possíveis 4 ações, teremos uma equação como essa.

09:17.810 --> 09:22.980
Então, isso vai ter um valor para eles terem um valor diferente para cada uma das

09:23.480 --> 09:28.750
quatro ações e vamos olhar apenas o máximo porque, claro, o agente quer tomar o estado ideal.

09:28.760 --> 09:33.860
vai encontrar o máximo com base na ação e vai tomar essa ação que precisa do máximo desses valores.

09:33.860 --> 09:37.500
Então, se ele estiver no estado s, ele vai olhar para esses valores, ele

09:37.640 --> 09:41.480
Então, espero que isso faça sentido porque estamos tomando o máximo aqui.

09:41.660 --> 09:45.400
Então, uma vez que obtivemos a recompensa e o valor que dizia por que temos esse parâmetro Gabaa aqui.

09:45.650 --> 09:52.220
Bem, é exatamente para resolver esse problema de onde o agente não sabe o caminho a seguir porque

09:52.220 --> 09:52.850
não pode.

09:52.950 --> 09:56.600
Está comparando os valores de dois estados em ambos os lados e eles são os mesmos.

09:56.810 --> 10:00.890
É por isso que os jogadores chamaram o fator de desconto, então vamos dar uma olhada

10:00.890 --> 10:02.050
nisso e entender melhor.

10:02.060 --> 10:04.680
Então vamos tomar uma fórmula, vou colocá-lo aqui no canto superior direito.

10:04.760 --> 10:09.100
E agora analisaremos quais são os valores dos diferentes estados.

10:09.140 --> 10:11.470
E cada estado aqui é um quadrado.

10:11.470 --> 10:11.820
Não.

10:11.840 --> 10:16.610
Então, um desses um desses quadrados brancos é um estado, eu vou dizer, vamos calcular o

10:16.610 --> 10:18.290
valor de estar nesse estado.

10:18.290 --> 10:19.770
Então vamos começar com a praça.

10:19.790 --> 10:21.610
Qual é o valor de estar neste estado.

10:21.860 --> 10:25.830
Bem, precisamos ter o máximo desse valor em todas as ações.

10:26.120 --> 10:31.440
E sabemos que esse valor representa é maximizado à medida que nos aproximamos da linha de chegada

10:31.440 --> 10:36.440
e é assim que é construído e apenas observando que você pode ver porque aqui obteve

10:36.590 --> 10:40.900
a recompensa e aqui tem um fator de desconto multiplicado pelo valor do próximo Estado.

10:41.060 --> 10:46.670
E é só ter sentido que é assim que construímos essa equação, então faz sentido que, a partir

10:46.670 --> 10:50.350
daqui, o valor máximo desse valor seja se mudarmos para a direita.

10:50.360 --> 10:56.120
Então é assim que calculamos os valores que esse valor desse estado ele chama de máximo ou

10:56.300 --> 10:57.470
igual a esse valor.

10:57.500 --> 11:01.000
Se nos mudarmos para a direita se tomarmos uma ação de mudar para a direita.

11:01.010 --> 11:02.330
Então, qual será esse valor.

11:02.360 --> 11:04.850
Bem, a recompensa de mover para a direita é igual a 1.

11:05.090 --> 11:10.490
E, independentemente da gama de cores, não temos um valor no estado porque já estamos

11:10.490 --> 11:11.720
no melhor estado possível.

11:11.720 --> 11:12.880
Então, esta é a fase final.

11:12.890 --> 11:16.280
Não terá um valor, só obteremos uma recompensa aqui e esse é o fim do jogo.

11:16.280 --> 11:20.300
Portanto, o valor será desse máximo será igual a 1.

11:20.510 --> 11:23.870
E é por isso que o valor do estado é igual a 1.

11:23.870 --> 11:27.970
Agora, as coisas ficam interessantes quando nos movemos para a esquerda quando nos movemos para trás um pouco.

11:28.010 --> 11:34.060
Então, agora é calcular o valor deste de estar neste estado e para isso vamos precisar de Gabaa.

11:34.070 --> 11:39.920
Então, digamos que nosso fator de desconto é um ponto zero nove e faz sentido o que um fator de desconto é uma

11:39.920 --> 11:40.960
vez que calculamos isso.

11:40.960 --> 11:47.410
Então, daqui apenas com base em nossa intuição e baseados porque sabemos como isso está funcionando como isso funciona.

11:47.450 --> 11:51.340
Sabemos que a melhor ação possível é ir para a direita porque daqui vamos aqui.

11:51.530 --> 11:56.120
Então, isso significa que o máximo será alcançado neste estado, você vai para a direita.

11:56.270 --> 11:58.970
E então, vamos ver o que acontece se o conectarmos aqui.

11:58.970 --> 12:02.650
Então, se você passar daqui até aqui, você não ganhará sua recompensa será zero.

12:02.720 --> 12:07.440
Mas então você receberá camis que receberá zero ponto nove vezes o valor do novo estado que é um.

12:07.640 --> 12:14.030
Então, neste caso, o valor todo o resultado disso é 1 vezes a 0. 9 vezes um é igual a 2. 9.

12:14.030 --> 12:15.890
Então, são todos os valores por.

12:16.250 --> 12:18.570
Então, se calcularmos isso agora, você verá isso daqui.

12:18.620 --> 12:23.990
Sabemos apenas observando o labirinto que conhecemos, porque nós, como seres humanos, estamos entendendo como

12:23.990 --> 12:28.450
esta equação funciona, é claro, um agente da IA ​​precisaria experimentar essas coisas.

12:28.460 --> 12:32.180
Mas, como temos uma bola de cristal, podemos ver este labirinto inteiro.

12:32.180 --> 12:33.860
Nós temos como a visão do olho de pássaro agora.

12:33.860 --> 12:36.170
Sabemos que a melhor ação vai para a direita.

12:36.320 --> 12:42.230
Então, se conetarmos tudo aqui, será zero sem recompensa. Mais o relatório nove vezes o

12:42.230 --> 12:45.530
valor no estado 0. 9 é zero oitenta e um e assim por diante.

12:45.530 --> 12:50.420
Então, aqui será 0. 23 e ele será 0. 66.

12:50.420 --> 12:57.590
Então, você pode ver que a maneira como o fator com desconto funciona é descontar o valor do estado à medida que você

12:57.590 --> 12:58.610
está mais longe.

12:58.610 --> 13:05.810
Então, se você está familiarizado com a teoria das finanças, então é algo semelhante ao valor do tempo do dinheiro, como o que você pensaria

13:05.810 --> 13:12.990
sobre isso dessa maneira, o que você prefere ter US $ 5 hoje ou US $ 5 em 10 dias a partir de agora.

13:13.050 --> 13:17.840
Apenas se alguém fosse para lhe dar uma escolha eu lhe darei cinco dólares hoje todos vocês $ 5 10 dias

13:17.840 --> 13:18.280
de todos.

13:18.390 --> 13:20.300
Claro que você escolheria US $ 5 hoje.

13:20.300 --> 13:20.850
Por que é que.

13:20.870 --> 13:26.750
Bem, porque você pode aceitar US $ 5 e você pode investir a uma certa taxa de juros, que é muito semelhante

13:26.750 --> 13:27.470
à da gama.

13:27.680 --> 13:33.950
E seus $ 5 em 10 dias realmente crescerão em talvez 5 dólares e 73 centavos ou algo assim.

13:34.070 --> 13:36.410
E é assim que o valor do tempo do dinheiro funciona.

13:36.410 --> 13:38.310
E conceito muito similar aqui.

13:38.330 --> 13:43.250
E o importante para entender aqui, isso é apenas uma teoria que é uma aprendizagem de reforço.

13:43.260 --> 13:45.850
Então Richard Belman veio com esta equação.

13:46.190 --> 13:48.880
E a partir daí, é assim que a usamos.

13:48.880 --> 13:51.430
Então, você poderia seguir em frente e encontrar uma equação diferente.

13:51.430 --> 13:54.820
Não precisa ter Gamla, talvez tenha algum outro fator, talvez você não conheça um fator.

13:54.950 --> 14:01.550
Mas esta abordagem funciona e é por isso que estamos usando e isso é o que parece, então, quanto

14:01.550 --> 14:06.670
mais longe você tem menos valor no estado e em termos de tempo e dinheiro.

14:06.680 --> 14:09.850
Se eu pudesse dizer-lhe onde você preferiria ser, você preferiria estar aqui.

14:09.950 --> 14:11.200
Você preferiria estar aqui.

14:11.350 --> 14:12.920
Você diria que eu preferiria estar aqui.

14:12.920 --> 14:18.770
Então, estamos criando esse mesmo fenômeno como o valor do tempo do dinheiro que estamos criando artificialmente através da

14:18.770 --> 14:24.680
gama, de modo que, para incentivar os agentes ou inspirar os agentes a estarem mais próximos da linha de chegada.

14:24.680 --> 14:29.720
você preferiria estar aqui ou aqui por causa da maneira como essa equação funciona, ele escolheria estar aqui.

14:29.930 --> 14:31.590
Então, se um agente fosse solicitado,

14:31.640 --> 14:33.380
Não há nada mais para isso, nada menos.

14:33.380 --> 14:35.810
Não é algo que o mundo funciona dessa maneira.

14:35.810 --> 14:42.630
Não, é apenas algo que estamos criando artificialmente para que nossos agentes compreendam que isso é bom, isso é bom,

14:42.750 --> 14:48.140
isso é bom, antigo, mas esse é melhor do que este e este é melhor que

14:48.140 --> 14:50.030
este e este esteve neste.

14:50.120 --> 14:54.790
E assim você pode ver todo o agente pode ver em que direção precisa ir.

14:54.800 --> 15:00.270
se você estiver aqui, eu vou para baixo ou se estou de repente aqui para subir ou eu vou para baixo.

15:00.270 --> 15:05.130
Então, pode ver que, se eu estiver aqui, lembre-se desse problema que tínhamos ou estava ele aqui, então,

15:05.250 --> 15:10.080
Bem, agora não há mais problema porque ele pode ver que é realmente melhor subir porque

15:10.080 --> 15:11.480
os valores estão aqui.

15:11.550 --> 15:14.490
E, a partir daqui, ele tem que ir direito porque o valor é maior aqui do que aqui.

15:14.550 --> 15:17.480
E, a partir daqui, Bertschi está certo porque o valor aqui é maior do que você sabe.

15:17.670 --> 15:22.620
E daqui ele já sabe que ele precisa ir bem, porque ele receberá uma recompensa aqui de um.

15:22.680 --> 15:24.960
Então é assim que funciona toda essa abordagem.

15:24.960 --> 15:27.600
Agora vamos dar uma rápida olhada no resto do quadrado.

15:27.600 --> 15:29.800
Então, como calculamos o valor neste quadrado?

15:30.030 --> 15:32.450
Bem, aqui é onde as coisas ficam complicadas.

15:32.460 --> 15:38.400
Então, daqui, você pode não ir para a esquerda, você pode realmente ir para a direita, então podemos continuar

15:38.400 --> 15:41.360
assim porque pode ser mais curto para seguir assim.

15:41.520 --> 15:44.720
Então, o que vamos fazer é que vamos calcular primeiro o valor no quadrado.

15:45.000 --> 15:48.200
E porque, obviamente, a partir daqui, as melhores maneiras de ir é para cima.

15:48.240 --> 15:52.740
a tripulação que temos a bola de cristal, podemos ver as coisas e você verá mais abaixo na

15:52.740 --> 15:57.060
seção, você verá como o agente realmente explora isso entende isso em seus gostos através da experimentação.

15:57.060 --> 15:58.030
Novamente, é porque vemos

15:58.080 --> 16:02.580
Mas para nós, sabemos que é melhor seguir assim, então vamos calcular o valor aqui

16:02.580 --> 16:06.410
e é por isso que vamos calcular primeiro o valor neste quadrado.

16:06.420 --> 16:09.230
Então, aqui temos três possíveis ações.

16:09.270 --> 16:11.590
Na realidade, na verdade, temos quatro, também podemos ir para a esquerda.

16:11.610 --> 16:15.330
O agente poderia hipoteticamente pressionar para a esquerda e colidir com a parede e ficar aqui.

16:15.420 --> 16:21.030
conjunto de simplicidade que vai mostrar as ações que sabemos o que sabemos e ter a bola de

16:21.030 --> 16:25.920
cristal, sabemos quais ações são as que realmente levam a algo diferente do mesmo estado novamente.

16:25.920 --> 16:26.780
Mas por um

16:26.850 --> 16:32.010
E assim, aqui, daqui, sabemos que novamente, só porque temos uma bola de cristal, sabemos que o melhor caminho a

16:32.010 --> 16:36.840
seguir é assim, um agente, é claro, teria que experimentar e encontrar a melhor maneira e você verá como

16:36.840 --> 16:37.500
isso acontece.

16:37.560 --> 16:42.270
Mais abaixo, na seção, você verá como um agente anda ao redor e como você experimentaria

16:42.360 --> 16:43.610
tentando encontrar esses valores.

16:43.620 --> 16:45.190
Mas para nós, sabemos que é assim.

16:45.360 --> 16:50.420
Então, aqui, se contermos tudo em um, então o máximo é a melhor saída quando você subir.

16:50.510 --> 16:53.820
E aqui está um relatório 9: 0 Então você colocou isso.

16:53.820 --> 16:55.870
Você recebe zero ponto nove.

16:56.220 --> 16:58.730
Ok, então Kalika é aquele que calcula este.

16:58.770 --> 16:59.810
A mesma abordagem.

16:59.820 --> 17:02.070
Isto é, você tem três maneiras de ir.

17:02.070 --> 17:05.580
Na verdade, quatro para o agente, mas para nós, podemos ver que são apenas três.

17:05.880 --> 17:10.780
Então, zero ponto oitenta e um daqui você tem ZERO ponto setenta e três.

17:11.130 --> 17:16.410
com esse valor porque em você se você desconto novamente, você coloca 66 e aqui você tem 0.

17:16.890 --> 17:20.120
E realmente liga muito bem 23 porque esta é a rota ideal.

17:20.130 --> 17:21.190
Então, você vai.

17:21.210 --> 17:23.750
Esse é o valor de todos esses estados.

17:23.760 --> 17:29.700
E agora você pode ver isso porque criamos essa equação ou criamos sinteticamente todo este

17:29.730 --> 17:37.890
conceito de quanto mais perto você está na linha de chegada, mais valioso esse estado não é porque tememos que agora

17:37.890 --> 17:41.840
seja bastante óbvio para a agente do jeito que deveria ir.

17:41.970 --> 17:44.230
E vamos falar mais sobre isso na próxima.

17:44.910 --> 17:52.290
pouco que pode soar um pouco muito básico nesta fase, mas ao passar por esta seção, adicionaremos um pouco mais de complexidade a ela.

17:52.320 --> 17:56.590
Espero que você tenha gostado da sessão de hoje e sei que é um

17:56.700 --> 18:01.500
Ao mesmo tempo, se você não pode esperar se você quer pular nela, então há um papel que

18:01.500 --> 18:04.290
você pode ver e é o documento original de Richard Belman.

18:04.290 --> 18:08.130
É chamada de teoria da programação dinâmica a partir de 1954.

18:08.370 --> 18:10.200
E você pode encontrá-lo neste link.

18:10.320 --> 18:16.490
E lá você vai para que você possa pular diretamente nela e ler do autor da equação de Belman.

18:16.620 --> 18:20.860
Mas basta ter em mente que este é um assunto bastante matematicamente pesado.

18:20.970 --> 18:22.820
E nessa nota vou procurar o seu próximo.

18:22.850 --> 18:24.590
E até então, desfrute da AI.
