WEBVTT

00:01.090 --> 00:04.270
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.290 --> 00:07.260
Hoje estamos falando sobre a pena de viver.

00:07.600 --> 00:13.540
Tudo bem, então aqui temos toda a equação de Belman e, como passamos

00:13.540 --> 00:20.030
por esse curso, ficamos cada vez mais complexos, até agora já adicionamos essas probabilidades aqui.

00:20.200 --> 00:22.930
E também adicionamos o fator de desconto.

00:22.930 --> 00:28.440
Agora, vamos analisar com mais detalhes neste lado da questão, onde temos a recompensa agora.

00:28.480 --> 00:34.660
que temos um agente e executa ações no meio ambiente e em uma troca ou como resultado

00:34.660 --> 00:41.290
de que ele recebe um novo estado e que está agora e uma recompensa por essa ação.

00:41.320 --> 00:45.600
Lembre-se anteriormente quando falamos sobre como o aprendizado de reforço funciona, dissemos

00:45.610 --> 00:52.210
Bem, até agora, em nosso exemplo, nós apenas recebemos recompensas no final, se chegarmos à linha de

00:52.210 --> 00:58.640
chegada ou se nós, para o agente, acabar na fogueira, ele recebe uma recompensa mais ou menos.

00:58.960 --> 01:05.770
Mas essa é uma abordagem muito simplista para o aprendizado de reforço e, em cenários mais realistas, você provavelmente terá

01:05.800 --> 01:11.050
recompensas ao longo da jornada, não apenas no final, você pode ter recompensas ao longo da

01:11.050 --> 01:11.380
jornada.

01:11.380 --> 01:20.680
Por exemplo, se é um AI jogar um jogo e se, por exemplo, é como disparar a alguém em desgraça, pode

01:20.680 --> 01:26.320
obter pontos para matar esse inimigo ou pode ser um outro jogo diferente.

01:26.470 --> 01:32.260
Se ultrapassar outro carro ou algo assim, apenas por causa das regras do jogo, não por

01:32.260 --> 01:39.400
sua maneira de analisar o jogo, mas, na verdade, o jogo está estruturado de forma a reforçar os pontos de

01:39.400 --> 01:43.230
ação para realizar certas ações mesmo antes do jogo. sobre.

01:43.540 --> 01:49.570
Então Sinatras gosta disso são muito comuns e não apenas em jogos e também na vida real e é

01:49.570 --> 01:55.120
por isso que vamos apresentar algo semelhante ao nosso exemplo, uma versão simplificada disso, mas, no entanto,

01:55.330 --> 02:01.180
uma recompensa que é continuamente dada ao agente ao longo do jogo não apenas no final e a

02:01.180 --> 02:04.450
maneira como vamos fazer isso é olhando para os outros azulejos.

02:04.450 --> 02:10.060
uma recompensa mais uma no azulejo final e recompensa menos 1 na outra telha final da fogueira.

02:10.060 --> 02:11.530
Então, agora, nós só temos

02:11.800 --> 02:14.310
Mas agora vamos adicionar recompensas em cada momento.

02:14.430 --> 02:17.770
Vamos adicionar uma recompensa muito pequena será menos 0. 04.

02:17.770 --> 02:23.440
E, como você pode ver, é negativo, então, cada vez que o agente se move, ele receberá uma recompensa negativa e é isso

02:23.440 --> 02:28.300
que se chama pena de vida, porque não importa onde ele vá, ele sempre obterá essa recompensa negativa, exceto por

02:28.450 --> 02:31.000
esses azulejos finais, porque esse é o fim de o jogo.

02:31.300 --> 02:35.120
E assim você pode ver a recompensa, mesmo neste azulejo é loucura ou um quebra-cabeça.

02:35.170 --> 02:37.960
Mas isso não significa que ele comece com essa recompensa.

02:37.960 --> 02:39.470
Ele só recebe essa recompensa.

02:39.760 --> 02:44.860
E isso é importante lembrar que ele só recebe sua recompensa quando ele entra em uma telha, então, sempre que ele

02:44.860 --> 02:51.110
prometeu uma ação que ele vai aqui, ele receberá esta recompensa menos 0. 04 e depois ele volta a esse estilo, ele terá

02:51.130 --> 02:53.650
outra mente e 0. 04 palavra.

02:53.770 --> 03:00.370
E assim, quanto mais ele se aproxima, mais ele acumula sua recompensa negativa e, portanto, é um incentivo para

03:00.370 --> 03:03.870
ele terminar o jogo mais cedo o mais rápido possível.

03:03.890 --> 03:10.390
E então, vamos dar uma olhada em como nossa política ou como a política de agentes vai mudar

03:10.420 --> 03:14.150
de acordo com o valor que definimos para essa recompensa.

03:14.410 --> 03:18.730
Então, aqui estão quatro ambientes e em cada um, vamos explorar um diferente.

03:18.770 --> 03:21.070
Não vamos fazer os cálculos.

03:21.130 --> 03:25.690
Nós apenas vamos projetar os resultados e você verá que intuitivamente eles fazem todo o sentido.

03:25.690 --> 03:31.820
Então, aqui temos uma recompensa por qualquer passo oferecendo qualquer para entrar em qualquer estado.

03:32.050 --> 03:32.830
É igual a zero.

03:32.830 --> 03:36.890
Assim como o que vimos antes, a recompensa será o 0 de Mei. 0.

03:36.910 --> 03:43.150
Para o que acabamos de fazer agora, você sabe que a recompensa será em menos 0. 5 ou o nível de penalização será o meu é

03:43.150 --> 03:47.690
fogo aberto muito mais alto você pode vê-los aqui mais de 10 vezes maior.

03:47.800 --> 03:50.170
E aqui estão os Penhall vivos, serão menos dois.

03:50.170 --> 03:59.050
Então, ainda mais do que as recompensas que você obtém por saltar ou mesmo menos do que a recompensa que você é o agente,

03:59.050 --> 04:00.700
fica por acabar na fogueira.

04:00.700 --> 04:07.660
Então, vamos dar uma olhada em como as ações ou a política ótima para passar este ambiente vão mudar de

04:07.660 --> 04:09.160
acordo com essa recompensa.

04:09.170 --> 04:11.560
Então, esta é a nossa política original.

04:11.920 --> 04:18.280
E, como você pode se lembrar, tivemos estes dois muito interessantes e até um pouco estranho uma

04:18.280 --> 04:23.950
decisão do agente, mas que realmente faz sentido se ele puder viver o tempo que quiser.

04:23.950 --> 04:29.530
Se você puder viajar por todo o tempo que quiser sem ser penalizado por permanecer vivo

04:29.530 --> 04:30.430
por muito tempo.

04:30.670 --> 04:37.630
Ele por que não, por que ele não entraria no canto aqui na parede e continuaria fazendo isso

04:37.870 --> 04:38.470
até acontecer.

04:38.470 --> 04:41.300
Acontece que ele vai por aqui e depois anda por aí.

04:41.500 --> 04:46.120
E o mesmo aqui é muito mais seguro para ele pular na parede, esperando que um desses

04:46.120 --> 04:51.970
venha eventualmente e então ele vai até a linha de chegada, porque, ao escolher essas duas ações, ele não corre o risco

04:51.970 --> 04:53.680
de entrar no poço do fogo .

04:53.690 --> 04:59.950
Agora vamos ver o que acontece se adicionarmos uma recompensa recompensa negativa por apenas ser uma vida para fazer um passo.

05:00.270 --> 05:04.960
Mova-se aqui, você pode ver que, instantaneamente, esses dois mudaram.

05:04.970 --> 05:07.940
Agora, o agente não quer pular na parede.

05:07.940 --> 05:13.490
Ele é mais provável que arrisque chegar ao firepit com uma chance de 10 por cento de saltar aqui, mas

05:13.490 --> 05:19.400
ele irá em frente, porque cada vez que ele vem para assistir aqui se ele fosse fazer isso aqui também toda

05:19.850 --> 05:24.620
vez que ele pula bem ele executa uma ação que ele termina nesse estado com 80% de

05:24.620 --> 05:24.990
chance.

05:25.010 --> 05:31.180
E isso significa uma chance de 80% de obter um menos 0. vai conseguir isso acumulando essa recompensa negativa.

05:31.190 --> 05:34.940
04 recompensa significando que o tempo todo ele

05:34.940 --> 05:41.600
Mesmo assim, se ele pular na parede esperando por esse momento em que ele será realmente movido aleatoriamente

05:41.600 --> 05:42.780
para a direita.

05:42.980 --> 05:49.340
Se ele continuar fazendo isso, ele irá acumular essa recompensa negativa e que o resultado disso,

05:49.340 --> 05:55.670
se você executar os cálculos, você verá que o resultado desse valor esperado dessa abordagem pulando

05:55.670 --> 06:02.840
para a parede é pior do que correr o risco de avançar e na verdade terminando na fogueira.

06:02.840 --> 06:10.230
disso, avançar e aqui se mudar para a esquerda, mesmo sabendo que existe o risco do fogo do foguete, simplesmente porque agora quanto

06:10.230 --> 06:15.320
mais tempo ele estiver vivo, mais tempo ele irá acumular essa penalidade viva no próximo ambiente.

06:15.320 --> 06:18.830
Então, ele muda suas decisões nesses dois quarteirões para, em vez

06:18.830 --> 06:23.720
Agora estamos aumentando o Pouncey vivo até um número maior de Meinzer, ponto cinco, e vamos ver o

06:23.720 --> 06:24.590
que muda aqui.

06:24.860 --> 06:27.220
Então, agora você pode ver isso em comparação com esse ambiente.

06:27.260 --> 06:31.740
A única coisa que mudou aqui é que esta seta está apontando para a direita.

06:32.060 --> 06:38.360
E o que isso significa é que agora não é mais uma boa opção para o agente ou, na verdade, também as

06:38.360 --> 06:42.340
setas apontando apontaram para a esquerda e o nariz dos bicos apontando para cima.

06:42.350 --> 06:48.740
longo do caminho, porque se ele sair mal, sim, ele está seguro ou há uma chance menor de que não haja chance de conseguir a fogueira.

06:49.100 --> 06:53.330
Então, agora não é mais uma boa idéia para o agente dar uma volta por aqui ou dar

06:53.340 --> 06:54.030
uma volta ao

06:54.320 --> 06:57.640
Mas, ao mesmo tempo ou há menos chance, vão acontecer.

06:57.710 --> 07:03.140
Mas, ao mesmo tempo, ele irá acumular uma recompensa substancial negativa quando ele anda por aí.

07:03.140 --> 07:05.540
Então é só que o caminho é longo demais.

07:05.540 --> 07:12.350
Então, isso o obriga se ele está aqui ou aqui para pegar o caminho mais curto para chegar aqui, embora ele tenha um

07:12.350 --> 07:17.330
risco muito maior de entrar no foguete, porque assim que ele termina na praça, há 10% de

07:17.330 --> 07:19.350
chance de chegar ao fogo .

07:20.120 --> 07:21.760
De acordo com seus cálculos.

07:21.800 --> 07:27.980
É apenas o valor esperado desta abordagem é melhor do que o valor esperado de acontecer

07:27.980 --> 07:30.480
simplesmente porque aumentamos essa penalidade viva.

07:30.710 --> 07:37.130
E, finalmente, estamos chegando ao exemplo com a penalidade viva de menos dois pontos zero.

07:37.130 --> 07:43.010
Então, eu encorajo você a publicar o vídeo agora que você viu como a política mudou à medida que

07:43.010 --> 07:44.430
aumentamos a penalidade de cobrança.

07:44.450 --> 07:49.850
Eu encorajo você a pausar o vídeo e pensar por si mesmo o que acontecerá neste cenário.

07:49.850 --> 07:57.070
que a política ótima será dada que a pena de vida é tão alta, então, todo esse vídeo suposto se você quiser.

07:57.090 --> 07:58.280
O que você acha

07:58.490 --> 08:04.880
E agora vou pular para lhe mostrar a solução, então neste caso se você

08:04.880 --> 08:13.460
aumentar a penalidade para menos 2. 0 é tão alto, lembre-se de que a penalidade aqui é apenas menos 1. 0 é tão alto que o agente só quer

08:13.680 --> 08:18.540
sair do jogo de qualquer maneira possível, mesmo que seja apenas saltando para a fogueira.

08:18.560 --> 08:19.200
Ele vai fazer isso.

08:19.220 --> 08:25.460
Ele será como toda vez que eu dar um passo a cada vez que acabei em um novo no seu estado

08:25.460 --> 08:30.020
ou toda vez que eu faça uma ação eu acabei recebendo uma recompensa de menos dois.

08:30.020 --> 08:36.280
Então, qual é o objetivo de tentar chegar à linha de chegada, se daqui me levantarão duas etapas extras?

08:36.350 --> 08:41.060
Eu só vou para aqui e depois direto para o foguete, porque

08:41.060 --> 08:49.190
dessa forma minha recompensa será menor do que a recompensa negativa será tão ruim quanto no caso de apenas fazer passos

08:49.190 --> 08:56.770
adicionais para que você possa ver que adicionando essa vida recompensar e, dependendo do valor da recompensa viva que

08:56.780 --> 08:59.270
estamos adicionando os resultados, serão diferentes.

08:59.270 --> 09:06.290
E o agente vai selecionar diferentes políticas e, basicamente, é como o valor da recompensa pode ser incorporado pela equação de

09:06.440 --> 09:12.020
Belmont, mesmo quando não está apenas na linha de chegada ou no final do jogo, mas

09:12.020 --> 09:13.790
mesmo ao longo do jogo.

09:13.790 --> 09:19.250
vez mais, não precisa estar em cada um em cada estado, dependendo do próprio ambiente.

09:19.250 --> 09:20.180
E novamente, uma

09:20.180 --> 09:26.540
Pode ser dado ao agente em certos estados específicos não em todos os estados, mas em nosso exemplo

09:26.540 --> 09:29.880
simplista, estamos apenas usando recompensas em cada estado dado.

09:30.050 --> 09:34.470
Para ilustrar este conceito, espero que tenha gostado do tutorial de hoje.

09:34.580 --> 09:40.550
E, como você pode ver, já fizemos nossa equação de Belman bastante sofisticada e agora pode ser aplicada em

09:40.550 --> 09:44.340
muitos cenários diferentes e não posso esperar para ver no próximo tutorial.

09:44.360 --> 09:46.200
E até então, desfrute de um I.