WEBVTT

00:00.980 --> 00:04.960
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:05.000 --> 00:12.140
Anteriormente, tínhamos um tutorial bastante extenuante e longo nos processos de decisão do Margrove e, esperançosamente, você se

00:12.200 --> 00:13.710
deu bem com isso.

00:13.760 --> 00:19.010
E espero poder explicar as coisas de forma acessível e atraente.

00:19.130 --> 00:22.750
E hoje vamos falar sobre políticas versus planos.

00:22.760 --> 00:27.910
estamos entrando em um novo mundo em que estamos entrando em um mundo de pesquisas de pesquisa não determinística

00:27.910 --> 00:34.310
de pesquisa estocástica quando você não está apenas passando pelo labirinto, mas também é responsável por fatores aleatórios que podem ser atingidos você

00:34.310 --> 00:38.990
na cabeça quando você está passando por este labirinto e você precisa estar preparado para isso.

00:38.990 --> 00:41.080
Haverá um tutorial rápido e divertido porque agora

00:41.080 --> 00:42.070
Esse é o mundo.

00:42.080 --> 00:48.640
Nosso agente está vivendo e é mais divertido, mas também é mais perigoso, é mais menos previsível.

00:48.650 --> 00:50.880
Então, como nosso agente vai se comportar.

00:50.960 --> 00:52.280
Vamos dar uma olhada.

00:52.280 --> 00:58.190
Há nossa marca de estrutura de processo de decisão que é mais uma vez nossa equação de Belman favorita.

00:58.250 --> 01:02.010
No entanto, a versão mais avançada da equação de Belman com a qual estamos trabalhando.

01:02.010 --> 01:04.760
Então, de agora em diante, vamos chamar isso de equação de Beldon.

01:04.760 --> 01:10.970
E aqui temos a nossa ação máxima e Crucell para que o valor de um estado seja um estado como o máximo em

01:10.970 --> 01:14.020
todas as ações que um agente possivelmente possa executar nesse estado.

01:14.120 --> 01:21.230
E a máxima foi tirada da recompensa que o agente obterá ao executar a ação A instaurar como Plus

01:21.230 --> 01:26.590
um fator de desconto multiplicado pelo valor esperado do novo estado em que estará.

01:26.830 --> 01:31.850
E eu esperaria que aqueles que estão aqui, porque eles não sabem exatamente o que acabam.

01:31.880 --> 01:40.390
São alguns efeitos aleatórios presentes no ambiente que podem alterar o estado e não podem não

01:40.800 --> 01:42.630
acabar no estado desejado.

01:42.640 --> 01:44.200
Pode acabar em um estado diferente.

01:44.210 --> 01:47.760
É por isso que estamos levando o valor esperado por aqui aqui.

01:47.990 --> 01:53.750
Então, vamos dar uma olhada nisso como nosso exemplo nosso ou em nosso exemplo do labirinto.

01:53.750 --> 02:00.220
Então, isso é o que tínhamos anteriormente, então anteriormente estamos lidando com pesquisas determinísticas ao vivo.

02:00.230 --> 02:01.960
Então nós sabíamos disso.

02:01.970 --> 02:05.550
Tudo bem, então, se eu estiver aqui, eu definitivamente preciso ir aqui se eu estiver aqui.

02:05.570 --> 02:09.030
Eu definitivamente preciso ir aqui se eu estiver aqui, eu definitivamente preciso ir aqui se eu estiver aqui, eu estou aqui.

02:09.140 --> 02:11.360
Então, foi tudo bastante direto.

02:11.480 --> 02:14.680
Uma vez que você tenha este mapa e lembre-se, chamamos isso de plano.

02:14.690 --> 02:18.050
Uma vez que você tem o plano, é bastante fácil de fazer.

02:18.050 --> 02:18.990
Tem.

02:18.990 --> 02:20.490
Então esse é o plano com setas.

02:20.580 --> 02:25.000
E daqui foi muito direto, nós somos estas são as rotas que eles tomarão sempre que você

02:25.010 --> 02:26.210
começar nesta linha azul.

02:26.210 --> 02:28.210
Isso é exatamente assim que você iria.

02:28.680 --> 02:31.120
No entanto, agora não temos mais um plano.

02:31.120 --> 02:38.060
que quer que planeje, pode não acontecer, não está sob controle ou o plano é quando você sabe exatamente o que precisa fazer em seguida.

02:38.060 --> 02:40.940
Nós não podemos ter um plano, porque você sabe o

02:40.940 --> 02:41.820
Você sabe os passos.

02:41.840 --> 02:46.640
Então você tem um ponto de partida que você tem um objetivo e você conhece cada passo para que você possa

02:46.640 --> 02:50.500
planejá-los. Você fará isso. Eu farei isso. Eu farei isso como na vida como um plano .

02:50.630 --> 02:54.870
Mas, ao mesmo tempo, há muito agora aleatoriedade.

02:54.890 --> 03:00.080
Você pode ter um plano, porque, se você chegar aqui e depois clicar na direita e, na verdade,

03:00.080 --> 03:00.560
você derruba.

03:00.680 --> 03:02.100
Então isso não faz parte do seu plano.

03:02.390 --> 03:04.120
Então é por isso que se chama o planejamento mais.

03:04.220 --> 03:09.080
E aqui vamos calcular os valores, na verdade, vamos apenas ver os

03:09.410 --> 03:11.990
valores calculados para este mesmo problema.

03:12.080 --> 03:16.700
Mas com base nisso dado que temos essa aleatoriedade dentro.

03:16.700 --> 03:18.380
Então estes são os novos valores.

03:18.800 --> 03:22.840
E então, por que esses valores são diferentes, então vamos comparar o que tínhamos anteriormente.

03:22.850 --> 03:24.710
É o que tínhamos anteriormente.

03:24.710 --> 03:25.650
Estes são então você.

03:25.660 --> 03:29.750
Então, mais uma vez, tivemos anteriormente porque ele ganhou 3. 9 por cento.

03:29.770 --> 03:31.590
Ele realmente era 366.

03:31.790 --> 03:36.750
E isso é o que temos agora um a menos de uma vez em vigor e 1 6 3.

03:36.800 --> 03:43.850
E, a propósito, estes não são exatamente os ritos atuais no topo da minha cabeça, mas se nós estivéssemos a

03:43.850 --> 03:49.220
executar um agente, alguns valores seriam algo semelhante a isso e os valores poderiam mudar

03:49.220 --> 03:54.650
porque, dependendo da aposta que ele escolheria 3. 9 ou outro valor, mas, no entanto, por causa

03:54.650 --> 04:00.560
do argumento, estes são os valores que estamos lidando agora e são aproximados eles transmitem a noção inteira da maneira correta,

04:00.560 --> 04:02.270
então vamos dar uma olhada neles.

04:02.270 --> 04:03.240
Por que eles mudaram.

04:03.410 --> 04:07.480
Bem, por que aqui esta aqui o valor era um.

04:07.490 --> 04:10.520
Por que é de repente 0. 26 Por que é menos do que um.

04:10.560 --> 04:11.730
Apenas vá daqui aqui.

04:11.930 --> 04:18.620
Bem, nós realmente chamamos porque daqui se nós formos a direita qual é a nossa intenção, se nós formos a direita, nós poderíamos

04:18.640 --> 04:22.340
realmente ter uma chance de 10 por cento de que acabássemos aqui.

04:22.340 --> 04:25.130
Então, atingimos a parede e estaria de volta a este estado.

04:25.130 --> 04:30.740
um Gamla Então, o valor seria descontado e ou estamos fora ou desligado às 10 e a chance acabaria aqui neste estado.

04:30.740 --> 04:32.150
E lembre-se de que temos

04:32.150 --> 04:37.670
Portanto, não é uma probabilidade de 100 por cento que eu chegaria aqui, então, portanto, a desvalorização não pode mais ser

04:37.670 --> 04:41.310
uma, é algo menos e é 0. 26.

04:41.570 --> 04:43.770
Então, esse é um exemplo de por que é assim.

04:43.770 --> 04:49.130
E você poderia obter o valor exato se você calculou a equação de Belman como a cheia, mas a minha pergunta

04:49.130 --> 04:49.850
que temos agora.

04:49.850 --> 04:53.540
porque você precisaria saber o valor para isso e então você precisa saber o valor para

04:53.540 --> 04:57.440
isso que é bastante complexo e é por isso que não estamos fazendo os cálculos manualmente aqui.

04:57.440 --> 04:59.180
O único problema é que haverá alguma recursão

04:59.240 --> 05:06.000
É por isso que eu posso fazê-los enquanto está passando por tudo isso. É como se fosse como nada muito complexo

05:06.000 --> 05:06.510
para um.

05:06.540 --> 05:08.520
Você não pode jogar essas coisas.

05:08.520 --> 05:10.090
Então esse é o nosso valor aqui.

05:10.110 --> 05:11.520
Mas disso é diferente.

05:11.520 --> 05:16.830
Então, aqui, apenas seja 0. de desconto, lembre-se de aqui para aqui novamente agora, a

05:16.830 --> 05:23.070
partir daqui, as faculdades saltam daqui até aqui, simplesmente porque, mesmo que nós saltem, se assim for, podemos acabar de volta aqui de volta.

05:23.070 --> 05:24.680
9 apenas por causa do fator

05:24.700 --> 05:28.440
Certamente esta possibilidade de 20 por cento que ainda vai ficar na praça, porque vamos chegar a uma parede.

05:28.710 --> 05:29.730
E novamente e assim por diante.

05:29.730 --> 05:32.700
Portanto, o valor de estar aqui é zero ponto setenta e um.

05:32.850 --> 05:35.370
Mais uma vez este e o fator de desconto.

05:35.370 --> 05:39.970
Você sabe que isso pode parecer estranho para você que isso é mesmo com o desconto em fator, isso é muito alto.

05:40.050 --> 05:44.440
Talvez o fator de desconto neste exemplo não seja 0. 9 talvez seja sete pontos noventa e nove ou

05:44.500 --> 05:46.310
algo que não se preocupe com isso.

05:46.350 --> 05:48.480
Apenas um pouco de foco nisso.

05:48.480 --> 05:53.210
Os valores mudaram de fato que os valores são agora menores.

05:53.460 --> 05:58.700
Principalmente porque não é uma probabilidade de cem por cento chegar ao estado que deseja obter e

05:59.100 --> 06:00.180
ao que você encontrará.

06:00.210 --> 06:06.660
Um interessante é aqui que aqui apenas é 0. 9 realmente caiu muito caiu substancialmente.

06:06.660 --> 06:07.110
Por que é que.

06:07.110 --> 06:12.120
10 por cento de acertar uma parede, mas há 10 por cento de chances de realmente acabar

06:12.120 --> 06:18.700
na fogueira e perder menos uma para recompensar e, basicamente, isso significa para o agente que é esse fim do jogo.

06:18.700 --> 06:22.820
Bem, porque se você vier daqui, qual a nossa intenção, há uma chance de

06:23.160 --> 06:25.640
E este é um estado muito ruim para se encontrar.

06:25.680 --> 06:29.910
Então, de repente, lembre-se de que tivemos zero ponto nove anos de intervalo e então eles eram equivalentes.

06:29.910 --> 06:34.900
Não importa que você ouça aqui, eles são praticamente iguais em termos de valor de estar em cada um desses estados.

06:34.980 --> 06:43.440
Mas agora, de repente bam, esta data é quase duas vezes mais boa do que essa, simplesmente porque aqui, se você

06:43.590 --> 06:46.980
for direto, vá exatamente para onde quer ir.

06:47.050 --> 06:51.270
Você sabe que as consequências da ocorrência de aleatoriedade é que você fica aqui.

06:51.290 --> 06:55.070
Aqui, uma das conseqüências é uma chance de 10% de você acabar no poço.

06:55.110 --> 07:02.160
Então, como você pode ver, isso não é mais um bom estado, simplesmente por causa de algo que

07:02.160 --> 07:03.460
flutuação pode acontecer.

07:03.570 --> 07:09.150
Como você pode ver este também é muito ruim porque é tão ruim quanto este em termos de você sabe que é apenas

07:09.150 --> 07:12.660
10% de chance de terminar no poço e 10% de chance de acabar na parede.

07:12.660 --> 07:18.480
Mas, ao mesmo tempo, há um fator de desconto. Então, antes de tudo, o fator de desconto e também depois

07:18.480 --> 07:20.390
disso você teria que ir aqui.

07:20.700 --> 07:23.900
E mesmo se você fosse hipoteticamente aqui, você poderia acabar no poço novamente.

07:23.910 --> 07:28.710
lembre-se de que esses valores derivam desse valor e esse valor é derivado desse valor.

07:28.710 --> 07:31.760
Então, essa chance também seria levada em consideração porque

07:31.820 --> 07:32.350
Certo.

07:32.400 --> 07:37.560
E, portanto, é pequeno, mas, na realidade, o que eu disse era errado.

07:37.560 --> 07:39.640
Esse valor não é derivado do Fed.

07:39.810 --> 07:46.800
Então, se você apenas olha agora, você notará que esse valor aqui é realmente maior do que

07:46.800 --> 07:47.300
este.

07:47.610 --> 07:54.780
Você perceberá que, para o agente, é melhor seguir esse caminho do que isso e faz sentido.

07:54.780 --> 07:58.580
Porque dessa forma não o perde, não há chance de entrar no poço.

07:58.590 --> 08:03.450
Sim é um pouco mais e, portanto, o fator de desconto tem um efeito maior.

08:03.510 --> 08:07.470
Mas, ao mesmo tempo, simplesmente porque há uma chance de entrar no poço aqui se for

08:07.530 --> 08:09.140
direto, haverá uma chance de saltar.

08:09.160 --> 08:15.120
Então, vai demorar um sorteio para aproveitar seu tempo e simplesmente dar uma volta porque dessa maneira há uma chance muito menor

08:15.120 --> 08:16.530
de conseguir, mas ainda existe.

08:16.530 --> 08:19.590
Então, daqui aí, a partir daqui vai lá.

08:19.590 --> 08:23.590
Poderia entrar no poço porque poderia acabar lá e isso poderia acabar na conta.

08:23.730 --> 08:27.430
Mas, no entanto, é uma chance menor, então isso vai continuar assim.

08:27.430 --> 08:32.430
Então, muito interessante para ver como eles são todos mudanças, lembre-se de você, daqui você iria assim.

08:32.430 --> 08:34.790
Daqui você iria assim e daqui vamos assim.

08:35.010 --> 08:36.870
E agora, de repente, você pode ver sua mudança.

08:36.870 --> 08:41.000
Vamos rodar as setas e ver o que parece agora e voila.

08:41.010 --> 08:43.760
Você vê mesmo uma coisa mais aleatória certa.

08:43.770 --> 08:45.260
Então, sim, isso é verdade.

08:45.270 --> 08:46.500
Mas veja o que aconteceu aqui.

08:46.500 --> 08:47.610
Olhe para este.

08:47.690 --> 08:48.970
Olhe para este.

08:49.050 --> 08:50.490
Você estava esperando isso.

08:50.520 --> 08:54.570
Isso é algo que eu definitivamente gostei quando vi essa uma primeira vez que fiquei muito impressionado.

08:54.570 --> 08:59.800
Eu não estava super, não estava surpreso e não esperava isso.

08:59.970 --> 09:04.860
E este é um exemplo de você saber quando posso superar um ser humano.

09:05.120 --> 09:10.680
Parece algo que você pegou, mesmo que você poderia prever, mas o eu através da aplicação da lei, lembre-se que o

09:10.680 --> 09:14.400
exemplo dos cães pode às vezes funcionar melhor do que a vida real normal.

09:14.400 --> 09:21.330
pré-programados. Os cachorros do robô podem jogar futebol simplesmente porque eles apresentam essas idéias que nem podemos ver.

09:21.390 --> 09:22.350
Os cães são

09:22.440 --> 09:27.330
E, como um excelente exemplo, você provavelmente não estava esperando isso também que os asiáticos em

09:27.330 --> 09:29.690
vez de subir é como por que eu.

09:29.850 --> 09:33.120
Como se eu subisse, há uma chance de 10% de pular no poço.

09:33.120 --> 09:35.130
Mas o que ele consegue ao entrar na guerra.

09:35.280 --> 09:38.330
Bem, 80 por cento do tempo vai voltar e ficar no estado.

09:38.490 --> 09:42.360
Mas 10 por cento do tempo vai aqui e 10 por cento do tempo eu vou aqui.

09:42.360 --> 09:49.130
Então, de repente você pode ver que agora é realmente nesta nova abordagem de saltar para a parede.

09:49.170 --> 09:53.350
Existe uma chance de zero por cento que vai entrar no fogo, mas desse ponto, então.

09:53.370 --> 09:57.690
E é como se realmente não desejasse entrar no poço da fogueira tão bombeado na parede um

09:57.690 --> 10:03.050
par de vezes e então vai direto à direita ou à esquerda em algum momento porque essa aleatoriedade vai acontecer.

10:03.080 --> 10:09.680
E assim soube que através da experimentação ele aprendeu que OK quando eu vou para a frente os resultados não são tão bons quanto

10:09.680 --> 10:11.440
quando eu vou para o muro.

10:11.510 --> 10:13.540
E se você pensa sobre isso, é assim.

10:13.580 --> 10:18.350
Este robô, se você pensa sobre isso, é um firepit é muito, isso é como se um quadrado é como

10:18.350 --> 10:21.630
uma borda muito pequena e, então, isso é como uma montanha como um penhasco.

10:21.650 --> 10:27.830
E este robô está apenas abraçando o penhasco e apenas como tentar esperar até que ele pareça empurrar para a direita ou para

10:27.830 --> 10:32.640
a esquerda, pois, bem como um ser humano, você provavelmente fará o mesmo, você não estaria de pé

10:32.750 --> 10:34.970
de frente ou você estaria abraçando o penhasco direito.

10:35.000 --> 10:35.860
Ou algo assim.

10:35.940 --> 10:39.740
E espero que você saiba que precisamos acabar nunca acabar em situações como essa.

10:39.770 --> 10:43.670
Mas, visualmente visualmente, apenas se você pensar sobre algo aqui.

10:43.760 --> 10:46.450
E isso é bastante intenso.

10:46.460 --> 10:51.860
eu irei aqui e algo acontecerá e eu vou acabar aqui e eu vou estar seguro e então eu vou apenas continue assim.

10:51.860 --> 10:56.270
Para que a AI surgiu com essa idéia e a mesma coisa que está indo para a esquerda e

10:56.300 --> 11:01.430
Riskin entrar em uma briga, mas vou tentar bolas na parede, como você sabe abraçar uma parede tentar pular na parede e

11:01.430 --> 11:04.910
em Um ponto que eu sei que você sabe, só que existe uma probabilidade de

11:04.910 --> 11:06.680
chance de 10% cada vez que eu faço,

11:06.830 --> 11:13.240
Então, uma abordagem muito interessante que eles levaram aqui e você pode ver as rotas são assim, então, daqui, ele pode ir para

11:13.250 --> 11:17.500
a direita e depois vai para a saída ou aqui ou vai para a esquerda assim.

11:17.690 --> 11:22.230
E aqui, em algum momento, você vai para a esquerda e vai assim novamente.

11:22.310 --> 11:23.170
Isso é importante.

11:23.180 --> 11:27.610
Eu não sou uma política, mesmo assim, quando ele pula daqui, irá aqui.

11:27.650 --> 11:30.400
Talvez e, a partir daqui, possa chover diretamente.

11:30.410 --> 11:34.520
Pode realmente voltar para a direita e depois daqui e eu vou me deixar entender isso.

11:34.550 --> 11:38.260
Então, há muitas opções diferentes para eles, que talvez não sigam exatamente esse ferreiro ir para o

11:38.270 --> 11:38.730
outro lado.

11:38.960 --> 11:42.500
Esta é apenas as rotas desejadas que foi projetada para si.

11:42.590 --> 11:44.690
Mas a maneira como ele vai funcionar é realmente pode ser diferente.

11:44.690 --> 11:46.130
Depende do mundo real.

11:46.340 --> 11:46.940
Então vamos lá.

11:46.950 --> 11:50.090
Esse é o mundo da inteligência artificial.

11:50.090 --> 11:56.780
Isso é o que é uma política versus um plano e, espero, você está começando lentamente a ficar entusiasmado com

11:57.000 --> 12:01.220
o que a AI pode fazer, especialmente devido ao que vimos aqui.

12:01.340 --> 12:07.430
Estes são alguns tipos de decisões muito virtuosas que os AIs estão chegando.

12:07.610 --> 12:12.500
E, como você pode ver quando está jogando AI mesmo a partir deste pequeno exemplo, você pode

12:12.500 --> 12:18.950
ver que, mesmo quando você toca em um mundo real, talvez você venha com idéias e decisões que às vezes as pessoas podem

12:18.950 --> 12:19.240
surgir.

12:19.250 --> 12:25.460
E isso é exatamente como o que aconteceu nos jogos em que o objetivo do Google Alpha

12:25.520 --> 12:32.320
estava jogando contra o campeão da meta da Lisa idole, na Coréia, no campeão do mundo de ir.

12:32.390 --> 12:37.000
E eles estavam jogando na Coréia de volta bakla em 2016, acho que é março de 2016.

12:37.000 --> 12:42.370
Ele surgiu com alguns movimentos que os humanos nunca tinham jogado em 3000 anos ou os humanos não estavam acostumados a tocar.

12:42.380 --> 12:45.510
E este é este é exatamente um exemplo disso.

12:45.740 --> 12:50.290
Então, mais uma vez, espero que você fique entusiasmado e bombeado sobre o discurso e sobre o que podemos integrar.

12:50.330 --> 12:51.840
E eu procuro isso.

12:51.840 --> 12:52.720
Vejo você na próxima vez.

12:52.730 --> 12:54.410
Até então, aproveite.

12:54.410 --> 12:54.640
EU.