WEBVTT

00:00.930 --> 00:03.970
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:03.990 --> 00:08.480
Então, falamos sobre a equação de Belman e analisamos nosso pequeno labirinto.

00:08.520 --> 00:11.100
Vamos dar uma olhada no plano.

00:11.100 --> 00:12.400
Qual é o plano.

00:12.750 --> 00:14.650
Bem, aqui está a nossa análise principal.

00:14.670 --> 00:20.970
E sabemos que podemos ver realmente os estados os valores de cada estado, podemos ver qual é o

00:20.970 --> 00:23.310
valor de estar em cada estado.

00:23.400 --> 00:27.810
Portanto, o AI pode ou o agente pode navegar neste labirinto.

00:27.840 --> 00:28.770
Então, qual é o plano?

00:28.770 --> 00:35.640
Bem, o plano é simplesmente como um mapa do tesouro para a inteligência artificial em vez de olhar para esses

00:35.730 --> 00:41.420
valores que apenas os substituem por setas que indicam em qual direção o agente deve ir.

00:41.490 --> 00:43.360
Por causa disso porque conhece esses valores.

00:43.350 --> 00:47.230
Então, um cenário ideal depois de explorar esse ambiente.

00:47.250 --> 00:50.860
Sabe o valor de estar em cada estado e, portanto, você pode apresentar este mapa.

00:50.870 --> 00:52.330
Então vamos dar uma olhada novamente.

00:52.380 --> 00:58.410
fora dos dois, melhor é isso. Uma vez que você vai logo a partir daqui, esse é um melhor este é melhor.

00:58.830 --> 01:02.010
Nós sabemos que seus valores são um, então, se você está aqui

01:02.010 --> 01:02.750
Este é um melhor.

01:02.760 --> 01:04.740
Ou, na verdade, você tem duas opções à direita.

01:04.770 --> 01:11.130
Então, ele era um pouco como uma gravata, então, apenas escolha um ao acaso, não importa qual deles porque o valor nesses casos em

01:11.130 --> 01:16.110
ambos os casos é o mesmo e, mesmo assim, se você olhar, ele tomará a mesma quantidade de passos

01:16.110 --> 01:18.390
mesmo número de passos para chegar ao fim.

01:18.690 --> 01:22.520
A partir daqui você tem três opções, mas este é o melhor valor a partir daqui.

01:22.530 --> 01:24.360
Este é um valor melhor a partir daqui.

01:24.360 --> 01:29.380
Obviamente, este foi um valor melhor, porque você sabe que você apenas ganha menos uma recompensa imediatamente.

01:29.590 --> 01:35.250
E daqui você tem como três, mas esse é o melhor do melhor valor do estado.

01:35.400 --> 01:41.190
E, portanto, se os substituímos por setas, faz sentido que é assim que o agente iria se ele aparecer

01:41.200 --> 01:44.570
aqui ou resolver por algum motivo que ele acabe neste quadrado.

01:44.580 --> 01:46.070
Sabe como sair daqui.

01:46.280 --> 01:48.980
Estrelas e esta praça sabe como chegar aqui e assim por diante.

01:48.980 --> 01:51.440
Então é isso que é um plano.

01:51.440 --> 01:56.850
parecido com os planos, mas eles têm um pequeno truque para eles porque o ambiente vai ser um pouco diferente.

01:56.850 --> 02:01.660
E não confunda o plano com a política, porque vamos falar sobre as políticas para o Irã, representa

02:01.670 --> 02:02.380
um plano muito

02:02.420 --> 02:07.560
Isso vai ser estocástico e é disso que vamos falar no próximo tutorial.

02:07.910 --> 02:10.000
Então Conway para você no próximo.

02:10.020 --> 02:12.060
E até então aproveite.