WEBVTT

00:00.930 --> 00:03.970
Hola y bienvenidos al curso de inteligencia artificial.

00:03.990 --> 00:08.480
Entonces, hemos hablado sobre la ecuación de Belman y hemos analizado nuestro pequeño laberinto.

00:08.520 --> 00:11.100
Echemos un vistazo al plan.

00:11.100 --> 00:12.400
Cuál es el plan.

00:12.750 --> 00:14.650
Bueno, aquí está nuestro análisis principal.

00:14.670 --> 00:20.970
Y sabemos que podemos ver realmente los estados de los valores de cada estado, podemos ver cuál es

00:20.970 --> 00:23.310
el valor de estar en cada estado.

00:23.400 --> 00:27.810
Por lo tanto, la IA puede o el agente puede navegar este laberinto.

00:27.840 --> 00:28.770
Entonces cual es el plan.

00:28.770 --> 00:35.640
Bueno, el plan es simplemente como un mapa del tesoro para la inteligencia artificial en lugar de mirar estos

00:35.730 --> 00:41.420
valores que simplemente los reemplazan con flechas que indican en qué dirección debe ir el agente.

00:41.490 --> 00:43.360
Por eso, porque conoce esos valores.

00:43.350 --> 00:47.230
Entonces, un escenario ideal después de haber explorado este entorno.

00:47.250 --> 00:50.860
Conoce el valor de estar en cada estado y, por lo tanto, puede obtener este mapa.

00:50.870 --> 00:52.330
Así que echemos un vistazo de nuevo.

00:52.380 --> 00:58.410
de los dos, mejor es esto. Una vez que te vas de aquí de los dos, este es uno mejor, este es uno mejor.

00:58.830 --> 01:02.010
Sabemos que tus valores son uno, así que si estás aquí fuera

01:02.010 --> 01:02.750
Este es uno mejor.

01:02.760 --> 01:04.740
O en realidad desde aquí tienes dos opciones correctas.

01:04.770 --> 01:11.130
Así que era como una corbata, así que simplemente escoja una al azar, no importa cuál, porque el valor de éstas en

01:11.130 --> 01:16.110
ambos casos es el mismo y más aún si lo mira tomará la misma cantidad de pasos el

01:16.110 --> 01:18.390
mismo número de pasos para llegar al final.

01:18.690 --> 01:22.520
Desde aquí tienes tres opciones, pero esta es la mejor opción desde aquí.

01:22.530 --> 01:24.360
Este es un mejor valor desde aquí.

01:24.360 --> 01:29.380
Obviamente, este fue un mejor valor porque sabes que lo obtienes sin una recompensa de inmediato.

01:29.590 --> 01:35.250
Y desde aquí tienes como tres en realidad, pero este es el mejor del mejor valor del estado.

01:35.400 --> 01:41.190
Y entonces, por lo tanto, si los reemplazamos con flechas, tiene sentido que así sea como iría el agente si tiene

01:41.200 --> 01:44.570
estrellas aquí o resuelve por algún motivo que termina en este cuadrado.

01:44.580 --> 01:46.070
Sabe cómo salir de aquí.

01:46.280 --> 01:48.980
Las estrellas y esta plaza saben cómo llegar aquí y todo lo demás.

01:48.980 --> 01:51.440
Entonces eso es lo que es un plan.

01:51.440 --> 01:56.850
a la de los planes, pero tienen un pequeño truco para ellos porque el entorno va a ser un poco diferente.

01:56.850 --> 02:01.660
Y no confundas el plan con la política porque vamos a hablar sobre políticas para Irán, plantea una

02:01.670 --> 02:02.380
estrategia muy similar

02:02.420 --> 02:07.560
Va a ser estocástico y de eso vamos a hablar en el próximo tutorial.

02:07.910 --> 02:10.000
Así que Conway para ti en el próximo.

02:10.020 --> 02:12.060
Y hasta entonces disfruta.