WEBVTT

00:01.090 --> 00:04.270
Hola y bienvenidos al curso de inteligencia artificial.

00:04.290 --> 00:07.260
Hoy estamos hablando de la pena viviente.

00:07.600 --> 00:13.540
Muy bien, aquí tenemos toda la ecuación de Belman y, a medida que avanzamos en este

00:13.540 --> 00:20.030
curso, nos hemos vuelto cada vez más complejos, así que hasta ahora hemos agregado estas probabilidades aquí.

00:20.200 --> 00:22.930
Y también hemos agregado el factor de descuento.

00:22.930 --> 00:28.440
Ahora vamos a ver con más detalle en este lado de la pregunta donde tenemos la recompensa ahora.

00:28.480 --> 00:34.660
dijimos que tenemos un agente y que lleva a cabo acciones en el entorno y en un

00:34.660 --> 00:41.290
intercambio o, como resultado, obtiene un nuevo estado y que ahora está disponible y una recompensa por esa acción.

00:41.320 --> 00:45.600
Recuerde que cuando hablamos acerca de cómo funciona el aprendizaje de refuerzo,

00:45.610 --> 00:52.210
Hasta ahora, en nuestro ejemplo, solo hemos obtenido recompensas al final o si llegamos a la línea de

00:52.210 --> 00:58.640
meta o si el agente termina en la hoguera recibe una recompensa de más uno o menos uno.

00:58.960 --> 01:05.770
Pero ese es un enfoque muy simplista para el aprendizaje de refuerzo y en escenarios más realistas es probable que

01:05.800 --> 01:11.050
tenga recompensas durante el viaje, no solo al final, puede tener recompensas durante todo el

01:11.050 --> 01:11.380
viaje.

01:11.380 --> 01:20.680
Por ejemplo, si se trata de una IA que juega un juego y si, por ejemplo, es como dispararle a alguien en peligro,

01:20.680 --> 01:26.320
podría obtener puntos por matar a ese enemigo o podría ser un juego diferente.

01:26.470 --> 01:32.260
Si supera a otro auto o algo así simplemente debido a las reglas del juego, no por su

01:32.260 --> 01:39.400
forma de analizar el juego, sino que en realidad el juego está estructurado de una manera que refuerza sus puntos de bonificación

01:39.400 --> 01:43.230
por hacer ciertas acciones incluso antes de que el juego encima.

01:43.540 --> 01:49.570
Así que los Sinatras como ese son muy comunes y no solo en juegos y también en la vida real y

01:49.570 --> 01:55.120
es por eso que vamos a introducir algo similar en nuestro ejemplo una versión simplificada de eso, pero sin

01:55.330 --> 02:01.180
embargo una recompensa que se le da continuamente al agente durante todo el juego no solo al final y la

02:01.180 --> 02:04.450
forma en que vamos a hacerlo es mirando las otras fichas.

02:04.450 --> 02:10.060
una recompensa más una en la ficha final y la recompensa menos 1 en la otra ficha final es la hoguera.

02:10.060 --> 02:11.530
Así que ahora solo tenemos

02:11.800 --> 02:14.310
Pero ahora vamos a agregar recompensas en cada momento.

02:14.430 --> 02:17.770
Añadiremos una recompensa muy pequeña será menos 0. 04.

02:17.770 --> 02:23.440
Y como pueden ver, es negativo, así que cada vez que el agente se mueve recibirá una recompensa negativa y eso es lo

02:23.440 --> 02:28.300
que se llama una penalización viviente porque no importa a dónde vaya, siempre obtendrá esta recompensa negativa a excepción de

02:28.450 --> 02:31.000
estas fichas finales porque ese es el final de el juego.

02:31.300 --> 02:35.120
Y para que pueda ver la recompensa, incluso en este azulejo es una locura o un rompecabezas.

02:35.170 --> 02:37.960
Pero eso no significa que empiece con esa recompensa.

02:37.960 --> 02:39.470
Él solo recibe esta recompensa.

02:39.760 --> 02:44.860
Y esto es importante recordar que solo obtiene su recompensa cuando ingresa en una casilla, así que cada vez que

02:44.860 --> 02:51.110
él prometió una acción, iría aquí y obtendría esta recompensa menos 0. 04 y luego vuelve a este estilo, obtendrá otra

02:51.130 --> 02:53.650
mente y 0. 04 palabra.

02:53.770 --> 03:00.370
Y así, cuanto más camina, más acumula su recompensa negativa y, por lo tanto, es un incentivo para

03:00.370 --> 03:03.870
que termine el juego antes tan rápido como sea posible.

03:03.890 --> 03:10.390
Entonces, veamos cómo cambiará nuestra política o cómo cambiará la política de los agentes,

03:10.420 --> 03:14.150
dependiendo del valor que establezcamos para esta recompensa.

03:14.410 --> 03:18.730
Así que aquí hay cuatro entornos y en cada uno vamos a explorar uno diferente.

03:18.770 --> 03:21.070
No vamos a hacer los cálculos.

03:21.130 --> 03:25.690
Vamos a proyectar los resultados y verán que intuitivamente tienen mucho sentido.

03:25.690 --> 03:31.820
Así que aquí tenemos una recompensa por cualquier oferta de paso para entrar en cualquier estado.

03:32.050 --> 03:32.830
Es igual a cero.

03:32.830 --> 03:36.890
Tal como lo hemos visto antes, la recompensa será Mei's 0. 0.

03:36.910 --> 03:43.150
Por lo que acabamos de hacer, ahora sabes que la recompensa será a menos 0. 5 o el nivel de penalización será mío, es

03:43.150 --> 03:47.690
fuego abierto mucho más alto que puedes ver aquí más de 10 veces mayor.

03:47.800 --> 03:50.170
Y aquí están los Penhall vivos, serán menos dos.

03:50.170 --> 03:59.050
Así que incluso más que las recompensas que obtienes por saltar o incluso menos que la recompensa que recibes, el agente consigue

03:59.050 --> 04:00.700
terminar en la hoguera.

04:00.700 --> 04:07.660
Echemos un vistazo a cómo cambiarán las acciones o la política óptima para aprobar este entorno

04:07.660 --> 04:09.160
dependiendo de esta recompensa.

04:09.170 --> 04:11.560
Entonces esta es nuestra política original.

04:11.920 --> 04:18.280
Y como pueden recordar, tuvimos estas dos decisiones muy interesantes e incluso un poco raras por

04:18.280 --> 04:23.950
parte del agente, pero que tienen mucho sentido si pueden vivir el tiempo que quieran.

04:23.950 --> 04:29.530
Si puedes viajar todo el tiempo que quiera sin ser penalizado por permanecer con vida por

04:29.530 --> 04:30.430
mucho tiempo.

04:30.670 --> 04:37.630
Él por qué no por qué no iba a ir a la esquina aquí en la pared y seguir haciéndolo hasta

04:37.870 --> 04:38.470
que sucediera.

04:38.470 --> 04:41.300
Sucede que va por este lado y luego caminará.

04:41.500 --> 04:46.120
Y lo mismo aquí es mucho más seguro para él saltar a la pared con la esperanza de que

04:46.120 --> 04:51.970
uno de ellos salga eventualmente y luego irá a la línea de meta de todos modos porque al elegir estas dos acciones no corre

04:51.970 --> 04:53.680
el riesgo de meterse en la hoguera .

04:53.690 --> 04:59.950
Ahora veamos qué sucede si agregamos una recompensa de recompensa negativa por solo ser una vida para dar un paso.

05:00.270 --> 05:04.960
Muévete aquí, puedes ver que al instante estos dos cambiaron.

05:04.970 --> 05:07.940
Ahora el agente no quiere saltar a la pared.

05:07.940 --> 05:13.490
Es más probable que se arriesgue a llegar a la hoguera con un 10 por ciento de posibilidades de

05:13.490 --> 05:19.400
saltar aquí, pero seguirá adelante porque cada vez que venga a ver aquí si lo haría aquí también cada vez

05:19.850 --> 05:24.620
que salta bien, realiza una acción que termina en este estado con un 80 por ciento

05:24.620 --> 05:24.990
de posibilidades.

05:25.010 --> 05:31.180
Y eso significa un 80 por ciento de posibilidades de que obtengas un 0 menos. a obtener esto acumulando esta recompensa negativa.

05:31.190 --> 05:34.940
04 recompensa significa que muchas de las veces va

05:34.940 --> 05:41.600
Lo mismo aquí si salta a la pared esperando ese momento en el que será movido aleatoriamente

05:41.600 --> 05:42.780
hacia la derecha.

05:42.980 --> 05:49.340
Si sigue haciendo eso acumulará esta recompensa negativa y el resultado de eso si realiza los

05:49.340 --> 05:55.670
cálculos verá que el resultado de que el valor esperado de ese enfoque salte a la

05:55.670 --> 06:02.840
pared es peor que correr el riesgo de seguir adelante y en realidad terminar en la hoguera.

06:02.840 --> 06:10.230
hacia adelante y aquí moverse hacia la izquierda, incluso se sabe que existe el riesgo de que el fuego incendie simplemente porque

06:10.230 --> 06:15.320
mientras más tiempo esté vivo, más tiempo acumulará esta pena viviente en el siguiente entorno.

06:15.320 --> 06:18.830
Entonces él cambia sus decisiones en estos dos bloques para moverse

06:18.830 --> 06:23.720
Ahora estamos aumentando el Pouncey viviente a un número mayor de Meinzer en cinco puntos y veamos

06:23.720 --> 06:24.590
qué cambia aquí.

06:24.860 --> 06:27.220
Entonces ahora puedes ver eso en comparación con este entorno.

06:27.260 --> 06:31.740
Lo único que ha cambiado aquí es que esta flecha apunta hacia la derecha.

06:32.060 --> 06:38.360
Y lo que eso significa es que ahora ya no es una buena opción para el agente o, de hecho,

06:38.360 --> 06:42.340
esta flecha apuntando apuntaba hacia la izquierda y las boquillas apuntaban hacia arriba.

06:42.350 --> 06:48.740
porque si sale mal todo el camino sí, está a salvo o hay menos posibilidades de que no haya posibilidades de llegar a la hoguera.

06:49.100 --> 06:53.330
Así que ahora ya no es una buena idea que el agente vaya desde aquí o siga

06:53.340 --> 06:54.030
todo el camino

06:54.320 --> 06:57.640
Pero al mismo tiempo o hay menos posibilidades de que suceda.

06:57.710 --> 07:03.140
Pero al mismo tiempo acumulará una recompensa negativa bastante sustancial a medida que camina.

07:03.140 --> 07:05.540
Entonces es solo que el camino es demasiado largo.

07:05.540 --> 07:12.350
Entonces, eso lo obliga a estar aquí o aquí para tomar la ruta más corta para llegar hasta allí, aunque tiene un riesgo mucho mayor

07:12.350 --> 07:17.330
de entrar en la hoguera porque tan pronto como termina en la plaza hay un 10 por ciento

07:17.330 --> 07:19.350
de posibilidades de llegar al fuego. .

07:20.120 --> 07:21.760
De acuerdo con sus cálculos

07:21.800 --> 07:27.980
Es solo el valor esperado de este enfoque que es mejor que el valor esperado de andar simplemente

07:27.980 --> 07:30.480
porque hemos aumentado esta pena de vida.

07:30.710 --> 07:37.130
Y finalmente estamos llegando al ejemplo con la pena de vida de menos dos puntos cero.

07:37.130 --> 07:43.010
Así que aquí lo invito a publicar el video ahora que ha visto cómo ha cambiado la política a medida que aumentamos la

07:43.010 --> 07:44.430
penalización de puntaje de carga.

07:44.450 --> 07:49.850
Te animo a detener el video y pensar por ti mismo lo que sucederá en este escenario.

07:49.850 --> 07:57.070
será la política óptima que la pena de vida es tan alta, así que todo este supuesto video si lo desea?

07:57.090 --> 07:58.280
¿Cuál crees que

07:58.490 --> 08:04.880
Y ahora voy a saltar a mostrarte la solución, así que en este caso si

08:04.880 --> 08:13.460
aumentas la penalización a menos 2. 0 es tan alto que recuerda que la penalización aquí es solo menos 1. 0 es tan alto que el agente simplemente quiere

08:13.680 --> 08:18.540
salir del juego de cualquier manera posible, incluso si es solo saltando al pozo de fuego.

08:18.560 --> 08:19.200
Lo hará.

08:19.220 --> 08:25.460
Él será como cada vez que doy un paso cada vez que termino en una novedad en su

08:25.460 --> 08:30.020
estado o cada vez que hago una acción, termino recibiendo menos dos recompensas.

08:30.020 --> 08:36.280
Entonces, ¿cuál es el punto de tratar de llegar a la línea de meta si desde aquí me tomará dos pasos adicionales?

08:36.350 --> 08:41.060
Voy a ir aquí y luego directamente a la hoguera porque de esa

08:41.060 --> 08:49.190
manera mi recompensa va a ser menor que la recompensa negativa va a ser tan mala como en el caso de solo hacer

08:49.190 --> 08:56.770
pasos adicionales para que puedas ver que se agrega esta vida recompensa y dependiendo del valor de la recompensa de vida

08:56.780 --> 08:59.270
que estamos agregando, los resultados serán diferentes.

08:59.270 --> 09:06.290
Y el agente seleccionará diferentes políticas y eso es básicamente cómo se puede incorporar el valor de la recompensa mediante la ecuación

09:06.440 --> 09:12.020
de Belmont, incluso cuando no está solo en la línea de llegada o al final del juego,

09:12.020 --> 09:13.790
sino incluso durante todo el juego.

09:13.790 --> 09:19.250
una vez más no tiene que estar en cada uno en cada estado en función del entorno en sí.

09:19.250 --> 09:20.180
Y de nuevo,

09:20.180 --> 09:26.540
Se le puede dar al agente en ciertos estados específicos, no en todos los estados, pero en nuestro

09:26.540 --> 09:29.880
ejemplo simplista solo estamos utilizando recompensas en cada estado dado.

09:30.050 --> 09:34.470
Para ilustrar este concepto, espero que hayan disfrutado el tutorial de hoy.

09:34.580 --> 09:40.550
Y como pueden ver, ya hemos hecho nuestra ecuación de Belman bastante sofisticada y ahora se puede aplicar a muchos

09:40.550 --> 09:44.340
escenarios diferentes y no puedo esperar para ver en el siguiente tutorial.

09:44.360 --> 09:46.200
Y hasta entonces disfruta de un I.