WEBVTT

00:01.060 --> 00:04.460
Hola y bienvenidos al curso de inteligencia artificial.

00:04.460 --> 00:07.630
Hoy vamos a hablar sobre la ecuación de Belman.

00:07.630 --> 00:12.580
Es un tema bastante complejo y vamos a presentarlo paso a paso a lo largo de

00:12.580 --> 00:17.110
toda esta sección del curso, así que no voy a saltar directamente a la versión

00:17.110 --> 00:21.730
más compleja de la ecuación de Belmont de inmediato, sino que Voy a presentarlo lentamente

00:21.730 --> 00:23.250
para poder entender gradualmente cómo funciona.

00:23.410 --> 00:28.480
Y espero tu objetivo con ese enfoque si eres G. R. Vamos directamente a eso.

00:28.690 --> 00:33.820
vamos a tener un par de conceptos clave con los que vamos a operar y estos conceptos.

00:33.820 --> 00:34.430
Así que

00:34.600 --> 00:41.110
S significa estados así que el estado en el que se encuentra nuestro agente o cualquier otro estado posible en

00:41.740 --> 00:45.490
el que pueda representar una acción que un agente puede tomar.

00:45.490 --> 00:50.680
Por lo tanto, un agente puede tener acceso a una determinada lista de acciones y las acciones son muy

00:50.680 --> 00:53.610
importantes cuando se las analiza en una combinación de estados.

00:53.620 --> 00:57.880
o un estado realmente no tiene sentido porque tú? no sé dónde estás y dónde posiblemente

00:57.880 --> 01:01.870
puedas terminar y luego tenemos la nuestra que representa la recompensa y que es a

01:01.870 --> 01:07.390
través de la cual el agente consigue entrar en un cierto estado y gamma es el factor de descuento.

01:07.390 --> 01:13.240
Así que cuando estás en un estado de balanceo y luego observas las acciones y comienza a tener sentido, ¿cuál va

01:13.240 --> 01:16.980
a ser el resultado de esas acciones porque verás una acción por sí mismo

01:16.990 --> 01:21.510
Y hablaremos sobre el factor de descuento en un segundo, todo tiene sentido en este momento, pero solo están tomando

01:21.510 --> 01:21.810
notas.

01:21.820 --> 01:26.300
Tome nota mental de que vamos a tener esta carta de Gamelin con la que trabajaremos más adelante.

01:26.620 --> 01:31.230
Entonces la persona detrás de la ecuación de botones es Richard Ernest bellman.

01:31.360 --> 01:39.400
Era un matemático de vuelo y se le ocurrieron los conceptos de programación dinámica que ahora conocemos, que ahora llamamos

01:39.400 --> 01:43.790
aprendizaje de refuerzo o que ahora llamamos la ecuación de Belman.

01:44.110 --> 01:45.490
Bueno, así es como nos llaman ahora.

01:45.490 --> 01:52.350
Y en 1953 se le ocurrió ese concepto y fue entonces cuando se me ocurrió la ecuación de Belmont Belman.

01:52.630 --> 01:56.530
Así que echemos un vistazo a cómo funciona todo esto.

01:56.540 --> 02:02.410
Está nuestro encantador agente en la esquina inferior izquierda y él está en un laberinto y este es un

02:02.500 --> 02:08.680
laberinto bastante clásico donde tienes algunos bloques. Los bloques anchos son bloques en los que el agente puede entrar en

02:08.680 --> 02:13.800
el bloque gris es el que está simplemente no accesible dice como una pared en este laberinto.

02:13.900 --> 02:20.150
El verde es donde el agente debería apuntar para terminar en donde queremos que vaya el agente, ese es

02:20.150 --> 02:20.910
el final.

02:21.220 --> 02:25.050
Y el rojo es pozos de fuego o el motor cae en el pozo de fuego.

02:25.060 --> 02:26.660
Él perderá el juego.

02:26.950 --> 02:31.330
Entonces en el pozo de fuego la recompensa que es R es menos 1.

02:31.330 --> 02:36.330
Así que esa es nuestra forma de decirle al agente que no es algo que queremos que hagas.

02:36.430 --> 02:41.320
Como recordar en el ejemplo de cuando estamos entrenando perros, queremos decirles como un perro malo si no está haciendo lo

02:41.320 --> 02:46.030
correcto que quería hacer lo mismo, aquí le decimos al agente que esto no es algo que usted debe ser

02:46.030 --> 02:49.480
Hacerlo no debería terminar en la plaza, así que cada vez que esto no suceda,

02:49.480 --> 02:53.300
la ardilla recibirá una menos una recompensa por lo que será castigado con menos una recompensa.

02:53.530 --> 02:57.610
Por otro lado, si termina en la Plaza Verde obtendrá una recompensa más una que significa

02:57.610 --> 02:59.330
que eso es lo que queríamos hacer.

02:59.590 --> 03:02.470
Entonces esas son las dos recompensas que el agente no puede obtener.

03:02.470 --> 03:06.210
Y cómo aprende a operar en este laberinto.

03:06.370 --> 03:10.750
Al igual que en el ejemplo de los perros robot que aprendieron a caminar, que lo van a dejar saber, simplemente

03:10.750 --> 03:12.490
le dirá que aquí la acción puede hacer.

03:12.490 --> 03:18.360
Puedes ir hacia la derecha o hacia la izquierda. Estas son cuatro acciones posibles que puedes tomar y eso es todo.

03:18.360 --> 03:21.430
Tener un juego con eso. Ver lo que se te ocurre.

03:21.430 --> 03:26.320
Para que el agente pueda ir a la derecha, pueden ir dos más a la derecha, pueden volver a

03:26.320 --> 03:31.160
la izquierda simplemente presionando el botón al azar y están tratando de ver qué pasa y vuelven aquí.

03:31.180 --> 03:34.660
Suben Suben Suben Suben Suben Bien.

03:34.660 --> 03:38.450
Entonces, por ahora, no han aprendido nada, simplemente no sucedió nada.

03:38.470 --> 03:41.790
Van a la derecha y luego terminan en la Plaza Verde.

03:41.830 --> 03:48.150
Así que se dan cuenta de que me acabo de dar un awar más uno Así que tan pronto como entré en la Plaza Verde obtuvieron

03:48.150 --> 03:49.040
una recompensa más una.

03:49.090 --> 03:53.560
Y eso hace que el algoritmo diga OK, eso es genial.

03:53.830 --> 03:58.920
Soy recompensado por terminar en la plaza, así que quiero terminar en la plaza.

03:58.930 --> 04:00.650
Entonces, ¿qué significa eso para el agente?

04:00.910 --> 04:04.310
Eso significa que comienza a hacerse la pregunta ¿cómo llegué a esta casilla?

04:04.300 --> 04:10.690
¿Cuál fue el estado anterior en el que estaba y qué acción tomo para llegar a la casilla y luego

04:10.690 --> 04:14.810
mira hacia atrás y dice OK así que el estado anterior fue este.

04:14.950 --> 04:17.400
Resulta ser valioso en ese estado.

04:17.410 --> 04:19.240
La única chispa de la flecha roja.

04:19.270 --> 04:26.230
soñar, más una como galleta para un perro, tan pronto como sepa si alguna vez estoy en ese estado.

04:26.230 --> 04:33.210
Porque desde ese estado en el que te encuentras, estoy a un paso de obtener la recompensa máxima que pueda

04:33.250 --> 04:35.150
Ese cuadrado marcado con la flecha roja.

04:35.200 --> 04:36.740
Todo lo que tengo que hacer es presionar a la derecha.

04:37.030 --> 04:41.440
Entonces, ¿cómo me digo a mí mismo para recordar que ese estado es valioso.

04:41.440 --> 04:45.170
Para mí, no hay diferencia en realidad como agente.

04:45.170 --> 04:50.380
No hay diferencia en si estoy en la Plaza Verde o en la casilla blanca en la Plaza Verde,

04:50.380 --> 04:51.610
obtengo la recompensa de uno.

04:51.610 --> 04:58.810
tiene un valor de 1 porque conduce exactamente a la recompensa uno tan pronto como estoy en el cuadrado blanco, sé que solo tomaré una acción más.

04:58.810 --> 05:03.280
Así que voy a marcar por mí mismo que el Y Square está hecho para mí,

05:03.350 --> 05:08.180
Estaré en la Plaza Verde y obtendré una recompensa o una así que es por eso que voy a decir

05:08.180 --> 05:14.690
que el valor de este cuadrado es igual a uno porque conduce directamente a cualquier tipo de sustracciones tan pronto como sea posible. Quiero decir, aquí sé

05:14.690 --> 05:18.890
que mi recompensa será una, así que voy a marcar este cuadrado como la llamada a uno

05:18.890 --> 05:22.430
que es el valor que es el valor percibido de estar en el estado.

05:22.430 --> 05:24.740
Luego, el agente estará bien.

05:24.800 --> 05:26.930
Entonces, ¿cómo entro en este cuadrado?

05:27.050 --> 05:29.990
Y sabes que podría caminar otra vez, y así sucesivamente.

05:29.990 --> 05:33.800
Y de nuevo en la plaza y ser como OK, ¿cómo llegué a esta casilla antes de eso?

05:33.800 --> 05:36.860
Y la forma en que llegué a esta plaza fue desde esta plaza.

05:36.860 --> 05:37.530
Interesante.

05:37.550 --> 05:42.980
De acuerdo, tan pronto como entre en esta casilla, sé que todo lo que tengo que hacer es ir hacia la derecha.

05:42.980 --> 05:45.640
Y luego, desde aquí, ya sé que voy a ganar.

05:45.650 --> 05:49.970
Sé exactamente cómo va a desenmarañarse todo aquí y sé que el valor de estar en este estado

05:49.970 --> 05:50.970
es igual a uno.

05:51.020 --> 05:58.340
un valor percibido. Me encantaría estar aquí como un vehículo para querer también, porque esto es lo que quiero decir, aquí lo sé.

05:58.340 --> 06:03.920
Y como no hay nada que me impida crecer desde aquí hasta aquí, el valor de esto va

06:03.920 --> 06:04.640
a ser

06:04.650 --> 06:06.660
Ven aquí y estaré aquí bastante rápido.

06:06.740 --> 06:07.980
Así que voy a ganar.

06:08.180 --> 06:10.490
Y entonces, ¿cómo llegas a esta casilla antes de eso?

06:10.490 --> 06:12.940
Bueno, entré a esta plaza desde esta plaza.

06:13.070 --> 06:19.670
estar aquí también es igual a uno, y así sucesivamente, por lo que el valor de estar aquí es igual a un valor de estar aquí es

06:19.670 --> 06:23.690
igual a uno porque cada uno de ellos conduce al siguiente y estos a la linea final.

06:23.690 --> 06:25.710
Entonces el valor es similar, el valor de

06:26.240 --> 06:29.850
Entonces todo eso es bastante lógico en esta etapa.

06:29.960 --> 06:33.410
Estamos diseñando la ecuación de Belman en este momento.

06:33.410 --> 06:40.460
Así que esto es posible que pensemos en diseñar una ecuación que ayude a un agente a atravesar el laberinto.

06:40.490 --> 06:45.840
Así que mira la recompensa, entonces el estado anterior le da un valor igual para recompensar

06:45.840 --> 06:51.920
los procedimientos, y eso es como crear un camino, todo está bien pero el problema aquí está bien, ¿qué

06:52.010 --> 06:58.790
pasa si nuestro agente comienza por alguna razón? este estado en lugar de comenzar aquí y tomar estas acciones y que

06:58.880 --> 07:00.480
realmente comienza en el estado.

07:00.650 --> 07:06.980
¿Cómo sabe cómo recuerda qué acción tomar si va bien o debería bajar o debería irse a la

07:06.980 --> 07:08.540
izquierda o debería subir?

07:08.540 --> 07:13.220
¿Cómo recuerda cuál es la siguiente continuación de aquí?

07:13.220 --> 07:18.660
Si los únicos valores que tiene es que estos valores son iguales una vez que no puede ver lo que está más lejos.

07:18.660 --> 07:19.700
Solo puede ver.

07:19.700 --> 07:20.030
Todo bien.

07:20.030 --> 07:21.940
Lo que tengo aquí y lo que tengo aquí.

07:21.980 --> 07:23.530
¿Cómo sabe qué camino tomar?

07:23.660 --> 07:27.920
Bueno, en esta etapa no es tan idéntico para la edad y qué camino tomar.

07:27.960 --> 07:30.770
Y es por eso que este enfoque realmente no funciona.

07:30.790 --> 07:32.930
Es una explicación muy simplista.

07:32.930 --> 07:34.500
Por supuesto que hay mucho más.

07:34.520 --> 07:40.550
Pero de una manera intuitiva es por eso que no podemos simplemente asignar simplemente continuar este valor al revés de esa manera.

07:40.790 --> 07:46.210
Debido a que una de las razones es que el Agente se encuentra entre estos dos valores, ¿a dónde irá?

07:46.210 --> 07:48.560
No se puede confundir así.

07:48.620 --> 07:52.350
Entonces, ¿cómo resolvemos este problema? ¿Qué vamos a hacer?

07:52.400 --> 07:57.860
Y aquí es donde vamos a comenzar a introducir la ecuación de Belman en su forma real, lentamente,

07:57.860 --> 07:58.640
paso a paso.

07:58.670 --> 08:01.510
Entonces la ecuación de Belman se ve así.

08:01.640 --> 08:07.100
Así que ya hemos hablado sobre el valor de estar en un cierto estado como lo es

08:07.100 --> 08:10.250
su estado actual o cualquier estado dado y también existe.

08:10.370 --> 08:17.270
Y como Prime es el estado, a continuación se indica el estado en el que terminará después del estado

08:17.270 --> 08:18.990
y mediante una acción concertada.

08:19.000 --> 08:24.160
Pero sabemos que hay muchas acciones y un agente puede tomar y es por eso que tenemos este Max aquí.

08:24.260 --> 08:30.020
Entonces, al tomar una acción, qué le sucederá a un agente, digamos que estamos en el

08:30.050 --> 08:32.700
estado, actuando en activos estatales y actuando.

08:32.780 --> 08:36.690
Lo que sucederá será instantáneamente obtener una recompensa al entrar en un nuevo estado.

08:36.770 --> 08:41.960
Y recuerda que la recompensa puede ser uno o más uno o menos uno si está al final del juego o puede

08:41.960 --> 08:46.240
ser cero si es durante todo el juego, en este caso nuestra recompensa durante todo el juego es cero.

08:46.280 --> 08:55.160
Así que esa es la recompensa Además, entraremos en un nuevo estado que tiene valor de s prime.

08:55.160 --> 08:57.820
Entonces ese es el valor del nuevo estado y gamma.

08:57.820 --> 08:58.820
Hablaremos de eso en un segundo.

08:58.820 --> 09:03.560
Pero el punto que estoy tratando de plantear aquí o el punto que estoy planteando aquí es que tienes muchas acciones diferentes

09:03.560 --> 09:05.810
que podemos tomar y es por eso que tenemos el máximo.

09:05.810 --> 09:09.630
Entonces al tomar acción, obtenemos una recompensa. Además, terminamos en un nuevo estado.

09:09.740 --> 09:14.660
Entonces, por cada movimiento que se salga de nuestro caso antes de nuestras posibles acciones para cada una

09:14.660 --> 09:17.810
de las posibles 4 acciones, vamos a tener una ecuación como esta.

09:17.810 --> 09:22.980
Por lo tanto, esto va a tener un valor porque tendrán un valor diferente para cada una de las

09:23.480 --> 09:28.750
cuatro acciones y vamos a ver solo el máximo porque, por supuesto, el agente quiere tomar el estado óptimo.

09:28.760 --> 09:33.860
encontrar el máximo basado en la acción y va a tomar esa acción que necesita el máximo de estos valores.

09:33.860 --> 09:37.500
Entonces, si está en el estado s va a ver estos valores, va a

09:37.640 --> 09:41.480
Así que espero que tenga sentido por qué estamos tomando el máximo aquí.

09:41.660 --> 09:45.400
Entonces, una vez que recibimos la recompensa y el valor que dice, ¿por qué tenemos este parámetro de Gabaa aquí?

09:45.650 --> 09:52.220
Bueno, está ahí exactamente para resolver el problema de que el agente no sabe qué camino tomar porque

09:52.220 --> 09:52.850
no puede.

09:52.950 --> 09:56.600
Está comparando los valores de dos estados en ambos lados y son iguales.

09:56.810 --> 10:00.890
Es por eso que los jugadores llamaron al factor de descuento, así que vamos a echarle

10:00.890 --> 10:02.050
un vistazo y entenderlo mejor.

10:02.060 --> 10:04.680
Así que tomemos una fórmula. Lo pondré aquí en la parte superior derecha.

10:04.760 --> 10:09.100
Y ahora analizaremos cuáles son los valores de los diferentes estados.

10:09.140 --> 10:11.470
Y cada estado aquí es un cuadrado.

10:11.470 --> 10:11.820
No.

10:11.840 --> 10:16.610
Entonces, uno de estos cuadrados blancos es un estado, quiero decir que vamos a calcular el

10:16.610 --> 10:18.290
valor de estar en ese estado.

10:18.290 --> 10:19.770
Comencemos con el cuadrado

10:19.790 --> 10:21.610
¿Cuál es el valor de estar en este estado?

10:21.860 --> 10:25.830
Bueno, necesitamos tomar el máximo de este valor en todas las acciones.

10:26.120 --> 10:31.440
Y sabemos que este valor representa se maximiza a medida que nos acercamos a la línea de meta

10:31.440 --> 10:36.440
y así es como se construye y con solo mirar podemos ver porque aquí tenemos la recompensa

10:36.590 --> 10:40.900
y aquí tenemos un factor de descuento multiplicado por el valor de la siguiente estado.

10:41.060 --> 10:46.670
Y tiene sentido que así es como construimos esa ecuación, así que tiene sentido que desde aquí el

10:46.670 --> 10:50.350
máximo de este valor sea si nos movemos hacia la derecha.

10:50.360 --> 10:56.120
Entonces, así es como calculamos los valores que este valor de este estado es el que llama el máximo o

10:56.300 --> 10:57.470
igual a este valor.

10:57.500 --> 11:01.000
Si nos movemos hacia la derecha si tomamos la acción de movernos hacia la derecha.

11:01.010 --> 11:02.330
Entonces, ¿cuál será este valor?

11:02.360 --> 11:04.850
Bueno, la recompensa de mover hacia la derecha es igual a 1.

11:05.090 --> 11:10.490
E independientemente de qué color gamma tengamos, no tenemos un valor en el estado porque ya estamos en

11:10.490 --> 11:11.720
el mejor estado posible.

11:11.720 --> 11:12.880
Entonces esta es la etapa final.

11:12.890 --> 11:16.280
No tendrá valor, solo obtenemos una recompensa aquí y ese es el final del juego.

11:16.280 --> 11:20.300
Entonces el valor será de este máximo será igual a 1.

11:20.510 --> 11:23.870
Y es por eso que el valor de estado como aquí es igual a 1.

11:23.870 --> 11:27.970
Ahora las cosas se ponen interesantes cuando nos movemos hacia la izquierda cuando retrocedemos un poco.

11:28.010 --> 11:34.060
Así que ahora es calcular el valor de esto de estar en este estado y para eso vamos a necesitar a Gabaa.

11:34.070 --> 11:39.920
Entonces, digamos que nuestro factor de descuento es cero punto nueve y tiene sentido qué factor de descuento es una

11:39.920 --> 11:40.960
vez que calculamos eso.

11:40.960 --> 11:47.410
Así que desde aquí solo basándonos en nuestra intuición y basados ​​porque sabemos cómo funciona esto, cómo funciona esto.

11:47.450 --> 11:51.340
Sabemos que la mejor acción posible es ir a la derecha porque desde aquí vamos aquí.

11:51.530 --> 11:56.120
Entonces eso significa que se logrará el máximo en este estado al que se dirige a la derecha.

11:56.270 --> 11:58.970
Y entonces veamos qué sucede si lo conectamos aquí.

11:58.970 --> 12:02.650
Entonces, si vas desde aquí hasta aquí y no obtienes tu recompensa, será cero.

12:02.720 --> 12:07.440
Pero luego obtendrá camis que obtiene cero puntos nueve veces el valor del nuevo estado que es uno.

12:07.640 --> 12:14.030
Entonces, en este caso, el valor del resultado total es 1 por 0. 9 veces uno es igual a 2. 9.

12:14.030 --> 12:15.890
Entonces eso son todos los valores por.

12:16.250 --> 12:18.570
Entonces, si calculamos esto ahora, lo veremos desde aquí.

12:18.620 --> 12:23.990
Lo sabemos simplemente mirando el laberinto que conocemos porque nosotros, como humanos, porque estamos entendiendo cómo funciona

12:23.990 --> 12:28.450
esta ecuación, por supuesto, un agente de IA tendría que experimentar con estas cosas.

12:28.460 --> 12:32.180
Pero como tenemos una bola de cristal, podemos ver todo este laberinto.

12:32.180 --> 12:33.860
Tenemos la vista de pájaro en este momento.

12:33.860 --> 12:36.170
Sabemos que la mejor acción es ir a la derecha.

12:36.320 --> 12:42.230
Entonces, si lo conectamos aquí, será cero sin recompensa. Además, el informe nueve veces el valor

12:42.230 --> 12:45.530
en el estado 0. 9 es cero punto ochenta uno y así sucesivamente.

12:45.530 --> 12:50.420
Entonces aquí será 0. 23 y él será 0. 66.

12:50.420 --> 12:57.590
Entonces puede ver que la forma en que funciona el factor de descuento es que descuenta el valor del estado a medida

12:57.590 --> 12:58.610
que se aleja.

12:58.610 --> 13:05.810
Entonces, si está familiarizado con la teoría de las finanzas, entonces es algo similar al valor del dinero en el tiempo, como

13:05.810 --> 13:12.990
qué pensaría de esta manera. ¿Qué preferiría tener actualmente $ 5 o $ 5 en 10 días a partir de ahora?

13:13.050 --> 13:17.840
Solo si alguien te diera una elección, te daré cinco dólares hoy, todos $ 5 10 días

13:17.840 --> 13:18.280
de todos.

13:18.390 --> 13:20.300
Por supuesto, elegiría $ 5 hoy.

13:20.300 --> 13:20.850
Porqué es eso.

13:20.870 --> 13:26.750
Bueno, porque puede tomar esos $ 5 y puede invertirlos a una tasa de interés determinada que es muy similar

13:26.750 --> 13:27.470
a gamma.

13:27.680 --> 13:33.950
Y sus $ 5 en 10 días realmente crecerán hasta tal vez 5 dólares y 73 centavos o algo así.

13:34.070 --> 13:36.410
Y así es como funciona el valor del dinero en el tiempo.

13:36.410 --> 13:38.310
Y un concepto muy similar aquí.

13:38.330 --> 13:43.250
Y lo importante para entender aquí es solo una teoría de una manera que refuerza el aprendizaje.

13:43.260 --> 13:45.850
Entonces Richard Belman propuso esta ecuación.

13:46.190 --> 13:48.880
Y a partir de entonces, así es como lo usamos.

13:48.880 --> 13:51.430
Entonces podrías seguir adelante y pensar en una ecuación diferente.

13:51.430 --> 13:54.820
No tiene que tener Gamla, podría tener algún otro factor, tal vez no sabes que tiene un factor.

13:54.950 --> 14:01.550
Pero este enfoque funciona y es por eso que lo estamos usando y así es como se ve, mientras más

14:01.550 --> 14:06.670
lejos esté, menos valor tendrá en el estado y en términos de tiempo y dinero.

14:06.680 --> 14:09.850
Si pudiera decirte dónde preferirías estar, preferirías estar aquí.

14:09.950 --> 14:11.200
¿Prefieres estar aquí?

14:11.350 --> 14:12.920
Dirías que preferiría estar aquí.

14:12.920 --> 14:18.770
Así que estamos creando ese mismo fenómeno como el valor del dinero en el tiempo, lo estamos creando artificialmente a través

14:18.770 --> 14:24.680
de gamma para incentivar a los agentes o inspirar a los agentes a estar más cerca de la línea de meta.

14:24.680 --> 14:29.720
un agente, ¿prefieres estar aquí o aquí? Por la forma en que funciona esta ecuación, elegiría estar aquí.

14:29.930 --> 14:31.590
Entonces, si se le preguntara a

14:31.640 --> 14:33.380
No hay nada más para eso, nada menos.

14:33.380 --> 14:35.810
No es algo que el mundo funcione de esta manera.

14:35.810 --> 14:42.630
No, es solo algo que estamos creando artificialmente para que nuestros agentes entiendan que esto es bueno, esto es bueno,

14:42.750 --> 14:48.140
esto es bueno, pero esta es mejor que esta y esta es mejor que ésta y

14:48.140 --> 14:50.030
esta. ha estado en este.

14:50.120 --> 14:54.790
Y de esa manera puede ver que todo el agente puede ver en qué dirección debe ir.

14:54.800 --> 15:00.270
así que si usted está parado aquí, baje o si de repente estoy aquí para subir o si baje.

15:00.270 --> 15:05.130
Entonces puede ver que si estoy parado aquí recuerde el problema que teníamos o estaba parado aquí,

15:05.250 --> 15:10.080
Bueno, ahora ya no hay problema porque puede ver que en realidad es mejor subir porque

15:10.080 --> 15:11.480
los valores están aquí.

15:11.550 --> 15:14.490
Y luego desde aquí tiene que ir a la derecha porque el valor es más grande aquí que aquí.

15:14.550 --> 15:17.480
Y luego desde aquí es Bertschi ir a la derecha porque el valor aquí es más grande de lo que crees.

15:17.670 --> 15:22.620
Y desde aquí él ya sabe que tiene que ir derecho porque recibirá una recompensa aquí de uno.

15:22.680 --> 15:24.960
Así es como funciona todo este enfoque.

15:24.960 --> 15:27.600
Ahora echemos un vistazo rápido al resto del cuadrado.

15:27.600 --> 15:29.800
Entonces, ¿cómo calculamos el valor en este cuadrado?

15:30.030 --> 15:32.450
Bueno, aquí es donde las cosas se ponen difíciles.

15:32.460 --> 15:38.400
Por lo tanto, desde aquí puede que en realidad no vayas a la izquierda, en realidad podrías ir hacia la derecha, así podremos seguir así

15:38.400 --> 15:41.360
porque en realidad podría ser más corto para ir por este camino.

15:41.520 --> 15:44.720
Entonces, lo que vamos a hacer es calcular primero el valor en el cuadrado.

15:45.000 --> 15:48.200
Y obviamente, desde aquí, la mejor forma de hacerlo es hacia arriba.

15:48.240 --> 15:52.740
porque vemos a la tripulación que tenemos la bola de cristal, podemos ver cosas y verás más abajo en

15:52.740 --> 15:57.060
la sección, verás cómo el agente realmente explora, entiende esto en sus gustos a través de la experimentación.

15:57.060 --> 15:58.030
De nuevo, eso es

15:58.080 --> 16:02.580
Pero para nosotros sabemos que es mejor ir de esta manera, así que vamos a calcular el valor

16:02.580 --> 16:06.410
aquí y es por eso que primero vamos a calcular el valor en este cuadrado.

16:06.420 --> 16:09.230
Entonces aquí tenemos tres acciones posibles.

16:09.270 --> 16:11.590
En realidad, tenemos cuatro, también podemos irnos a la izquierda.

16:11.610 --> 16:15.330
El agente podría hipotéticamente presionar hacia la izquierda y chocar contra la pared y quedarse aquí.

16:15.420 --> 16:21.030
conjunto de simplicidad que va a mostrar las acciones que sabemos lo que sabemos y teniendo la bola de cristal,

16:21.030 --> 16:25.920
sabemos qué acciones son las que en realidad conducen a algo que no sea el mismo estado nuevamente.

16:25.920 --> 16:26.780
Pero para el

16:26.850 --> 16:32.010
Y aquí, desde aquí, sabemos que, nuevamente, solo porque tenemos una bola de cristal, sabemos que la mejor manera

16:32.010 --> 16:36.840
de hacerlo es que un agente, por supuesto, tenga que experimentar y encontrar la mejor manera, y verá

16:36.840 --> 16:37.500
cómo sucede eso.

16:37.560 --> 16:42.270
Más abajo en la sección verás realmente cómo anda un agente y cómo experimentas tratando

16:42.360 --> 16:43.610
de encontrar estos valores.

16:43.620 --> 16:45.190
Pero para nosotros sabemos que es de esa manera.

16:45.360 --> 16:50.420
Así que aquí, si conectamos todo en uno, el máximo rendimiento es cuando sube.

16:50.510 --> 16:53.820
Y aquí hay un informe 9: 0 Entonces lo pones.

16:53.820 --> 16:55.870
Obtienes el punto cero nueve.

16:56.220 --> 16:58.730
OK, así que Kalika es el que calcula este.

16:58.770 --> 16:59.810
Mismo enfoque.

16:59.820 --> 17:02.070
Este es usted tiene tres maneras en que puede ir.

17:02.070 --> 17:05.580
En realidad cuatro para el agente, pero para nosotros podemos ver que son solo tres.

17:05.880 --> 17:10.780
Entonces cero punto ochenta y uno desde aquí tienes cero punto setenta y tres.

17:11.130 --> 17:16.410
muy bien con este valor porque en ti, si descuentas de nuevo, pones 66 y aquí tienes 0.

17:16.890 --> 17:20.120
Y en realidad se relaciona 23 porque esta es la ruta óptima.

17:20.130 --> 17:21.190
Ahí vas.

17:21.210 --> 17:23.750
Ese es el valor de todos estos estados.

17:23.760 --> 17:29.700
Y ahora pueden ver que debido a que hemos creado esta ecuación o hemos creado sintéticamente

17:29.730 --> 17:37.890
todo este concepto de lo cerca que están de la línea de meta, más valioso es ese estado porque tememos que ahora

17:37.890 --> 17:41.840
es bastante obvio para el agente de qué manera debe ir.

17:41.970 --> 17:44.230
Y hablaremos más sobre eso en el futuro.

17:44.910 --> 17:52.290
parecer un poco básico en esta etapa, pero a medida que avanzamos en esta sección le añadiremos un poco más de complejidad.

17:52.320 --> 17:56.590
Espero que hayan disfrutado de la sesión de hoy y sé que puede

17:56.700 --> 18:01.500
Al mismo tiempo, si no puedes esperar si quieres saltar a él, entonces hay un papel que

18:01.500 --> 18:04.290
puedes mirar y es el artículo original de Richard Belman.

18:04.290 --> 18:08.130
Se llama la teoría de la programación dinámica desde 1954.

18:08.370 --> 18:10.200
Y puedes encontrarlo en este enlace.

18:10.320 --> 18:16.490
Y ahí lo tienes para poder saltar directamente a él y leer del autor de la ecuación de Belman.

18:16.620 --> 18:20.860
Pero ten en cuenta que este es un trabajo matemáticamente pesado.

18:20.970 --> 18:22.820
Y en esa nota, buscaré tu próximo.

18:22.850 --> 18:24.590
Y hasta entonces, disfruta de la IA.
