WEBVTT

00:01.040 --> 00:04.020
Hola y bienvenidos al curso de inteligencia artificial.

00:04.040 --> 00:07.040
Hoy finalmente estamos hablando del aprendizaje de Kule.

00:07.070 --> 00:12.890
Está bien, entonces ya tenemos esta ecuación, la ecuación de botones, a la que le hemos agregado muchos

00:12.890 --> 00:13.120
componentes.

00:13.130 --> 00:19.910
Aquí tenemos la recompensa que puede ser no solo al final sino que puede ser en cualquier paso dado.

00:19.940 --> 00:21.920
Tenemos el factor de descuento.

00:21.950 --> 00:26.880
Tenemos la probabilidad porque ahora estamos mirando la marca de un proceso de decisión.

00:26.900 --> 00:32.780
de terminar en diferentes estados, independientemente de las acciones que tomemos o de las medidas que tomemos.

00:33.350 --> 00:35.210
Y aquí tenemos la posibilidad

00:35.210 --> 00:40.670
Puede haber múltiples estados en los que podamos terminar y luego obtengamos el valor de los

00:40.670 --> 00:46.790
estados siguientes porque a él le gusta una función recursiva, etc., pero probablemente todavía tenga una pregunta.

00:46.820 --> 00:53.560
La pregunta es dónde en todo esto no hay letra Q ¿Por qué se llama todo q?

00:53.750 --> 00:54.270
Aprendizaje.

00:54.350 --> 00:55.790
Entonces, ¿dónde está la señal?

00:55.910 --> 00:58.940
Y esa es la pregunta que vamos a responder hoy.

00:58.940 --> 01:06.620
el valor de estar en un estado determinado y ahora vamos a ver cómo Q encaja en todo eso también.

01:06.620 --> 01:09.820
Hasta ahora hemos estado tratando con los valores

01:10.070 --> 01:16.360
Así que aquí tenemos dos ejemplos a la izquierda: ¿qué haríamos hasta ahora que nuestro agente ha estado analizando?

01:16.400 --> 01:18.170
Ok, estoy aquí.

01:18.230 --> 01:21.640
Esta es una marca de proceso de decisión, así que no importa cómo llegue aquí.

01:21.770 --> 01:28.250
Al resto del entorno no le importan los pasos que me llevó llegar aquí a partir de ahora.

01:28.460 --> 01:32.050
Tengo que tomar la decisión óptima a dónde ir aquí aquí o aquí.

01:32.060 --> 01:37.280
Basado en el estado actual y todos los estados futuros que provienen de aquí pero no del pasado.

01:37.490 --> 01:42.010
Y para que pueda ver que hay tres opciones, hay un estado estatal para declarar tres.

01:42.260 --> 01:48.920
Y en base a su experiencia, él ha calculado los valores en estos estados y ahora va a usar la ecuación

01:48.920 --> 01:49.880
de los botones.

01:49.880 --> 01:54.260
Entonces, aunque este es un Proceso clásico, él sabe que irá aquí, pero hay una posibilidad de que

01:54.260 --> 01:56.120
vaya a la izquierda y así sucesivamente.

01:56.110 --> 02:02.450
Entonces, basándonos en estos valores vamos a tomar una decisión que es lo que hacemos hasta ahora y ese es un enfoque

02:02.450 --> 02:03.470
totalmente legítimo aquí.

02:03.560 --> 02:05.640
Pero ahora nos modifican un poco.

02:05.660 --> 02:12.860
estado en el que puede terminar, vamos a ver los valores o el valor de cada acción.

02:12.950 --> 02:21.440
Vamos a tomar el mismo concepto exactamente el mismo problema pero aquí, en lugar de ver los valores de cada

02:21.440 --> 02:25.640
Así que ya no vamos a usar la letra V porque para el valor

02:25.640 --> 02:30.740
del estado vamos a usar una Q y la pregunta podría ser por qué la letra Q Bueno.

02:30.740 --> 02:32.300
P Algunas personas especulan eso.

02:32.300 --> 02:33.760
P ¿Leeré esto?

02:33.770 --> 02:35.420
Pienso en Quora.

02:35.420 --> 02:41.480
referencia a eso, así que podría no ser porque podría ser solo porque esa es la letra que se usó en ese momento

02:41.480 --> 02:45.520
y ahora se volvió muy popular porque es todo se llama aprendizaje clave debido a eso.

02:45.920 --> 02:50.750
Alguien mencionó que Q es debido a la calidad, pero al mismo tiempo no pude encontrar ninguna otra

02:50.780 --> 02:52.520
Así que no se mantuvo una razón exacta.

02:52.530 --> 02:58.830
P Sin embargo, al menos nos ayuda a distinguir entre V y Q Entonces Q aquí.

02:58.850 --> 03:03.340
Hubo regalos más que el valor del estado que representa, deja ir la calidad.

03:03.410 --> 03:06.260
Representa la calidad de la acción que representa.

03:06.260 --> 03:07.980
OK, entonces tengo cuatro acciones.

03:08.300 --> 03:10.860
¿Cuáles son las diferentes cualidades de estas acciones?

03:10.860 --> 03:16.340
me diga cómo puedo cuantificar esta acción y luego puedo compararlas y eso es exactamente lo que Q es.

03:16.340 --> 03:21.380
¿Cuál es el valor de la acción o la calidad de la acción que la acción es más

03:21.380 --> 03:23.200
lucrativa, entonces necesito una métrica que

03:23.470 --> 03:26.240
Y entonces él tiene cuatro acciones posibles.

03:26.360 --> 03:29.240
Como siempre sube hacia la derecha o hacia la izquierda.

03:29.240 --> 03:35.480
Y en función de la acción, va a haber una fórmula que nos diga el valor cuantificable de esa acción

03:35.480 --> 03:38.410
que llamamos el valor Q q de esa acción.

03:38.630 --> 03:41.700
Así que echemos un vistazo a cómo vamos a derivar esta fórmula.

03:41.710 --> 03:44.510
P ¿Qué relación tiene con estos?

03:44.510 --> 03:51.290
Porque como puedes imaginar porque las acciones conducen a estados, tiene que haber algún tipo de vínculo entre

03:51.290 --> 03:51.850
los dos.

03:51.870 --> 03:56.060
Bien, tenemos que ya hemos determinado cómo calcular esto y somos bastante buenos en eso.

03:56.060 --> 04:02.030
Sabemos cómo usar la ecuación de Belman en entornos muy diferentes con muchas complicaciones diferentes.

04:02.270 --> 04:06.080
Bueno, aprovechemos ese conocimiento para comprender cómo podemos calcular ahora.

04:06.080 --> 04:12.170
P Para hacer las mismas predicciones porque, como puedes imaginar, el entorno no cambia, dependiendo de

04:12.500 --> 04:16.530
qué enfoque usemos, el entorno va a ser el mismo independientemente.

04:16.550 --> 04:22.130
deben dar el mismo resultado y, por lo tanto, esa es otra razón por la cual estos dos deberían estar vinculados.

04:22.460 --> 04:24.690
Por lo tanto, este enfoque y este enfoque siempre

04:25.100 --> 04:26.290
Así que echemos un vistazo.

04:26.300 --> 04:31.280
Así que aquí está nuestro enfoque de vista donde solo podemos ver el valor de cualquier estado dado, este estado

04:31.280 --> 04:32.260
o cualquier otro estado.

04:32.420 --> 04:37.190
Y aquí entramos, solo estamos usando la iniciativa aquí porque ese es el estado actual.

04:37.190 --> 04:43.730
Y entonces, por lo tanto, la terminología será la misma en ambas ecuaciones y aquí usamos q como Q es

04:43.790 --> 04:45.520
el estado y la acción.

04:45.540 --> 04:51.970
A porque la acción está activa pero en qué estado realizamos esa acción realizamos esa acción en el Estado.

04:53.000 --> 04:57.230
De acuerdo, ahora vamos a usar la ecuación de Belman para el primer

04:57.230 --> 05:06.620
acercamiento, como puede ver aquí, tenemos el valor de s o el valor de cualquier estado dado, es el máximo de la recompensa que obtiene una apuesta máxima basada

05:07.070 --> 05:08.660
en las acciones tienes tres.

05:08.690 --> 05:14.210
En este caso, en realidad tienes cuatro acciones, así que maximas de todas las acciones posibles de esta

05:14.210 --> 05:20.090
parte que hemos escuchado discutido muchas veces, así que esta es nuestra recompensa que obtenemos al realizar esa acción

05:20.090 --> 05:26.850
en ese descuento estatal de plaza, de hecho multiplicado por el esperado valor del nuevo estado que vamos a tener en un

05:26.850 --> 05:29.420
valor esperado porque es un proceso estocástico.

05:29.420 --> 05:34.460
vamos a terminar aquí, podríamos terminar con el tipo de probabilidad de izquierda o derecha.

05:34.460 --> 05:36.050
No sabemos con certeza si

05:36.050 --> 05:38.230
Es por eso que estas probabilidades están en ti.

05:38.240 --> 05:40.290
Está bien, así que ese es nuestro valor.

05:40.350 --> 05:41.150
Y ahora veamos.

05:41.150 --> 05:43.530
Q Entonces, Q se va a definir.

05:43.580 --> 05:49.550
Vamos a usar esto para definir Q Entonces, digamos que el agente desde esta ubicación desde este estado realiza

05:49.550 --> 05:50.640
la acción hacia arriba.

05:50.840 --> 05:54.350
¿A qué se llamará el valor de q?

05:54.500 --> 05:59.320
Bueno, antes que nada, veamos qué obtendrá a cambio de realizar esta acción.

05:59.420 --> 06:02.160
Lo primero que obtendrás es una recompensa correcta.

06:02.360 --> 06:04.180
No tiene dudas al respecto.

06:04.250 --> 06:09.920
Habrá algún tipo de regla o podría ser cero, pero sabemos que el conjunto es la forma en que funciona este

06:09.920 --> 06:15.770
proceso de aprendizaje de refuerzo, es que algunas ciudades están llevando a cabo ciertas acciones desde un estado dado o dos.

06:15.840 --> 06:17.140
Así que voy a agregar eso aquí.

06:17.480 --> 06:19.680
Y luego vamos a agregar lo que vamos a agregar.

06:19.850 --> 06:21.090
Bien, pensemos en eso.

06:21.110 --> 06:24.640
¿Qué es lo siguiente que sucede después de ir allí?

06:24.860 --> 06:32.030
Bueno, lo siguiente que sucede es que ahora que el agente se encuentra en un cierto estado, podría terminar aquí con un 80

06:32.330 --> 06:34.640
por ciento de probabilidad o alguna probabilidad.

06:34.730 --> 06:36.670
Pero en realidad aquí arriba aquí.

06:36.800 --> 06:43.940
Pero donde sea que termine ahora, ya tenemos una métrica cuantificada para ese estado en el que se encuentra.

06:44.210 --> 06:47.100
Y ese es realmente el valor de ese estado.

06:47.180 --> 06:52.340
Pero como apareció en muchos estados diferentes y en tres de los posibles estados diferentes, tenemos que

06:52.370 --> 06:55.730
mirar el valor esperado del estado en el que se encontrará.

06:56.210 --> 06:58.610
Y entonces vamos a agregar eso en vamos a agregar.

06:58.610 --> 07:04.020
Por supuesto, el factor de descuento que teníamos anteriormente porque está en algún lugar en el futuro.

07:04.190 --> 07:11.210
Y luego vamos a agregar algunos de todos los posibles estados en todos los estados posibles que podría

07:11.210 --> 07:12.910
terminar tomando esta acción.

07:12.910 --> 07:14.240
Términos de probabilidad.

07:14.240 --> 07:20.150
Entonces, lo que estamos diciendo aquí es que está bien así que al realizar una acción obtendrás una recompensa Plus

07:20.150 --> 07:22.700
que es una métrica cuantificada que además obtendrás.

07:22.730 --> 07:25.820
Terminas en un estado en el que no sabemos cuál podría ser aquí.

07:25.850 --> 07:26.950
Podría estar aquí, podría estar aquí.

07:27.050 --> 07:32.240
Pero aquí está el valor esperado del estado en el que terminarás.

07:32.270 --> 07:36.290
Y ahora vamos a multiplicar por el factor de descuento porque es un movimiento de distancia.

07:36.380 --> 07:44.180
Así que ese es nuestro valor Q para esta sección de rendimiento y lo que notará aquí de inmediato es

07:44.180 --> 07:44.730
eso.

07:44.760 --> 07:51.470
Q El valor de Q es exactamente idéntico a lo que está dentro de estos corchetes aquí.

07:51.950 --> 07:52.660
Y por qué es eso.

07:52.670 --> 07:59.930
en todas las acciones posibles del resultado que obtendremos tomando cada una de esas acciones. y enqueue estamos definiendo.

07:59.930 --> 08:04.910
Bueno, si lo piensas aquí, aprovechamos al máximo los resultados que obtendremos al

08:04.910 --> 08:10.500
máximo en todas las acciones posibles, así que tomamos medidas para tomar el máximo

08:10.610 --> 08:11.160
Interesante.

08:11.160 --> 08:14.000
¿Qué obtendremos al tomar una determinada acción?

08:14.000 --> 08:19.340
Entonces, si lo piensas, tiene sentido el valor de un estado.

08:19.370 --> 08:25.720
Entonces, por ejemplo, este estado es el máximo de todos los posibles valores Q.

08:25.790 --> 08:32.360
Correcto, entonces aquí en los Estados al estar en el estado, el agente tiene un valor clave para mantener el valor 3Q para el

08:32.360 --> 08:32.870
valor q.

08:32.870 --> 08:37.760
Entonces, sí, es positivo para los posibles valores de Q mientras que el valor de la suspensión

08:37.760 --> 08:42.460
tiene sentido que el valor del estado sea el máximo de todos esos cuatro valores clave.

08:42.490 --> 08:44.420
Eso es exactamente lo que podemos ver aquí.

08:44.420 --> 08:48.060
Esa es una buena confirmación de esta nueva fórmula que derivamos.

08:48.080 --> 08:53.080
Si ese no fuera el caso, si eso no coincide, entonces tendríamos preguntas.

08:53.270 --> 08:55.150
Entonces, ¿por qué no coincide?

08:55.160 --> 08:57.510
¿Por qué no coincide si?

08:57.690 --> 09:05.810
El valor Q es una medida cuantificada de realizar una acción y V depende del piso.

09:05.930 --> 09:12.650
Es como que el máximo de los posibles resultados de las cuatro acciones que puede realizar tiene

09:12.650 --> 09:12.970
sentido.

09:12.980 --> 09:21.050
Y eso confirma la fórmula que acabamos de derivar y ahora vamos a hacerlo aún más interesante.

09:21.080 --> 09:26.620
Vamos a deshacernos completamente de la Wii porque puedes ver que aquí tienes Wii es una función recursiva.

09:26.810 --> 09:29.750
Entonces y luego me tienes a mí y luego a B y luego a B y luego a B, y así sucesivamente.

09:29.760 --> 09:35.480
Para que pueda expresar esta vista a través de todas las siguientes Vee, estas serán las más óptimas que

09:36.150 --> 09:36.830
aparecerán aquí.

09:36.840 --> 09:43.210
recursiva del quirófano en función de la siguiente V y luego tendría que conectar esta V y luego volver a la B.

09:43.250 --> 09:45.200
Esperamos que Q Funk sea una función

09:45.200 --> 09:51.110
Entonces, ¿qué vamos a hacer es tomar esta V y vamos a reemplazarla con Q

09:51.230 --> 09:54.280
Right? Así que echemos un vistazo a eso.

09:54.930 --> 10:01.410
Vamos a tomar esta V del siguiente estado y vamos a conectar esto a esa fórmula aquí.

10:01.570 --> 10:07.180
Y como puede ver ahora, así que esta parte no cambia, esta probabilidad no cambia.

10:07.180 --> 10:16.950
Pero como acabamos de discutir, el de s es el máximo por todas las acciones de q de S y un derecho aquí.

10:16.990 --> 10:19.180
Así que eso es lo que vamos a reemplazar aquí.

10:19.180 --> 10:24.310
por supuesto, la nueva acción, la acción que vamos a tomar, porque aquí tenemos la Wii de primo.

10:24.310 --> 10:26.760
Así que vamos a decir un máximo de,

10:26.770 --> 10:30.700
Así que aquí ahora tenemos la consola máxima en el mejor momento.

10:30.700 --> 10:34.510
Entonces las acciones que vamos a tomar desde este estado son desde

10:34.510 --> 10:41.200
cualquier otro estado en el que terminemos pero la acción que vamos a tomar desde allí y Maxima a través de

10:41.260 --> 10:50.170
todos esos y el máximo es de todos los valores de cubo que que están disponibles para nosotros en ese nuevo estado como coma principal a primo.

10:50.170 --> 10:51.280
Y eso es acción.

10:51.280 --> 10:52.140
Entonces ese es el.

10:52.210 --> 10:53.500
Entonces habrá otros cuatro.

10:53.500 --> 10:54.530
Q valores allí.

10:54.610 --> 10:56.700
Entonces, como pueden ver, vamos a pasar de nuevo.

10:57.040 --> 11:02.740
Entonces, de lo que derivamos esta palabra sería solo causa a través de la lógica y la intuición, de modo

11:02.740 --> 11:07.400
que podamos ver que las VNS son realmente vistas de AS y de y están relacionadas.

11:07.400 --> 11:12.400
El de S es el máximo en todas las acciones de Cuba S y puedes verlo aquí, así que esta

11:12.400 --> 11:13.820
parte es idéntica a esta parte.

11:14.290 --> 11:20.740
Y luego vamos a aprovechar eso y vamos a reemplazar este bit con VNS desde aquí, pero este embudo

11:20.740 --> 11:25.730
no exactamente vamos a tomar esta parte interna y reemplazarla con matar a los inocentes.

11:26.080 --> 11:32.920
Así que vamos a conectar eso aquí y esta parte va a ser de un máximo de primo de cube

11:33.430 --> 11:36.810
por Crucell a Priam de Q como Prime un primo.

11:37.060 --> 11:39.790
Y ahora tenemos nuestra fórmula.

11:39.790 --> 11:46.880
Entonces, ahora tenemos una fórmula recursiva para el valor q, de modo que ahora el agente puede pensar cuál es el valor de la sección, cuál

11:46.890 --> 11:50.310
es la calidad de esta sección, el nuevo valor de esta acción.

11:50.470 --> 11:56.570
Bueno, depende de la recompensa que obtenga en el paso inmediato después de eso, además depende del

11:56.590 --> 12:02.410
factor de descuento multiplicado por el máximo de todas las posibles acciones Q en ese estado.

12:02.410 --> 12:06.760
tenemos este valor esperado aquí, así que tenemos una probabilidad multiplicada por el valor máximo esperado.

12:06.760 --> 12:12.770
Pero no sé si voy a tener que ver con su lado que también mire ese estado en ese estado y es por

12:12.860 --> 12:13.300
eso que

12:13.450 --> 12:18.010
Entonces, una fórmula muy similar a la que puede ver, pero esta vez estamos expresando

12:18.490 --> 12:27.310
cosas a través de los valores q y es por eso que todo este algoritmo se llama Kill Learning porque esto es lo que se busca. Esto es lo

12:27.310 --> 12:32.020
que realmente usan los agentes. en los estados miren sus posibles acciones y luego, basándose en

12:32.020 --> 12:35.760
las acciones sobre el valor q de las acciones, decidirán qué acción tomar.

12:35.760 --> 12:40.330
Entonces solo mirarán el valor máximo de Q en este estado dado, tiene cuatro acciones.

12:40.330 --> 12:45.340
y luego comprometerse? va a repetir ese proceso, repite ese proceso y así sucesivamente.

12:45.350 --> 12:51.820
¿Cuál es la mejor acción para comparar y comparar los diferentes estados en los que puede terminar, comparar

12:51.820 --> 12:56.830
las posibles acciones que tiene actualmente y luego encontrar el óptimo va a tomar

12:56.860 --> 12:57.440
esa acción

12:57.580 --> 13:03.940
Entonces ahora pueden ver cómo todo esto se une a cómo la recompensa, los hechos de descuento

13:04.360 --> 13:10.330
o los procesos de decisión estocástica del mercado y los valores y los valores q se

13:10.690 --> 13:18.400
unen para citar esta ecuación de Belman poderosa para los valores q que ahora podemos aplicar y deje que nuestros agentes

13:18.400 --> 13:20.410
aprendan cómo vencer al medio ambiente.

13:20.410 --> 13:23.380
Y esa es una explicación intuitiva de lo que está sucediendo.

13:23.380 --> 13:28.510
Sé que pasamos por las fórmulas, pero es necesario porque es como nuestra fórmula.

13:28.510 --> 13:34.730
Hemos pasado por todo este capítulo y creo que es una buena transición desde el Hasta.

13:34.780 --> 13:43.450
P e ilustra cómo hay vínculos entre Yishun. Y si te gustaría aplicar un enfoque matemático de enfoque más riguroso y

13:43.450 --> 13:49.410
ver las matemáticas detrás de él y aprender un poco más sobre los valores

13:49.420 --> 13:51.600
de q y cómo funcionan.

13:51.640 --> 13:54.090
Entonces tenemos algo de lectura adicional para ti.

13:54.130 --> 14:02.980
Este documento se llama conceptos de procesos de decisión de Markov y algoritmos por martĂn von Autor low 2009.

14:02.980 --> 14:09.610
este documento en orden si queremos obtener información adicional sobre esto con el fin de obtener una comprensión más profunda.

14:09.820 --> 14:15.220
Así que cortó el enlace aquí como siempre y aquí puede leer con más detalle para

14:15.220 --> 14:21.660
entender todo lo esencial detrás de los valores de Hugh, y así sucesivamente y ahora que hemos discutido todas

14:21.790 --> 14:27.670
estas cosas relacionadas con la ecuación de Belman ahora estamos listos para ver algo más complejo como

14:27.670 --> 14:34.390
Pero incluso si no lee el periódico o la radio, debe tener un buen conocimiento práctico sobre de qué se

14:34.390 --> 14:40.850
trata el aprendizaje y cómo los agentes presentan las acciones que deben llevar a cabo en un entorno determinado.

14:40.870 --> 14:43.980
Así que espero que disfrutes hoy de Statoil y espero ansioso tu próximo.

14:43.990 --> 14:45.360
Hasta entonces disfruta.

14:45.390 --> 14:45.620
YO.