WEBVTT

00:01.160 --> 00:04.720
Hola y bienvenidos al curso de inteligencia artificial.

00:04.740 --> 00:07.950
Hoy estamos hablando de la diferencia temporal.

00:08.100 --> 00:14.310
Ahora es muy importante probarlo porque la diferencia temporal es el corazón y el alma del algoritmo de

00:14.340 --> 00:15.100
aprendizaje Q.

00:15.120 --> 00:22.410
Así es como todo lo que hemos aprendido hasta ahora se combina en el aprendizaje clave.

00:22.410 --> 00:23.880
Así que echemos un vistazo.

00:23.910 --> 00:28.040
Recuerde el momento en que hablamos de búsqueda determinista versus no determinista.

00:28.410 --> 00:34.960
Y recuerda cómo dijimos en este caso que es cuando el agente quiere subir sube y cuándo.

00:35.070 --> 00:38.740
En este caso, él quiere ir, hay un 10 por ciento de posibilidades de que vaya a la temperatura más baja de la izquierda

00:38.730 --> 00:41.390
y la posibilidad de ir a la derecha, y un 80 por ciento de posibilidades irá bien.

00:41.400 --> 00:42.390
Ir hacia arriba.

00:42.450 --> 00:46.410
Si bien estos números son, por supuesto, arbitrarios y pueden ser diferentes.

00:46.410 --> 00:52.260
Y todo este concepto es que podría tratarse de problemas diferentes y diferentes, por lo que no tiene que preocuparse

00:52.320 --> 00:57.090
de en qué dirección se está moviendo, solo que hay algo aleatorio que está fuera del

00:57.300 --> 00:59.930
control del agente que ocurre dentro de este entorno.

01:00.060 --> 01:07.470
en el ejemplo determinista fue muy fácil calcular los valores de la Wii, aunque no siempre fue muy fácil.

01:07.470 --> 01:11.030
Y el efecto que tuvo es que, como recuerda,

01:11.040 --> 01:16.530
Pero en nuestro caso podríamos simplemente calcularlos usando la ecuación de Belman y tenemos los

01:16.530 --> 01:17.120
valores exactos.

01:17.370 --> 01:24.810
Y luego, al recordar, mencioné muy cuidadosamente que estos valores para el ejemplo de búsqueda no

01:24.810 --> 01:27.810
determinista están fuera de mi cabeza.

01:27.840 --> 01:29.220
No son Kalka, lo sabemos.

01:29.270 --> 01:33.090
La última vez que dije que no, tuvimos que calcularlos porque es muy complejo.

01:33.090 --> 01:39.390
la computadora puede hacerlo y nosotros aceptamos estos valores que son solo valores que inventé.

01:39.390 --> 01:39.600
Pero

01:39.600 --> 01:41.310
Pero lograron hacer el trabajo.

01:41.310 --> 01:43.030
Nos ayudaron a entender el concepto.

01:43.290 --> 01:47.790
Bueno, ahora vamos a volver a eso un poco y entender qué está pasando exactamente aquí.

01:47.790 --> 01:55.420
¿Por qué es mucho más difícil calcular estos valores en el ejemplo no determinista o, en términos generales, en

01:55.420 --> 01:59.570
estos problemas en estos entornos y el agente que los atraviesa?

01:59.580 --> 02:00.400
Porque es

02:00.510 --> 02:03.030
¿Por qué puede ser tan difícil calcular estos valores?

02:03.030 --> 02:09.010
Bueno, cuando lo piensas porque cuando el agente se mueve, por ejemplo, de aquí a la derecha,

02:09.090 --> 02:15.270
no necesariamente siempre se mueve de esa manera, a veces como una posibilidad de que vaya a ganar

02:15.450 --> 02:22.290
en lugar de ir derecho, así que vamos a llamarlos del noreste al suroeste. tipo de ir al oeste.

02:22.470 --> 02:27.360
El agente a veces puede ir al sur y, por ejemplo, desde aquí es como ir hacia el norte.

02:27.360 --> 02:29.220
A veces podría ir hacia el este.

02:29.460 --> 02:30.240
Lo siento mucho.

02:30.240 --> 02:34.680
Así que aquí, en lugar de ir al este, a veces puede ir hacia el sur y está yendo hacia el norte.

02:34.710 --> 02:40.200
este o al oeste y, en lugar de ir hacia el norte, a veces podía ir al oeste, al este o al oeste, y así sucesivamente.

02:40.200 --> 02:41.160
A veces, podía ir al

02:41.160 --> 02:47.010
Entonces, y por lo tanto, para calcular este valor necesitarás saber cuál es este valor, pero lo interesante

02:47.010 --> 02:51.110
es que para calcular este valor necesitas saber cuál es este valor.

02:51.120 --> 02:56.790
De modo que aquí se producen muchas recursiones y, por lo tanto, no puede decidir definir cuáles son

02:56.790 --> 02:57.340
estos valores.

02:57.360 --> 03:01.140
Y además de eso, esta recursión no es determinista.

03:01.140 --> 03:06.000
A veces sucede de esta manera, a veces es cuesta arriba irse bien a veces en lugar de

03:06.000 --> 03:08.250
levantarse e irse a veces a la izquierda.

03:08.730 --> 03:09.540
Cuando él quiere subir.

03:09.540 --> 03:10.520
Él subirá.

03:10.560 --> 03:17.460
Por lo tanto, está sujeto a la posibilidad, por lo que es posible que muchas veces el agente siga este camino y

03:17.460 --> 03:22.050
subirá de nivel y usted pensará que desde aquí siempre sube y el valor del

03:22.050 --> 03:27.370
estado lo alcanzará. será bueno y luego, de repente, caerá en el pozo y este valor disminuirá.

03:27.620 --> 03:33.600
Y entonces, por lo tanto, pueden ver cómo hay algo de aleatoriedad estocástica en todo este cálculo en estos

03:33.600 --> 03:35.370
valores porque todos están interrelacionados.

03:35.370 --> 03:40.920
aleatoriedad inherente al entorno porque hay una marca de proceso de decisión.

03:40.920 --> 03:42.320
Además, tienes esa

03:42.540 --> 03:47.790
Así que ahí es donde todo esto se une y es allí donde vamos a

03:47.790 --> 03:52.370
introducir el concepto de la diferencia temporal que permitirá al agente calcular estos valores.

03:52.530 --> 03:55.560
Y aquí estábamos lidiando con los valores.

03:55.560 --> 03:59.390
Y desde entonces ya nos hemos movido a los valores Q, así que eso es lo que vamos a trabajar.

03:59.400 --> 04:01.980
Vamos a ver grandes valores.

04:02.010 --> 04:06.090
Entonces, según recuerdo, esta es nuestra ecuación de Belman para los valores q.

04:06.180 --> 04:15.090
acciones inmediatamente después de realizar una acción y si obtienes el máximo obtienes la gamma de la suma de todas las posibles .

04:15.090 --> 04:22.770
Entonces, el valor de AQ o el valor de realizar un tipo de acción A en el estado s es

04:22.770 --> 04:26.720
igual a la recompensa que obtienes después de realizar esas

04:26.910 --> 04:31.680
Entonces obtendrás el valor esperado del estado en el que terminarás.

04:31.680 --> 04:37.710
Entonces, como recuerdan, había una fórmula para la ecuación de Beldon y ahora, por simplicidad, digamos que vamos a

04:37.710 --> 04:43.670
reescribirla a la manera antigua y de una manera en la que solíamos hablar sobre la ecuación de botones

04:43.680 --> 04:45.850
antes de saber sobre el secuestro.

04:45.880 --> 04:53.100
Así que recuerda que esta fue nuestra ecuación de Belman en el sentido de un ejemplo de búsqueda determinista porque aquí

04:53.100 --> 04:57.600
no tienes ese valor esperado, no tienes el mismo en todas las probabilidades.

04:57.750 --> 05:03.110
Solo tienes eso como si estuvieras decidido a terminar con el estado en el que terminarás y

05:03.110 --> 05:05.450
luego le dices Max en ese estado.

05:05.570 --> 05:12.170
Y la razón por la que estamos reescribiéndolo es simplemente que la única razón es porque es más fácil escribirlo y

05:12.200 --> 05:14.550
será más fácil caer con la fórmula.

05:14.550 --> 05:19.340
Así que vamos a recordar que reemplazamos esta parte de esta barra.

05:19.430 --> 05:25.400
Y también encontrarás esta notación en mucha literatura por lo que será más fácil para ti seguir

05:25.400 --> 05:28.310
junto con otras fuentes si estás estudiando esas.

05:28.370 --> 05:35.390
enfoque probabilístico aquí en lugar de esta notación es simplemente más fácil para nosotros para operar esto y entender lo que está sucediendo.

05:35.500 --> 05:39.130
Pero recuerde que, de hecho, lo que queremos decir es que este

05:39.140 --> 05:44.180
Simplemente me gusta mirar las ecuaciones para que no sean demasiado abarrotadas, pero una vez más solo

05:44.180 --> 05:48.050
recordar que, de hecho, lo que queremos decir es este enfoque probabilístico aquí.

05:48.290 --> 05:52.130
Y entonces estamos en conocimiento de que Tom Silis echa un vistazo a lo que está pasando.

05:52.190 --> 06:00.350
Así que aquí está nuestro estado en blanco del laberinto no tenemos ningún valor q veamos o cuando podamos, pero vamos a mantenerlo en

06:00.500 --> 06:05.510
blanco por ahora solo miremos uno de los estados o una de las celdas.

06:05.570 --> 06:07.280
Este específicamente.

06:07.820 --> 06:11.240
Y aquí tenemos respuestas para la acción de subir.

06:11.240 --> 06:14.290
Tenemos un valor de q que calculamos.

06:14.290 --> 06:18.070
Entonces, no es que no tengamos ningún valor q, sin embargo lo tenemos.

06:18.080 --> 06:19.930
Pero no estamos ilustrando nada.

06:19.930 --> 06:22.520
Simplemente mantenemos un espacio en blanco por simplicidad.

06:22.610 --> 06:28.570
Pero tenemos que la edad ha estado dando vueltas durante un tiempo y supongamos hipotéticamente que de algún

06:28.580 --> 06:36.560
modo ha calculado el valor en cubos de subir o Norf desde este estado a partir de esta celda específica y los valores.

06:36.560 --> 06:40.240
Q S y A y ahora lo que tenemos.

06:40.240 --> 06:45.070
Entonces él está actualmente con su punto de flecha azul y el agente está sentado en esta celda.

06:45.590 --> 06:48.560
Y ahora tiene que elegir dónde irá.

06:48.590 --> 06:57.290
Y sabe que el valor de esta acción va hacia el norte y eso es q Senay y aquí estoy diciendo antes y la razón es

06:57.290 --> 07:01.940
porque él es antes de tomar Realmente no ha tomado acción todavía así que

07:01.940 --> 07:10.760
todavía está en la celda y antes de que él haya tomado la acción, el valor aquí es q y SNH y ahora él realmente toma

07:10.760 --> 07:11.370
la acción.

07:11.390 --> 07:13.670
Entonces, digamos que él decide que es el mejor.

07:13.670 --> 07:16.440
Él toma la acción y se mueve hacia la celda.

07:16.730 --> 07:24.320
por tomar esa acción más gamma multiplicado por el máximo de este nuevo estado en el que acaba de ingresar. principal.

07:24.350 --> 07:30.650
Bueno, ahora lo que sucede ahora viene después, así que después de que haya tomado medidas, podemos

07:30.650 --> 07:35.640
medir cuál es este valor, calculemos este valor como el valor de la recompensa

07:35.640 --> 07:39.030
Y así el máximo en todas las acciones posibles y aspirinas.

07:39.080 --> 07:44.770
Y entonces, lo que tenemos aquí es el valor anterior a esa acción.

07:44.810 --> 07:47.650
Y luego calculamos esta métrica después.

07:47.660 --> 07:54.860
Pero como puede recordar de los cuatro meses anteriores, si volvemos muy rápido de la fórmula anterior en la que acabamos de calcular es realmente

07:55.630 --> 08:02.180
el valor que es cómo Q de s. a. a se calcula.

08:02.210 --> 08:07.930
Entonces, esta parte de Arite solo se calcula por separado, pero después de que hayamos tomado medidas.

08:08.330 --> 08:15.470
Entonces, como antes sabíamos una Q de una S y un valor algo que hemos calculado a través de nuestras

08:15.470 --> 08:16.860
iteraciones, Preuss es algo.

08:17.000 --> 08:19.990
Entonces un valor que está almacenado en nuestra memoria.

08:20.000 --> 08:26.990
Entonces, al igual que un número que conocemos y ahora, después de que se realiza la acción, sabemos qué recompensa obtuvo

08:27.050 --> 08:30.270
en realidad la recompensa que obtuvo realmente el agente.

08:30.440 --> 08:33.320
Y podemos calcular este nuevo valor.

08:33.320 --> 08:39.690
En esencia, estamos recalculando este valor, pero ahora con nueva información, la nueva información es la

08:39.690 --> 08:41.120
recompensa que recibimos.

08:41.600 --> 08:47.330
Y además de lo que quedó, terminamos y cuál es el máximo en ese estado de lo

08:47.420 --> 08:50.540
que puede ser este nuevo valor para esos datos específicos.

08:50.570 --> 08:54.480
Entonces, ¿cuál es el valor de ese ser en ese estado?

08:54.500 --> 09:02.060
Así que, básicamente, la Cura Vanessa-Mae, pero se le ha dado nueva información y ahora la diferencia temporal se define

09:02.150 --> 09:07.700
como una limpieza de una y dos de estas dos diferencias entre estos dos.

09:07.700 --> 09:11.770
Entonces, aquí el primer elemento es su valor fuera de Terra.

09:11.780 --> 09:16.250
Así que el tipo de Q de Esson un poco calculado después.

09:16.550 --> 09:21.880
Y el quvenzhanĂŠ anterior que guardaste en tu memoria.

09:22.070 --> 09:24.170
Y entonces la pregunta es si son diferentes.

09:24.290 --> 09:26.240
Entonces, idealmente, deberían ser lo mismo.

09:26.240 --> 09:31.750
Idealmente, esto debería ser igual a esto simplemente porque esta es la fórmula para calcular esto.

09:31.790 --> 09:38.060
Pero la cuestión es que esto no es algo que Kalka es algo que tenemos a partir de la evidencia empírica, algo

09:38.060 --> 09:41.320
que tenemos al pasar muchas veces por el laberinto y calcular.

09:41.320 --> 09:44.330
Así que esto es algo que se nos ocurre hasta ahora.

09:44.360 --> 09:46.820
No está relacionado con la iteración actual.

09:46.820 --> 09:52.070
surgió hace mucho tiempo, pero en una de nuestras iteraciones anteriores atravesando el laberinto.

09:52.070 --> 09:53.180
Es algo que

09:53.510 --> 09:57.740
Mientras que esto es algo que hemos calculado en este momento y no hay

09:57.740 --> 10:04.720
garantía de que vayan a ser iguales o debido a la aleatoriedad que existe en el laberinto porque esto podría haberse calculado

10:04.750 --> 10:10.260
y se han desencadenado algunos eventos aleatorios de CRN y esto se puede llamar a diferentes eventos aleatorios

10:10.300 --> 10:11.290
que se activaron.

10:11.740 --> 10:15.680
Y entonces, ahora que escribimos nuestros héroes, simplemente muévete hacia arriba.

10:15.700 --> 10:16.900
Entonces, ¿cómo usamos esto?

10:16.900 --> 10:20.470
La pregunta está bien, así que tenemos esta diferencia temporal.

10:20.470 --> 10:21.340
¿Cómo usamos esto?

10:21.400 --> 10:23.450
Y por qué se llama diferencia temporal.

10:23.590 --> 10:28.960
Bueno, la razón se llama diferencia temporal porque básicamente se está calculando lo mismo que se está

10:28.990 --> 10:33.460
calculando Q de S y A, por lo que el valor Q de esa acción.

10:33.640 --> 10:36.140
Su Calcott aquí y lo está calculando aquí.

10:36.340 --> 10:38.310
Pero la diferencia es el tiempo.

10:38.320 --> 10:44.140
Esta es la Q de S y anteriormente esto es yo Q de S y A.

10:44.140 --> 10:49.090
Ahora su nueva cura es innata y la pregunta es si ha habido alguna diferencia.

10:49.090 --> 10:51.700
Ha habido un cambio entre ellos a tiempo.

10:52.060 --> 10:56.830
Y cómo podemos usar esto para nuestro beneficio si efectivamente ha habido un cambio en el tiempo.

10:57.040 --> 11:02.790
Bueno, una cosa que podríamos hacer es decir bien, ya sabes nuestra Q de s. a. a no.

11:02.830 --> 11:07.490
Este nuevo valor no es igual a viejo, así que nos deshaceremos de lo viejo o nos olvidaremos de lo

11:07.510 --> 11:09.610
viejo, y solo usaremos este es un nuevo valor.

11:09.970 --> 11:11.920
Pero eso no sería inteligente.

11:11.950 --> 11:17.960
Y la razón de esto es que en nuestros entornos los eventos aleatorios a veces pueden suceder.

11:18.140 --> 11:25.500
Y qué pasa si nuestro antiguo QSA de s. a. a era algo que siempre sucede como el 80 por ciento del tiempo.

11:25.780 --> 11:28.750
Y luego, como fue representado por lo que sucede el 80 por ciento del tiempo.

11:28.750 --> 11:33.280
Y luego este nuevo justo lo que sucedió debido a la aleatoriedad.

11:33.280 --> 11:39.610
En ese caso vamos a descartar el que es responsable de la mayor parte de la situación y vamos a reemplazarlo

11:39.760 --> 11:43.900
con algo que ocurre solo el 10 o 20 por ciento de las veces.

11:43.900 --> 11:50.650
Ese no sería el mejor enfoque para seguir y es por eso que no queremos cambiar completamente los

11:50.650 --> 11:51.990
valores de Opu.

11:52.060 --> 11:56.890
Queremos utilizar como cambiarlos paso por paso un poco por un poco.

11:56.890 --> 12:01.980
una manera específica, así que vamos a decir: "Aquí hay una fórmula, vamos a seguir nuestro ejemplo de SNH".

12:02.020 --> 12:05.080
Y es por eso que vamos a usar esta diferencia temporal de

12:05.560 --> 12:07.120
Y vamos a actualizarlo de esa manera.

12:07.120 --> 12:12.450
Vamos a tomar el viejo valor de curar a Senay y vamos a agregar las cinco veces

12:12.460 --> 12:13.380
la diferencia temporal.

12:13.420 --> 12:15.730
Entonces Alpha estará aprendiendo bien.

12:15.730 --> 12:17.410
Ese es un nuevo parámetro que estamos presentando.

12:17.410 --> 12:20.070
Así de rápido es el aprendizaje de algoritmos.

12:20.080 --> 12:26.390
tomando esta diferencia y sea lo que sea, la estamos agregando a nuestra serpiente KJo anterior.

12:26.480 --> 12:27.210
Básicamente, estamos

12:27.220 --> 12:31.970
Ahora bien, esta fórmula probablemente no tiene ningún sentido o simplemente con solo mirarla no tiene sentido porque usted recibió

12:31.970 --> 12:34.040
Covisint aquí y nos dio una A aquí.

12:34.060 --> 12:39.460
Es lo mismo, por lo que probablemente deberían negarse entre sí, pero tuvimos que reescribir esto de una

12:39.460 --> 12:40.090
manera diferente.

12:40.390 --> 12:44.080
Así que te mostraré nuevamente, así que solo estoy agregando tiempo a estas fórmulas.

12:44.090 --> 12:48.070
Así que aquí está q menos uno los años anteriores.

12:48.070 --> 12:49.780
Q T menos 1 en años anteriores.

12:49.780 --> 12:56.080
Q T The New Esto también debería ser un círculo aquí en el círculo aquí, pero no importa, y aquí obtenemos la diferencia

12:56.080 --> 12:56.750
alfa temporal.

12:56.810 --> 12:58.750
Entonces tú la diferencia temporal actual.

12:58.750 --> 13:01.190
Para que pueda ver lo que estamos haciendo, estamos diciendo.

13:01.220 --> 13:04.200
OK, tomemos nuestra corriente.

13:04.240 --> 13:10.880
Q va a ser igual a todas las Q anteriores más cualquier diferencia temporal que encontremos Times Alpha.

13:11.150 --> 13:16.330
Esta fórmula aquí es el corazón y el alma del algoritmo de aprendizaje del cubo.

13:16.330 --> 13:18.250
Así es como está el cubo o actualización.

13:18.280 --> 13:24.460
Y es bueno que ya hayamos aprendido qué valores q son qué gamma es qué es y qué

13:24.460 --> 13:25.300
es todo esto.

13:25.420 --> 13:31.740
Y ahora todo lo que necesitamos ver es que tienes un valor de Q anterior Sí, eso es bueno.

13:31.990 --> 13:37.870
Y luego, lo que puede suceder es que cuando te das cuenta de que realmente actúas cuando

13:37.870 --> 13:42.530
el agente actúa, sabrás que obtendrá una recompensa y terminará en un estado.

13:42.610 --> 13:46.400
Y así, basado en eso, él puede calcular Aha.

13:46.420 --> 13:53.220
OK entonces, ¿qué es lo que tendría lo que debería haber sido el valor Q de ese movimiento que hice?

13:53.530 --> 13:56.390
Y ahora esa es esta parte de la ecuación.

13:56.470 --> 14:02.870
Restar el antiguo valor de Q le da una diferencia temporal y ahora necesita tomar una diferencia de muestra de

14:02.920 --> 14:05.410
tiempo Alpher y así es como se ajusta.

14:05.430 --> 14:06.370
P Te entendí a eso es a lo que te refieres.

14:06.370 --> 14:10.240
Solo creo que pasas y ahora solo para terminar esto.

14:10.240 --> 14:14.890
Esto es como que esto es suficiente para entender lo que está sucediendo, pero solo para

14:14.890 --> 14:18.370
aclarar las cosas aún más o quizás confundir las cosas aún más.

14:18.460 --> 14:23.320
¿Qué tenemos que hacer para tomar esta diferencia temporal o esta simple diferencia o aquí una forma de conectarla

14:23.320 --> 14:24.180
a este formato?

14:24.190 --> 14:29.840
Así que vamos a tomar toda esta parte y conectarla a esta fórmula y terminar con una gran ecuación.

14:29.920 --> 14:31.490
Así que, aquí vamos.

14:31.660 --> 14:32.590
Hay nuestra ecuación.

14:32.590 --> 14:38.470
Entonces esta es la ecuación completa con la diferencia temporal escrita por completo.

14:38.560 --> 14:43.690
Y la razón por la que lo escribí también, en primer lugar, es probable que encuentre esto

14:43.690 --> 14:45.560
en otra literatura si lo estudia.

14:45.730 --> 14:50.810
Y lo segundo es que hace que algunas cosas sean un poco más complejas tiene fórmulas más largas, pero también hace

14:50.810 --> 14:52.300
que algunas cosas sean más claras.

14:52.300 --> 14:55.940
Entonces, por ejemplo, puedes ver aquí el papel que juega Alpha.

14:55.960 --> 14:58.310
Puedes verlo mejor porque mira esto.

14:58.320 --> 14:58.860
Aquí.

14:58.900 --> 15:01.410
Q T menos uno y aquí tienes.

15:01.420 --> 15:03.760
Q T menos uno con un signo negativo.

15:03.760 --> 15:12.170
Entonces, si conecta Alpha es igual a 1 si pone un 1 aquí, esto negará esto.

15:12.190 --> 15:16.170
Entonces se destruirán mutuamente y todo lo que te quedará es esta parte.

15:16.480 --> 15:23.080
es exactamente esa situación en la que dijimos "Muy bien", por lo que tiene un nuevo valor que debería haber sido.

15:23.140 --> 15:24.750
Y lo que eso significa

15:24.850 --> 15:29.570
Actualicemos nuestro valor Q con el nuevo valor y olvidemos lo que teníamos anteriormente.

15:29.710 --> 15:35.470
Y como discutimos no es el mejor enfoque porque aquí hay eventos aleatorios y queremos actualizar los

15:35.470 --> 15:36.820
pasos paso a paso.

15:37.530 --> 15:43.590
Y por otro lado, si dijiste que Alpher es igual a cero, lo que sucede entonces es que te olvidas

15:43.590 --> 15:48.960
por completo de esta parte y eres lindo, el nuevo o el actual siempre será igual al anterior,

15:48.960 --> 15:51.720
así que estás no va a estar aprendiendo nada.

15:51.720 --> 15:56.730
en el laberinto no importa porque has decidido sobre ti el valor de Kuchi hace mucho tiempo y lo vas a mantener.

15:56.730 --> 15:58.940
Y eso significa que lo que sea que esté sucediendo

15:59.230 --> 16:03.200
Entonces, por eso Alfas no debería ser 0 o debería ser uno, debería estar en algún punto intermedio.

16:03.240 --> 16:09.330
Y le permitirá aprender lentamente, paso a paso, le permitirá a usted como su agente o como lo hace

16:09.360 --> 16:12.720
a través del laberinto va a obtener la diferencia temporal.

16:12.960 --> 16:19.530
Y de forma lenta pero segura, este valor va a recibir actualizaciones y actualizaciones, y

16:19.680 --> 16:25.440
lo que eventualmente ocurra es que en algún punto, con suerte, el algoritmo convergerá.

16:25.710 --> 16:30.960
más a cero y eventualmente estará muy cerca de cero o incluso de 0 0

16:30.960 --> 16:37.860
0 0 y lo que eso significa es que cada vez tu nuevo valor de cutesie o tu nuevo valor calculado.

16:37.860 --> 16:43.050
Y lo que eso significa es que esta diferencia temporal comenzará a acercarse cada vez

16:43.350 --> 16:44.430
Lo que debería haber sido

16:44.440 --> 16:49.950
Así que no esta, pero lo que hipotéticamente debería ser suficiente para dar el paso será igual a

16:49.950 --> 16:51.030
su valor anterior Q2.

16:51.030 --> 16:55.650
Y luego uno que es cero y eso significa que cuando su diferencia de

16:56.070 --> 17:02.720
temperatura es cero significa que su algoritmo ha convergido y no es realmente necesario continuar actualizando lo que está sucediendo.

17:02.720 --> 17:06.270
Realiza esta búsqueda para continuar actualizando sus valores de cubo.

17:06.270 --> 17:12.780
desee continuar realizando este todo, usted sabrá la actualización de los valores de la cola si el entorno cambia constantemente.

17:12.810 --> 17:19.140
La advertencia aquí es que la única vez, probablemente, sea una de las únicas ocasiones en las que aún

17:19.170 --> 17:23.100
Si no solo no está allí, solo tiene algunos randoms para eventos Kostic.

17:23.220 --> 17:28.750
Pero el medio ambiente en sí mismo está modificando, ya que la transformación está cambiando con el tiempo.

17:29.040 --> 17:34.260
Por lo tanto, debe aprender continuamente porque no es posible que aprenda todo y proponga

17:34.260 --> 17:39.210
la política óptima porque las políticas óptimas también cambian con el entorno todo el tiempo.

17:39.240 --> 17:44.730
En ese caso, deberá continuar CALKIN y la diferencia temporal y calcular los valores Q.

17:44.730 --> 17:46.830
Pero aparte de eso, eso es como una complicación extra.

17:46.830 --> 17:53.370
sus valores y encuentra exactamente lo que está sucediendo en ese entorno para que pueda proponer la política óptima.

17:54.090 --> 17:59.490
Aparte de eso, así es como se actualizan los valores de Q, esta es la fórmula

17:59.490 --> 18:05.250
principal del algoritmo de aprendizaje de Q, y esto es como la versión expandida de eso y

18:05.250 --> 18:12.870
ahora todo debe unirse y tener sentido por qué tenemos la ecuación de Belman y no solo lo que representa los chistes, pero

18:12.870 --> 18:14.620
también cómo el agente actualiza

18:14.640 --> 18:21.570
Sé mucho de lo que aprender, pero espero que hayas disfrutado este tutorial y, con un poco

18:21.570 --> 18:28.680
de suerte, puedas deshacerte de los conceptos subyacentes y la intuición detrás de tus valores y cuál es

18:28.680 --> 18:36.990
la noción de diferencia temporal y por qué es importante ayudarnos a entrenar lentamente. agentes y lograr que comprendan sus entornos

18:37.050 --> 18:39.230
en los que están operando.

18:39.270 --> 18:45.540
Y si desea aprender un poco más acerca de las diferencias temporales, un documento muy popular está

18:45.540 --> 18:52.470
aprendiendo a predecir con los métodos de las diferencias temporales de Richard Sutton de mil novecientos ochenta y ocho.

18:52.620 --> 18:57.060
Ya hemos tenido una referencia de Richard Sutton, pero esta es otra y en

18:57.060 --> 19:04.620
realidad tiene un libro, así que si entiendes sabes su estilo de escritura y su estilo de comunicación, entonces echa un vistazo a

19:04.620 --> 19:05.660
su libro también.

19:05.810 --> 19:08.630
Es como una versión más expandida de todas estas cosas.

19:08.640 --> 19:12.820
No he leído el libro, pero eso es lo que estoy imaginando al mismo tiempo.

19:12.960 --> 19:19.530
agregar al documento y puede aprender un poco más sobre o probablemente mucho más sobre las diferencias temporales allí.

19:19.530 --> 19:21.050
Esto se va a

19:21.300 --> 19:22.950
Y espero que lo hayas disfrutado también.

19:23.060 --> 19:24.270
Nos vemos la próxima vez.

19:24.270 --> 19:26.250
Hasta entonces, disfruta de la IA.