WEBVTT

00:00.760 --> 00:02.520
Hola y bienvenidos a Statoil.

00:02.830 --> 00:10.050
Entonces, ahora el agente ha realizado su exploración y luego, cuando está a punto de hacerlo, debe actualizar la red compartida.

00:10.240 --> 00:17.050
Entonces, lo primero que vamos a hacer es inicializar el acumulativo de lo que vamos a llamar nuestra

00:17.070 --> 00:25.180
capital R y lo inicializaremos como un tensor de antorcha, pero eso tendrá dimensiones una por una porque es solo un

00:25.180 --> 00:27.710
valor, pero queríamos ser un tensor

00:27.940 --> 00:33.460
Y entonces estoy usando aquí pero ceros y luego 1 1.

00:33.790 --> 00:37.230
Entonces, básicamente, la recompensa acumulativa se inicializa a 0.

00:37.610 --> 00:43.870
OK, entonces, decir si no hemos terminado eso es si el juego no ha terminado.

00:43.870 --> 00:50.200
Lo que queremos ahora es que la recompensa acumulada sea igual al valor de la última operación alcanzada

00:50.200 --> 00:51.750
por la red compartida.

00:51.820 --> 00:54.400
Entonces vamos a obtener el valor de salida.

00:54.460 --> 01:00.870
Usted conoce el valor de los resultados de funciones de nuestro modelo y este es el valor que le daremos a la comunidad en la

01:00.870 --> 01:01.490
que trabajamos.

01:01.780 --> 01:05.500
Así que primero obtengamos este valor, podemos obtenerlo de esta manera.

01:05.560 --> 01:12.820
luego subrayar de nuevo y luego obtenemos nuestro modelo porque arrojará este valor, pero solo el primer resultado de lo moral

01:13.240 --> 01:19.980
que hay que hacer es doble en su curso aquí y aquí solo podemos copiar pegar lo que tenemos aquí.

01:19.980 --> 01:25.310
Valor Entonces ya sabes que solo queremos el valor que podemos agregar aquí subrayar y

01:25.430 --> 01:33.050
Esa es la entrada del modelo con las imágenes de entrada y la atracción de los estados y los estados del sur.

01:33.220 --> 01:35.820
Así que solo estoy pegando eso y ahí vamos.

01:35.860 --> 01:37.490
Obtendremos el valor.

01:37.810 --> 01:47.080
Y entonces, lo que vamos a hacer es dar nuestro valor para que todo sea igual al valor y para acceder al

01:47.080 --> 01:49.350
valor que tenemos en este punto.

01:49.750 --> 01:50.430
Todo bien.

01:50.440 --> 01:57.610
del modelo es la primera salida del modelo que ya ha agregado este nuevo valor a la lista de valores.

01:57.670 --> 02:04.090
Ahora la condición if está hecha y ahora lo que haremos, dado que obtenemos un nuevo valor al

02:04.090 --> 02:05.330
saber que la salida

02:05.500 --> 02:16.340
Por lo tanto, podemos tomar directamente nuestra lista de valores luego hacia una tienda de campaña y ponemos variable porque nuestro.

02:16.530 --> 02:20.560
Este último valor tan bueno que se hace ahora.

02:20.850 --> 02:25.180
Vamos a inicializar las pérdidas y recordar las conferencias de intuición.

02:25.260 --> 02:26.320
Tienes dos pérdidas.

02:26.340 --> 02:31.780
Tiene la última de la política relacionada con las predicciones del agente.

02:31.860 --> 02:36.070
Y luego tiene el último valor que está menos relacionado con las predicciones de la crítica.

02:36.180 --> 02:41.130
Así que vamos a presentar estas dos variables inicializadas en cero y van a tomar aquí

02:41.250 --> 02:44.600
la política para nosotros la pérdida de la política horrible.

02:44.690 --> 02:52.680
Inicialízalo a cero y luego el valor perdió gran parte del valor y digamos que lo inicializó en cero, entonces no olvidemos configurar

02:52.680 --> 02:58.680
la recompensa acumulativa como una variable de antorcha porque necesitaremos que sea una antorcha Roybal porque estaremos

02:58.680 --> 03:03.990
calculando un gradiente con respecto a esto porque la recompensa acumulativa va a ser un

03:03.990 --> 03:05.850
término de la pérdida de valor.

03:05.850 --> 03:10.050
Entonces, ¿es esto viable? Ahora está unido a los gráficos dinámicos con un gradiente.

03:10.530 --> 03:16.150
tendencia es saber cuándo aplicamos la degradación del gas al sol para reducir esto último entre las predicciones y los objetivos.

03:16.170 --> 03:20.580
Y ahora, finalmente, lo último que tenemos que hacer antes de comenzar el ciclo de la gran

03:20.850 --> 03:28.160
Bueno, tenemos que inicializar los PCGA a la estimación de la ventaja generalizada y no obtenerla ni sin revestir.

03:28.260 --> 03:34.530
Tenga cuidado con ese GAAP la variable que estamos a punto de inicializar en este momento es la estimación

03:34.590 --> 03:35.510
de ventaja generalizada.

03:35.520 --> 03:42.480
Entonces, como recordatorio, la estimación de ventaja generalizada es, por definición, la ventaja de jugar la acción

03:42.540 --> 03:45.170
a mediante la observación del estado.

03:45.210 --> 03:51.330
Entonces, es una función de la acción y del estado s, y es igual a la diferencia entre los valores

03:51.450 --> 03:54.780
q Q A S y el valor de la función V.

03:54.780 --> 03:57.120
Entonces realmente puedo escribirlo aquí.

03:57.540 --> 04:05.130
La estimación de ventaja generalizada es una función de la acción y del estado s, y eso es igual a los

04:05.580 --> 04:12.570
valores q de la acción A y del estado S menos el valor de la función V aplicada al

04:12.650 --> 04:13.440
estado s.

04:13.530 --> 04:19.000
Ésas son las ventajas generalizadas que debemos mencionar y eso es lo que queremos inicializar en este momento.

04:19.200 --> 04:20.770
Y lo inicializaremos a cero.

04:21.470 --> 04:27.320
hacia los bailarines que iban a usar el mismo truco como lo que acabamos de hacer aquí vamos a

04:27.730 --> 04:35.330
tomar la biblioteca de antorchas y aplicar a la función de cebra para establecerlo como un tensor de un solo valor que es cero.

04:35.330 --> 04:36.730
Pero tiene que ser

04:37.160 --> 04:45.730
Y vamos a usar esta nueva variable gy eso será igual a esa antorcha que ceros 1 uno como

04:45.740 --> 04:46.540
nos inicializa.

04:46.550 --> 04:52.730
Entonces esto se inicializará a cero y, por lo tanto, los valores de q de la acción, el estado s será

04:52.730 --> 04:55.600
igual al valor de la función V del estado s.

04:55.780 --> 04:56.290
Todo bien.

04:56.320 --> 04:58.810
Y ahora estamos listos para comenzar el ciclo for.

04:58.850 --> 05:00.470
Así que vamos a tener una aventura aquí.

05:00.500 --> 05:04.700
Así que tómate un buen descanso y te veré en el próximo tutorial para atacar eso.

05:04.820 --> 05:06.170
Y entonces yo.
