WEBVTT

00:00.330 --> 00:05.990
Hola y bienvenidos a este tutorial en Statoil de hoy vamos a sincronizar con el modelo compartido.

00:06.150 --> 00:13.370
Entonces, lo que vamos a hacer es enviar la función, por supuesto, y luego inicializar la duración de

00:13.380 --> 00:13.980
un episodio.

00:14.190 --> 00:22.020
Así que vamos a llamar la duración de un episodio episodio y esta longitud de núcleo que vamos y vamos

00:22.020 --> 00:23.800
a inicializarlo a cero.

00:23.880 --> 00:27.280
Pero luego esta longitud actual será incremental.

00:27.570 --> 00:30.450
Y hablando de incrementos en eso, es exactamente lo que haremos.

00:30.660 --> 00:40.600
y usar este truco para decir mientras Kallen verdadero repite lo que va a suceder ahora lo que sucederá dentro de este mundo.

00:40.600 --> 00:43.840
Así que vamos a usar un ciclo while

00:44.160 --> 00:49.360
Entonces, lo primero que sucederá en este ciclo es este incremento de la duración de

00:49.360 --> 00:50.070
un episodio.

00:50.260 --> 00:56.900
Entonces, lo primero que vamos a hacer es incrementarlo en 1 y para hacerlo simplemente podemos

00:57.010 --> 01:02.680
tomar longitudes de episodios y sumar aquí más lo que equivale a 1.

01:03.200 --> 01:06.440
Y ahora vamos a sincronizar con el recurso compartido más.

01:06.560 --> 01:13.520
Eso significa que ahora que el agente obtendrá usará el modelo compartido para hacer su pequeña exploración en un

01:13.700 --> 01:18.730
cierto número de pasos y cómo el modelo va a obtener este modelo compartido.

01:18.860 --> 01:27.710
Bueno, tenemos que tomar nuestra moral y luego usar el método de estado de carga de Dick porque vamos a

01:27.710 --> 01:37.310
usarlo para obtener el diccionario de estado de nuestro modelo compartido, así que tenemos que poner primero el modelo compartido y luego

01:37.310 --> 01:41.870
aplicar el método estático para obtener los parámetros del modelo compartido.

01:41.900 --> 01:48.500
Y así es como nuestro modelo aquí obtendrá el modelo compartido para su pequeña exploración De acuerdo.

01:48.500 --> 01:53.670
Y una vez que el modelo obtiene este modelo compartido ahora tenemos que distinguir dos casos.

01:53.840 --> 02:03.280
El primero es si está hecho, lo que significa que si el juego está hecho para que el juego esté terminado, entonces, ¿qué ocurre en ese caso?

02:03.530 --> 02:09.840
Bueno, tenemos que volver a inicializar los estados ocultos y los estados celulares del LSD y el centro comercial.

02:09.950 --> 02:17.510
X the Cell States y también a X los estados ocultos y voy a reinicializarlos y cómo vas a reinicializarlos.

02:17.510 --> 02:21.030
Y es por eso que voy a tomar See

02:21.170 --> 02:29.080
Bueno, con solo ceros habrá un vector de 256 ceros porque recuerda las salidas del resto.

02:29.270 --> 02:31.770
Como mencioné 1 y 256.

02:31.820 --> 02:38.970
Así que allí vamos vamos a inicializarlos usando la biblioteca de antorchas y luego la función de cero.

02:39.170 --> 02:46.730
Y dado que queremos un vector de 256 ceros vamos a escuchar las dimensiones una para el vector y

02:46.730 --> 02:51.560
256 para la cantidad de elementos que serán ceros y luego vamos.

02:51.770 --> 02:58.570
Pero luego convertiremos eso en un voivoda de antorcha porque luego se calcularán algunos gradientes.

02:58.640 --> 03:02.000
Entonces, necesitamos integrar esto con un gradiente.

03:02.030 --> 03:02.510
Todo bien.

03:02.540 --> 03:09.860
Y vamos a hacer lo mismo para los estados ocultos justo debajo y realmente analizarlos de la misma manera.

03:09.980 --> 03:10.680
Aquí vamos.

03:10.790 --> 03:13.050
Entonces eso es si el juego está hecho.

03:13.360 --> 03:20.810
Y ahora el otro caso al que podemos acceder con Else else más de lo que sucede en ese caso.

03:20.990 --> 03:27.270
Bueno, vamos a mantener los viejos estados de las celdas y las apuestas ocultas y así

03:27.270 --> 03:37.910
muy fácilmente podemos mantener los viejos de esta manera, escribiendo ver X es igual a la variable cx que los datos y lo mismo para los

03:39.050 --> 03:45.580
estados, simplemente podemos agregar aquí H x es igual variable xx que los datos están en.

03:45.650 --> 03:46.570
Buena cosa hecha.

03:46.580 --> 03:52.880
Ahora podemos salir del resto porque básicamente hemos terminado con estos dos casos, ya sea que el juego haya terminado

03:52.910 --> 03:58.340
o no, pero nos mantenemos en el ciclo while porque ahora vamos a hacer algunas cosas más,

03:58.340 --> 04:00.450
que básicamente son todo el entrenamiento. proceso.

04:00.530 --> 04:05.960
Y entonces, lo que vamos a hacer ahora es inicializar varias variables que van a estar en el

04:06.050 --> 04:07.990
corazón de los cálculos en el entrenamiento.

04:08.180 --> 04:13.660
Así que hagamos esto, vamos a necesitar los valores que recordar es la salida del crítico.

04:13.790 --> 04:15.170
Esa es la función.

04:15.170 --> 04:17.850
Y los inicializaremos como un nido vacío.

04:17.960 --> 04:22.790
De esta manera, entonces vamos a necesitar aumentar las probabilidades.

04:22.930 --> 04:27.570
Así que suerte probs y también lo inicializaremos como una lista vacía.

04:27.590 --> 04:33.540
Entonces, por supuesto, vamos a necesitar todas las palabras que también iniciaremos como una lista vacía.

04:33.650 --> 04:38.810
Y finalmente vamos a necesitar que la entropía sea algo nuevo.

04:38.960 --> 04:43.240
Pero este es, de hecho, el corazón de las condiciones de entrenamiento.

04:43.280 --> 04:45.120
Hasta que sea igual de bien.

04:45.170 --> 04:50.690
comenzar un nuevo ciclo FOR y luego esta ninfa actualizará los valores de estas cuatro variables.

04:50.690 --> 04:53.350
Entonces, ahora que inicializamos estas cuatro variables, podemos

04:53.420 --> 04:59.330
Y entonces este nuevo Foluke va a ser un círculo completo sobre los pasos de expiración y, por lo tanto, la

04:59.330 --> 05:01.530
variable de bucle va a ser nuestros pasos.

05:01.550 --> 05:11.570
Entonces, para un paso en el rango y en el interior podemos poner directamente quizás punto sin paradas porque el parámetro en algunos pasos

05:11.660 --> 05:15.170
es exactamente el número de pasos de la aceleración.

05:15.170 --> 05:19.190
Entonces, para todos los pasos en la aceleración, ¿qué hacemos?

05:19.370 --> 05:22.690
Bueno, vamos a obtener las predicciones del modelo.

05:22.740 --> 05:28.730
el modelo y aplicarlo a las entradas que ingresan a través de los cerebros del modelo.

05:28.730 --> 05:33.670
Ahora, lo que devuelve el modelo y para obtener estas predicciones, podemos simplemente tomar

05:33.830 --> 05:39.020
Y eso nos dará los resultados, pero obtendrá varios resultados, sabe que nos dará los valores

05:39.020 --> 05:42.010
de la función que es el resultado de la crítica.

05:42.200 --> 05:48.560
Entonces el q valora QSA, que es la salida del actor, pero también no se olvide que también dará

05:48.680 --> 05:54.830
como resultado el desplome de los estados Doheny y los estados pequeños porque recuerda que si volvemos a nuestro

05:54.830 --> 06:00.230
modelo bien en la función forward podemos ver que efectivamente devuelve la salida de la crítica.

06:00.320 --> 06:08.090
Ese es el valor de la función sí, entonces la salida del actor que del cubo valora QSA y también la salida

06:08.090 --> 06:14.930
del CM que es este doble, comprueba y ve X entonces los estados y los estados de la celda.

06:14.930 --> 06:16.910
Entonces debemos ser cuidadosos con eso.

06:16.910 --> 06:22.310
Esto es bastante diferente de lo que sucedió antes y, por lo tanto, ahora vamos a aplicarlos todos

06:22.310 --> 06:24.470
a las entradas, que es el estado.

06:24.530 --> 06:28.020
Pero ahora hay varias cosas que hacer que están relacionadas con la tortura.

06:28.030 --> 06:31.130
Pero eso da poder a lo que estamos haciendo.

06:31.190 --> 06:39.920
Lo primero que debemos hacer es exprimir los estados para agregar esta dimensión que debe tener el

06:39.920 --> 06:40.880
índice 0.

06:40.910 --> 06:47.080
Eso es porque el modelo solo puede aceptar un lote de entradas y no un fin en sí mismo en un vector o intensificador.

06:47.240 --> 06:53.320
Eso es lo primero que debemos hacer y exprimir, pero eso no es todo lo que

06:53.360 --> 06:58.950
necesitamos para convertir nuestros estados de entrada en una antorcha anulable, así que yo aquí.

06:59.180 --> 07:05.660
Entonces ahora estamos con el estado de policía estatal, pero recuerde que las entradas de las cuatro funciones son en realidad

07:05.660 --> 07:06.990
la imagen de entrada.

07:06.990 --> 07:14.660
Eso es lo que acabamos de cuidar, pero también este tipo de edad X los estados y los Estados celulares, y por lo

07:14.900 --> 07:16.500
tanto, tenemos que agregar aquí.

07:16.610 --> 07:23.160
Esta segunda parte de la entrada con su apelación de edad X y 6.

07:23.190 --> 07:23.690
Todo bien.

07:23.730 --> 07:26.410
Y debemos tomar el paréntesis.

07:26.430 --> 07:32.550
Ahí vamos, tenemos nuestras dos entradas, la primera son los estados de entrada que son imágenes de entrada

07:32.550 --> 07:38.580
convertidas en variables y comprimidas para agregar esta dimensión falsa del lote y detienen todos los estados y

07:38.760 --> 07:40.260
los estados del sur.

07:40.440 --> 07:41.630
Así que estamos todos bien para irnos.

07:41.670 --> 07:43.890
Estamos listos para obtener nuestras predicciones.

07:44.100 --> 07:46.360
Y ahora desde este regreso.

07:46.500 --> 07:52.530
salida de la crítica hasta el actor y la cima todas las reinstalaciones necesarias por el CME.

07:52.530 --> 07:54.430
Bueno, nuestras tres predicciones son la

07:54.630 --> 07:59.840
Bueno, vamos a presentar algunas tres nuevas variables ahora que lanzarán tres salidas.

07:59.910 --> 08:05.380
Entonces, obtenemos que la primera salida es el valor de la función V que es la salida de la crítica.

08:05.520 --> 08:07.960
Así que vamos a llamarlo así.

08:08.490 --> 08:08.960
Entonces ahí vamos

08:08.970 --> 08:10.250
Esa es la primera salida.

08:10.350 --> 08:14.630
Entonces, la segunda salida será la salida del actor.

08:14.760 --> 08:16.820
Y ese es el Q valora QSA.

08:17.130 --> 08:24.570
Pero como los valores q están asociados a las acciones también podemos llamarlos valores de acción.

08:24.690 --> 08:25.550
Todo bien.

08:25.710 --> 08:28.850
Y luego encuentra una salida devuelta por el mañana.

08:28.920 --> 08:37.380
Ese es el doble del impuesto de ventas oculto y los estados de celda ven X y luego vamos,

08:37.620 --> 08:40.110
tenemos tres salidas devueltas perfectas.

08:40.110 --> 08:45.750
Entonces, ahora que tenemos las prediciones, necesitamos usar un Max suave para ejecutar la acción correcta.

08:45.750 --> 08:48.560
Y ahora eso va a ser exactamente lo mismo que hicimos antes.

08:48.600 --> 08:57.320
ahora y, por supuesto, los valores reales que son los q valores que son los resultados del actor en el modelo.

08:57.320 --> 09:05.570
El siguiente paso es obtener nuestras probabilidades para que podamos llamarlas y eso es lo que usamos para mejorar el

09:05.570 --> 09:12.270
método de Max, que tomamos del módulo funcional que tiene una oportunidad para ff que Max

09:12.290 --> 09:19.150
generó y que generará una distribución de probabilidades de la entrada que estamos a punto de poner

09:19.220 --> 09:25.070
Ocasionalmente tenemos nuestras probabilidades, pero como habrás notado, vamos a trabajar con la entropía y la entropía

09:25.130 --> 09:31.280
conjunta no solo daría lugar a las probabilidades sino también a las probabilidades de LUGG porque la entropía

09:31.280 --> 09:37.280
es la suma del producto del problema de Lucke. veces trub todo esto multiplicado por menos 1.

09:37.400 --> 09:46.420
Y por eso también debemos obtener nuestro amor por lo mismo que se va a generar a partir de LUGG soft max.

09:46.460 --> 09:51.580
decir que aplicamos al cubo y usamos lo que llamamos los valores de acción.

09:51.860 --> 10:01.260
Entonces, en lugar de tomar una distribución de las probabilidades, tomamos una distribución de las probabilidades y eso es lo que hacemos con LUGG. La función

10:02.500 --> 10:04.490
Optimax golpea la función Optimax para

10:04.500 --> 10:07.520
De acuerdo, ahora tenemos el problema y el bloqueo.

10:07.600 --> 10:11.700
Y entonces estamos listos para obtener la entropía y la entropía.

10:12.250 --> 10:13.680
¿Cuál es la fórmula para eso?

10:13.780 --> 10:19.830
Bueno, como acabo de mencionar, tomamos la indicación de suerte que multiplicamos por el producto.

10:20.200 --> 10:28.250
Luego vamos a tomar la suma de todo esto y para hacer eso podemos agregar aquí que alguien realmente usamos la

10:28.250 --> 10:29.920
calle muchas veces ahora.

10:30.230 --> 10:33.500
Y como dijimos multiplicamos esto por menos 1.

10:33.740 --> 10:37.150
Entonces es el menos de la suma del producto.

10:37.170 --> 10:38.600
Muchas veces

10:39.140 --> 10:39.750
Perfecto.

10:39.860 --> 10:45.380
Y ahora vamos a almacenar esta entropía que fue calculada en nuestra lista de entropía.

10:45.650 --> 10:48.550
Ahí vamos, tenemos el último cálculo de la entropía.

10:48.590 --> 10:53.660
Y entonces tenemos que almacenarlo en la lista de entropías y para hacer esto nada más simple vamos

10:53.660 --> 10:57.450
a usar la función de agregar, por supuesto, porque entropies es una lista.

10:57.500 --> 11:04.790
Entonces tomamos nuestra lista de entropías y luego comenzamos y usamos la función de agregar para agregar la

11:04.790 --> 11:06.550
entropía que se calcula.

11:06.560 --> 11:08.440
Muy bien, así que vamos a tomar un descanso ahora.

11:08.450 --> 11:14.210
Vamos a hacer esto paso a paso en la siguiente historia que jugará la acción tomando un sorteo

11:14.360 --> 11:16.740
al azar de esta distribución de probabilidades generada.

11:17.030 --> 11:22.310
Y después de que juguemos la acción obtendremos el valor de este estado y eventualmente almacenaremos nuestra

11:22.310 --> 11:24.310
nueva recompensa de estados de transición.

11:24.360 --> 11:29.430
Y eso será un nuevo gran paso hecho y lo completaremos en el siguiente obstáculo.

11:29.570 --> 11:31.020
Hasta entonces I.