WEBVTT

00:00.330 --> 00:02.170
Hola y bienvenidos a Statoil.

00:02.400 --> 00:06.270
De acuerdo, entonces calculamos la entropía y la agregamos a la lista de entropías.

00:06.270 --> 00:11.640
Y ahora lo que vamos a hacer es tomar una gota aleatoria de una acción de acuerdo con la distribución

00:11.700 --> 00:13.190
de probabilidades de la siguiente.

00:13.200 --> 00:14.540
Entonces, hagamos esto.

00:14.540 --> 00:15.780
Ese es el siguiente paso.

00:15.870 --> 00:19.910
Todavía estamos en el circuito porque todavía estamos ejecutando los pasos aquí.

00:20.160 --> 00:22.550
Y ahora sabes cómo jugar la acción.

00:22.590 --> 00:28.740
Primero introduciremos una variable para la acción llamada acción y luego tomaremos nuestra

00:28.740 --> 00:37.350
distribución de probabilidades y vamos a usar la función neuronal multi nulo para tomar un sorteo al azar de

00:37.350 --> 00:41.390
esta distribución de probabilidades y luego agregaremos esa información.

00:41.500 --> 00:48.550
Por lo tanto, es importante tener en cuenta que la acción en realidad será un tensor con un solo valor, pero

00:48.550 --> 00:51.010
no debería ver esto como un valor simple.

00:51.010 --> 00:57.050
Debería ver esto como una condena de tensor uno por uno que contiene este valor para la acción.

00:57.190 --> 01:02.970
Y eso es porque no está exprimido aún en el mismo ciclo for.

01:02.970 --> 01:09.880
Vamos a obtener la probabilidad de registro asociada a la acción que acabamos de jugar.

01:10.170 --> 01:16.750
Y cuando estoy saliendo con mi probabilidad de suerte aquí tomando la anterior suerte de la

01:16.810 --> 01:25.480
que calculamos aquí y luego voy a usar el otro método al que voy a ingresar 1 y la acción que

01:25.480 --> 01:31.510
fue solo jugando porque queremos obtener la probabilidad de suerte asociada a esta acción.

01:31.510 --> 01:38.230
Y entonces el segundo argumento aquí voy a poner mi acción, pero tiene que haber una tortura horrible como lo

01:38.860 --> 01:44.530
requiere la función recopilada y la función recopilada simplemente indexa con un número entero de tensor.

01:44.530 --> 01:48.910
Muy bien, ahora tenemos el aspecto de asociado a la acción que se mostró.

01:49.030 --> 01:53.790
Y ahora el siguiente paso es agregar lo que tenemos a la lista aquí.

01:53.800 --> 01:55.570
Así que obtuvimos el valor.

01:55.750 --> 01:58.820
Eso es lo que obtuvimos aquí como resultado del modelo.

01:58.840 --> 02:00.880
Entonces también tenemos el problema de bloqueo.

02:00.910 --> 02:04.030
Así que vamos a agregar el bloqueo a la lista de accesorios de bloqueo.

02:04.180 --> 02:09.610
Ya agregamos que la entropía a la entropía es menos buena y las recompensas la obtendrán después.

02:09.700 --> 02:15.250
Entonces, ahora nos abriremos al valor y observaremos la lista de valores y el proceso legal.

02:15.520 --> 02:16.180
Hagámoslo.

02:16.180 --> 02:23.800
la función de gasto y agregamos el valor que fue devuelto por el modelo perfecto luego Igual para los

02:23.920 --> 02:32.700
problemas de bloqueo. Acabamos de obtener nuestros nuevos accesorios y los vamos a agregar a la lista de accesorios de bloqueo.

02:32.710 --> 02:36.080
Tomamos nuestra lista de valores. Agregamos que usamos

02:36.180 --> 02:43.960
Y así en esta función de adición podemos poner un registro de nuestra suerte, probablemente fue calculado aquí.

02:43.960 --> 02:47.320
Está bien, entonces nuestras listas están ahora bien actualizadas.

02:47.350 --> 02:53.060
Ahora lo que vamos a hacer es jugar la acción porque en realidad aquí seleccionamos la acción

02:53.060 --> 02:56.570
tomando un sorteo al azar de la distribución de probabilidades aquí.

02:56.650 --> 03:03.040
Pero en realidad todavía no lo hemos jugado y vamos a jugarlo ahora para poder alcanzar el nuevo estado y,

03:03.220 --> 03:06.150
por lo tanto, obtener la nueva transición y jugarla.

03:06.170 --> 03:10.960
jugamos la acción en nuestro entorno y luego vamos a usar el método de paso.

03:10.960 --> 03:12.990
Vamos a tomar nuestro entorno porque

03:13.210 --> 03:20.650
Y en el interior especificamos la acción que se seleccionó para reproducirlo y para ello tomamos nuestra acción y agregamos que

03:20.650 --> 03:25.280
ninguno por, porque eso es lo que se espera que sea la función.

03:25.750 --> 03:35.820
Ok, pero esto devuelve el nuevo estado y también la nueva recompensa porque al alcanzar el nuevo estado obtenemos una nueva recompensa

03:36.000 --> 03:43.500
y también obtenemos un nuevo valor para que Dunn sepa si el juego está hecho o no.

03:43.500 --> 03:49.180
Muy bien, con esto jugamos la acción, alcanzamos un nuevo estado y obtenemos una recompensa y sabemos si hemos

03:49.200 --> 03:50.510
terminado con el juego.

03:50.520 --> 03:52.740
Y hablando de haber terminado con el juego.

03:52.990 --> 03:58.590
Bueno, vamos a agregar algo aquí que asegurará que un agente no esté apilado en

03:58.590 --> 03:59.180
algún estado.

03:59.280 --> 04:04.240
Y para hacer eso vamos a actualizar eso muy bien de la siguiente manera.

04:04.860 --> 04:11.910
Bueno, va a ser igual a hacer o vamos a agregar una condición que diga que el episodio

04:11.910 --> 04:19.200
del juego no debe durar demasiado tiempo y veremos en la función principal que habrá un parámetro de

04:19.200 --> 04:21.960
longitud máxima que será igual a 10000.

04:22.170 --> 04:25.750
Y no queremos que un episodio dure más de 10000 unidades.

04:25.860 --> 04:34.200
una condición más grande que el episodio máximo de Lex, que en realidad no hemos dicho esto en detalle.

04:34.830 --> 04:43.250
Así que vamos a escuchar la duración del episodio, que es la duración de un episodio y vamos a escribir

04:43.250 --> 04:49.210
Lo estamos obteniendo de nuestros parámetros para un final aquí Paramjit pero Ramstad.

04:49.210 --> 04:50.600
Max es extenso.

04:50.600 --> 04:59.330
Esto significa que si el juego está terminado o la duración del episodio es mayor que la duración máxima del conjunto

04:59.330 --> 05:02.110
de episodios que será igual a 10000.

05:02.270 --> 05:05.410
Bueno, el juego estará listo y comenzaremos un nuevo juego.

05:05.960 --> 05:08.040
De acuerdo, eso es solo una precaución.

05:08.180 --> 05:14.360
precaución vamos a agregar otra precaución para fijar la recompensa entre menos 1 y más 1.

05:14.360 --> 05:15.400
Y hablando de

05:15.470 --> 05:20.450
Ya obtuvimos el que estábamos aquí, pero queremos asegurarnos de que la recompensa esté entre menos 1 y

05:20.450 --> 05:20.960
más 1.

05:21.140 --> 05:27.740
Y para hacer esto simplemente necesitamos actualizar la recompensa haciendo esto tomando el máximo luego de

05:28.240 --> 05:31.060
tomar los hombres de recompensa y 1.

05:31.190 --> 05:37.790
Y aquí tomamos el máximo del mínimo de recompensa y 1 y menos 1 y eso asegurará que la

05:37.790 --> 05:40.040
recompensa esté entre menos uno más uno.

05:40.160 --> 05:40.910
Todo bien.

05:40.910 --> 05:42.180
Entonces otra percusión.

05:42.380 --> 05:49.070
Y ahora solo queremos comprobar si el juego está hecho, en cuyo caso reiniciaremos el entorno.

05:49.220 --> 05:53.010
Y por qué tenemos que comprobar que ahora es porque recién llegamos a un nuevo estado.

05:53.090 --> 05:54.880
Acabamos de pasar una nueva transición.

05:54.890 --> 05:58.010
Entonces debemos verificarlo después de pasar esta nueva transición.

05:58.130 --> 06:06.860
Bueno, el juego no está hecho, así que si se hace de nuevo, en

06:07.250 --> 06:14.180
ese caso, reiniciaremos los entornos configurando la duración del episodio en cero.

06:14.330 --> 06:21.800
reiniciarse a medida que tomemos nuestro entorno y usaremos la función de reinicio OK.

06:21.800 --> 06:25.270
Y también el estado se reinicializará para

06:25.310 --> 06:29.040
Ahora salimos de esta condición que solo estaba comprobando.

06:29.230 --> 06:34.640
Y ahora lo que vamos a hacer es desde que alcanzamos un nuevo estado, mientras que este nuevo estado es

06:34.640 --> 06:40.410
Ray, de vez en cuando, porque recuerde que los estados son las imágenes de entrada que originalmente reciben el nombre de matrices.

06:40.570 --> 06:44.430
Y ahora lo que tenemos que hacer es convertir el nuevo estado en una respuesta torturada.

06:44.600 --> 06:50.410
Así que vamos a actualizar nuestro estado y vamos a usar la biblioteca de la antorcha.

06:50.630 --> 07:00.880
Y, por supuesto, la función no tailandesa para convertir este estado de no pago las imágenes de entrada en un sensor

07:00.890 --> 07:01.800
de antorcha.

07:02.150 --> 07:03.150
Perfecto.

07:03.260 --> 07:08.620
Y ahora lo último que tenemos que hacer antes de salir de este ciclo es el ciclo

07:08.810 --> 07:13.030
de nuestros pasos Bueno, por supuesto, pasar la recompensa a la lista de observación.

07:13.040 --> 07:18.310
Eso es lo último que debe actualizarse. Actualizamos toda la lista aquí excepto la recompensa.

07:18.320 --> 07:24.830
Así que vamos a hacer eso en este momento tomamos nuestras recompensas y usamos su función cerebral para

07:24.830 --> 07:28.110
anexar la última palabra que acaba de recibir perfecta.

07:28.220 --> 07:36.110
Y justo antes de salir del bucle for, solo tenemos que hacer una última comprobación para verificar que, si está

07:37.340 --> 07:39.490
listo, queremos detener la caducidad.

07:39.530 --> 07:42.550
Y entonces simplemente vamos a agregar aquí un descanso.

07:42.560 --> 07:48.590
Lo que significa que, si lo hace, detenemos la exploración y pasamos directamente al siguiente

07:48.590 --> 07:56.930
paso, que será la actualización del modelo compartido, y ahora hemos terminado con esto por ahora que el agente ha realizado

07:56.930 --> 07:57.980
su exploración.

07:58.190 --> 08:04.910
Se actualizará el modelo compartido y que se encargará de que en el próximo tutorial y así entonces I.