WEBVTT

00:01.400 --> 00:02.990
Hola y bienvenido de nuevo.

00:03.320 --> 00:08.930
En la última lección terminamos de terminar o finalizar la definición actual de nuestro entorno, la

00:08.930 --> 00:14.090
representación de nuestros valores, nuestro castigo en recompensas y nuestras acciones en el entorno.

00:14.450 --> 00:20.510
En esta conferencia, lo que quiero hacer es presentar la capacitación, la idea detrás de cómo entrenar

00:20.510 --> 00:22.730
el modelo y ayudarlo a comenzar.

00:22.910 --> 00:28.340
Y luego, en la siguiente lección, brinde la solución y más desglose de los pasos involucrados.

00:28.610 --> 00:32.660
Entonces necesitamos entrenar al modelo lo que se requeriría de entrenamiento.

00:33.620 --> 00:38.750
Este es un enfoque que podemos usar para los siguientes pasos para entrenar el modelo.

00:38.750 --> 00:44.180
Queremos elegir un estado no terminal aleatorio, que sería el cuadrado blanco de nuestro agente, y así es

00:44.180 --> 00:46.880
como queremos comenzar en nuestro episodio de entrenamiento.

00:47.330 --> 00:50.300
Entonces, por supuesto, queremos elegir una acción para el estado actual.

00:50.300 --> 00:53.030
Necesitamos que nuestro agente pueda moverse por el entorno.

00:53.210 --> 00:59.150
Entonces, las acciones para nosotros y nuestro agente en este desafío se elegirán usando Epsilon Greek.

00:59.780 --> 01:04.730
Este algoritmo generalmente elegirá la acción más prometedora para el agente, pero ocasionalmente elegirá una

01:04.730 --> 01:05.810
opción menos prometedora.

01:05.810 --> 01:10.580
Para alentar al agente a explorar el entorno, realmente queremos encontrar la política óptima.

01:11.300 --> 01:14.960
Luego queremos realizar la acción elegida y pasar al siguiente estado.

01:15.200 --> 01:16.340
Mover a la siguiente ubicación.

01:16.550 --> 01:21.200
Y por qué digo esto es porque quiero que piensen en cómo pueden dividir esto en

01:21.200 --> 01:22.760
funciones para resolver este problema.

01:23.540 --> 01:29.390
Luego, necesitamos recibir una recompensa por ir a un nuevo estado y luego calcular la diferencia temporal.

01:29.750 --> 01:35.480
Tenemos que actualizar el valor Q para el estado anterior y el par de acción, y si la nueva moneda es un

01:35.480 --> 01:37.280
estado terminal, entonces pasaríamos a uno.

01:37.610 --> 01:39.200
De lo contrario iríamos al paso número dos.

01:39.470 --> 01:43.400
Entonces, durante todo el proceso, vamos a tratar de ejecutar mil episodios para entrenar.

01:43.670 --> 01:50.750
Esto nos dará suficiente oportunidad o a nuestro agente suficiente oportunidad para calcular el camino más corto entre el área

01:50.750 --> 01:55.520
de empaque del artículo y otras ubicaciones en nuestra ciudad de ejemplo.

01:56.540 --> 01:57.020
Impresionante.

01:57.530 --> 02:02.840
Entonces, piense en cómo aborda esto y quiero ayudarlo a darle una idea para tratar de resolverlo.

02:03.050 --> 02:07.970
Así que estaríamos viendo en nuestra solución, vamos a usar las siguientes funciones.

02:08.540 --> 02:11.540
De hecho, puedo comentar esto ya que es un código, así que mis disculpas.

02:11.960 --> 02:13.070
No queremos un signo de dólar.

02:13.310 --> 02:17.990
Queremos comentarlos y te ayudaré a comenzar con el primero.

02:18.990 --> 02:25.650
En general, vamos a tener estas funciones definiendo nuestros pasos para entrenar el modelo y ayudarlo a

02:25.650 --> 02:26.470
comenzar.

02:26.490 --> 02:31.140
Echemos un vistazo a cómo abordaríamos el estado terminal al crear una función dentro de Python para

02:31.140 --> 02:31.440
esto.

02:31.800 --> 02:36.150
Lo primero es lo primero, por supuesto, querríamos definir nuestra función tal como es.

02:37.640 --> 02:39.230
Estado terminal.

02:40.670 --> 02:44.630
Y estos son los nombres de las funciones que verás para darte una idea que podría ayudarte a

02:44.630 --> 02:45.050
desglosarlo.

02:45.500 --> 02:50.870
Lo que queremos hacer es tomar el índice de fila actual y el índice de columna actual.

02:52.980 --> 03:01.440
Esto nos ayudará a darnos la posición de nuestro agente, y podemos agregar aquí para nuestras recompensas un verdadero o

03:01.440 --> 03:02.000
falso.

03:02.010 --> 03:02.610
Así que lo necesitamos.

03:03.150 --> 03:05.490
Así que establezcamos nuestras recompensas.

03:07.430 --> 03:08.300
De nuestra corriente.

03:09.410 --> 03:11.270
Índice de fila.

03:12.510 --> 03:13.260
y actual

03:14.040 --> 03:19.890
Índice de columna igual a uno negativo si están en ese estado.

03:24.330 --> 03:28.200
Devolveríamos falso o de lo contrario o de lo contrario.

03:29.880 --> 03:30.690
Volveríamos.

03:31.500 --> 03:31.830
Verdadero.

03:33.620 --> 03:34.670
Bastante sencillo.

03:35.450 --> 03:41.360
Y así es como vamos a obtener nuestra idea de nuestro estado terminal después de saber si existe en el

03:41.360 --> 03:44.090
estado terminal, luego queremos obtener la ubicación inicial.

03:44.270 --> 03:50.660
Como sugerencia, puede echar un vistazo al uso del índice de fila actual en el índice de columna actual

03:50.660 --> 03:52.730
y configurar numpy con random.

03:52.730 --> 03:56.960
Queremos inicializar eso aleatoriamente en las columnas de entorno de las filas de entorno.

03:57.290 --> 04:00.590
Pero en la próxima lección verás un desglose.

04:00.590 --> 04:04.520
Verás el resto de funciones con algunas notas para ayudarte a darte una idea.

04:04.880 --> 04:08.960
Realmente espero que aprovechen la oportunidad de experimentar con esto porque es una forma increíble de aprender,

04:08.960 --> 04:12.050
ayudarlos a tener una idea y esto es para ayudarlos a comenzar.

04:12.260 --> 04:15.080
Así que no te preocupes, obtendrás la solución en la próxima lección.

04:15.320 --> 04:21.730
Y luego vamos a concluir asignando un excelente factor de descuento para el aprendizaje, ese tipo de cosas para la capacitación,

04:21.800 --> 04:25.490
la ejecución de la capacitación y la visualización de los resultados.

04:26.030 --> 04:26.660
Impresionante.

04:27.380 --> 04:29.360
Detengámonos aquí de nuevo.

04:29.750 --> 04:30.830
Intenta resolver esto.

04:30.830 --> 04:35.360
Pero si no, si solo quiere avanzar, vaya a la próxima lección y obtendrá la

04:35.360 --> 04:37.910
solución para el entrenamiento para definir estas funciones.

04:38.450 --> 04:40.130
Muy bien, los veré en la próxima lección.