WEBVTT

00:01.340 --> 00:02.810
Hola y bienvenido de nuevo.

00:03.200 --> 00:10.010
En la última lección, vio cómo usamos nuestras funciones auxiliares para configurar realmente el núcleo de nuestra funcionalidad para

00:10.010 --> 00:11.300
entrenar nuestros modelos.

00:11.300 --> 00:16.370
Así que teníamos nuestro estado terminal, nuestra ubicación inicial, nuestra próxima acción, la próxima ubicación y la

00:16.370 --> 00:21.230
ruta más corta realmente define la mayor parte de cómo funcionará nuestro agente o nuestro entorno.

00:21.560 --> 00:25.460
Lo último que tenemos que hacer es usar nuestro entrenamiento para usar nuestro entrenamiento.

00:25.460 --> 00:31.280
Es bastante sencillo en el sentido de lo que debemos incluir, pero cómo lo hacemos es una historia

00:31.280 --> 00:31.670
diferente.

00:32.240 --> 00:36.800
Dicho esto, también, si usan un enfoque diferente o si quieren personalizarlo y experimentar con

00:36.800 --> 00:38.300
él, es muy recomendable.

00:38.600 --> 00:42.410
Además de eso, si utiliza un enfoque diferente y desea discutirlo, no dude en compartirlo en

00:42.410 --> 00:43.520
las preguntas y respuestas.

00:43.730 --> 00:45.410
Más que felices de discutirlo con usted.

00:45.410 --> 00:50.480
Es una gran idea porque hay muchas maneras de resolver esto y es posible que encuentre una manera

00:50.480 --> 00:52.190
que sea mucho mejor, más ventajosa.

00:52.190 --> 00:55.520
Podríamos ver los pros y los contras nuevamente, más que felices de discutirlo.

00:55.670 --> 00:56.030
Bien.

00:56.090 --> 00:57.260
Entonces, ¿qué tenemos que hacer?

00:57.260 --> 00:58.880
Tenemos que poner en marcha nuestra formación.

00:59.210 --> 00:59.990
Para nuestra formación.

00:59.990 --> 01:01.490
Queremos usar el Epsilon.

01:01.490 --> 01:08.930
Básicamente, el porcentaje que tomaremos para la mejor acción para R en lugar de una acción aleatoria.

01:08.930 --> 01:15.650
Así que configuremos nuestro épsilon y configurémoslo en 0. 9 y vamos a hacer algo similar con nuestros valores para nuestro

01:15.650 --> 01:17.900
factor de descuento y nuestra tasa de aprendizaje.

01:18.140 --> 01:23.030
Así que hagamos un factor de descuento igual a 0. 9.

01:23.690 --> 01:29.480
Tomemos también nuestra tasa de aprendizaje y fijémosla en 0. 9.

01:29.900 --> 01:33.620
Esa va a ser la tasa que nuestro agente va a o debería aprender.

01:33.920 --> 01:39.140
Y también queremos tomar el número de episodios de entrenamiento, llamémoslo, y episodios de entrenamiento.

01:39.290 --> 01:41.300
Así que tenemos una serie de episodios de entrenamiento.

01:41.300 --> 01:42.500
Pongámoslo a mil.

01:42.500 --> 01:46.400
¿Cuántas veces se va a entrenar o en cuántos episodios se va a entrenar?

01:48.050 --> 01:48.500
Impresionante.

01:49.130 --> 01:52.870
Ahora, esencialmente lo que queremos hacer es iterar a través de cada episodio.

01:52.880 --> 02:00.060
Queremos tomar el rango de nuestro número de episodios de entrenamiento y establecer básicamente nuestro épsilon.

02:00.080 --> 02:01.760
Queremos encontrar nuestra diferencia temporal.

02:01.760 --> 02:04.610
Para establecer eso, necesitamos mirar algunos valores Q anteriores.

02:04.610 --> 02:08.210
Necesitamos calcular nuestra posición inicial en nuestro índice de acción.

02:08.660 --> 02:10.520
Entonces empecemos.

02:11.060 --> 02:12.440
Tomemos un bucle for grande.

02:12.450 --> 02:14.450
Así que tenemos nuestro cuarto episodio.

02:16.810 --> 02:19.780
En el rango de nuestro número de episodios de entrenamiento.

02:22.060 --> 02:22.540
Aquí vamos.

02:22.690 --> 02:31.360
Salvo cualquier error de sintaxis de mi parte allí, queremos tomar el índice de fila y el índice de columna para nuestra cuadrícula

02:31.360 --> 02:33.700
para nuestra Sra. índice de columna

02:36.080 --> 02:41.240
Y dijo una ubicación de inicio de destino, necesitamos una ubicación de inicio.

02:41.240 --> 02:44.210
Así que tengamos esa mala hora en cada episodio.

02:45.100 --> 02:49.300
Ahora podemos configurar nuestro estado terminal while.

02:51.180 --> 02:51.690
No.

02:52.850 --> 02:56.110
Es estado terminal.

02:56.360 --> 03:01.280
Queremos ver el índice de fila y el índice de columna.

03:02.330 --> 03:02.720
Bueno.

03:03.110 --> 03:07.160
A continuación, configuremos nuestro índice de acción para nuestra próxima acción.

03:07.430 --> 03:08.990
Así que necesitamos nuestra próxima acción.

03:08.990 --> 03:16.550
A medida que este agente recorre los medios para nuestro índice de acción, podemos usar nuestra próxima acción.

03:17.770 --> 03:24.730
Y podemos usar nuestro índice de columna de índice de fila y llamemos a nuestro epsilon.

03:24.730 --> 03:29.620
Así que queremos tener esto en lugar de nuestra acción aleatoria, usemos el índice de columna.

03:31.930 --> 03:33.610
Y necesitamos a Epsilon.

03:34.270 --> 03:34.650
Impresionante.

03:35.320 --> 03:36.610
Si pudiera escribir correctamente.

03:36.610 --> 03:38.950
Aquí, queremos a Epsilon.

03:39.790 --> 03:41.380
Está bien, déjame borrar esto.

03:41.680 --> 03:42.070
Bueno.

03:42.460 --> 03:46.930
Déjame agarrar el resto del código y lo revisaremos para que no tengas que verme escribir

03:47.350 --> 03:47.980
cada línea.

03:48.400 --> 03:51.440
Pero tenga en cuenta cómo queremos abordar esto.

03:51.460 --> 03:54.940
Compensando la fila anterior, necesitaríamos un índice de fila anterior.

03:55.180 --> 04:00.130
También nos gustaría tener las recompensas para nuestras columnas y nuestras filas.

04:00.370 --> 04:05.140
Necesitamos echar un vistazo a los valores de cola y los valores de cola antiguos, y necesitamos calcular nuestra diferencia

04:05.140 --> 04:05.620
temporal.

04:06.190 --> 04:06.640
Bueno.

04:06.880 --> 04:09.820
Entonces ves el cambio en el código o la actualización del código.

04:10.030 --> 04:16.150
Estamos tomando nuestro índice de fila anterior y nuestro índice de columna anterior para ver nuestro índice de fila y el índice de columna.

04:16.480 --> 04:20.020
Nuestro índice de columna de índice de fila es igual a nuestra próxima ubicación.

04:20.020 --> 04:24.070
Y nuestra próxima ubicación necesitaría el índice de fila, columna, índice y acción.

04:25.280 --> 04:27.110
Por último, estamos buscando recompensas.

04:27.710 --> 04:34.580
Nuestros valores Q anteriores serían valores Q con el índice de fila anterior, el índice de columna anterior y nuevamente, haciendo referencia

04:34.580 --> 04:40.640
a nuestro índice de acción y el cálculo de nuestra diferencia temporal, que es nuestra recompensa, más el factor

04:40.640 --> 04:47.630
de descuento multiplicado por los valores Q con la fila índice e índice de columna menos el valor Q antiguo del valor Q

04:47.630 --> 04:48.140
anterior.

04:49.980 --> 04:55.980
Casi terminado donde necesitamos nuestro nuevo valor Q, que es nuestro antiguo valor de referencia, más la tasa de aprendizaje,

04:55.980 --> 05:03.330
los tiempos, la diferencia temporal y nuestros valores de referencia con el índice de fila anterior en nuestro índice de columna anterior igual al nuevo

05:03.360 --> 05:04.320
valor de referencia.

05:05.770 --> 05:09.850
Si quieren seguir discutiendo esto, nuevamente, les recomiendo las preguntas y respuestas.

05:09.850 --> 05:11.080
Por favor, siéntase libre de imprimir.

05:11.320 --> 05:13.630
Trate de experimentar con todas las variables utilizadas aquí.

05:13.630 --> 05:18.430
Si desea ver su forma, ver cómo se pueden usar, a qué se refiere, lo recomiendo encarecidamente y estoy más

05:18.430 --> 05:20.380
que feliz de discutirlo más a fondo.

05:21.130 --> 05:24.430
Una última cosa que podemos hacer, tenemos una pequeña notificación.

05:24.700 --> 05:29.950
Agreguemos una declaración de impresión para que sepamos cuándo se completó el entrenamiento para nuestras mil filas.

05:29.980 --> 05:30.580
Bien.

05:30.970 --> 05:34.570
Si no hay errores de sintaxis de mi parte, deberíamos estar listos para comenzar.

05:34.600 --> 05:36.730
El cuaderno de columnas se inicializa.

05:36.730 --> 05:38.610
Volví a ejecutar todo, así que déjame ejecutar esto.

05:38.620 --> 05:41.410
Debería ser muy rápido ya que solo estamos usando numpy.

05:41.620 --> 05:43.750
Es un modelo muy optimizado en cierto sentido.

05:44.050 --> 05:46.840
Déjame hacer clic aquí y luego buscaremos el camino más corto.

05:48.310 --> 05:48.750
Bien.

05:48.760 --> 05:50.020
Tenemos nuestra formación completa.

05:50.590 --> 05:54.760
También imprimamos la ruta más corta para algunas opciones de inicio.

05:54.760 --> 05:59.650
Así que estamos comenzando una fila tres, columna nueve con la opción de ruta más corta con nuestra ruta más corta.

06:00.130 --> 06:06.670
Queremos ver la fila cinco y cero y comenzar en la fila nueve y la columna número cinco.

06:07.120 --> 06:08.080
Imprimamos estos.

06:08.890 --> 06:09.370
Impresionante.

06:09.370 --> 06:12.280
Tenemos el camino más corto, pero no hemos terminado.

06:12.460 --> 06:13.390
Casi estámos allí.

06:13.930 --> 06:20.650
Podemos ver que nuestro cartero obtiene automáticamente el camino más corto desde una ubicación legal que podemos considerar desde nuestra ciudad hasta

06:20.650 --> 06:22.780
el área de empaque del artículo.

06:22.790 --> 06:27.430
Pero, ¿qué pasaría al revés del escenario opuesto, básicamente refiriéndose a, ya sabes, nuestro cartero puede entregar

06:27.430 --> 06:31.090
un artículo desde cualquier lugar de la ciudad al área de empaque?

06:31.390 --> 06:37.510
Pero después del artículo, tendría que ir desde esa área, desde el área de empaque a otro lugar en la

06:37.510 --> 06:40.180
ciudad, porque tendría que recoger el siguiente artículo.

06:40.660 --> 06:43.780
Entonces, ¿qué podemos hacer para solucionar esto?

06:43.780 --> 06:45.220
Y en realidad es bastante simple.

06:45.400 --> 06:47.890
Podrías revisar el orden del camino más corto.

06:48.730 --> 06:51.940
Intenta pensar en eso por un segundo y luego esta sería la solución.

06:53.320 --> 06:55.110
Podemos usar el camino más corto.

06:55.120 --> 07:00.550
Entonces, tomemos la escritura cinco y la columna dos y luego todo lo que necesita hacer es usar la opción inversa

07:00.550 --> 07:01.150
con Python.

07:01.270 --> 07:04.270
Usamos path dot reverse y podríamos imprimir la ruta.

07:04.570 --> 07:06.040
Así que estamos viendo cinco y dos.

07:07.050 --> 07:07.800
Y ahí vamos.

07:07.800 --> 07:09.220
Tenemos el camino más corto.

07:09.420 --> 07:14.250
Y es realmente útil si desea capturar la imagen en la celda y bajarla para comparar y ver

07:14.250 --> 07:14.910
esas rutas.

07:14.910 --> 07:20.310
Pero en realidad puede ver el camino si toma el estado de cuenta impreso, mira la columna

07:20.310 --> 07:23.250
en el pedido y ve cómo viaja el vendedor.

07:23.250 --> 07:25.560
Tan impresionante trabajo que estás usando.

07:25.770 --> 07:26.610
Aprendizaje Q.

07:26.880 --> 07:32.550
Lo que aprendimos de este curso tiene un pequeño escenario adicional y divertido en la sección para resolver

07:32.550 --> 07:35.070
este tipo de problema esencialmente de vendedor ambulante.

07:35.070 --> 07:40.770
Estamos buscando al cartero para que entregue paquetes y artículos en la ciudad para encontrar las opciones y los caminos

07:40.770 --> 07:41.640
más cortos.

07:41.670 --> 07:47.400
Le recomiendo encarecidamente que personalice, pruebe otras opciones, cambie los hiperparámetros y, si descubre algo

07:47.400 --> 07:53.670
mejor, si descubre alguna optimización o los mejores parámetros para usar, no dude en compartirlos en las

07:53.670 --> 07:54.990
preguntas y respuestas.

07:55.620 --> 07:56.280
Increíble.

07:56.300 --> 07:58.110
Espero que hayan disfrutado mucho esto.

07:58.320 --> 08:01.350
Personaliza, experimenta y sigue aprendiendo.

08:01.380 --> 08:02.970
Es muy divertido trabajar contigo.

08:02.970 --> 08:04.820
Aprender y disfrutar I.