WEBVTT

00:00.390 --> 00:01.110
¿Estás listo?

00:01.350 --> 00:06.930
Hagamos esto, comencemos por instalar todas las dependencias del sistema para Vista, hagamos clic en

00:06.930 --> 00:14.340
este botón de reproducción y ahora instalará todas las dependencias, como puede ver, como Pelo o ZIPPI y también algunas

00:14.340 --> 00:18.170
otras dependencias que serán necesarias para ejecutar esto con éxito.

00:18.180 --> 00:22.010
Pero todo el resto, como PLI para los módulos de gimnasio, ya están instalados.

00:22.230 --> 00:23.070
Eso es realmente asombroso.

00:23.070 --> 00:28.620
Esa es realmente la belleza del buen kulam, y es por eso que ninguno de ustedes tendrá ningún problema para

00:29.250 --> 00:31.860
ejecutar el código y visualizar el resultado final.

00:32.430 --> 00:32.790
Todo bien.

00:32.790 --> 00:35.250
Así que esto va a llevar uno o dos minutos.

00:35.250 --> 00:38.090
Así que voy a avanzar rápido aquí y ahora.

00:38.100 --> 00:41.250
Nos vemos muy pronto para el resto de la ejecución del código.

00:42.780 --> 00:47.790
Muy bien, parece que estamos al final de la instalación de las dependencias del

00:47.940 --> 00:53.430
sistema, como puede ver, las está descargando, instalándolas mientras las recopila con todos los requisitos correctos.

00:53.820 --> 00:56.670
Y en cuestión de segundos, debería estar listo.

00:57.300 --> 00:57.890
Correcto.

00:58.320 --> 01:01.060
Y veamos, tres, dos.

01:01.380 --> 01:02.040
Aquí vamos.

01:02.130 --> 01:03.900
Instaló todo con éxito.

01:03.900 --> 01:05.250
No se preocupe por estos errores aquí.

01:05.250 --> 01:11.040
No afectarán la ejecución del código, pero todo se instaló correctamente tal como queremos.

01:11.070 --> 01:11.550
Todo bien.

01:12.000 --> 01:14.520
Así que ahora el siguiente paso, muy importante.

01:14.850 --> 01:16.620
Mira esta importante nota.

01:16.620 --> 01:22.290
Dice que después de instalar todos los Benz, básicamente después de ejecutar esta primera celda aquí, debe

01:22.290 --> 01:24.030
reiniciar su tiempo de ejecución.

01:24.030 --> 01:26.550
De lo contrario, obtendrá aquí algunos errores de ejecución.

01:26.560 --> 01:27.620
Así que hagámoslo rápido.

01:27.630 --> 01:28.440
Es muy simple.

01:28.440 --> 01:33.030
Solo necesita hacer clic en tiempo de ejecución aquí y luego reiniciar el tiempo de ejecución y luego.

01:33.030 --> 01:33.420
Si.

01:33.510 --> 01:33.930
Todo bien.

01:33.930 --> 01:40.050
Esto restaurará su tiempo de ejecución y ahora puede ejecutar todas estas celdas simplemente haciendo clic en el botón de

01:40.050 --> 01:40.490
reproducción.

01:40.500 --> 01:44.530
Así que hagamos esto, comenzando con este primer preprocesamiento de imagen de archivo.

01:44.850 --> 01:45.350
Todo bien.

01:45.360 --> 01:51.750
Así que primero importemos las bibliotecas, luego procesemos previamente las imágenes con la clase de imagen de procesamiento previo.

01:51.750 --> 01:58.320
Y ahora ya pasamos a la implementación de reproducción de experiencias, es decir, esta.

01:58.570 --> 01:59.160
Todo bien.

01:59.550 --> 02:00.360
Así que hagamos esto.

02:00.360 --> 02:04.860
Primero importamos las bibliotecas, luego definimos un paso del entorno.

02:05.310 --> 02:12.360
Luego hacemos la A. YO. Progreso en varios pasos y pasos con la clase de progreso del

02:12.360 --> 02:14.610
paso final exactamente igual a la que tenemos en la carpeta.

02:14.970 --> 02:20.370
Y luego implementamos la experiencia que jugamos construyendo esta clase de memoria de repetición.

02:20.490 --> 02:20.970
Todo bien.

02:21.120 --> 02:21.750
Todo bien.

02:22.050 --> 02:24.110
Y ahora pasamos a la tercera falta.

02:24.840 --> 02:31.740
Este A. YO. Supongamos que había solicitado y luego importamos las bibliotecas.

02:31.890 --> 02:32.250
Todo bien.

02:32.250 --> 02:37.290
Así que lleva un poco de tiempo aquí porque importamos todos los módulos de la linterna, luego importamos

02:37.290 --> 02:41.040
los paquetes para abrirlos y hacerlo con el gimnasio y la sabiduría, Jim.

02:41.040 --> 02:43.080
Y la envoltura está bien.

02:43.470 --> 02:48.780
Y luego pasamos a la parte uno aquí, Edificio II, donde vamos a hacer el cerebro,

02:48.780 --> 02:51.370
luego el cuerpo y luego ensamblar todo.

02:51.390 --> 03:00.150
Así que primero hagamos que el cerebro esté bien con la clase de CNN, luego hagamos el cuerpo con la clase de

03:00.150 --> 03:04.370
cuerpo softmax y luego hagamos la IA con una clase.

03:04.710 --> 03:05.250
Todo bien.

03:05.280 --> 03:06.060
Todo bien.

03:06.420 --> 03:08.130
Y ahora estamos listos para pasar a la segunda parte.

03:08.150 --> 03:12.120
¿Vamos a entrenar la IA con, por supuesto, un profundo Q Learning convolucional?

03:12.540 --> 03:12.980
Todo bien.

03:12.980 --> 03:15.060
Tan ejecutivo, igual que lo que tenemos aquí.

03:15.540 --> 03:19.140
Primero obtenemos el entorno de Doom con nuestros nuevos módulos con Doom.

03:19.140 --> 03:20.100
No se preocupe por esto.

03:20.370 --> 03:21.390
Esto no es un error.

03:21.780 --> 03:27.510
Luego vamos a construir el A. YO. integrando los diferentes objetos para traer CNN, los cuerpos del cuerpo

03:27.510 --> 03:30.930
de Max y todo el A. YO. que contiene el cerebro y el cuerpo.

03:31.020 --> 03:31.410
Todo bien.

03:31.410 --> 03:32.310
¿Ejecuté esto?

03:32.310 --> 03:32.700
Si.

03:33.240 --> 03:34.950
Luego configuramos la experiencia.

03:34.950 --> 03:42.090
Jugamos con Insteps y la memoria como una memoria de repetición objetiva, y luego implementamos el seguimiento de

03:42.090 --> 03:42.720
elegibilidad.

03:43.170 --> 03:43.800
Todo bien.

03:43.800 --> 03:45.180
Para mejorar el rendimiento.

03:45.690 --> 03:49.950
Luego hacemos la media móvil en cien pasos con la clase M a.

03:50.220 --> 03:52.410
Y finalmente, amigos míos, ¿están listos?

03:52.530 --> 03:58.500
Bueno, ahora es el momento de la parte muy emocionante en la que vamos a entrenar al A. YO. más de veinte dólares.

03:58.500 --> 03:58.860
Todo bien.

03:58.860 --> 04:01.440
Entonces verás que esto ya será un poco largo.

04:01.440 --> 04:06.030
Sabes, tomará como, uh, tal vez una o dos horas porque aumento las dimensiones, siéntete libre

04:06.030 --> 04:09.810
de reducir las emisiones a ochenta por ochenta si te parece demasiado tiempo.

04:09.810 --> 04:12.990
Pero créeme, tendrás videos mucho mejores con estas dimensiones.

04:13.080 --> 04:15.450
¿Estás listo?

04:15.690 --> 04:20.280
Hagamos esto en tres a uno.

04:20.430 --> 04:20.880
Todo bien.

04:20.880 --> 04:26.700
Así que este ejecutará el código del entrenamiento y en unos segundos deberíamos poder ver la primera

04:26.700 --> 04:29.880
época, que tendrá, por supuesto, una recompensa negativa.

04:30.150 --> 04:35.640
Pero verás que, ya sabes, con el paso de las épocas, la recompensa irá aumentando poco a

04:35.640 --> 04:40.260
poco hasta llegar a recompensas positivas y luego hasta llegar a cientos de recompensa.

04:40.260 --> 04:42.240
Bueno, apuntemos a eso, en realidad.

04:42.240 --> 04:48.150
Esperemos que con veintiocho dólares, tengamos una recompensa final de unos cien, ya sabes, como 100

04:48.150 --> 04:53.250
o 200 o 300, porque con estas recompensas, de hecho, experimenté con ellas.

04:53.250 --> 04:53.490
Si.

04:53.490 --> 04:56.790
Primero, una recompensa negativa menos noventa y ocho.

04:57.120 --> 05:02.970
Entonces estaba diciendo que con recompensas de alrededor de 100, 200, 300, ya obtendremos excelentes resultados.

05:02.970 --> 05:08.010
Sabes, veremos al AA logrando matar algunos monstruos o evitarlos o, ya sabes,

05:08.010 --> 05:09.930
moviéndose hacia el chaleco.

05:10.020 --> 05:14.220
Bien, ese es el primer libro, uno menos noventa y ocho.

05:14.430 --> 05:18.780
Y luego, lo veremos en el libro número dos con tal vez ya una mejor recompensa.

05:18.780 --> 05:21.660
Pero, ya sabes, al principio, por supuesto, la EIA no está capacitada.

05:21.660 --> 05:23.520
Está explorando el medio ambiente.

05:23.520 --> 05:23.780
Correcto.

05:23.790 --> 05:28.620
¿Recuerda esta compensación en el aprendizaje por refuerzo, exploración versus explotación?

05:28.620 --> 05:33.180
Bueno, al principio, la idea es puramente explorar y luego se va a entrenar y

05:33.180 --> 05:37.890
luego se hará cada vez más pequeño, y ahí es cuando va a alcanzar una gran recompensa.

05:37.890 --> 05:41.040
Así que está bien tener recompensas negativas al principio.

05:41.040 --> 05:41.880
Quizás lo consigamos.

05:41.950 --> 05:47.680
Durante las tres primeras épocas, pero luego verá que después de un número cuatro, cinco o

05:47.700 --> 05:54.280
seis, bueno, comenzaremos a alcanzar quizás recompensas positivas y luego, con suerte, recompensas alrededor de 100, 200 o 300.

05:54.340 --> 05:57.580
Bien, va a tomar un poco de tiempo, como dije.

05:57.580 --> 06:02.340
Así que no vamos a quedarnos aquí dos horas, de lo contrario me quedaré sin cosas que decir.

06:02.620 --> 06:10.000
Entonces, lo que voy a hacer es poner una música divertida o genial ahora y ahí vamos, época número dos,

06:10.000 --> 06:10.830
menos 62.

06:10.840 --> 06:12.220
Entonces ya hay alguna mejora.

06:12.220 --> 06:12.640
Eso es bueno.

06:12.640 --> 06:15.790
Pero verá que habrá algunas mejoras aún mejores.

06:16.000 --> 06:18.300
Cuanto más avanzamos en las épocas.

06:18.430 --> 06:20.040
OK, entonces, ¿qué estaba diciendo?

06:20.050 --> 06:25.330
Sí, voy a poner música genial ahora y reproducir el entrenamiento en modo acelerado.

06:25.480 --> 06:30.320
Y por supuesto, nos vemos al final del entrenamiento para ver los resultados finales.

06:30.340 --> 06:30.880
Todo bien.

06:31.000 --> 06:31.840
Así que ahí vamos.

06:32.050 --> 06:34.870
Tres a uno.

07:20.010 --> 07:25.780
Muy bien, y aquí estamos al final de la capacitación, felicitaciones, entrenó un modelo de aprendizaje convolucional y profundo

07:26.010 --> 07:30.000
en una aplicación muy desafiante, que es jugar el juego de la fatalidad.

07:30.510 --> 07:31.980
Entonces, ¿por qué decir?

07:32.130 --> 07:37.080
Bueno, como esperábamos, alcanzamos una recompensa promedio de más de 100.

07:37.590 --> 07:43.190
Entonces lo que es importante decir es, por supuesto, que con más épocas, obtendrás mayores recompensas.

07:43.440 --> 07:49.350
Entonces, si está listo para, por ejemplo, entrenar este modelo para más, parece que 100 épocas o

07:49.530 --> 07:54.460
incluso más para alcanzar recompensas más de 300, 400, 500 o incluso 1000.

07:54.660 --> 07:56.000
Bueno, siéntete libre de hacerlo.

07:56.010 --> 07:59.190
Por ejemplo, puede dejar que esto se ejecute durante la noche mientras duerme.

07:59.190 --> 08:02.010
Y cuando se despierta por la mañana, obtiene mejores resultados.

08:02.370 --> 08:05.580
Tenga en cuenta que también puede usarlo en la GPU en tiempo de ejecución, a la derecha.

08:05.580 --> 08:10.500
Si cambia el tipo de tiempo de ejecución, lo cual no debería hacer, porque de lo contrario reiniciará el portátil.

08:10.500 --> 08:16.230
Pero en el acelerador de hardware aquí, puedes elegir GPU o incluso Tipu, pero eso es solo si

08:16.230 --> 08:20.190
quieres, ya sabes, optimizar el rendimiento y hacer un entrenamiento súper duro.

08:20.340 --> 08:25.060
Pero aquí utilicé algo clásico porque solo quiero mostrarte cómo ejecutar todo esto.

08:25.320 --> 08:26.240
Y ahí vamos.

08:26.250 --> 08:32.610
Ahora vamos a ejecutar el resto del libro de trabajo con este código adicional solo específico para este código, ese

08:32.610 --> 08:36.090
cuaderno donde, por supuesto, vamos a visualizar AA en acción.

08:36.570 --> 08:36.840
Todo bien.

08:36.840 --> 08:37.470
Así que hagamos esto.

08:37.470 --> 08:39.660
Primero importemos las bibliotecas.

08:39.840 --> 08:40.380
Correcto.

08:40.380 --> 08:41.010
Todo bien.

08:41.400 --> 08:46.110
Luego imprimiremos la forma de entrada y varias acciones posibles.

08:46.110 --> 08:46.470
Todo bien.

08:46.470 --> 08:52.200
Así que aquí vamos a entender que tenemos siete acciones posibles, ya sabes, en el entorno del corredor de

08:52.200 --> 08:52.830
la fatalidad.

08:52.840 --> 08:59.550
Así que estos son avanzar, retroceder, ir a la izquierda, ir a la derecha, disparar y luego tal vez protegerse o lo

08:59.550 --> 09:00.450
que sea.

09:00.450 --> 09:06.000
No sé cuál es la última acción, pero algo así, entonces estas son las dimensiones del

09:06.000 --> 09:07.380
marco de entrada.

09:07.530 --> 09:09.450
Esto corresponde a la altura del marco.

09:09.450 --> 09:11.460
Tiene 240 píxeles de altura.

09:11.700 --> 09:14.550
Esto corresponde al ancho del marco, ¿verdad?

09:14.550 --> 09:16.890
Tiene trescientos veinte grandes.

09:17.070 --> 09:22.800
Y esto corresponde, ya sabes, al hecho de que trabajamos con imágenes en color y las tres aquí

09:22.800 --> 09:25.410
corresponden a los tres elementos de nuestros canales.

09:25.920 --> 09:31.320
Muy bien, entonces ejecutemos la siguiente celda mostrando un marco del entorno solo para ver cómo

09:31.320 --> 09:31.860
es.

09:32.130 --> 09:36.780
Y, de hecho, recuerde, eso es útil para ver el entorno en el que está trabajando.

09:36.780 --> 09:37.230
Correcto.

09:37.230 --> 09:39.360
Entonces aquí vemos que estamos en Dume Corridor.

09:39.360 --> 09:45.480
Pero si quieres experimentar con algunos entornos más aquí, en realidad, ya sabes, recuerda, también

09:45.480 --> 09:48.510
están en la página principal aquí.

09:48.510 --> 09:48.990
Aquí mismo.

09:48.990 --> 09:49.260
Si.

09:49.260 --> 09:53.190
Tienes todas las listas de los entornos, ya sabes, con los que recomiendo experimentar.

09:53.400 --> 09:58.080
Entonces, ya sabes, si quieres echar un vistazo a otro, bueno, ya sabes, puedo mostrarte,

09:58.290 --> 10:02.610
en realidad, consigamos este y luego volveré a este corredor de zoom.

10:02.880 --> 10:03.230
Correcto.

10:03.240 --> 10:06.600
Entonces, si reemplazo eso por este.

10:07.520 --> 10:13.490
Bien, y lo ejecuto bien, esta vez obtendremos tres acciones, claro, es más simple,

10:13.490 --> 10:17.630
y si lo ejecutamos bien, veremos este entorno, ¿no?

10:17.650 --> 10:24.170
Por lo tanto, es solo una forma de ver rápidamente con qué está trabajando y obtener una vista previa básicamente de lo que

10:24.170 --> 10:25.970
hará la ACA en el entorno.

10:26.450 --> 10:26.780
Todo bien.

10:26.780 --> 10:29.050
Así que volvamos a la esquina.

10:29.360 --> 10:33.800
Ejecutemos esto ahora en caso de que lo necesitemos para las próximas ventas.

10:34.100 --> 10:37.110
Muy bien, perdición perfecta, Cawdor.

10:37.370 --> 10:39.830
Ahora, pasemos a las ventas finales.

10:39.890 --> 10:43.490
Esta es una función auxiliar que se utilizará para las visualizaciones.

10:43.680 --> 10:48.140
Así que ejecutemos la venta y ahora ejecutemos la idea en un episodio.

10:48.140 --> 10:52.970
Y aquí podrás entender el código porque, ya sabes, básicamente es el proceso de, ya sabes, correr

10:53.240 --> 10:59.210
el aire y un episodio completo en el que en cada paso está en un estado específico, va a jugar en

10:59.210 --> 11:00.920
acción dentro de el estado.

11:01.070 --> 11:04.480
Luego obtendrá la recompensa y luego llegará a la próxima fecha.

11:04.670 --> 11:04.940
Correcto.

11:04.990 --> 11:07.460
Así que este es el proceso clásico de MGP, ¿no?

11:07.470 --> 11:08.720
Proceso de decisión de mercado.

11:09.140 --> 11:09.950
Y ahí vamos.

11:09.950 --> 11:11.600
Eso está hecho para un episodio.

11:11.610 --> 11:18.950
Y finalmente, obtendremos el video del juego de nuestro A. YO. , que fue entrenado por veinte dólares, pudo

11:18.990 --> 11:25.220
alcanzar más de 100 recompensas, lo que nos dará algunos resultados bastante buenos, pero tal vez no llegue a

11:25.220 --> 11:26.060
los mejores.

11:26.060 --> 11:26.890
Pero está bien.

11:26.900 --> 11:28.520
Experimentarás eso por ti mismo.

11:28.820 --> 11:34.220
Y ahora me gustaría que haga clic aquí para el botón aquí, porque querré mostrarle cómo se

11:34.220 --> 11:35.240
completa el video.

11:35.480 --> 11:40.730
Entonces estas son algunas carpetas que contienen, ya sabes, algunos elementos como los marcos, ya sabes, los marcos de

11:40.730 --> 11:42.590
los resultados o algunos archivos jasen.

11:42.830 --> 11:45.500
Pero realmente, lo que va a interesar es el video final.

11:45.680 --> 11:50.990
Y para obtenerlo, solo tenemos que hacer clic en el botón de reproducción aquí y verá que se completará en

11:50.990 --> 11:52.130
la carpeta principal aquí.

11:52.130 --> 11:52.730
No te lo pierdas.

11:53.000 --> 11:53.690
Y esta bien.

11:53.690 --> 11:57.290
Ya sabes, parece que la celda ya se ejecutó, que es el caso.

11:57.500 --> 12:03.830
Pero verá que en unos segundos veremos un avatar, que es un archivo de video que se completa aquí.

12:03.830 --> 12:05.420
Aparecerá en unos diez segundos.

12:05.690 --> 12:07.800
Incluso puedo hacer una cuenta regresiva si quieres.

12:08.120 --> 12:08.990
Así que hagamos esto.

12:09.200 --> 12:20.750
Y diez, nueve, ocho, siete, seis, cinco, cuatro, tres, dos, uno, vamos.

12:21.730 --> 12:24.070
Y ahora realmente debería aparecer en unos segundos.

12:24.100 --> 12:24.760
Sí, ahí vamos.

12:25.150 --> 12:25.490
Todo bien.

12:25.500 --> 12:28.390
Entonces, el juego del agente, esa idea, ese es tu video.

12:28.390 --> 12:36.640
Así que descarguémoslo y se descargará en su computadora, que encontraré aquí.

12:36.730 --> 12:37.140
Correcto.

12:37.180 --> 12:43.480
Ese es el modo de juego del agente de video que Evia se asegura de abrir con un reproductor de video que tiene códecs

12:43.480 --> 12:44.080
como VLSI.

12:44.110 --> 12:44.430
Correcto.

12:44.450 --> 12:48.930
No funcionará con el reproductor de tiempo rápido si estás en una Mac, pero definitivamente funcionará con VLCC.

12:49.270 --> 12:50.110
Así que echemos un vistazo.

12:50.680 --> 12:52.160
Y aqui esta el video.

12:52.210 --> 12:52.570
Todo bien.

12:52.570 --> 12:54.850
Así que déjame presionar pausa aquí.

12:55.240 --> 12:55.540
Todo bien.

12:55.540 --> 12:56.230
Así que aquí está el video.

12:56.240 --> 13:01.260
Y como puede ver, estas son las dimensiones de 256 por 256 del marco.

13:01.540 --> 13:03.070
Como puede ver, no es muy grande.

13:03.070 --> 13:03.330
Correcto.

13:03.340 --> 13:08.030
Por eso realmente quería trabajar con estas dimensiones en lugar de 80 por 80.

13:08.710 --> 13:10.060
Así que ahora echemos un vistazo al video.

13:10.070 --> 13:15.970
Entonces este es el A. YO. jugando Doom en un episodio, y tiene que evitar que los monstruos no mueran.

13:15.970 --> 13:17.860
Tiene que avanzar para llegar a los mejores.

13:18.160 --> 13:22.090
Así que veamos cómo funciona tres a uno.

13:23.820 --> 13:29.970
Muy bien, primero se cierra, avanza, está bien, y luego los monstruos lo matan, pero eso

13:29.970 --> 13:31.530
sigue siendo bastante bueno.

13:31.530 --> 13:36.240
Ya sabes, entendió que tenía que avanzar hacia Occidente porque la recompensa más alta es buena

13:36.240 --> 13:37.740
al llegar al chaleco.

13:38.190 --> 13:42.720
Y, por supuesto, ya sabes, si realmente quieres ver el video de tu aire llegando al chaleco y

13:42.720 --> 13:48.780
ganando en este juego, básicamente tendrás que entrenar tu ojo para más épocas y tal vez hacer algún otro tipo de mejora, como

13:48.780 --> 13:54.210
sintonizando tu cerebro de la A. YO. o haciendo algún ajuste de parámetros, como ajustar la

13:54.210 --> 13:55.010
tasa de aprendizaje.

13:55.170 --> 14:01.050
Bueno, tienen muchas opciones si alguno de ustedes obtiene un video increíble o, ya saben, el video de A. YO. habiendo alcanzado una recompensa

14:01.050 --> 14:03.800
de más de 1000, por ejemplo.

14:03.810 --> 14:06.470
Bueno, siéntete libre de compartirlo en las preguntas y respuestas.

14:06.480 --> 14:09.280
Estoy seguro de que otros estudiantes estarán muy felices de recibirlo.

14:09.870 --> 14:10.480
Todo bien.

14:10.500 --> 14:14.770
Así que espero que les haya gustado implementar el modelo de aprendizaje convolucional y profundo.

14:15.010 --> 14:19.770
Ahora vamos a pasar a la siguiente parte, que tratará de implementar el modelo H3C y

14:19.770 --> 14:24.800
un modelo aún mejor y más poderoso que se implementará para jugar el juego de la fuga.

14:25.140 --> 14:26.840
Así que te veré en la siguiente parte.

14:26.850 --> 14:28.590
Y hasta entonces, disfruta de A. YO..