WEBVTT

00:00.330 --> 00:07.100
Hola y bienvenidos al tercer módulo del discurso del mar H-3 como agentes críticos activos sincrónicos.

00:07.200 --> 00:11.850
Y ahora puedo dar la bienvenida al estado del arte en el aprendizaje automático.

00:12.180 --> 00:16.560
Bueno, en el momento estoy diciendo esto porque tal vez algunos de ustedes tomarán el curso

00:16.590 --> 00:20.080
en uno o dos años, pero en el momento lo digo en 2017.

00:20.190 --> 00:25.410
Bueno, estás a punto de trabajar en uno de los modelos más poderosos en inteligencia artificial, pero

00:25.410 --> 00:28.780
hay más que no es lo único especial de este módulo.

00:28.830 --> 00:35.280
sino que vamos a implementar la versión más potente de este algoritmo que es la versión implementada

00:35.280 --> 00:42.630
de la versión más optimizada del modelo A-380 porque se puede imaginar que existe el corazón de el algoritmo.

00:42.990 --> 00:47.030
No solo vamos a trabajar con el modelo más potente,

00:47.190 --> 00:50.880
Pero luego hay muchas herramientas que podemos usar para optimizar todo el modelo.

00:50.970 --> 00:55.110
Por lo tanto, no solo va a tener el corazón del algoritmo, sino que

00:55.110 --> 00:59.450
también implementará todas estas herramientas a su alrededor para que el modelo sea muy poderoso.

00:59.670 --> 01:01.490
Y por qué quería hacer eso.

01:01.590 --> 01:03.110
Bueno, eso es por dos razones.

01:03.120 --> 01:06.210
La primera razón es que nos estamos acercando al final del discurso.

01:06.210 --> 01:10.770
Este curso es el curso de más alto nivel entre los tres cursos y tratarán en AI.

01:10.870 --> 01:14.340
Es que ahora creo que estás listo para llevarlo al siguiente nivel.

01:14.400 --> 01:19.230
Y la segunda razón es que resolver la ruptura es realmente muy desafiante.

01:19.230 --> 01:24.270
Recuerda en el video promocional que queríamos romper el primer módulo porque pensamos que sería el

01:24.270 --> 01:29.410
desafío más fácil, pero para nada fue en realidad el desafío más difícil y la forma más

01:29.400 --> 01:36.060
fácil de explicarlo es que los monstruos son grandes. y por lo tanto más fácil de detectar y por lo tanto más

01:36.060 --> 01:37.620
fácil de matar o evitar.

01:37.830 --> 01:44.160
Pero en Breakout tenemos esta pequeña bola que el ojo también debe detectar porque el ojo aún

01:44.160 --> 01:44.810
tendrá ojos.

01:44.800 --> 01:47.670
Tú todavía vamos a hacer un aprendizaje de refuerzo profundo.

01:47.910 --> 01:53.340
Por lo tanto, es realmente un gran desafío y es por eso que realmente no tenemos opción de implementar.

01:53.340 --> 01:59.080
La versión más poderosa del A-3 ahora ve por qué digo que esta es la versión más poderosa.

01:59.120 --> 02:00.350
Eso es por una razón en particular.

02:00.350 --> 02:05.270
No es como si dijera que voy a implementar la versión más poderosa del A-380.

02:05.460 --> 02:06.420
No, no es esto.

02:06.540 --> 02:11.550
que vamos a hacer es en realidad una versión de 3 C que fue implementada por alguien pero

02:11.550 --> 02:18.090
corregida por una de las personas más influyentes en la máquina de aprendizaje de hoy que resulta ser el creador de la antorcha Pi.

02:18.240 --> 02:23.910
La razón por la que digo esto es porque la versión que estábamos a punto de implementar y esto es

02:23.910 --> 02:24.810
algo muy especial

02:24.810 --> 02:27.330
Su nombre es Dan Pashka.

02:27.710 --> 02:28.840
Ahora que vamos a hacer.

02:29.040 --> 02:35.430
Seguiremos adelante en la página principal y si te desplazas hacia abajo hasta el final, verás

02:35.790 --> 02:40.700
al equipo en el que el equipo lucha contra creadores y contribuidores.

02:40.800 --> 02:45.500
Y pueden ver aquí que mi antorcha está actualmente en manos de Adam Pascal.

02:45.690 --> 02:51.340
para el desbloqueo y él corrigió uno de los códigos del A-380 para que el desbloqueo funcionase perfectamente.

02:51.340 --> 02:57.120
Esa es la persona por la que realmente deberíamos estar agradecidos porque hay muy pocas versiones de las tres

02:57.120 --> 02:58.470
cosas que funcionan bien

02:58.470 --> 03:04.320
Así que Pascal no solo está manteniendo By hacia adelante sino que también es uno de los creativos por antorcha y,

03:04.320 --> 03:08.090
como dije hoy, está entre las 10 personas más influyentes en el aprendizaje automático.

03:08.190 --> 03:13.500
Así que podemos estar seguros de que la versión que estamos por implementar es probablemente la versión más poderosa

03:13.500 --> 03:15.050
de la A-3 que vemos hoy.

03:15.240 --> 03:17.580
Y entonces, ¿qué es esta implementación?

03:17.760 --> 03:23.100
Bueno, originalmente proviene de un desarrollador llamado historia ilíaca de.

03:23.220 --> 03:29.400
Y como puede ver, hizo una incursión hacia la implementación del A3 C, que originalmente no funcionó bien

03:29.400 --> 03:32.950
para el desbloqueo pero luego alguien hizo una solicitud de extracción.

03:32.970 --> 03:39.170
Si vamos a la solicitud de grupo aquí, podemos ver al final que tenemos una solución más limpia

03:39.170 --> 03:41.030
para el problema de Gretchen.

03:41.190 --> 03:43.810
Y adivina de quién se hizo esta solicitud de extracción.

03:43.950 --> 03:51.060
Fue hecho a partir de Adam Pashka creado por antorcha y eso resolvió el problema que hace que el A-380

03:51.060 --> 03:54.720
funcione muy bien al estallar sin esperar días ni días.

03:55.200 --> 04:01.950
lo tanto, si volvemos a esta implementación, podemos ver los cuatro contribuidores de esta implementación más poderosa.

04:01.950 --> 04:02.900
Y, por

04:03.180 --> 04:04.590
Y aquí están los contribuyentes.

04:04.590 --> 04:10.380
Así que muchas gracias a todos ellos y podemos agradecer enormemente a Adam por arreglar

04:10.380 --> 04:12.810
el problema del intercambio de subprocesos.

04:12.810 --> 04:16.590
Empezó haciendo un tenedor que es una sub-rama del código.

04:16.590 --> 04:20.970
Y luego hizo una solicitud de extracción al desarrollador para solucionar este problema.

04:20.970 --> 04:26.790
compartir y así se convirtió en uno de los principales contribuidores de esta implementación, haciendo que todo

04:26.790 --> 04:32.850
funcione perfectamente y, créanme, hice mucha experimentación en el modelo de AC DC. De hecho, implementé cinco modelos.

04:33.000 --> 04:36.390
No hubo un código que sea un gran problema para

04:36.390 --> 04:41.430
Incluso estaba desesperado porque no funcionó bien, así que hice mi propio breakout y cavy para tener una pelota más grande

04:41.550 --> 04:44.300
y, por lo tanto, un preprocesamiento más fácil de las imágenes.

04:44.340 --> 04:48.780
Luego volví al ojo e hice mi propia implementación del 3C.

04:48.860 --> 04:53.280
Pero eso llevó años para correr y entrenar en una computadora bastante poderosa.

04:53.460 --> 04:55.190
Así que quería encontrar una mejor manera.

04:55.380 --> 04:56.990
Y esa es la forma en que es.

04:57.150 --> 05:03.460
potente del Silmaril de la que uno de los principales contribuidores es el Creador por antorcha.

05:03.530 --> 05:04.530
Implementación muy

05:04.580 --> 05:11.270
Entonces, lo que vamos a hacer en este Mudgal, creo que estás listo para eso, es implementar este código de

05:11.270 --> 05:13.980
más alto nivel para la implementación del A3.

05:14.060 --> 05:19.720
Así que, básicamente, vamos a volver a implementar todos estos archivos y, en su mayoría, insistiremos en los archivos

05:19.720 --> 05:24.650
que están directamente relacionados con las tres C, todas las partes directamente relacionadas con lo que vemos.

05:24.680 --> 05:27.800
Implementaremos el código línea por línea para los demás.

05:27.820 --> 05:33.290
Expandiré el código para que podamos abordarlo sin encontrarlo demasiado abrumador para que podamos

05:33.850 --> 05:36.150
ir a un módulo bastante especial.

05:36.170 --> 05:42.220
No solo trabajamos en un modelo de IA de última generación, sino que también en el momento en que hablo estamos

05:42.230 --> 05:45.730
muy seguros de que estamos implementando la versión más potente del A-380.

05:46.070 --> 05:47.050
Hagamoslo.

05:47.090 --> 05:51.740
Volvamos a Python y comencemos todo esto antes de comenzar.

05:51.770 --> 05:54.800
Vamos a hacer lo más simple que vamos a hacer en este módulo.

05:54.830 --> 05:56.870
Estableciendo la carpeta del directorio de trabajo.

05:57.080 --> 06:02.660
Vayamos a nuestra IA: es que los módulos de la carpeta de la plantilla nos dividen en uno más desafiante.

06:02.930 --> 06:03.830
Y ahí vamos.

06:03.830 --> 06:05.070
Esos son todos nuestros archivos.

06:05.240 --> 06:09.130
Entonces, veamos cuáles están directamente relacionados con A-3 C.

06:09.200 --> 06:11.610
Y entonces veamos cuáles implementaremos.

06:11.690 --> 06:14.770
Línea por línea y enfoca nuestra energía.

06:14.840 --> 06:16.450
Entonces, en realidad hay dos archivos.

06:16.490 --> 06:22.250
El primero no es el único que es este, así que lo reimplantaremos línea por línea porque es lo

06:22.250 --> 06:25.450
más importante, es donde hacemos que el A-3 vea cerebros.

06:25.550 --> 06:30.590
compartido que tendrá los mismos datos de los pesos para el actor y el crítico.

06:30.590 --> 06:34.340
Y lo más importante para entender aquí es que tendremos un modelo

06:34.370 --> 06:39.490
Esa es una parte de esta versión especial de la A-3. Vea el modelo compartido con los

06:40.130 --> 06:43.890
datos compartidos, los pesos y luego el otro fundador más importante para implementar.

06:43.910 --> 06:51.270
Línea por línea es el ave de peluche adiestrada, por supuesto, justo después de que hiciéramos los cerebros de la sede.

06:51.500 --> 06:55.940
Bueno, tenemos que entrenarlos y los entrenamos en este tren que yo esposa.

06:56.180 --> 07:02.720
Este es un código bastante largo, pero esto es lo que contiene el corazón del modelo A3 C, que

07:02.720 --> 07:08.900
tendrá que reducir el valor de Lass en EE. UU., Que es el último relacionado con las predicciones

07:09.230 --> 07:14.640
de la crítica y la última política, que es la última. relacionado con las predicciones del átomo

07:14.840 --> 07:20.570
Así que esto es bastante nuevo, pero sabes que eso se debe a que el A-380 básicamente trabajaba con varios agentes, cada uno

07:20.810 --> 07:23.210
de los cuales tenía su propia copia del entorno.

07:23.330 --> 07:28.790
También tenemos esta capa completamente conectada que produce un valor de la función y que básicamente es una visión

07:28.790 --> 07:31.540
común de lo que está sucediendo en el juego.

07:31.550 --> 07:34.130
Entonces esto será bastante desafiante.

07:34.220 --> 07:40.840
Así que asegúrate de estar en buena forma y para el resto de los compañeros. Bueno, solo los explicaré en detalle,

07:40.880 --> 07:45.810
pero no por pasar demasiado tiempo con ellos. Créeme que quieres conservar tu energía para esto.

07:45.830 --> 07:47.110
Esto ya será mucho.

07:47.150 --> 07:55.490
Entonces estos tipos son hormigas ducky Y, que es una mejora del entorno del gimnasio gracias al universo.

07:55.490 --> 08:00.920
Básicamente, eso solo mejora el entorno del gimnasio con el universo y eso nos

08:00.920 --> 08:07.150
permite tener un preprocesamiento óptimo de las imágenes y también normalizar todos los valores del entorno, como

08:07.160 --> 08:10.160
las intensidades de los colores o las recompensas.

08:10.280 --> 08:15.710
Bueno, todos los valores del entorno este archivo normaliza todos estos valores y también nos aseguramos de tener

08:15.800 --> 08:18.110
suficiente para no seguir procesando las imágenes.

08:18.170 --> 08:24.720
Y como pueden ver esto se toma de esta apertura, obtengo su página donde está el agente de la historia del universo.

08:24.830 --> 08:28.870
Así que no pasaremos demasiado tiempo en esto, realmente nos detendremos aquí.

08:28.910 --> 08:34.390
Solo necesita entender que hemos mejorado el entorno del gimnasio con el universo para obtener lo suficiente

08:34.390 --> 08:36.390
como para no procesar las imágenes.

08:36.440 --> 08:39.900
El resto no es tan importante especialmente para la PC.

08:40.340 --> 08:45.190
Entonces tenemos main que P Y que es el código que ejecutará todo.

08:45.200 --> 08:50.190
Entonces sabes que el código que ejecutará todo creará que el cerebro capacite al cerebro y genere el video.

08:50.210 --> 08:53.810
Y eso es porque ejecutará todos estos códigos aquí.

08:54.350 --> 08:57.700
Así que más que vimos donde estaba, puede haber aparecido.

08:57.710 --> 09:00.130
¿Por qué es el optimizador especial?

09:00.380 --> 09:06.240
Eso es básicamente el optimizador de átomos pero adaptado a este modelo compartido que estamos implementando.

09:06.260 --> 09:09.290
Entonces explicaremos todo este código en un tutorial.

09:09.290 --> 09:11.490
Entonces tenemos la prueba W-por qué.

09:11.530 --> 09:13.610
En realidad es el último en probar.

09:13.610 --> 09:17.410
P ¿Por qué es básicamente el archivo que implementará un agente de prueba?

09:17.510 --> 09:22.440
Entonces, hay un agente que jugará estallar sin actualizar el modelo.

09:22.490 --> 09:24.740
Entonces eso es totalmente independiente del entrenamiento.

09:24.860 --> 09:27.460
Y también ampliaremos este código en detalles.

09:27.530 --> 09:33.710
Además, la buena noticia es que tendrá dos códigos, un código que será el código que implementaremos

09:33.710 --> 09:36.080
en los tutoriales, pero sin ningún comentario.

09:36.290 --> 09:40.580
Y uno de los códigos que es uno de la carpeta de códigos con todos los códigos lo ordena.

09:40.700 --> 09:44.060
Entonces con todas estas seis faltas todas bien conectadas.

09:44.180 --> 09:49.520
De modo que si te pierdes algo y un tutorial bien, podrás ver el contenido del código para

09:49.640 --> 09:51.010
entender qué está pasando.

09:51.200 --> 09:52.130
Entonces ahí vamos

09:52.130 --> 09:54.500
Espero que estés emocionado de implementar esto.

09:54.500 --> 09:59.020
Realmente estás en la cima de la montaña ahora o justo debajo de la cima porque necesitas

09:59.120 --> 10:01.160
entender esto primero pero estás llegando allí.

10:01.190 --> 10:02.910
Así que respira un buen oxígeno.

10:03.020 --> 10:05.690
Y ahí vamos con un viaje súper emocionante.

10:05.720 --> 10:06.870
Hasta entonces disfruta.
