WEBVTT

00:00.390 --> 00:02.550
Hola y bienvenido a este tutorial.

00:02.550 --> 00:02.870
Todo bien.

00:02.880 --> 00:08.370
Entonces en los tutoriales anteriores hicimos el cerebro o si quieres que los cerebros del A-3 vean ahora,

00:08.370 --> 00:09.560
necesitamos entrenar este cerebro.

00:09.660 --> 00:15.240
Pero para entrenar sus cerebros necesitamos un optimizador que sea el uso de esta herramienta y pegar un

00:15.240 --> 00:20.820
cigarrillo en el centro para tomar el peso de acuerdo con cuánto contribuyen al error entre las predicciones

00:20.940 --> 00:21.900
y los objetivos.

00:22.200 --> 00:29.790
que hicimos hasta ahora en el primer y segundo módulo usamos el optimizador de átomos por torche en el entrenamiento.

00:29.910 --> 00:30.660
Y lo

00:30.840 --> 00:38.260
Pero como te dije, estamos lidiando con un problema muy desafiante que se desata y el algoritmo A-380 en

00:38.260 --> 00:41.560
sí mismo no es suficiente para resolver este problema.

00:41.580 --> 00:48.480
Necesitamos algunos optimizadores personalizados y muchos trucos diferentes para resolver este problema sin esperar

00:48.480 --> 00:49.340
por años.

00:49.530 --> 00:56.790
Así que ese es el propósito de hacer esto y es por eso que tenemos un optimizador personalizado separado basado en

00:56.790 --> 00:57.990
el optimizador de átomos.

00:58.200 --> 01:02.680
Y eso está contenido en esta clase enemiga compartida y por qué el átomo compartido.

01:02.880 --> 01:08.190
Es porque en realidad es el optimizador de átomos, pero funcionará en Estados compartidos.

01:08.190 --> 01:12.840
Así que vamos a explicar cómo funciona y cómo funciona. Así que vamos a ver las

01:12.840 --> 01:18.170
diferentes funciones aquí sin matarlas porque sabes que queremos mantener algo de energía para la siguiente y además

01:18.180 --> 01:23.190
ese es el tren que yo cayó, lo que tomará más de cien líneas de código.

01:23.190 --> 01:24.550
Así que prepárate para eso.

01:24.600 --> 01:30.440
Y por lo tanto trataremos de explicar qué está pasando aquí en un Statoil Statoil.

01:30.480 --> 01:31.970
Y comencemos ahora.

01:32.810 --> 01:38.480
de clases que contendrá tres funciones, la función de inicio, la función de memoria compartida y la función de paso.

01:38.480 --> 01:40.900
De acuerdo, primero, presentamos este átomo de intercambio

01:41.180 --> 01:48.410
Entonces, lo que hacemos primero es que heredamos de ese átomo el que es, por supuesto, el optimizador de átomos y

01:48.410 --> 01:52.100
que obtenemos del módulo Upton de la biblioteca de antorchas.

01:52.280 --> 01:57.980
Así que aquí tenemos una herencia simple para obtener todas las herramientas relacionadas con el optimizador de átomos y luego

01:57.980 --> 01:59.320
comenzamos con la función init.

01:59.330 --> 02:00.990
Entonces, ¿qué pasa aquí?

02:01.150 --> 02:08.050
Primero usamos la superfunción para heredar de todas las herramientas y todos los parámetros básicos del átomo, la

02:08.050 --> 02:11.310
clase Atom y estos parámetros básicos están aquí.

02:11.380 --> 02:16.090
Harams aprendiendo los baiters de la raza Epsilon y la descomposición del peso.

02:16.240 --> 02:17.920
Y luego comenzamos un seguimiento.

02:17.980 --> 02:21.840
Este primer Foluke para grupo en sí mismo que grupos de Paramo.

02:21.850 --> 02:28.310
Entonces, para nosotros, ¿qué es un grupo de parum configurado en grupos? Contiene todos los atributos del optimizador.

02:28.510 --> 02:34.030
Y entre estos atributos tenemos los parámetros que tenemos para optimizar estos parámetros

02:34.030 --> 02:40.790
que deseamos atomizar otras formas de la red que están contenidas en grupos auto parum quizás.

02:40.930 --> 02:44.860
Entonces, allí vamos, el grupo pertenece a grupos de autoayuda.

02:44.980 --> 02:50.920
que queremos optimizar y que están exactamente contenidos en grupos de auto-duda parum tal vez.

02:50.920 --> 02:54.910
Y aquí tenemos el segundo Faltu que obtendrá estos parámetros

02:54.910 --> 03:01.870
Así que, básicamente, pasamos por grupos de autoayuda que contienen todos los parámetros y para cada grupo de parámetros

03:01.930 --> 03:07.480
y autoconversación de grupos vamos a ir a través de los parámetros que queremos optimizar.

03:07.540 --> 03:14.300
Por lo tanto, para el grupo Páramo aquí significa para cada Tancer de pesos que queremos optimizar.

03:14.410 --> 03:20.200
Entonces, para cada peso de sensor que queremos optimizar y luego qué sucede dentro de este grupo con estas

03:20.200 --> 03:21.550
cuatro líneas de código.

03:21.820 --> 03:29.650
Básicamente, lo que sucede es que la actualización realizada por el optimizador se basa en un promedio móvil

03:29.890 --> 03:31.170
exponencial del gradiente.

03:31.250 --> 03:32.880
Esa es esta línea de código aquí.

03:33.010 --> 03:38.270
Esa es la media móvil exponencial del gradiente del momento uno que es de orden uno.

03:38.500 --> 03:44.860
Pero los objetos hechos por átomo no solo se basan en que también se basan en un promedio

03:45.190 --> 03:47.140
móvil exponencial del cuadrado del gradiente.

03:47.260 --> 03:51.770
Esa es una media móvil exponencial del gradiente de impulso ao dos.

03:52.030 --> 03:55.320
Así que aquí está el promedio móvil exponencial de todos.

03:55.480 --> 04:00.560
Y aquí está el promedio móvil exponencial de dos para cada uno de ellos que EMJ ha degradado.

04:00.790 --> 04:01.890
Entonces, ¿qué pasa aquí?

04:02.080 --> 04:07.930
Y ahora, si desea obtener más información sobre cómo funciona la media móvil exponencial, le recomiendo

04:07.930 --> 04:14.560
que eche un vistazo a este método de investigación de Adam para la optimización estocástica porque básicamente el

04:14.860 --> 04:20.610
optimizador de átomos que estamos implementando en este momento se basa en el algoritmo uno aquí.

04:20.890 --> 04:27.700
Entonces, si desea obtener más detalles sobre cómo funciona el algoritmo, este documento será definitivamente útil.

04:27.700 --> 04:32.720
Y luego tienes algunas explicaciones adicionales sobre el algoritmo con los átomos y las reglas.

04:32.860 --> 04:37.840
Y para que sepa que eso es solo si quiere atacar esto antes de atacar la función de

04:37.840 --> 04:39.120
tren grande que realizará después.

04:39.400 --> 04:41.990
De acuerdo, volvamos a Bison.

04:42.220 --> 04:46.140
Y ahora pasemos a la segunda función de memoria compartida.

04:46.190 --> 04:47.890
Así que ahora solo voy a decir algunas palabras.

04:48.010 --> 04:54.580
La idea de esta función de memoria compartida es algo así como tensor que kuda, usted sabe, es un acelerador

04:54.580 --> 04:55.830
basado en una vista.

04:55.870 --> 05:03.160
Y así, básicamente, lo que sucede aquí es que tenemos estos tensores de los estados que comparten aquí

05:03.160 --> 05:10.210
y aquí la memoria que se comportan un poco como tenso que podrían acelerar el cálculo acelerado.

05:10.420 --> 05:17.140
Pero la diferencia es que aquí los sensores que comparten memoria envían el cálculo a una parte

05:17.140 --> 05:22.150
del GP que usted o usted tiene acceso a toda la amenaza paralizada.

05:22.160 --> 05:23.580
Entonces eso es básicamente lo que se hace aquí.

05:23.590 --> 05:30.220
Eso es un poco como 10 para ese kuda, pero solo se envía a una parte del GP para ser

05:30.220 --> 05:32.090
accesible a las amenazas en paralelo.

05:32.090 --> 05:32.460
Todo bien.

05:32.470 --> 05:35.100
Y luego tenemos el último paso de función.

05:35.110 --> 05:41.830
Entonces sabes que esta función es como el método de paso del optimizador de átomos que utilizamos en este curso.

05:41.830 --> 05:47.170
Y así, de nuevo, esto se basa en el algoritmo, uno del mismo papel que vimos antes.

05:47.170 --> 05:48.610
Entonces este algoritmo

05:48.850 --> 05:52.250
Entonces, de nuevo, desea comprender en detalle las siguientes líneas de código.

05:52.420 --> 05:57.240
Bueno, una vez más, Ingrid le dice que eche un vistazo a este algoritmo en este artículo.

05:57.580 --> 06:04.330
Y además de lo que se hace aquí no es totalmente obligatorio porque esto es en realidad un copiar y pegar del

06:04.330 --> 06:07.180
método de paso que actúa esa clase de átomo.

06:07.180 --> 06:14.050
aquí podría haberlo hecho al usar nuestra herencia porque aquí heredamos de Acton que Adam y así usar

06:14.050 --> 06:20.620
nuestra herencia Bien, lo que podemos hacer en lugar de hacer todo esto solo va a escribir aquí

06:20.620 --> 06:29.260
el comentario es solo usar el superfunción que aplicamos a nuestra clase compartida de Adán luego a nuestro ser objetivo y aquí solo

06:29.710 --> 06:38.020
agregamos el paso con el paso de paréntesis es el método del acto en esa clase y eso es exactamente lo mismo.

06:38.320 --> 06:40.550
Entonces, básicamente, lo que se hace

06:40.750 --> 06:45.820
Es por eso que estaba diciendo que aquí solo hay un copiar y pegar del método de paso del acto

06:45.850 --> 06:46.860
en la clase Atom.

06:46.930 --> 06:53.440
Así que creo que si reemplazas todo esto por esta súper función aplicada para compartir bien el método de Adam y

06:53.830 --> 06:55.960
el paso, podríamos obtener exactamente lo mismo.

06:57.220 --> 06:59.900
Muy bien, así que fue interesante echarle un vistazo rápido.

06:59.920 --> 07:02.750
Básicamente puedes ver esto como el optimizador de Adam.

07:02.850 --> 07:04.530
Es como si tuviéramos una mirada más profunda.

07:04.640 --> 07:10.000
Pero, nuevamente, si quiere ver más detalles de todo esto y si quiere entender qué sucede detrás de

07:10.000 --> 07:14.120
la escena, le recomiendo que eche un vistazo a este trabajo de investigación.

07:14.170 --> 07:16.120
Pondré el enlace en los comentarios aquí.

07:16.120 --> 07:19.940
Sabes recordar que tendrás todo el código conectado en gran detalle.

07:19.990 --> 07:22.120
Así que es realmente bueno si puedes echarle un vistazo.

07:22.580 --> 07:30.310
Y ahora espero que tengas una gran energía porque vamos a pasar al archivo del tren que contendrá esta enorme

07:30.310 --> 07:35.860
función de tren y que básicamente entrenará a nuestro cerebro, lo que ahora podemos

07:35.860 --> 07:37.510
hacer porque tenemos nuestro optimizador.

07:37.690 --> 07:39.230
Así que tenga un buen descanso ahora.

07:39.250 --> 07:41.840
Duerme bien y cuando te sientas en buena forma.

07:41.980 --> 07:44.440
Pasemos al siguiente paso.

07:44.440 --> 07:45.910
Hasta entonces, disfruta de la IA.
