WEBVTT

00:00.720 --> 00:03.450
Hola y bienvenidos al curso de inteligencia artificial.

00:03.490 --> 00:07.570
En el tutorial de hoy vamos a hablar sobre un complemento que vamos a implementar

00:07.580 --> 00:08.860
para nuestro algoritmo 8: 3.

00:08.860 --> 00:12.970
Se llama The Long memoria a corto plazo o el LSD para abreviar.

00:12.970 --> 00:20.080
Así que echemos un vistazo a lo que tenemos hasta ahora y luego discutiremos por qué necesitamos el LSD y qué otra

00:20.080 --> 00:24.440
cosa es para él hasta el momento lo hemos discutido a través de nosotros.

00:24.440 --> 00:29.950
en realidad es un poco más completo o mucho más complejo que lo que tenemos en esta imagen, en realidad

00:29.950 --> 00:34.990
tenemos tres o más agentes que atraviesan el entorno y se están comunicando entre ellos y así sucesivamente.

00:35.110 --> 00:39.640
Y hemos hablado sobre las tres letras A en el 3C y, por supuesto, hemos visto que

00:39.640 --> 00:44.890
Pero, por simplicidad, para la historia de hoy vamos a ilustrar todo con este único agente,

00:45.190 --> 00:47.580
al final tenemos este informe, la parte crítica.

00:47.590 --> 00:53.030
Así que, básicamente, una vez que tenemos un estado, establezcamos esta imagen a medida que pasa por convolucional, luego pasa por un

00:53.050 --> 00:55.360
tirón de Lego arrastrando los pies para aplanar una capa.

00:55.360 --> 01:02.500
y entran en las capas ocultas y luego, como salida, obtenemos la política o el actor y obtienen el valor

01:02.500 --> 01:08.620
del estado o obtenemos la parte crítica y lo que vamos a hacer hoy es que vamos

01:08.830 --> 01:15.670
a hablar sobre esta parte oculta en las capas ocultas, podemos llevarla al siguiente nivel y podemos agregar una notificación.

01:15.670 --> 01:21.010
Y en este punto tenemos valores o números que luego se propagan a través de

01:21.010 --> 01:21.700
la red

01:21.730 --> 01:26.440
Y ya hemos visto que existen múltiples notificaciones porque se verán movidas. Se ha

01:26.440 --> 01:32.900
visto que en algunos casos puede tener esta parte principal de la red que es individual para cada agente.

01:32.920 --> 01:39.220
O puede tener esta parte principal de la red que se comparte y eso es lo que vimos que en nuestras pruebas

01:39.220 --> 01:42.150
de intuición previas teníamos una parte compartida de la red.

01:42.190 --> 01:47.560
Esta red se compartió entre los agentes y Adlon le dirá más en los tutoriales prácticos

01:47.830 --> 01:50.660
que realmente ayudan con el desafío de la ruptura.

01:50.830 --> 01:55.560
Y hay muchas otras muchas maneras en que puede modificar el algoritmo.

01:55.720 --> 01:59.720
Muchas otras adiciones que se pueden implementar.

01:59.920 --> 02:03.400
Y uno de ellos vamos a discutir porque vamos a

02:03.700 --> 02:10.300
tener en el lado práctico de los trolls aquí antes de llegar y Lares, que puedes agregar es un elista

02:10.480 --> 02:18.610
Himmler, una red neuronal Klare que permite que tu algoritmo de valoración tenga memoria que permite que el algoritmo recuerde lo que sucedió antes

02:18.610 --> 02:21.050
y ahora hablaremos de LACMA con más detalle.

02:21.130 --> 02:26.080
de otra característica y que realmente verás en los Sorrells prácticos es que ni siquiera necesitábamos capas

02:26.080 --> 02:30.190
ocultas después de que todos parecían Entonces lo verán en la implementación de Atlanta.

02:30.190 --> 02:36.250
Pero básicamente puedes agregar una capa extra aquí que le elistó Lehre y mejorar tu algoritmo con un Nimer adicional

02:36.250 --> 02:38.860
Él tiene el aplanamiento allí de inmediato.

02:38.860 --> 02:43.530
Después de eso, él tiene la copa así que básicamente esta caja representa al jugador elísta.

02:43.630 --> 02:48.730
Y luego, de inmediato, obtienes la salida, así que ni siquiera necesitas ningún otro Lares oculto después de

02:48.730 --> 02:53.320
eso simplemente porque esa es la cantidad de poder que la guarida de LSM agrega al algoritmo.

02:53.350 --> 02:59.200
Y de nuevo el algoritmo o la arquitectura de su propia red es algo muy visual, es

02:59.200 --> 03:00.260
una preferencia personal.

03:00.270 --> 03:05.010
creativo, por lo que es posible que desee tener jugadores elísticos que podría tener el analista Jim Lehrer.

03:05.020 --> 03:05.700
Es algo muy

03:05.710 --> 03:09.130
Eso es como cinco capas ocultas después de que las enumeran.

03:09.160 --> 03:11.750
Eso depende totalmente de ti y de que experimentes y explores.

03:11.920 --> 03:18.430
Pero esto es lo que se nos ocurrió en los tutoriales prácticos, así que verán que tenemos una

03:18.580 --> 03:24.410
capa plana aplanada y después de eso tenemos una guarida de ls dam y luego la salida.

03:24.420 --> 03:28.680
Así que ahora hemos hablado sobre el otro similar, ¿qué es esto un controlador?

03:28.840 --> 03:34.750
guarida de LACMA agrega que una función como la que permite a la red neuronal tiene memoria

03:34.750 --> 03:42.580
sobre lo que sucedió en las iteraciones anteriores y a menudo se simboliza o se muestra con un símbolo que se ve así.

03:42.580 --> 03:43.280
Bueno, la

03:43.300 --> 03:46.110
Esto acaba de comenzar y solo estoy poniendo aquí.

03:46.120 --> 03:51.820
Sé que se ve muy torcido, pero lo estoy poniendo aquí para que pueda ver cuando analicemos más esta imagen.

03:51.820 --> 03:58.470
Puedes ver lo que está pasando, así que este es el resultado de esta carta aquí y ese es nuestro.

03:58.660 --> 04:04.480
Así que esto es una capa completa que entra aquí, así que es un vector de valores x es un vector de las declaraciones entra en

04:04.570 --> 04:06.080
el tallo que simplemente descartaremos la celda.

04:06.250 --> 04:10.540
Y luego, como resultado, obtienes otro vector, que es la concatenación de estas tiendas

04:10.540 --> 04:15.030
o, de alguna manera, ata en nuestro caso como resultado, obtienes esto y obtienes esto.

04:15.040 --> 04:17.350
Así que echemos un vistazo a esto con más detalle.

04:17.350 --> 04:19.090
Entonces se enfocará en esta parte.

04:19.120 --> 04:23.320
De hecho, entramos como probablemente habrás notado al estar las letras del lado que vamos a girar

04:23.650 --> 04:24.430
hacia un lado.

04:24.430 --> 04:31.120
Así que así y todo este revoltijo fue solo para reiterar el hecho de que a pesar de que

04:31.120 --> 04:36.910
parece que esto realmente está sucediendo es una capa de valores que entra aquí en un conjunto

04:36.910 --> 04:37.530
de valores.

04:37.630 --> 04:41.440
Está sucediendo algo que simplemente causará que de vez en cuando se desarrolle una valija de vector completo.

04:41.440 --> 04:47.310
Así que esta es la capa, no es solo un elemento de esto es la capa misma.

04:47.350 --> 04:55.590
Así que volvamos nuevamente solo para reiterar que Lehre entra en esto donde sucede algo Lehre sale.

04:55.810 --> 04:58.680
Así que eso es que LACMA está de su lado.

04:58.690 --> 05:02.370
Entonces es más fácil hacerlo de esta manera y esa es una representación común.

05:02.500 --> 05:07.870
En este momento, estamos de acuerdo en por qué esta imagen estaba de su lado y cómo vamos a proceder con esto.

05:07.960 --> 05:11.710
Comencemos profundizando un poco más en esta situación de LACMA.

05:11.710 --> 05:14.070
Entonces, ¿qué ocurre dentro de Ellis Jim Lehrer?

05:14.080 --> 05:15.400
Así que esto es lo que parece.

05:15.610 --> 05:20.830
Y, por supuesto, esto se ve muy complejo y definitivamente no vamos a pasar por todo

05:20.860 --> 05:24.000
esto en este momento simplemente porque hay mucho que discutir.

05:24.010 --> 05:32.080
El punto eran las operaciones sabias de la Operación Xolair y simplemente están sucediendo muchas cosas o detalles intrincados en los que no vamos

05:32.110 --> 05:37.720
a entrar porque de lo contrario se apagaría esto por supuesto y este no es el

05:37.720 --> 05:42.410
propósito es no hablar de Else presas aquí que van a utilizar el LACMA.

05:42.430 --> 05:48.520
Y si desea obtener más información sobre los sistemas de Ellis, puede ir o estar aquí.

05:48.520 --> 05:50.130
El blog de Christopher Ola.

05:50.500 --> 05:56.750
descripción de sus tallos o también hablamos de LACMA en nuestra edad de aprendizaje profundo, por supuesto, usted puede verificarlo.

05:56.770 --> 05:58.060
Él tiene una buena

05:58.060 --> 06:01.420
También tenemos una sección completa sobre redes y sistemas neuronales recurrentes.

06:01.540 --> 06:06.470
Entonces, básicamente, esta es la parte interna del sistema.

06:06.520 --> 06:12.160
Y lo que sucede es como la pierna entra, por lo que vamos a hablar de esto en un nivel

06:12.160 --> 06:17.650
intuitivo en un nivel muy básico, justo lo que sería suficiente para que podamos entender qué sucede o por

06:17.650 --> 06:18.400
qué hay memoria.

06:18.400 --> 06:23.530
Y para que puedas entender mejor de lo que habla Atlanta cuando está implementando esto.

06:23.560 --> 06:29.440
Así que Largo está metido en todo esto, básicamente, algo sucede aquí. Larry sube.

06:29.710 --> 06:35.710
Lo que realmente necesitamos ver es que hay estas partes en realidad hay entradas

06:35.800 --> 06:37.480
adicionales en este Lehre.

06:37.480 --> 06:42.970
Así que recuerda que generalmente tienes una entrada de un Lehre anterior, luego esta letra y luego tienes

06:42.970 --> 06:49.290
una salida si piensas en esa imagen que teníamos previamente, la red normal que no está de lado, que es

06:49.290 --> 06:52.660
como de izquierda a derecha desde arriba de abajo hacia arriba

06:52.810 --> 06:55.350
Pero a menos que realmente tenga más entradas.

06:55.360 --> 06:59.410
Entonces sé que se está volviendo aún más complejo, pero estas cosas al menos las podemos entender.

06:59.410 --> 07:03.380
Entonces esta es tu celda de memoria.

07:03.400 --> 07:06.760
Esta es la clave y de esto es de lo que oirás hablar a Heidel Atlanta.

07:06.880 --> 07:15.220
Entonces, la celda de memoria es algo que se guarda en él, así que estas entradas y salidas están realmente aquí, lo

07:15.490 --> 07:18.280
que estás viendo es el eje del tiempo.

07:18.280 --> 07:26.260
Así que esto se desenmaraña en el tiempo, por lo que en una iteración específica esto sucede, pero luego este valor se toma del possed y estos valores pasan a estos

07:26.260 --> 07:30.910
valores; estos valores se toman del pasado y estos valores se pasan al futuro y cómo pasan la

07:30.910 --> 07:35.660
riqueza a través de de la misma manera que el trabajo en equipo de otra persona, así que seguimos

07:35.680 --> 07:38.480
a la preocupación por demasiado de lo que está sucediendo aquí.

07:38.590 --> 07:44.950
proviene del pasado que está almacenado dentro del LSD dentro de la memoria a largo plazo.

07:44.950 --> 07:51.740
Todo lo que tenemos que entender es que cuando la carta entra y aquí tenemos un valor que

07:52.060 --> 07:59.950
Tenemos esta celda de memoria y cualquier valor que haya antes, simplemente permanece aquí, ya que puedes ver que pasa,

07:59.950 --> 08:04.960
fluye libremente a excepción de estas operaciones puntuales donde se puede cerrar o

08:04.960 --> 08:07.210
se puede agregar algo a eso.

08:07.330 --> 08:13.360
Pero a pesar de eso, es solo un valor que fluye libremente, así que básicamente pasa al siguiente

08:13.360 --> 08:14.900
punto en el siguiente punto.

08:14.920 --> 08:20.350
unidad de memoria flash o algo así que tiene esta célula y así solo recuerda el valor

08:20.350 --> 08:25.750
anterior que estaba aquí y luego puede usar eso para agregarlo o leer de esa valía en.

08:25.750 --> 08:30.350
Así que podrías pensar que es algo así como un recuerdo que como una

08:30.370 --> 08:33.670
Y este valor es el estado oculto.

08:34.000 --> 08:37.670
Entonces, el H y el estado oculto es básicamente.

08:37.740 --> 08:42.000
Y ahora el valor que proviene del pasado y luego se usa dentro del sistema.

08:42.010 --> 08:48.180
Y como puedes ver al final después de que todo esto sucede, lo que obtienes es que obtienes una carta que sale

08:48.220 --> 08:53.170
y es para que obtengas este valor que sale y es el mismo valor que se transfiere.

08:53.170 --> 08:59.440
Básicamente, el equipo de Ellis recuerda dos cosas: hay un valor constante que es como permanecer en la

08:59.440 --> 09:04.720
lista y que se puede cambiar como si fuera un disco flash como un valor constante.

09:04.720 --> 09:05.990
Entonces la celda de memoria.

09:06.040 --> 09:11.940
Y así pueden ustedes pueden tener el lujo de almacenar algo en ese espacio y esa memoria y se

09:11.930 --> 09:15.290
pasará al futuro así que cada vez en la próxima iteración.

09:15.320 --> 09:20.620
Entonces, como el algoritmo estaba en un entorno, vio que algo hizo algo y así sucesivamente.

09:20.650 --> 09:25.690
Y luego en el LACMA puede almacenar un cierto valor y luego recordará este valor incluso cuando esté

09:25.690 --> 09:26.960
en el siguiente estado.

09:27.400 --> 09:31.420
Y también el otro valor que recordarán, recuerdan mal su producción anterior.

09:31.420 --> 09:35.370
Automáticamente recordará su salida anterior por lo que la salida va aquí y va aquí.

09:35.560 --> 09:42.160
Así que eso es básicamente el muy muy alto nivel de lo que sucede en un LSM.

09:42.160 --> 09:47.530
Una vez más, si desea obtener más detalles, muchos recursos donde puede encontrarlos y, en este momento,

09:47.530 --> 09:51.100
no es necesario que entre en detalles sobre todas estas cosas.

09:51.100 --> 09:56.440
Solo necesitamos entender lo que es una célula de memoria, qué adherencia a la célula

09:56.440 --> 10:02.270
de memoria es lo que es un jefe de estado y cómo le facilita la memoria.

10:02.330 --> 10:09.920
Y la pregunta es que ahora que tenemos una visión general de todo esto para reforzar

10:10.250 --> 10:16.220
o consolidar este conocimiento es como dar una razón para este conocimiento.

10:16.220 --> 10:19.160
Hagamos la pregunta por qué necesitamos memoria.

10:19.190 --> 10:23.180
¿Por qué necesitamos memoria en nuestro A-3 u otros algoritmos?

10:23.180 --> 10:26.990
Bueno, veamos nuestro ejemplo, el desafío que asumimos en esta sección.

10:26.990 --> 10:32.420
Entonces, el desafío es la ruptura y lo que sucede y rompe y explota, tienes este entorno

10:32.420 --> 10:37.340
estos pequeños bloques que necesitas destruir con esta pequeña bola y necesitas asegurarte de que

10:37.340 --> 10:41.120
este es tu tipo de raqueta o plataforma que se mueve alrededor.

10:41.150 --> 10:46.610
Y debe donde sea que la pelota esté volando debe atrapar la pelota y rebotar en la plataforma y regresar y golpear

10:46.610 --> 10:48.160
las bolas de las paredes también.

10:48.160 --> 10:50.060
Regresa un bloque y regresa.

10:50.060 --> 10:54.270
Y esa es la esencia de lo que necesitas lograr.

10:54.290 --> 11:02.330
Pero ahora veamos esta bola como si imaginamos que usted es un algoritmo de 83 C o un agente dentro de uno de esos

11:02.330 --> 11:04.040
agentes dentro de las 08:30.

11:04.160 --> 11:07.550
Ves esta imagen, ¿qué extraes de aquí?

11:07.670 --> 11:09.580
¿Cuál sería tu acción aquí para ti?

11:09.740 --> 11:11.790
Entonces puedes ver las bolas volando bien.

11:11.840 --> 11:13.640
Tan bien está volando bien.

11:13.640 --> 11:16.610
Entonces irá a algún lado y tal vez esté volando hacia la derecha.

11:16.610 --> 11:20.230
¿Podría hacer esta conclusión si le gustaría anticipar que viene hacia usted?

11:20.240 --> 11:23.720
Probablemente puedas y tal vez estés en el lugar correcto para atrapar la pelota.

11:23.930 --> 11:28.890
Pero, ¿y si la pelota realmente no está volando de esa manera, pero está volando así si vuela de esa manera?

11:28.910 --> 11:34.250
La cosa es que no puedes decir a partir de esta imagen por qué está volando porque no

11:34.250 --> 11:36.370
sabes dónde estaba en el momento anterior.

11:36.560 --> 11:39.220
Entonces, si estaba aquí, entonces está volando de esta manera.

11:39.230 --> 11:43.850
Así que si lo hubieras hecho si supieras el momento del momento anterior, si supieras que estaba aquí, estarías

11:43.850 --> 11:48.650
allí ahora, sabes que aquí, como ser humano, trazas una línea para estos dos y dices que va por aquí.

11:48.920 --> 11:52.360
Pero si lo supieras aquí, trazas líneas igual que yendo hacia aquí.

11:52.490 --> 11:54.320
Por otra parte, mira esto.

11:54.320 --> 11:57.130
Podría haber estado en algún lugar como aquí.

11:57.140 --> 12:01.280
Tal vez esté subiendo, tal vez esté yendo de esa manera, así que tal vez estaba

12:01.460 --> 12:05.960
aquí y yo estaba subiendo, así que solo de que una imagen es muy difícil es realmente imposible.

12:05.960 --> 12:10.540
Es geométricamente imposible saber en qué dirección está volando la pelota.

12:10.550 --> 12:18.830
es por eso que el LSD realmente la memoria realmente ayuda a nuestro Mfat en la memoria, todavía puede hacer un buen

12:18.830 --> 12:24.230
trabajo, pero probablemente podría adivinar o conocer otras formas de entender a dónde ir.

12:24.230 --> 12:24.610
Y

12:24.620 --> 12:31.520
Pero con el movimiento del tallo incluso esa memoria así que si volvemos incluso con ese valor que era algo así

12:31.520 --> 12:37.460
como la salida del valor anterior o tal vez usted sabe que tal vez la puede almacenar aquí

12:37.460 --> 12:43.250
o en base a este valor o basado en la información que obtiene del punto anterior en el tiempo.

12:43.250 --> 12:45.920
Entonces, digamos por lo que pasó aquí.

12:45.920 --> 12:51.650
Así que ahí es donde estaba tu pelota antes para que puedas transmitir información sobre el entorno desde el punto

12:51.650 --> 12:53.200
anterior en el tiempo hasta aquí.

12:53.270 --> 12:57.900
Entonces ahora lo tienes ahora, sabes, no solo tienes tu información de la imagen.

12:58.040 --> 13:02.850
Si retrocedemos aún más, recordará esa información de la imagen.

13:02.870 --> 13:06.050
Bueno, esto está condenado, pero en realidad estamos trabajando para dividir la información.

13:06.050 --> 13:10.020
La imagen llegó aquí aquí convertida en estos valores aplanados.

13:10.160 --> 13:11.500
Y esa información para ellos.

13:11.510 --> 13:13.320
Imagen entrando en todo el sistema.

13:13.340 --> 13:20.150
Y ahora, de repente, como recuerdas, no proceden de ningún lugar, sino del punto anterior en

13:20.600 --> 13:21.290
el tiempo.

13:21.290 --> 13:24.630
Entonces ahí es donde realmente demuestras desde la parte superior o desde la bola desde la izquierda a la derecha.

13:24.650 --> 13:28.410
En realidad, es solo que se queda en el elist él guarida.

13:28.490 --> 13:31.170
Usted tiene esa información solo a través de la arquitectura.

13:31.180 --> 13:33.980
Dirán que tienes información sobre lo que sucedió anteriormente.

13:34.160 --> 13:40.940
Y volvemos esa información aquí que ahora te ayuda a tomar una decisión sobre qué hacer.

13:40.940 --> 13:42.930
Ayuda al algoritmo a tomar una decisión.

13:43.010 --> 13:45.010
Y ahora, de repente, lo sabe.

13:45.140 --> 13:45.500
DE ACUERDO.

13:45.500 --> 13:48.320
Entonces, la pelota yace en cualquiera de los dos.

13:48.350 --> 13:52.730
Digamos que está volando en esta dirección o en esta dirección, así que estoy en el lugar correcto en el

13:52.730 --> 13:57.050
que debería quedarme. La pelota viene en mi dirección o si se da cuenta de que la pelota yace allí

13:57.050 --> 14:00.710
debería comenzar a moverse hacia la izquierda. porque si espera un poco más, será demasiado tarde.

14:00.740 --> 14:01.780
Y perderán la pelota.

14:01.940 --> 14:08.630
Así que, básicamente, así es como los ayudaron en el algoritmo y eso es exactamente lo

14:08.630 --> 14:12.360
que veremos cuando haga los tutoriales prácticos de Atlanta.

14:12.500 --> 14:14.370
Así que ahí es donde trabajan estos equipos.

14:14.480 --> 14:20.720
Y solo una nota adicional como mencionamos al principio Los equipos de Ellis no son 100% necesarios.

14:20.720 --> 14:25.430
No son completos. No están completamente conectados. Algoritmo.

14:25.550 --> 14:29.420
Es posible que desee tenerlos en un algoritmo a través de C que tal vez no desee tenerlos según

14:29.420 --> 14:31.180
la situación para incluir el Ártico que elija.

14:31.250 --> 14:37.340
Hay muchas adiciones y ya hemos discutido la adición o la modificación donde se comparte la red neuronal

14:37.340 --> 14:40.950
entre los actores no se comparten entre los agentes o no.

14:41.010 --> 14:46.610
Ahora, sin embargo, Jim, el elitista, hay otro que verás en los tutoriales prácticos donde agregamos entropía

14:46.610 --> 14:51.280
que se calcula a través de una política. Adlon te guiará a través de eso.

14:51.290 --> 14:57.190
Básicamente, hay muchas modificaciones diferentes que pueden ocurrir en un algoritmo A-380.

14:57.290 --> 15:03.180
Solo recuerda que depende de lo que quieras lograr y también es algo que te

15:03.180 --> 15:09.060
animaría a explorar si vas a implementar muchos de estos y probar diferentes algoritmos.

15:09.180 --> 15:14.880
Ya hemos discutido un par y tal vez usted puede encontrar algunas modificaciones adicionales que podrían ser de su

15:14.880 --> 15:19.110
interés o tal vez cuando esté viendo estos tutoriales, tal vez los compre más

15:19.110 --> 15:21.330
modificaciones que hayan salido, que son muy interesantes.

15:21.330 --> 15:27.330
Definitivamente eso es algo que podrías estudiar y que podría mejorar aún más tu conocimiento

15:27.420 --> 15:30.740
de inteligencia artificial y cómo crear estos algoritmos.

15:30.780 --> 15:34.200
Y en ese sentido, espero que hayan disfrutado este tutorial y los buscaré la próxima vez.

15:34.200 --> 15:35.380
Hasta entonces disfruta.

15:35.380 --> 15:35.590
YO.