WEBVTT

00:01.080 --> 00:04.050
Hola y bienvenidos al curso de inteligencia artificial.

00:04.050 --> 00:09.810
Hoy continuamos nuestro viaje al mundo cada tres ve y estamos hablando del lado sincrónico de otro

00:09.870 --> 00:13.530
C así que ahí tenemos nuestra abreviatura de ventaja sincrónica.

00:13.550 --> 00:14.430
Crítico activo

00:14.430 --> 00:19.040
Y hoy vamos a averiguar qué significa aquí lo sincrónico.

00:19.080 --> 00:20.990
Y retrocedamos un paso.

00:21.000 --> 00:27.270
Veamos en lo que comenzamos este curso completo para la aplicación de la ley, aprendiendo de qué se trata, que el

00:27.270 --> 00:29.050
asiático se encuentra en cierto estado.

00:29.340 --> 00:30.690
Ellos observan el estado.

00:30.730 --> 00:37.080
Toman ciertas decisiones en las que toman medidas en ese estado y luego el estado cambia para que entren en un

00:37.080 --> 00:39.010
nuevo estado y obtengan una recompensa.

00:39.150 --> 00:46.830
Entonces, la recompensa por tomar esa acción o algún tipo de recompensa que también podría ser una penalización y terminan en

00:46.830 --> 00:47.780
un nuevo estado.

00:47.790 --> 00:50.180
Y en base a eso ahora toman otra acción de nuevo.

00:50.250 --> 00:56.280
Obtienen una recompensa y terminan en un nuevo estado y toman otra acción, y así sucesivamente, y

00:56.280 --> 00:59.670
esa es la base de todo el aprendizaje de refuerzo.

00:59.700 --> 01:06.030
Y eso es lo que hemos estado utilizando para aprender en el aprendizaje profundo y en el aprendizaje continuo convolucional

01:06.030 --> 01:10.660
y eso ha permitido a nuestros agentes superar gradualmente los entornos más complejos y complejos.

01:10.770 --> 01:18.310
Pero ahora vamos a presentar un concepto aún mejor e incluso tomar este nivel aún más.

01:18.720 --> 01:25.530
Lo que A-3 ve introduce a través de este elemento y síncrono es en lugar de tener un agente que

01:25.520 --> 01:26.730
ataque el entorno.

01:26.790 --> 01:34.140
Tienen tres agentes o la cantidad de agentes o agentes que atacan el mismo entorno.

01:34.290 --> 01:39.360
Y la clave aquí es por eso que se llama sincronizaciones porque se inicializan de manera diferente, por lo

01:39.360 --> 01:40.920
que sus entradas estrella son diferentes.

01:40.920 --> 01:46.520
Entonces, por ejemplo, como verá en las fuentes prácticas, establece una semilla aleatoria y la configura de manera diferente para

01:46.530 --> 01:47.980
cada uno de los agentes.

01:48.030 --> 01:51.150
Y de esa manera porque sus puntos de partida son diferentes.

01:51.270 --> 01:55.260
Van a atravesar primero los entornos de diferentes maneras y luego van a explorar de diferentes

01:55.260 --> 01:58.620
maneras y luego en las próximas iteraciones también van a explorar de diferentes maneras.

01:58.620 --> 02:01.190
Y así, por ejemplo, tenemos tres agentes.

02:01.300 --> 02:06.390
De repente, recibes el triple de experiencia en lugar de una

02:06.390 --> 02:12.480
sola edad, explorando el entorno y tratando de entender cómo operarlo en ese entorno.

02:12.570 --> 02:18.780
Ahora tiene tres o muchos de ellos pasando por eso y obteniendo esta experiencia y por lo

02:18.930 --> 02:25.140
tanto, cada uno de ellos está aprendiendo para esta experiencia más grande y, además de ofrecer un

02:25.140 --> 02:31.300
rango más amplio de experiencia, también reduce las posibilidades de que un agente atorarse en un máximo local.

02:31.320 --> 02:38.040
Entonces, por ejemplo, si un agente encuentra una forma de vencer al medio ambiente que no es la más óptima, si se

02:38.130 --> 02:43.470
desvía de la solución a la izquierda a la derecha que encuentra que siempre se vuelve más penalizada,

02:43.470 --> 02:45.710
podría quedarse atorada en un máximo local.

02:45.710 --> 02:49.530
Tal vez siga haciéndolo pensando que esa es la solución óptima donde en realidad no es.

02:49.680 --> 02:58.830
que la probabilidad de que un agente se quede atascado en un cierto máximo local podría ser alta, pero O podría tener un cierto valor.

02:58.830 --> 03:04.440
Bueno, la probabilidad de que varios agentes se estanquen en el mismo máximo local disminuye

03:04.440 --> 03:07.990
con la disminución de la cantidad de agentes, por lo

03:08.130 --> 03:11.730
Pero la probabilidad de que tres de ellos se atasque en ese máximo

03:11.730 --> 03:13.020
local es mucho menor.

03:13.020 --> 03:18.630
Y siempre que compartan experiencia entre ellos, pueden ayudarse mutuamente, por lo que si uno de ellos se queda estancado, por ejemplo, está en

03:18.630 --> 03:23.370
un máximo local y simplemente piensa que eso es lo mejor y que esa es la mejor solución y que

03:23.370 --> 03:25.700
es la mejor solución todo el tiempo. sigue haciendo eso.

03:25.830 --> 03:30.740
a través de la forma en que desarrollamos nuestro algoritmo completo a través del celular y ellos lo ayudarán.

03:30.770 --> 03:35.710
Siempre y cuando interactúe con los otros agentes Digamos que este tipo se queda estancado en una acción

03:35.710 --> 03:37.620
tranquila siempre que interactúe con otros agentes

03:37.620 --> 03:42.960
Le darán conocimiento de que en realidad sabes que oye, debes explorar esto o es más

03:43.020 --> 03:44.630
probable que salga de eso.

03:44.760 --> 03:50.370
Y también, en general, el entorno sabrá que aunque este sea un gran máximo, estas otras edades

03:50.370 --> 03:55.230
han visto mejores opciones y deberíamos seguir explorando porque parece que hay mejores opciones.

03:55.230 --> 04:00.750
Por lo tanto, en una forma muy breve de comprensión intuitiva aproximada, esas son algunas de las ventajas de

04:00.750 --> 04:05.970
tener estos son agentes síncronos para que tenga más experiencia para elegir y de la que pueda aprender.

04:06.210 --> 04:12.750
Puede llegar a la solución más rápido y, en general, si hay una menor posibilidad de

04:13.080 --> 04:16.640
quedar atrapado en un máximo local de CRN.

04:16.680 --> 04:18.710
Entonces veamos cómo se desarrolla todo esto.

04:18.720 --> 04:24.300
En este modelo que hemos construido hasta ahora, así es que recuerden que esto es lo que hemos logrado hasta el momento a través

04:24.300 --> 04:29.730
de la crítica real y esto es como si todos estuviéramos burlándonos de esto, por lo que recuerdas desde el principio, hasta la tortuga

04:29.730 --> 04:33.030
que presentamos esto ya sabes que ya lo teníamos incluso en el océano profundo.

04:33.030 --> 04:38.340
pero hasta ahora realmente no tiene sentido cuál es el punto de tener esta crítica y medir el

04:38.340 --> 04:43.620
valor del estado o predecir el valor de una etapa usando el mismo neuronal redes o el mismo enfoque.

04:43.620 --> 04:48.320
Q learning's Así que acabamos de nombrar la X ahora, pero ahora hemos introducido la crítica,

04:48.510 --> 04:52.350
Pero ahora esto es esto, el socio va a comenzar a tener más sentido.

04:52.350 --> 04:57.750
Lo que vamos a hacer es replicar esto porque ahora tenemos múltiples agentes. Si hay varios agentes,

04:57.750 --> 04:59.410
así es como se ve.

04:59.410 --> 05:07.380
Entonces, la primera forma de imaginarlo es que ahora tenemos estos tres días y recordamos lo que dijimos sobre ellos al

05:07.380 --> 05:09.210
compartir sus experiencias entre ellos.

05:09.210 --> 05:12.270
Entonces esto es como ahora, todos son independientes.

05:12.260 --> 05:15.420
Tienes una jugando el juego y aparte de jugar el juego otra jugada en el juego.

05:15.450 --> 05:20.500
Es como lanzar tu agente en tres computadoras diferentes, colocas tres computadoras diferentes una junto a la

05:20.500 --> 05:23.030
otra y las lanzas y sabes que es genial.

05:23.050 --> 05:29.100
Al igual que de hecho te gustaría obtener obtendrá más experiencia obtendrá más variedad, especialmente si

05:29.100 --> 05:29.760
se inicializan.

05:29.790 --> 05:33.600
Entonces, podemos suponer desde aquí que están mal iniciales siempre inicializadas antes, aunque tenemos

05:33.600 --> 05:34.770
la misma imagen aquí.

05:34.870 --> 05:39.900
¿Vamos a saber que en realidad se inicializaron de manera diferente, por lo

05:39.900 --> 05:43.460
que no será idéntico al aprendizaje idéntico de este juego?

05:43.890 --> 05:47.700
Y así, incluso si te gusta poner tres computadoras una al

05:47.700 --> 05:55.560
lado de la otra y las ejecutas sí, vas a tener más experiencia porque vas a tener tres agentes jugando y también vas

05:55.680 --> 05:58.600
a tener una mayor variedad de posibles soluciones .

05:58.620 --> 06:00.120
Entonces eso es verdad

06:00.120 --> 06:03.840
Pero el problema es que no comparten nuestra experiencia entre nosotros o no están aprendiendo unos de

06:03.840 --> 06:04.120
otros.

06:04.220 --> 06:06.840
Entonces ellos no tienen esa sinergia.

06:06.840 --> 06:11.670
tienes un equipo de personas que trabajan mejor juntos que cada uno de ellos por separado.

06:11.670 --> 06:17.930
No tienen la ventaja ni el poder adicional que obtendrían si estuvieran haciendo compering, ya sabes cómo si lo haces si

06:17.920 --> 06:20.650
Entonces, como en un equipo, aquí tienes uno más uno más uno.

06:20.730 --> 06:25.200
Son tres pero en un equipo uno más uno para engendrar y no tres son como los tres

06:25.200 --> 06:29.220
porque aprovechan las fortalezas de los demás y mitigan las debilidades del otro y lo mismo aquí.

06:29.220 --> 06:34.080
Entonces, si coloca estas dos computadoras lado a lado, usted tendrá más memoria de experiencia y posiblemente

06:34.150 --> 06:35.580
alguien obtenga una mejor solución.

06:35.580 --> 06:39.710
Otra genial, pero será aún mejor si comienzan a compartir esa experiencia.

06:39.780 --> 06:41.120
¿Y cómo lo hacen?

06:41.130 --> 06:47.820
Bueno, es a través de esta Wii que lo calculamos, así que este valor de Wii que es la salida de

06:47.820 --> 06:49.550
nuestra red es realmente así.

06:49.560 --> 06:54.960
Así que tienen esto mismo cada tanto cada vez.

06:54.960 --> 06:58.050
Todos estos agentes están contribuyendo a la misma crítica.

06:58.050 --> 07:04.290
No tienen críticos por separado, tienen una crítica común y esa es la clave de cómo el crítico

07:04.290 --> 07:06.270
actor se relaciona con su sincronía.

07:06.270 --> 07:09.850
Entonces, hay un crítico que nos mira a medida que obtienen experiencia.

07:09.870 --> 07:12.420
Entonces, ¿cómo calculamos la Wii?

07:12.570 --> 07:13.920
Tenemos que pasar la Wii.

07:14.220 --> 07:20.190
Como recordarán, podemos transmitir a la televisión los valores que obtenemos, de modo que obtengamos las recompensas que obtenemos a través

07:20.190 --> 07:20.750
del entorno.

07:20.760 --> 07:28.310
Y a medida que los agentes exploran su entorno, son cálculos que predicen la Wii.

07:28.320 --> 07:30.710
Además tienen la Wii que pueden calcular.

07:30.720 --> 07:35.010
Esto es todo lo relacionado con lo que ya hemos discutido en las secciones anteriores

07:35.010 --> 07:35.730
de los puntajes.

07:35.850 --> 07:42.870
existen en este laberinto y que ya han explorado y, a medida que las exploran, ese valor puede cambiar.

07:42.870 --> 07:48.700
Así que ya tienen una Wii que pueden predecir como esperan a través de las recompensas

07:48.750 --> 07:49.770
que saben que

07:49.890 --> 07:55.410
Pero también tienen la Wii de que esta es la salida de la red neuronal, por lo

07:55.410 --> 08:01.530
que a medida que avancen van a ajustar sus redes neuronales para que coincidan mejor con lo esperado.

08:01.530 --> 08:10.080
Así que, básicamente, esto se comparte, la parte crítica se comparte entre los agentes y así es como comparten la información entre

08:10.080 --> 08:15.490
ellos, así es como pueden ver lo que está sucediendo en el entorno y

08:15.490 --> 08:20.890
luego usar eso como nosotros Veremos más en la siguiente parte con ventaja.

08:20.930 --> 08:25.450
Así que úsalo para optimizar la forma en que se comportan en el entorno.

08:25.710 --> 08:27.960
Y la otra cosa a tener en cuenta aquí es.

08:28.080 --> 08:29.510
Así que esto fue a través de C.

08:29.520 --> 08:33.150
Esto es como el núcleo de A-3 ver hasta aquí.

08:33.150 --> 08:38.610
Este es un tipo de versión de 08:30 pero en realidad hay una mejor implementación de esto.

08:38.610 --> 08:45.450
primeros tutoriales y el lado práctico de las cosas, y de lo que hablará es de cómo el creador de Pi

08:45.450 --> 08:52.680
torche realmente hizo un ajuste a uno de los códigos que se compartieron y obtener el centro donde tomó todos estos como

08:52.980 --> 08:58.530
puede ver en este momento tienen redes neuronales separadas y mostraron que el ajuste que se hizo

08:58.530 --> 09:03.420
fue tomar todas estas redes neuronales y ponerlas en una sola tómalos y ponlos juntos.

09:03.420 --> 09:09.000
De la A a la C, de la cual escucharás que me encantaría hablar en uno de

09:09.000 --> 09:09.300
los

09:09.300 --> 09:15.100
Entonces, en última instancia, solo hay una red neuronal compartida entre los agentes.

09:15.120 --> 09:21.180
Entonces, antes de tener cada uno de ellos, tenían una red neuronal que compartían para el actor y el

09:21.180 --> 09:25.790
crítico una red neuronal Shelfer real para la crítica. Una red neuronal compartía la precisión.

09:25.800 --> 09:31.730
Ahora todos tienen una red neuronal que se comparte para el actor o crítica crítica real x o crítico.

09:31.980 --> 09:35.130
Y luego el crítico está aquí en común.

09:35.310 --> 09:36.690
Entonces, veamos, vamos.

09:36.690 --> 09:39.840
Vamos a mover estas imágenes a la izquierda aquí, así que haga un poco de espacio.

09:40.100 --> 09:47.430
Y esta es básicamente la arquitectura o la estructura que vamos a utilizar en los

09:47.430 --> 09:48.250
tutoriales prácticos.

09:48.300 --> 09:55.020
Sé que esto puede parecer un poco abrumador en esta etapa, pero tenemos uno más para hablar sobre

09:55.020 --> 09:59.370
cuál es la ventaja y allí lo veremos mejor en acción.

09:59.370 --> 10:02.780
¿Cómo funciona? Hablaremos sobre la intuición en acción.

10:02.870 --> 10:05.680
Pero en general, esto es lo que es.

10:05.700 --> 10:10.640
Aquí hay una red que cada uno de los agentes usa o comparten.

10:10.640 --> 10:15.820
Básicamente, lo que eso significa es que comparten los pesos que los pesos de la red se comparten entre

10:15.840 --> 10:19.920
las edades y cuando lo actualizan, actualizan toda la red, no solo su propia red.

10:20.480 --> 10:26.270
Y luego tienen salidas que tienen como estas acciones para cada agente y luego tienen la crítica que se comparte

10:26.270 --> 10:27.710
que se va a controlar.

10:27.700 --> 10:34.280
Así que sé que todo esto es algo así como que hay muchas cosas en este momento, pero afortunadamente se está uniendo

10:34.850 --> 10:35.900
lentamente al menos.

10:35.900 --> 10:39.660
Lo principal de aquí es que el crítico porque es compartido.

10:39.670 --> 10:47.810
como los agentes pueden asegurarse de que están cooperando entre sí para obtener el resultado mucho más rápido.

10:47.810 --> 10:48.660
Así es

10:48.860 --> 10:52.690
Y luego en el próximo tutorial veremos aún más cómo todo esto se suma.

10:52.700 --> 10:53.650
Todo esto viene junto.

10:53.900 --> 11:00.920
Y por ahora hay algo que me gustaría recomendar o nos gustaría recomendarle una lectura

11:00.920 --> 11:01.210
adicional.

11:01.210 --> 11:06.780
Así que este es un blog de Jaromir Jansch.

11:06.860 --> 11:11.570
Se llama Vamos a hacer que un A3 vea las implantaciones en realidad es una implementación y una teoría de dos partes.

11:11.820 --> 11:19.010
lo que no es específicamente para este tutorial, no solo para Sutro, sino para toda esta sección.

11:19.010 --> 11:25.880
Está el enlace y es muy similar a lo que Adlon implementará en el lado práctico

11:25.880 --> 11:27.200
del tutorial, por

11:27.200 --> 11:30.900
Fomento allí alguna información adicional algunas ideas adicionales allí.

11:31.040 --> 11:33.260
Y esa es la razón por la que lo estamos planteando aquí.

11:33.320 --> 11:38.030
Pero, sin embargo, en el siguiente tutorial vamos a comenzar a unir todo esto.

11:38.030 --> 11:39.040
Todo lo que hemos discutido

11:39.200 --> 11:40.590
Y espero verte la próxima vez.

11:40.590 --> 11:42.200
Y hasta entonces, disfrute yo.