WEBVTT

00:00.730 --> 00:03.690
Hola y bienvenidos al curso de inteligencia artificial.

00:03.730 --> 00:07.440
En la historia de hoy estamos hablando de la final a en un 3C.

00:07.450 --> 00:09.400
Estamos hablando de ventaja.

00:09.550 --> 00:10.340
Entonces ahí está.

00:10.360 --> 00:14.040
Ya hemos hablado sobre actor crítico y un sincrónico previamente.

00:14.260 --> 00:20.500
Y entonces construyó una manera de lo que vamos a ver hoy y con ventaja vamos a

00:20.500 --> 00:21.560
poner todo junto.

00:21.730 --> 00:28.750
se comparte entre los agentes asincrónicos y luego tenemos la crítica, que también se comparte entre la edad y demás.

00:28.840 --> 00:33.550
Entonces, esto es lo que tenemos hasta ahora: tenemos una red neuronal que

00:33.580 --> 00:36.490
¿Cómo funciona todo esto y por qué esta crítica se comparte entre los agentes?

00:36.500 --> 00:37.390
Echemos un vistazo a eso.

00:37.600 --> 00:42.250
Entiende mejor que vamos a ver un ejemplo. Vamos a ver a este agente, por ejemplo, y veremos

00:42.280 --> 00:46.730
qué sucede cuando se encuentra en cierto estado y debe tomar una decisión sobre qué acción tomar.

00:46.840 --> 00:53.890
es que esta información va a la red neuronal que va a la guarida convolucional luego va a la guarida de acumulación y

00:53.980 --> 00:59.200
luego va a la guarida de aplanamiento y luego de allí va al capas ocultas de la

00:59.200 --> 01:04.330
red neuronal y luego como salida obtiene todos estos valores de política que usted valora como política.

01:04.330 --> 01:09.870
Entonces este agente está en un estado en el que ve esta imagen y luego lo que sucede

01:09.970 --> 01:14.160
Y también le da al valor el crítico.

01:14.230 --> 01:21.640
Y así como conocemos las redes neuronales para operar, necesitan propagar ciertos errores o pérdidas a través

01:21.640 --> 01:22.720
de la red.

01:22.720 --> 01:29.020
Así que de esta manera para actualizar los pesos, qué espera o qué pérdidas vamos a tratar

01:29.080 --> 01:29.520
aquí.

01:29.590 --> 01:30.540
Bueno, somos dos pérdidas.

01:30.540 --> 01:32.970
Tenemos la pérdida de valor y los correos.

01:32.980 --> 01:38.360
Por lo tanto, la pérdida de valor está vinculada al valor de pérdida parcial está vinculado a las agrupaciones y tan valioso.

01:38.400 --> 01:41.080
Ya lo hemos tratado antes.

01:41.260 --> 01:48.850
Sabemos que tenemos recompensas y sabemos que tenemos un factor de descuento, básicamente esto es muy similar

01:48.850 --> 01:54.690
a lo que estábamos hablando en la conversión en tutoriales de aprendizaje profundo.

01:54.730 --> 02:03.190
Básicamente, la red predice un cierto valor V y, al mismo tiempo, podemos estimar lo que debería basarse en lo que sabemos sobre el medio ambiente, hasta

02:03.190 --> 02:09.160
el momento podemos estimar cuál debería ser el valor en el estado y al comparar los dos podemos calcular

02:09.190 --> 02:13.350
el valor la pérdida y luego la red del propagador de regreso actualizan

02:13.360 --> 02:13.730
los pesos.

02:13.870 --> 02:17.670
Así que eso es lo que se está preparando para lo nuevo aquí es la pérdida de pólizas.

02:17.770 --> 02:21.700
Y entonces, ¿qué es esta pérdida de política y cómo funciona?

02:21.700 --> 02:28.960
Bueno, esta es la parte donde toda esta situación donde la crítica se comparte entre los actores

02:28.960 --> 02:32.520
o entre los agentes va a emerger finalmente.

02:32.590 --> 02:38.920
Entonces para entender la pérdida de Palsu necesitamos introducir un valor llamado Advantage, de ahí el nombre de esta

02:39.340 --> 02:45.460
parte de la historia en esta parte del Salyut la ventaja y la ventaja se calcula como Q

02:45.480 --> 02:47.900
de como A menos V de s.

02:47.920 --> 02:54.550
jugar toda la acción que elige jugar en el estado en que se encuentra en estado S menos el valor de ese estado.

02:54.550 --> 02:57.420
Así que, básicamente, el valor de Q o que elige

02:57.640 --> 03:00.670
Entonces esta es la diferencia entre los dos y eso se llama ese.

03:00.670 --> 03:04.950
Y la ventaja se usa en el cálculo del sin pulso.

03:04.990 --> 03:10.510
Ahora no entraremos en la fórmula del cálculo sin pulso porque es bastante complejo, usa entropía o

03:10.710 --> 03:12.860
puede usar entropía no tiene por qué.

03:12.990 --> 03:17.020
No vamos a diseccionar esa fórmula, pero vamos a entender esto en un nivel intuitivo.

03:17.020 --> 03:21.470
¿Por qué lo hacemos? ¿Por qué estamos calculando esta ventaja y cómo nos va a ayudar?

03:21.640 --> 03:24.190
Bueno, veamos esta premisa por un segundo.

03:24.190 --> 03:33.040
El valor Q aquí proviene de lo que la red neuronal predijo para este agente y así predecir en esta acción específica en este estado

03:33.040 --> 03:37.840
específico para la acción que puede jugar, por lo que tiene estas acciones

03:38.110 --> 03:45.790
y puede deslizar una de ellas y puede reproducirla bien, mientras que el valor de Wii es el valor que dicta

03:45.790 --> 03:46.480
el crítico.

03:46.480 --> 03:52.320
Es el valor que tenemos aquí en esta parte compartida y esa es la clave aquí que esta parte se comparte

03:52.330 --> 03:56.310
para que el crítico se rompa porque así es como entra en juego el crédito.

03:56.470 --> 04:01.300
Porque tenemos un valor que elegimos o la acción que elegimos jugar para este agente en

04:01.300 --> 04:01.930
ese estado.

04:01.990 --> 04:09.340
Pero luego el crítico puede decirnos cuál es el valor conocido de ese estado, cuál es el valor conocido general para todo este

04:09.340 --> 04:15.790
grupo de agentes que se están desempeñando juntos porque su intercambio no responde porque la B inicial porque comparten la

04:15.820 --> 04:21.280
crítica. todos están contribuyendo a esto a estos valores v que se están calculando para un conjunto

04:21.280 --> 04:25.690
diferente, por lo que el conjunto a. z algoritmo dice OK.

04:25.690 --> 04:34.060
Por lo tanto, el crítico conoce un valor v de cuánto mejor es su valor q que está seleccionando en comparación con el

04:34.060 --> 04:35.290
valor v conocido.

04:35.350 --> 04:36.480
Eso es lo que está diciendo.

04:36.640 --> 04:37.930
Entonces eso es básicamente eso.

04:37.930 --> 04:45.430
Así que voy a seleccionar un valor q aquí en función de mi política en función de si utilizamos como

04:45.700 --> 04:50.150
función soft max o una política de Epsilon Grealy o algo así.

04:50.170 --> 04:55.660
Y, por supuesto, estaremos fuera de la exploración más la explotación combinada, pero seleccionamos el valor

04:55.660 --> 04:59.260
de Q y ahora la pregunta es ¿cuál es el extra?

04:59.290 --> 05:05.820
¿Qué significa eso regañado en comparación con el valor conocido de ese estado y esa es la esencia

05:05.820 --> 05:12.480
de la ventaja y, básicamente, eso se usa para calcular la pérdida de la política y luego la

05:12.480 --> 05:17.940
pérdida de la política se propaga nuevamente? a través de regreso a la red.

05:17.940 --> 05:23.910
ajustan para que la red represente mejor el valor del crítico y también esa es la parte superior.

05:23.910 --> 05:28.280
Entonces ambos se propagan nuevamente a través de una red y los pesos se

05:28.410 --> 05:33.030
Pero también esta parte de la clave aquí es que el valor de los pesos es bakra.

05:33.120 --> 05:40.530
¿Cuándo se olvida esto de las oficinas de correos que las tasas se ajustan de tal manera que esta ventaja

05:40.590 --> 05:46.200
se maximice, así que esa es la parte intuitiva de la comprensión intuitiva de que

05:46.350 --> 05:52.010
volvemos esta última política a través de la red para ayudar a maximizar esta ventaja

05:52.050 --> 05:57.660
Y lo que eso significa es básicamente que cuando un agente se encuentra con acciones malas como acciones donde

05:57.660 --> 06:00.930
el q valora menos que el valor conocido para el estado.

06:00.930 --> 06:07.110
X y, de repente, te topaste con una acción muy mala y el y lo hiciste lo eliges sobre la acción.

06:07.110 --> 06:11.690
Así que, básicamente, todo el algoritmo ATC sabe que el valor para el estado es algo

06:11.700 --> 06:17.130
Y lo que eso significa para el entusiasmo es que bueno, ¿por qué haríamos algo así cuando es peor de

06:17.130 --> 06:21.960
lo que ya sabemos lo que ya sabemos sobre todo este entorno y lo que podría haber hecho?

06:22.080 --> 06:23.500
Entonces no deberíamos hacer más de eso.

06:23.610 --> 06:27.670
Y, por lo tanto, los pesos son solo en cierto modo, por lo que es más raro.

06:27.690 --> 06:29.900
Entonces eso sucede menos raro.

06:30.300 --> 06:33.430
Entonces, es menos frecuente que elijamos esa mala acción.

06:33.510 --> 06:38.880
manera que el algoritmo de atresia piense bien que realmente es genial que Wantage estuviera muy alto allí.

06:39.050 --> 06:43.220
Por otro lado, si eliges una acción muy buena donde el valor de q

06:43.230 --> 06:50.780
es mayor que V o mucho mayor, entonces durante este backwardation de la pérdida polaca a través de la red los pesos se actualizarán y de

06:50.790 --> 06:55.140
esa manera se reforzará realmente para anime a tranquilizar que vuelva a suceder para que

06:55.140 --> 06:56.790
los pesos se ajusten de tal

06:56.880 --> 07:03.750
Debería hacer más de eso y, por lo tanto, actualizará los pesos de tal manera que sea más probable que ocurra

07:03.750 --> 07:05.550
en el futuro esa acción.

07:05.560 --> 07:13.080
sabes, es cómo la red lentamente se va a adaptar lentamente y lentamente va a construirse en algo que

07:13.080 --> 07:19.770
por un lado calcula el valor correctamente y luego, por otro lado o lo más correcto posible.

07:19.770 --> 07:21.990
Entonces, y eso es lo que

07:21.990 --> 07:28.330
Y, por otro lado, fomenta o tiene acciones que tienen una gran ventaja.

07:28.380 --> 07:30.570
Así que ahí vamos, esa es esa parte.

07:30.570 --> 07:35.930
Y ahora echemos un vistazo a otro solo para reforzar lo que acabamos de discutir en la parte superior 1.

07:36.000 --> 07:37.210
Lo mismo aquí.

07:37.350 --> 07:45.330
necesita decidir qué hacer, ya que esta información para las redes de esta imagen usa internet vuelve a crecer, convolucional, están tirando de su

07:45.330 --> 07:50.100
aplanamiento Lehre va a las capas ocultas y luego de aquí obtenemos un resultado que

07:50.100 --> 07:56.290
obtenemos los valores agudos de la política obtenemos los valores V de nuevo, lo mismo que tenemos dos pérdidas.

07:56.310 --> 08:00.960
Las principales agencias una situación un estado se encuentra en un estado y luego

08:00.960 --> 08:05.240
Tenemos la pérdida de valor, que es aquí la pérdida polaca, que es aquí la pérdida de valor.

08:05.250 --> 08:06.830
Ya sabemos cómo se calcula.

08:06.960 --> 08:10.950
Cuando discutimos esto en el profundo aprendizaje de Q y solo discutimos ahora también.

08:10.950 --> 08:17.340
Entonces, así es como se calculó el valor y luego la pérdida de la política nuevamente para calcular aquello para lo que

08:17.340 --> 08:18.370
no vamos a entrar.

08:18.390 --> 08:25.530
que está bien, así que tomamos una determinada medida, escogimos una determinada acción basada en nuestra política de selección,

08:25.530 --> 08:31.140
ya sea Soft Max o upselling greedy o cualquier otra política social que estamos usando.

08:31.170 --> 08:34.470
Pero a un nivel intuitivo, estamos calculando esa ventaja,

08:34.620 --> 08:42.630
Y entonces, ¿cuál es la acción que tomamos? Ahora, vamos a compararlo con el valor conocido del estado que proviene de las críticas compartidas, por

08:42.630 --> 08:47.670
lo que esta crítica es como si pensaras que es una especie de observación de todos

08:47.670 --> 08:52.950
estos agentes al mismo tiempo. En este único vistazo a este, todos están contribuyendo a un crítico

08:52.950 --> 08:58.140
para que el crítico esté más al día con el medio ambiente, para asegurarse de que

08:58.380 --> 09:03.600
el crítico sea representativo de lo que está sucediendo en el entorno real para que los pesos.

09:03.660 --> 09:10.170
de valor para que los pesos de la red neuronal real reflejen muy bien la situación

09:10.260 --> 09:17.700
real de las cosas en el entorno para que puedan confiar en este valor y luego usarlo aquí.

09:17.700 --> 09:20.090
Aquí es donde entra la pérdida

09:20.090 --> 09:21.550
Y así, básicamente

09:21.720 --> 09:26.880
Entonces todos estos agentes todos estos agentes están contribuyendo a esta crítica.

09:26.880 --> 09:32.850
Pero luego, al mismo tiempo, a través de este valor, pero al mismo tiempo el crítico está observando

09:32.850 --> 09:35.490
las decisiones o las políticas de estas agencias.

09:35.490 --> 09:39.960
Es como mirar hacia atrás como si tratara de dibujar como una flecha hacia los polos, una

09:39.960 --> 09:40.740
flecha, una flecha.

09:40.830 --> 09:45.780
través de ese punto de vista y decir OK, usted tomó una decisión, eligió esta, eligió esta acción.

09:45.780 --> 09:50.210
Así que mirar hacia atrás en la decisión que están tomando es criticar estas decisiones a

09:50.220 --> 09:51.240
Eso es genial.

09:51.240 --> 09:56.570
Ahora calculemos la ventaja o desventaja de que el rancho es igual a usted, sabe que el valor

09:56.590 --> 10:04.040
de Q podría haber tomado la decisión que tomé o que la elección que hice de la que hice eligió tomar menos el valor conocido

10:04.100 --> 10:05.100
para la crítica.

10:05.110 --> 10:06.470
No sobre el crítico.

10:06.470 --> 10:12.010
ese valor Q va a ser menor, de modo que debido a que nuestra política selecciona las acciones basadas

10:12.020 --> 10:16.580
en los valores q, cuanto mayor sea el valor Q, más probable será que se seleccione.

10:16.580 --> 10:22.010
Entonces Kalika la diferencia, si es poca diferencia, eres polaco, entonces cuando pulir tus pérdidas propagadas a través de

10:22.010 --> 10:28.910
la red, la forma en que se va a ajustar alentará que los pesos se ajusten de tal manera que eso no ocurra. una

10:28.910 --> 10:30.560
vez más, ese valor Q o

10:30.560 --> 10:35.210
Entonces, si estuviéramos usando una política de arco máximo, entonces siempre seleccionamos la más alta ya que recuerda

10:35.360 --> 10:38.870
que discutimos esto, entonces siempre seleccionamos la que tiene el valor más alto.

10:38.870 --> 10:43.790
Pero en realidad estábamos usando un enfoque probabilístico en el que estaba usando soft max o

10:43.790 --> 10:44.420
upselling codiciado.

10:44.540 --> 10:49.010
luego básicamente seleccionamos dónde podemos seleccionar cualquiera de ellos, pero cuanto más alto sea el cubo, mejor.

10:49.010 --> 10:49.220
Y

10:49.220 --> 10:55.310
Entonces, si seleccionamos algo y la ventaja es muy baja, la red se agregará de tal

10:55.310 --> 11:01.970
manera que la próxima vez el valor de esa acción determinada será menor y tal vez algo más

11:01.970 --> 11:02.910
sea más.

11:02.960 --> 11:09.770
Así que así es como se divide y si seleccionamos algo donde esa ventaja va a ser alta,

11:09.770 --> 11:15.050
esto va a ir a las leyes de políticas y luego a las redes

11:15.060 --> 11:19.590
y las actualizamos para que se observen más comúnmente eventos como guión.

11:19.640 --> 11:26.300
Y, básicamente, toda esta pérdida polaca ayuda a la red a adaptarse o transformarse de tal forma que nosotros lo hacemos.

11:26.300 --> 11:31.620
Moraleja de las cosas buenas buenas acciones buenas y cosas buenas y hacer menos de las cosas malas.

11:31.700 --> 11:35.040
Y así es como entran en juego estas dos derrotas y así es como han vuelto a ser apropiadas.

11:35.120 --> 11:41.800
Así que afortunadamente, eso se aclara de una manera muy intuitiva, por supuesto, no entramos en las fórmulas en

11:41.810 --> 11:46.930
las matemáticas complejas detrás de todo esto y nos gusta en los detalles muy intrincados.

11:47.060 --> 11:50.940
Pero al mismo tiempo con suerte en la forma intuitiva de una manera intuitiva.

11:50.990 --> 11:58.850
Todo esto aclara por qué tenemos el actor y el crítico y cómo interactúan juntos que usted

11:58.850 --> 12:03.780
sabe que tiene estos agentes de forma asíncrona o sincrónica.

12:03.790 --> 12:08.480
Entonces este es tu actor y crítico y esta es la ventaja y cómo todo eso entra en juego.

12:08.480 --> 12:10.840
Entonces estos son agentes síncronos.

12:10.850 --> 12:11.920
Ellos van.

12:12.040 --> 12:18.740
Están jugando esto o explorando el medio ambiente y trabajando a través del medio ambiente y todos

12:18.740 --> 12:26.720
están contribuyendo por completo a un crítico que luego está observando sus políticas observando a los actores, que es lo que

12:26.720 --> 12:27.400
se llama.

12:27.560 --> 12:34.610
Y a través de esa posición ventajosa y, por lo tanto, surgiendo, esto representa una pérdida y luego una pérdida de política y

12:34.610 --> 12:38.210
valor, o se propaga nuevamente a la red solo para poder.

12:38.240 --> 12:43.540
Por un lado representan la verdadera forma de las cosas en el entorno.

12:43.580 --> 12:47.630
Otra mano para mejorar el rendimiento de los actores.

12:47.930 --> 12:48.410
Entonces ahí vamos

12:48.410 --> 12:52.800
Esa es una recapitulación rápida de la intuición que discutimos.

12:52.790 --> 12:58.550
Una vez más, con suerte, todo esto se logrará a nivel intuitivo y, por supuesto, en los tutoriales

12:58.550 --> 13:04.880
prácticos. Hablaremos más sobre cómo todo esto funciona en Atlanta lo guiaremos a través de este proceso de construcción

13:04.880 --> 13:05.560
de propietarios.

13:05.570 --> 13:11.240
imagen en tu mente y esta como una especie de hoja de ruta de todo lo que está bien,

13:11.240 --> 13:17.240
debería ser, espero que sea de mucha ayuda para que puedas navegar mejor en el lado práctico de las cosas.

13:17.240 --> 13:18.160
Pero tener esta

13:18.290 --> 13:25.710
Y en términos de lectura adicional para hoy, tenemos dos elementos, así que el primero es la ventaja.

13:25.760 --> 13:32.480
Así que aquí tenemos un control continuo demencial alto usando la estimación de ventaja generalizada de John

13:32.480 --> 13:38.930
Shulman y esta es una imagen de una figura de palo levantándose como para ponerse de pie.

13:38.930 --> 13:44.030
Y aquí puede encontrar aún más sobre ventajas y ventajas y encontrará todos los diferentes

13:44.030 --> 13:44.960
tipos de ventajas.

13:44.990 --> 13:50.870
la ventaja y cómo funcionan exactamente, las fórmulas que hay detrás y algunas de las ventajas. los

13:51.110 --> 13:56.360
mejores elementos superiores o fórmulas y no hay agujeros en el espacio de esta ventaja.

13:56.360 --> 14:05.330
Usted tiene la ventaja general de la estimación y tiene ventajas que utiliza realmente en los formularios de los cálculos, por lo que si desea obtener

14:05.330 --> 14:06.810
más información acerca de

14:06.830 --> 14:08.700
Nosotros los discutimos.

14:08.720 --> 14:10.140
Este es el artículo para ir.

14:10.490 --> 14:19.880
Y uno más de otro elemento o trabajo que queríamos recordar es el blog de una serie de publicaciones de blog de

14:19.990 --> 14:24.350
Arthur Giuliani que ya hemos mencionado un par de veces.

14:24.350 --> 14:28.010
Esta es la octava parte, específicamente sobre el mar A-3.

14:28.280 --> 14:33.280
Entonces aquí puedes obtener una explicación adicional.

14:33.650 --> 14:38.900
Entonces, con un poco más de matemáticas sobre lo que está pasando y quizás puedas recoger algunas cosas adicionales a partir

14:38.900 --> 14:39.420
de aquí.

14:39.440 --> 14:45.470
Solo dos cosas para tener en cuenta, en primer lugar, como siempre, este blog es más seguidores. Estamos utilizando la

14:45.470 --> 14:46.130
antorcha pi.

14:46.130 --> 14:46.840
Así que tenlo en mente.

14:46.840 --> 14:53.330
Y lo segundo es que la forma en que estructuramos nuestro enfoque es que primero hablamos de crítica activa y

14:53.960 --> 14:55.730
luego hablamos de un sincrónico.

14:55.730 --> 15:03.040
de Arthur sobre Synchronoss, un actor crítico es una ventaja, así que tenlo en cuenta, así que con suerte eso no te desanime.

15:03.050 --> 15:07.260
Y luego hablamos acerca de la ventaja, mientras que en log las primeras charlas

15:07.340 --> 15:10.480
Pero aparte de eso, por supuesto, es una gran pieza de contenido.

15:10.490 --> 15:14.510
Y recomendamos encarecidamente verificarlo para obtener información adicional.

15:14.780 --> 15:16.840
Entonces, esperamos disfrutar del tutorial de hoy.

15:16.880 --> 15:18.710
Y espero verte la próxima vez.

15:18.710 --> 15:20.240
Hasta entonces disfruta.

15:20.260 --> 15:20.520
YO.