WEBVTT

00:00.660 --> 00:03.920
Hola y bienvenidos al curso de inteligencia artificial.

00:03.930 --> 00:09.440
Y finalmente estamos en lo divertido que estamos en el aprendizaje profundo.

00:09.450 --> 00:10.660
Está bien, así que echemos un vistazo.

00:10.720 --> 00:14.100
Bruce hablamos sobre las ganancias de los asesinos y de qué se trata.

00:14.140 --> 00:20.160
Y aprendimos sobre el entorno del agente y cómo el agente observará el estado.

00:20.210 --> 00:23.620
O ella está en tomar una acción, obtener una recompensa.

00:23.640 --> 00:28.610
Ingrese en un nuevo estado y basándose en ese ciclo de retroalimentación, continuarán tomando acciones y

00:28.610 --> 00:29.460
aprenderán de eso.

00:29.460 --> 00:32.310
Comprenda cuáles son las mejores acciones a tomar.

00:32.310 --> 00:35.040
Y entonces miramos este ejemplo básico de un laberinto.

00:35.040 --> 00:40.550
Entendimos que, a medida que Asia explora el medio ambiente, entiende cuáles son los valores de los estados.

00:40.560 --> 00:45.150
Luego pasamos de tratar con los valores de los estados a tratar con los

00:45.150 --> 00:52.230
valores de las acciones con los valores y luego A-Basin que entendimos cómo funcionan los planes en entornos no sarcásticos y cómo

00:52.560 --> 00:57.070
funcionan las políticas en entornos estocásticos y esto es un ejemplo de una política.

00:57.120 --> 01:01.340
Entonces, esa es una recapitulación rápida de todo lo que discutimos en el aprendizaje básico.

01:01.450 --> 01:07.230
un vistazo a cómo esto puede llevarse al siguiente nivel a través del aprendizaje profundo a través de la adición de aprendizaje profundo.

01:07.230 --> 01:08.080
Y ahora echemos

01:08.260 --> 01:08.510
DE ACUERDO.

01:08.520 --> 01:16.110
Entonces, este es nuestro entorno y lo que vamos a hacer ahora es agregar en lugar de

01:16.110 --> 01:21.860
simplemente hacer cálculos básicos en esta matriz que tenemos, que es bastante simple.

01:21.870 --> 01:26.970
Lo que vamos a hacer es agregar dos ejes que añaden un eje xey, o los

01:27.090 --> 01:28.480
llamaremos x1 y x2.

01:28.560 --> 01:30.430
Solo para hacer las cosas aún más generales.

01:30.480 --> 01:36.830
Y aquí tenemos el número real de la fila de las columnas 1 2 tres 4 él regla número las filas 1 a 3.

01:36.960 --> 01:44.730
Y entonces, cada estado puede describirse por un par de dos valores x1 y x2, por lo que cualquiera de

01:44.730 --> 01:50.940
estos cuadrados en los que posiblemente pueda estar el agente se puede describir con x1 x2.

01:50.940 --> 01:58.280
Entonces, por ejemplo, ahora está en el cuadrado con X1 igual a 1 y x 2 igual a 2.

01:58.470 --> 02:03.430
Y, por lo tanto, esa no es una forma en que podamos escapar en su significado cuadrado que podemos describir en su estado.

02:03.480 --> 02:08.330
Entonces, por supuesto, esta es una versión muy simplificada de un entorno de Estados descriptivos.

02:08.340 --> 02:10.110
Pero sin embargo, funciona en este caso.

02:10.290 --> 02:17.260
Y eso significa que ahora podemos alimentar estos estados en una red neuronal.

02:17.400 --> 02:21.830
x número uno y antics y dos para proceder con éxito con esta sección.

02:21.830 --> 02:26.880
Y, por cierto, me gustaría mencionar que al final del curso de buenos anexos tenemos una

02:26.970 --> 02:32.280
Es muy recomendable que revises uno inaccesible que está en una red neuronal artificial para

02:32.280 --> 02:37.470
que entiendas cómo funcionan, así podemos no tener que profundizar en eso aquí y podemos

02:37.470 --> 02:43.800
usar los beneficios del conocimiento de cómo funcionan las redes neuronales artificiales. y entonces alimentamos esta información sobre

02:43.830 --> 02:51.870
el estado en una red neuronal y luego procesaremos esta información, la X1 y la X2, dependiendo de la estructura de la red

02:51.870 --> 02:55.380
neuronal, podría tener múltiples capas ocultas, y así sucesivamente.

02:55.380 --> 03:00.900
Así que eso es algo que descubrirás en los tutoriales prácticos, pero al final estructuraremos

03:00.900 --> 03:06.570
de tal manera que espere valores y estos cuatro valores realmente serán nuestro valor Q.

03:06.570 --> 03:11.790
Entonces, los valores que dictan qué acción debemos tomar y cuáles no en este tutorial verán exactamente cómo

03:11.790 --> 03:15.220
se usan estos valores clave para decidir qué acción se tomará.

03:15.240 --> 03:22.490
Pero el punto principal aquí es que ya no miramos solo este laberinto desde una perspectiva de aprendizaje.

03:22.650 --> 03:29.760
Ahora estamos tomando los estados del laberinto y los estamos alimentando en una red neuronal profunda para

03:29.820 --> 03:31.360
obtener estos cubículos y.

03:31.410 --> 03:35.080
Y al final del día todavía vamos a hacer una acción, aún vamos

03:35.150 --> 03:39.900
a entender qué acción debemos tomar y discutiremos todo esto con más detalle, pero la pregunta ahora

03:39.900 --> 03:42.990
es por qué estamos haciendo todo esto por eso lo llamamos.

03:43.200 --> 03:47.990
¿Por qué las cosas son mucho más complicadas cuando el enfoque inicial de aprendizaje ya

03:48.280 --> 03:48.990
funcionaba bien?

03:49.170 --> 03:54.980
El motivo es que el aprendizaje funcionaba en este entorno tan simplista y, por ahora,

03:54.990 --> 03:59.830
seguimos tratando con este entorno tan simplista para comprender mejor los conceptos.

04:00.000 --> 04:06.220
Pero al mismo tiempo, el simple aprendizaje de Kial ya no funcionará en entornos más complejos

04:06.600 --> 04:12.780
y estamos hablando, por ejemplo, de los autos que conducirán autopropulsados, que crearán o jugarán Doom

04:13.020 --> 04:19.200
cuando la inteligencia artificial esté jugando a Doom u otros juegos de Atari como breakout o

04:19.260 --> 04:26.400
incluso automóviles autodirigidos y elementos de aprendizaje de refuerzo más avanzados, como robots que caminan y realizan acciones en

04:26.730 --> 04:32.400
todos esos casos, básicamente, el aprendizaje es insuficiente, no es fuerte, no es lo suficientemente

04:32.400 --> 04:34.700
potente como para dominar esos desafíos.

04:34.710 --> 04:41.250
Y tal como lo hemos visto en el curso de aprendizaje profundo si has estado en nuestra disciplina o si

04:41.250 --> 04:47.820
has hecho las secciones de anexo en x número uno y X-2, sabrás que el aprendizaje profundo es muy superior

04:47.820 --> 04:51.640
a cualquier tipo de aprendizaje automático, mucho menos un simple aprendizaje genial.

04:51.660 --> 04:55.770
Y es por eso que estamos aprovechando el poder del aprendizaje profundo aquí, así que estamos alimentando

04:55.770 --> 04:58.580
la información sobre el medio ambiente como un vector de valores.

04:58.590 --> 05:04.240
y luego estamos usando eso para realizar las acciones que queremos para decidir qué acciones van a tomar los agentes.

05:04.240 --> 05:07.220
En este caso, solo para usar en una red neuronal profunda

05:07.420 --> 05:11.700
Así que eso es como una descripción general de alto nivel de por qué estamos haciendo esto.

05:11.830 --> 05:17.920
Y ahora echemos un vistazo con más detalle a lo que sucede con el concepto de

05:17.920 --> 05:24.100
aprendizaje genial cuando lo transferimos cuando hacemos la transición o transición del aprendizaje simple al profundo Killary.

05:24.130 --> 05:31.720
Como vimos en los tutoriales de intuición anteriores, tuvimos una diapositiva como esta, que es la base del aprendizaje

05:31.960 --> 05:33.550
de la diferencia temporal.

05:33.700 --> 05:37.430
Esta es la fórmula para la diferencia temporal y, básicamente, así que vamos a pasar.

05:37.430 --> 05:44.640
Entonces, básicamente, teníamos un agente que se encontraba en este estado aquí, que se indica con la flecha azul.

05:45.070 --> 05:51.760
Y estábamos entendiendo cómo funciona la diferencia temporal para este valor de, por ejemplo, subir.

05:51.790 --> 05:57.250
Y entonces, lo que vimos aquí fue antes de que esto esté en el simple Killary, no en el profundo aprendizaje en el

05:57.250 --> 05:57.610
simple asesino.

05:57.640 --> 06:05.560
Lo que vimos fue antes de que el agente tuviera un valor de matiz posterior que había aprendido sobre esta acción

06:05.560 --> 06:06.260
de subir.

06:06.340 --> 06:08.700
Entonces decidió tomar la decisión de subir.

06:08.860 --> 06:14.830
Y justo después de que toma su acción, recibe una recompensa por tomar esta acción en este estado.

06:14.830 --> 06:21.070
puede tomar un primo en el nuevo estado como imprimir y leer multiplicado por el factor DK de gamma.

06:21.070 --> 06:27.850
Y esa es la recompensa más ahora que puede evaluar el valor del estado actual en que se encuentra, que es el

06:27.850 --> 06:32.400
máximo de todos los nuevos valores q de todo el cubo de las nuevas acciones,

06:32.440 --> 06:40.450
Entonces, eso es esencialmente la señal del nuevo valor del cubo o algo así como el valor del cubo empírico que

06:40.450 --> 06:43.200
acaba de recibir para realizar esa acción.

06:43.270 --> 06:45.640
E idealmente estos dos dos deberían ser lo mismo.

06:45.640 --> 06:51.430
Así que el valor real de Q que tenía en su memoria sobre esta acción en este estado

06:51.430 --> 06:57.420
debería equipararse a la recompensa real más la gamma multiplicada por el valor del estado en el que terminó.

06:57.610 --> 07:01.870
lo que buscamos, menos lo que obtuvo, lo que tenía en mente, lo que estaba esperando.

07:01.870 --> 07:05.200
Y, por lo tanto, así es como calculamos la diferencia temporal, tomamos

07:05.200 --> 07:06.740
Usted restaría uno del otro.

07:06.780 --> 07:07.690
Esa es una diferencia temporal.

07:07.690 --> 07:14.890
Y luego usa su tasa de aprendizaje Alfa para ajustar su valor q su nuevo valor q por la diferencia temporal

07:14.890 --> 07:16.940
pero con un coeficiente de Alfa.

07:17.110 --> 07:20.360
Entonces esa es la esencia del aprendizaje simple.

07:20.460 --> 07:25.990
Ahora echemos un vistazo a cómo cambia en Killary profundo, por lo que seguiremos trabajando con la

07:26.000 --> 07:29.440
diapositiva, pero vamos a ver exactamente lo que está sucediendo.

07:29.620 --> 07:35.890
Entonces en un aprendizaje profundo la red neuronal predecirá a Valis como vimos en el anterior y como

07:35.890 --> 07:36.320
veremos.

07:36.370 --> 07:42.340
Donna Citronelle, la red neuronal predecirá los valores o podría predecir más valores de más

07:42.340 --> 07:44.790
acciones posibles en un estado dado.

07:44.800 --> 07:48.500
Pero en este caso, sabemos que solo quedan cuatro acciones por hacer.

07:48.670 --> 07:56.160
Y entonces, la red neuronal predecir cuatro de estos valores por lo que no habrá final en una situación de aprendizaje profundo, es importante

07:56.170 --> 07:58.800
que no exista un antes o un después.

07:58.960 --> 08:01.610
Y así es como vamos a conocer esto un poco mejor.

08:01.720 --> 08:08.080
Entonces, la red neuronal predecirá cuatro de estos valores y no se comparará con lo que

08:08.140 --> 08:15.280
sucederá después, pero la red neuronal se comparará con este valor exacto, pero fue el valor que se

08:15.400 --> 08:17.740
calculó en el paso anterior.

08:17.740 --> 08:22.950
Entonces en el tiempo anterior cuando el agente estaba en este cuadrado exacto.

08:23.080 --> 08:30.850
Entonces, digamos que no sé hace algún tiempo que el agente estaba nuevamente en este cuadrado

08:30.850 --> 08:34.420
exacto y se calculó este valor previamente.

08:34.420 --> 08:40.630
Entonces, hace mucho tiempo, el agente calculó este valor, luego los agentes almacenaron este valor para

08:40.630 --> 08:43.720
el futuro y ahora ha llegado el futuro.

08:43.720 --> 08:48.640
Así que ahora él está en la plaza de nuevo y ahora tiene estos valores de cubo que se predice y uno

08:48.640 --> 08:50.510
de ellos es para los cuatro que están subiendo.

08:50.680 --> 08:57.220
Entonces, lo que va a hacer es comparar el valor predicho de Q con este valor que había registrado en el

08:57.220 --> 09:02.520
paso anterior y comprenderá exactamente por qué esto es importante en este momento, por lo que es

09:02.530 --> 09:03.440
importante entenderlo aquí.

09:03.520 --> 09:07.990
No hay un oficial antes de esta plaza específica en este momento específico.

09:08.140 --> 09:14.650
lo comparamos con este valor que tenía desde el momento anterior desde el momento anterior en que

09:14.710 --> 09:22.060
estuvo en esta casilla evaluando toda la situación y sabes como el anterior vez que realmente realizó esta acción.

09:22.110 --> 09:28.100
Estamos tomando el valor de Q que ha predicho usando la red neuronal esta vez y

09:28.270 --> 09:29.290
Entonces ahí vamos

09:29.290 --> 09:33.360
Ahora echemos un vistazo a cómo funciona todo esto en la red neuronal y por qué.

09:33.370 --> 09:38.740
¿Por qué es que sé que suena un poco complicado en este momento, pero lo dividiremos en términos simples en

09:39.310 --> 09:39.990
un segundo.

09:40.000 --> 09:44.380
Así que esto en su propia red que estamos alimentando en los estados del medio ambiente en la

09:44.380 --> 09:48.880
red neuronal va a través de las capas ocultas que está saliendo con estas salidas Q1 Q2 Q3 Q4.

09:48.880 --> 09:56.830
ese estado específico, estos son los valores de cubo que la red neuronal está prediciendo para posibles acciones.

09:56.830 --> 09:57.380
En

09:57.400 --> 09:58.420
Esos son los cumulous.

09:58.420 --> 10:04.270
Entonces parecemos que estamos apuntando y estos objetivos existen exactamente así que si volvemos aquí, este es el objetivo,

10:04.270 --> 10:07.230
así que este es el valor que se predijo.

10:07.300 --> 10:11.740
Y luego, pero también sabemos que tenemos un objetivo desde la última vez que estuvimos en la plaza.

10:11.800 --> 10:16.660
Tenemos un objetivo para esta misma acción, que está por ejemplo.

10:16.660 --> 10:21.490
Así que aquí tenemos un objetivo y vamos a comparar que estamos comparando el Q1

10:21.490 --> 10:28.390
con ese objetivo, estamos comparando el Q2 con el objetivo que teníamos del anterior Q3 versus un objetivo Q4 versus el objetivo.

10:28.420 --> 10:36.610
Y esta es la parte donde la red neuronal o el agente ahora está aprendiendo a través del

10:36.610 --> 10:38.630
aprendizaje profundo cómo mejorar.

10:38.650 --> 10:44.920
Y el punto clave aquí es que todavía estamos aplicando un aprendizaje genial, pero la respuesta de los conceptos es simple: aprendes que aprendes

10:44.980 --> 10:48.940
a través de las diferencias temporales que son bastante sencillas y que ya hemos discutido

10:48.940 --> 10:50.720
y sabemos muy bien por qué no.

10:50.920 --> 10:56.100
Pero al mismo tiempo, en el aprendizaje profundo, ¿cómo aprenden las redes neuronales las redes neuronales a través de nuestro ajuste

10:56.100 --> 10:56.970
de los pesos?

10:57.010 --> 11:07.120
adaptar los conceptos de refuerzo a los conceptos de simple kill learning a la forma en que las redes neuronales realmente funcionan.

11:07.120 --> 11:08.550
Entonces, tenemos que

11:08.710 --> 11:10.950
Y eso es a través de la actualización de sus pesos.

11:10.960 --> 11:14.950
Entonces, esto es lo que intentamos descubrir aquí, cómo adaptamos ese concepto

11:15.400 --> 11:21.060
de diferencia temporal a su propia red para que podamos aprovechar todo el poder de las redes neuronales.

11:21.260 --> 11:27.790
Hasta ahora hemos obtenido esto, así que ingresamos aquí a nuestro estado de entorno cuando un vector pasa por una red

11:27.790 --> 11:33.240
neuronal, obtenemos predicciones de valores clave y luego, desde el momento anterior, el agente estaba en ese estado.

11:33.240 --> 11:39.480
Tenemos estos nuevos objetivos para apuntar uno dos tres y cuatro para cada una de estas acciones respectivas.

11:39.490 --> 11:40.870
Y ahora estamos listos.

11:40.870 --> 11:43.360
OK, vamos a comparar cada uno con cada uno.

11:43.630 --> 11:50.500
Y a partir de aquí es que se vuelve bastante sencillo si está al día con las redes neuronales.

11:50.500 --> 11:52.500
Una vez más eso está en un Anax.

11:52.570 --> 12:00.070
Número uno vamos a calcular una pérdida que está aquí y vamos a estar q apuntar a esta

12:00.070 --> 12:01.760
menos Q menos esta.

12:01.840 --> 12:06.160
Vamos a cuadrar esa la diferencia cuadrada de cada uno de estos y vamos

12:06.160 --> 12:06.730
a sumarlos.

12:06.820 --> 12:12.310
las diferencias al cuadrado de estos valores y sus objetivos y los enviaremos hacia arriba y eso será una pérdida.

12:12.310 --> 12:13.940
Así que tomamos la suma de

12:14.020 --> 12:19.030
Y tan idealmente como tuvimos en el aprendizaje de la diferencia temporal, así que si retrocedemos

12:19.420 --> 12:25.180
por un segundo, recordamos que dijimos que idealmente queremos que esto sea igual a esto, así que queremos

12:25.180 --> 12:31.750
que la diferencia temporal sea cero, eso significa que básicamente el agente es predecir exactamente lo que usted sabe, el valor

12:31.750 --> 12:37.900
de Q es que el agente está prediciendo exactamente o que él y la memoria son exactamente descriptivos del

12:38.590 --> 12:42.940
entorno y, por lo tanto, el agente nunca puede obtener el medio ambiente correctamente.

12:43.000 --> 12:48.880
No hay sorpresas, no hay, no hay s. a, siempre que una diferencia temporal sea un piloto altamente

12:48.880 --> 12:49.970
positivo o altamente negativo.

12:50.040 --> 12:51.340
Entonces tenemos algunas sorpresas.

12:51.340 --> 12:55.690
Pero si las diferencias generales son cero, entonces conoce el medio ambiente tan bien que puede

12:55.690 --> 13:01.110
predecir lo que está sucediendo y puede, y por lo tanto, su política va a ser muy buena y podrá navegar.

13:01.350 --> 13:02.200
Entonces aquí.

13:02.200 --> 13:07.460
Lo mismo, queremos que esta ley sea lo más cercana posible a cero, supongo que es lo más pequeño posible.

13:07.720 --> 13:14.680
vamos a aprovechar el verdadero poder real de la red neuronal, así que vamos a tomar esta pérdida y vamos a utilizar la propagación de

13:14.680 --> 13:19.910
la espalda o pegar como el descenso del gradiente tomar esta pérdida y pasarla a través de la red

13:19.970 --> 13:27.040
posicione hacia atrás o hacia atrás propagada a través de una red y a través de lanzar una fecha grande y decente de los pesos.

13:27.040 --> 13:31.120
Y es por eso que ahora vamos a esta es la parte en la que

13:31.120 --> 13:37.780
Todas estas sinopsis en la red para que la próxima vez que vayamos a través de esta red de la misma manera

13:37.930 --> 13:41.050
describa mejor el entorno y eso es exactamente lo que somos.

13:41.080 --> 13:48.090
Así que aquí tienes, si vuelves, se calculan las pérdidas de Kalka y adivina el propagador de la red. Los

13:48.100 --> 13:49.330
pesos se actualizan.

13:49.330 --> 13:55.720
aquí, esto sucede una y otra vez aquí, esto sucede una y otra vez y sigue sucediendo y

13:55.780 --> 14:02.560
así es como aprende este agente o básicamente ahora la red neuronal que el cerebro del agente está aprendiendo

14:02.560 --> 14:09.880
se está volviendo más y más más descriptivo del entorno y, por lo tanto, el agente puede navegar por el entorno.

14:09.880 --> 14:12.100
Entonces, la próxima vez que llegamos

14:12.130 --> 14:17.980
Cuando decimos que el entorno descriptivo básicamente significa que cuando ponemos en los estados del entorno en los

14:17.980 --> 14:25.510
que se encuentra este agente, es más probable que nos acerquemos más y más a los valores cue reales y eso sucede porque

14:25.510 --> 14:30.790
los valores del cubo que queremos encontrar son los correctos acción y eso sucede porque estos

14:30.790 --> 14:36.940
nuevos objetivos en realidad se derivan empíricamente por lo que todos los días, ¿cómo encuentra estos objetivos lindos.

14:37.090 --> 14:40.090
Eso es realmente esto así que realmente observa.

14:40.100 --> 14:42.940
De acuerdo, entonces una vez que doy este paso, ¿cuál es la recompensa que recibo?

14:43.060 --> 14:45.070
Y entonces, ¿cuáles son los valores de este estado?

14:45.070 --> 14:48.850
Lo mismo que vimos anteriormente en Q learning y en la intuición de aprendizaje simple.

14:48.850 --> 14:54.550
Entonces aprende esto a través de prueba y error y luego construye su red o así

14:54.880 --> 14:59.260
es de tal manera que los valores predichos son cercanos y cercanos.

14:59.380 --> 15:01.330
Consumiendo ese objetivo.

15:01.330 --> 15:07.360
Los valores Q son muy similares al concepto que discutimos aquí en el aprendizaje simple de diferencia temporal

15:07.420 --> 15:09.870
del algoritmo simple de aprendizaje de habilidades.

15:09.910 --> 15:10.460
Ahí vas.

15:10.460 --> 15:12.540
Así es como el agente aprende.

15:12.550 --> 15:13.930
Así que estamos hasta aquí.

15:14.260 --> 15:15.490
Y esa es la parte de aprendizaje.