WEBVTT

00:00.830 --> 00:04.470
Hola y bienvenidos al curso de inteligencia artificial.

00:04.580 --> 00:09.520
Espero que estés entusiasmado con el tutorial de hoy porque estamos dando nuestro primer paso en el mundo,

00:09.520 --> 00:10.170
el I.

00:10.460 --> 00:13.150
Y hoy estamos hablando de reforzar el aprendizaje.

00:13.280 --> 00:18.710
Es una historia muy importante porque respaldará todo lo demás que sucederá en este curso.

00:18.770 --> 00:21.010
Así que comencemos aquí.

00:21.020 --> 00:27.140
Tenemos un pequeño laberinto y este laberinto es nuestra representación de un entorno y eso es lo que

00:27.140 --> 00:29.210
vamos a tratar en este curso.

00:29.210 --> 00:34.040
Vamos a estar lidiando con ciertos entornos en los que nuestra

00:34.040 --> 00:39.950
inteligencia artificial va a funcionar va a tomar medidas para vencerlas en mi camino,

00:39.950 --> 00:42.350
ella buscará ganar en estos entornos.

00:42.350 --> 00:44.190
Y aquí tenemos un agente.

00:44.360 --> 00:46.990
El agente es nuestra inteligencia artificial.

00:47.030 --> 00:52.910
Esa es la persona o la mente que navegará en estos entornos y aprenderá de

00:53.000 --> 00:57.110
los comentarios que sus mentes le darán para realizar ciertas acciones.

00:57.150 --> 01:02.180
Y así, la forma en que funciona es que el agente realice ciertas acciones en este entorno.

01:02.360 --> 01:09.050
Y como resultado, el estado en el que se encuentra cambiará, por lo que podría estar más cerca o más cerca o más a la izquierda

01:09.050 --> 01:10.070
más a la derecha.

01:10.070 --> 01:15.030
Puede tener algún tipo de los otros parámetros que lo describen y los parámetros.

01:15.100 --> 01:20.720
Entonces, el estado cambiará debido a la acción que se toma y también obtendrá recompensas basadas en la

01:20.720 --> 01:20.970
acción.

01:20.970 --> 01:24.950
Entonces, cada vez que se requiere una acción, el estado cambiará y obtendrá una recompensa.

01:24.950 --> 01:29.170
Ahora, tenga en cuenta que a veces puede suceder que no cambie el estado en que la

01:29.170 --> 01:33.070
acción no cambiará una suspensión o que no habrá una recompensa por tomar esa acción.

01:33.110 --> 01:34.530
En ese sentido lo fue.

01:34.670 --> 01:38.480
Sin embargo, el agente continuará haciendo acciones para engañar al estado y obtener

01:38.480 --> 01:42.510
recompensas cambiando las acciones de acción que cambian el estado y obtienen recompensas.

01:42.800 --> 01:47.840
Y al hacer ese proceso, aprenderá sobre lo que iba a explorar el entorno,

01:48.200 --> 01:53.970
y comprenderá qué acciones conducen a buenas recompensas y estados favorables, y qué acciones recompensarán los

01:53.990 --> 01:55.840
dos a un estado desfavorable.

01:56.000 --> 01:59.690
Y este es un problema representacional muy global muy simplista.

01:59.690 --> 02:04.390
Entonces, si lo piensas, los entornos en realidad no tienen que ser solo laberintos.

02:04.400 --> 02:09.170
No se trata solo de salir de un laberinto o encontrar un tesoro en un laberinto.

02:09.170 --> 02:11.740
Un entorno puede ser prácticamente cualquier cosa en la vida.

02:11.750 --> 02:15.180
Entonces imagina que te despiertas por la mañana y cocinas una tortilla.

02:15.410 --> 02:22.010
Entonces, para hacer ese omelet necesitas pasar por ciertos pasos para obtener la sal, conseguir que los huevos se

02:22.010 --> 02:27.770
lleven las sartenes para encender, y así sucesivamente, y suena como una cosa mundana de rutina.

02:27.770 --> 02:29.870
Pero se ha convertido en rutina porque lo has hecho tantas veces.

02:29.960 --> 02:34.670
acciones que llevas a cabo, que te prende fuego poniéndole una sartén al fuego. Estás poniendo todos

02:34.670 --> 02:40.250
los huevos en la sartén y pones un poco de sal en los huevos. y estás dando vueltas y demás.

02:40.250 --> 02:43.190
Pero, en realidad, es un entorno en el que realizas ciertas

02:43.190 --> 02:49.970
Entonces, como puede ver, son acciones de acciones de CRN que están tomando ciertos estados y esas acciones conducen a

02:49.970 --> 02:52.460
ciertos otros estados y, en ocasiones, a recompensas.

02:52.460 --> 02:57.650
Entonces, por ejemplo, cuando enciendes el fuego y esperas espera espera espera espera toma una acción de

02:57.650 --> 03:01.900
espera espera espera espera demasiado tiempo y luego pones los huevos en la sartén.

03:01.910 --> 03:03.560
Las recompensas van a ser muy negativas.

03:03.560 --> 03:05.120
Todo va a arder.

03:05.120 --> 03:10.130
también es muy importante comprender que las acciones se deben realizar en los puntos correctos en el tiempo.

03:10.130 --> 03:13.850
Por otro lado, si realiza todas las acciones correctas en el momento correcto,

03:13.850 --> 03:20.090
Por ejemplo, poner la sal en la sartén antes de poner los huevos podría no ser la

03:20.090 --> 03:20.770
mejor idea.

03:20.780 --> 03:26.190
Es posible que desee tomar esa medida de poner la sal en la sartén después de que los huevos estén

03:26.200 --> 03:28.320
allí para que estén en un estado diferente.

03:28.370 --> 03:29.620
Entonces es importante recordar eso.

03:29.780 --> 03:34.070
Y al mismo tiempo, si tomas todas las acciones correctas en el orden correcto en

03:34.580 --> 03:38.840
los estados correctos, tu recompensa final podría ser que obtienes una tortilla que puedes comer.

03:38.900 --> 03:44.660
Y esa es una actividad muy básica en tu vida, pero si lo piensas, en realidad es un entorno y

03:44.990 --> 03:50.060
eres el agente que atraviesa este entorno y realizas una tarea en la que realmente no necesitas aprender

03:50.060 --> 03:52.190
nada porque ya lo conoces bastante bien. .

03:52.220 --> 03:56.170
Pero al mismo tiempo podrías aprender que podrías aprender cómo hacer una mejor tortilla o especialmente si

03:56.340 --> 03:59.010
es tu primer omelette lo que estás haciendo, probablemente lo arruines.

03:59.030 --> 04:04.010
Pero aprenderá de eso porque comprenderá qué acciones conducen a los estados y rutas y a cualquier

04:04.490 --> 04:05.890
otra cosa en la vida.

04:06.050 --> 04:11.900
y vender y obtener ciertos comentarios del mercado en el sentido de retornos positivos o negativos.

04:11.900 --> 04:16.390
Por ejemplo, incluso negociar en el mercado bursátil y usted sabe cómo comprar

04:16.430 --> 04:20.160
Ese también es un ambiente en el que participas en ese entorno cuando eres un anciano.

04:20.210 --> 04:25.220
Conducir un automóvil también es un entorno donde puedes girar el volante, puedes acelerar, puedes romper,

04:25.220 --> 04:29.510
y así sucesivamente, y obtienes información del entorno y sabes que una de esas

04:29.510 --> 04:35.840
retroalimentaciones es que el policía te da una multa excesiva si " rebasando el límite de velocidad aceptable o permitido

04:35.840 --> 04:36.960
en esa carretera.

04:37.040 --> 04:41.900
Y, por lo tanto, a partir de ahí aprendes que eso no es algo que deba hacerse porque lleva

04:41.900 --> 04:43.020
a una recompensa negativa.

04:43.220 --> 04:45.590
Entonces, las recompensas no tienen que ser solo al final del proceso.

04:45.590 --> 04:48.020
Pueden ser durante todo el viaje a lo largo del proceso.

04:48.020 --> 04:49.490
Entonces esos son un par de ejemplos.

04:49.490 --> 04:54.980
Y en términos de un yo, la manera más simple de pensar en el aprendizaje de refuerzo es como entrenar a un perro

04:54.980 --> 05:00.270
cuando entrenas al perro para que le des ciertos comandos y si obedece esos comandos, entonces le das un alcance, lo das

05:00.440 --> 05:04.820
como una galleta o algo si no lo hace, Abeles Kamaz le dices que es un perro malo

05:04.820 --> 05:06.600
o simplemente no le das un premio.

05:06.830 --> 05:13.820
necesita hacer qué acción debe tomar en ciertos estados y los estados son los comandos que le está dando.

05:13.820 --> 05:18.470
Y a través de ese proceso aprende qué ciertos comandos o qué

05:18.470 --> 05:22.700
Y en base a eso obtendrá ciertas recompensas por supuesto en el mundo de la inteligencia artificial.

05:22.700 --> 05:24.590
No es tan complejo.

05:24.590 --> 05:26.910
No tienes que dar las golosinas.

05:26.960 --> 05:32.120
No tiene que tener como una bolsa de galletas cada vez que le da un más uno o

05:32.120 --> 05:37.290
menos, por lo que es una gran ventaja que en el mundo de la IA hayamos creado estas IA.

05:37.310 --> 05:42.680
Entonces, las recompensas que les damos si piensas que estas recompensas son realmente geniales les están dando que

05:42.680 --> 05:48.490
en realidad no existen, son solo un más o menos uno o más uno o un cero o algo así.

05:48.500 --> 05:51.100
Entonces todo es inexistencia, todas cosas imaginarias.

05:51.110 --> 05:56.300
Pero al mismo tiempo, lleva a grandes resultados ya que podemos crear estas cosas increíbles como

05:56.300 --> 06:01.760
la increíble inteligencia artificial y esta asombrosa inteligencia artificial al proporcionar recompensas que realmente no existimos.

06:01.790 --> 06:05.670
Más y menos uno no cuesta nada, sino los mismos resultados de lanzamiento de tiempo.

06:05.900 --> 06:08.170
Muy similar al mundo real.

06:08.210 --> 06:15.140
Y usted sabe, por ejemplo, Dokes. Pero aquí las recompensas son digitales y solo números.

06:15.140 --> 06:20.920
así que esto es solo en las imágenes, no necesariamente ese perro robot exacto, usted sabe que está entrenado

06:20.920 --> 06:26.630
a través del refuerzo aprendiendo algunos de los perros robot especialmente los más viejos que tendría un algoritmo allí.

06:26.710 --> 06:31.050
Y con eso en mente podemos hablar sobre perros robot. Me encanta este ejemplo,

06:31.370 --> 06:39.260
Y este es en realidad un buen ejemplo de la diferencia entre los agentes preprogramados y el agente de

06:39.260 --> 06:46.120
aprendizaje de refuerzo para que pueda tener un perro robot que esté preprogramado para saber cómo caminar.

06:46.160 --> 06:51.500
Entonces en el algoritmo detrás del perro, el programa dirá OK, para caminar necesitas mover la pierna izquierda

06:52.370 --> 06:58.160
hacia delante, la pierna delantera hacia delante, luego la pierna derecha hacia delante, la pierna delantera hacia adelante y la

06:58.160 --> 07:02.480
espalda hacia adelante y repite esa acción y sabes que esa es la definición de

07:02.480 --> 07:04.870
caminar es una función dentro de este perro.

07:05.040 --> 07:09.060
Y luego podría hacer que sepas cómo sentarte cómo pararte y cosas así.

07:09.680 --> 07:16.360
Mientras que en un perro robot que está entrenado a través del refuerzo, lo que ocurre es que no lo

07:16.360 --> 07:16.710
preprograma.

07:16.730 --> 07:23.810
Este es el concepto clave para todo aquí que no tiene ningún algoritmo interno que esté codificado

07:23.810 --> 07:24.850
en el perro.

07:24.860 --> 07:28.300
En cambio, tienes lo que discutiremos en el futuro.

07:28.460 --> 07:36.710
Tienes este algoritmo de aprendizaje de refuerzo al que se le dice que está bien, así que el objetivo es llegar desde

07:36.860 --> 07:41.990
donde estás ahora sin saber nada hasta el final de la habitación, por ejemplo.

07:42.170 --> 07:44.270
Y aquí están las ciertas acciones que puedes tomar.

07:44.270 --> 07:48.950
Puedes mover tu pie derecho, puedes mover tu pie izquierdo, puedes mover tu pie derecho, tu pie izquierdo

07:48.950 --> 07:53.000
atrás, así que aquí todos los grados de libertad que puedes hacer, puedes moverlo así, puedes

07:53.000 --> 07:59.180
moverte así, como una lista de Las acciones que puede realizar y sus recompensas son cada vez que da un paso hacia adelante, obtiene

07:59.210 --> 08:01.430
un más uno cada vez que se cae.

08:01.430 --> 08:04.090
Obtienes un menos uno y eso es todo.

08:04.160 --> 08:07.390
Y luego simplemente dejan al perro y dejan que lo resuelva solo.

08:07.400 --> 08:13.460
Entonces, el perro intenta levantarse, cae y luego se da cuenta de que no debería hacer esa acción que me llevó a caer, porque cada vez

08:13.460 --> 08:17.040
que caigo recibo un menos uno que no es bueno para mí en ese momento.

08:17.060 --> 08:21.560
También lo hace la otra acción que lo ayudó a ponerse de pie y luego se da cuenta de

08:21.560 --> 08:26.090
que solo experimentos experimenta experimentos tri cosas al azar y luego se da cuenta de que puede dar un

08:26.090 --> 08:31.410
paso adelante moviendo el pie delantero derecho y obtiene uno más y se da cuenta oh debería haz más de eso.

08:31.460 --> 08:35.620
OK, así que ahora aprende que debería hacer más de esto y menos de eso.

08:35.630 --> 08:42.270
Y a través de este proceso de aprendizaje, rápidamente comprende cómo puede caminar.

08:42.410 --> 08:49.130
aquellos perros que se dieron cuenta solos a veces pueden caminar mejor que los perros preprogramados porque realmente preprogramamos las cosas

08:49.130 --> 08:53.930
que vemos en los perros de la vida real y o usted sabe que usamos

08:53.930 --> 08:59.960
nuestra propia imaginación para hacerlo, mientras que un perro de refuerzo puede aprender optimizar las cosas por sí mismo.

08:59.960 --> 09:00.300
Y

09:00.320 --> 09:03.540
Y porque en la IA a veces puede obtener incluso mejores resultados.

09:03.680 --> 09:05.290
Y así es como pueden entrenar a estos robots.

09:05.320 --> 09:07.320
Los mismos perros robot para jugar fútbol.

09:07.520 --> 09:12.970
Puedes entrenar a un perro normal para jugar fútbol porque sabes que todo el enfoque es diferente.

09:12.980 --> 09:20.900
Y no es algo que usted sabe, probablemente, un perro normal ha sido entrenado para hacer o lo ha hecho

09:20.900 --> 09:23.030
en su proceso de evolución.

09:23.030 --> 09:28.190
​​siempre y cuando le digas cuáles son las recompensas, cuáles son las posibles acciones que pueden tomar.

09:28.190 --> 09:32.760
Mientras que un robot de aprendizaje de refuerzo puede entender muy fácilmente cómo jugar fútbol,

09:33.080 --> 09:36.390
Así es como funciona el aprendizaje de refuerzo.

09:36.410 --> 09:39.160
En general, hay una descripción general rápida del aprendizaje de refuerzo.

09:39.170 --> 09:45.500
Espero que eso te haya entusiasmado acerca de lo que vendrá después porque es un mundo completamente diferente en

09:45.530 --> 09:51.980
comparación con las soluciones de preprograma, un programa difícil de soluciones codificadas en donde tienes las condiciones if if else.

09:51.980 --> 09:53.750
Esto es muy diferente.

09:53.840 --> 09:56.010
Y vamos a hablar más sobre eso.

09:56.150 --> 10:03.400
así que si quieres tener algunos materiales de apoyo, aquí hay un gran artículo que puedes mirar y mirar.

10:03.700 --> 10:06.810
Mientras tanto, tenemos algunas lecturas adicionales para ti,

10:06.830 --> 10:09.300
Se llama aprendizaje de refuerzo simple con flujo de tensor.

10:09.430 --> 10:10.570
Tiene diez partes.

10:10.570 --> 10:14.790
El enlace está aquí y encontrarás el enlace completo en el que se puede hacer clic.

10:14.820 --> 10:22.540
En el curso de los recursos del artículo de Arthur Giuliani de 2016, puede seguir este curso y también

10:22.540 --> 10:24.770
obtener información adicional de ese artículo.

10:24.790 --> 10:30.010
torche para implementaciones diferentes pero implantaciones, pero al mismo tiempo puede recoger algunas cosas aquí y

10:30.520 --> 10:35.830
allá que podrían complementar su aprendizaje de que estamos va a estar haciendo en este curso.

10:35.830 --> 10:41.260
Pero tenga en cuenta que ese artículo tiende a fluir cuando, como en este curso, utilizamos pi

10:41.260 --> 10:44.910
Los artículos tan geniales lo siguen si está pensando en seguirlo con seguridad.

10:44.920 --> 10:45.820
Todavía por las dudas.

10:45.820 --> 10:51.890
Echa un vistazo a esa primera parte y mira si te gusta para ver si te gustaría leerla un poco más.

10:52.210 --> 10:58.210
Y luego tenemos específico para este tutorial un aprendizaje de cumplimiento fronterizo. Hay un documento de Richard Sutton

10:58.210 --> 11:00.380
que se llama aprendizaje por refuerzo.

11:00.420 --> 11:08.170
pero al mismo tiempo puedes aprender un poco sobre el refuerzo aprendiendo algunos de los ejemplos como el ejemplo de omlet y otros ejemplos

11:08.170 --> 11:13.960
de dónde se puede aplicar el aprendizaje de refuerzo y solo una visión general del aprendizaje de refuerzo.

11:13.960 --> 11:17.710
Una introducción es que los documentos de 1998 son bastante antiguos,

11:17.710 --> 11:23.220
Si está buscando lecturas adicionales y en esa nota vamos a concluir este tutorial.

11:23.230 --> 11:24.640
No puedo esperar para verte la próxima vez.

11:24.640 --> 11:26.560
Y hasta entonces, disfruta de la IA.