WEBVTT

00:00.660 --> 00:03.540
Hola, bienvenidos al curso de inteligencia artificial.

00:03.540 --> 00:08.940
En el tutorial de hoy, cubriremos un tutorial bastante complejo llamado rastreo de elegibilidad

00:08.940 --> 00:09.500
o paso.

00:09.500 --> 00:14.970
Q aprendizaje y esto es algo que voy a implementar en el lado práctico de las cosas,

00:14.970 --> 00:21.390
por eso tenemos que salir y en el centro es un tema bastante complejo, así que tenemos un enfoque muy

00:21.690 --> 00:24.880
interesante para ponernos al día con la intuicion detras

00:24.890 --> 00:29.760
Por lo tanto, tengo en mente un enfoque diferente de lo que estamos acostumbrados a consolar el simple vistazo a eso y

00:29.760 --> 00:30.560
ver cómo va eso.

00:30.780 --> 00:34.190
Así que quiero darte un ejemplo para comenzar.

00:34.260 --> 00:39.990
Voy a darles un ejemplo en este tutorial y eso demostrará el poder de elegibilidad.

00:40.020 --> 00:42.470
Y danos la intuición detrás de las cosas.

00:42.540 --> 00:47.880
Y luego, si desea profundizar en los rasgos de elegibilidad, le daré el mejor lugar donde

00:47.880 --> 00:49.210
pueda leer al respecto.

00:49.290 --> 00:52.560
Te daré una referencia a un libro, pero de lo contrario.

00:52.560 --> 00:57.120
Entonces, aunque esto va a ser diferente porque estamos en primer lugar, en lugar de profundizar en la

00:57.420 --> 01:01.580
intuición, vamos a ver un ejemplo y la intuición se volverá obvia después de que hablemos.

01:01.580 --> 01:03.010
Y esa es mi esperanza.

01:03.130 --> 01:03.860
Así que echemos un vistazo.

01:03.860 --> 01:06.000
Veamos si podemos hacer esto.

01:06.000 --> 01:12.780
Así que aquí tenemos dos agentes que navegan en el mismo entorno y vamos a ver cómo funcionan

01:12.780 --> 01:13.740
estos dos agentes.

01:13.740 --> 01:16.260
El primero va a funcionar con nuestro rastro de elegibilidad.

01:16.260 --> 01:22.230
El segundo funcionará con un trazo ilegible y con suerte veremos por qué el segundo será

01:22.230 --> 01:24.450
mucho más poderoso que el primero.

01:24.630 --> 01:26.240
Así que echemos un vistazo.

01:26.250 --> 01:28.040
Vamos a ver a este agente primero.

01:28.320 --> 01:34.170
Y la forma en que opera es la forma exacta en que hemos discutido lo circular profundo hasta ahora.

01:34.530 --> 01:40.230
Entonces, el agente va a dar un paso o se moverá para pasar a un nuevo estado.

01:40.260 --> 01:45.480
Lo bueno para obtener una recompensa determinada es ponerlo a disposición oa través de su algoritmo actualizar la

01:45.480 --> 01:50.610
red neuronal que está ejecutando este agente o que se está ejecutando en la mente de este agente.

01:50.610 --> 01:54.870
Entonces, eso es básicamente cómo aprender desde ese momento va a dar un nuevo paso.

01:54.870 --> 01:59.550
red neuronal le está diciendo que haga va a obtener recompensas subiendo la actualización y así sucesivamente, y seguirá haciéndolo.

01:59.550 --> 02:03.930
Por lo tanto, desde este nuevo estado se tomará una nueva acción en función de lo que su

02:03.930 --> 02:09.370
Obviamente, esto va a hacer un buen trabajo y, como hemos visto anteriormente desde Squire hasta los

02:09.400 --> 02:15.450
DRO prácticos anteriores, vamos a obtener algunos resultados bastante buenos aquí, pero ahora vamos a agregar una nueva función.

02:15.480 --> 02:21.380
Ahora que este agente es el número dos de este tipo, va a navegar en el mismo entorno.

02:21.570 --> 02:23.770
¿Qué va a utilizar la legibilidad de los árboles?

02:23.940 --> 02:25.170
Y esto es lo que significa.

02:25.170 --> 02:30.280
en este caso, cinco fórceps darán cuatro pasos y luego, solo después de

02:30.300 --> 02:38.730
seguir estos pasos, calculará la recompensa total que recibió de esos pasos y lo hará. ponerlo a través de su red.

02:38.730 --> 02:42.730
Lo que hará es tomar todas las medidas que tome,

02:42.730 --> 02:48.420
Lo pondrá a través de su red neuronal que rige el proceso de toma de decisiones y

02:48.420 --> 02:50.690
luego la red neuronal aprenderá de eso.

02:50.700 --> 02:51.600
Cuál.

02:51.630 --> 02:54.050
De inmediato, como cuál crees que es más poderoso.

02:54.150 --> 02:59.070
El tipo que simplemente está dando un paso a la vez y algo así como asomándose a ciegas o en la oscuridad y está

02:59.070 --> 03:01.550
bien así que voy a dar un paso para ver qué pasa.

03:01.620 --> 03:02.830
Da un paso para ver qué pasa.

03:02.850 --> 03:03.480
Toma medidas.

03:03.480 --> 03:04.020
Lo que pasa.

03:04.020 --> 03:10.680
El chico de la cima o el chico que toma con mucha valentía a Marsha en cuatro pasos seguidos y luego

03:11.130 --> 03:17.610
decide si esos fueron buenos pasos o no del todo y por qué puedes ver aquí o por qué probablemente

03:17.610 --> 03:22.470
entiendes por qué El segundo tipo es mejor o más poderoso es porque el segundo

03:22.470 --> 03:25.160
tipo realmente sabe lo que está al final.

03:25.170 --> 03:30.030
El primer tipo cuando está cuando evalúa si este paso es bueno o no, solo está mirando la

03:30.030 --> 03:31.170
recompensa que está recibiendo.

03:31.280 --> 03:34.430
Y por lo tanto, solo se guía por la recompensa que le brinda el medio ambiente.

03:34.440 --> 03:39.570
Lo mismo aquí, solo se guía por la recompensa que este entorno le brinda aquí.

03:39.620 --> 03:46.490
Entonces, cada vez que es su único tipo de brújula que tiene la recompensa, la recompensa es la recompensa.

03:46.560 --> 03:51.800
Mientras que aquí él realmente puede evaluar después de tomar los pasos que puede evaluar.

03:51.820 --> 03:53.960
OK, así que llegué a la línea de meta.

03:54.000 --> 03:56.640
Entonces esta combinación de pasos fue buena.

03:56.700 --> 03:57.680
Todos ellos fueron buenos.

03:57.840 --> 04:01.410
O Oh no, terminé en la hoguera o Ohno I.

04:01.500 --> 04:08.100
Lo hice y cuando el auto no llegó a la línea de meta o crucé la pared de arena o perdí el juego de

04:08.100 --> 04:09.340
la fatalidad o algo así.

04:09.450 --> 04:13.330
Y luego decide que toda esta combinación de pasos es mala.

04:13.650 --> 04:18.180
Y, por lo tanto, para estos pasos anteriores, tiene más información.

04:18.180 --> 04:23.490
Él tiene más ideas como en un enfoque muy intuitivo.

04:23.490 --> 04:26.000
De nuevo, este es un tema mucho más complejo de lo que estamos retratando aquí.

04:26.010 --> 04:32.370
Pero de una manera intuitiva, por ejemplo, si das este paso, este paso solo tiene información para que lo

04:32.370 --> 04:34.990
obtengas; aquí solo obtienes información de esta recompensa.

04:35.070 --> 04:38.580
Y para este paso en este caso, el mismo paso exacto.

04:38.640 --> 04:41.670
Tiene más información que viene de todo el camino.

04:41.820 --> 04:45.500
Bien, ¿cuál fue el resultado después de cuatro pasos o cinco pasos o lo que sea?

04:45.520 --> 04:51.930
Sí, así es que así es como funciona y por qué se llama rastro de elegibilidad porque durante este

04:51.960 --> 04:58.170
proceso no solo mira la recompensa de la computadora sobre lo que está sucediendo y luego la pérdida acumulada

04:58.200 --> 05:00.460
y luego todo lo que es apropiado.

05:00.620 --> 05:05.210
Pero en realidad hay un rastro de elegibilidad como lo que se llama el fideicomiso de discapacidad.

05:05.210 --> 05:15.440
digamos que obtenemos un castigo obtenemos una recompensa negativa, entonces cuál de estos pasos es más probable que sea elegible para ese castigo.

05:15.470 --> 05:23.060
Hay un rastro que se mantiene en un algoritmo que dice OK, así que si obtenemos un

05:23.090 --> 05:29.690
Entonces, no solo sabemos qué es todo este patrón o la combinación de pasos de la escuela,

05:29.690 --> 05:36.350
sino que también mantenemos un rastro de elegibilidad, qué pasos vamos a actualizar si conseguimos a todos.

05:36.350 --> 05:40.970
Entonces, por ejemplo, si como recompensa negativa podemos tener un rastro de elegibilidad que

05:41.030 --> 05:47.360
nos indique que este es un paso que es el más responsable de lo que obtuvimos al final o

05:47.390 --> 05:54.800
si es una recompensa positiva nuevamente, podemos saber que el algoritmo nos ayuda a seguirle el paso este algoritmo de elegibilidad también

05:54.830 --> 06:03.170
nos ayuda a realizar un seguimiento de lo que es qué paso o qué acción debe ser elegible para que se actualice según la recompensa

06:03.170 --> 06:03.820
que obtenemos.

06:03.860 --> 06:05.820
Y es por eso que se llama rasgo de elegibilidad.

06:06.160 --> 06:11.810
Y esa es la intuición básica detrás de la elegibilidad y con suerte estos dos ejemplos

06:11.810 --> 06:18.260
de estos agentes lo hacen bastante obvio o son bastante intuitivos, mientras que estas habilidades pueden ser tan poderosas.

06:18.440 --> 06:25.760
Y si se le prometió, si le gustaría profundizar en las huellas de elegibilidad tópicas o en el aprendizaje por pasos, entonces

06:26.330 --> 06:31.220
un maravilloso libro maravilloso que es lo que puede encontrar se llama aprendizaje de refuerzo.

06:31.220 --> 06:36.590
Una introducción es por Richard Sutton Andrew Barto 1998.

06:36.740 --> 06:40.770
Creo que están en el proceso de crear una segunda edición o el tema más crítico.

06:40.790 --> 06:49.210
más popular o más referenciado sobre el aprendizaje de la aplicación, tiene un número ridículo de citas.

06:49.260 --> 06:53.050
Pero este es el libro más común o

06:53.300 --> 06:56.630
Creo que como decenas de miles si no me equivoco.

06:56.810 --> 07:01.120
Y también el capítulo que necesita para esto es el Capítulo 7.

07:01.130 --> 07:06.900
Entonces, para ver las opciones de elegibilidad, hay un capítulo completo sobre el Capítulo 7.

07:06.920 --> 07:10.100
Puedes leer sobre esto y entrar en muchos detalles.

07:10.220 --> 07:17.660
Reenviar los rastros de elegibilidad hacia atrás y también cómo la diferencia temporal integral por un lado y el otro extremo del

07:17.660 --> 07:23.320
espectro tiene métodos de Monte Carlo entre usted y su rastro de elegibilidad traza supuestamente o el

07:23.330 --> 07:27.280
enlace va de las diferencias temporales a los métodos de Monte Carlo.

07:27.290 --> 07:34.190
Muy interesante leer muchas fotos que realmente aprecié explicaciones muy intuitivas.

07:34.250 --> 07:40.550
Así que hay muchas cosas que puede aprender de este libro sobre inteligencia artificial y aprendizaje reforzado,

07:40.550 --> 07:48.230
pero específicamente los rastros de elegibilidad son como un muy buen lugar para ir a este libro en busca de rastros

07:48.230 --> 07:49.190
de elegibilidad.

07:49.350 --> 07:57.070
Y la segunda referencia para hoy es algo que le mostrará en las pruebas prácticas el aprendizaje profundo o el

07:57.440 --> 08:04.460
documento de investigación de la mente profunda de Google sobre métodos sincrónicos para un aprendizaje de refuerzo más

08:04.550 --> 08:05.120
profundo.

08:05.270 --> 08:11.270
el documento que es el único que ve el periódico A-3 que vamos a discutir más adelante en el puntaje.

08:11.270 --> 08:12.240
Sí, ese es

08:12.240 --> 08:14.410
Estamos cada vez más cerca de eso.

08:14.510 --> 08:21.200
Y como pueden ver, estamos muy entusiasmados con esto, así que esto va a buscar un poco más acerca de

08:21.500 --> 08:28.400
cómo implementaron los rastros de elegibilidad en este documento, así que vamos a usar esto más para el lado práctico

08:28.400 --> 08:29.420
de las cosas.

08:29.420 --> 08:33.650
Así que espero que hayas disfrutado el tutorial de hoy y sepas que estás un poco más cómodo con los rastros de

08:34.010 --> 08:35.920
elegibilidad y no puedo esperar para verte la próxima vez.

08:35.930 --> 08:37.680
Hasta entonces disfruta de a.