WEBVTT

00:01.110 --> 00:04.770
Hola, bienvenidos al curso de inteligencia artificial.

00:04.770 --> 00:09.420
Hoy vamos a discutir el plan de ataque para la sección de la que estamos hablando matar el aprendizaje.

00:09.450 --> 00:15.000
Y tenemos bastantes tutoriales, así que creo que es una buena idea

00:15.000 --> 00:20.580
que los examinemos rápidamente para comprender qué esperar en los próximos videos.

00:20.580 --> 00:21.650
Así que, aquí vamos.

00:22.140 --> 00:22.560
Todo bien.

00:22.560 --> 00:25.230
Lo que aprenderemos en esta sección.

00:25.230 --> 00:31.650
cómo se relaciona con cosas que observamos en la vida real son cosas que hacemos nosotros mismos .

00:31.690 --> 00:37.890
Primero lo primero que hablaremos sobre lo que es el aprendizaje reforzado y lo filosófico detrás del

00:37.890 --> 00:44.540
aprendizaje de refuerzo y cómo el aprendizaje de refuerzo realmente se puede ver en la vida real y

00:44.790 --> 00:51.630
No hablan sobre la ecuación de botones, concepto muy fundamental que sustenta todo o muchas cosas que están sucediendo

00:51.630 --> 00:56.580
y para el aprendizaje reforzado especialmente en el espacio de aprendizaje CULE y lo

00:56.940 --> 01:01.700
que vamos a discutir en esta sección del curso y en las siguientes secciones.

01:01.800 --> 01:09.280
Luego, hablaremos sobre el plan y el plan que surgen para la inteligencia artificial de hierro

01:09.300 --> 01:15.990
en bruto para navegar dentro de los entornos. Veremos cómo se junta eso muy rápido

01:15.990 --> 01:17.270
pero bastante interesante.

01:17.720 --> 01:22.890
Allí hablaremos sobre el mercado de los procesos de decisión y su concepto vamos a

01:22.890 --> 01:31.620
presentar un concepto muy nuevo que incluso agregará lentamente una capa de sofisticación a nuestra ecuación de Belman a todo nuestro aprendizaje de refuerzo a

01:31.800 --> 01:37.070
nuestros conceptos de aprendizaje CULE y ese es el camino esta sección está estructurada de

01:37.290 --> 01:43.080
manera que presentamos la ecuación de Bollmann de una forma muy simplista y luego, lentamente, a lo

01:43.260 --> 01:48.550
largo de los tutoriales le agregamos capas de sofisticación para llegar a la versión final.

01:48.690 --> 01:53.880
Ese es nuestro destino designado en términos de Hillary, pero llegaremos allí lentamente.

01:54.000 --> 01:58.830
Para que tengamos tiempo suficiente para procesar toda esa información y dejar que se instale.

01:58.890 --> 02:05.400
hemos discutido o de lo que tendremos o de lo que hablábamos para luego hablar de políticas versus planes.

02:05.400 --> 02:11.220
Y la marca de las proses disidentes es una capa adicional de sofisticación además de lo que

02:11.220 --> 02:13.830
Otro Tauriel interesante, todos son interesantes.

02:13.830 --> 02:19.590
Solo otro tutorial rápido sobre cómo las políticas son diferentes de los planes y cuáles son

02:19.590 --> 02:25.980
las diferencias y estos son términos que probablemente escuches o leas en la literatura si vas a profundizar

02:25.980 --> 02:29.980
en ellos para obtener información adicional sobre el aprendizaje de refuerzo.

02:29.980 --> 02:34.590
Se habla de agregar una pena viviente a nuestros entornos.

02:34.770 --> 02:41.850
Y esa es otra forma de agregar complejidad a los entornos en los que nuestros agentes

02:41.850 --> 02:43.340
van a operar.

02:43.370 --> 02:48.780
Todos hablan de la intuición detrás de seguir aprendiendo, hasta ese tutorial vamos a estar

02:48.780 --> 02:50.690
hablando de valores de estados.

02:50.790 --> 02:57.300
Y finalmente vamos a pasar a hablar sobre valores o acciones o valores de cubo y

02:57.300 --> 02:59.880
luego vamos a introducir la diferencia temporal.

02:59.910 --> 03:06.690
Este es un tutorial donde todo lo que hemos aprendido se combinará para explicar cómo

03:06.690 --> 03:13.930
exactamente los agentes o la inteligencia artificial aprenden cómo actualiza sus valores a través de todo

03:14.090 --> 03:16.420
el proceso iterativo que está atravesando.

03:16.830 --> 03:23.100
eso nos ayudará a comprender aún más ese conocimiento de que vamos a salir en la sección.

03:23.100 --> 03:29.550
Y finalmente, vamos a ver una zación visible de aprendizaje, así que vamos a tomar todo lo

03:29.730 --> 03:35.870
que aprendamos y vamos a verlo pasar frente a nuestros ojos y ver que una inteligencia artificial

03:35.880 --> 03:42.600
realmente realiza un aprendizaje CULE y todas las cosas que vamos a debatir en un nivel intuitivo realmente

03:42.810 --> 03:44.530
funcionarán en la práctica y

03:44.550 --> 03:47.460
Así que espero que estés muy entusiasmado con estos próximos tutoriales.

03:47.460 --> 03:48.800
Definitivamente estoy.

03:48.810 --> 03:55.380
Y surgen algunas diapositivas muy interesantes y, más importante, los conceptos en sí mismos son muy interesantes

03:55.380 --> 03:59.540
y estoy seguro de que los vas a disfrutar bastante.

03:59.760 --> 04:01.410
Y espero verte la próxima vez.

04:01.410 --> 04:03.080
Hasta entonces, disfruta de la IA.
