WEBVTT

00:00.980 --> 00:04.960
Hola y bienvenidos al curso de inteligencia artificial.

00:05.000 --> 00:12.140
Anteriormente tuvimos un tutorial bastante extenuante y extenso sobre los procesos de decisión de Margrove y esperamos que se haya

00:12.200 --> 00:13.710
llevado bien con eso.

00:13.760 --> 00:19.010
Y con suerte podría explicar las cosas de una manera accesible y atractiva.

00:19.130 --> 00:22.750
Y hoy vamos a hablar de políticas versus planes.

00:22.760 --> 00:27.910
ahora estamos entrando en un nuevo mundo, estamos entrando en un mundo de búsqueda estocástico de búsqueda

00:27.910 --> 00:34.310
no determinista cuando simplemente no estamos atravesando el laberinto, sino que también tenemos en cuenta los factores aleatorios que podrían afectarnos.

00:34.310 --> 00:38.990
estás en la cabeza cuando atraviesas este laberinto y necesitas estar preparado para ello.

00:38.990 --> 00:41.080
Habrá un tutorial rápido y divertido porque

00:41.080 --> 00:42.070
Ese es el mundo.

00:42.080 --> 00:48.640
Nuestro agente está viviendo y es más divertido, pero también es más peligroso, es más, es menos predecible.

00:48.650 --> 00:50.880
Entonces, ¿cómo se comportará nuestro agente?

00:50.960 --> 00:52.280
Echemos un vistazo.

00:52.280 --> 00:58.190
Está nuestra marca de marco de proceso de decisión que una vez más es nuestra ecuación de favor de Belman.

00:58.250 --> 01:02.010
Sin embargo, la versión más avanzada de la ecuación de Belman con la que estamos trabajando.

01:02.010 --> 01:04.760
Entonces, de ahora en adelante, llamaremos a esto la ecuación de Beldon.

01:04.760 --> 01:10.970
Y aquí tenemos nuestra acción máxima y Crucell por lo que el valor de un estado en cualquier estado es el máximo en

01:10.970 --> 01:14.020
todas las acciones que un agente podría realizar en ese estado.

01:14.120 --> 01:21.230
Y la máxima fue tomada de la recompensa que obtendrá el agente realizando la acción A instate como un factor

01:21.230 --> 01:26.590
de descuento multiplicado por el valor esperado del nuevo estado en el que se encontrará.

01:26.830 --> 01:31.850
Y espero que los tomen aquí porque no saben exactamente en qué terminan los saddle.

01:31.880 --> 01:40.390
Son algunos efectos aleatorios que están presentes en el entorno y que podrían alterar el estado y no terminar

01:40.800 --> 01:42.630
en el estado deseado.

01:42.640 --> 01:44.200
Puede terminar en un estado diferente.

01:44.210 --> 01:47.760
Es por eso que estamos tomando el valor esperado aquí en algún lugar aquí.

01:47.990 --> 01:53.750
Así que echemos un vistazo a esto como nuestro ejemplo nuestro o en nuestro ejemplo del laberinto.

01:53.750 --> 02:00.220
Así que esto es lo que teníamos anteriormente, así que estamos lidiando con una búsqueda determinística en vivo.

02:00.230 --> 02:01.960
Entonces lo sabíamos.

02:01.970 --> 02:05.550
Está bien, entonces si estoy aquí, definitivamente necesito ir aquí si estoy aquí.

02:05.570 --> 02:09.030
Definitivamente necesito ir aquí si estoy aquí. Definitivamente necesito ir aquí si estoy aquí. Estoy aquí.

02:09.140 --> 02:11.360
Entonces todo fue bastante sencillo.

02:11.480 --> 02:14.680
Una vez que tienes este mapa y recuerdas haberlo llamado, lo llamamos plan.

02:14.690 --> 02:18.050
Una vez que tienes el plan, es bastante sencillo de hacer.

02:18.050 --> 02:18.990
Existen.

02:18.990 --> 02:20.490
Entonces ese es el plan con flechas.

02:20.580 --> 02:25.000
Y a partir de aquí, fue muy sencillo saber que estas son las rutas que tomarán cada vez que

02:25.010 --> 02:26.210
comiences en esta línea azul.

02:26.210 --> 02:28.210
Esa es exactamente la forma en que irías.

02:28.680 --> 02:31.120
Sin embargo, ahora ya no tenemos un plan.

02:31.120 --> 02:38.060
que planifiquemos podría no suceder, que no está bajo control o que el plan es cuando sabe exactamente lo que debe hacer a continuación.

02:38.060 --> 02:40.940
No podemos tener un plan porque usted sabe que lo

02:40.940 --> 02:41.820
Ya sabes los pasos.

02:41.840 --> 02:46.640
Así que tienes un punto de partida, tienes un objetivo y conoces cada paso para que puedas planearlos, como

02:46.640 --> 02:50.500
hago, voy a hacer esto. Haré esto como en la vida, como un plan. .

02:50.630 --> 02:54.870
Pero al mismo tiempo hay mucho ahora que está pasando el azar.

02:54.890 --> 03:00.080
Puede tener un plan porque, si llega aquí y luego, hace clic a la derecha y, de hecho, lo lleva

03:00.080 --> 03:00.560
hacia abajo.

03:00.680 --> 03:02.100
Entonces eso no es parte de tu plan.

03:02.390 --> 03:04.120
Es por eso que se llama planificación más.

03:04.220 --> 03:09.080
Y aquí vamos a calcular que los valores realmente solo van a mirar

03:09.410 --> 03:11.990
los valores calculados para este mismo problema.

03:12.080 --> 03:16.700
Pero basado en eso dado que tenemos esta aleatoriedad adentro.

03:16.700 --> 03:18.380
Entonces estos son los nuevos valores.

03:18.800 --> 03:22.840
Entonces, ¿por qué son diferentes estos valores, así que simplemente comparemos con lo que teníamos anteriormente?

03:22.850 --> 03:24.710
Esto es lo que tuvimos anteriormente.

03:24.710 --> 03:25.650
Estos son entonces tú.

03:25.660 --> 03:29.750
Así que una vez más tuvimos anteriormente porque ganó 3. 9 por ciento

03:29.770 --> 03:31.590
Él era realmente 366.

03:31.790 --> 03:36.750
Y esto es lo que tenemos ahora a a menos de una vez en vigor y 1 6 3.

03:36.800 --> 03:43.850
Y, por cierto, estos no son exactamente los mítines actuales de la parte superior de mi cabeza, pero si tuviéramos

03:43.850 --> 03:49.220
que ejecutar un agente, algunos valores serían algo similar a esto y los valores podrían cambiar

03:49.220 --> 03:54.650
porque dependiendo de la apuesta que elegiría 3. 9 u otro valor, pero a pesar del argumento, estos

03:54.650 --> 04:00.560
son los valores con los que estamos tratando ahora y son aproximados, transmiten la noción completa de la manera correcta, así

04:00.560 --> 04:02.270
que echemos un vistazo a ellos.

04:02.270 --> 04:03.240
¿Por qué han cambiado?

04:03.410 --> 04:07.480
Bueno, ¿por qué aquí con este aquí el valor fue uno.

04:07.490 --> 04:10.520
¿Por qué de repente es 0? 26 ¿Por qué es menos de uno?

04:10.560 --> 04:11.730
Solo ve desde aquí aquí.

04:11.930 --> 04:18.620
Bueno, en realidad lo llamamos porque desde aquí si vamos bien, que es nuestra intención si vamos bien, podríamos, de hecho,

04:18.640 --> 04:22.340
tendremos un 10 por ciento de posibilidades de que terminemos aquí.

04:22.340 --> 04:25.130
Así que golpeamos la pared y estaríamos nuevamente en este estado.

04:25.130 --> 04:30.740
Por lo tanto, el valor sería descontado o, nos pondríamos a 10 o menos y la posibilidad terminaría aquí en este estado.

04:30.740 --> 04:32.150
Y recuerde que tenemos un Gamla.

04:32.150 --> 04:37.670
Por lo tanto, no es 100% probable que llegue aquí, por lo tanto, el desvalorización ya no puede ser uno,

04:37.670 --> 04:41.310
es algo menor y es 0. 26.

04:41.570 --> 04:43.770
Entonces ese es un ejemplo de por qué es así.

04:43.770 --> 04:49.130
Y podría obtener el valor exacto si calculó la ecuación de Belman al máximo, pero mi pregunta es la

04:49.130 --> 04:49.850
que tenemos ahora.

04:49.850 --> 04:53.540
alguna recursión porque necesitarás saber el valor para esto y entonces necesitas saber el valor de

04:53.540 --> 04:57.440
esto que es bastante complejo y es por eso que no estamos haciendo los cálculos aquí manualmente.

04:57.440 --> 04:59.180
El único problema es que va a haber

04:59.240 --> 05:06.000
Es por eso que puedo hacerlo, ya que está pasando por todo esto, es como si no fuera demasiado complejo

05:06.000 --> 05:06.510
para una.

05:06.540 --> 05:08.520
No puedes jugar estas cosas.

05:08.520 --> 05:10.090
Entonces ese es nuestro valor aquí.

05:10.110 --> 05:11.520
Pero de esto es diferente.

05:11.520 --> 05:16.830
Entonces aquí solo tiene que ser 0. de descuento, recuerde de aquí hasta aquí ahora, desde

05:16.830 --> 05:23.070
aquí las universidades saltan de aquí hasta aquí simplemente porque incluso si saltamos si vamos así, podríamos terminar aquí de nuevo.

05:23.070 --> 05:24.680
9 solo por el factor

05:24.700 --> 05:28.440
En este 20 por ciento de posibilidades, seguirá en la casilla porque chocaremos contra una pared.

05:28.710 --> 05:29.730
Y otra vez y así sucesivamente.

05:29.730 --> 05:32.700
Entonces, el valor de estar aquí es cero punto setenta y uno.

05:32.850 --> 05:35.370
Nuevamente esto y el factor de descuento.

05:35.370 --> 05:39.970
Sabes que esto puede parecer extraño para ti, incluso si el factor de descuento es demasiado alto.

05:40.050 --> 05:44.440
Quizás el factor de descuento en este ejemplo no sea 0. 9 tal vez son siete puntos noventa y nueve o

05:44.500 --> 05:46.310
algo así que no te preocupes por eso.

05:46.350 --> 05:48.480
Solo como enfocarse en eso.

05:48.480 --> 05:53.210
Los valores han cambiado de hecho que los valores ahora son menores.

05:53.460 --> 05:58.700
Principalmente porque no es una probabilidad del cien por ciento de llegar al estado que desea obtener

05:59.100 --> 06:00.180
y lo que encontrará.

06:00.210 --> 06:06.660
Uno interesante aquí está aquí para ser 0. 9 en realidad ha disminuido mucho ha disminuido sustancialmente.

06:06.660 --> 06:07.110
Porqué es eso.

06:07.110 --> 06:12.120
ciento de posibilidades de golpear una pared, pero hay un 10 por ciento de posibilidades de

06:12.120 --> 06:18.700
terminar en la hoguera y perder menos uno para recompensar, y básicamente eso significa para el agente que es eso. del juego.

06:18.700 --> 06:22.820
Bueno, si vas desde aquí, que es nuestra intención, hay un 10 por

06:23.160 --> 06:25.640
Y este es un estado muy malo en el que estar.

06:25.680 --> 06:29.910
Entonces, de repente, recuerdan que teníamos un punto cero con nueve años de diferencia, por lo que eran equivalentes.

06:29.910 --> 06:34.900
No importa si escuchas que son bastante iguales en términos de valor de ser en cada uno de estos estados.

06:34.980 --> 06:43.440
Pero ahora, de repente, esta fecha es casi dos veces mejor que esta, simplemente porque aquí, si vas directamente

06:43.590 --> 06:46.980
hacia allí, vas justo donde quieres ir.

06:47.050 --> 06:51.270
El que conoces las consecuencias de la aleatoriedad que ocurre es que te quedas aquí.

06:51.290 --> 06:55.070
Aquí una de las consecuencias es un 10 por ciento de posibilidades de que termines en el pozo.

06:55.110 --> 07:02.160
Entonces, como pueden ver, esto ya no es un estado tan bueno simplemente por la fluctuación

07:02.160 --> 07:03.460
que podría suceder.

07:03.570 --> 07:09.150
Como puedes ver, este también es muy malo porque es tan malo como este en términos de que sabes que solo hay un 10 por ciento de probabilidades

07:09.150 --> 07:12.660
de terminar en el pozo y un 10 por ciento de posibilidades de terminar en la pared.

07:12.660 --> 07:18.480
Pero al mismo tiempo hay un factor de descuento Entonces, antes que nada, el factor de descuento y también después

07:18.480 --> 07:20.390
de este tendrías que ir aquí.

07:20.700 --> 07:23.900
E incluso si hipotéticamente fuiste aquí, podrías terminar en el pozo nuevamente.

07:23.910 --> 07:28.710
que estos valores se derivan de este valor y este valor se deriva de este valor.

07:28.710 --> 07:31.760
Entonces esa posibilidad también se tendría en cuenta porque recuerde

07:31.820 --> 07:32.350
Derecha.

07:32.400 --> 07:37.560
Y, por lo tanto, es pequeño, pero en realidad en realidad lo que dije fue incorrecto.

07:37.560 --> 07:39.640
Este valor no se deriva de la Reserva Federal.

07:39.810 --> 07:46.800
Entonces, si solo lo mira, notará que este valor aquí es mayor que

07:46.800 --> 07:47.300
este.

07:47.610 --> 07:54.780
Notarás que para el agente es mejor hacer todo este camino que de esta manera y tiene sentido.

07:54.780 --> 07:58.580
Porque de esta manera no lo pierde, no hay posibilidad de entrar en el pozo.

07:58.590 --> 08:03.450
Sí, es un poco más largo y, por lo tanto, el factor de descuento tiene un efecto mayor.

08:03.510 --> 08:07.470
Pero al mismo tiempo, simplemente porque hay una posibilidad de entrar en el hoyo aquí, si

08:07.530 --> 08:09.140
va directo, habrá una posibilidad de saltar.

08:09.160 --> 08:15.120
Por lo tanto, tomará un sorteo para tomarse su tiempo y simplemente dar la vuelta porque de esa manera hay muchas menos posibilidades de

08:15.120 --> 08:16.530
que llegue, pero aún lo hay.

08:16.530 --> 08:19.590
Así que desde aquí va allí desde aquí va allí.

08:19.590 --> 08:23.590
Podría potencialmente entrar al pozo porque podría terminar allí y eso podría terminar en la factura.

08:23.730 --> 08:27.430
Pero, sin embargo, es una posibilidad menor, así que continuará así.

08:27.430 --> 08:32.430
Así que es muy interesante ver cómo cambian todos los recuerdos. Recuerda que desde aquí irías así.

08:32.430 --> 08:34.790
Desde aquí irías así y desde aquí vamos así.

08:35.010 --> 08:36.870
Y ahora, de repente, puedes ver su cambio.

08:36.870 --> 08:41.000
Vamos a rodar las flechas y ver cómo se ve ahora y voila.

08:41.010 --> 08:43.760
Ves incluso una cosa más aleatoria correcta.

08:43.770 --> 08:45.260
Entonces sí, esto es verdad

08:45.270 --> 08:46.500
Pero mira lo que sucedió aquí.

08:46.500 --> 08:47.610
Mira este.

08:47.690 --> 08:48.970
Mira este.

08:49.050 --> 08:50.490
Estabas esperando eso.

08:50.520 --> 08:54.570
Eso es algo que definitivamente me gusta cuando vi esta primera vez que estaba muy impresionado.

08:54.570 --> 08:59.800
No era súper, no estaba sorprendido y no esperaba esto en absoluto.

08:59.970 --> 09:04.860
Y este es un ejemplo de que sabes cuándo puedo burlar a un humano.

09:05.120 --> 09:10.680
Parece que algo que atrapaste incluso tú pudieras predecir pero el yo a través del aprendizaje de la aplicación de la ley recuerda

09:10.680 --> 09:14.400
que el ejemplo de los perros a veces puede funcionar mejor que la vida real normal.

09:14.400 --> 09:21.330
perros robot preprogramados que pueden jugar fútbol simplemente porque presentan estas ideas que incluso nosotros no podemos ver.

09:21.390 --> 09:22.350
Los perros son

09:22.440 --> 09:27.330
Y como un gran ejemplo, probablemente tampoco esperabas que los asiáticos en

09:27.330 --> 09:29.690
lugar de subir fueran como yo.

09:29.850 --> 09:33.120
Como si subiera entonces hay un 10 por ciento de posibilidades de que salte al pozo.

09:33.120 --> 09:35.130
Pero, ¿qué logra al entrar en la guerra?

09:35.280 --> 09:38.330
Bueno, el 80 por ciento del tiempo se recuperará y permanecerá en el estado.

09:38.490 --> 09:42.360
Pero el 10 por ciento de las veces irá aquí y el 10 por ciento del tiempo iré aquí.

09:42.360 --> 09:49.130
Entonces, de repente, puedes ver que ahora está en este nuevo enfoque de saltar a la pared.

09:49.170 --> 09:53.350
Hay un cero por ciento de posibilidades de que entre al fuego, pero desde este lugar.

09:53.370 --> 09:57.690
Y es como si realmente no quisiera ir a la hoguera, por lo que un par de veces drogado

09:57.690 --> 10:03.050
bonbon en la pared y luego irá a la derecha o a la izquierda en algún momento porque esa aleatoriedad va a suceder.

10:03.080 --> 10:09.680
Y así aprendió que a través de la experimentación aprendió que OK cuando avanzo los resultados no son tan buenos como

10:09.680 --> 10:11.440
cuando voy a la pared.

10:11.510 --> 10:13.540
Y si lo piensas, es así.

10:13.580 --> 10:18.350
Este robot, si lo piensas, es una hoguera, es un lugar muy parecido a un cuadrado, es como

10:18.350 --> 10:21.630
un saliente muy pequeño y luego es como una montaña como un acantilado.

10:21.650 --> 10:27.830
Y este robot solo está abrazando el acantilado y solo trata de esperar hasta que lo empuje a la derecha o

10:27.830 --> 10:32.640
a la izquierda, porque así como un ser humano probablemente hagas lo mismo, no estarías mirando

10:32.750 --> 10:34.970
hacia allí o estarías abrazado al acantilado.

10:35.000 --> 10:35.860
O algo así.

10:35.940 --> 10:39.740
Y con suerte sabes que tenemos que terminar nunca en situaciones como esa.

10:39.770 --> 10:43.670
Pero como visualmente solo visualmente si piensas en algo aquí.

10:43.760 --> 10:46.450
Y eso es bastante intenso, ¿verdad?

10:46.460 --> 10:51.860
lo haga voy a ir aquí y algo va a pasar y terminaré aquí y estaré a salvo, y luego solo lo haré. sigue así.

10:51.860 --> 10:56.270
Así que a la IA se le ocurrió esta idea y la misma aquí que está yendo a la izquierda

10:56.300 --> 11:01.430
y Riskin se pelea, pero voy a probar las pelotas de la pared como si me abrazaras a una pared, intenta saltar a

11:01.430 --> 11:04.910
la pared y al En cierto punto, sé que sabes que hay una probabilidad de un

11:04.910 --> 11:06.680
10 por ciento de que cada vez que

11:06.830 --> 11:13.240
Es un enfoque muy interesante que tomaron aquí y pueden ver que las rutas son así, por lo que desde aquí podría irse a la

11:13.250 --> 11:17.500
derecha y luego ir a la derecha o a la izquierda o irse a la izquierda.

11:17.690 --> 11:22.230
Y aquí en algún momento irás a la izquierda y seguirás así.

11:22.310 --> 11:23.170
Esto es importante.

11:23.180 --> 11:27.610
No soy una política así que incluso cuando salte de aquí irá aquí.

11:27.650 --> 11:30.400
Quizás Y luego, desde aquí, podría llover directamente.

11:30.410 --> 11:34.520
En realidad, podría volver a la derecha y luego a partir de aquí y voy a dejar que entienda bien.

11:34.550 --> 11:38.260
Entonces hay muchas opciones diferentes para los chicos que quizás no sigan exactamente a

11:38.270 --> 11:38.730
este ferretero.

11:38.960 --> 11:42.500
Estas son solo las rutas deseadas que está diseñado para sí mismo.

11:42.590 --> 11:44.690
Pero la forma en que funcionará en realidad podría ser diferente.

11:44.690 --> 11:46.130
Depende del mundo real.

11:46.340 --> 11:46.940
Entonces ahí vamos

11:46.950 --> 11:50.090
Ese es el mundo de la inteligencia artificial.

11:50.090 --> 11:56.780
Eso es lo que es una política versus un plan y con suerte te estás emocionando lentamente por lo

11:57.000 --> 12:01.220
que la IA puede hacer especialmente dado lo que hemos visto aquí.

12:01.340 --> 12:07.430
Estas son algunas decisiones de tipo muy virtuosas que las IA producirán.

12:07.610 --> 12:12.500
Y como puedes ver cuando juegas con IA, incluso con este pequeño ejemplo, puedes ver que

12:12.500 --> 12:18.950
incluso cuando juegas en un mundo real tal vez se te ocurran ideas y decisiones que incluso a veces los humanos pueden

12:18.950 --> 12:19.240
pensar.

12:19.250 --> 12:25.460
Y eso es exactamente como lo que sucedió en esos juegos donde el objetivo de Google Alpha

12:25.520 --> 12:32.320
estaba jugando contra Lisa idole campeón de gol en Corea de nuevo en el campeón mundial de go.

12:32.390 --> 12:37.000
Y estaban jugando en Corea back bakla en 2016, creo que es marzo de 2016.

12:37.000 --> 12:42.370
Surgió con algunos movimientos que los humanos nunca habían jugado en 3000 años o los humanos no estaban acostumbrados a jugar.

12:42.380 --> 12:45.510
Y este es este es exactamente un ejemplo de eso.

12:45.740 --> 12:50.290
Así que, una vez más, espero que estés entusiasmado y entusiasmado con el discurso y sobre lo que podemos integrar.

12:50.330 --> 12:51.840
Y lo busco

12:51.840 --> 12:52.720
Hasta la próxima.

12:52.730 --> 12:54.410
Hasta entonces disfruta.

12:54.410 --> 12:54.640
YO.