WEBVTT

00:00.590 --> 00:03.970
Hola y bienvenidos al curso de inteligencia artificial.

00:04.070 --> 00:05.420
Espero que estés disfrutando el curso hasta ahora.

00:05.420 --> 00:09.050
Y hoy hablamos de acción las políticas de selección.

00:09.050 --> 00:11.010
Está bien, vamos directo a eso.

00:11.030 --> 00:17.930
Anteriormente hablamos acerca de agregar una red neuronal a nuestro aprendizaje simple y hasta ahora

00:18.020 --> 00:21.230
nos estamos adentrando en el aprendizaje profundo.

00:21.230 --> 00:26.620
Hemos hablado bastante acerca de la parte de aprendizaje que incluye agregarle algunos elementos.

00:26.630 --> 00:30.020
Y hoy estamos hablando de esta parte de la que estamos hablando sobre la actuación.

00:30.020 --> 00:31.290
Así que echemos un vistazo.

00:31.310 --> 00:38.690
Así que aquí tenemos lo que discutimos sobre la actuación, una vez que ingresas los valores, los parámetros son el vector que describe

00:38.690 --> 00:45.230
que el agente de estado está claramente en ese entorno, luego de que todo se haya completado o incluso antes

00:45.230 --> 00:47.290
de que el aprendizaje haya terminado.

00:47.420 --> 00:52.000
Básicamente obtenemos todos los valores q, por lo que no estamos interesados ​​en el aprendizaje en este

00:52.010 --> 00:57.350
momento, insistimos en actuar, de modo que una vez que tenemos estos valores clave, ¿cómo entendemos cuál necesitamos usar?

00:57.350 --> 00:58.910
Bueno, si lo piensas bien.

00:58.910 --> 01:01.890
Los valores Q son simplemente predicciones para el cubo.

01:01.910 --> 01:08.630
Entonces, como hicimos en el algoritmo de aprendizaje simple, qué hicimos, simplemente seleccionamos el que tiene

01:09.180 --> 01:10.420
el mejor valor.

01:10.430 --> 01:15.380
Una vez que tenemos el que tiene el mayor valor de coeficiente de inteligencia, simplemente tomamos esa medida porque solo

01:15.380 --> 01:20.330
nos brinda el valor más alto y sabemos que la recompensa inmediata de la calculadora Duval que esperamos recibir, además

01:20.360 --> 01:23.100
del factor DK multiplicado por el valor de la siguiente fecha.

01:23.120 --> 01:29.480
Y es un cálculo recursivo, ¿por qué no por qué no tomaría el mejor valor y eso

01:29.480 --> 01:30.570
es el final?

01:30.800 --> 01:35.360
usando una función de máximo dinámico y aquí es donde vamos a hablar sobre las políticas de selección reales.

01:35.360 --> 01:37.910
Pero como puede ver aquí, no es tan simple que estamos

01:37.940 --> 01:41.210
Entonces aquí, en realidad, no tenemos que tener solo una función de software.

01:41.300 --> 01:49.190
Podemos tener diferentes políticas de selección de acciones, por ejemplo, tenemos Epsilon greedy Epsilon's soft y tenemos los soft

01:49.470 --> 01:54.950
Macs, y esos son como las políticas de selección de acción más utilizadas,

01:54.960 --> 01:56.300
por supuesto, hay otras.

01:56.300 --> 02:02.120
Por ejemplo, la más básica es una acción muy simple que solo se puede seleccionar sociables.

02:02.120 --> 02:03.770
El que tiene el valor Q más alto.

02:03.980 --> 02:09.800
esa acción no se dispara y por qué tenemos diferentes tipos de políticas de selección de acción de pulso de acción?

02:09.800 --> 02:10.510
Pero ¿por qué

02:10.520 --> 02:15.270
Bueno, todo se reduce a exploración versus explotación.

02:15.560 --> 02:22.670
Y ese es el núcleo del aprendizaje de refuerzo porque ya hablamos de esto un poco que su agente,

02:22.880 --> 02:28.400
cuando está operando en un entorno, puede predecir ciertos valores de cola que podrían

02:28.400 --> 02:34.970
ser buenos y podría resultar grandioso, podría resultar que estén disponibles. y se verá obligado a explorar.

02:34.970 --> 02:40.640
Entonces, si, por ejemplo, en este caso predecimos que Q2 es el mejor y luego toma Q

02:40.640 --> 02:42.350
para que lo tome acción.

02:42.500 --> 02:46.880
Así que de aquí a la Sección 2 y luego obtiene obtiene una recompensa muy negativa.

02:46.880 --> 02:51.980
Entonces el medio ambiente está obligando al agente a explotar porque ahora aprenderá que, en

02:51.980 --> 02:56.740
realidad, pensé que Q2 iba a ser muy bueno, pero resultó ser muy malo.

02:56.780 --> 02:58.370
Entonces los resultados no son muy malos.

02:58.370 --> 03:02.730
Entonces las redes pueden actualizarse así que la próxima vez que él esté en el estado

03:02.720 --> 03:04.010
probablemente se comerá mi alma.

03:04.190 --> 03:09.470
Sabes que es muy favorable, entonces podrías pensar que es como si supieras que podrías necesitar

03:09.470 --> 03:14.900
un par de veces un par de penalizaciones o castigos para aprender que se trata de acción.

03:14.990 --> 03:20.030
voy a tomar una acción diferente y tomar la acción de la muñeca porque ahora tiene el mejor valor.

03:20.030 --> 03:22.020
Pero tal vez ya pronto sepa que

03:22.160 --> 03:28.880
De modo que a veces el entorno obliga al agente a tomar acciones diferentes para explorar distintas, pero

03:29.180 --> 03:36.860
a veces el agente puede encontrarlo atrapado en un máximo local, y puede descubrir que siguió su exploración inicial y

03:36.860 --> 03:42.110
descubrió que esta es una acción muy buena como Voy a ir aquí mismo.

03:42.200 --> 03:43.920
Y esa colección d'esprit.

03:43.940 --> 03:49.760
la mejor acción simplemente porque no se ha explorado, se explora yendo por su nariz o yendo a la izquierda se

03:49.760 --> 03:55.850
explora yendo a la derecha, pero no ha explorado descender desde ese estado específico en el que está y ahora es algo

03:56.360 --> 04:01.490
así como parcial hacia esta acción y creo que piensa que una buena acción va a seguir llevándola, seguirá haciéndolo.

04:01.490 --> 04:03.800
Pero el problema es que piensa que es

04:03.840 --> 04:06.570
Él va a seguir tomando en realidad va a seguir recibiendo una buena recompensa.

04:06.620 --> 04:14.000
Pero ¿y si esta acción hubiera sido incluso mejor si esta acción hubiera sido mucho mejor que si supiera de

04:14.060 --> 04:19.310
esta acción realmente cambiaría a esta acción, pero porque se quedó atascada en un

04:19.310 --> 04:23.580
máximo local es obtener estas buenas recompensas solo va para ser reforzado

04:23.630 --> 04:27.770
Esto va a seguir reforzándose a sí mismo o la violencia que lo va a reforzar

04:27.770 --> 04:29.450
es una buena acción para seguir haciéndolo.

04:29.510 --> 04:35.330
Pero realmente la realidad es que existe esta otra acción que aún no se ha encontrado o que aún no se ha explorado.

04:35.570 --> 04:37.090
Eso hubiera sido mucho mejor.

04:37.130 --> 04:43.790
Entonces, lo que queremos hacer es crear una política de selección real que permita a nuestro agente no quedarse

04:43.910 --> 04:45.800
atrapado en un máximo local.

04:45.800 --> 04:50.120
Sí, es importante para ti que sigas haciendo las buenas acciones que son la parte de la explotación.

04:50.180 --> 04:52.000
No explotaremos lo que hemos encontrado.

04:52.100 --> 04:56.720
Pero al mismo tiempo queremos seguir explorando, no queremos dejar de explorar porque, como en la vida, nunca

04:56.720 --> 04:59.000
quieres dejar de aprender, dejas de aprender a morir.

04:59.120 --> 05:05.030
no estás creciendo estás muriendo o algo así, entonces quieres seguir aprendiendo y tu agente quiere seguir aprendiendo.

05:05.090 --> 05:07.580
Eso es algo así como que cuando

05:07.760 --> 05:10.200
Y ahí es donde entran estas políticas de selección de acción.

05:10.400 --> 05:16.190
Así que tenemos tres que mencionas aquí, así que la primera es Epsilon codiciosa, es muy simple,

05:16.190 --> 05:22.140
suena bastante compleja en el sentido de que tiene un nombre genial y generalmente tiene nombres quirúrgicos.

05:22.370 --> 05:23.170
En realidad no es así.

05:23.180 --> 05:31.530
Básicamente, lo que hace es seleccionar el que tiene el mejor valor de Q y épsilon como Epsilon, es posible que

05:31.540 --> 05:35.240
escuches otros lugares, es como una política de selección.

05:35.240 --> 05:41.210
son por ventas como el que tiene el mayor valor de Q todo el tiempo, excepto por Epsilon el porcentaje del tiempo.

05:41.540 --> 05:45.980
Así que en este caso lo estamos usando para deslizar, por lo que nuestros valores de Al-Q

05:45.980 --> 05:53.300
Entonces, por ejemplo, si configuras épsilon al 10 por ciento, entonces vas a 0. 1 más del 10 por ciento del tiempo que

05:53.300 --> 05:56.740
la acción va a ser seleccionada al azar.

05:56.750 --> 06:01.990
Así que el 90 por ciento de las veces seguirá seleccionando la mejor acción en función del valor más alto.

06:02.120 --> 06:05.580
Pero el 10 por ciento del tiempo va a seleccionar una acción aleatoria.

06:05.600 --> 06:11.120
Uniforme va a tomar una acción absolutamente al azar o si dijiste

06:11.420 --> 06:18.380
épsilon al punto cero cinco para 0. 05 eso significa que el 95 por ciento del tiempo el agente va a tomar la acción con

06:18.380 --> 06:19.200
el valor más alto.

06:19.220 --> 06:22.470
Pero el 5 por ciento de las veces seguirá seleccionando y acción aleatoria.

06:22.490 --> 06:25.550
Por lo tanto, va a salir y explorar.

06:25.790 --> 06:31.640
Así que Epsilon's soft es muy similar a la forma en que se parece a

06:31.750 --> 06:39.780
por qué se llama FCL codicioso porque entonces estás seleccionando ávidamente la acción, la buena acción, excepto por ese pequeño episodio.

06:39.780 --> 06:40.290
Algo de tiempo.

06:40.280 --> 06:46.970
Entonces, cuanto menor sea el trato de EPS, bajarán el Leps Epsilon cuanto más graso sea que selecciones ese

06:46.970 --> 06:53.870
tipo de acción que es la acción óptima y mientras menos dejes, menos oportunidades tendrás de explorar. Lo suave

06:53.870 --> 06:56.000
de Epsilon es todo lo contrario.

06:56.000 --> 07:02.000
Entonces, básicamente, estás seleccionando al azar que estás seleccionando uno menos Epsilon ciento del tiempo.

07:02.000 --> 07:08.240
Entonces, si tienes epsilones como 0. Del 1 al 10 por ciento, solo el 10 por ciento del tiempo que realiza esta acción.

07:08.490 --> 07:12.410
Y el 90 por ciento de las veces seleccionas una acción aleatoria.

07:12.410 --> 07:19.000
Así que muy simple algoritmos invertidos y un Max suave es algo así como el siguiente paso o es

07:19.070 --> 07:24.350
una versión más avanzada que diría sobre épsilon de épsilon algoritmo codicioso aunque ambos tienen

07:24.350 --> 07:26.570
mérito y ambos tienen un lugar.

07:26.610 --> 07:30.860
Vamos a utilizar la autofinanciación en nuestra codificación en nuestro tipo práctico de cosas.

07:30.860 --> 07:35.270
Así que eso es lo que vamos a hablar con un poco más de detalle sobre soft max.

07:35.330 --> 07:36.380
Así que echemos un vistazo.

07:36.380 --> 07:38.440
Así que pasemos a tu próximo con suerte.

07:38.450 --> 07:42.800
Es bastante claro que Ebsen está de acuerdo en que es un algoritmo bastante sencillo.

07:42.800 --> 07:45.100
Seleccione este.

07:45.230 --> 07:47.790
La mayoría de las veces, excepto algunas veces, ve y explora.

07:47.800 --> 07:53.820
Y ahora también vemos por qué es importante hacer esa exploración para que no terminemos en máximos locales en nuestro

07:53.840 --> 07:58.780
proceso de optimización, así que ahora vamos a hablar un poco más sobre los soft Macs.

07:58.880 --> 08:02.680
Hay un tutorial sobre marcas suaves al final del curso.

08:02.750 --> 08:09.560
Creo que es un anexo número dos en el que hablamos sobre el concepto de Maxim porque se actualiza un

08:09.560 --> 08:14.650
poco aquí, entonces estamos hablando de redes neuronales y, por cierto, vamos a estar cubriendo

08:14.720 --> 08:15.290
convolucionales.

08:15.290 --> 08:18.170
No cubrimos las redes neuronales evolutivas en esta sección.

08:18.210 --> 08:21.470
Por supuesto, en esta sección todavía estamos usando un vector.

08:21.800 --> 08:27.770
Pero en la siguiente sección del curso, cuando estamos creando una IA para jugar a Doom, vamos a usar

08:27.770 --> 08:32.870
una red neuronal convolucional, por lo que podría ser beneficioso para ti observar las redes neuronales

08:32.870 --> 08:38.300
relacionales y luego tomar un auto máximo. función o puede aprender un poco más sobre soft Max.

08:38.300 --> 08:43.020
Después de tomar las redes neuronales convolucionales y, por supuesto, más adelante.

08:43.250 --> 08:48.130
Pero aquí hay un repaso rápido. Aquí tenemos nuestra red neuronal convolucional que decide si es un perro

08:48.130 --> 08:48.950
o un gato.

08:48.950 --> 08:56.090
Así que aquí tenemos el proceso de votación entre estas neuronas y este dice que es un tiene las

08:56.090 --> 09:04.250
características que usted conoce, las orejas esponjosas. ¿Cuál es el tipo de cara puntiaguda y el tipo de características son los tipos

09:04.250 --> 09:09.930
de ojos con los ojos? los ojos miran todas estas características que pertenecen a un perro.

09:09.930 --> 09:13.890
Entonces, hay un 95 por ciento de posibilidades de que sea un perro y un 5 por ciento de posibilidades de que sea un gato.

09:13.910 --> 09:19.460
es cómo entramos en ese Tauriel del que estamos hablando, cómo conseguimos que estos valores sumen uno.

09:19.490 --> 09:20.530
Pero la pregunta

09:20.870 --> 09:27.650
Bien sea que sea convolucional, todas nuestras redes neuronales completas son la red neuronal convolucional más Lares completamente conectada, sea lo

09:27.650 --> 09:33.300
que sea lo que sea mal, cualesquiera que sean los valores que apliquemos a la función soft max

09:33.300 --> 09:33.980
están aquí.

09:34.010 --> 09:37.720
Aquí es donde presentamos la fórmula para la próxima función suave.

09:37.810 --> 09:38.620
Es lo que parece.

09:38.780 --> 09:40.420
Y luego tenemos estos valores.

09:40.620 --> 09:43.460
Y, básicamente, eso es un repaso rápido.

09:43.460 --> 09:46.050
Esta es la fórmula para el Max.

09:46.100 --> 09:50.900
Es lo que hace es tomar sin embargo muchos resultados que no importa.

09:50.900 --> 09:58.130
Los tomará y los aplastará a todos en valores entre 0 y 1, independientemente de cuán grandes sean solo por que es para mí,

09:58.130 --> 10:03.720
pueden ver que hay una suma total en la parte inferior, por lo que estos dispositivos van a

10:03.720 --> 10:04.860
ser cero y pulg

10:04.860 --> 10:08.630
Y también todos estos valores van a sumar uno siempre.

10:08.700 --> 10:16.770
Y eso es muy beneficioso para nosotros porque cuando estamos usando la función de máximo dinámico lo que sucede

10:16.800 --> 10:21.390
es que obtenemos estos valores, seleccionamos este valor de mejor vista.

10:21.390 --> 10:26.740
Pero en realidad lo que sucede es que estos valores que obtenemos son números correctos.

10:26.750 --> 10:28.760
Entonces este es un tipo de números.

10:28.920 --> 10:31.720
No todos tienen que sumar uno y no tienen que estar entre 0 y 1.

10:31.730 --> 10:32.830
Solo algunos números.

10:33.140 --> 10:38.520
Pero cuando aplicamos Max suave, no solo seleccionamos el mejor, sino que obtenemos números como ese,

10:38.520 --> 10:44.310
de modo que obtenemos nuestros números en el rango entre 0 y 1, y eso también suma 1.

10:44.310 --> 10:47.220
Y entonces, ¿qué otra cosa sabemos que eso se suma a uno?

10:47.340 --> 10:53.010
podemos decir que aquí tenemos los valores de q, pero aquí de repente tenemos blando o tenemos probabilidades.

10:53.010 --> 10:57.990
Bueno, las probabilidades sabemos que las probabilidades siempre tienen que sumar hasta 1, por eso

10:57.990 --> 11:02.740
Entonces podemos decir que la probabilidad de que esta sea la mejor acción es del 90 por ciento.

11:02.840 --> 11:08.610
Esta sección lésbica tiene un 5 por ciento, un 2 por ciento y un 3 por ciento porque sabemos que cuanto más alto sea tu valor, mejor

11:08.610 --> 11:09.290
será la acción.

11:09.390 --> 11:14.920
Entonces, si los comprimimos de 0 a 1, se convierten en posibilidades y podemos tratarlos como tales.

11:15.090 --> 11:22.840
Y por lo tanto, ahora es cuando se selecciona la acción y así es como se nos ocurre la Q2.

11:22.890 --> 11:28.580
Pero si lo miras de cerca, este no es un estricto 100 por ciento y estos no son Saroo 0 por ciento.

11:28.590 --> 11:30.670
Así que esto es un 5 por ciento a 3 por ciento.

11:30.810 --> 11:42.360
Entonces, la forma más natural de aplicar el Max suave para preservar la exploración en el algoritmo es usar estas probabilidades exactas

11:42.480 --> 11:48.600
como la frecuencia con la que vamos a tomar esa acción.

11:48.600 --> 11:55.710
Entonces estas probabilidades realmente presentan la distribución de estas acciones que estamos tomando, así que, básicamente, el soft Max hace

11:55.890 --> 12:01.740
que sea muy fácil para nosotros encontrar una forma de combinar la explotación y la exploración.

12:01.740 --> 12:06.930
Entonces, la mejor acción siempre tendrá la mayor probabilidad porque tiene el valor Q más alto y, por lo tanto, aquí

12:06.930 --> 12:11.190
vamos a usarlos como nuestra distribución o vamos a decir que vamos a tomarlos. Q2 El 90

12:11.190 --> 12:16.080
por ciento de las veces, pero el 5 por ciento de las veces aún recibimos la Q1 y el

12:16.120 --> 12:21.170
2 por ciento de las veces que recibimos el 3 y el 3 por ciento del tiempo que tomaremos Q4.

12:21.420 --> 12:27.090
Y la belleza aquí también es que a medida que estos valores se actualizan a medida que

12:27.090 --> 12:35.220
el agente pasa por la red, cada vez se familiariza más con el entorno y, por lo tanto, con estas actualizaciones, por lo que

12:35.210 --> 12:41.640
este valor podría ser similar al que podría establecerse. este valor es en realidad menor o en realidad es

12:41.640 --> 12:47.060
más alto, por lo que estas probabilidades también cambiarán a medida que el agente avance.

12:47.070 --> 12:49.190
Así que a pesar de que aquí tenemos a Choo-Choo.

12:49.200 --> 12:55.560
Nadie debe decir que, a veces, el 5 por ciento de las veces, para ser más precisos, seleccionaremos la Q1 como

12:55.560 --> 13:00.040
la acción a tomar y, a veces, o la acción, una hará la acción uno.

13:00.180 --> 13:05.280
medidas mediante dos acciones, el dos por ciento de las veces, y la acción tomará alrededor del 3 por ciento.

13:05.280 --> 13:06.400
Algunas veces se tomarán

13:06.420 --> 13:13.800
Así que cada acción tiene la oportunidad de jugar en este proceso, siempre que tengamos las suficientes iteraciones que un agente atraviesa

13:13.800 --> 13:17.930
muchas veces a través de estos estados en los que se encuentran.

13:17.940 --> 13:23.880
Y así es como funciona así cualquier tipo de algoritmo de aprendizaje profundo que desee hacer esto muchas

13:23.880 --> 13:30.030
veces para que pueda aprender de la experiencia y, por lo tanto, como puede ver aquí, se trata

13:30.030 --> 13:31.840
de una transición muy natural.

13:31.860 --> 13:37.590
que tenga lógica, no solo no ese 10 por ciento aleatorio de la Es hora de que seleccionemos una

13:37.590 --> 13:44.100
acción aleatoria, pero hay cierta lógica detrás de cómo lo estamos haciendo y en función de los valores clave que hemos explorado.

13:44.190 --> 13:48.780
No solo somos aleatoriamente como un algoritmo enojado de Epson y no solo seleccionamos al azar

13:48.780 --> 13:53.200
las acciones que los estamos seleccionando en función de sus valores máximos, lo que hace

13:53.280 --> 13:58.620
Y esa es la política de selección de acciones que vamos a utilizar en este curso.

13:58.620 --> 14:04.590
Si lo desea, puede visitar la sección de acción avariciosa de Ebsen, Polsce, pero usaremos

14:04.590 --> 14:10.920
principalmente la política de la sección de acción suave Max y tengo una lectura interesante para

14:10.920 --> 14:11.490
usted.

14:11.490 --> 14:17.430
Así que esto se llama exploración adaptativa Epsilon codicioso en el aprendizaje de refuerzo basado en las diferencias de valor que

14:17.430 --> 14:18.870
es el artículo de 2010.

14:18.930 --> 14:27.270
Y es interesante porque Mike Michel no estoy seguro de cómo pronunciar Michelle y Miquel Toxic introduce un

14:27.450 --> 14:36.420
tipo diferente de Algren y ajustó el algoritmo codicioso Epsilon y llamó al algoritmo VDB VDB o epsilon codicioso

14:37.230 --> 14:40.030
algoritmo VDB que puedes ver aquí.

14:40.410 --> 14:46.590
Y él realmente compara con el Ebsen codicioso y suave Max y es un algoritmo

14:46.650 --> 14:55.740
codicioso absoluto que básicamente la idea principal detrás de esto es ajustar el valor de épsilon dependiendo del estado en que se encuentre

14:55.740 --> 14:56.550
el agente.

14:56.550 --> 15:01.820
Entonces, si el agente está muy seguro sobre el estado en Epsilon, entonces debería ser más pequeño, por lo que debería

15:01.820 --> 15:06.340
ser menos exploración si se responde al agente. Epson debe ser más alto si se necesita más exploración.

15:06.350 --> 15:08.930
Entonces es un artículo de 2010.

15:09.260 --> 15:17.930
No estoy seguro si es si este nuevo algoritmo propuesto es ampliamente utilizado o está siendo aceptado en la comunidad o

15:18.010 --> 15:23.090
si el Times artificial tiene una especie de camino desde esta sugerencia.

15:23.090 --> 15:29.450
Sin embargo, definitivamente te ayudará a reforzar tu conocimiento sobre las políticas de selección de acción. Hablamos sobre

15:29.450 --> 15:33.180
Epsom Ingredion. El suave Naxal te ayuda a darte la oportunidad

15:33.200 --> 15:38.900
de compeler al sitio de Subha y también ver en qué dirección la gente piensa cuando

15:38.900 --> 15:46.040
quiere mejorar la inteligencia artificial. así que si alguna vez estás planeando crear algoritmos realmente interesantes que estén empujando el

15:46.040 --> 15:51.770
límite de la inteligencia artificial de Elche y empujando la envolvente en este espacio, entonces esta

15:52.130 --> 16:00.140
podría ser una buena forma de ver en qué dirección la gente piensa a veces cuando intentan para mejorar las normas de la

16:00.200 --> 16:04.070
inteligencia artificial o las normas que existían en aquel entonces en 2010.

16:04.070 --> 16:04.760
Entonces ahí vamos

16:04.790 --> 16:11.020
Espero que hayas disfrutado el tutorial de hoy sobre las políticas de selección de acciones y que hayamos aprendido sobre

16:11.060 --> 16:18.240
la avasalladora sal de Epson y los Macs suaves y ahora estás aún más preparado para el lado práctico de las cosas.

16:18.290 --> 16:20.840
Y en esa nota, espero ver tu siguiente paso.

16:20.840 --> 16:22.570
Y hasta entonces, disfruta de la IA.