WEBVTT

00:00.940 --> 00:04.150
Hola y bienvenidos al curso de inteligencia artificial.

00:04.150 --> 00:09.070
Está bien, así que espero que estés disfrutando el tutorial hasta ahora, casi hemos terminado con la intuición de

00:09.070 --> 00:13.390
que pronto llegarás al lado práctico de las cosas. Tenemos algunas cosas pequeñas que tenemos que cubrir.

00:13.510 --> 00:20.320
Muy bien, antes hablamos de cómo agregamos las redes neuronales a esta ecuación completa del aprendizaje CULE y

00:20.350 --> 00:25.360
llevamos al siguiente paso a la práctica y lo convertimos en aprendizaje profundo.

00:25.690 --> 00:33.130
Y hoy vamos a agregar una característica adicional importante que codificará en el lado práctico de las cosas, así que decidí que es

00:33.130 --> 00:39.100
importante que la cubramos a menudo en el lado de la intuición para que esté más preparado. para ello

00:39.100 --> 00:42.430
cuando se trata del lado de codificación de las cosas.

00:42.430 --> 00:47.950
Entonces, cuando discutimos que tenemos la red, hay dos partes que suceden.

00:47.950 --> 00:53.110
En primer lugar, es el aprendizaje, por lo que la red realmente aprende con cada nuevo estado.

00:53.270 --> 00:58.870
Poco a poco actualiza sus esperas para obtener cada vez mejor y mejor al tratar con este entorno.

00:58.870 --> 01:06.910
Y luego está la actuación dentro del estado, así que después de que los valores de q hayan sido contados en el estado, una

01:06.970 --> 01:08.220
vez que haya seleccionado.

01:08.230 --> 01:14.800
Así que hoy vamos a hablar sobre la parte de aprendizaje, vamos a presentar una característica

01:14.800 --> 01:20.050
interesante que ayudará a los estudiantes de pregrado a presentar esta función

01:20.080 --> 01:29.690
nosotros mismos, pero hablaremos de una característica que es muy importante para un aprendizaje genial y esa característica se llama repetición de experiencia.

01:29.710 --> 01:30.030
Todo bien.

01:30.040 --> 01:34.570
Así que aquí está nuestra red, así que acabamos de copiarla aquí.

01:34.570 --> 01:39.000
Tenemos ese perdido que es Calcott en la parte inferior está de vuelta propagador a través de la red.

01:39.100 --> 01:44.770
Echemos un vistazo a un ejemplo de lo que sucede para entender el problema que estamos tratando

01:44.770 --> 01:45.670
un poco mejor.

01:45.670 --> 01:49.120
Así que aquí hay un ejemplo de los puntajes.

01:49.120 --> 01:54.820
Esta es una captura de pantalla exactamente de este curso. Esto es lo que programarás.

01:54.820 --> 02:02.170
auto sin conductor que atraviesa este camino y tiene que aprender a navegar por este camino.

02:02.170 --> 02:03.780
Este es un

02:03.820 --> 02:09.290
Y entonces, ¿qué es lo que discutimos anteriormente? ¿Qué es esto en este estado?

02:09.320 --> 02:15.850
Y, por supuesto, el estado no va a ser x1 x2 Lundell simplemente describa con mucho más detalle cuál

02:15.850 --> 02:23.650
es el estado que va a haber un par de parámetros que se relacionan con el ángulo del automóvil y algunos parámetros relativos

02:23.650 --> 02:26.490
de qué son los sensores leyendo y así sucesivamente

02:26.490 --> 02:29.820
Entonces, habrá más parámetros que eso para describir el estado.

02:29.830 --> 02:34.120
Sin embargo, va a ser un vector de valores que irá a través de una red neuronal

02:34.120 --> 02:36.520
y luego, en la salida, tendrá algunos valores de ACU.

02:36.520 --> 02:39.850
Nuevamente habrá una diferencia dependiendo del ambiente.

02:39.850 --> 02:44.380
Pueden ser un número diferente de acciones posibles acciones.

02:44.460 --> 02:49.660
Pero lo haremos por simplicidad, dejémoslo para que podamos entender mejor qué

02:49.660 --> 02:50.830
está pasando aquí.

02:50.830 --> 02:55.710
Entonces, en este caso, cuál es la pregunta es hasta ahora qué es esto.

02:55.730 --> 03:03.510
Esto ingresa a esta red neuronal o, más específicamente, con qué frecuencia activamos esta red neuronal.

03:03.520 --> 03:05.080
¿Con qué frecuencia este crecimiento neural neto.

03:05.110 --> 03:11.410
el automóvil termina en un estado nuevo, el automóvil hace un movimiento, termina en un nuevo estado y luego todo va bien.

03:11.530 --> 03:12.650
Bueno, cada vez que

03:12.670 --> 03:17.410
Toda esa información que toda la información sobre el estado pasa a través de la red le da a Alice los

03:17.650 --> 03:18.200
errores calculados.

03:18.280 --> 03:22.960
Este error se calcula en base a lo que discutimos en tutoriales anteriores.

03:22.990 --> 03:26.080
Esto se propaga nuevamente y sus pesos se actualizan.

03:26.080 --> 03:32.570
Luego, el automóvil selecciona qué acción tomar, hace que ese movimiento termine en un nuevo estado en el nuevo estado.

03:32.590 --> 03:34.390
Todo comienza de nuevo.

03:34.450 --> 03:39.880
Y así, básicamente, esto sucede cada vez que el auto está dentro y usted dijo, bueno, eche un vistazo a este ejemplo.

03:39.880 --> 03:46.240
Tomé específicamente la captura de pantalla porque parece que está muy bien ilustra el problema que se aborda mediante la

03:46.240 --> 03:51.430
repetición de experiencia y las repeticiones de gastos, no solo algo que utilizamos en este curso o

03:51.430 --> 03:52.730
en este problema específico.

03:52.810 --> 03:57.190
Es algo que verás usado en todo momento.

03:57.340 --> 04:04.480
Una y otra y otra vez en algoritmos de inteligencia artificial porque es muy poderoso y es

04:04.480 --> 04:05.140
tan importante.

04:05.140 --> 04:11.440
Así que mira este coche este coche en este problema o en este entorno su objetivo es venir de aquí a

04:11.440 --> 04:12.440
aquí y volver.

04:12.440 --> 04:17.540
Su objetivo es navegar aquí sin cruzar estas paredes hechas de arena.

04:17.790 --> 04:24.430
Y entonces, el automóvil comenzó aquí y su recompensa se basa en que usted sabe lo cerca que está

04:24.430 --> 04:25.120
de comenzar.

04:25.120 --> 04:29.890
Así que el auto pasó de aquí, se vino abajo y siguió así como este, o a lo largo de

04:29.890 --> 04:31.490
este muro a lo largo del rompeolas.

04:31.570 --> 04:34.990
Y lo que va a hacer ahora va a continuar.

04:34.990 --> 04:37.450
Bueno, lo que queríamos hacer es continuar aquí.

04:37.690 --> 04:39.490
Pero pensemos por un segundo.

04:39.580 --> 04:44.240
Una vez que llegó a este muro cada vez que avanza, avanza.

04:44.260 --> 04:48.570
Avanza, avanza, avanza, avanza, avanza.

04:48.580 --> 04:53.320
Así que podría haber como dependiendo del entorno de la estructura podría ser como cien movimientos

04:53.320 --> 04:54.710
aquí o 50 movimientos aquí.

04:54.990 --> 04:59.100
Simplemente continúa avanzando hacia adelante y nada cambia.

04:59.160 --> 05:03.310
En realidad, los cambios no se alejan mucho de esto comenzó más cerca de esta historia.

05:03.310 --> 05:04.060
Eso es adorable.

05:04.210 --> 05:09.990
Pero en términos del entorno que los rodea, no hay muchas cosas que cambien, sigue siendo el mismo muro.

05:10.090 --> 05:15.460
Si estás sentado en el coche, probablemente hayas visto la situación cuando conduces en lo que sea

05:15.460 --> 05:21.220
que estés viendo, es como si el entorno fuera tan monótono que simplemente vieras algo parecido a lo

05:21.220 --> 05:21.840
que pasa.

05:21.840 --> 05:26.680
Pero como me imagino que estás conduciendo por un desierto y solo estás viendo lo mismo, es el

05:26.680 --> 05:29.100
mismo sonido, es el mismo sonido, nada está sucediendo.

05:29.100 --> 05:30.340
Nada está cambiando.

05:30.550 --> 05:36.820
Y basado, pero cada vez que ponemos ese estado ese nuevo estado aquí.

05:37.000 --> 05:42.010
cambiando para nosotros mientras conduce el automóvil y su GPS muestra que está más cerca de su destino.

05:42.010 --> 05:43.530
Sí, por supuesto, algo puede estar

05:43.540 --> 05:49.300
Por lo tanto, una de estas entradas es extraña, pero muchas de estas otras entradas, por ejemplo, los sensores

05:49.300 --> 05:55.850
que están en el automóvil no están cambiando y, por lo tanto, a medida que maneja con lentitud, ponga las entradas

05:55.850 --> 06:02.380
en las suyas aquí. aquí aquí aquí aquí aquí aquí y aquí aquí todo el tiempo las entradas son más o

06:02.380 --> 06:03.220
menos las mismas.

06:03.250 --> 06:11.140
Y así, si sigue ingresando las mismas entradas, ingrese los mismos valores en vector o vectores muy similares

06:11.140 --> 06:14.240
en su red porque no hay variedad.

06:14.320 --> 06:16.840
El auto aprenderá muy bien.

06:16.870 --> 06:22.420
Una cosa es que aprenderás muy bien a conducir a lo largo de este muro que está a la

06:22.420 --> 06:27.970
derecha y así se actualizará la red y se verá recompensado, se comenzará a recompensar lentamente por conducir tan

06:27.970 --> 06:28.570
bien como será.

06:28.580 --> 06:33.980
De acuerdo, así que desde aquí estaré aprendiendo todo lo que estoy haciendo, así que bien. Lo estoy haciendo mejor. Lo estoy haciendo mejor.

06:34.050 --> 06:34.420
Todo.

06:34.480 --> 06:41.920
Tendrá esta percepción falsa de que en realidad está funcionando muy bien, a pesar de que solo aprende a conducir, así como otras

06:41.920 --> 06:47.560
redes neuronales se adaptarán muy bien para conducir a lo largo de este pozo y, de repente,

06:47.560 --> 06:51.100
esta curva y el coche no funcionan. No sé qué hacer.

06:51.310 --> 06:55.240
Y no encaja completamente con esta red neuronal.

06:55.420 --> 07:01.870
E incluso si lo hace, de alguna manera digamos hipotéticamente pasa un punto y luego termina en esta

07:01.870 --> 07:02.250
pared.

07:02.260 --> 07:05.320
Lo mismo va a pasar va a conducir desde aquí aquí.

07:05.320 --> 07:10.870
Ahora bien, la red neuronal se está reestructurando para adaptarse a este muro y luego, sucede esto.

07:10.900 --> 07:15.880
Y luego, incluso si de alguna manera se pasa, pasará por esta cosa y luego lo mismo en esta

07:15.880 --> 07:16.260
línea.

07:16.260 --> 07:23.590
están de alguna manera correlacionados o son de alguna manera interdependientes y no queremos que esa interdependencia desvíe nuestra red.

07:23.590 --> 07:29.770
Así que, básicamente, este es un ejemplo muy vívido del problema de que somos lo que tenemos

07:29.770 --> 07:36.490
es que debido a la forma en que estamos usando la red neuronal actualizándola en cada estado una vez

07:36.880 --> 07:44.950
que tenemos muchas cosas consecutivas, ni siquiera tienen que ser el lo mismo, pero hay entornos que son normales, es decir, los

07:44.980 --> 07:45.550
estados consecutivos

07:45.550 --> 07:52.600
No queremos que el automóvil simplemente aprenda a conducir como una línea recta o una línea curva

07:54.100 --> 08:01.750
larga o como cualquier cosa que piense que se le ocurre en la vida donde un agente sería

08:01.780 --> 08:10.570
el entorno de Navigant donde podemos pensar en una correlación o estados interdependientes que vienen después de otro que realmente pueden

08:10.630 --> 08:12.130
arruinar su red neuronal.

08:12.190 --> 08:15.270
Si vas a dejar que el agente aprenda de eso.

08:15.430 --> 08:17.600
Y ahí es donde entra en juego la experiencia de reproducción.

08:17.620 --> 08:24.850
Lo que sucede en la repetición de la experiencia son estas experiencias, por lo que estos estados afirman que está en uno

08:24.850 --> 08:31.040
dos tres, aunque muchos 50 estados aquí en neuro no se ponen de inmediato a través de la red.

08:31.350 --> 08:35.980
En realidad, se guardan en la memoria del agente.

08:36.160 --> 08:41.440
Y así, por ejemplo, guarda todo esto y guarda todo esto y algunos en algún momento una vez que alcanza

08:41.590 --> 08:44.940
un cierto umbral que podrá codificar y Atlanta le mostrará cómo hacerlo.

08:45.100 --> 08:51.310
Una vez que alcanza un cierto umbral, el agente decide por sí mismo y es hora de aprender.

08:51.310 --> 08:57.580
Tengo este lote de experiencias que tengo No voy a aprender nada de eso y selecciono

08:57.580 --> 09:04.120
al azar una distribución uniforme y la uniformidad es clave aquí porque es algo de lo que

09:04.240 --> 09:06.460
hablaremos en la siguiente diapositiva.

09:06.820 --> 09:08.140
Vamos a reservar lo mencionaré.

09:08.140 --> 09:12.400
Pero se necesita una muestra distribuida uniformemente.

09:12.460 --> 09:15.660
Entonces, básicamente, todas las experiencias se consideran iguales.

09:15.670 --> 09:23.410
esa acción en ese estado específico, por lo que cuatro elementos en cada experiencia declaran uno acción declara dos y recompensa y por lo tanto

09:23.410 --> 09:28.060
toma todas esas experiencias y luego las pasa a través de la red y aprende.

09:28.060 --> 09:33.130
Toma una muestra uniformemente distribuida de ese lote de experiencias que tiene y luego pasa a

09:33.130 --> 09:39.940
través de ellas y aprende de ellas para que no tome toda la experiencia o simplemente la tome distribuya muestras de manera

09:40.000 --> 09:47.110
uniforme, podría tomar un par de aquí una pareja de aquí una pareja de aquí y de ella y cada experiencia se caracteriza

09:47.110 --> 09:53.470
por el estado en que se encontraba en la acción que tomó el estado en el que terminó y la

09:53.470 --> 09:54.660
recompensa que logró mediante

09:54.660 --> 10:05.160
Y de esa forma rompe el patrón de ese sesgo que proviene de la naturaleza secuencial de la experiencia como si los pusiera a través

10:05.160 --> 10:08.110
de la red uno después del otro.

10:08.340 --> 10:11.930
Entonces ese es el enfoque principal de la experiencia que jugamos.

10:11.930 --> 10:17.730
Ese es el problema y la dirección, y otro beneficio de la repetición de experiencias es que,

10:17.730 --> 10:22.400
en ocasiones, en un entorno como este, se pueden tener experiencias excepcionales muy valiosas.

10:22.410 --> 10:28.340
Entonces, por ejemplo, no sé, digamos que veamos esta esquina, esta es la esquina derecha.

10:28.440 --> 10:28.730
Derecha.

10:28.740 --> 10:30.880
Y uno muy agudo es agudo.

10:30.900 --> 10:35.640
Entonces vendrá de aquí asumiendo que va a estar abrazando esta esquina.

10:35.640 --> 10:40.500
Por lo tanto, si tenemos las esquinas bien definidas tenemos en esto en este conjunto vamos a

10:40.500 --> 10:43.410
tener una esquina derecha aquí y una esquina derecha aquí.

10:43.680 --> 10:46.240
Correcto, así que cuando viene de esta manera esa es la esquina derecha.

10:46.380 --> 10:48.630
Y luego, cuando está regresando, hay una esquina derecha muy aguda aquí.

10:48.620 --> 10:53.070
Por lo tanto, este no está definido de esta manera en la tienda, por lo que solo hay

10:53.640 --> 10:56.770
una oportunidad en todo el entorno para aprender desde una esquina derecha.

10:56.970 --> 11:03.050
Y esa es una experiencia muy importante porque podría ser realmente bueno al conducir en línea

11:03.060 --> 11:06.990
recta y ser realmente bueno en hacer curvas suaves como esa.

11:07.170 --> 11:14.070
aguda esquina derecha simplemente porque no tiene muchas oportunidades de aprender y por lo tanto aprenderá todo

11:14.070 --> 11:18.070
muy rápidamente, pero tomará mucho tiempo aprender lo correcto. curso.

11:18.070 --> 11:20.180
Y luego seguirá arruinando esta

11:20.180 --> 11:26.010
Es un ejemplo muy simplificado es una explicación muy simplificada, pero ilustra el concepto de

11:26.280 --> 11:30.140
que a veces son experiencias raras que pueden ser valiosas.

11:30.270 --> 11:35.880
Y si solo estás haciendo una red neuronal simple en la que estás poniendo tus valores aquí y

11:35.880 --> 11:40.950
sabes que están pasando y sabes incluso si te olvidas de ese problema de la naturaleza secuencial

11:40.950 --> 11:45.690
de las experiencias y cómo pueden ser interdependiente y Thimphu correlacionado incluso se olvidan de eso

11:45.680 --> 11:46.640
por un segundo.

11:46.800 --> 11:52.110
vez que pones una experiencia en ella pasa a través de datos de redes, entonces instantáneamente olvidas pero te olvidas de esa experiencia.

11:52.120 --> 11:53.370
Lo que sucede es que una

11:53.370 --> 11:54.380
Pasas a la siguiente.

11:54.420 --> 11:56.180
Así es como funciona la red neuronal.

11:56.220 --> 11:59.710
Luego pasas al siguiente estado, el siguiente paso, el siguiente paso, la siguiente experiencia,

11:59.780 --> 12:01.170
X, la experiencia, y así sucesivamente.

12:01.170 --> 12:06.180
Entonces, esta esquina derecha, tan pronto como pasa a través de una red, se va y usted no tiene ningún recuerdo

12:06.510 --> 12:07.450
de esa valiosa experiencia.

12:07.560 --> 12:14.220
así que cuando vuelva de aquí es tan pronto como tiene esto registrado esta experiencia en su lote.

12:14.220 --> 12:19.920
Mientras que hemos experimentado la repetición porque está poniendo estas experiencias en lotes, puede organizar su

12:19.920 --> 12:25.920
bash como una ventana rodante, por ejemplo, podría tener como 100 lotes. Así que cientos de

12:25.920 --> 12:27.380
experiencias en su lote,

12:27.390 --> 12:34.260
Entonces, como en algún punto se ejecuta, toma una distribución uniforme de su lote de experiencias y luego hay una ventana que se

12:34.260 --> 12:37.980
desliza, por lo que olvida estas experiencias, pero luego mantiene estas experiencias.

12:37.980 --> 12:44.160
Y nuevamente aprende de una vez que está aquí, aprende de este lote y luego, una vez que está aquí, se olvida todo

12:44.280 --> 12:45.410
el camino hasta aquí.

12:45.420 --> 12:50.550
Pero luego tiene un lote de experiencias así, por lo tanto, no aprendes de estas experiencias.

12:50.730 --> 12:58.380
Y de esa forma lo que obtendrás es que esta esquina de la derecha podría aparecer varias veces en su proceso

12:58.380 --> 13:03.480
de aprendizaje porque estaba en ese lote cuando el lote era así por aquí

13:03.480 --> 13:08.760
que en el lote aquí, así que salió en varios lotes porque la falla

13:08.790 --> 13:11.430
podría actualizarse como una ventana de experiencia.

13:11.430 --> 13:15.630
Entonces, las experiencias más antiguas son expulsadas, las experiencias más nuevas se agregan y, una vez más, las experiencias más

13:15.630 --> 13:16.290
antiguas se obtienen.

13:16.440 --> 13:23.040
Por lo tanto, la experiencia se mantiene en el lote durante bastante tiempo y el automóvil o agente puede aprender de esa

13:23.040 --> 13:24.100
experiencia varias veces.

13:24.210 --> 13:27.430
Esa es otra ventaja de la repetición de experiencia.

13:27.570 --> 13:33.480
Y, por supuesto, la ventaja final es que la experiencia de reproducción te brinda la oportunidad de aprender

13:34.220 --> 13:39.290
de más experiencias que si solo estás aprendiendo de una en una porque tienes ese lote

13:39.300 --> 13:46.710
y, por lo tanto, es una ventana móvil y, por lo tanto, incluso si tu entorno es limitado experimentar su enfoque de reproducción

13:46.710 --> 13:49.260
de experiencia puede ayudarlo a aprender más rápido.

13:49.410 --> 13:55.230
Y en lugar de simplemente rehacer, hay muchas muchas veces que puede aprender rápido porque no tiene que volver

13:55.230 --> 13:55.710
a hacerlo.

13:55.710 --> 13:57.440
Tienes esas experiencias guardadas.

13:57.810 --> 13:59.850
Estas son las principales ventajas de la experiencia.

13:59.910 --> 14:01.760
Repasemos que tenemos el.

14:01.840 --> 14:09.280
Estamos rompiendo ese patrón sobre la independencia y la correlación de experiencias secuenciales. Ahorramos experiencias raras que podrían

14:09.280 --> 14:15.640
ser importantes, por lo tanto podemos aprender de ellas más a menudo y podemos aprender

14:16.090 --> 14:21.260
en entornos en los que podemos aprender entornos Fosler que son experiencia.

14:21.520 --> 14:27.310
Tenemos una escasez de experiencias que no tienen tantas experiencias que el agente atraviesa y

14:27.310 --> 14:29.180
aún así podemos aprender eso.

14:29.380 --> 14:32.470
Entonces, eso es de lo que la experiencia se trata.

14:32.470 --> 14:34.530
Si quieres leer un poco más que esto

14:34.630 --> 14:41.290
Hay un interesante artículo publicado por Deep Mind en 2016 que se llama repetición de

14:41.560 --> 14:44.380
experiencia priorizada y habla de por qué.

14:44.410 --> 14:50.860
¿Por qué estamos usando una distribución uniforme para seleccionar nuestras experiencias de la experiencia de Bachche? ¿Por qué no

14:50.860 --> 14:55.870
encontramos una mejor manera de seleccionar nuestras experiencias y priorizar algunas de las experiencias que

14:55.870 --> 14:57.160
consideramos que son importantes?

14:57.220 --> 15:03.880
bastante interesante, en este caso no solo podrás reforzar o reforzar tu conocimiento

15:03.880 --> 15:11.800
sobre la repetición de experiencia, sino que también podrás moverte con la tecnología más avanzada.

15:11.800 --> 15:12.660
Aunque es

15:12.660 --> 15:15.120
Así que esto es 2016 y publicado por mentes profundas.

15:15.120 --> 15:21.580
Es un documento muy reciente y muy potente, por lo que podrás explorar los límites o explorar aún

15:21.580 --> 15:24.530
más este algoritmo y llevarlo al siguiente nivel.

15:24.550 --> 15:31.270
Así que te dejo a ti descubrir por qué y cómo podemos cambiar el uniforme a un enfoque diferente para experimentar

15:31.270 --> 15:33.810
la repetición de este artículo si lo deseas.

15:33.940 --> 15:35.270
Y espero que disfrutes esto.

15:35.270 --> 15:41.020
experiencia es realmente y podemos usarla con confianza en nuestros círculos prácticos y espero verte la próxima vez.

15:41.440 --> 15:42.860
Tauriel y ahora sabemos qué

15:42.940 --> 15:44.550
Hasta entonces, disfruta de la IA.