WEBVTT

00:00.650 --> 00:05.690
Hola y bienvenidos de nuevo al curso de un I I en la parte anterior hablamos

00:05.750 --> 00:08.360
sobre la profunda intuición de Killary que comenzamos allí.

00:08.360 --> 00:14.900
Y, de hecho, llegamos a esta parte y hablamos sobre el aprendizaje y ahora vamos

00:14.900 --> 00:18.200
a pasar a la parte de actuación real.

00:18.200 --> 00:22.250
Entonces, hay dos partes en partes distintas que debemos recordar.

00:22.250 --> 00:25.520
Esa es la parte de aprendizaje, pero ahora él realmente ha hecho todo esto.

00:25.520 --> 00:26.390
Eso es hermoso.

00:26.390 --> 00:30.500
una acción que él tiene que decidir qué va a hacer va a hacer la acción uno dos tres o cuatro.

00:30.500 --> 00:31.710
Ahora él realmente tiene que tomar

00:31.740 --> 00:32.860
Y entonces, ¿cómo hace eso?

00:33.020 --> 00:39.370
Bueno, la forma en que lo hace ahora se le da esos mismos valores por lo que los valores no cambian después de que tenemos estos valores

00:39.370 --> 00:43.430
de compararlos con Calcott los dos últimos por la época arrogante que hemos actualizado los pesos, pero

00:43.430 --> 00:45.950
los valores no lo hacen cambio en todo ese proceso.

00:45.990 --> 00:47.410
Tener los valores del cubo allí.

00:47.430 --> 00:48.380
Ellos están arreglados.

00:48.380 --> 00:49.440
Sabemos lo que son.

00:49.440 --> 00:50.480
Todo esto sucede sin embargo.

00:50.510 --> 00:53.820
Redes actualizadas y eliminadas utilizando los mismos valores que teníamos.

00:53.960 --> 00:58.600
Lo que vamos a hacer es analizarlos mediante una función soft max.

00:58.610 --> 01:00.580
Y de nuevo suave Max como se describe.

01:00.620 --> 01:05.160
Creo que un anexo 2 y hablaremos un poco más sobre soft max.

01:05.180 --> 01:12.070
Más abajo en o hablaremos de esta política de selección de acción más abajo en el resto de esta sección.

01:12.140 --> 01:13.610
Así que solo en algunos tutoriales.

01:13.730 --> 01:17.270
Pero por ahora solo vamos a decir que lo estamos pasando a través de una próxima función suave.

01:17.270 --> 01:22.150
Básicamente lo que hace es permitir que ayude a seleccionar el mejor, selecciona la mejor acción posible.

01:22.250 --> 01:23.650
Y hay una pequeña advertencia para eso.

01:23.660 --> 01:26.120
No es solo el mejor posible.

01:26.120 --> 01:28.940
Hablaremos de eso en el tutorial de políticas de selección de acciones.

01:28.940 --> 01:35.890
Pero, por ahora, digamos que selecciona la mejor acción desde aquí, dice OK, así que Q1 sabes la probabilidad.

01:36.140 --> 01:41.960
Básicamente, sabemos que los valores de q predijeron el valor de Q para que pueda mirarlos y decir OK, por lo que el valor

01:41.960 --> 01:46.280
de Q más alto de estos, tal como lo hicimos en el algoritmo de aprendizaje de Q simple.

01:46.280 --> 01:50.240
estos por decir los más altos valores. Voy a seleccionar esa acción. Vamos a tomar esos.

01:50.240 --> 01:50.860
Solo miro todos

01:50.900 --> 01:52.180
Y eso es más o menos.

01:52.220 --> 01:57.300
Así es como elige qué acción tomar toma acción y luego todo este proceso ocurre nuevamente.

01:57.290 --> 02:02.120
Para la siguiente etapa, el agente termina en nuestro caso y en el siguiente cuadrado del laberinto.

02:02.120 --> 02:04.540
Pero hablando en general en el siguiente estado.

02:04.640 --> 02:05.420
Entonces ahí vamos

02:05.420 --> 02:14.660
Así es como nos alimentamos con un problema de aprendizaje reforzado en una red neuronal a través de un vector que describe el estado en

02:14.660 --> 02:16.160
el que nos encontramos.

02:16.160 --> 02:17.510
Y una vez que lo ajustamos.

02:17.510 --> 02:22.210
Hay dos partes del proceso que suceden. La primera parte es el aprendizaje.

02:22.400 --> 02:26.840
Así que recuerda esa parte donde comparamos cada uno de los valores del cubo con el

02:26.840 --> 02:32.360
objetivo y luego propagamos la pérdida a través de la red para actualizar los pesos para que nuestra red aprenda

02:32.360 --> 02:34.830
a medida que atravesamos este laberinto o atraviesa este entorno.

02:35.210 --> 02:41.120
Y también la segunda parte es, por supuesto, tenemos que actuar, tenemos que seleccionar una acción y es allí donde

02:41.120 --> 02:46.880
pasamos los valores a través de una función soft max o, básicamente, una política de selección de acción de

02:46.880 --> 02:48.330
la que hablaremos más adelante.

02:48.470 --> 02:53.570
Y luego simplemente seleccionamos la acción que queremos tomar y llevamos a cabo esa acción y luego todo este

02:53.570 --> 02:54.580
proceso comienza de nuevo.

02:54.770 --> 02:59.570
Y entonces tal vez el agente se pone entonces tal vez el agente no pausa el juego.

02:59.630 --> 03:01.250
En cualquier caso, el juego termina.

03:01.250 --> 03:08.270
Y luego, una vez más, todo el proceso se repite, el agente juega todo el juego otra vez y luego eso se detiene, básicamente eso

03:08.270 --> 03:14.460
es otro parque aéreo cada vez que el agente lo sabe cada vez que el juego termina con un favor más allá

03:14.460 --> 03:16.680
de fairie que es el final de un aeropuerto.

03:16.700 --> 03:19.560
Y luego comienza de nuevo y luego comienza de nuevo y luego comienza de nuevo.

03:19.790 --> 03:20.420
Y así.

03:20.420 --> 03:26.810
Así sucede y este proceso ocurre cada vez que el agente está dentro de ti en un nuevo estado, por lo que

03:26.810 --> 03:32.240
el estado está codificado aquí, por lo que es importante no solo para cada juego que juega, sino para

03:32.240 --> 03:33.020
cada estado.

03:33.020 --> 03:38.030
Entonces él está en un estado que pasa por sus fechas de proceso y demás y sucede cada vez.

03:38.150 --> 03:41.410
Y entonces el aprendizaje sucede y la actuación también sucede.

03:41.720 --> 03:47.090
Entonces eso es aprendizaje profundo en la intuición detrás del aprendizaje profundo.

03:47.090 --> 03:54.200
y luego, por supuesto, práctico, y mientras tanto, si desea obtener información adicional sobre cómo seguir aprendiendo.

03:54.410 --> 03:56.720
Tenemos mucho más para cubrir

03:56.720 --> 04:05.200
Tenemos una lectura recomendada, por lo que ya hemos hablado sobre la serie de publicaciones de blog de Arthur Giuliani.

04:05.210 --> 04:12.590
Si observa el aprendizaje informal simple Lifton's flow, parte 4, encontrará la parte que es relevante para

04:12.590 --> 04:14.260
lo que discutimos hoy.

04:14.270 --> 04:21.170
Tenga en cuenta que aquí él habla de circunvoluciones, no estamos cubriendo las revoluciones, en esta sección vamos a hablar de

04:21.170 --> 04:23.650
ellas en la próxima sección del curso.

04:23.720 --> 04:28.880
Entonces, la diferencia aquí es que se saltean las conclusiones por ahora y hablaremos de ellas

04:28.880 --> 04:32.850
en la próxima parte del curso, pero la diferencia está en las evoluciones.

04:32.850 --> 04:39.170
Parece que el agente está mirando la imagen y, por lo tanto, tiene que procesar una imagen, una

04:39.170 --> 04:43.540
complicación adicional por ahora, en la que poco a poco vamos aumentando.

04:43.580 --> 04:50.060
Por ahora estamos codificando nuestro entorno a través de aquí, estamos codificando nuestro entorno o tal

04:50.060 --> 04:58.700
vez miremos este probablemente en la codificación de nuestro entorno como un estado para indicar que el agente está en un vector.

04:58.700 --> 05:01.330
Entonces, en nuestro caso, era un vector de valores muy simple.

05:01.490 --> 05:06.190
A veces las personas incluso en eso de esa manera simple pueden a veces o como verán en esta publicación de blog.

05:06.290 --> 05:10.180
A veces las personas prefieren la versión codificada y caliente de ese estado.

05:10.180 --> 05:13.380
Entonces, básicamente, donde cada caja del laberinto tiene a.

05:13.620 --> 05:17.780
Entonces, tiene como vector de un caso nulo 12 valores de tres por cuatro.

05:17.800 --> 05:22.130
Por lo tanto, no es ni 1 ni 0, dependiendo de qué elementos y en qué casilla se encuentre.

05:22.160 --> 05:22.990
En el ambiente.

05:23.060 --> 05:29.900
Entonces, de cualquier forma que decidas codificar tu entorno y el estado de tu entorno, así es como en la

05:29.900 --> 05:31.520
codificación Básicamente es un vector.

05:31.520 --> 05:36.410
La clave aquí es que no es una convolución Así que no es como una imagen y no hay un voltaje de

05:36.410 --> 05:37.810
convolución Entonces esta parte vendrá después.

05:37.820 --> 05:43.410
Para nosotros comienza aquí y eso simplemente simplifica el proceso para que podamos entender mejor gradualmente.

05:43.550 --> 05:49.130
Y, por supuesto, no olvide que esta publicación es grosera y tiende a fluir y estamos utilizando pi torche

05:49.130 --> 05:50.090
en nuestros tutoriales.

05:50.090 --> 05:51.910
Así que con suerte disfrutas esto.

05:51.920 --> 05:59.220
Una introducción rápida a un profundo aprendizaje profundo convolucional profundo pero no profundo.

05:59.310 --> 06:02.910
Y en esa nota, espero verte el próximo.

06:02.930 --> 06:05.430
Y hasta entonces disfruta de inteligencia artificial.