WEBVTT

00:00.720 --> 00:03.210
Hola y bienvenidos al curso de inteligencia artificial.

00:03.210 --> 00:08.400
Hoy hablamos de la primera parte de A-3 que ve la parte de la crítica de actores.

00:08.400 --> 00:10.540
Entonces aquí tenemos una ventaja sincrónica.

00:10.550 --> 00:12.380
Algoritmo crítico del actor.

00:12.420 --> 00:15.440
Y vamos a estar hablando de eso, subrayó Akrotiri.

00:15.570 --> 00:17.210
Ahí es donde vamos a comenzar.

00:17.400 --> 00:21.960
comenzar en cualquier parte, pero tiene mucho más sentido comenzar con un crítico, porque

00:22.320 --> 00:29.640
de esa manera tendremos una explicación muy consecutiva de la comprensión intuitiva de lo que está pasando que nos va a facilitar.

00:29.640 --> 00:30.470
Técnicamente podría

00:30.480 --> 00:33.970
Pero si comenzamos a sorprender aún al final de esta aberración.

00:34.170 --> 00:41.840
Muy bien, hasta ahora en este curso hemos llegado a un profundo aprendizaje condicional de Kule que es ilustrador aquí, así que

00:41.880 --> 00:48.780
tenemos la computadora viendo los píxeles para que la imagen real y los píxeles no sean solo un vector.

00:48.780 --> 00:53.610
Así que no es hacer trampas, es ver exactamente lo que un humano ve, ve a

00:53.610 --> 01:00.540
los monstruos, ve la salud, ve los parámetros en la parte inferior, ve la tarjeta o ve el arma, es exactamente lo

01:00.540 --> 01:03.080
mismo que vería un humano al jugar. juego.

01:03.090 --> 01:09.450
acciones como recordar que tenemos esos valores de cubo luego aplicamos una política de selección de acción para ellos

01:09.450 --> 01:16.380
Luego esa imagen pasa a través de una guarida convolucional y luego pasa a través de un tirón lariat se aplana

01:16.380 --> 01:20.270
y entra en una red neuronal y luego en la salida tenemos

01:20.270 --> 01:24.540
Entonces, por ejemplo, aplicamos un Max suave y descubrimos qué acción queremos realizar.

01:24.540 --> 01:28.470
Y entonces hay algo de exploración y explotación en marcha.

01:28.470 --> 01:29.860
Hay una combinación de los dos.

01:30.270 --> 01:33.480
Así que así es como funciona el aprendizaje cool convolucional profundo.

01:33.640 --> 01:34.980
Pero ahora veamos qué vamos a hacer con eso.

01:34.970 --> 01:39.510
más fácil para nosotros operar es porque vamos a ajustar esta imagen y moverla.

01:39.510 --> 01:41.770
Entonces, por simplicidad solo para que sea

01:41.790 --> 01:46.490
Vamos a reemplazar círculos con cuadrados con estos o estos cuadros rectangulares.

01:46.560 --> 01:53.190
Y también vamos a deshacernos de esas líneas y entre simplemente cambiarlas a flechas para que esto no

01:53.190 --> 01:54.440
cambie la esencia.

01:54.450 --> 01:56.590
Esta es solo la representación en esta tabla.

01:56.610 --> 02:01.620
Aún así, esta representación es aún profundamente convolucional. El aprendizaje de Kule nos

02:01.620 --> 02:05.520
resultará más sencillo para modificarlo y mostrar exactamente qué es.

02:05.520 --> 02:08.820
Así que así es como vamos a representar las cosas desde aquí.

02:08.820 --> 02:13.070
Y lo que hace o esta parte específica está comenzando.

02:13.080 --> 02:16.680
Recuerde que estamos empezando, paso a paso, comenzamos con la parte crítica activa.

02:16.680 --> 02:23.490
Así que vamos a ver cómo vamos desde el profundo aprendizaje crucial de Kule hasta el A-3. Veamos paso a paso y en el primer paso

02:23.490 --> 02:27.520
vamos a presentar este crítico de actores PARTOVI aquí, así que vamos a hablar sobre eso.

02:27.750 --> 02:32.490
Entonces, lo primero que sucede es este último bit.

02:32.640 --> 02:36.990
El resultado es que vamos a volver a dibujarlo así, así que es exactamente la

02:36.990 --> 02:40.350
misma salida, exactamente los mismos valores q son exactamente la misma acción.

02:40.350 --> 02:45.810
la parte superior, por lo que ocupan menos espacio, por lo que hasta ahora nada ha cambiado hasta ahora.

02:45.810 --> 02:50.280
Entonces, si él tuviera ocho acciones posibles, todavía tienes ocho acciones posibles que las colocarán en

02:50.280 --> 02:52.080
Esto y esto son exactamente lo mismo.

02:52.080 --> 02:55.080
Pero ahora aquí es donde entra la parte crítica activa.

02:55.110 --> 02:56.580
Vamos a tener un segundo resultado.

02:56.580 --> 03:02.460
Vamos a tener el primero como un conjunto de resultados y aquí vamos a tener una salida individual

03:02.460 --> 03:06.040
por separado, así que técnicamente vamos a utilizar nuestra red neuronal.

03:06.040 --> 03:08.310
Entonces una vez por hora.

03:08.340 --> 03:14.720
O la imagen y todo lo que se parece a los valores pasan por la red de izquierda a derecha aquí.

03:14.730 --> 03:17.910
No solo escupieron un conjunto de valores que escupen en realidad dos conjuntos.

03:17.910 --> 03:23.910
Y así, la parte superior dijo que realmente sabemos cuáles son sus posibles acciones, pero aquí en realidad vamos a tener

03:23.910 --> 03:26.970
otro valor extra, así que echemos un vistazo a eso.

03:27.000 --> 03:28.430
¿Cuál es ese valor?

03:28.620 --> 03:31.260
Así que aquí vamos, esa es la parte superior.

03:31.380 --> 03:35.190
Así que nos gusta reducir el tamaño de esta ilustración.

03:35.340 --> 03:41.210
El resultado principal es los valores de cubo como discutimos previamente para las acciones.

03:41.220 --> 03:42.500
Entonces son lo mismo.

03:42.510 --> 03:43.240
Todo es lo mismo

03:43.410 --> 03:47.640
Pero ahora esta parte inferior y la parte superior en realidad se llama la X o vamos

03:47.640 --> 03:53.400
a darle un nombre que sea el actor porque esa es la parte donde el agente elige lo que quiere hacer para que

03:53.400 --> 03:59.160
sea como si actuara es como si se está ejecutando en el escenario y tendrá más sentido una vez que tengamos el segundo

03:59.160 --> 04:00.730
nombre en la pantalla también.

04:00.900 --> 04:08.120
Y luego, el segundo resultado es igual que un valor y eso es V de S, de modo que ese es el valor del estado.

04:08.130 --> 04:16.800
q de S es la Q de A es el valor q de una determinada acción y como pueden ver es por eso que hay acción una acción dos acción

04:16.980 --> 04:21.450
tres son acciones de acción seis o más altas que posiblemente estén en ese estado.

04:21.450 --> 04:22.030
Entonces, si

04:22.030 --> 04:28.410
Entonces en un estado dado s ¿Cuál es el valor q de tomar acción una acción para acción una acción para y así sucesivamente?

04:28.460 --> 04:34.900
Luego, aquí también estamos prediciendo que también estamos usando redes neuronales para predecir cuál es el

04:34.900 --> 04:40.620
valor de la etapa en la que estamos actualmente y esta parte se llama crítica.

04:40.820 --> 04:47.070
Y esa es la intuición para el tipo de intuición que no es ni siquiera completa, que es justo como el comienzo

04:47.880 --> 04:53.260
de la intuición detrás del actor. Predice que ahora hay dos salidas de la red neuronal, no solo una.

04:53.380 --> 04:56.470
P antes solo teníamos ese en outbred que ahora llamamos la acción.

04:56.470 --> 04:59.040
Pero ahora tenemos dos salidas Akshara y crítico.

04:59.250 --> 05:02.320
Y habrá una dinámica entre ellos que exploraremos más.

05:02.370 --> 05:08.850
Pero por ahora es importante entender que no solo estamos prediciendo los valores de las acciones que el agente puede tomar del

05:09.330 --> 05:14.100
estado actual, sino que también estamos prediciendo el valor de estar en este tipo de estado

05:14.100 --> 05:15.750
usando esa misma red un año.

05:15.750 --> 05:20.700
Entonces ese es el núcleo del primer paso en la crítica activa.

05:20.790 --> 05:24.990
Y ahora vamos a necesitar hablar de un sincrónico que haremos en el siguiente tutorial

05:24.990 --> 05:30.900
para entender exactamente lo que está sucediendo entre el deber y lo último de hoy es que todos estos valores clave

05:30.900 --> 05:32.640
como sabemos también se llaman Pulso .

05:32.640 --> 05:39.720
Entonces, en algunas publicaciones literarias de algunos blogs y algunas discusiones, puede encontrar en la crítica activa que puede

05:39.720 --> 05:47.400
encontrar al autor hablando de los valores de Cue del lado del actor en alguna otra literatura y publicaciones de blogs

05:47.400 --> 05:53.780
y discusiones. Encontrará la agrah del autor. hablando de la política y por lo general es utilizar

05:53.860 --> 05:59.810
al usuario como una letra griega P para representar la política o simplemente decir política de estado.

05:59.970 --> 06:05.790
Así que en conjunto, esta es la política de estado de porque, como recordamos, la política

06:05.790 --> 06:11.660
es que si juntas todas las acciones, las posibles acciones y luego se decide qué acción tomar.

06:11.660 --> 06:15.400
Entonces estas serán como las probabilidades de tomar cada acción, esa es la política.

06:15.540 --> 06:19.410
Así que no te desanimes si ves uno u otro.

06:19.410 --> 06:21.090
Básicamente significan lo mismo.

06:21.090 --> 06:24.720
Entonces, por un lado, aquí tienes la política o los valores q, por otro lado, tienes el

06:24.720 --> 06:27.620
valor real del estado y se están prediciendo a partir de ese año.

06:27.750 --> 06:31.770
Así que ese es el comienzo de la crítica activa que continuará con esto en el próximo

06:31.770 --> 06:34.320
tutorial cuando estamos hablando de un sincrónico y busquemos allí.

06:34.380 --> 06:35.910
Hasta entonces disfruta del.
