WEBVTT

00:00.510 --> 00:02.990
Hola y bienvenidos a este tutorial de Python.

00:03.240 --> 00:08.400
De acuerdo, ahora vamos a hacer la función de avance que propagará las señales de salida de

00:08.400 --> 00:13.550
nuestro cerebro al cuerpo de la IA para que ejecute la acción correcta para alcanzar el chaleco.

00:13.770 --> 00:20.100
Pero aún no hay reacción porque no hay entrenamiento de que aún no hayamos entrenado a la IA, pero

00:20.100 --> 00:25.920
esto es exactamente lo que haremos en parte para implementar en una curva convolucional profunda, que por cierto

00:25.920 --> 00:29.720
cambiaré el nombre de entrenamiento de la IA por Killary convolucional profundo.

00:29.940 --> 00:35.340
Pero ahora necesitamos enviar la señal de la capa de salida del cerebro al cuerpo.

00:35.370 --> 00:40.170
es exactamente lo que haremos con esta función directa, que es la última función de nuestro cuerpo.

00:40.170 --> 00:40.670
Y eso

00:41.420 --> 00:42.860
Entonces, hagamos esto.

00:42.860 --> 00:50.140
Comenzamos con Teff adelante y de acuerdo a usted qué argumentos va a tomar.

00:50.330 --> 00:55.030
Bueno, va a tomar la fuerza primero y luego hay otra.

00:55.220 --> 00:56.740
Bueno, sí, hay.

00:56.870 --> 00:58.140
Y que va a ser

00:58.310 --> 01:04.700
Bueno, naturalmente, queremos enviar la señal de salida del cerebro al cuerpo y, por lo tanto, la

01:04.700 --> 01:07.470
entrada será la señal de salida del cerebro.

01:07.850 --> 01:10.480
Y ahora necesitamos dar un nombre a estas señales externas.

01:10.610 --> 01:14.390
Y entonces voy a agregar aquí el argumento de salida.

01:14.460 --> 01:21.200
De acuerdo, entonces eso corresponde a las señales de salida del cerebro después de que las imágenes de entrada se propagan a través de

01:21.200 --> 01:26.540
todo el cerebro para alcanzar la salida más tarde, que es X aquí regresa por la función de avance

01:26.540 --> 01:27.170
del cerebro.

01:27.380 --> 01:32.480
Y ahora esta señal de salida del cerebro se enviará al cuerpo con esta nueva

01:32.480 --> 01:35.410
función de avance que hacemos en la próxima clase.

01:35.460 --> 01:41.760
poco de color aquí y ahora, mientras lo entendieron, vamos a usar el siguiente método soughed para ejecutar la acción.

01:41.870 --> 01:43.940
Así que hagamos esto, agreguemos un

01:43.940 --> 01:49.820
Eso significa que el cuerpo de nuestra IA después de recibir las señales de salida del cerebro ejecutará las

01:49.820 --> 01:51.440
acciones con la siguiente técnica.

01:51.440 --> 01:56.510
Entonces, básicamente, ahora lo que tenemos que hacer es exactamente lo mismo que hicimos con el automóvil.

01:56.600 --> 01:59.390
Vamos a obtener nuestra distribución de probabilidades.

01:59.540 --> 02:05.960
Ese es el primer paso y luego vamos a probar una acción de acuerdo con esta distribución de probabilidades.

02:05.960 --> 02:11.510
Básicamente, lo que podríamos hacer ahora es obtener nuestro archivo de auto sin conductor y copiar y pegar lo que implementamos

02:11.510 --> 02:14.570
para la función de seleccionar realmente en el auto sin conductor.

02:14.810 --> 02:15.700
Pero hagámoslo de nuevo.

02:15.710 --> 02:19.710
Será una buena práctica y en realidad puedes intentar escribirla antes que yo.

02:20.150 --> 02:23.870
OK, entonces primero lo que vamos a hacer es obtener nuestras probabilidades.

02:23.870 --> 02:29.930
Entonces recuerdo que esta es una distribución de probabilidades para cada uno de los valores q que dependen de la imagen

02:29.960 --> 02:31.790
de entrada y de cada acción.

02:31.790 --> 02:38.120
Entonces tenemos un valor clave para cada una de las seis o siete acciones posibles y, por lo tanto, obtenemos

02:38.120 --> 02:43.600
una distribución de siete probabilidades y luego 7 porque creo que hay siete acciones en lugar de seis.

02:43.670 --> 02:50.010
lo tanto, obtenemos una distribución de siete probabilidades, una para cada valor de q asociado a cada acción.

02:50.420 --> 02:57.260
Porque además de movernos hacia la izquierda o hacia la derecha también podemos ejecutar siete acciones posibles y, por

02:57.260 --> 02:58.930
Entonces Propst es igual.

02:59.040 --> 03:00.670
Y ahora recuerda lo que tenemos que hacer.

03:00.860 --> 03:06.650
Bueno, básicamente, tenemos que usar la función de máximo alucinado desde el módulo funcional.

03:06.680 --> 03:13.010
Eso es muy simple. Primero tomamos nuestro módulo funcional y luego hacemos eso y luego tomamos nuestra próxima

03:13.130 --> 03:13.700
función mejorada.

03:13.700 --> 03:14.480
Aquí está.

03:14.570 --> 03:22.430
de la siguiente función que recuerdo son los elementos para los que desea crear una distribución de probabilidades.

03:22.430 --> 03:25.290
Presionamos enter y ahora ponemos los argumentos

03:25.550 --> 03:30.560
Y así es, por supuesto, los q valores que son las salidas de la red neuronal.

03:30.680 --> 03:35.830
Esa es la salida de la red neuronal para la cual desea crear una distribución de probabilidades.

03:35.990 --> 03:41.270
Ahora recuérdenos que queremos crear esta distribución de probabilidades para poder explorar las diferentes acciones

03:41.270 --> 03:45.760
en lugar de elegir directamente la que tiene el valor Q máximo.

03:46.010 --> 03:51.020
Si seleccionamos directamente el que tiene el valor de Q máximo, no exploramos mucho las otras acciones

03:51.350 --> 03:52.650
y podríamos perder algo.

03:52.880 --> 03:58.760
más de exploración y, por lo tanto, tal vez encontrar algunas soluciones ocultas en los patrones que podrían ser mucho mejores.

03:58.760 --> 04:01.520
Pero con este próximo método mejorado podemos hacer un poco

04:01.850 --> 04:08.060
Así que de nuevo recomiendo cosas de Nax y luego, a partir de ahora, lo que tenemos que hacer es ingresar los valores

04:08.060 --> 04:09.560
que son nuestros resultados aquí.

04:09.560 --> 04:13.860
Las salidas de nuestro cerebro dan como resultado que vayamos.

04:13.970 --> 04:21.710
Pero luego tenemos este parámetro de temperatura que podemos usar que podemos configurar para personalizar la exploración.

04:21.710 --> 04:28.130
Recuerde que cuanto más alta sea la temperatura, menor será la exploración de las otras acciones, ya que

04:28.130 --> 04:33.260
la mejor acción se seleccionará con una mayor probabilidad en comparación con las otras

04:33.260 --> 04:35.910
acciones que se seleccionarán con menores probabilidades.

04:35.930 --> 04:42.620
Eso es exactamente como con un automóvil y por lo tanto tenemos que multiplicar la producción aquí por

04:43.010 --> 04:51.800
nuestro parámetro de temperatura t que conseguimos perfecto ahora recibimos una pequeña advertencia porque todavía no hemos usado las preparaciones, pero estamos a

04:51.810 --> 04:53.220
punto de usarlas ahora.

04:53.260 --> 04:55.540
Y eso nos lleva a lo siguiente que tenemos que hacer.

04:55.540 --> 04:57.750
¿Cómo vamos a usar estas probabilidades?

04:57.910 --> 05:04.390
Bien, vamos a probar la acción final a jugar desde esta distribución de probabilidades y, por lo tanto, lo

05:04.990 --> 05:10.960
que tenemos que hacer ahora es usar la función multinomial para muestrear la acción de acuerdo con esta

05:10.960 --> 05:12.080
distribución de probabilidades.

05:12.370 --> 05:15.030
Entonces ahora estamos listos para obtener nuestras acciones.

05:15.190 --> 05:20.500
Así que estoy creando un nuevo Voivode aquí porque eso se convertirá en acciones que serán jugadas por el

05:20.500 --> 05:21.490
cuerpo de nuestra IA.

05:21.520 --> 05:30.330
Y entonces ahora tomamos nuestra distribución de problemas de probabilidades a la que agregamos puntos y luego el método multi

05:30.880 --> 05:31.480
normal.

05:32.220 --> 05:38.030
Está bien y ahora tenemos nuestras acciones finales para jugar ensambladas desde nuestra distribución de utilería.

05:38.430 --> 05:39.570
Bien perfecto.

05:39.570 --> 05:42.300
Así que ahora estábamos listos para devolver lo que queremos.

05:42.360 --> 05:44.450
Esa es la acción para jugar.

05:44.670 --> 05:48.720
Y estas son acciones por supuesto y ahora la advertencia debería desaparecer.

05:48.840 --> 05:50.440
Usamos todo lo que queremos.

05:50.460 --> 05:51.270
Aquí vamos.

05:51.270 --> 05:52.020
Perfecto.

05:52.210 --> 05:53.950
Entonces ahora la función de reenvío está lista.

05:54.080 --> 05:55.740
Y felicitaciones

05:55.800 --> 05:57.300
El cuerpo también está listo.

05:57.540 --> 05:59.070
Entonces ahora tenemos nuestro cerebro

05:59.190 --> 06:05.760
Tenemos nuestro cuerpo y, por lo tanto, estamos listos para reunirlos para hacer que la futura IA sea nuestra futura IA No

06:05.760 --> 06:08.900
estaré compuesta de nada más que un cerebro y un cuerpo.

06:08.970 --> 06:14.160
Entonces, es lo que tiene inteligencia y un cuerpo para jugar las acciones que serán las

06:14.160 --> 06:16.610
acciones correctas para jugar gracias a su inteligencia.

06:16.620 --> 06:22.060
Pero recuerda antes de que tengamos que entrenar su inteligencia y eso es lo que haremos en

06:22.070 --> 06:25.180
parte para entrenar el ojo con el aprendizaje convolucional.

06:25.200 --> 06:25.500
Todo bien.

06:25.500 --> 06:28.470
Entonces hagamos que la IA esté en los próximos trabajos.

06:28.490 --> 06:31.810
De nuevo, creo que será una clase de dos funciones.

06:31.950 --> 06:34.510
Y entonces este requiere dos o tres tutoriales.

06:34.680 --> 06:35.660
Entonces no puedo esperar

06:35.670 --> 06:36.780
Esto será emocionante.

06:36.780 --> 06:37.930
Y hasta entonces yo