WEBVTT

00:00.610 --> 00:03.190
Hola y bienvenidos a este tutorial de Python.

00:03.190 --> 00:09.460
Así que hagamos esto, hagamos esto para el bucle empezando desde la derecha e yendo a la izquierda y

00:09.460 --> 00:11.900
para hacer esto vamos a agregar cuatro.

00:11.920 --> 00:17.980
Así que este es un VAR iterativo que iba a ser nuestro paso porque vamos a pasar del último

00:17.980 --> 00:21.590
paso al primer paso de una serie de transiciones y demás.

00:21.960 --> 00:29.850
Y luego, el truco para ir de derecha a izquierda es usar el paso invertido invertido.

00:30.160 --> 00:35.300
Y ahora solo necesitamos ingresar una secuencia y esta secuencia va a ser, por supuesto, nuestra serie.

00:35.380 --> 00:41.790
Así que podemos poner nuestra serie, pero como puede ver en el documento vamos de T menos 1 para comenzar.

00:41.950 --> 00:47.760
Así que no pasamos del último paso, que es el estadio terminal, sino que es el paso anterior al

00:47.800 --> 00:50.380
menos uno, pero comenzar es el primer paso.

00:50.430 --> 00:59.090
Y aquí vamos para no dar ese paso antes de agregar una columna de corchetes menos uno.

00:59.380 --> 01:04.270
Estoy seguro de que para aquellos de ustedes que siguieron el aprendizaje automático en un curso

01:04.560 --> 01:11.050
más profundo, saben que este truco Kollin menos uno significa que están subiendo al elemento antes del último elemento pero no hasta

01:11.050 --> 01:14.740
el último elemento y, por lo tanto, obtenemos la secuencia que queremos.

01:14.860 --> 01:20.890
Eso es lo que vamos a pasar del elemento anterior al último elemento al primer elemento y que hacemos

01:20.890 --> 01:23.900
las cosas al revés para ir de derecha a izquierda.

01:24.160 --> 01:26.810
Muy bien, así que estamos listos para ingresar al bucle for.

01:27.170 --> 01:29.740
Y así dentro de este ciclo, ¿qué vamos a hacer?

01:29.780 --> 01:32.870
¿Dónde vamos a hacer exactamente como en el papel?

01:32.900 --> 01:39.340
Vamos a actualizar la recompensa acumulada multiplicándola por Ghana y agregando la palabra obtenida en el paso

01:39.400 --> 01:42.500
actual que está en el paso del seguimiento.

01:42.670 --> 01:45.450
Está bien, así que hagámoslo volviendo a Python.

01:45.590 --> 01:57.780
Y entonces queremos actualizar nuestro acumulado, trabajamos de la siguiente manera multiplicando primero por gamma.

01:57.780 --> 01:58.580
Aquí vamos.

01:58.660 --> 02:07.910
Aquí lo multiplicamos por gamma y luego queremos agregar la recompensa de aquello a lo que podemos acceder de esta manera con

02:07.970 --> 02:09.420
la estructura especial.

02:09.450 --> 02:13.120
Recuerde que la palabra es un atributo del objeto.

02:13.130 --> 02:15.910
Y aquí, por supuesto, agregamos un plus.

02:16.020 --> 02:17.330
Está bien, es una recompensa acumulativa.

02:17.450 --> 02:19.310
Iguales queremos este paso.

02:19.370 --> 02:25.620
Ahora estamos en el bucle más Gahanna veces la recompensa acumulativa anterior antes de que sea a.

02:26.150 --> 02:26.870
Perfecto.

02:26.870 --> 02:28.190
Entonces ahora creo que estamos bien.

02:28.220 --> 02:30.180
Estamos siguiendo a fondo el algoritmo.

02:30.500 --> 02:32.600
Y ahora es hora de los próximos pasos.

02:32.840 --> 02:35.090
Bueno, ahora va a ser bastante fácil.

02:35.090 --> 02:40.880
Volvemos al primer seguimiento porque este ciclo for solo es para calcular la recompensa acumulativa que no va de

02:41.060 --> 02:44.010
la derecha a la izquierda al actualizar de esta manera.

02:44.030 --> 02:50.930
Siguiendo el algoritmo y ahora, como recordarán, el objetivo de hacer esto es preparar nuestras entradas y nuestros objetivos listos

02:50.930 --> 02:55.950
para que podamos minimizar la diferencia al cuadrado entre los dos para el entrenamiento.

02:55.950 --> 03:01.020
Y ahora mismo, lo único que tenemos que hacer es obtener estas entradas y el inodoro listo.

03:01.220 --> 03:08.410
Así que hagamos esto primero, lo que tenemos que hacer es agregar la primera fecha de la serie en nuestra lista de partes.

03:08.510 --> 03:11.460
Hasta ahora, este estado se encuentra en esto en parte de nuestro objetivo.

03:11.480 --> 03:14.100
Eso fue solo para calcular la salida.

03:14.270 --> 03:19.370
Así que vamos a obtener este estado de entrada del primer paso por separado porque eso es exactamente lo

03:19.370 --> 03:21.320
que tenemos que pasar en nuestra lista.

03:21.380 --> 03:23.340
Entonces, consigamos esto por separado.

03:23.360 --> 03:25.910
Por lo tanto, vamos a llamarlo estado.

03:26.000 --> 03:32.930
Y exactamente lo mismo que aquí, podemos obtenerlo de esta manera tomando el primer índice de la serie que contiene

03:32.930 --> 03:38.300
la primera transición y luego agregando ese estado para obtener el estado de esta primera transición.

03:38.330 --> 03:44.390
Entonces ese es el sitio que necesitamos para decir que obtendremos por separado los objetivos asociados a esta

03:44.840 --> 03:46.830
etapa de entrada de la transición.

03:46.880 --> 03:53.450
Y entonces una nueva variable interesante aquí objetivo que será igual al valor del primer paso.

03:53.540 --> 03:59.990
Y dado que el valor Q es devuelto por la red neuronal y su contenido y salida y

04:00.070 --> 04:07.370
dado que outputs es la salida asociada a esta entrada que contiene el primero del pozo de transición, podemos obtener este

04:07.370 --> 04:12.830
valor q de la primera fecha simplemente tomando la salida aquí y tomando el índice cero.

04:13.100 --> 04:20.630
Y luego agregamos esos datos que simplemente nos darán el valor Q del estado de entrada de la primera transición y ese

04:21.050 --> 04:22.310
es exactamente el momento.

04:22.320 --> 04:30.080
P Entonces, de esa forma lo tomamos, vamos a actualizar esta variable objetivo pero solo para la acción que se seleccionó en

04:30.080 --> 04:35.680
el primer paso de la serie y para acceder a este primer paso de la serie.

04:35.870 --> 04:42.710
Bueno, tenemos que tomar la primera serie 0 porque este es exactamente el primer paso en una serie de 3 0.

04:42.970 --> 04:50.290
Y para acceder a la acción correspondiente a este primer paso de la serie, necesitamos agregar aquí esa acción nuevamente

04:50.380 --> 04:57.340
que es esta estructura de atributos que estamos usando. Usted sabe que la acción es un atributo del primer

04:57.340 --> 04:58.900
paso de la serie.

04:58.900 --> 05:04.570
Esa es la primera transición de la serie porque cada transición de la serie tiene la siguiente

05:04.720 --> 05:11.350
palabra de acción de estado de estructura y lo hace acción aquí esta acción de atributo aquí significa que simplemente

05:11.500 --> 05:14.150
estamos obteniendo la acción de esta primera fecha.

05:14.330 --> 05:21.320
Y entonces el objetivo para esa acción específica del primer paso es exactamente lo que necesita ser actualizado por

05:21.410 --> 05:22.850
la comunidad del mundo.

05:22.850 --> 05:29.490
Entonces, básicamente, aquí vamos a escribir ese objetivo asociado a la acción que se jugó.

05:29.630 --> 05:35.810
El primer paso de la serie es esta recompensa acumulativa que acabamos de calcular.

05:36.130 --> 05:44.780
estamos listos para actualizar nuestra información agregando esta primera estadía aquí y esta primera está aquí durante la primera hora.

05:44.780 --> 05:46.770
Está bien y ahora finalmente

05:46.970 --> 05:53.090
Solo necesitamos actualizar el primer paso de la serie porque sabes que entrenamos a la IA en 10 pasos y, por lo

05:53.090 --> 05:56.000
tanto, la entrada es el primer paso de los diez pasos.

05:56.180 --> 06:01.400
Y también obtenemos el objetivo en este primer paso, pero luego no obtenemos ningún insumo ni ningún inodoro

06:01.400 --> 06:06.310
en los siguientes pasos de los 10 pasos porque básicamente el aprendizaje ocurre 10 pasos después.

06:06.500 --> 06:11.380
Es por eso que en este momento solo obtenemos el estado y el objetivo del primer paso de la serie.

06:11.840 --> 06:16.820
Entonces, es importante entender eso y, por lo tanto, si entendemos que ahora entendemos que tenemos

06:16.820 --> 06:20.590
que ingresarlos en nuestra lista de entradas y nuestra lista de objetivos.

06:20.660 --> 06:21.560
Entonces, hagamos esto.

06:21.560 --> 06:25.140
Primero, agreguemos los estados a nuestras entradas.

06:25.190 --> 06:33.680
Entonces tomamos nuestra lista de entradas y usamos la función de agregar para agregar el estado que remembranca el estado de entrada del

06:33.680 --> 06:41.030
primer paso de la serie y luego vamos a agregar el objetivo en el primer paso a nuestra lista de

06:41.120 --> 06:47.270
objetivos y para hacer esto tomamos nuestra lista de objetivos y decimos que usamos la función de

06:47.270 --> 06:49.460
agregar para agregar este primer objetivo.

06:49.490 --> 06:50.360
Aquí vamos.

06:50.540 --> 06:56.750
que necesitábamos ya que dijimos al comienzo de este tutorial las entradas y los objetivos que ahora se actualizan.

06:56.840 --> 07:01.760
Casi terminado y ahora tenemos que devolver las últimas cosas que son por supuesto lo

07:02.090 --> 07:07.580
Así que vamos a agregar aquí cada turno y vamos a obtener nuestras entradas primero,

07:07.580 --> 07:14.660
pero eso es lo que necesitamos para convertirlas primero en un conjunto de números y luego hacer una conversión de

07:14.660 --> 07:21.710
tipo para asegurarnos de tener un solo tipo con el tipo usted es igual y eso flota 32 lo mismo.

07:21.890 --> 07:28.520
Y luego convertimos esto en un tensor de antorcha porque por supuesto estamos trabajando con una antorcha que es

07:28.730 --> 07:29.540
totalmente obligatoria.

07:29.570 --> 07:36.040
Y entonces estoy usando la antorcha de la función no tailandesa de nuevo.

07:37.180 --> 07:39.000
Y eso nos da nuestras aportaciones.

07:39.130 --> 07:39.590
Perfecto.

07:39.590 --> 07:42.460
Y ahora hagamos lo mismo para los objetivos.

07:42.520 --> 07:44.620
Ahora podemos usar este truco que es más rápido.

07:44.710 --> 07:50.950
Vamos a apilar los objetivos juntos y para hacer esto debemos tomar primero nuestra biblioteca

07:50.950 --> 07:57.230
de antorchas porque vamos a usar la función de pila por soplete para apilar los objetivos.

07:57.250 --> 07:57.550
Todo bien.

07:57.550 --> 08:04.030
Y así, esta línea de código básicamente devuelve las entradas y los inodoros que se actualizaron recientemente a

08:04.030 --> 08:07.100
través de este algoritmo Sarsour de seguimiento de elegibilidad.

08:07.180 --> 08:10.710
O podemos llamarlo, intervenir y enviar nuestras felicitaciones.

08:10.780 --> 08:16.540
Estábamos listos para hacer el entrenamiento final porque básicamente el entrenamiento consiste en minimizar las

08:16.540 --> 08:20.950
diferencias cuadradas entre las predicciones de nuestras entradas y los inodoros.

08:21.160 --> 08:22.870
Entonces, hagamos que nuestros ojos sean inteligentes.

08:22.870 --> 08:25.150
Se volverá inteligente y el próximo será.

08:25.210 --> 08:26.980
Y así hasta entonces disfruta de la IA.