WEBVTT

00:00.760 --> 00:02.520
Ciao e benvenuto al Statoil.

00:02.830 --> 00:10.050
Così ora l'agente ha fatto la sua esplorazione e poi quando sta per fare è aggiornare la rete condivisa.

00:10.240 --> 00:17.050
Quindi, la prima cosa che faremo è inizializzare il cumulativo come la chiameremo la nostra R

00:17.070 --> 00:25.180
maiuscola e la inizializzeremo come un tensore della torcia ma questo avrà dimensioni una per una perché è solo un

00:25.180 --> 00:27.710
valore ma volevamo essere un tensore.

00:27.940 --> 00:33.460
E quindi sto usando qui ma zeri e poi 1 1.

00:33.790 --> 00:37.230
Quindi in pratica la ricompensa cumulativa viene inizializzata a 0.

00:37.610 --> 00:43.870
OK, allora dicendo che se non abbiamo finito è se il gioco non è finito.

00:43.870 --> 00:50.200
Ciò che vogliamo ora è che la ricompensa cumulativa sia uguale al valore dell'ultimo scambio

00:50.200 --> 00:51.750
raggiunto dalla rete condivisa.

00:51.820 --> 00:54.400
Quindi otterremo l'output del valore.

00:54.460 --> 01:00.870
Conoscete il valore delle uscite funzionali del nostro modello e questo è il valore che daremo alla comunità in

01:00.870 --> 01:01.490
cui lavoriamo.

01:01.780 --> 01:05.500
Quindi, prima prendiamo questo valore, possiamo farlo in questo modo.

01:05.560 --> 01:12.820
poi sottolineare di nuovo e poi otteniamo il nostro modello perché produrrà questo valore ma solo il primo risultato della cosa

01:13.240 --> 01:19.980
morale da fare è raddoppiato sul suo corso qui e qui possiamo semplicemente copiare incollare quello che abbiamo qui.

01:19.980 --> 01:25.310
Valore Allora sai dato che vogliamo solo il valore che possiamo aggiungere qui sottolineare e

01:25.430 --> 01:33.050
Questo è l'input del modello con le immagini di input e il pull degli stati e degli stati del Sud.

01:33.220 --> 01:35.820
Quindi sto solo incollando quello e ci siamo.

01:35.860 --> 01:37.490
Otterremo il valore.

01:37.810 --> 01:47.080
E così ora quello che faremo è dare il nostro valore in modo che tutti siano uguali al valore e all'accesso

01:47.080 --> 01:49.350
al valore che abbiamo all'inizio.

01:49.750 --> 01:50.430
Tutto ok.

01:50.440 --> 01:57.610
possibile ottenere dall'output del modello il primo output del modello che già aggiunge questo nuovo valore all'elenco dei valori.

01:57.670 --> 02:04.090
Ora, se la condizione è stata fatta e ora cosa faremo da quando abbiamo appena ottenuto un

02:04.090 --> 02:05.330
nuovo valore, è

02:05.500 --> 02:16.340
Quindi possiamo prendere direttamente la nostra lista valori quindi verso una tenda e noi poniamo variabile perché è nostra.

02:16.530 --> 02:20.560
Questo ultimo valore è così grande che ora è fatto.

02:20.850 --> 02:25.180
Stiamo per inizializzare le perdite e ricordare le lezioni di intuizione.

02:25.260 --> 02:26.320
Hai due perdite.

02:26.340 --> 02:31.780
Hai l'ultimo criterio che è l'ultimo correlato alle previsioni dell'agente.

02:31.860 --> 02:36.070
E poi hai l'ultimo valore che è meno correlato alle previsioni del critico.

02:36.180 --> 02:41.130
Quindi introdurremo queste due variabili inizializzate in zero e prenderanno qui

02:41.250 --> 02:44.600
la politica per noi orribili perdite di politica.

02:44.690 --> 02:52.680
Inizializzalo a zero e poi il valore ha perso molto del valore e diciamo inizializzato a zero quindi non dimentichiamo di

02:52.680 --> 02:58.680
impostare la ricompensa cumulativa come una variabile torcia perché avremo bisogno che sia una torcia Roybal

02:58.680 --> 03:03.990
perché calcoleremo un gradiente con rispetto ad esso perché la ricompensa cumulativa sarà un

03:03.990 --> 03:05.850
termine della perdita di valore.

03:05.850 --> 03:10.050
Quindi questo è vitale ora è collegato ai grafici dinamici con un gradiente.

03:10.530 --> 03:16.150
tendenze sai quando abbiamo applicato il gas al degrado al sole per ridurre quest'ultimo tra le previsioni e gli obiettivi.

03:16.170 --> 03:20.580
E ora finalmente l'ultima cosa che dobbiamo fare prima di iniziare il ciclo di grandi

03:20.850 --> 03:28.160
Bene, abbiamo bisogno di inizializzare il GAAP per la stima del vantaggio generalizzato e non ottenerlo o non rivestito.

03:28.260 --> 03:34.530
Fai attenzione a questo GAAP, la variabile che stiamo per inizializzare adesso è la stima del

03:34.590 --> 03:35.510
vantaggio generalizzato.

03:35.520 --> 03:42.480
Quindi, come promemoria, la stima del vantaggio generalizzato è per definizione il vantaggio di giocare

03:42.540 --> 03:45.170
l'azione a osservando lo stato s.

03:45.210 --> 03:51.330
Quindi è una funzione dell'azione e dello stato s ed è uguale alla differenza tra i valori

03:51.450 --> 03:54.780
q Q A S e il valore della funzione V.

03:54.780 --> 03:57.120
Quindi in realtà posso scriverlo qui.

03:57.540 --> 04:05.130
La stima del vantaggio generalizzato è una funzione dell'azione e dello stato s e che è uguale ai

04:05.580 --> 04:12.570
valori q dell'azione A e lo stato S meno il valore della funzione V applicata allo

04:12.650 --> 04:13.440
stato s.

04:13.530 --> 04:19.000
Ecco i vantaggi generalizzati da citare e questo è ciò che vogliamo inizializzare in questo momento.

04:19.200 --> 04:20.770
E lo inizializzeremo a zero.

04:21.470 --> 04:27.320
confronti dei ballerini che stavano per usare lo stesso trucco di quello che abbiamo appena fatto qui,

04:27.730 --> 04:35.330
prenderemo la libreria torcia e applichiamo alla funzione di zebra per impostarlo come un tensore di un solo valore che è zero.

04:35.330 --> 04:36.730
Ma deve essere nei

04:37.160 --> 04:45.730
E useremo questa nuova variabile g che sarà uguale a quella torcia che zeri 1 come

04:45.740 --> 04:46.540
ci inizializza.

04:46.550 --> 04:52.730
Quindi questo sarà inizializzato a zero e quindi i valori q dell'azione lo stato s sarà uguale

04:52.730 --> 04:55.600
al valore della funzione V dello stato s.

04:55.780 --> 04:56.290
Tutto ok.

04:56.320 --> 04:58.810
E ora siamo pronti per iniziare il ciclo for.

04:58.850 --> 05:00.470
Quindi avremo un'avventura qui.

05:00.500 --> 05:04.700
Quindi prenditi una pausa e ti vedrò nel prossimo tutorial per attaccarlo.

05:04.820 --> 05:06.170
E allora io