WEBVTT

00:00.330 --> 00:05.990
Salve e benvenuti a questo tutorial in Statoil di oggi andremo a sincronizzarci con il modello condiviso.

00:06.150 --> 00:13.370
Quindi quello che faremo è comunque inviare la funzione, naturalmente, e quindi inizializzare la durata di un

00:13.380 --> 00:13.980
episodio.

00:14.190 --> 00:22.020
Quindi chiameremo la lunghezza di un episodio episodio e questa lunghezza di core che andiamo e iniziamo

00:22.020 --> 00:23.800
a inizializzarlo a zero.

00:23.880 --> 00:27.280
Ma allora questa lunghezza attuale sarà incrementale.

00:27.570 --> 00:30.450
E parlando di incrementi in questo è esattamente quello che faremo.

00:30.660 --> 00:40.600
useremo questo trucco per dire, mentre il vero Kallen ripeterà cosa accadrà ora che cosa succederà in questo mondo.

00:40.600 --> 00:43.840
Quindi useremo un ciclo while e

00:44.160 --> 00:49.360
E quindi la prima cosa che accadrà in questo ciclo è l'incremento della lunghezza di

00:49.360 --> 00:50.070
un episodio.

00:50.260 --> 00:56.900
Quindi la prima cosa che faremo è incrementata di 1 e per fare ciò possiamo

00:57.010 --> 01:02.680
semplicemente prendere lunghezze degli episodi e aggiungere qui più uguale a 1.

01:03.200 --> 01:06.440
E ora ci sincronizzeremo con la condivisione di più.

01:06.560 --> 01:13.520
Ciò significa che ora che l'agente otterrà userà il modello condiviso per fare la sua piccola esplorazione su un

01:13.700 --> 01:18.730
certo numero di passaggi e in che modo il modello otterrà questo modello condiviso.

01:18.860 --> 01:27.710
Bene, dobbiamo prendere la nostra morale di quella e poi usare il metodo di caricamento del metodo di Dick perché

01:27.710 --> 01:37.310
lo useremo per ottenere il dizionario di stato del nostro modello condiviso, quindi dobbiamo prima mettere il modello condiviso e applicare quindi

01:37.310 --> 01:41.870
il metodo statico a ottenere i parametri del modello condiviso.

01:41.900 --> 01:48.500
Ed è così che il nostro modello qui porterà il modello condiviso alla sua piccola esplorazione. Okay.

01:48.500 --> 01:53.670
E una volta che il modello ottiene questo modello condiviso ora dobbiamo distinguere due casi.

01:53.840 --> 02:03.280
Il primo è fatto se significa che se il gioco è finito, quindi il gioco è fatto, allora cosa succede in quel caso.

02:03.530 --> 02:09.840
Bene, dobbiamo reinizializzare gli stati nascosti e gli stati della cella dell'LSD e del centro commerciale.

02:09.950 --> 02:17.510
stati delle celle e invecchierò anche gli stati nascosti e li inizializzerò di nuovo e come li reinizializzeresti.

02:17.510 --> 02:21.030
Ed è per questo che prenderò See X gli

02:21.170 --> 02:29.080
Bene con solo zeri ci sarà un vettore di 256 zeri perché ricorda le uscite del resto.

02:29.270 --> 02:31.770
Come ho menzionato 1 e 256.

02:31.820 --> 02:38.970
Quindi andiamo a inizializzarli usando la libreria torcia e poi la funzione dello zero.

02:39.170 --> 02:46.730
E poiché vogliamo un vettore di 256 zeri, sentiremo le dimensioni una per il vettore e 256

02:46.730 --> 02:51.560
per il numero di elementi che saranno zero e quindi andremo.

02:51.770 --> 02:58.570
Ma poi lo convertiremo in un Voivode della torcia perché poi verranno calcolati alcuni gradienti.

02:58.640 --> 03:02.000
Quindi dobbiamo integrare questo con un gradiente.

03:02.030 --> 03:02.510
Tutto ok.

03:02.540 --> 03:09.860
E faremo lo stesso per gli stati nascosti appena sotto e li analizzeremo nello stesso modo.

03:09.980 --> 03:10.680
Eccoci.

03:10.790 --> 03:13.050
Quindi, se il gioco è finito.

03:13.360 --> 03:20.810
E ora l'altro caso a cui possiamo accedere con Else else rispetto a quello che succede in quel caso.

03:20.990 --> 03:27.270
Bene, manterremo i vecchi stati delle celle e le puntate nascoste e quindi con

03:27.270 --> 03:37.910
molta facilità possiamo mantenere i vecchi in questo modo digitando X uguale a variabile cx che i dati e lo stesso per quello negli Stati

03:39.050 --> 03:45.580
Uniti possiamo semplicemente aggiungere qui H x uguale variabile xx che i dati sono a.

03:45.650 --> 03:46.570
Buona cosa

03:46.580 --> 03:52.880
Ora possiamo uscire dal resto perché fondamentalmente abbiamo finito con questi due casi, a prescindere dal fatto che il

03:52.910 --> 03:58.340
gioco sia finito o meno, ma restiamo nel ciclo while perché ora faremo altre cose che

03:58.340 --> 04:00.450
fondamentalmente sono tutti gli allenamenti processi.

04:00.530 --> 04:05.960
Quindi ciò che faremo ora è inizializzare diverse variabili che saranno al centro

04:06.050 --> 04:07.990
dei calcoli del training.

04:08.180 --> 04:13.660
Quindi, facciamo questo, avremo bisogno dei valori che ricordano l'output del critico.

04:13.790 --> 04:15.170
Questa è la funzione.

04:15.170 --> 04:17.850
E li inizializzeremo come un nido vuoto.

04:17.960 --> 04:22.790
In questo modo avremo bisogno di trascinare le probabilità.

04:22.930 --> 04:27.570
Quindi probabilita 'di fortuna e la inizializzeremo anche come una lista vuota.

04:27.590 --> 04:33.540
Quindi, ovviamente, avremo bisogno di tutte le parole che verranno inizializzate come una lista vuota.

04:33.650 --> 04:38.810
E finalmente avremo bisogno che entropia sia qualcosa di nuovo.

04:38.960 --> 04:43.240
Ma questo è davvero al centro delle condizioni di allenamento.

04:43.280 --> 04:45.120
Quindi fino a poco.

04:45.170 --> 04:50.690
iniziare un nuovo ciclo FOR e poi questo ninfal aggiornerà i valori di queste quattro variabili.

04:50.690 --> 04:53.350
Quindi, ora che inizializziamo queste quattro variabili, possiamo

04:53.420 --> 04:59.330
E così questo nuovo Foluke sarà un cerchio pieno per le fasi di scadenza e quindi la

04:59.330 --> 05:01.530
variabile di loop sarà il nostro passo.

05:01.550 --> 05:11.570
Quindi per un passo all'interno e all'interno possiamo mettere direttamente un punto senza fermi perché il parametro in alcuni passaggi

05:11.660 --> 05:15.170
è esattamente il numero di passi dell'accelerazione.

05:15.170 --> 05:19.190
Quindi per tutti i passaggi dell'accelerazione Cosa facciamo.

05:19.370 --> 05:22.690
Bene, otterremo le previsioni del modello.

05:22.740 --> 05:28.730
il modello e applicarlo agli input che inviano il segnale che passa attraverso il cervello nel modello.

05:28.730 --> 05:33.670
Ora, cosa viene restituito dal modello e per ottenere queste previsioni, possiamo semplicemente prendere

05:33.830 --> 05:39.020
E questo ci darà le uscite ma otterrà diversi output sapendo che ci otterrà i

05:39.020 --> 05:42.010
valori della funzione che è l'output del critico.

05:42.200 --> 05:48.560
Quindi i valori q QSA, che è l'output dell'attore, ma non dimenticano che produrrà anche il

05:48.680 --> 05:54.830
ribaltamento degli stati di Doheny e dei piccoli stati perché ricorda che se torniamo al

05:54.830 --> 06:00.230
nostro modello nella funzione forward possiamo vedere che effettivamente restituisce l'output del critico.

06:00.320 --> 06:08.090
Questo è il valore della funzione sì, l'output dell'attore che del cubo vale QSA e anche l'output del

06:08.090 --> 06:14.930
CM che è questo doppio controllo e vedere X quindi Stati e stati della cella.

06:14.930 --> 06:16.910
Quindi dobbiamo stare attenti a questo.

06:16.910 --> 06:22.310
Questo è molto diverso da quello che è successo prima e quindi li applicheremo tutti

06:22.310 --> 06:24.470
agli input che sono lo stato.

06:24.530 --> 06:28.020
Ma ora ci sono diverse cose da fare relative alla tortura.

06:28.030 --> 06:31.130
Ma ciò conferisce naturalmente il potere a ciò che stiamo facendo.

06:31.190 --> 06:39.920
La prima cosa che dobbiamo fare è spremere negli stati per aggiungere questa dimensione che deve avere

06:39.920 --> 06:40.880
l'indice 0.

06:40.910 --> 06:47.080
Questo perché il modello può accettare solo una serie di input e non un fine da solo in un vettore o un intensificatore.

06:47.240 --> 06:53.320
Questa è la prima cosa che dobbiamo fare e spremere, ma non è tutto ciò di cui

06:53.360 --> 06:58.950
abbiamo bisogno per convertire i nostri input in una torcia annullabile, quindi io qui dentro.

06:59.180 --> 07:05.660
Quindi ora siamo con lo stato di polizia statale ma ricordiamo che gli input delle quattro funzioni sono in

07:05.660 --> 07:06.990
realtà l'immagine di input.

07:06.990 --> 07:14.660
Questo è ciò di cui ci prendiamo cura, ma anche questo tipo di età X gli stati e gli stati cellulari e

07:14.900 --> 07:16.500
quindi dobbiamo aggiungere qui.

07:16.610 --> 07:23.160
Questa seconda parte dell'input con il suo fascino di età X e 6.

07:23.190 --> 07:23.690
Tutto ok.

07:23.730 --> 07:26.410
E dobbiamo riprendere la parentesi.

07:26.430 --> 07:32.550
Eccoci, abbiamo i nostri due input, il primo è gli stati di input che sono le immagini di input

07:32.550 --> 07:38.580
tutte convertite in variabili e spremute per aggiungere questa dimensione falsa del batch e fermano tutti gli stati e

07:38.760 --> 07:40.260
gli stati del sud.

07:40.440 --> 07:41.630
Quindi siamo tutti a posto.

07:41.670 --> 07:43.890
Siamo pronti per ottenere le nostre previsioni.

07:44.100 --> 07:46.360
E ora da questo ritorno.

07:46.500 --> 07:52.530
l'uscita del critico fino all'attore e la cima di tutti i reintegri resi necessari dal CME.

07:52.530 --> 07:54.430
Bene le nostre tre predizioni

07:54.630 --> 07:59.840
Bene, introdurremo tre nuove variabili ora che pubblicheranno tre output.

07:59.910 --> 08:05.380
Quindi otteniamo il primo risultato è il valore della funzione V che è l'output del critico.

08:05.520 --> 08:07.960
Quindi lo chiameremo così.

08:08.490 --> 08:08.960
Quindi eccoci.

08:08.970 --> 08:10.250
Questa è la prima uscita.

08:10.350 --> 08:14.630
Quindi il secondo output sarà l'output dell'attore.

08:14.760 --> 08:16.820
E questo è il Q valori QSA.

08:17.130 --> 08:24.570
Ma poiché i valori q sono associati alle azioni, possiamo anche chiamarli i valori di azione.

08:24.690 --> 08:25.550
Tutto ok.

08:25.710 --> 08:28.850
E poi trova un output restituito entro l'indomani.

08:28.920 --> 08:37.380
Questo è il doppio della tassa di vendita nascosta e gli stati della cella vedono X e poi andiamo abbiamo tre

08:37.620 --> 08:40.110
uscite restituite da loro tutte perfette.

08:40.110 --> 08:45.750
Quindi ora che abbiamo le predizioni, dobbiamo usare un Max morbido per fare l'azione giusta.

08:45.750 --> 08:48.560
E così ora questo sarà esattamente lo stesso di quello che abbiamo fatto prima.

08:48.600 --> 08:57.320
mettere in questo momento e quali, naturalmente, i valori reali che sono i valori q che sono gli output dell'attore nel modello.

08:57.320 --> 09:05.570
Il passo successivo è quello di ottenere le nostre probabilità in modo che possiamo chiamarle e questo è il punto

09:05.570 --> 09:12.270
in cui abbiamo usato il metodo Max abbattuto che prendiamo dal modulo funzionale che ha una

09:12.290 --> 09:19.150
ff che ha sbrottato Max e che genererà una distribuzione delle probabilità degli input che stiamo per

09:19.220 --> 09:25.070
Occasionalmente abbiamo le nostre probabilità ma, come hai notato, lavoreremo con l'entropia e insieme

09:25.130 --> 09:31.280
l'entropia non solo guiderà le probabilità ma anche le probabilità di LUGG perché l'entropia è

09:31.280 --> 09:37.280
la somma del problema di Lucke del prodotto. volte somme tutto questo moltiplicato per meno 1.

09:37.400 --> 09:46.420
E quindi abbiamo anche bisogno di ottenere il nostro amore di cui verranno generati gli stessi da LUGG soft max.

09:46.460 --> 09:51.580
che applichiamo al cubo e usiamo i quali chiamiamo i valori dell'azione.

09:51.860 --> 10:01.260
Quindi, invece di prendere una distribuzione delle probabilità, prendiamo una distribuzione delle probabilità e questo lo facciamo con LUGG soughed che bussa

10:02.500 --> 10:04.490
alla funzione Optimax per dire

10:04.500 --> 10:07.520
Va bene, ora abbiamo il problema e il blocco.

10:07.600 --> 10:11.700
E quindi siamo pronti per ottenere l'entropia e l'entropia.

10:12.250 --> 10:13.680
Qual è la formula per questo.

10:13.780 --> 10:19.830
Bene, come ho appena detto, prendiamo il prompt della fortuna che moltiplica per il prodotto.

10:20.200 --> 10:28.250
Quindi prenderemo la somma di tutto questo e per fare ciò possiamo aggiungere che qualcuno attualmente usa

10:28.250 --> 10:29.920
la strada molte volte.

10:30.230 --> 10:33.500
E come abbiamo detto moltiplichiamo questo per meno 1.

10:33.740 --> 10:37.150
Quindi è il meno della somma del prodotto.

10:37.170 --> 10:38.600
Molte volte

10:39.140 --> 10:39.750
Perfezionare.

10:39.860 --> 10:45.380
E ora stiamo andando a memorizzare questa entropia che è stata appena calcolata nella nostra lista di entropia.

10:45.650 --> 10:48.550
Eccoci, abbiamo l'ultimo calcolo dell'entropia.

10:48.590 --> 10:53.660
E quindi abbiamo bisogno di memorizzarlo nella lista delle entropie e per fare questo niente di

10:53.660 --> 10:57.450
più semplice useremo la funzione append, ovviamente perché entropies è una lista.

10:57.500 --> 11:04.790
Quindi prendiamo la nostra lista di entropie, quindi iniziamo e usiamo la funzione append per aggiungere

11:04.790 --> 11:06.550
l'entropia che viene calcolata.

11:06.560 --> 11:08.440
Va bene, adesso faremo una pausa.

11:08.450 --> 11:14.210
Faremo questo passo dopo passo nella prossima storia, svolgendo l'azione prendendo un sorteggio casuale

11:14.360 --> 11:16.740
di questa distribuzione generata di probabilità.

11:17.030 --> 11:22.310
E dopo che giocheremo l'azione otterremo il valore di questo stato e alla fine archiveremo la nostra

11:22.310 --> 11:24.310
nuova ricompensa per gli stati di transizione.

11:24.360 --> 11:29.430
E così sarà un nuovo grande passo e lo completeremo nel prossimo ostacolo.

11:29.570 --> 11:31.020
Fino ad allora I.