WEBVTT

00:00.330 --> 00:02.170
Ciao e benvenuto al Statoil.

00:02.400 --> 00:06.270
OK, abbiamo calcolato l'entropia e l'abbiamo aggiunta all'elenco delle entropie.

00:06.270 --> 00:11.640
E ora quello che faremo è prendere una casuale azione in base alla distribuzione

00:11.700 --> 00:13.190
delle probabilità del prossimo.

00:13.200 --> 00:14.540
Quindi facciamolo.

00:14.540 --> 00:15.780
Questo è il prossimo passo.

00:15.870 --> 00:19.910
Siamo ancora in attesa perché stiamo ancora correndo sui passaggi qui.

00:20.160 --> 00:22.550
E così ora sai come interpretare l'azione.

00:22.590 --> 00:28.740
Introdurremo per prima cosa una variabile per l'azione chiamata azione e quindi prendiamo

00:28.740 --> 00:37.350
la nostra distribuzione delle probabilità e useremo la multi funzione neurale per prendere un progetto casuale da questa

00:37.350 --> 00:41.390
distribuzione di probabilità e poi aggiungeremo quei dati.

00:41.500 --> 00:48.550
Quindi è importante notare che l'azione sarà effettivamente un tensore con un solo valore ma non

00:48.550 --> 00:51.010
dovresti vederlo come un valore semplice.

00:51.010 --> 00:57.050
Dovresti vedere questo come un tensore di dannazione uno per uno che contiene questo valore per l'azione.

00:57.190 --> 01:02.970
E questo perché non è ancora spremuto nello stesso ciclo.

01:02.970 --> 01:09.880
Otterremo la probabilità di registro associata all'azione appena giocata.

01:10.170 --> 01:16.750
E così quando esco con la mia probabilità di fortuna qui prendendo la precedente la

01:16.810 --> 01:25.480
fortuna precedente da quella che abbiamo calcolato qui e poi userò l'altro metodo con cui inserirò 1 e l'azione che

01:25.480 --> 01:31.510
era appena giocando perché vogliamo ottenere la probabilità di fortuna associata a questa azione.

01:31.510 --> 01:38.230
E quindi il secondo argomento qui ho intenzione di mettere la mia azione, ma ci deve essere una tortura orribile,

01:38.860 --> 01:44.530
come richiesto dalla funzione raccolta e la funzione riunita solo indici con un numero intero tensoriale.

01:44.530 --> 01:48.910
Va bene così ora abbiamo solo l'aspetto associato all'azione che è stata visualizzata.

01:49.030 --> 01:53.790
E ora il prossimo passo è aggiungere quello che abbiamo qui alla lista.

01:53.800 --> 01:55.570
Quindi abbiamo ottenuto il valore.

01:55.750 --> 01:58.820
Questo è quello che abbiamo ottenuto qui come output del modello.

01:58.840 --> 02:00.880
Poi abbiamo anche avuto il problema della serratura.

02:00.910 --> 02:04.030
Quindi aggiungeremo il blocco all'elenco dei puntelli di blocco.

02:04.180 --> 02:09.610
Aggiungiamo già l'entropia all'entropia è meno buona e le ricompense lo otterranno in seguito.

02:09.700 --> 02:15.250
Quindi ora apriremo al valore e alla ricerca della lista dei valori e del processo legale.

02:15.520 --> 02:16.180
Facciamolo.

02:16.180 --> 02:23.800
la funzione di spesa e aggiungiamo il valore che è stato restituito dal modello perfetto quindi Lo stesso per

02:23.920 --> 02:32.700
i prob di blocco Abbiamo appena ottenuto i nostri nuovi oggetti di scena e lo aggiungeremo alla lista dei puntelli di blocco.

02:32.710 --> 02:36.080
Prendiamo la nostra lista di valori aggiungiamo che usiamo

02:36.180 --> 02:43.960
E così in questa funzione append possiamo creare un log dalla nostra fortuna, probabilmente è stato appena calcolato qui.

02:43.960 --> 02:47.320
Va bene, quindi le nostre liste sono ora ben aggiornate.

02:47.350 --> 02:53.060
Ora quello che faremo è giocare l'azione perché in realtà proprio qui abbiamo selezionato l'azione

02:53.060 --> 02:56.570
prendendo un sorteggio casuale dalla distribuzione delle probabilità qui.

02:56.650 --> 03:03.040
Ma in realtà non l'abbiamo ancora suonato e lo suoneremo ora in modo da poter raggiungere il nuovo stato

03:03.220 --> 03:06.150
e quindi ottenere la nuova transizione e giocarci.

03:06.170 --> 03:10.960
perché giochiamo all'azione nel nostro ambiente, quindi useremo il metodo passo.

03:10.960 --> 03:12.990
Prenderemo il nostro ambiente

03:13.210 --> 03:20.650
E all'interno specifichiamo l'azione che è stata selezionata per giocarci e per fare questo prendiamo la nostra azione e aggiungiamo

03:20.650 --> 03:25.280
quella non perché è quello che ci si aspetta che sia la funzione.

03:25.750 --> 03:35.820
Ok, ma questo restituisce in realtà il nuovo stato e anche la nuova ricompensa perché raggiungendo il nuovo stato otteniamo una nuova ricompensa

03:36.000 --> 03:43.500
e inoltre otteniamo un nuovo valore per Dunn per sapere se il gioco è finito o meno.

03:43.500 --> 03:49.180
Va bene così con questo giochiamo all'azione raggiungiamo un nuovo stato e otteniamo una ricompensa e sappiamo se abbiamo

03:49.200 --> 03:50.510
finito con il gioco.

03:50.520 --> 03:52.740
E a proposito di essere finito con il gioco.

03:52.990 --> 03:58.590
Bene, aggiungeremo qui qualcosa che assicurerà che un agente non sia impilato in qualche

03:58.590 --> 03:59.180
stato.

03:59.280 --> 04:04.240
E per farlo aggiorneremo ciò molto bene nel modo seguente.

04:04.860 --> 04:11.910
Beh, sarà uguale a fare o aggiungeremo una condizione dicendo che l'episodio del gioco non

04:11.910 --> 04:19.200
dovrebbe durare troppo tempo e vedremo nella funzione principale che ci sarà un parametro di lunghezza

04:19.200 --> 04:21.960
massima che sarà uguale a 10000.

04:22.170 --> 04:25.750
E non vogliamo che un episodio duri più di 10000 unità.

04:25.860 --> 04:34.200
condizione più grande dell'episodio massimo di Lex che non abbiamo effettivamente detto a lungo.

04:34.830 --> 04:43.250
Quindi sentiremo la durata dell'episodio che è la durata di un episodio e scriveremo una

04:43.250 --> 04:49.210
Stiamo ottenendo dai nostri parametri per un finale qui Paramjit ma Ramstad.

04:49.210 --> 04:50.600
Max è lungo.

04:50.600 --> 04:59.330
Questo significa che se il gioco è finito o la durata dell'episodio è maggiore della lunghezza massima del set di

04:59.330 --> 05:02.110
episodi che sarà pari a 10000.

05:02.270 --> 05:05.410
Bene il gioco sarà fatto e inizieremo una nuova partita.

05:05.960 --> 05:08.040
OK, questa è solo una precauzione.

05:08.180 --> 05:14.360
di precauzione aggiungeremo un'altra precauzione per bloccare la ricompensa tra meno 1 e più 1.

05:14.360 --> 05:15.400
E a proposito

05:15.470 --> 05:20.450
Abbiamo già ottenuto la nostra presenza, ma vogliamo assicurarci che la ricompensa sia tra meno 1 e

05:20.450 --> 05:20.960
più 1.

05:21.140 --> 05:27.740
E per fare ciò abbiamo semplicemente bisogno di aggiornare la ricompensa facendo questo prendendo il massimo quindi

05:28.240 --> 05:31.060
prendendo gli uomini di ricompensa e 1.

05:31.190 --> 05:37.790
E qui prendiamo il massimo del minimo di ricompensa e 1 e meno 1 e questo assicurerà che la

05:37.790 --> 05:40.040
ricompensa sia tra meno uno più uno.

05:40.160 --> 05:40.910
Tutto ok.

05:40.910 --> 05:42.180
Quindi un'altra percussione.

05:42.380 --> 05:49.070
E ora vogliamo solo controllare se il gioco è pronto, nel qual caso riavvieremo l'ambiente.

05:49.220 --> 05:53.010
E perché dobbiamo verificare che ora è perché abbiamo appena raggiunto un nuovo stato.

05:53.090 --> 05:54.880
Abbiamo appena passato una nuova transizione.

05:54.890 --> 05:58.010
Quindi dobbiamo controllare che dopo aver superato questa nuova transizione.

05:58.130 --> 06:06.860
Bene, il gioco non è fatto, quindi se fatto di nuovo se fatto, allora

06:07.250 --> 06:14.180
in quel caso riavvieremo gli ambienti impostando la durata dell'episodio su zero.

06:14.330 --> 06:21.800
per re-inizializzare mentre prendiamo il nostro ambiente e usiamo la funzione di reset OK.

06:21.800 --> 06:25.270
E anche lo stato verrà reinizializzato

06:25.310 --> 06:29.040
Ora usciamo da questa condizione che stava solo controllando.

06:29.230 --> 06:34.640
E ora quello che faremo è che abbiamo raggiunto un nuovo stato mentre questo nuovo stato è in

06:34.640 --> 06:40.410
questo momento da Ray, perché ricorda che gli stati sono le immagini di input che originariamente sono nominate dagli array.

06:40.570 --> 06:44.430
E quindi ora quello che dobbiamo fare è convertire il nuovo stato in una risposta torturata.

06:44.600 --> 06:50.410
Quindi aggiorneremo il nostro stato e useremo la libreria torcia.

06:50.630 --> 07:00.880
E naturalmente la funzione non-Thai per convertire questo non pagatore indica le immagini di input in un sensore

07:00.890 --> 07:01.800
di torcia.

07:02.150 --> 07:03.150
Perfezionare.

07:03.260 --> 07:08.620
E ora l'ultima cosa che dobbiamo fare prima di uscire da questo ciclo for che è il

07:08.810 --> 07:13.030
ciclo sui nostri passi Bene è ovviamente spendere la ricompensa per la Watchlist.

07:13.040 --> 07:18.310
Questa è l'ultima cosa che deve essere aggiornata, abbiamo aggiornato tutti gli elenchi qui tranne la ricompensa.

07:18.320 --> 07:24.830
Quindi lo faremo proprio ora prendiamo i nostri premi e usiamo la funzione del cervello

07:24.830 --> 07:28.110
per aggiungere l'ultima parola appena ricevuta perfetta.

07:28.220 --> 07:36.110
E appena prima di uscire dal ciclo for, dobbiamo solo fare un ultimo controllo per verificare che, se è

07:37.340 --> 07:39.490
fatto, vogliamo interrompere la scadenza.

07:39.530 --> 07:42.550
E quindi stiamo semplicemente aggiungendo qui una pausa.

07:42.560 --> 07:48.590
Significa che se è fatto fermiamo l'esplorazione e passiamo direttamente al prossimo passo

07:48.590 --> 07:56.930
che sarà l'aggiornamento del modello condiviso e ora abbiamo finito con questo per ora che l'agente ha fatto

07:56.930 --> 07:57.980
la sua esplorazione.

07:58.190 --> 08:04.910
Aggiornerà il modello condiviso e ci prenderemo cura di ciò nel prossimo tutorial e quindi I.