WEBVTT

00:00.600 --> 00:02.360
Ciao e benvenuto nella storia.

00:02.520 --> 00:07.920
Ora faremo il ciclo for che calcola la perdita della politica e la perdita di valore e una

00:07.920 --> 00:13.260
volta che avremo queste due lezioni saremo in grado di usare il nostro ottimizzatore per piazzare delle sigarette

00:13.260 --> 00:14.820
nella sabbia per ridurre le perdite.

00:14.820 --> 00:15.990
Va bene così ci siamo.

00:15.990 --> 00:22.740
Iniziamo qui dal tutorial precedente che abbiamo implementato in questa sezione e ho dimenticato di

00:22.740 --> 00:24.280
rimuovere i rientri indentati.

00:24.420 --> 00:28.210
Quindi partire da qui non è in autunno.

00:28.530 --> 00:32.650
E ora stiamo iniziando un nuovo ciclo completo, quindi sto iniziando qui con quattro.

00:32.840 --> 00:38.340
E ora quello che faremo è iniziare dall'ultimo passaggio che è stato fatto durante l'esplorazione

00:38.670 --> 00:40.420
e andremo indietro nel tempo.

00:40.470 --> 00:51.250
Ecco perché sto facendo per i premi terra di gamma inversa più grandi ricompense è il minimo.

00:51.260 --> 00:57.000
E poiché ogni fase dell'esplorazione è associata a dove lavoriamo perché ad ogni passo otteniamo una ricompensa

00:57.230 --> 00:58.400
quando poi le parole.

00:58.400 --> 01:05.090
Questo numero di passi e questo contrario qui è usato in modo che possiamo tornare indietro nel tempo così che andiamo.

01:05.160 --> 01:10.890
quello che faremo è aggiornare la ricompensa cumulativa che è lontana e la aggiorneremo in questo modo.

01:10.890 --> 01:11.570
E ora

01:11.640 --> 01:14.110
Questo è in realtà lo stesso di quello che abbiamo fatto per Doom.

01:14.170 --> 01:23.280
È uguale alla gamma che otteniamo dai nostri parametri e dai primi programmi che non durano molto più

01:24.060 --> 01:31.290
la ricompensa di ciò che possiamo ottenere prendendo la ricompensa minima e prendendo l'indice.

01:31.500 --> 01:36.680
Quindi per noi questo sarà il lavoro dell'ultimo e poi sarà la ricompensa del giorno precedente e così via.

01:37.080 --> 01:43.320
e ogni volta che aggiorniamo il nostro moltiplicando per gamma e quindi aggiungendo questa ricompensa sul set.

01:43.650 --> 01:47.090
E così facendo, ricorderemo che ci arriveremo alla fine.

01:47.210 --> 01:53.070
nostra ricompensa per la comunità che sarà alla fine del ciclo fino al nostro zero.

01:53.070 --> 01:55.910
Quindi scriverò come verranno e otterremo la

01:56.060 --> 02:02.100
La ricompensa del punto zero più i tempi gamma sono uno.

02:02.290 --> 02:09.040
Siamo stati i primi a superare i tempi della gamma.

02:09.060 --> 02:21.960
Il secondo passo più quello più gamma alla potenza e meno una volta la ricompensa ottenuta al punto e meno 1 dove un

02:22.800 --> 02:30.690
numero qualsiasi di passi ma poi attenzione alla fine avremo gamma alla potenza del

02:31.050 --> 02:32.250
numero di passi.

02:33.530 --> 02:40.110
I tempi svalutano il valore della funzione applicata all'ultimo stato.

02:40.150 --> 02:42.450
Questo è quello che dovremmo ancora ottenere.

02:42.680 --> 02:49.130
E questo lo otterremo perché ricordate qui che abbiamo ottenuto questo valore e l'ultimo passo perché questo è stato fatto

02:49.130 --> 02:50.840
alla fine di questo ciclo.

02:51.200 --> 02:56.140
E così abbiamo ottenuto il valore e abbiamo impostato il nostro per essere uguale a quel valore.

02:56.420 --> 03:02.710
Quindi adesso sono all'inizio del secondo ciclo completo qui sarà uguale a questo valore dell'ultima

03:02.710 --> 03:03.310
data.

03:03.590 --> 03:10.300
Ma poi facendo questo è ciò che otterremo alla fine sono uguali o zero per cento o un campo da tennis

03:10.520 --> 03:16.620
o due più può aggiungere la potenza e meno una volta che eravamo al passo e meno uno più

03:16.620 --> 03:20.990
il gioco alla potenza del numero di passaggi volte questo valore delle durate.

03:21.020 --> 03:25.900
Quindi questa è la cosa principale da capire e questa può essere l'azione della ricompensa cumulativa.

03:26.090 --> 03:33.560
Ed è per questo che è importante partire da esso inizializzando o con il qui e facendo questo

03:33.820 --> 03:37.390
ciclo inverso per ottenere questa equazione finale perfetta.

03:37.400 --> 03:43.430
E ora ora che abbiamo il giusto valore per la ricompensa cumulativa Bene calcoleremo il vantaggio e

03:43.850 --> 03:49.110
il vantaggio qui è solo il vantaggio di ottenere questa ricompensa rispetto a loro.

03:49.160 --> 03:56.600
Quindi introdurrò un vantaggio evolutivo e quindi sarà uguale a questa ricompensa cumulativa meno

03:57.020 --> 04:01.390
il valore della funzione V ottenuta nello stage.

04:01.610 --> 04:06.690
Quindi, questo è il nostro valore negativo.

04:07.130 --> 04:07.740
Perfezionare.

04:07.760 --> 04:13.160
E ora che abbiamo la comunità che lavoriamo e il vantaggio allora possiamo ottenere la perdita di valore.

04:13.190 --> 04:15.170
Questo è il primo che possiamo ottenere ora.

04:15.200 --> 04:20.940
Quindi faremo in modo che il nostro valore funzioni molto bene e questo verrà aggiornato nel modo seguente.

04:20.960 --> 04:24.530
Ricorda fino ad ora che il nostro svalutato è stato inizializzato a zero.

04:24.800 --> 04:34.670
E quindi prenderemo di nuovo la perdita di valore e a 0. 5 volte il quadrato per il vantaggio in modo che possiamo ottenere in

04:34.670 --> 04:35.480
questo modo.

04:35.490 --> 04:39.410
Vantaggio pensato anche.

04:39.470 --> 04:46.460
Quindi questo significa semplicemente quadrare il vantaggio della potenza e questo è esattamente il valore più

04:46.580 --> 04:52.830
la perdita generata dalle previsioni del valore degli output della funzione da parte del torrente.

04:53.120 --> 04:59.840
E quindi ha senso che questo sia svalutato solo perché ricorda il vantaggio dell'azione nello stato s

04:59.840 --> 05:04.820
è la differenza tra il valore Q e il valore della funzione B.

05:04.880 --> 05:14.660
E così quando giochiamo l'azione ottimale Bene otteniamo lo stato stazionario con Q ottimale dell'azione ottimale di

05:14.660 --> 05:20.080
un giocatore stellare nello stato uguale al valore ottimale.

05:20.080 --> 05:22.000
Vistar dello stato s.

05:22.180 --> 05:28.390
che quando il vantaggio non è uguale a zero, allora ci sarà una differenza tra questi due.

05:28.390 --> 05:29.990
Quindi è abbastanza intuitivo capire

05:30.220 --> 05:32.930
E quindi è così che si misura l'ultimo.

05:33.370 --> 05:34.120
OK.

05:34.120 --> 05:37.410
Quindi l'ultima calcolata è stata l'ultima.

05:37.420 --> 05:39.000
Abbiamo ora un altro da fare.

05:39.010 --> 05:44.560
della politica e questo è quello che calcoleremo in questo momento e per calcolarlo dobbiamo considerare

05:44.560 --> 05:51.990
di nuovo la stima del vantaggio generalizzato perché per calcolare la perdita della politica abbiamo bisogno di una stima generalizzata del

05:52.000 --> 05:58.450
vantaggio e di ottenere i vantaggi generalizzati della nazione abbiamo bisogno prima della differenza temporale delle valvole di stadio.

05:58.540 --> 05:59.760
È la perdita

05:59.830 --> 06:06.220
Quindi abbiamo più cose da calcolare qui e inizieremo con questa differenza temporale una volta

06:06.220 --> 06:07.710
ottenuta la differenza temporale.

06:07.780 --> 06:12.850
Otterremo la stima del vantaggio generalizzato e una volta ottenuti i vantaggi generalizzati

06:13.180 --> 06:14.900
da citare otterremo le penisole.

06:14.920 --> 06:15.460
Tutto ok.

06:15.670 --> 06:28.100
Quindi iniziamo con la differenza temporale T. G. gamma di Bromstad moltiplichi il valore di questo

06:28.700 --> 06:39.200
debito più uno e aggiungiamo quei dati per accedervi meno il valore del punto I e lo stesso aggiungiamo i dati.

06:39.200 --> 06:50.260
DD è uguale alla ricompensa del passo I plus Ghana che otteniamo cose nella nostra lista di programmi in modo che la

06:50.280 --> 06:50.610
Tutto ok.

06:50.670 --> 06:53.900
Questa è la formula della differenza temporale e dei valori dello stato.

06:54.180 --> 06:59.690
E ora possiamo aggiornare la stima del vantaggio generalizzato e come è datata.

06:59.880 --> 07:10.230
Bene, prendiamo l'R-GA e lo moltiplichiamo per i tempi gamma dei parametri gamma, in modo da poter accedere anche ai nostri

07:10.230 --> 07:10.940
parametri.

07:10.950 --> 07:18.410
Quindi prendiamo programmi cella e aggiungiamo questa differenza temporale dei valori di stato.

07:18.510 --> 07:19.890
Perciò stai attento.

07:19.890 --> 07:21.280
Siamo nel giro.

07:21.450 --> 07:27.060
E ogni volta che moltiplichiamo il numero e aggiungiamo una differenza temporale.

07:27.150 --> 07:33.720
Quindi è importante capire che alla fine di questo ciclo Bene, questa stima del

07:34.170 --> 07:46.180
vantaggio generalizzato sarà uguale alla somma su tutti i passaggi dei tempi gamma in modo che la potenza di i volte la differenza temporale al

07:46.480 --> 07:50.360
passo sia così importante da mantenerla in mente.

07:50.700 --> 07:57.000
E ora che abbiamo la stima del vantaggio generalizzato e la differenza generale possiamo

07:57.000 --> 07:58.880
finalmente calcolare la politica.

07:59.070 --> 08:00.210
Quindi facciamolo.

08:00.210 --> 08:10.020
Stiamo andando ad aggiornare le nostre leggi politiche nel seguente modo prendendo per noi la vecchia politica e

08:10.230 --> 08:20.280
sottraiamo le probabilità LUGG ottenute al passo che moltiplichiamo per questa stima del vantaggio generalizzato che dobbiamo inserire in

08:20.280 --> 08:23.920
una variabile perché poi calcoleremo i gradienti

08:24.150 --> 08:33.170
Quindi deve essere collegato ai gradienti nel grafico e quindi aggiungere meno 0. 1 volte l'entropia.

08:33.170 --> 08:36.660
L'entropia ottenuta al passo in autunno.

08:37.200 --> 08:38.130
E di nuovo.

08:38.220 --> 08:39.540
Adesso stai attento.

08:39.540 --> 08:50.830
alcuni dei passaggi del prodotto luggin della politica ai tempi di passaggio alla stima del vantaggio generalizzato.

08:51.280 --> 09:03.110
Questo è l'interno del ciclo, il che significa che alla fine dell'influenza si otterrà una politica più equa

09:03.110 --> 09:04.090
meno

09:04.160 --> 09:10.710
Più questo 0. 01 volte l'entropia fa ciò che otteniamo.

09:10.720 --> 09:13.240
E ora qual è la politica dell'io

09:13.280 --> 09:19.100
Bene, queste sono le morbide probabilità di Max delle azioni e l'entropia di ciò che saprò di cosa si

09:19.100 --> 09:21.320
tratta e dove abbiamo calcolato in precedenza.

09:21.430 --> 09:22.870
E quello che intendevamo fare elencare.

09:22.940 --> 09:24.130
Quindi lo abbiamo già.

09:24.290 --> 09:29.950
Ma quest'anno sento che è la probabilità Max morbida delle azioni.

09:30.170 --> 09:32.080
E perché mettiamo un meno qui.

09:32.150 --> 09:37.220
Questo perché la fortuna della probabilità e l'entropia sono valori negativi.

09:37.220 --> 09:43.340
E poiché vogliamo minimizzare il loro valore assoluto, dobbiamo considerare quest'ultima come la probabilità di LUGG rispetto

09:43.340 --> 09:44.370
a una distanza.

09:44.370 --> 09:51.530
No, vogliamo massimizzare la probabilità dell'azione che massimizzerà il vantaggio.

09:51.530 --> 09:53.130
Questa è l'idea alla base.

09:53.210 --> 09:59.060
per quelli di voi che potrebbero chiedersi quale sia lo scopo di questa entropia efficiente.

09:59.060 --> 10:03.500
Vogliamo massimizzare la probabilità di giocare all'azione che massimizzerà il vantaggio e

10:03.650 --> 10:05.720
C'è questo fattore 0. 01 qui.

10:05.930 --> 10:13.430
Bene, lo scopo è semplicemente quello di evitare che cada troppo rapidamente in una trappola in cui abbiamo una distribuzione

10:13.430 --> 10:19.340
di probabilità con zeri per tutte le azioni tranne una che ha una probabilità di una.

10:19.550 --> 10:22.370
E se ciò dovesse accadere ciò minimizzerebbe l'entropia.

10:22.550 --> 10:29.060
Ecco perché stiamo aggiungendo queste piccole revisioni 0. 01 anni che farà aumentare l'entropia

10:29.060 --> 10:30.940
nel Grande nel senso.

10:31.020 --> 10:35.460
OK, ora la buona notizia è che la parte più difficile è fatta.

10:35.500 --> 10:41.050
Abbiamo le due perdite e quindi quello che dobbiamo fare ora e sappiamo già come farlo è quello di

10:41.050 --> 10:44.820
eseguire solo per ottenere un voto nel senso di ridurre queste due classi.

10:45.190 --> 10:51.170
E quindi quello che faremo ora è uscire da questo ciclo e prenderemo il nostro ottimizzatore.

10:51.390 --> 10:57.220
Quello che abbiamo creato separatamente ricorda che la prima cosa che dobbiamo fare è inizializzare tutti

10:57.220 --> 11:04.810
i parametri di classificazione a zero e per fare questo aggiungiamo che poi a zero e si chiama metodo grad.

11:04.810 --> 11:06.980
Va bene, allora è fatto.

11:07.000 --> 11:11.890
Ora eseguiremo la propagazione all'indietro ma daremo il doppio dell'importanza della politica

11:11.890 --> 11:15.670
rispetto al valore perso perché la politica è più piccola.

11:15.970 --> 11:28.190
Quindi per fare questo metteremo tra parentesi la politica e il punteggio più più 0. 5 perdita di valore quindi 0. 5 volte il valore per noi e aggiungiamo

11:28.970 --> 11:37.400
qui che applichiamo il metodo backward per eseguire la propagazione all'indietro e grazie a questo trucco

11:37.400 --> 11:43.880
qui con la politica meno oltre la metà del valore che abbiamo il

11:43.880 --> 11:47.460
doppio dell'importanza della politica rispetto la Vanessa.

11:47.480 --> 11:53.630
OK, useremo un altro trucco che impedisce al gradiente di prendere valori

11:53.630 --> 11:56.890
estremamente grandi e quindi di generare l'algoritmo.

11:57.020 --> 12:03.530
modulo dalla libreria torcia e poi il sottomodulo utils e ora useremo una funzione CLEP

12:04.220 --> 12:13.040
underscore grad sulla norma del punteggio e inseriremo il nostro parametri del modello con un secondo input che sarà 40.

12:13.530 --> 12:20.830
E il trucco è quello di ottenere prima la nostra libreria torcia, poi la fine e il

12:21.200 --> 12:26.560
E quel trucco fondamentalmente farà in modo che i gradienti non prendano valori estremamente

12:26.560 --> 12:28.000
grandi e generino l'algoritmo.

12:28.220 --> 12:30.770
E per quelli di voi che potrebbero chiedersi se questi 40 anni.

12:30.800 --> 12:31.640
Esattamente.

12:31.850 --> 12:37.130
Beh, questo significa solo che stiamo usando questi valori, quindi la norma del gradiente rimane

12:37.130 --> 12:42.510
tra 0 e 40 e quindi è così che impediamo al gradiente di assumere valori grandi.

12:43.000 --> 12:45.170
OK ora abbiamo quasi finito.

12:45.170 --> 12:52.550
Ricorda che all'inizio della caduta abbiamo reso questa funzione sicura condivisa di Gretz, che è quella di garantire

12:52.670 --> 12:59.450
che l'agente e il modello condiviso condividano gli stessi gradienti e per fare in modo che possiamo

12:59.450 --> 13:01.090
applicare questa funzione qui.

13:01.220 --> 13:13.310
E quindi aggiungeremo e sicuramente condivideremo i voti per assicurarsi che il modello morale e condiviso condividano gli

13:13.310 --> 13:14.690
stessi gradienti.

13:14.690 --> 13:16.670
Va bene quindi è solo una precauzione.

13:16.670 --> 13:21.620
Non sono sicuro che sia assolutamente necessario, ma sai almeno che non avremo un problema qui.

13:22.040 --> 13:22.550
Va bene.

13:22.550 --> 13:29.900
E infine l'ultima riga di codice, ovviamente, eseguiremo la fase di ottimizzazione per ridurre le perdite

13:29.900 --> 13:38.900
e tu sai come farlo, ovviamente prendiamo il nostro ottimizzatore e aggiungiamo quel passo con parentesi e poi andiamo

13:39.320 --> 13:43.300
ad allenare il nostro cervello al di sopra di.

13:43.550 --> 13:44.780
Quindi congratulazioni.

13:44.780 --> 13:47.030
Spero che questo non sia stato troppo travolgente.

13:47.060 --> 13:49.620
Non preoccuparti, fornirò il codice con tutti i commenti.

13:49.670 --> 13:53.330
Quindi se hai perso qualche dettaglio puoi dare un'occhiata ai commenti.

13:53.420 --> 13:57.260
E non ti preoccupare se non hai capito nulla di molto avanzato.

13:57.410 --> 14:04.020
Ma state certi che questa è anche la visita di ricordo più potente fatta dal creatore di pi.

14:04.100 --> 14:06.770
Quindi stiamo davvero lavorando con il meglio qui.

14:06.850 --> 14:12.560
Lo stato dell'arte quindi è del tutto normale se non hai ottenuto tutto per la prima volta,

14:12.560 --> 14:16.520
ma lavorando su di esso molte volte diventerai sicuramente sempre più comodo.

14:16.520 --> 14:19.150
Quindi ora abbiamo finito con l'allenamento.

14:19.220 --> 14:26.080
Quindi, in pratica, abbiamo fatto tutte le cose più importanti che sapete che abbiamo creato il cervello costruendo le

14:26.120 --> 14:30.610
architetture delle reti neurali con le convoluzioni LCN e gli strati completamente connessi.

14:30.620 --> 14:34.360
Abbiamo allenato la sua mente facendo questo codice del treno qui.

14:34.520 --> 14:37.190
Quindi in pratica il cuore dell'algoritmo è fatto.

14:37.310 --> 14:39.800
Hai fatto l'A3 a vedere congratulazioni.

14:39.800 --> 14:43.940
Ora abbiamo ancora un po 'di cose da fare, ma è solo per ottenere la parte divertente.

14:43.940 --> 14:52.540
Sai che abbiamo bisogno di fare questo test che abbiamo trovato che metterà alla prova gli agenti e fornirà i video

14:52.550 --> 14:54.020
e l'aereo che scoppia.

14:54.170 --> 15:00.860
Quindi sarà molto divertente vedere che non codificheremo tutte le righe di questo test che sono caduto perché, come abbiamo detto,

15:00.860 --> 15:02.720
abbiamo fatto la cosa più importante.

15:02.840 --> 15:10.310
relativi, ma ovviamente spiegherò il codice e, alla fine, avremo trovato ciò che eseguirà il codice.

15:10.310 --> 15:11.770
Tutti i 23C

15:11.890 --> 15:15.900
E dal momento in cui eseguiamo questo codice verrà generato tutto il codice.

15:16.040 --> 15:18.150
Quindi i cervelli saranno fatti.

15:18.200 --> 15:24.080
La formazione avverrà e l'occhio giocherà a nuovi giochi di breakout e otterremo tutti i video.

15:24.080 --> 15:26.480
Quindi non vedo l'ora di vederli.

15:26.550 --> 15:29.810
Vedremo se è abbastanza intelligente da prendere la palla.

15:29.990 --> 15:36.380
Così ora vedrò nel prossimo tutorial per questa interfaccia utente desktop in modo da poter testare l'intelligenza artificiale su

15:36.380 --> 15:37.250
alcuni nuovi giochi.

15:37.300 --> 15:38.980
E fino ad allora goditi l'intelligenza artificiale.