WEBVTT

00:00.450 --> 00:02.520
Ciao e benvenuto in questo tutorial.

00:02.520 --> 00:06.140
Bene, ora abbiamo la nostra IA, è pronta per essere addestrata.

00:06.330 --> 00:09.660
E il primo passo della formazione è impostare il replay dell'esperienza.

00:09.900 --> 00:11.330
Quindi ci stiamo lentamente arrivando.

00:11.340 --> 00:16.690
La formazione e la buona notizia è che abbiamo una versione implementata della riproduzione dell'esperienza.

00:16.830 --> 00:23.490
Inoltre si adatta alla traccia di eleggibilità che io ricordo è una tecnica che invece di imparare

00:23.490 --> 00:27.160
i valori q ogni transizione impara ogni 10 transizioni.

00:27.210 --> 00:29.460
Quindi in pratica è esattamente lo stesso di prima.

00:29.490 --> 00:35.190
Ma invece di avere un singolo bersaglio una singola parola per ogni passo avremo un obiettivo cumulativo

00:35.190 --> 00:40.770
di dieci passi e una ricompensa cumulativa di 10 passi e impareremo sui 10 passi ogni volta.

00:40.980 --> 00:44.960
Quindi stiamo imparando sulle transizioni 10 passi invece di uno come prima.

00:45.180 --> 00:50.440
E con questo farò miracoli e questo farà alcune meraviglie per il processo di allenamento.

00:50.440 --> 00:52.570
Sai che l'allenamento richiederà molto meno tempo.

00:52.620 --> 00:58.850
Grazie a questa tecnica, ma dobbiamo specificare la ripetizione dell'inesperienza che stiamo imparando ogni 10 passi.

00:58.980 --> 01:04.230
Ecco perché questa ripetizione dell'esperienza non è una classica implementazione del replay dell'esperienza.

01:04.320 --> 01:06.160
Come fare uno per l'auto che guida.

01:06.210 --> 01:12.540
Si tratta di un'implementazione di replay dell'esperienza che tiene conto di questo apprendimento in 10 passi e quindi

01:12.540 --> 01:19.110
in questo file di replay dell'esperienza si trovano due classi una classe che fa progredire la tua IA facendo

01:19.110 --> 01:23.460
dieci passi in modo che possa riassumere i premi in questi 10 passi.

01:23.460 --> 01:28.430
Questa è la prima lezione e abbiamo bisogno di questa classe perché dobbiamo includere questi 10 passaggi nella

01:28.430 --> 01:33.570
classe di memoria di replay che è l'implementazione della classe per l'esperienza che giochiamo ed è così che

01:33.630 --> 01:38.020
ci assicuriamo che la memoria tenga anche conto del fatto che siamo imparare su 10 passi.

01:38.040 --> 01:42.660
Ecco perché troverai due classi in questa implementazione della riproduzione dell'esperienza, ma questo

01:42.660 --> 01:49.070
è solo per tenere conto che stiamo imparando in 10 passaggi e che dobbiamo tenerne conto anche nella memoria.

01:49.410 --> 01:51.940
Quindi, parlando della nostra memoria, creiamolo.

01:51.970 --> 02:00.150
Chiameremo la nostra memoria di memoria e la memoria sarà un oggetto del cast della memoria di replay e la classe di memoria

02:00.570 --> 02:04.900
di replay è una classe di questo replay dell'esperienza in questo momento.

02:05.070 --> 02:14.430
E così prendo per primo questa esperienza di replay dell'esperienza vissuta ed è qui che prendo la classe di memoria

02:15.180 --> 02:15.880
di replay.

02:15.960 --> 02:16.840
Perfezionare.

02:16.890 --> 02:23.460
E ora puoi vedere che dobbiamo mettere due argomenti il ​​primo argomento e passi che corrispondono esattamente

02:23.640 --> 02:27.540
al numero di passi su cui impareremo i valori chiave.

02:27.540 --> 02:32.090
Quindi conosci il numero di passaggi su cui accumuliamo l'obiettivo e vogliamo.

02:32.180 --> 02:37.290
Avremo un obiettivo cumulativo e la ricompensa cumulativa e quindi il secondo argomento è la

02:37.290 --> 02:39.840
capacità che è la dimensione della memoria.

02:39.840 --> 02:42.650
Quindi per esempio qui possiamo vedere decine di migliaia.

02:42.810 --> 02:48.270
Quindi se la capacità è uguale a 10000 significa che avremo una dimensione

02:48.270 --> 02:54.210
di 10000 e quindi ciò significa che otterremo una memoria dei 10000 passaggi eseguiti dall'occhio.

02:54.390 --> 02:57.390
Ma ancora non impareremo ogni transizione.

02:57.390 --> 03:02.690
della memoria e questa è esattamente questa nuova funzione che presentiamo qui rispetto a prima.

03:02.700 --> 03:06.100
Impareremo ogni dieci passi lungo questi ultimi 10000 passi

03:06.180 --> 03:12.480
Prima avevamo solo questo trucco della memoria di riproduzione e qui abbiamo questo trucco della memoria di replay più

03:12.570 --> 03:16.920
questo trucco che ho imparato ogni dieci passi e impareremo ogni dieci passi

03:16.920 --> 03:20.000
e lo faremo nella memoria composta dal ultimi 10000 passi.

03:20.190 --> 03:27.810
E questo è un replay esperto combinato a tratti di ineleggibilità con 10 passaggi che miglioreranno considerevolmente

03:27.810 --> 03:29.240
le prestazioni dell'allenamento.

03:29.490 --> 03:31.130
Quindi finiamo con questi due argomenti.

03:31.200 --> 03:35.900
Il primo è e passi e sarà uguale a.

03:36.030 --> 03:43.180
Ma per ora diciamo e i passaggi specificheranno quale passo è giusto dopo che sarà effettivamente un abietto dell'altra classe di

03:43.360 --> 03:49.130
questo file di replay dell'esperienza che è la classe di progresso del passo finale e che permette

03:49.140 --> 03:52.170
di fare progressi nel corso di dieci passi.

03:52.170 --> 03:57.990
E ricorda durante i 10 passi suoneremo le parole sui dieci passi per ottenere i premi

03:58.050 --> 03:59.550
cumulativi su 10 passi.

03:59.550 --> 04:02.250
E questo è esattamente il test di idoneità.

04:02.250 --> 04:09.350
Quindi, ora quello che dobbiamo fare è creare qui questa procedura e la creiamo con la seconda classe che abbiamo

04:09.360 --> 04:13.040
in questo file di replay dell'esperienza, che è un passo avanti.

04:13.160 --> 04:24.430
Quindi ora creeremo dei passaggi e questo sarà un oggetto della classe di progresso del

04:24.430 --> 04:30.650
passaggio che riprenderemo dalla nostra esperienza che giochiamo.

04:30.940 --> 04:31.720
Eccoci.

04:31.840 --> 04:37.160
Quindi questa è la classe anti-progresso e ora dobbiamo mettere tre argomenti, come potete vedere,

04:37.180 --> 04:41.010
dobbiamo mettere l'ambiente che è l'ambiente qui che abbiamo importato.

04:41.230 --> 04:47.680
Quindi il secondo argomento è la nostra intelligenza artificiale e questa sarà, naturalmente, l'intelligenza artificiale che

04:47.830 --> 04:55.550
abbiamo costruito proprio qui nella U. S. e l'ultimo argomento è un passo in questo, dove è specificato

04:55.570 --> 04:59.120
che vogliamo 10 passi che conosci per imparare ogni 10 passi che è ogni 10 transizioni.

04:59.200 --> 05:01.140
Quindi aiutiamo con questi argomenti.

05:01.180 --> 05:06.920
Il primo è l'ambiente e questo è destino e tutto ok.

05:06.940 --> 05:11.700
Quindi la seconda è la nostra AI AI e che abbiamo contato ai ai.

05:11.830 --> 05:12.720
Questo è quello qui.

05:12.760 --> 05:17.590
Quindi questo è solo il nome dell'argomento del passaggio progress classe e questo ai ai.

05:17.590 --> 05:19.730
Ecco i nostri ai ai.

05:19.750 --> 05:27.150
Quello che abbiamo costruito e quindi l'ultimo argomento è e stack e che è uguale a 10.

05:27.160 --> 05:27.910
Tutto ok.

05:27.910 --> 05:33.670
Quindi adesso stiamo solo prendendo in considerazione nella memoria che c'è un apprendimento su 10 passi e

05:33.670 --> 05:37.210
questo apprendimento su 10 passi è chiamato traccia di eleggibilità.

05:37.240 --> 05:39.520
Quindi stiamo davvero lavorando alle cose avanzate qui.

05:39.640 --> 05:44.160
Ma ricorda che è perché stiamo cercando di essere Dume che non è niente come fare un pezzo di torta.

05:44.290 --> 05:47.650
Quindi abbiamo bisogno di queste tecniche avanzate per farlo funzionare.

05:47.660 --> 05:48.880
Quindi ora siamo quasi pronti.

05:48.880 --> 05:55.450
e diciamo che 10000 uomini avremo una dimensione di 10000, il che significa

05:55.450 --> 06:03.730
che la memoria conterrà l'ultimo 10000 passi eseguiti dall'IA e che ci permetteranno di generarne alcuni.

06:03.730 --> 06:11.470
Prima di passare al passaggio successivo che riguarderà l'implementazione dei vassoi LGBT, l'unica cosa che dobbiamo

06:11.500 --> 06:13.810
includere è ovviamente la capacità

06:13.930 --> 06:16.020
Ricordo che era una semplice funzione.

06:16.180 --> 06:22.840
Sai che la memoria contiene 10000 transizioni ma per allenare l'occhio stiamo andando a campionare così tante serie

06:22.840 --> 06:28.360
di dieci transizioni non una rispetto a prima delle 10 transizioni questa volta e noi

06:28.360 --> 06:33.490
campioneremo questi mini lotti di 10 transizioni in memoria composta dai 10000 passi .

06:33.490 --> 06:38.770
Bene, ora suppongo di essere pronti per passare al passaggio successivo che riguarda l'implementazione della traccia

06:38.770 --> 06:39.490
di idoneità.

06:39.520 --> 06:41.680
Quindi avremo qualche avventura qui.

06:41.680 --> 06:43.690
Questa non sarà una semplice implementazione.

06:43.720 --> 06:47.830
Quindi fai una bella pausa e quando sei pronto possiamo attaccarlo.

06:47.920 --> 06:49.120
E allora allora divertiti.