WEBVTT

00:00.940 --> 00:04.150
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.150 --> 00:09.070
Va bene quindi spero che ti stia godendo il tutorial fino ad ora che abbiamo quasi finito con l'intuizione che

00:09.070 --> 00:13.390
presto molto presto arriveremo al lato pratico delle cose, abbiamo solo alcune piccole cose che dobbiamo coprire.

00:13.510 --> 00:20.320
Va bene così in precedenza abbiamo parlato di come aggiungeremo le reti neurali in questa intera equazione

00:20.350 --> 00:25.360
dell'apprendimento CULE e prendiamo ular nel passaggio successivo e trasformiamolo in apprendimento profondo.

00:25.690 --> 00:33.130
E oggi aggiungeremo una funzionalità extra importante che codificherà nel lato pratico delle cose in modo headline e ho deciso

00:33.130 --> 00:39.100
che è importante per noi coprirlo spesso nel lato dell'intuizione delle cose in modo che tu

00:39.100 --> 00:42.430
sia più preparato per quando è nel codice delle cose.

00:42.430 --> 00:47.950
Così come abbiamo discusso abbiamo la rete ci sono due parti che accadono.

00:47.950 --> 00:53.110
Prima di tutto è l'apprendimento in modo che la rete impari effettivamente con ogni nuovo stato.

00:53.270 --> 00:58.870
Aggiorna lentamente le sue attese per diventare sempre migliore e migliore nel trattare con questo ambiente.

00:58.870 --> 01:06.910
E poi c'è la recitazione all'interno dello stato quindi dopo che i valori di q sono stati contati nello stato,

01:06.970 --> 01:08.220
una volta selezionato.

01:08.230 --> 01:14.800
Quindi oggi parleremo ancora della parte relativa all'apprendimento, con una funzione interessante

01:14.800 --> 01:20.050
che aiuterà gli studenti a sviluppare questa funzione, ma

01:20.080 --> 01:29.690
parleremo di una funzione molto importante per un apprendimento approfondito e questa funzione è chiamata esperienza replay.

01:29.710 --> 01:30.030
Tutto ok.

01:30.040 --> 01:34.570
Quindi, ecco la nostra rete, quindi l'abbiamo appena copiata qui.

01:34.570 --> 01:39.000
Abbiamo perso quello che è Calcott in fondo è tornato propagatore attraverso la rete.

01:39.100 --> 01:44.770
E diamo un'occhiata a un esempio di cosa succede per capire il problema che stiamo affrontando

01:44.770 --> 01:45.670
un po 'meglio.

01:45.670 --> 01:49.120
Quindi ecco un esempio in realtà dai punteggi.

01:49.120 --> 01:54.820
Questa è una schermata ripresa esattamente da questo corso, questo è ciò che programmerai.

01:54.820 --> 02:02.170
un'auto che guida da sola attraverso questa strada e che deve imparare a percorrere questa strada.

02:02.170 --> 02:03.780
Si tratta di

02:03.820 --> 02:09.290
E così com'è quello che abbiamo discusso in precedenza. Che cos'è questo in questo stato.

02:09.320 --> 02:15.850
E ovviamente lo stato non sarà x1 x2 Lundell lo descriviamo molto più dettagliatamente in che

02:15.850 --> 02:23.650
stato si tratterà di un paio di parametri che si riferiscono all'angolo della vettura e ad alcuni parametri relativi quali

02:23.650 --> 02:26.490
sono i sensori leggere e così via.

02:26.490 --> 02:29.820
Quindi ci saranno più parametri di quello per descrivere lo stato.

02:29.830 --> 02:34.120
Tuttavia, sarà un vettore di valori che passerà attraverso una rete neurale e

02:34.120 --> 02:36.520
quindi sull'output si avranno alcuni valori ACU.

02:36.520 --> 02:39.850
Di nuovo ci sarà una differenza a seconda dell'ambiente.

02:39.850 --> 02:44.380
Possono essere un numero diverso di azioni possibili azioni.

02:44.460 --> 02:49.660
Ma per la semplicità ci limitiamo a lasciarlo solo per noi, per essere in grado di capire meglio

02:49.660 --> 02:50.830
cosa sta succedendo qui.

02:50.830 --> 02:55.710
Quindi, in questo caso, qual è la domanda?

02:55.730 --> 03:03.510
Questo introduce in questa rete neurale o più precisamente quanto spesso attiviamo questa rete neurale.

03:03.520 --> 03:05.080
Quante volte cresce questa crescita neurale.

03:05.110 --> 03:11.410
l'auto finisce in un nuovo stato così la macchina fa una mossa finisce in un nuovo stato e poi tutto va.

03:11.530 --> 03:12.650
Bene ogni volta che

03:12.670 --> 03:17.410
Tutto quel dato che tutte le informazioni dello stato passano attraverso la rete danno ad Alice gli

03:17.650 --> 03:18.200
errori calcolati.

03:18.280 --> 03:22.960
Questo errore viene calcolato in base a ciò che abbiamo discusso nelle precedenti esercitazioni.

03:22.990 --> 03:26.080
Questo viene propagato e i loro pesi vengono aggiornati.

03:26.080 --> 03:32.570
Quindi l'auto seleziona quale azione intraprendere rende quel movimento finisce in un nuovo stato nel nuovo stato.

03:32.590 --> 03:34.390
Tutto ricomincia.

03:34.450 --> 03:39.880
E così in pratica questo succede ogni volta che la macchina è dentro e hai detto bene di dare un'occhiata a questo esempio.

03:39.880 --> 03:46.240
In particolare, ho scattato la schermata perché sembra che illustrhi molto bene il problema che viene affrontato attraverso la

03:46.240 --> 03:51.430
ripetizione dell'esperienza e i replay di spesa, non solo qualcosa che usiamo in questo corso o

03:51.430 --> 03:52.730
in questo specifico problema.

03:52.810 --> 03:57.190
È qualcosa che vedrai usato dappertutto.

03:57.340 --> 04:04.480
Ancora e ancora e ancora e ancora negli algoritmi di intelligenza artificiale perché è così potente ed è

04:04.480 --> 04:05.140
così importante.

04:05.140 --> 04:11.440
Quindi guarda questa macchina questa macchina in questo problema o in questo ambiente il suo obiettivo è venire da andare da qui

04:11.440 --> 04:12.440
a qui e indietro.

04:12.440 --> 04:17.540
Il suo obiettivo è di navigare qui qui senza attraversare queste mura fatte di sabbia.

04:17.790 --> 04:24.430
E così la macchina è iniziata qui, è andata giù e la sua ricompensa si basa sul fatto che sai quanto è

04:24.430 --> 04:25.120
vicino iniziare.

04:25.120 --> 04:29.890
Quindi la macchina è passata da qui è andata giù e ha continuato ad andare avanti così come questa come questa

04:29.890 --> 04:31.490
o lungo questo muro lungo la diga.

04:31.570 --> 04:34.990
E che cosa succederà dopo sarà il turno continuerà.

04:34.990 --> 04:37.450
Bene, quello che volevamo fare è andare avanti qui.

04:37.690 --> 04:39.490
Ma pensiamoci per un secondo.

04:39.580 --> 04:44.240
Una volta raggiunto questo muro, ogni volta che avanza, avanza.

04:44.260 --> 04:48.570
Si muove in avanti si muove in avanti si sposta in avanti si sposta in avanti si sposta in avanti e così via si muove in avanti.

04:48.580 --> 04:53.320
Quindi ci potrebbe essere come dipendere dall'ambiente della struttura potrebbe essere come un centinaio di mosse

04:53.320 --> 04:54.710
qui o 50 mosse qui.

04:54.990 --> 04:59.100
Continua semplicemente ad andare avanti in avanti e non cambia nulla.

04:59.160 --> 05:03.310
In realtà non cambia molto, ma è molto più lontano da questo inizio più vicino a questa storia.

05:03.310 --> 05:04.060
È adorabile.

05:04.210 --> 05:09.990
Ma dal punto di vista dell'ambiente circostante non cambiano molte cose, è sempre lo stesso muro.

05:10.090 --> 05:15.460
Se sei seduto in macchina probabilmente hai visto la situazione mentre stai guidando in quello che

05:15.460 --> 05:21.220
stai vedendo è come se l'ambiente fosse così monotono che stai solo vedendo che la stessa cosa

05:21.220 --> 05:21.840
sta passando.

05:21.840 --> 05:26.680
Ma come immagino tu stia guidando attraverso un deserto e stai solo vedendo la stessa cosa è lo stesso

05:26.680 --> 05:29.100
suono è lo stesso suono che non sta succedendo nulla.

05:29.100 --> 05:30.340
Niente sta cambiando.

05:30.550 --> 05:36.820
E così basato, ma ogni volta mettiamo in questo stato il nuovo stato.

05:37.000 --> 05:42.010
noi mentre guidi la macchina e il tuo GPS ti mostra che sei più vicino alla tua destinazione.

05:42.010 --> 05:43.530
Sì, certo, qualcosa potrebbe cambiare per

05:43.540 --> 05:49.300
Quindi uno di questi ingressi è strano ma molti di questi ingressi, ad esempio i sensori che si

05:49.300 --> 05:55.850
trovano sulla macchina, non cambiano e quindi, dato che stai guidando lentamente in questo giorno, metti gli input da solo

05:55.850 --> 06:02.380
qui qui qui qui qui qui qui e qui qui per tutto il tempo in cui gli input sono praticamente

06:02.380 --> 06:03.220
gli stessi.

06:03.250 --> 06:11.140
Quindi, se continui a inserire gli stessi input stessi valori nel vettore o vettori molto simili nella

06:11.140 --> 06:14.240
tua rete perché non c'è varietà.

06:14.320 --> 06:16.840
La macchina imparerà molto bene.

06:16.870 --> 06:22.420
Una cosa imparerai molto bene su come guidare lungo questo muro che è alla sua destra ed è così

06:22.420 --> 06:27.970
che la rete si aggiornerà e verrà premiata e inizierà lentamente a essere premiata per guidare così bene che

06:27.970 --> 06:28.570
sarà come.

06:28.580 --> 06:33.980
OK così da qui imparerò tutto ciò che sto facendo così bene sto migliorando lo sto facendo meglio.

06:34.050 --> 06:34.420
Tutto.

06:34.480 --> 06:41.920
Avrà questa falsa percezione che in realtà sta andando molto bene anche se impara solo a guidare così come altre

06:41.920 --> 06:47.560
reti neurali si adatteranno molto bene a percorrere bene tutto questo e poi all'improvviso c'è

06:47.560 --> 06:51.100
questa curva e la macchina non funziona so cosa fare

06:51.310 --> 06:55.240
E completamente non si adatta a questa rete neurale.

06:55.420 --> 07:01.870
E anche se lo fa, in qualche modo ipoteticamente diciamo che passa un punto e poi finisce su questo

07:01.870 --> 07:02.250
muro.

07:02.260 --> 07:05.320
Stessa cosa succederà sta andando a guidare da qui qui qui.

07:05.320 --> 07:10.870
OK ora la rete neurale si sta ristrutturando per adattarsi a questo muro e poi bam questa cosa succede.

07:10.900 --> 07:15.880
E poi anche se in qualche modo viene passato che supererà questa cosa e poi la stessa cosa seguendo queste

07:15.880 --> 07:16.260
linee.

07:16.260 --> 07:23.590
in qualche modo correlati o sono in qualche modo interdipendenti e non vogliamo che l'interdipendenza influenzi la nostra rete.

07:23.590 --> 07:29.770
Quindi, in pratica, questo è un esempio molto vivido del problema che siamo quello che abbiamo

07:29.770 --> 07:36.490
perché, dal modo in cui usiamo la rete neurale aggiornandola ogni singolo stato una volta che abbiamo

07:36.880 --> 07:44.950
un sacco di cose consecutive, non devono nemmeno essere il lo stesso, ma negli ambienti è normale che gli stati consecutivi

07:44.980 --> 07:45.550
sono

07:45.550 --> 07:52.600
Non vogliamo che l'auto impari solo a guidare come una linea retta o una lunga linea curva

07:54.100 --> 08:01.750
o come qualsiasi cosa a cui pensi di poter pensare in una vita in cui un agente potrebbe essere

08:01.780 --> 08:10.570
un ambiente navigante in cui possiamo pensare di correlare o stati interdipendenti che arrivano dopo un altro che possono davvero rovinare

08:10.630 --> 08:12.130
la tua rete neurale.

08:12.190 --> 08:15.270
Se lascerai che l'agente apprenda da quello.

08:15.430 --> 08:17.600
Ed è qui che entra in gioco l'esperienza.

08:17.620 --> 08:24.850
Quello che succede nell'esperienza di riproduzione è queste esperienze così questi stati che è in uno due

08:24.850 --> 08:31.040
tre comunque molti 50 stati qui in neuro non vengono messi subito in rete.

08:31.350 --> 08:35.980
Sono in realtà salvati nella memoria dell'agente.

08:36.160 --> 08:41.440
E così, ad esempio, salva tutti questi e salva tutti questi e alcuni ad un certo punto una volta raggiunta una

08:41.590 --> 08:44.940
certa soglia che sarai in grado di codificare e Atlanta ti mostrerà come farlo.

08:45.100 --> 08:51.310
Una volta raggiunta una certa soglia, l'agente decide autonomamente che è ora di imparare.

08:51.310 --> 08:57.580
Ho questo gruppo di esperienze che ho non ho intenzione di imparare da questo e quindi

08:57.580 --> 09:04.120
selezionare casualmente una distribuzione uniforme e l'uniformità è la chiave è importante qui perché è qualcosa di

09:04.240 --> 09:06.460
cui parleremo nella prossima diapositiva.

09:06.820 --> 09:08.140
Lo prenoteremo ne parleremo.

09:08.140 --> 09:12.400
Ma ci vuole un campione uniformemente distribuito.

09:12.460 --> 09:15.660
Quindi fondamentalmente tutte le esperienze sono considerate uguali.

09:15.670 --> 09:23.410
ha ottenuto attraverso quell'azione in quello stato specifico così quattro elementi in ciascuna esperienza ne indicano uno azione stato due e ricompensa e

09:23.410 --> 09:28.060
così prende tutte quelle esperienze e poi le passa attraverso la rete e impara.

09:28.060 --> 09:33.130
Prende un campione uniformemente distribuito da quel gruppo di esperienze che ha e poi passa

09:33.130 --> 09:39.940
attraverso di loro e impara da loro in modo da non prendere tutta l'esperienza o semplicemente prende distribuire uniformemente campioni

09:40.000 --> 09:47.110
che potrebbero richiedere un paio di da una coppia da qui una coppia da qui e da essa e ogni esperienza

09:47.110 --> 09:53.470
è caratterizzata dallo stato in cui è stata compiuta l'azione che ha preso lo stato in cui è finita

09:53.470 --> 09:54.660
e la ricompensa che

09:54.660 --> 10:05.160
E in questo modo rompe lo schema di quel pregiudizio che deriva dalla natura sequenziale dell'esperienza come se dovessi metterli

10:05.160 --> 10:08.110
attraverso la rete uno dopo l'altro.

10:08.340 --> 10:11.930
Questo è l'obiettivo principale dell'esperienza che giochiamo.

10:11.930 --> 10:17.730
Questo è quello che è il problema e l'indirizzo e un altro vantaggio dell'esperienza di riproduzione è

10:17.730 --> 10:22.400
che a volte in un ambiente come questo potresti avere esperienze rare molto preziose.

10:22.410 --> 10:28.340
Quindi per esempio non lo so, diciamo guardiamo in questo angolo, questo è questo è l'angolo giusto.

10:28.440 --> 10:28.730
Destra.

10:28.740 --> 10:30.880
E uno molto acuto è nitido.

10:30.900 --> 10:35.640
Quindi verrà da qui assumendo che abbraccerà quest'angolo.

10:35.640 --> 10:40.500
Quindi, avendo gli angoli acuti a destra in questo punto, avremo qui un angolo

10:40.500 --> 10:43.410
a destra qui e un angolo a destra.

10:43.680 --> 10:46.240
Giusto quindi quando arriverà in questo modo è l'angolo giusto.

10:46.380 --> 10:48.630
E poi, quando sta tornando, qui c'è un angolo retto.

10:48.620 --> 10:53.070
Quindi, e questo non è nitido in questo modo nel negozio, quindi c'è solo un'opportunità

10:53.640 --> 10:56.770
in tutto l'ambiente per imparare da un angolo a destra.

10:56.970 --> 11:03.050
E questa è un'esperienza molto importante perché potrebbe diventare davvero brava a guidare lungo le linee rette,

11:03.060 --> 11:06.990
diventando molto brava a fare curve morbide come quelle simili ma.

11:07.170 --> 11:14.070
angolo acuto semplicemente perché semplicemente non ha molte possibilità di imparare da esso e quindi quindi imparerà tutto il resto

11:14.070 --> 11:18.070
molto velocemente ma ci vorrà molto tempo per imparare il giusto corso.

11:18.070 --> 11:20.180
E poi continuerà a incasinare questo

11:20.180 --> 11:26.010
È un esempio molto semplificato è una spiegazione molto semplificata, ma illustra il concetto

11:26.280 --> 11:30.140
che a volte sono esperienze rare che possono essere preziose.

11:30.270 --> 11:35.880
E se stai solo facendo una semplice rete neurale in cui stai mettendo i tuoi valori qui e sai

11:35.880 --> 11:40.950
che stanno attraversando e sai come se anche tu ti dimenticassi di quel problema della natura sequenziale

11:40.950 --> 11:45.690
delle esperienze e di come possono essere Thimphu, interdipendente e tutto correlato, se ne dimentica addirittura

11:45.680 --> 11:46.640
per un secondo.

11:46.800 --> 11:52.110
una volta che hai messo a frutto un'esperienza attraverso le reti, i dati ti dimenticano immediatamente, ma dimenticati di quell'esperienza.

11:52.120 --> 11:53.370
Quello che succede è che

11:53.370 --> 11:54.380
Passi a quello successivo.

11:54.420 --> 11:56.180
È così che funziona la rete neurale.

11:56.220 --> 11:59.710
Poi passerai allo stato successivo, il prossimo passo, il prossimo passo alla successiva esperienza

11:59.780 --> 12:01.170
X, che esperienza e così via.

12:01.170 --> 12:06.180
Quindi questa destra non appena passa attraverso una rete è sparita e non hai memoria di

12:06.510 --> 12:07.450
quella preziosa esperienza.

12:07.560 --> 12:14.220
tuo gruppo così quando tornerà da qui è appena possibile ha registrato questa esperienza nel suo lotto.

12:14.220 --> 12:19.920
Considerando che abbiamo sperimentato la riproduzione perché stai mettendo queste esperienze in lotti puoi

12:19.920 --> 12:25.920
organizzare il tuo bash come una finestra a rotazione, quindi ad esempio potresti avere 100

12:25.920 --> 12:27.380
lotti. Cento esperienze nel

12:27.390 --> 12:34.260
Poi, come ad un certo punto, esegue una distribuzione uniforme dal suo gruppo di esperienze e poi c'è una finestra mobile

12:34.260 --> 12:37.980
in modo da dimenticare queste esperienze ma poi mantiene queste esperienze.

12:37.980 --> 12:44.160
E poi impara da quando è qui che impara da questo batch e poi, una volta qui, dimentica

12:44.280 --> 12:45.410
fino a qui.

12:45.420 --> 12:50.550
Ma poi ha una serie di esperienze del genere quindi non imparare da queste esperienze.

12:50.730 --> 12:58.380
E in questo modo quello che stai ricevendo è che questa curva a destra potrebbe apparire diverse volte nel suo processo di apprendimento perché

12:58.380 --> 13:03.480
era in quel batch quando il batch era così lì intorno rispetto a quello che c'era

13:03.480 --> 13:08.760
nel batch qui in qui, quindi è venuto fuori in diversi lotti perché l'abash potrebbe essere

13:08.790 --> 13:11.430
aggiornato come una finestra a rotazione di esperienza.

13:11.430 --> 13:15.630
Quindi le esperienze più vecchie vengono espulse, le nuove esperienze vengono aggiunte e poi di nuovo

13:15.630 --> 13:16.290
l'esperienza acquisita.

13:16.440 --> 13:23.040
Quindi, e l'esperienza rimane nel lotto per un po 'di tempo e l'auto o l'agente può imparare da

13:23.040 --> 13:24.100
quell'esperienza più volte.

13:24.210 --> 13:27.430
Quindi questo è un altro vantaggio della ripetizione dell'esperienza.

13:27.570 --> 13:33.480
E, naturalmente, il vantaggio finale è che la ripetizione dell'esperienza ti dà l'opportunità di imparare da più

13:34.220 --> 13:39.290
esperienze rispetto a se stai imparando solo una alla volta perché hai quel batch e

13:39.300 --> 13:46.710
quindi Ed è una finestra a rotazione e quindi anche se il tuo ambiente è limitato per sperimentare la tua esperienza, l'approccio

13:46.710 --> 13:49.260
di ripetizione può aiutarti ad imparare più velocemente.

13:49.410 --> 13:55.230
E invece di ripetere semplicemente ci sono molte molte volte che puoi imparare velocemente perché non devi

13:55.230 --> 13:55.710
rifarlo.

13:55.710 --> 13:57.440
Hai salvato quelle esperienze.

13:57.810 --> 13:59.850
Quindi quelli sono i principali vantaggi dell'esperienza.

13:59.910 --> 14:01.760
Ricapitoliamo che abbiamo il.

14:01.840 --> 14:09.280
Stiamo rompendo quel modello per l'indipendenza e la correlazione delle esperienze sequenziali salviamo esperienze rare che

14:09.280 --> 14:15.640
potrebbero essere importanti, quindi possiamo imparare da loro più spesso e possiamo imparare in

14:16.090 --> 14:21.260
ambienti che possiamo imparare gli ambienti di Fosler che sono esperienza.

14:21.520 --> 14:27.310
Abbiamo una carenza di esperienze che non hanno tante esperienze passate dall'agente e ancora possiamo

14:27.310 --> 14:29.180
essere in grado di apprenderlo.

14:29.380 --> 14:32.470
Ecco cosa riproduce l'esperienza.

14:32.470 --> 14:34.530
Se desideri leggere un po 'di più di questo.

14:34.630 --> 14:41.290
C'è un articolo interessante pubblicato da Deep Mind nel 2016, chiamato replay dell'esperienza

14:41.560 --> 14:44.380
prioritaria e parla del perché.

14:44.410 --> 14:50.860
Perché stiamo usando una distribuzione uniforme per selezionare le nostre esperienze dall'esperienza Bachche, perché non troviamo un modo

14:50.860 --> 14:55.870
migliore per selezionare le nostre esperienze e dare la priorità ad alcune delle esperienze

14:55.870 --> 14:57.160
che riteniamo importanti.

14:57.220 --> 15:03.880
cosa piuttosto interessante, anche se in questo caso sarai in grado non solo di rinforzare o

15:03.880 --> 15:11.800
non solo rafforzare le tue conoscenze sulla ripetizione dell'esperienza, ma sarai in grado di muoverti con la tecnologia più avanzata.

15:11.800 --> 15:12.660
È una

15:12.660 --> 15:15.120
Quindi questo è il 2016 e pubblicato da menti profonde.

15:15.120 --> 15:21.580
È una carta molto potente molto recente, quindi sarai in grado di esplorare effettivamente i limiti o esplorare

15:21.580 --> 15:24.530
ulteriormente questo algoritmo e portarlo al livello successivo.

15:24.550 --> 15:31.270
Quindi ti lascio a te scoprire perché e come possiamo cambiare l'uniforme con un approccio diverso per provare il

15:31.270 --> 15:33.810
replay da questo foglio, se lo desideri.

15:33.940 --> 15:35.270
E spero che ti piaccia questo.

15:35.270 --> 15:41.020
cos'è veramente l'esperienza e possiamo tranquillamente usarla nei nostri circoli pratici e cerco di vederti la prossima volta.

15:41.440 --> 15:42.860
Tauriel e ora sappiamo

15:42.940 --> 15:44.550
Fino ad allora goditi l'intelligenza artificiale.