WEBVTT

00:00.730 --> 00:03.690
Ciao e bentornati al corso sull'intelligenza artificiale.

00:03.730 --> 00:07.440
Nella storia di oggi parliamo della finale a in una 3C.

00:07.450 --> 00:09.400
Stiamo parlando di vantaggio.

00:09.550 --> 00:10.340
Quindi eccolo.

00:10.360 --> 00:14.040
Abbiamo già parlato del critico attore e di un sincrono in precedenza.

00:14.260 --> 00:20.500
E così ha costruito un modo per quello che vedremo oggi e, con vantaggio, metteremo

00:20.500 --> 00:21.560
tutto insieme.

00:21.730 --> 00:28.750
è condivisa tra agenti agenti asincroni e quindi abbiamo il critico che è anche condiviso tra l'età e così via.

00:28.840 --> 00:33.550
Quindi questo è ciò che abbiamo fino ad ora abbiamo una rete neurale che

00:33.580 --> 00:36.490
Come funziona tutto questo e perché questo critico è condiviso tra gli agenti.

00:36.500 --> 00:37.390
Diamo un'occhiata a questo.

00:37.600 --> 00:42.250
Capisco meglio vedremo un esempio che vedremo per esempio in questo agente e vedremo cosa

00:42.280 --> 00:46.730
succede quando si trova in un determinato stato e deve decidere quale azione intraprendere.

00:46.840 --> 00:53.890
è che questa informazione entra nella rete neurale che va alla tana convoluzionale, quindi entra nella tana della piscina, quindi

00:53.980 --> 00:59.200
entra nel covo appiattito e poi da lì entra nel strati nascosti della rete neurale

00:59.200 --> 01:04.330
e quindi come output ottiene tutti questi valori di politica che valori sono la politica.

01:04.330 --> 01:09.870
Quindi questo agente è in uno stato che vede questa immagine e poi ciò che accade

01:09.970 --> 01:14.160
E anche lui ha il valore del critico.

01:14.230 --> 01:21.640
E così come sappiamo che le reti neurali per funzionare hanno bisogno di propagare determinati errori o perdite

01:21.640 --> 01:22.720
attraverso la rete.

01:22.720 --> 01:29.020
Quindi in questo modo per aggiornare i pesi, in modo che cosa aspetti o meno quali perdite dovremo affrontare

01:29.080 --> 01:29.520
qui.

01:29.590 --> 01:30.540
Bene, siamo due perdite.

01:30.540 --> 01:32.970
Abbiamo la perdita di valore e le postali.

01:32.980 --> 01:38.360
Quindi la perdita di valore è legata al valore di perdita parziale è collegato a pool e così prezioso.

01:38.400 --> 01:41.080
Ci siamo già occupati prima.

01:41.260 --> 01:48.850
Sappiamo che abbiamo dei premi e sappiamo che abbiamo un fattore di sconto, quindi in pratica questo è molto

01:48.850 --> 01:54.690
simile a quello di cui stavamo parlando nella conversione in tutorial di deep learning.

01:54.730 --> 02:03.190
Fondamentalmente la rete predice un certo valore V e allo stesso tempo possiamo stimare ciò che dovrebbe basarsi su ciò che sappiamo sull'ambiente fino a

02:03.190 --> 02:09.160
questo momento possiamo stimare quale dovrebbe essere il valore nello stato e confrontando i due possiamo calcolare

02:09.190 --> 02:13.350
il valore perdita e quindi indietro la rete di propagazione aggiorna i

02:13.360 --> 02:13.730
pesi.

02:13.870 --> 02:17.670
Ecco, questo è il coraggio per la nuova cosa qui è la perdita di politica.

02:17.770 --> 02:21.700
E quindi cos'è questa perdita di politica e come funziona.

02:21.700 --> 02:28.960
Bene, questa è la parte in cui l'intera situazione in cui il critico è condiviso tra gli

02:28.960 --> 02:32.520
attori o tra gli agenti sta per emergere.

02:32.590 --> 02:38.920
Quindi per capire la perdita di palsu abbiamo bisogno di introdurre un valore chiamato Advantage da cui il nome

02:39.340 --> 02:45.460
di questa parte della storia su questa parte del Salyut il vantaggio e il vantaggio è calcolato come

02:45.480 --> 02:47.900
Q di A meno V di s.

02:47.920 --> 02:54.550
di giocare tutta l'azione che hai scelto di giocare nello stato in cui sei nello stato S meno il valore di quello stato.

02:54.550 --> 02:57.420
Quindi in pratica il valore Q o che hai scelto

02:57.640 --> 03:00.670
Quindi questa è la differenza tra i due e quella si chiama quella.

03:00.670 --> 03:04.950
E il vantaggio è usato nel calcolo dell'impulso.

03:04.990 --> 03:10.510
Ora non entreremo nella formula del calcolo senza polso perché è piuttosto complesso che usa

03:10.710 --> 03:12.860
l'entropia o l'entropia non è necessario.

03:12.990 --> 03:17.020
Non analizzeremo questa formula, ma lo capiremo a livello intuitivo.

03:17.020 --> 03:21.470
Perché lo stiamo facendo, perché stiamo calcolando questo vantaggio e come ci aiuterà.

03:21.640 --> 03:24.190
Bene, diamo un'occhiata a questa premessa per un secondo.

03:24.190 --> 03:33.040
Il valore Q deriva da ciò che la rete neurale ha predetto per questo agente e quindi predittiva di questa specifica azione in questo

03:33.040 --> 03:37.840
specifico stato per l'azione che può svolgere in modo da avere queste azioni

03:38.110 --> 03:45.790
e può farne scorrere una e può giocarci bene mentre il valore di Wii è il valore che è dettato dal

03:45.790 --> 03:46.480
critico.

03:46.480 --> 03:52.320
È il valore che abbiamo qui in questa parte condivisa e questa è la chiave qui che questa parte è condivisa,

03:52.330 --> 03:56.310
così il critico si rompe perché è così che entra in gioco il credito.

03:56.470 --> 04:01.300
Perché abbiamo un valore che scegliamo o l'azione che scegliamo di giocare per questo agente in

04:01.300 --> 04:01.930
quello stato.

04:01.990 --> 04:09.340
Ma poi il critico può dirci qual è il valore noto di quello stato che è in generale il valore noto per questo

04:09.340 --> 04:15.790
intero gruppo di agenti che si esibiscono insieme perché la loro condivisione non risponde perché l'iniziale B perché stanno condividendo

04:15.820 --> 04:21.280
il critico stanno tutti contribuendo a questo a questi valori v che vengono calcolati per un set

04:21.280 --> 04:25.690
diverso in modo che l'intero a. l'algoritmo z dice OK.

04:25.690 --> 04:34.060
Quindi il critico conosce un valore v quanto è migliore il valore q che stai selezionando rispetto al

04:34.060 --> 04:35.290
valore v conosciuto.

04:35.350 --> 04:36.480
Questo è quello che sta dicendo.

04:36.640 --> 04:37.930
Quindi questo è fondamentalmente.

04:37.930 --> 04:45.430
In questo modo selezionerò un valore q in base alla mia politica in base all'utilizzo o meno di una funzione soft

04:45.700 --> 04:50.150
max o di una politica di Epsilon Grealy o qualcosa del genere.

04:50.170 --> 04:55.660
E naturalmente saremo fuori esplorazione e sfruttamento combinato, ma abbiamo selezionato il valore

04:55.660 --> 04:59.260
Q e ora la domanda è qual è l'extra.

04:59.290 --> 05:05.820
Che cosa rimprovera quello che è il vantaggio che l'azione selezionata porta rispetto al valore noto di quello

05:05.820 --> 05:12.480
stato e che è l'essenza del vantaggio e in fondo quindi che viene utilizzato per calcolare la perdita della

05:12.480 --> 05:17.940
politica e quindi la perdita della politica viene poi propagata attraverso di nuovo alla rete.

05:17.940 --> 05:23.910
modo che la rete possa rappresentare meglio il valore del critico e anche questa è la parte superiore.

05:23.910 --> 05:28.280
Quindi entrambi si stanno propagando attraverso una rete e i pesi vengono regolati in

05:28.410 --> 05:33.030
Ma poi anche questa parte della chiave è che il valore dei pesi è bakra.

05:33.120 --> 05:40.530
Quando gli uffici postali dimenticano che le tariffe sono aggiustate in modo tale che questo vantaggio sia massimizzato, così

05:40.590 --> 05:46.200
come questo è il lato intuitivo della comprensione intuitiva di esso che siamo tornati

05:46.350 --> 05:52.010
a usare questa politica per ultimi attraverso la rete per aiutare a massimizzare questo vantaggio

05:52.050 --> 05:57.660
E ciò significa in sostanza che quando un agente incontra azioni sbagliate come azioni in cui il

05:57.660 --> 06:00.930
valore q è inferiore al valore noto per lo stato.

06:00.930 --> 06:07.110
di X e poi all'improvviso ti sei imbattuto in un'azione molto brutta e il e tu l'hai fatto hai scelto l'azione.

06:07.110 --> 06:11.690
Quindi in pratica l'intero algoritmo ATC sa che il valore per lo stato è qualcosa

06:11.700 --> 06:17.130
E ciò che significa per l'entusiasmo è così bene perché dovremmo fare qualcosa di simile quando è

06:17.130 --> 06:21.960
peggio di quello che già sappiamo di tutto questo ambiente e cosa avrebbe potuto fare.

06:22.080 --> 06:23.500
Quindi non dovremmo fare di più.

06:23.610 --> 06:27.670
E quindi i pesi sono solo in un modo, quindi quello che succede è più raro.

06:27.690 --> 06:29.900
Quindi ciò accade meno raro.

06:30.300 --> 06:33.430
Quindi questo è un evento meno frequente che scegliamo quella cattiva azione.

06:33.510 --> 06:38.880
modo tale che l'algoritmo di atresia penserà oh bene che è davvero bello che Wantage era molto alto lì.

06:39.050 --> 06:43.220
D'altra parte se si sceglie un'azione molto buona in cui il valore q è

06:43.230 --> 06:50.780
maggiore di V o molto maggiore di quello in cui durante questa retrodatazione della perdita polacca attraverso la rete i pesi saranno aggiornati e in tal

06:50.790 --> 06:55.140
modo si rafforzerà davvero quello per incoraggiare a rassicurare che succederà di nuovo in modo

06:55.140 --> 06:56.790
che i pesi siano regolati in

06:56.880 --> 07:03.750
Dovrei fare di più e quindi aggiornerai i pesi in modo tale che sia più probabile che

07:03.750 --> 07:05.550
si verifichi in futuro quell'azione.

07:05.560 --> 07:13.080
che sapete, è come la rete si sta lentamente adattando lentamente e lentamente si costruisce in qualcosa che

07:13.080 --> 07:19.770
da una parte calcola il valore correttamente e poi dall'altra o nel modo più corretto possibile.

07:19.770 --> 07:21.990
Quindi, e questo è ciò

07:21.990 --> 07:28.330
E d'altra parte incoraggia o ha azioni che hanno un alto vantaggio.

07:28.380 --> 07:30.570
Quindi eccoci qui che è questa parte.

07:30.570 --> 07:35.930
E ora diamo un'occhiata a un altro solo per rafforzare quello che abbiamo appena discusso in alto 1.

07:36.000 --> 07:37.210
Quindi la stessa cosa qui.

07:37.350 --> 07:45.330
e quindi deve decidere cosa fare in quanto queste informazioni alle reti di questa immagine usano i regrow internet per convincere che stanno tirando

07:45.330 --> 07:50.100
il loro appiattimento Lehre va negli strati nascosti e poi da qui otteniamo un risultato

07:50.100 --> 07:56.290
otteniamo i valori acuti della politica otteniamo nuovamente i valori V la stessa cosa che abbiamo avuto due perdite.

07:56.310 --> 08:00.960
Il top agisce su una situazione in cui uno stato è in uno stato

08:00.960 --> 08:05.240
Abbiamo la perdita di valore che è qui la perdita polacca che è qui la perdita di valore.

08:05.250 --> 08:06.830
Sappiamo già come viene calcolato.

08:06.960 --> 08:10.950
Quando abbiamo discusso di questo nel profondo apprendimento di Q e discutendo solo ora.

08:10.950 --> 08:17.340
Ecco come è stato calcolato il valore e poi di nuovo la perdita della politica al fine di calcolare ciò che non

08:17.340 --> 08:18.370
avremo per lui.

08:18.390 --> 08:25.530
bene, quindi abbiamo intrapreso una certa azione, abbiamo scelto una determinata azione in base alla nostra politica di selezione, sia che si

08:25.530 --> 08:31.140
tratti di un debole Max o di un avido o qualsiasi altra politica sociale che stiamo usando.

08:31.170 --> 08:34.470
Ma a livello intuitivo stiamo calcolando quel vantaggio che va

08:34.620 --> 08:42.630
E allora qual è l'azione che abbiamo fatto Ora confrontiamola con il conosciuto e il valore dello stato che viene dai critici condivisi,

08:42.630 --> 08:47.670
quindi questo critico è un po 'come se pensassi che è un po' come osservare

08:47.670 --> 08:52.950
tutti questi agenti allo stesso tempo sta guardando a questo sguardo a questo questo stanno

08:52.950 --> 08:58.140
tutti contribuendo a criticare il critico più a velocità con l'ambiente per assicurarsi che il

08:58.380 --> 09:03.600
critico sia rappresentativo di ciò che sta accadendo nell'ambiente reale in modo che i pesi.

09:03.660 --> 09:10.170
perdita di valore in modo che i pesi della rete neurale effettiva riflettano molto bene la

09:10.260 --> 09:17.700
situazione reale delle cose nell'ambiente, in modo che possano quindi fare affidamento su questo valore e quindi utilizzarlo qui.

09:17.700 --> 09:20.090
È qui che si verifica la

09:20.090 --> 09:21.550
E così fondamentalmente.

09:21.720 --> 09:26.880
Quindi tutti questi agenti tutti questi agenti stanno contribuendo a questo critico.

09:26.880 --> 09:32.850
Ma poi allo stesso tempo attraverso questo senza valore ma allo stesso tempo il critico sta osservando

09:32.850 --> 09:35.490
le decisioni o le politiche di queste agenzie.

09:35.490 --> 09:39.960
È come guardare indietro come se stessi cercando di disegnare come una freccia ai poli una freccia

09:39.960 --> 09:40.740
e una freccia.

09:40.830 --> 09:45.780
questa posizione di vantaggio e dicendo OK hai preso una decisione, hai scelto di scegliere questa azione.

09:45.780 --> 09:50.210
Quindi, quando si guarda indietro alla decisione che stanno facendo, si sta criticando queste decisioni attraverso

09:50.220 --> 09:51.240
È fantastico.

09:51.240 --> 09:56.570
Ora calcoliamo il vantaggio o lo svantaggio del ranch è uguale a quanto sai che il valore di

09:56.590 --> 10:04.040
Q potrebbe aver preso la decisione che ho preso o la scelta che ho fatto al fatto che ho scelto di prendere meno il valore

10:04.100 --> 10:05.100
noto al critico.

10:05.110 --> 10:06.470
Non per il critico.

10:06.470 --> 10:12.010
quel valore di Q sarà inferiore in modo che, poiché la nostra politica seleziona le azioni in base ai

10:12.020 --> 10:16.580
valori di q, più alto è il valore di Q più è probabile che venga selezionato.

10:16.580 --> 10:22.010
Quindi Kalika fa la differenza se è una differenza bassa sei polacca allora quando ripulisci le tue perdite propagandate

10:22.010 --> 10:28.910
attraverso la rete il modo in cui verrà regolato incoraggerà i pesi ad essere regolati in modo tale che ciò non accada di nuovo

10:28.910 --> 10:30.560
che quel valore di Q o

10:30.560 --> 10:35.210
Quindi, se usassimo come una politica di arco massimo, selezioniamo sempre quella più alta, come ricordi di

10:35.360 --> 10:38.870
aver discusso di questo, ma selezioneremmo sempre quella con il valore più alto.

10:38.870 --> 10:43.790
Ma in realtà stavamo usando un approccio probabilistico in cui stavo usando come un soft Max o una politica avida

10:43.790 --> 10:44.420
di lusso.

10:44.540 --> 10:49.010
poi stavamo fondamentalmente selezionando dove possiamo selezionarne uno, ma più alto è il cubo, meglio è.

10:49.010 --> 10:49.220
E

10:49.220 --> 10:55.310
Quindi, se abbiamo selezionato qualcosa e quindi il vantaggio era molto basso, allora la rete bomba verrà

10:55.310 --> 11:01.970
aggiunta in modo tale che la prossima volta il valore di quella determinata azione sarà inferiore e forse qualcos'altro

11:01.970 --> 11:02.910
sarà di più.

11:02.960 --> 11:09.770
Questo è il modo in cui viene suddiviso e, d'altra parte, se selezioniamo qualcosa in cui tale vantaggio

11:09.770 --> 11:15.050
sarà elevato, allora questo entrerà nelle leggi della politica e quindi nelle reti e

11:15.060 --> 11:19.590
lo aggiorneremo in modo che sia più comunemente osservato un evento come scenario.

11:19.640 --> 11:26.300
E così fondamentalmente questa intera perdita polacca aiuta la rete ad adattarsi o metamorfosi in modo tale da farlo.

11:26.300 --> 11:31.620
Morale delle cose buone, buone azioni e cose buone e meno cose cattive.

11:31.700 --> 11:35.040
Ed è così che queste due perdite entrano in gioco ed è così che sono tornate appropriate.

11:35.120 --> 11:41.800
Quindi spero che si chiarisca in un modo molto intuitivo, naturalmente, non abbiamo inserito le formule

11:41.810 --> 11:46.930
nella complessa matematica dietro a tutto questo e come nei dettagli molto intricati.

11:47.060 --> 11:50.940
Ma allo stesso tempo, spero in modo intuitivo in modo intuitivo.

11:50.990 --> 11:58.850
Tutto questo chiarisce il motivo per cui abbiamo l'attore, il critico e il modo in cui interagiscono

11:58.850 --> 12:03.780
insieme, sapendo di avere questi agenti in modo asincrono o sincrono.

12:03.790 --> 12:08.480
Allora questo è il tuo attore e critico e questo è il vantaggio e come tutto questo entra in gioco.

12:08.480 --> 12:10.840
Quindi questi sono agenti sincroni.

12:10.850 --> 12:11.920
Stanno andando.

12:12.040 --> 12:18.740
Stanno giocando a questo o esplorando l'ambiente e lavorando attraverso l'ambiente e stanno tutti contribuendo

12:18.740 --> 12:26.720
insieme a un critico che sta osservando le loro politiche osservando gli attori che è ciò che viene

12:26.720 --> 12:27.400
chiamato.

12:27.560 --> 12:34.610
E attraverso questo punto di vista e quindi emergere questo pone una perdita e quindi la perdita di politica e

12:34.610 --> 12:38.210
valore o di ritorno si propagano solo alla rete per.

12:38.240 --> 12:43.540
Da un lato rappresentano il vero modo delle cose nell'ambiente.

12:43.580 --> 12:47.630
Un'altra mano per migliorare le prestazioni degli attori.

12:47.930 --> 12:48.410
Quindi eccoci.

12:48.410 --> 12:52.800
Questo è un breve riepilogo dell'intuizione che abbiamo discusso.

12:52.790 --> 12:58.550
Ancora una volta, si spera che tutto questo si riunisca a un livello intuitivo e, naturalmente, nei

12:58.550 --> 13:04.880
tutorial pratici. Parleremo di più di come tutto questo funziona ad Atlanta, vi guideremo attraverso questo processo di proprietari

13:04.880 --> 13:05.560
di edifici.

13:05.570 --> 13:11.240
immagine nella tua mente e questo come un po 'come una tabella di marcia di tutto ciò che

13:11.240 --> 13:17.240
viene insieme andrà bene dovrebbe essere spero ti sarà molto utile per farti navigare meglio sul lato pratico delle cose.

13:17.240 --> 13:18.160
Ma avere questa

13:18.290 --> 13:25.710
E in termini di letture aggiuntive per oggi abbiamo due elementi, quindi il primo è in vantaggio.

13:25.760 --> 13:32.480
Quindi qui abbiamo un alto controllo continuo demenziale usando la stima del vantaggio generalizzato di John

13:32.480 --> 13:38.930
Shulman e questa è l'immagine di una figura stilizzata che si alza come in piedi.

13:38.930 --> 13:44.030
E qui puoi trovare ancora di più su vantaggi e vantaggi e troverai tutti i diversi

13:44.030 --> 13:44.960
tipi di vantaggi.

13:44.990 --> 13:50.870
su come funziona esattamente le formule dietro di esso e alcuni dei gli elementi superiori

13:51.110 --> 13:56.360
in alto o le formule e senza buchi nello spazio di questo vantaggio.

13:56.360 --> 14:05.330
Hai il vantaggio generale nella stima e hai dei vantaggi che utilizzi effettivamente nei moduli nei calcoli, quindi se vuoi saperne di

14:05.330 --> 14:06.810
più sul vantaggio e

14:06.830 --> 14:08.700
Ne abbiamo discusso.

14:08.720 --> 14:10.140
Questo è l'articolo a cui andare.

14:10.490 --> 14:19.880
E ancora un altro elemento o pezzo di lavoro che volevamo ricordarvi è il blog di una serie di post sul blog di

14:19.990 --> 14:24.350
Arthur Giuliani di cui abbiamo già parlato un paio di volte.

14:24.350 --> 14:28.010
Questa è la parte otto che riguarda specificamente A-3 sea.

14:28.280 --> 14:33.280
Quindi qui puoi ottenere una spiegazione più approfondita.

14:33.650 --> 14:38.900
Quindi con un po 'più di matematica su quello che sta succedendo e tu forse puoi raccogliere alcune cose aggiuntive

14:38.900 --> 14:39.420
da qui.

14:39.440 --> 14:45.470
Solo due cose da tenere a mente prima di tutto come sempre questo blog è follower più intensi che usiamo

14:45.470 --> 14:46.130
più torcia.

14:46.130 --> 14:46.840
Quindi tienilo a mente.

14:46.840 --> 14:53.330
E la seconda cosa è che il modo in cui abbiamo strutturato il nostro approccio è che abbiamo parlato di critico attivo,

14:53.960 --> 14:55.730
quindi abbiamo parlato di un sincrono.

14:55.730 --> 15:03.040
Arthur su un Synchronoss un critico dell'attore è un vantaggio quindi tienilo a mente, quindi spero che non ti scoraggi.

15:03.050 --> 15:07.260
E poi abbiamo parlato di vantaggio, mentre nei primi discorsi di Arthur

15:07.340 --> 15:10.480
Ma a parte questo ovviamente è un grande contenuto.

15:10.490 --> 15:14.510
E consigliamo vivamente di verificarlo per ulteriori informazioni.

15:14.780 --> 15:16.840
Così ci godiamo il tutorial di oggi.

15:16.880 --> 15:18.710
E non vedo l'ora di vederti la prossima volta.

15:18.710 --> 15:20.240
Fino ad allora divertiti.

15:20.260 --> 15:20.520
IO.