WEBVTT

00:01.160 --> 00:04.720
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.740 --> 00:07.950
Oggi parliamo della differenza temporale.

00:08.100 --> 00:14.310
Ora è molto importante provare perché la differenza temporale è il cuore e l'anima dell'algoritmo di

00:14.340 --> 00:15.100
apprendimento Q.

00:15.120 --> 00:22.410
Questo è in realtà il modo in cui tutto ciò che abbiamo imparato finora entra in gioco nell'apprendimento chiave.

00:22.410 --> 00:23.880
Quindi diamo un'occhiata.

00:23.910 --> 00:28.040
Ricorda il momento in cui abbiamo parlato della ricerca deterministica rispetto a quella non deterministica.

00:28.410 --> 00:34.960
E ricorda come abbiamo detto in questo caso che è quando l'agente vuole salire, se ne va e quando.

00:35.070 --> 00:38.740
In questo caso, vuole salire il 10% di probabilità che vada in temps e chance in basso

00:38.730 --> 00:41.390
a sinistra e vada a destra e una possibilità dell'80% andrà bene.

00:41.400 --> 00:42.390
Vai dritto.

00:42.450 --> 00:46.410
Mentre questi numeri sono ovviamente arbitrari e possono essere diversi.

00:46.410 --> 00:52.260
E l'intero concetto è che potrebbe essere diversi e diversi problemi, quindi non deve preoccuparsi del modo

00:52.320 --> 00:57.090
in cui si muove solo che c'è qualcosa di casuale fuori dal controllo dell'agente

00:57.300 --> 00:59.930
che sta accadendo all'interno di questo ambiente.

01:00.060 --> 01:07.470
che nell'esempio deterministico era molto facile calcolare i valori di Wii, anche se non necessariamente sempre molto facile.

01:07.470 --> 01:11.030
E quale effetto ha avuto, come ti ricordi,

01:11.040 --> 01:16.530
Ma nel nostro caso potremmo semplicemente calcolarli usando l'equazione di Belman e abbiamo avuto i

01:16.530 --> 01:17.120
valori esatti.

01:17.370 --> 01:24.810
E poi, come ricordi, ho menzionato molto attentamente che questi valori per l'esempio di ricerca non deterministico

01:24.810 --> 01:27.810
sono al di sopra della mia testa.

01:27.840 --> 01:29.220
Non sono Kalka, lo sappiamo.

01:29.270 --> 01:33.090
L'ultima volta che ho detto che non dobbiamo calcolarli perché è molto complesso.

01:33.090 --> 01:39.390
il computer può farcela e siamo andati avanti con questi valori che sono solo valori che ho inventato.

01:39.390 --> 01:39.600
Ma

01:39.600 --> 01:41.310
Ma hanno fatto il lavoro.

01:41.310 --> 01:43.030
Ci hanno aiutato a capire il concetto.

01:43.290 --> 01:47.790
Bene, ora torneremo un po 'su questo e capiremo cosa sta succedendo esattamente qui.

01:47.790 --> 01:55.420
Perché è molto più difficile calcolare questi valori nell'esempio non deterministico o in generale in questi

01:55.420 --> 01:59.570
problemi in questi ambienti e nell'agente che li attraversa.

01:59.580 --> 02:00.400
Perché è così.

02:00.510 --> 02:03.030
Perché può essere così difficile calcolare questi valori.

02:03.030 --> 02:09.010
Beh, quando ci pensi perché quando l'agente si muove, per esempio da qui a destra,

02:09.090 --> 02:15.270
non necessariamente si muove sempre in quel modo a volte come una possibilità che vada a

02:15.450 --> 02:22.290
vincere invece di andare dritto, quindi chiamiamoli questi sud-est nord-est così è sorta di andare ad ovest.

02:22.470 --> 02:27.360
L'agente potrebbe a volte andare al sud e per esempio da qui è una specie di nord.

02:27.360 --> 02:29.220
A volte potrebbe andare ad est.

02:29.460 --> 02:30.240
Mi dispiace.

02:30.240 --> 02:34.680
Quindi qui invece di andare ad est potrebbe a volte andare a sud e sta andando verso nord.

02:34.710 --> 02:40.200
ad est o ad ovest e qui invece di andare a nord potrebbe a volte andare verso ovest o est o ovest e così via.

02:40.200 --> 02:41.160
A volte potrebbe andare

02:41.160 --> 02:47.010
Quindi e quindi Quindi per calcolare questo valore è necessario sapere qual è questo valore ma la cosa interessante

02:47.010 --> 02:51.110
è che per calcolare questo valore è necessario sapere qual è questo valore.

02:51.120 --> 02:56.790
Quindi ci sono molte ricorsioni qui e quindi non puoi decidere di definire quali sono

02:56.790 --> 02:57.340
questi valori.

02:57.360 --> 03:01.140
E soprattutto, questa ricorsione non è deterministica.

03:01.140 --> 03:06.000
A volte capita in questo modo a volte è una sorta di salita a destra a volte invece

03:06.000 --> 03:08.250
di alzarsi e andare a sinistra a volte.

03:08.730 --> 03:09.540
Quando vuole salire.

03:09.540 --> 03:10.520
Salirà.

03:10.560 --> 03:17.460
Quindi è soggetto al caso e quindi forse molte volte l'agente passerà attraverso questo percorso e salirà su e

03:17.460 --> 03:22.050
penserai che da qui ti ascolterai sempre e il valore dello stato andrà

03:22.050 --> 03:27.370
avanti sarà buono e poi all'improvviso cadrà nella fossa e questo valore andrà giù.

03:27.620 --> 03:33.600
Pertanto, puoi vedere come ci sia una casualità stocastica a questo intero calcolo su questi

03:33.600 --> 03:35.370
valori perché sono tutti interconnessi.

03:35.370 --> 03:40.920
quella casualità in questo inerente all'ambiente perché c'è un segno di processo decisionale.

03:40.920 --> 03:42.320
In più hai

03:42.540 --> 03:47.790
Quindi è qui che tutto questo si unisce ed è qui che introdurremo

03:47.790 --> 03:52.370
il concetto della differenza temporale che consentirà all'agente di calcolare questi valori.

03:52.530 --> 03:55.560
E qui avevamo a che fare con i valori.

03:55.560 --> 03:59.390
E da allora ci siamo già spostati sui valori Q, quindi è quello che lavoreremo.

03:59.400 --> 04:01.980
Stiamo andando a guardare valori enormi.

04:02.010 --> 04:06.090
Quindi, come ricordo, questa è la nostra equazione di Belman per i valori di q.

04:06.180 --> 04:15.090
azioni immediatamente dopo aver eseguito un'azione più ottieni il massimo ottieni la gamma della somma di tutte le possibili .

04:15.090 --> 04:22.770
Quindi il valore AQ o il valore di eseguire una sorta di azione A in stato s

04:22.770 --> 04:26.720
equivale alla ricompensa che ottieni dopo aver eseguito quelle

04:26.910 --> 04:31.680
Quindi ottieni il valore atteso dello stato in cui ti troverai.

04:31.680 --> 04:37.710
Quindi, come ricordi, c'era una formula per l'equazione di Beldon e ora, per semplicità, diciamo che

04:37.710 --> 04:43.670
la riscriveremo alla vecchia maniera e in un modo in cui eravamo soliti parlare dell'equazione di

04:43.680 --> 04:45.850
Bellmen prima di sapere del sequestro.

04:45.880 --> 04:53.100
Quindi ricorda che questa era la nostra equazione di Belman nel senso di un esempio di ricerca deterministica perché qui non

04:53.100 --> 04:57.600
hai quel valore atteso che non hai lo stesso su tutte le probabilità.

04:57.750 --> 05:03.110
L'hai appena fatto come se fosse determinato che finiresti con quale stato finirai e poi

05:03.110 --> 05:05.450
dirai a Max in quello stato.

05:05.570 --> 05:12.170
E la ragione per cui stiamo riscrivendola è semplicemente l'unica ragione perché è più semplice scriverlo e

05:12.200 --> 05:14.550
sarà più facile seguire la formula.

05:14.550 --> 05:19.340
Quindi ci limiteremo a ricordare che abbiamo sostituito questa parte di questo bar.

05:19.430 --> 05:25.400
E troverai anche questa notazione in molta letteratura, quindi ti sarà più facile

05:25.400 --> 05:28.310
seguire altre fonti se stai studiando quelle.

05:28.370 --> 05:35.390
approccio probabilistico qui invece di questa notazione è solo più facile per noi operare questo e capire cosa sta succedendo.

05:35.500 --> 05:39.130
Ma ricordate che in realtà ciò che intendiamo è questo

05:39.140 --> 05:44.180
Semplicemente mi piace guardare le equazioni in modo che non siano troppo disordinate, ma ancora

05:44.180 --> 05:48.050
una volta ricordate solo che in realtà intendiamo questo approccio probabilistico qui.

05:48.290 --> 05:52.130
E così sappiamo che Tom Silis ha dato un'occhiata a quello che sta succedendo.

05:52.190 --> 06:00.350
Quindi, ecco il nostro stato in bianco del labirinto non abbiamo alcun valore di q vediamo o quando possiamo, ma lasciatelo

06:00.500 --> 06:05.510
semplicemente vuoto per ora guardiamo solo uno degli stati o una delle celle.

06:05.570 --> 06:07.280
Questo in particolare.

06:07.820 --> 06:11.240
E qui abbiamo le risposte per l'azione di salire.

06:11.240 --> 06:14.290
Abbiamo un valore q che calcoliamo.

06:14.290 --> 06:18.070
Quindi non è che non abbiamo alcun valore di q eppure ce l'abbiamo.

06:18.080 --> 06:19.930
Ma non stiamo semplicemente illustrando nulla.

06:19.930 --> 06:22.520
Stiamo solo tenendo un vuoto per la semplicità.

06:22.610 --> 06:28.570
Ma abbiamo l'età che sta camminando da un po 'di tempo e diciamo ipoteticamente che in

06:28.580 --> 06:36.560
qualche modo ha calcolato questo valore del cubo di salire o Norf da questo stato da questa specifica cella e dai valori.

06:36.560 --> 06:40.240
Q S e A e così ora quello che abbiamo.

06:40.240 --> 06:45.070
Quindi è attualmente con il suo punto frecce blu e l'agente è seduto in questa cella.

06:45.590 --> 06:48.560
E ora ha bisogno di fare una scelta dove sta andando.

06:48.590 --> 06:57.290
E conosce il valore di questa azione che va verso nord e che è q Senay e qui sto dicendo prima e il motivo

06:57.290 --> 07:01.940
è che lui è prima di prendere In realtà non ha ancora fatto

07:01.940 --> 07:10.760
nulla, quindi è ancora nella cella e prima che abbia preso l'azione il valore qui è q e SNH e ora in realtà prende

07:10.760 --> 07:11.370
l'azione.

07:11.390 --> 07:13.670
Quindi diciamo che decide che è il migliore.

07:13.670 --> 07:16.440
Prende l'azione e si sposta verso la cella.

07:16.730 --> 07:24.320
per aver preso quell'azione più la gamma il massimo di questo nuovo stato in cui è appena entrato Prime.

07:24.350 --> 07:30.650
Bene, ora quello che succede ora viene dopo così, dopo che è stato preso l'azione, possiamo

07:30.650 --> 07:35.640
misurare quale sia questo valore, calcoliamo solo questo valore il valore della ricompensa

07:35.640 --> 07:39.030
E così il massimo su tutte le possibili azioni e aspirine.

07:39.080 --> 07:44.770
E quindi quello che abbiamo qui è il valore precedente di quell'azione.

07:44.810 --> 07:47.650
E poi abbiamo calcolato questa metrica in seguito.

07:47.660 --> 07:54.860
Ma come puoi ricordare dai quattro mesi precedenti, se torniamo molto velocemente dalla precedente formula in cui abbiamo appena calcolato è effettivamente il

07:55.630 --> 08:02.180
valore che è come Q di s. un. a è calcolato.

08:02.210 --> 08:07.930
Quindi questa parte di Arite viene calcolata separatamente ma dopo che abbiamo preso provvedimenti.

08:08.330 --> 08:15.470
Quindi, anche in questo caso, prima di conoscere una Q di una S e un valore che abbiamo calcolato attraverso le nostre

08:15.470 --> 08:16.860
iterazioni, Preuss è qualcosa.

08:17.000 --> 08:19.990
Quindi un valore che è memorizzato nella nostra memoria.

08:20.000 --> 08:26.990
Quindi, proprio come un numero che conosciamo e ora, dopo che l'azione è stata eseguita, sappiamo quale ricompensa

08:27.050 --> 08:30.270
ha effettivamente ottenuto quale ricompensa l'agente abbia effettivamente ottenuto.

08:30.440 --> 08:33.320
E possiamo calcolare questo nuovo valore.

08:33.320 --> 08:39.690
Quindi in sostanza ricalcolare questo valore ma ora con nuove informazioni la nuova informazione è la

08:39.690 --> 08:41.120
ricompensa che abbiamo ottenuto.

08:41.600 --> 08:47.330
E oltre a ciò che è rimasto, ci siamo ritrovati e quale sia il massimo in tutto ciò

08:47.420 --> 08:50.540
che può essere questo nuovo valore per i dati specifici.

08:50.570 --> 08:54.480
Quindi qual è il valore di quell'essere in quello stato.

08:54.500 --> 09:02.060
Quindi, fondamentalmente la cura Vanessa-Mae, ma ha dato nuove informazioni e ora la differenza temporale è definita

09:02.150 --> 09:07.700
come tiddy di a e di questi due della differenza tra questi due.

09:07.700 --> 09:11.770
Quindi qui il primo elemento è il valore fuori terra.

09:11.780 --> 09:16.250
Quindi il tipo di Q di Esson un po 'calcolato in seguito.

09:16.550 --> 09:21.880
E il quvenzhanĂŠ precedente che avevi memorizzato nella tua memoria.

09:22.070 --> 09:24.170
E quindi la domanda è: sono diversi.

09:24.290 --> 09:26.240
Quindi idealmente dovrebbero essere uguali.

09:26.240 --> 09:31.750
Idealmente questo dovrebbe essere lo stesso semplicemente perché questa è la formula per il calcolo di questo.

09:31.790 --> 09:38.060
Ma la cosa è che questo non è qualcosa di Kalka, questo è qualcosa che abbiamo da prove empiriche qualcosa

09:38.060 --> 09:41.320
che abbiamo appena passato attraverso il labirinto molte volte e calcolare.

09:41.320 --> 09:44.330
Quindi questo è qualcosa che abbiamo inventato finora.

09:44.360 --> 09:46.820
Non è correlato all'attuale iterazione.

09:46.820 --> 09:52.070
inventato in passato molto tempo fa, ma in una delle nostre precedenti iterazioni che attraversano il labirinto.

09:52.070 --> 09:53.180
È qualcosa che abbiamo

09:53.510 --> 09:57.740
Considerando che questo è qualcosa che abbiamo calcolato solo ora e non c'è

09:57.740 --> 10:04.720
alcuna garanzia che saranno uguali o a causa della casualità che esiste nel labirinto perché questo potrebbe essere stato calcolato e visto

10:04.750 --> 10:10.260
alcuni eventi casuali di CRN sono stati attivati ​​e questo possono essere chiamati a diversi eventi casuali

10:10.300 --> 10:11.290
accadendo sono stati attivati.

10:11.740 --> 10:15.680
E così ora scriviamo i nostri eroi spostiamoli lì.

10:15.700 --> 10:16.900
Quindi come usiamo questo.

10:16.900 --> 10:20.470
La domanda è OK, quindi abbiamo questa differenza temporale.

10:20.470 --> 10:21.340
Come lo usiamo

10:21.400 --> 10:23.450
E perché si chiama la differenza temporale.

10:23.590 --> 10:28.960
Beh, la ragione è chiamata la differenza temporale è perché stai praticamente calcolando la stessa cosa

10:28.990 --> 10:33.460
che stai calcolando Q di S e A, quindi il valore Q di quell'azione.

10:33.640 --> 10:36.140
Il tuo Calcott qui e lo stai calcolando qui.

10:36.340 --> 10:38.310
Ma la differenza è tempo.

10:38.320 --> 10:44.140
Questa è la Q di S e in precedenza questa è la Q di S e A.

10:44.140 --> 10:49.090
Ora la tua nuova cura è innata e la domanda è che c'è stata una differenza.

10:49.090 --> 10:51.700
C'è stato uno spostamento tra loro in tempo.

10:52.060 --> 10:56.830
E come possiamo usarlo a nostro vantaggio se c'è stato davvero uno spostamento nel tempo.

10:57.040 --> 11:02.790
Beh, una cosa che potremmo fare è che potremmo dire, OK, tu sai la nostra Q di s. un. a non lo fa.

11:02.830 --> 11:07.490
Questo nuovo valore non è uguale alla vecchia, quindi elimineremo il vecchio o dimenticheremo il vecchio e

11:07.510 --> 11:09.610
utilizzeremo solo questo è tutto un nuovo valore.

11:09.970 --> 11:11.920
Ma non sarebbe intelligente.

11:11.950 --> 11:17.960
E la ragione è che nei nostri ambienti si possono talvolta verificare eventi casuali.

11:18.140 --> 11:25.500
E se la nostra vecchia QSA di s. un. a era qualcosa che accade costantemente come l'80% delle volte.

11:25.780 --> 11:28.750
E poi è stato rappresentato da ciò che accade l'80% delle volte.

11:28.750 --> 11:33.280
E poi questo nuovo solo quello che è successo a causa della casualità.

11:33.280 --> 11:39.610
In tal caso, elimineremo quello responsabile della maggior parte della situazione e lo sostituiremo con qualcosa

11:39.760 --> 11:43.900
che accade solo il 10 o il 20 percento delle volte.

11:43.900 --> 11:50.650
Questo non sarebbe l'approccio migliore da seguire ed è per questo che è esattamente il motivo per cui non vogliamo cambiare

11:50.650 --> 11:51.990
completamente i valori Opu.

11:52.060 --> 11:56.890
Vogliamo usarli come cambiarli un poco alla volta un poco alla volta.

11:56.890 --> 12:01.980
modo specifico, quindi stiamo andando a dire Ecco una formula che prenderemo il nostro segnale di SNH.

12:02.020 --> 12:05.080
Ed è per questo che useremo questa differenza temporale in un

12:05.560 --> 12:07.120
E lo aggiorneremo in questo modo.

12:07.120 --> 12:12.450
Prenderemo il vecchio valore della cura Senay e aggiungeremo tutte e cinque le volte

12:12.460 --> 12:13.380
la differenza temporale.

12:13.420 --> 12:15.730
Quindi Alpha starà imparando tutto bene.

12:15.730 --> 12:17.410
Questo è un nuovo parametro che stiamo introducendo.

12:17.410 --> 12:20.070
Ecco quanto velocemente l'algoritmo apprende.

12:20.080 --> 12:26.390
pratica, stiamo prendendo questa differenza e qualunque cosa sia la stiamo aggiungendo al nostro precedente serpente KJo.

12:26.480 --> 12:27.210
Quindi, in

12:27.220 --> 12:31.970
Ora questa formula probabilmente non ha alcun senso o solo guardarlo non ha senso perché hai

12:31.970 --> 12:34.040
Covisint qui e dacci un A qui.

12:34.060 --> 12:39.460
È la stessa cosa, quindi probabilmente dovremmo negarci a vicenda, ma abbiamo dovuto riscriverlo in un

12:39.460 --> 12:40.090
altro modo.

12:40.390 --> 12:44.080
Quindi ti mostrerò di nuovo quindi sto solo aggiungendo tempo a queste formule.

12:44.090 --> 12:48.070
Quindi qui qt meno uno degli anni precedenti.

12:48.070 --> 12:49.780
Q T meno 1 degli anni precedenti.

12:49.780 --> 12:56.080
Q T Il Nuovo questo dovrebbe essere un cerchio qui in cerchio anche qui, ma non importa e qui ottieni differenza

12:56.080 --> 12:56.750
alfa temporale.

12:56.810 --> 12:58.750
Allora tu la differenza temporale attuale.

12:58.750 --> 13:01.190
Quindi puoi vedere cosa stiamo facendo.

13:01.220 --> 13:04.200
OK prendiamo la nostra corrente.

13:04.240 --> 13:10.880
Q sarà uguale a tutti i precedenti Q più qualsiasi differenza temporale abbiamo trovato Times Alpha.

13:11.150 --> 13:16.330
Questa formula qui è il cuore e l'anima dell'algoritmo di apprendimento del cubo.

13:16.330 --> 13:18.250
Questo è come il cubo è o aggiorna.

13:18.280 --> 13:24.460
Ed è positivo che abbiamo già imparato quali valori di q sono ciò che è ciò che è gamma e ciò che

13:24.460 --> 13:25.300
è tutto questo.

13:25.420 --> 13:31.740
E ora tutto ciò che dobbiamo vedere è che hai un valore Q precedente Sì, va bene.

13:31.990 --> 13:37.870
E poi quello che può succedere è che quando prendi il controllo quando prendi l'azione quando

13:37.870 --> 13:42.530
l'agente agisce, saprai che riceverà una ricompensa e finirà in uno stato.

13:42.610 --> 13:46.400
E così basato su quello che può calcolare Aha.

13:46.420 --> 13:53.220
OK, quindi, qual è ciò che avrebbe ciò che avrebbe dovuto essere il valore Q di quella mossa che ho fatto.

13:53.530 --> 13:56.390
E ora questa è questa parte dell'equazione.

13:56.470 --> 14:02.870
Sottrarre il vecchio valore di Q ti fa una differenza temporale e ora devi prendere una differenza campione di

14:02.920 --> 14:05.410
tempo Alpher ed è così che ti aggiusti.

14:05.430 --> 14:06.370
Q. Hai capito che è quello che intendi.

14:06.370 --> 14:10.240
Penso solo che tu passi e adesso solo per finire questo.

14:10.240 --> 14:14.890
Questo è un po 'come questo è sufficiente per capire cosa sta succedendo, ma solo per chiarire le

14:14.890 --> 14:18.370
cose ancora di più o forse forse confondere le cose ancora di più.

14:18.460 --> 14:23.320
Cosa dobbiamo fare per prendere questa differenza temporale o questa semplice differenza o qui un modo per collegarlo

14:23.320 --> 14:24.180
a questo formato.

14:24.190 --> 14:29.840
Quindi prendiamo tutta questa parte e la inseriamo in questa formula e finiamo con un'enorme equazione.

14:29.920 --> 14:31.490
Quindi eccoci qui.

14:31.660 --> 14:32.590
C'è la nostra equazione.

14:32.590 --> 14:38.470
Quindi questa è l'equazione completa con la differenza temporale scritta completamente.

14:38.560 --> 14:43.690
E la ragione per cui l'ho scritta, prima di tutto, probabilmente la troverai in

14:43.690 --> 14:45.560
altre pubblicazioni se la studi.

14:45.730 --> 14:50.810
E la seconda cosa è che rende alcune cose un po 'più complesse con le formule più lunghe, ma rende anche

14:50.810 --> 14:52.300
alcune cose un po' più chiare.

14:52.300 --> 14:55.940
Quindi, ad esempio, puoi vedere qui il ruolo di Alpha.

14:55.960 --> 14:58.310
Puoi vederlo meglio perché guarda questo.

14:58.320 --> 14:58.860
Qui.

14:58.900 --> 15:01.410
Q T meno uno e qui vai.

15:01.420 --> 15:03.760
Q T meno uno con un segno negativo.

15:03.760 --> 15:12.170
Quindi se inserisci Alpha è uguale a 1 se metti un 1 qui, questo annullerà questo.

15:12.190 --> 15:16.170
Quindi si distruggeranno a vicenda e tutto ciò che ti rimane è questa parte.

15:16.480 --> 15:23.080
la situazione in cui abbiamo detto Va bene, così hai un nuovo valore che avrebbe dovuto essere.

15:23.140 --> 15:24.750
E questo significa esattamente

15:24.850 --> 15:29.570
Aggiorniamo il nostro valore Q con il nuovo valore e dimentichiamo qualsiasi cosa avessimo prima.

15:29.710 --> 15:35.470
E come abbiamo discusso non è l'approccio migliore perché ci sono eventi casuali qui e vogliamo aggiornare le

15:35.470 --> 15:36.820
cose passo dopo passo.

15:37.530 --> 15:43.590
E d'altra parte se hai detto Alpher uguale a zero, quello che succede è che ti dimentichi completamente

15:43.590 --> 15:48.960
di questa parte e sei carino con quello nuovo o quello attuale sarà sempre uguale a

15:48.960 --> 15:51.720
quello precedente così sei non imparerò nulla.

15:51.720 --> 15:56.730
labirinto non ha importanza perché hai deciso su di te il valore Kuchi tanto tempo fa e continuerai a tenerlo.

15:56.730 --> 15:58.940
E questo significa che qualsiasi cosa stia accadendo nel

15:59.230 --> 16:03.200
Ecco perché Alfas non dovrebbe essere 0 o dovrebbe essere uno dovrebbe essere da qualche parte nel mezzo.

16:03.240 --> 16:09.330
E ti permetterà di imparare lentamente, passo dopo passo, permettendoti di vedere come il tuo o l'agente

16:09.360 --> 16:12.720
mentre attraversa il labirinto per ottenere la differenza temporale.

16:12.960 --> 16:19.530
E lentamente ma sicuramente questo valore otterrà aggiornamento e aggiornamento di ibed e ciò che

16:19.680 --> 16:25.440
accadrà alla fine è che a un certo punto si spera che l'algoritmo convergerà.

16:25.710 --> 16:30.960
zero e alla fine sarà semplicemente molto vicina a zero o anche a 0 0

16:30.960 --> 16:37.860
0 0 e ciò significa che ogni volta il tuo nuovo valore cutesie o il tuo nuovo valore calcolato.

16:37.860 --> 16:43.050
E ciò significa che questa differenza temporale comincerà a diventare sempre più vicina a

16:43.350 --> 16:44.430
Cosa avrebbe dovuto essere.

16:44.440 --> 16:49.950
Quindi non questo ma quello che ipoteticamente dovrebbe essere sufficiente per fare il passo sarà proprio uguale al tuo

16:49.950 --> 16:51.030
precedente valore di Q2.

16:51.030 --> 16:55.650
E poi uno che è zero e questo significa che quando la differenza di

16:56.070 --> 17:02.720
temperatura è zero significa che il tuo algoritmo è convergente e non è davvero necessario continuare ad aggiornare cosa sta succedendo.

17:02.720 --> 17:06.270
Fa questa ricerca per continuare ad aggiornare i valori del cubo.

17:06.270 --> 17:12.780
continuare a eseguire l'intera operazione, si conosce l'aggiornamento dei valori della coda se l'ambiente cambia continuamente.

17:12.810 --> 17:19.140
L'avvertenza qui è che l'unica volta, probabilmente, una delle uniche volte in cui si desidera

17:19.170 --> 17:23.100
Se non solo non è lì, ha solo alcuni randoms per eventi Kostic in esso.

17:23.220 --> 17:28.750
Ma l'ambiente stesso sta cambiando mentre il morphing sta cambiando nel tempo.

17:29.040 --> 17:34.260
Quindi devi continuamente imparare perché non è possibile per te imparare tutto e trovare

17:34.260 --> 17:39.210
la politica ottimale perché le politiche ottimali cambiano anche con l'ambiente in ogni momento.

17:39.240 --> 17:44.730
In tal caso sarà necessario continuare CALKIN e differenza temporale e calcolare i valori Q.

17:44.730 --> 17:46.830
Ma a parte questo è una specie di complicazione in più.

17:46.830 --> 17:53.370
e alla ricerca esatta di ciò che sta accadendo in quell'ambiente in modo che possa venire con la politica ottimale.

17:54.090 --> 17:59.490
Oltre a questo è così che l'aggiornamento dei valori di Q è quindi questa è la formula

17:59.490 --> 18:05.250
principale dell'algoritmo di apprendimento Q e questo è un po 'come la versione estesa di questo e ora

18:05.250 --> 18:12.870
dovrebbe essere tutto insieme e ha senso perché abbiamo l'equazione di Belman e non solo ciò che rappresenta i gewgaws ma anche come l'agente

18:12.870 --> 18:14.620
procede all'aggiornamento dei suoi valori

18:14.640 --> 18:21.570
Quindi so molto di cui occuparmi, ma spero che questo tutorial ti sia piaciuto e spero che

18:21.570 --> 18:28.680
tu riesca a rimuovere i concetti e l'intuizione sottostanti ai tuoi valori e qual è l'intera nozione

18:28.680 --> 18:36.990
di differenza temporale e perché è importante perché ci aiuta a allenare lentamente il nostro agenti e portarli a capire

18:37.050 --> 18:39.230
i loro ambienti in cui operano.

18:39.270 --> 18:45.540
E se ti piacerebbe imparare un po 'di più sulle differenze temporali, allora un foglio

18:45.540 --> 18:52.470
molto popolare sta imparando a predire con i metodi delle differenze temporali di Richard Sutton del millenovecentottantotto.

18:52.620 --> 18:57.060
Abbiamo già avuto un riferimento anche da Richard Sutton, ma questo è come un altro

18:57.060 --> 19:04.620
e in realtà ha un libro quindi se vieni a conoscere il suo stile di scrittura e il suo stile di comunicazione, dai un'occhiata anche

19:04.620 --> 19:05.660
al suo libro.

19:05.810 --> 19:08.630
È un po 'come una versione più estesa di tutte queste cose.

19:08.640 --> 19:12.820
Non ho letto il libro ma è quello che sto immaginando allo stesso tempo.

19:12.960 --> 19:19.530
al documento e si può imparare un po 'di più o probabilmente molto di più sulle differenze temporali lì.

19:19.530 --> 19:21.050
Questo andrà ad aggiungersi

19:21.300 --> 19:22.950
E spero che ti sia piaciuto anche a te.

19:23.060 --> 19:24.270
Ci vediamo la prossima volta.

19:24.270 --> 19:26.250
Fino ad allora goditi l'intelligenza artificiale.