WEBVTT

00:01.060 --> 00:04.460
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.460 --> 00:07.630
Oggi parleremo dell'equazione di Belman.

00:07.630 --> 00:12.580
È un argomento abbastanza complesso e lo presenteremo in maniera graduale in

00:12.580 --> 00:17.110
tutta questa sezione del corso, quindi non passerò subito alla versione

00:17.110 --> 00:21.730
più complessa dell'equazione di Belmont, ma invece lo introdurremo lentamente per

00:21.730 --> 00:23.250
comprendere gradualmente come funziona.

00:23.410 --> 00:28.480
E spero che il tuo obiettivo con questo approccio se tu sei G. R. Entriamo subito.

00:28.690 --> 00:33.820
avremo un paio di concetti chiave con cui opereremo e questi concetti sono.

00:33.820 --> 00:34.430
Quindi

00:34.600 --> 00:41.110
S indica gli stati, quindi lo stato in cui si trova il nostro agente o qualsiasi altro stato possibile

00:41.740 --> 00:45.490
in cui può essere rappresenta un'azione che un agente può intraprendere.

00:45.490 --> 00:50.680
Quindi un agente può avere accesso a un determinato elenco di azioni e azioni sono molto

00:50.680 --> 00:53.610
importanti quando vengono esaminate in una combinazione di stati.

00:53.620 --> 00:57.880
o uno stato non ha davvero senso perché tu non so dove sei e dove

00:57.880 --> 01:01.870
potresti finire e poi avremo il nostro che sta per ricompensa e che è

01:01.870 --> 01:07.390
attraverso il reparto che l'agente ottiene per entrare in un certo stato e gamma è il fattore di sconto.

01:07.390 --> 01:13.240
Quindi quando sei in uno stato di swing e poi guardi le azioni e inizia a dare un senso a

01:13.240 --> 01:16.980
quello che sarà il risultato di quelle azioni perché vedrai un'azione da sola

01:16.990 --> 01:21.510
E parleremo del fattore di sconto in un secondo che ha senso solo ora ma stanno solo prendendo

01:21.510 --> 01:21.810
appunti.

01:21.820 --> 01:26.300
Prendi nota mentalmente che avremo questa lettera Gamelin che funzionerà più tardi.

01:26.620 --> 01:31.230
Quindi la persona dietro l'equazione del fattorino è Richard Ernest bellman.

01:31.360 --> 01:39.400
Era un matematico di volo e aveva ideato i concetti di programmazione dinamica che ora chiamiamo apprendimento

01:39.400 --> 01:43.790
di rinforzo o che ora chiamiamo equazione di Belman.

01:44.110 --> 01:45.490
Bene, questo è quello che ora chiamiamo.

01:45.490 --> 01:52.350
E nel 1953 venne fuori con questo concetto e fu allora che l'equazione di Belmont Belman venne da me.

01:52.630 --> 01:56.530
Quindi diamo un'occhiata a come funziona tutto questo.

01:56.540 --> 02:02.410
C'è il nostro bel agente nell'angolo in basso a sinistra e lui è in un labirinto e questo è

02:02.500 --> 02:08.680
un labirinto piuttosto classico in cui hai alcuni blocchi i blocchi larghi sono blocchi in cui l'agente può entrare nel

02:08.680 --> 02:13.800
blocco grigio è l'unico che è solo non accessibile dice come un muro in questo labirinto.

02:13.900 --> 02:20.150
Il verde è dove l'agente dovrebbe mirare a finire nel punto in cui vogliamo che l'agente vada, è

02:20.150 --> 02:20.910
la fine.

02:21.220 --> 02:25.050
E il rosso è buche per il fuoco o il motore cade nel pozzo del fuoco.

02:25.060 --> 02:26.660
Perderà la partita.

02:26.950 --> 02:31.330
Quindi nel campo del fuoco la ricompensa che è R è meno 1.

02:31.330 --> 02:36.330
Questo è il nostro modo di dire all'agente che non è qualcosa che vogliamo che tu faccia.

02:36.430 --> 02:41.320
Come ricordiamo nell'esempio di quando stiamo addestrando i cani, vogliamo dire loro come un cane cattivo se non sta

02:41.320 --> 02:46.030
facendo la cosa giusta che voleva fare la stessa cosa qui siamo uno dire all'agente che questo non è

02:46.030 --> 02:49.480
qualcosa che dovresti essere facendo non dovresti finire nel quadrato così ogni volta che

02:49.480 --> 02:53.300
non accade lo scoiattolo ottiene meno una ricompensa quindi sarai punito con meno una ricompensa.

02:53.530 --> 02:57.610
D'altra parte, se finisce nella Green Square, otterrà una ricompensa in più, il che significa

02:57.610 --> 02:59.330
che è quello che volevamo fare.

02:59.590 --> 03:02.470
Quindi quelli sono i due vantaggi che l'agente non può ottenere.

03:02.470 --> 03:06.210
E come apprende come operare in questo labirinto.

03:06.370 --> 03:10.750
Proprio come nell'esempio dei cani robot che hanno imparato a camminare e che lo faranno sapere che diranno

03:10.750 --> 03:12.490
solo che qui l'azione che puoi fare.

03:12.490 --> 03:18.360
Puoi andare a destra o a sinistra o giù sono quattro azioni possibili che puoi prendere e il gioco è fatto.

03:18.360 --> 03:21.430
Avere un gioco con quello vedere quello che si può venire con.

03:21.430 --> 03:26.320
Quindi l'agente potrebbe andare a destra, quindi potrebbero andare altri due a destra potrebbero tornare indietro a

03:26.320 --> 03:31.160
sinistra premendo il pulsante in modo casuale e stanno cercando di vedere cosa succede e tornano qui.

03:31.180 --> 03:34.660
Salgono salgono scendono salgono andate a destra.

03:34.660 --> 03:38.450
Quindi per ora non hanno imparato nulla, ma finora non è successo niente.

03:38.470 --> 03:41.790
Vanno a destra e poi bam finiscono nella Green Square.

03:41.830 --> 03:48.150
Quindi si rendono conto che ho appena ricevuto uno più. Quindi appena sono entrato nella Green Square hanno ottenuto una

03:48.150 --> 03:49.040
ricompensa in più.

03:49.090 --> 03:53.560
E questo fa scattare l'algoritmo per dire OK che è davvero forte.

03:53.830 --> 03:58.920
Sono ricompensato per essere finito in piazza quindi voglio finire in piazza.

03:58.930 --> 04:00.650
Quindi cosa significa questo per l'agente.

04:00.910 --> 04:04.310
Ciò significa che inizia a porre la domanda come sono arrivato a questo quadrato.

04:04.300 --> 04:10.690
Qual era lo stato precedente in cui mi trovavo e quale azione intravedo per arrivare in quadrato e

04:10.690 --> 04:14.810
poi guardo indietro e dice OK, quindi lo stato precedente era questo.

04:14.950 --> 04:17.400
Risulta essere prezioso in quello stato.

04:17.410 --> 04:19.240
Quello che scintilla della Freccia Rossa.

04:19.270 --> 04:26.230
più uno come un biscotto per un cane non appena so se sono mai stato in quello stato.

04:26.230 --> 04:33.210
Perché da quello stato sei io sono solo ad un passo dall'ottenere la ricompensa massima che posso sognare di

04:33.250 --> 04:35.150
Quel quadrato segnato con la Freccia Rossa.

04:35.200 --> 04:36.740
Tutto quello che devo fare è premere a destra.

04:37.030 --> 04:41.440
Quindi, come faccio a dirmi di ricordare che quello stato è prezioso.

04:41.440 --> 04:45.170
Beh, per me non c'è differenza in realtà come agente.

04:45.170 --> 04:50.380
Non c'è differenza nel fatto che io sia nella Green Square o nella piazza bianca proprio nel Green Square

04:50.380 --> 04:51.610
ottengo la ricompensa di uno.

04:51.610 --> 04:58.810
di 1 perché porta esattamente a premiare uno presto perché sono nella piazza bianca. So che prenderò solo un'altra azione.

04:58.810 --> 05:03.280
Quindi segnerò per me che il Y Square ha per me un valore

05:03.350 --> 05:08.180
Sarò nel Green Square e otterrò una ricompensa o uno quindi è per questo che sto per dire

05:08.180 --> 05:14.690
che il valore di questo quadrato è uguale a uno perché porta direttamente a se in qualsiasi tipo di sottrazioni non appena Intendo qui

05:14.690 --> 05:18.890
che so che il mio premio sarà uno, quindi segnerò questo quadrato come la chiamata a

05:18.890 --> 05:22.430
uno che è il valore che è il valore percepito dell'essere nello stato.

05:22.430 --> 05:24.740
Quindi l'agente sarà OK.

05:24.800 --> 05:26.930
Quindi come faccio a entrare in questo quadrato.

05:27.050 --> 05:29.990
E sai che potrebbe andare in giro di nuovo e così via.

05:29.990 --> 05:33.800
E su nella piazza di nuovo e sii come OK come sono entrato in questa piazza prima di quello.

05:33.800 --> 05:36.860
E il modo in cui sono entrato in questa piazza è stato da questa piazza.

05:36.860 --> 05:37.530
Interessante.

05:37.550 --> 05:42.980
OK, non appena arrivo in questa piazza, so che tutto quello che devo fare è andare bene.

05:42.980 --> 05:45.640
E poi da qui so già che vincerò.

05:45.650 --> 05:49.970
So esattamente come si risolverà tutto da qui e so che il valore di essere in questo stato

05:49.970 --> 05:50.970
è uguale a uno.

05:51.020 --> 05:58.340
andando a un valore percepito. Ho un grande valore di essere qui come un veicolo per volere anche perché questo è intendo qui lo so.

05:58.340 --> 06:03.920
E dal momento che non c'è niente mi impedisce di crescere da qui a qui il valore in

06:03.920 --> 06:04.640
questo sta

06:04.650 --> 06:06.660
Sii qui e sarò qui abbastanza rapidamente.

06:06.740 --> 06:07.980
Quindi vincerò.

06:08.180 --> 06:10.490
E poi come si entra in questa piazza prima di quello.

06:10.490 --> 06:12.940
Bene, sono entrato in questa piazza da questa piazza.

06:13.070 --> 06:19.670
di essere qui è uguale a uno e così via così il valore di essere qui è uguale a un valore di essere qui è

06:19.670 --> 06:23.690
uguale a uno perché ognuno di essi porta al successivo e questi a il traguardo.

06:23.690 --> 06:25.710
Quindi il valore è simile approccio il valore

06:26.240 --> 06:29.850
Quindi è tutto abbastanza logico in questa fase.

06:29.960 --> 06:33.410
Questo è il modo in cui stiamo progettando l'equazione di Belman in questo momento.

06:33.410 --> 06:40.460
Quindi potremmo pensare a progettare un'equazione che aiuti un agente a passare attraverso il labirinto.

06:40.490 --> 06:45.840
Quindi guarda la ricompensa quindi lo stato precedente gli dà un valore uguale per premiare il procedimento e

06:45.840 --> 06:51.920
quindi quelli sono un po 'come creare un percorso è tutto bello e bene ma il problema qui è OK

06:52.010 --> 06:58.790
cosa succede se il nostro agente per qualche motivo inizia in questo stato invece di iniziare qui e prendere queste azioni e che

06:58.880 --> 07:00.480
in realtà inizia nello stato.

07:00.650 --> 07:06.980
Come fa a sapere come si ricorda quale azione intraprendere dovrebbe andare bene o dovrebbe andare giù o dovrebbe andare

07:06.980 --> 07:08.540
a sinistra o dovrebbe salire.

07:08.540 --> 07:13.220
Come ricorda quale sarà la prossima continuazione da qui.

07:13.220 --> 07:18.660
Se gli unici valori che ha sono questi valori sono uguali a una volta che non riescono a vedere cosa c'è di più lontano.

07:18.660 --> 07:19.700
Può solo vedere.

07:19.700 --> 07:20.030
Tutto ok.

07:20.030 --> 07:21.940
Quello che ho qui e quello che ho qui.

07:21.980 --> 07:23.530
Come fa a sapere quale strada da percorrere.

07:23.660 --> 07:27.920
Beh, a questo punto non è altrettanto identico per l'età e la strada da percorrere.

07:27.960 --> 07:30.770
Ed ecco perché questo approccio non funziona davvero.

07:30.790 --> 07:32.930
È una spiegazione molto semplicistica.

07:32.930 --> 07:34.500
Naturalmente c'è molto di più.

07:34.520 --> 07:40.550
Ma in un modo intuitivo è per questo che non possiamo semplicemente assegnare solo portare avanti questo valore in questo modo.

07:40.790 --> 07:46.210
Perché una delle ragioni è una volta che l'Agente si trova tra questi due valori e dove andrà.

07:46.210 --> 07:48.560
Non può essere confuso in questo modo.

07:48.620 --> 07:52.350
E quindi come risolviamo questo problema, cosa faremo?

07:52.400 --> 07:57.860
Ed è qui che inizieremo a introdurre gradualmente l'equazione di Belman nella sua

07:57.860 --> 07:58.640
forma attuale.

07:58.670 --> 08:01.510
Quindi l'equazione di Belman assomiglia a questo.

08:01.640 --> 08:07.100
Quindi abbiamo già parlato del valore di essere in un certo stato come è il tuo

08:07.100 --> 08:10.250
stato attuale o qualsiasi dato stato e c'è anche.

08:10.370 --> 08:17.270
E come Prime è lo stato il seguente dichiara lo stato in cui ti ritroverai dopo lo stato

08:17.270 --> 08:18.990
e prendendo un'azione concertata.

08:19.000 --> 08:24.160
Ma sappiamo che ci sono molte azioni e un agente può prendere ed è per questo che abbiamo questo Max qui.

08:24.260 --> 08:30.020
Quindi, intraprendendo un'azione, cosa succederà a un agente, diciamo che siamo in una situazione come se stessimo

08:30.050 --> 08:32.700
intraprendendo un'azione nelle risorse dello stato e interveniamo.

08:32.780 --> 08:36.690
Ciò che accadrà sarà istantaneamente ottenere una ricompensa entrando in un nuovo stato.

08:36.770 --> 08:41.960
E ricorda che la ricompensa può essere uno o più uno o meno uno se è alla fine del gioco o può essere

08:41.960 --> 08:46.240
uno zero se è durante il gioco in questo caso la nostra ricompensa per tutto il gioco è zero.

08:46.280 --> 08:55.160
Quindi questa è la ricompensa Plus entreremo in un nuovo stato che ha valore di s prime.

08:55.160 --> 08:57.820
Quindi questo è il valore del nuovo stato e gamma.

08:57.820 --> 08:58.820
Ne parleremo tra un secondo.

08:58.820 --> 09:03.560
Ma il punto che sto cercando di sollevare qui o il punto che sto sollevando qui è che hai molte azioni diverse

09:03.560 --> 09:05.810
che possiamo intraprendere ed è per questo che abbiamo il massimo.

09:05.810 --> 09:09.630
Quindi agendo otteniamo una ricompensa Più finiamo in un nuovo stato.

09:09.740 --> 09:14.660
E così, per ogni mossa fuori dal nostro, prima delle nostre possibili azioni per

09:14.660 --> 09:17.810
ognuna delle possibili 4 azioni, avremo un'equazione come questa.

09:17.810 --> 09:22.980
Quindi questo avrà un valore perché avranno un valore diverso per ognuna delle quattro

09:23.480 --> 09:28.750
azioni e guarderemo solo al massimo perché ovviamente l'agente vuole prendere lo stato ottimale.

09:28.760 --> 09:33.860
a trovare il massimo in base all'azione e andando a prendere quell'azione che ha bisogno del massimo di questi valori.

09:33.860 --> 09:37.500
Quindi se è in stato s sta andando a guardare questi valori che sta andando

09:37.640 --> 09:41.480
Quindi spero che abbia senso capire perché stiamo prendendo il massimo qui.

09:41.660 --> 09:45.400
Quindi una volta ottenuto il premio e il valore che ha detto perché abbiamo questo parametro di Gabaa qui.

09:45.650 --> 09:52.220
Bene, è lì esattamente per risolvere il problema di dove l'agente non sa da che parte andare perché

09:52.220 --> 09:52.850
non può.

09:52.950 --> 09:56.600
Sta confrontando i valori di due stati su entrambi i lati e sono gli stessi.

09:56.810 --> 10:00.890
Questo è il motivo per cui i giocatori hanno chiamato il fattore di sconto, quindi daremo un'occhiata

10:00.890 --> 10:02.050
a questo e capire meglio.

10:02.060 --> 10:04.680
Quindi prendiamo una formula che metterò qui in alto a destra.

10:04.760 --> 10:09.100
E ora analizzeremo quali sono i valori dei diversi stati.

10:09.140 --> 10:11.470
E ogni stato qui è un quadrato.

10:11.470 --> 10:11.820
No.

10:11.840 --> 10:16.610
Quindi uno di questi uno di questi quadrati bianchi è uno stato, voglio dire che calcoleremo il

10:16.610 --> 10:18.290
valore di essere in quello stato.

10:18.290 --> 10:19.770
Quindi iniziamo con il quadrato.

10:19.790 --> 10:21.610
Qual è il valore di essere in questo stato.

10:21.860 --> 10:25.830
Bene, dobbiamo prendere il massimo di questo valore per tutte le azioni.

10:26.120 --> 10:31.440
E sappiamo che questo valore rappresenta è massimizzato quando ci avviciniamo al traguardo ed è così

10:31.440 --> 10:36.440
che è costruito e semplicemente guardandolo puoi vedere perché qui c'è il premio e qui

10:36.590 --> 10:40.900
c'è un fattore di sconto moltiplicato per il valore del prossimo stato.

10:41.060 --> 10:46.670
Ed è logico che sia così che dovremmo costruire quell'equazione, quindi ha senso che da qui

10:46.670 --> 10:50.350
il massimo di questo valore sarà se ci spostiamo a destra.

10:50.360 --> 10:56.120
Ecco come calcoliamo i valori che questo valore di questo stato è che chiama il massimo o

10:56.300 --> 10:57.470
uguale a questo valore.

10:57.500 --> 11:01.000
Se ci spostiamo a destra se facciamo un'azione di spostarci a destra.

11:01.010 --> 11:02.330
Quindi, quale sarà questo valore.

11:02.360 --> 11:04.850
Bene, la ricompensa di spostarsi a destra è uguale a 1.

11:05.090 --> 11:10.490
E indipendentemente da quale gamma di colore non abbiamo un valore nello stato perché siamo già

11:10.490 --> 11:11.720
nel miglior stato possibile.

11:11.720 --> 11:12.880
Quindi questa è la fase finale.

11:12.890 --> 11:16.280
Non avremo un valore, qui otteniamo solo una ricompensa e questa è la fine del gioco.

11:16.280 --> 11:20.300
Quindi il valore sarà di questo massimo sarà uguale a 1.

11:20.510 --> 11:23.870
Ed è per questo che il valore dello stato come qui è uguale a 1.

11:23.870 --> 11:27.970
Ora le cose diventano interessanti quando ci spostiamo a sinistra quando ci muoviamo un po 'indietro.

11:28.010 --> 11:34.060
Quindi ora è calcolare il valore di questo in questo stato e per questo avremo bisogno di Gabaa.

11:34.070 --> 11:39.920
Quindi diciamo che il nostro fattore di attualizzazione è pari a zero virgola nove e ha senso quale fattore di sconto è una

11:39.920 --> 11:40.960
volta che lo calcoliamo.

11:40.960 --> 11:47.410
Quindi da qui solo basato sulla nostra intuizione e basato perché sappiamo come funziona come funziona.

11:47.450 --> 11:51.340
Sappiamo che la migliore azione possibile è andare a destra perché da qui andiamo qui.

11:51.530 --> 11:56.120
Questo significa che il massimo sarà raggiunto in questo stato che vai a destra.

11:56.270 --> 11:58.970
Quindi vediamo cosa succede se lo colleghiamo qui.

11:58.970 --> 12:02.650
Quindi se vai da qui a qui non ottieni la tua ricompensa sarà pari a zero.

12:02.720 --> 12:07.440
Ma poi otterrai camis che ottengono zero punti nove volte il valore del nuovo stato che è uno.

12:07.640 --> 12:14.030
Quindi in questo caso il valore dell'intero risultato è 1 volte a 0. 9 volte uno è uguale a 2. 9.

12:14.030 --> 12:15.890
Quindi sono tutti valori per.

12:16.250 --> 12:18.570
Quindi se lo calcoliamo ora lo vedrai da qui.

12:18.620 --> 12:23.990
Sappiamo solo guardando il labirinto che conosciamo perché siamo umani perché capiamo come funziona

12:23.990 --> 12:28.450
questa equazione, naturalmente, un agente di intelligenza artificiale dovrebbe sperimentare queste cose.

12:28.460 --> 12:32.180
Ma poiché abbiamo come una sfera di cristallo possiamo vedere questo intero labirinto.

12:32.180 --> 12:33.860
Abbiamo come la vista a volo d'uccello in questo momento.

12:33.860 --> 12:36.170
Sappiamo che l'azione migliore va a destra.

12:36.320 --> 12:42.230
Quindi se lo inseriamo qui tutto sarà pari a zero senza ricompensa Plus il rapporto nove volte

12:42.230 --> 12:45.530
il valore nello stato 0. 9 è zero punto ottantuno e così via.

12:45.530 --> 12:50.420
Quindi qui sarà 0. 23 e sarà 0. 66.

12:50.420 --> 12:57.590
Quindi puoi vedere che il modo in cui agisce il fattore scontato è che sconta il valore dello stato man mano

12:57.590 --> 12:58.610
che ti allontani.

12:58.610 --> 13:05.810
Quindi, se hai familiarità con la teoria della finanza, allora è qualcosa di simile al valore del denaro in termini di tempo

13:05.810 --> 13:12.990
come in cosa penseresti in questo modo? Cosa preferiresti avere $ 5 oggi o $ 5 in 10 giorni da adesso.

13:13.050 --> 13:17.840
Solo se qualcuno dovesse darti una scelta ti darò cinque dollari oggi tutti $ 5 10 giorni

13:17.840 --> 13:18.280
da tutti.

13:18.390 --> 13:20.300
Certamente sceglieresti $ 5 oggi.

13:20.300 --> 13:20.850
Perché.

13:20.870 --> 13:26.750
Bene, perché puoi prendere quei $ 5 e puoi investirli a un certo tasso di interesse che è molto simile

13:26.750 --> 13:27.470
al gamma.

13:27.680 --> 13:33.950
E i tuoi $ 5 in 10 giorni si trasformeranno in forse in 5 dollari e 73 centesimi o qualcosa del genere.

13:34.070 --> 13:36.410
Ed è così che funziona il valore del denaro nel tempo.

13:36.410 --> 13:38.310
E un concetto molto simile qui.

13:38.330 --> 13:43.250
E la cosa importante da capire qui è solo una teoria, un modo per rinforzare l'apprendimento.

13:43.260 --> 13:45.850
Quindi Richard Belman ha escogitato questa equazione.

13:46.190 --> 13:48.880
E da quel momento è così che lo usiamo.

13:48.880 --> 13:51.430
Quindi potresti andare avanti e trovare un'equazione diversa.

13:51.430 --> 13:54.820
Non deve avere Gamla potrebbe avere qualche altro fattore potrebbe non sapete avere un fattore.

13:54.950 --> 14:01.550
Ma questo approccio funziona ed è per questo che stiamo usando e questo è quello che sembra così tanto più

14:01.550 --> 14:06.670
lontano sei il valore minore di esso nello stato e in termini di tempo e denaro.

14:06.680 --> 14:09.850
Se potessi dirti dove preferiresti, preferiresti essere qui.

14:09.950 --> 14:11.200
Preferiresti essere qui.

14:11.350 --> 14:12.920
Diresti che preferirei essere qui.

14:12.920 --> 14:18.770
Quindi stiamo creando quello stesso fenomeno del valore temporale del denaro che stiamo artificialmente creando attraverso il

14:18.770 --> 14:24.680
gamma in modo da incentivare gli agenti o ispirare gli agenti ad essere più vicini al traguardo.

14:24.680 --> 14:29.720
agente preferiresti essere qui o qui a causa del modo in cui funziona questa equazione, sceglieresti di essere qui.

14:29.930 --> 14:31.590
Quindi se dovesse essere richiesto un

14:31.640 --> 14:33.380
Non c'è nient'altro a questo niente di meno.

14:33.380 --> 14:35.810
Non è qualcosa che il mondo funziona in questo modo.

14:35.810 --> 14:42.630
No, è solo qualcosa che stiamo creando artificialmente in modo che i nostri agenti capiscano che questo è buono questo è buono

14:42.750 --> 14:48.140
questo è buon vecchio buono ma questo è migliore di questo e questo è migliore di questo

14:48.140 --> 14:50.030
e questo è stato in questo

14:50.120 --> 14:54.790
E in questo modo puoi vedere tutto ciò che l'agente può vedere in quale direzione deve andare.

14:54.800 --> 15:00.270
in piedi qui, quindi se stai qui sto scendendo o se sono improvvisamente qui per andare su o scendo.

15:00.270 --> 15:05.130
Quindi può vedere che se sto qui in piedi, ricorda quel problema che avevamo o era

15:05.250 --> 15:10.080
Bene, ora non c'è più un problema perché può vedere che in realtà è meglio salire

15:10.080 --> 15:11.480
perché i valori sono qui.

15:11.550 --> 15:14.490
E poi da qui deve andare bene perché il valore è più grande qui che qui.

15:14.550 --> 15:17.480
E poi da qui Bertschi va bene perché il valore qui è più grande di quello che sai.

15:17.670 --> 15:22.620
E da qui sa già che ha bisogno di andare bene perché ne riceverà uno in premio.

15:22.680 --> 15:24.960
Ecco come funziona l'intero approccio.

15:24.960 --> 15:27.600
Ora diamo una rapida occhiata al resto della piazza.

15:27.600 --> 15:29.800
Quindi come calcoliamo il valore in questo quadrato.

15:30.030 --> 15:32.450
Bene, qui è dove le cose si complicano.

15:32.460 --> 15:38.400
Quindi da qui potresti non girare a destra, potresti davvero andare bene, quindi possiamo continuare così perché

15:38.400 --> 15:41.360
potrebbe essere più breve andare in questo modo.

15:41.520 --> 15:44.720
Quindi, quello che faremo è che prima calcoleremo il valore nel quadrato.

15:45.000 --> 15:48.200
E perché ovviamente da qui il modo migliore per andare è alto.

15:48.240 --> 15:52.740
che l'equipaggio ha la sfera di cristallo possiamo vedere le cose e vedrai più in basso nella

15:52.740 --> 15:57.060
sezione vedrai come l'agente esplora effettivamente questo capisce questo sui loro simili attraverso la sperimentazione.

15:57.060 --> 15:58.030
Di nuovo perché vediamo

15:58.080 --> 16:02.580
Ma per noi sappiamo che è meglio andare in questo modo, quindi calcoleremo il valore

16:02.580 --> 16:06.410
qui ed è per questo che prima calcoleremo il valore in questo quadrato.

16:06.420 --> 16:09.230
Quindi qui abbiamo tre possibili azioni.

16:09.270 --> 16:11.590
In realtà, in realtà ne abbiamo quattro, possiamo anche andare a sinistra.

16:11.610 --> 16:15.330
L'agente potrebbe ipoteticamente premere a sinistra e sbattere contro il muro e rimanere qui.

16:15.420 --> 16:21.030
insieme di semplicità che mostrerà le azioni che sappiamo di ciò che sappiamo e che hanno la

16:21.030 --> 16:25.920
sfera di cristallo, sappiamo quali azioni portano effettivamente a qualcosa di diverso dallo stesso stato.

16:25.920 --> 16:26.780
Ma per un

16:26.850 --> 16:32.010
E così da qui sappiamo che anche perché abbiamo una sfera di cristallo sappiamo che il modo migliore per

16:32.010 --> 16:36.840
andare è in questo modo che un agente, naturalmente, dovrebbe sperimentare e trovare il modo migliore e vedrai

16:36.840 --> 16:37.500
come ciò accadrà.

16:37.560 --> 16:42.270
Più in basso nella sezione vedrai in realtà come si muove un agente e come proverai a

16:42.360 --> 16:43.610
cercare di trovare questi valori.

16:43.620 --> 16:45.190
Ma per noi sappiamo che è così.

16:45.360 --> 16:50.420
Quindi qui se colleghiamo tutto in uno così il massimo l'output migliore è quando salite.

16:50.510 --> 16:53.820
E qui c'è un rapporto 9: 0 Quindi lo metti dentro.

16:53.820 --> 16:55.870
Ottieni zero punti nove.

16:56.220 --> 16:58.730
OK quindi Kalika quello che calcola questo.

16:58.770 --> 16:59.810
Stesso approccio.

16:59.820 --> 17:02.070
Questo è che hai tre modi in cui puoi andare.

17:02.070 --> 17:05.580
In realtà quattro per l'agente, ma per noi possiamo vedere che sono solo tre.

17:05.880 --> 17:10.780
Quindi zero punto ottantuno da qui hai ZERO punto settantatre.

17:11.130 --> 17:16.410
bene a questo valore perché in te se ridisci di nuovo metti 66 e qui hai 0.

17:16.890 --> 17:20.120
E in realtà si lega 23 perché questa è la via ottimale.

17:20.130 --> 17:21.190
Quindi eccoti.

17:21.210 --> 17:23.750
Questo è il valore di tutti questi stati.

17:23.760 --> 17:29.700
E ora puoi vedere che poiché abbiamo creato questa equazione o abbiamo creato sinteticamente questo

17:29.730 --> 17:37.890
intero concetto di quanto sei più vicino al traguardo, tanto più prezioso è lo stato perché temiamo che ora sia

17:37.890 --> 17:41.840
abbastanza ovvio per il agente in che modo dovrebbe andare.

17:41.970 --> 17:44.230
E ne parleremo di più in futuro.

17:44.910 --> 17:52.290
potrebbe sembrare un po 'fondamentale in questa fase, ma mentre passiamo attraverso questa sezione aggiungeremo un po' più di complessità.

17:52.320 --> 17:56.590
Spero vi sia piaciuta la sessione di oggi e so che

17:56.700 --> 18:01.500
Allo stesso tempo, se non puoi aspettare se vuoi saltarci dentro, c'è un foglio che puoi

18:01.500 --> 18:04.290
guardare ed è il documento originale di Richard Belman.

18:04.290 --> 18:08.130
Si chiama teoria della programmazione dinamica dal 1954.

18:08.370 --> 18:10.200
E puoi trovarlo a questo link.

18:10.320 --> 18:16.490
Ed ecco che puoi saltare direttamente dentro e leggere dall'autore dell'equazione di Belman.

18:16.620 --> 18:20.860
Ma tieni a mente che questa è una carta piuttosto pesante dal punto di vista matematico.

18:20.970 --> 18:22.820
E su quella nota cercherò il tuo prossimo.

18:22.850 --> 18:24.590
E fino ad allora goditi l'intelligenza artificiale.