WEBVTT

00:01.040 --> 00:04.020
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.040 --> 00:07.040
Oggi stiamo finalmente parlando dell'apprendimento di Kule.

00:07.070 --> 00:12.890
Va bene, abbiamo già ottenuto questa equazione l'equazione di Bellmen alla quale abbiamo aggiunto molti

00:12.890 --> 00:13.120
componenti.

00:13.130 --> 00:19.910
Qui abbiamo la ricompensa che non può essere solo alla fine ma può essere in qualsiasi momento.

00:19.940 --> 00:21.920
Abbiamo il fattore di sconto.

00:21.950 --> 00:26.880
Abbiamo la probabilità perché ora stiamo osservando il segno di un processo decisionale.

00:26.900 --> 00:32.780
di finire in uno stato diverso indipendentemente da quale azione prendiamo o effettivamente dato l'azione che prendiamo.

00:33.350 --> 00:35.210
E qui abbiamo la possibilità

00:35.210 --> 00:40.670
Ci possono essere più stati in cui possiamo finire e quindi abbiamo il valore degli

00:40.670 --> 00:46.790
stati successivi perché è come una funzione ricorsiva e così via, ma probabilmente hai ancora una domanda.

00:46.820 --> 00:53.560
La domanda è dove in tutto questo non c'è la lettera Q Perché è tutto chiamato q.

00:53.750 --> 00:54.270
Apprendimento.

00:54.350 --> 00:55.790
Quindi dov'è la stecca.

00:55.910 --> 00:58.940
E questa è la domanda a cui risponderemo oggi.

00:58.940 --> 01:06.620
di essere in un certo stato e ora vedremo come anche Q si adatta a tutto ciò.

01:06.620 --> 01:09.820
Finora abbiamo trattato con valori il valore

01:10.070 --> 01:16.360
Quindi qui abbiamo due esempi a sinistra: quello che faremmo fino ad ora è stato analizzato dal nostro agente.

01:16.400 --> 01:18.170
Ok sono qui.

01:18.230 --> 01:21.640
Questo è un segno del processo decisionale quindi non importa come sono arrivato qui.

01:21.770 --> 01:28.250
Il resto dell'ambiente non si cura dei passaggi che mi ha portato ad arrivare qui da ora in poi.

01:28.460 --> 01:32.050
Devo prendere la decisione ottimale dove andare qui qui o qui.

01:32.060 --> 01:37.280
Basato sullo stato attuale e su tutti gli stati futuri che vengono da qui ma non dal passato.

01:37.490 --> 01:42.010
E così può vedere che ci sono tre opzioni: c'è uno stato da dichiarare tre.

01:42.260 --> 01:48.920
E in base alla sua esperienza ha calcolato i valori in questi stati e ora userà l'equazione

01:48.920 --> 01:49.880
di Bellmen.

01:49.880 --> 01:54.260
Quindi, anche se questo è un classico Proceso, sa che andrà qui, ma c'è una possibilità

01:54.260 --> 01:56.120
che andrà a sinistra e così via.

01:56.110 --> 02:02.450
Quindi, sulla base di questi valori, prenderemo una decisione che è ciò che facciamo finora e questo è un approccio

02:02.450 --> 02:03.470
totalmente legittimo qui.

02:03.560 --> 02:05.640
Ma ora veniamo modificati un po '.

02:05.660 --> 02:12.860
ogni stato in cui può finire esamineremo i valori o il valore di ogni azione.

02:12.950 --> 02:21.440
Prendiamo lo stesso identico concetto dello stesso esatto problema ma qui invece di guardare i valori di

02:21.440 --> 02:25.640
Quindi non useremo più la lettera V perché per il valore dello

02:25.640 --> 02:30.740
stato useremo una Q e potremmo avere una domanda sul perché la lettera Q Bene.

02:30.740 --> 02:32.300
Q Alcuni lo speculano.

02:32.300 --> 02:33.760
Q leggerò questo

02:33.770 --> 02:35.420
Penso a Quora.

02:35.420 --> 02:41.480
altri riferimenti a questo, quindi potrebbe non essere perché potrebbe essere solo perché è la lettera che è stata usata in quel momento

02:41.480 --> 02:45.520
e ora è diventata super popolare perché è tutti hanno chiamato l'apprendimento chiave per questo motivo.

02:45.920 --> 02:50.750
Qualcuno ha detto che Q è dovuto alla qualità ma allo stesso tempo non sono riuscito a trovare

02:50.780 --> 02:52.520
Quindi nessuna ragione esatta era valida.

02:52.530 --> 02:58.830
Q Ma tuttavia almeno ci aiuta a distinguere tra V e Q So Q qui.

02:58.850 --> 03:03.340
C'erano regali piuttosto che il valore dello stato che rappresenta lascia andare la qualità.

03:03.410 --> 03:06.260
Rappresenta la qualità dell'azione che rappresenta.

03:06.260 --> 03:07.980
OK, quindi ho quattro azioni.

03:08.300 --> 03:10.860
Quali sono le diverse qualità di queste azioni.

03:10.860 --> 03:16.340
bene come faccio a quantificare questa azione e quindi posso confrontarla e questo è esattamente ciò che Q è.

03:16.340 --> 03:21.380
Qual è il valore dell'azione o la qualità dell'azione che l'azione è più redditizia quindi ho bisogno

03:21.380 --> 03:23.200
di una metrica che mi dica

03:23.470 --> 03:26.240
E così ha quattro possibili azioni.

03:26.360 --> 03:29.240
Come sempre vai su a destra o a sinistra.

03:29.240 --> 03:35.480
E sulla base dell'azione ci sarà una formula che ci dice il valore quantificabile di quell'azione

03:35.480 --> 03:38.410
che chiamiamo il valore Q q di quell'azione.

03:38.630 --> 03:41.700
Diamo un'occhiata a come ricaveremo questa formula.

03:41.710 --> 03:44.510
Q In che modo si relaziona effettivamente con questi.

03:44.510 --> 03:51.290
Perché, come puoi immaginare, perché le azioni portano agli stati deve esserci una sorta di collegamento tra i

03:51.290 --> 03:51.850
due.

03:51.870 --> 03:56.060
Bene, abbiamo già determinato come calcolare questo e siamo abbastanza bravi a farlo.

03:56.060 --> 04:02.030
Sappiamo come usare l'equazione di Belman in ambienti molto diversi con molte complicazioni.

04:02.270 --> 04:06.080
Bene, sfruttiamo questa conoscenza per capire come possiamo ora calcolare.

04:06.080 --> 04:12.170
Q Per fare le stesse previsioni perché, come puoi immaginare, l'ambiente non cambia in base

04:12.500 --> 04:16.530
a quale approccio utilizziamo l'ambiente sarà lo stesso a prescindere.

04:16.550 --> 04:22.130
sempre dare lo stesso risultato e quindi questo è un altro motivo per cui questi due devono essere collegati.

04:22.460 --> 04:24.690
Quindi, questo approccio e questo approccio dovrebbero

04:25.100 --> 04:26.290
Quindi diamo un'occhiata.

04:26.300 --> 04:31.280
Quindi ecco il nostro approccio alla vista in cui si arriva a considerare il valore di ogni stato determinato questo stato

04:31.280 --> 04:32.260
o qualsiasi altro stato.

04:32.420 --> 04:37.190
Ed eccoci qui, stiamo solo usando il lead qui perché quello è lo stato attuale.

04:37.190 --> 04:43.730
E quindi la terminologia sarà la stessa in entrambe le equazioni e qui usiamo q come Q

04:43.790 --> 04:45.520
È lo stato e l'azione.

04:45.540 --> 04:51.970
A perché l'azione è in atto ma in quale stato eseguiamo quell'azione eseguiamo quell'azione nello Stato.

04:53.000 --> 04:57.230
OK, ora stiamo andando a cavalcare l'equazione di Belman per il primo approccio,

04:57.230 --> 05:06.620
come potete vedere qui abbiamo il valore di s o il valore di ogni dato stato s è il massimo del premio che si ottiene una scommessa massima basata

05:07.070 --> 05:08.660
sulle azioni che hai tre.

05:08.690 --> 05:14.210
In questo caso, in realtà, hai quattro azioni in modo da massimizzare tutte le possibili azioni di

05:14.210 --> 05:20.090
questa parte che abbiamo sentito discutere molte volte, quindi questa è la nostra ricompensa che otteniamo dall'eseguire quella

05:20.090 --> 05:26.850
azione in quello stato sconto di fatto moltiplicato per il previsto valore del nuovo stato che stiamo per essere in un

05:26.850 --> 05:29.420
valore previsto perché è un processo stocastico.

05:29.420 --> 05:34.460
che finiremo qui finiamo per finire sulla sinistra o sul giusto tipo di probabilità.

05:34.460 --> 05:36.050
Non sappiamo esattamente per certo

05:36.050 --> 05:38.230
Ecco perché queste probabilità sono in te.

05:38.240 --> 05:40.290
Va bene, questo è il nostro valore

05:40.350 --> 05:41.150
E ora guardiamo.

05:41.150 --> 05:43.530
Q Quindi Q sarà definito.

05:43.580 --> 05:49.550
Lo useremo per definire Q Quindi diciamo che l'agente da questa posizione da questo

05:49.550 --> 05:50.640
stato esegue l'azione.

05:50.840 --> 05:54.350
Qual è il valore q che sarà chiamato a.

05:54.500 --> 05:59.320
Bene, prima di tutto vediamo cosa otterrà in cambio di questa azione.

05:59.420 --> 06:02.160
La prima cosa che otterrai è una ricompensa giusta.

06:02.360 --> 06:04.180
Non ne dubita.

06:04.250 --> 06:09.920
Ci sarà una sorta di regola o potrebbe essere zero, ma sappiamo che l'intero è il modo in cui funziona

06:09.920 --> 06:15.770
questo processo di apprendimento di rinforzo è che alcune città stanno eseguendo determinate azioni da un determinato stato o due.

06:15.840 --> 06:17.140
Quindi aggiungerò che qui.

06:17.480 --> 06:19.680
E poi aggiungeremo cosa aggiungeremo.

06:19.850 --> 06:21.090
Beh, pensiamoci.

06:21.110 --> 06:24.640
Qual è la prossima cosa che succede dopo che lui sta andando lì.

06:24.860 --> 06:32.030
Bene, la prossima cosa che succede è che ora l'agente è in un certo stato che potrebbe finire qui con

06:32.330 --> 06:34.640
una probabilità dell'80% o con qualche probabilità.

06:34.730 --> 06:36.670
Ma in realtà qui, proprio qui.

06:36.800 --> 06:43.940
Ma ovunque finisca ora abbiamo già una metrica quantificata per quello stato in cui si trova.

06:44.210 --> 06:47.100
E questo è in realtà il valore di quello stato.

06:47.180 --> 06:52.340
Ma poiché è arrivato in molti stati diversi e in tre dei possibili stati diversi, dobbiamo

06:52.370 --> 06:55.730
considerare il valore atteso dello stato in cui si troverà.

06:56.210 --> 06:58.610
E quindi aggiungeremo quello che aggiungeremo.

06:58.610 --> 07:04.020
Ovviamente il fattore scontato che avevamo in precedenza perché è da qualche parte nel futuro.

07:04.190 --> 07:11.210
E poi aggiungeremo alcuni di tutti i possibili stati in tutti i possibili stati in cui potrebbe

07:11.210 --> 07:12.910
finire prendendo questa azione.

07:12.910 --> 07:14.240
Termini di probabilità.

07:14.240 --> 07:20.150
Quindi quello che stiamo dicendo qui è che OK così facendo un azione otterrai una ricompensa Plus

07:20.150 --> 07:22.700
che è una metrica quantificata. Più che otterrai.

07:22.730 --> 07:25.820
Finisci in uno stato che non sappiamo quale potrebbe essere qui.

07:25.850 --> 07:26.950
Potrebbe essere qui potrebbe essere qui.

07:27.050 --> 07:32.240
Ma qui c'è il valore atteso dello stato in cui andrai a finire.

07:32.270 --> 07:36.290
E ora stiamo andando a moltiplicare per il fattore di sconto perché quello è un allontanamento.

07:36.380 --> 07:44.180
Quindi questo è il nostro valore Q per questo per la sezione delle prestazioni e quello che noterete qui è proprio

07:44.180 --> 07:44.730
questo.

07:44.760 --> 07:51.470
Q Il valore Q è in realtà esattamente identico a quello che c'è all'interno di queste parentesi quaggiù.

07:51.950 --> 07:52.660
E perché è così.

07:52.670 --> 07:59.930
in tutte le possibili azioni del risultato che otterremo prendendo ciascuna di quelle azioni e accodiamo stiamo definendo.

07:59.930 --> 08:04.910
Bene, se ci pensi qui stiamo prendendo il massimo dei risultati otterremo

08:04.910 --> 08:10.500
il massimo in tutte le possibili azioni, così abbiamo ottenuto l'azione prendendo il massimo

08:10.610 --> 08:11.160
Interessante.

08:11.160 --> 08:14.000
Cosa otterremo prendendo una certa azione.

08:14.000 --> 08:19.340
Quindi, se ci pensi, ha senso il valore di uno stato.

08:19.370 --> 08:25.720
Quindi, ad esempio, questo stato è il massimo di tutti i possibili valori di Q.

08:25.790 --> 08:32.360
Giusto quindi qui negli Stati essendo nello stato l'agente ha un valore chiave per mantenere il valore 3Q per il

08:32.360 --> 08:32.870
valore q.

08:32.870 --> 08:37.760
Quindi sì positivo per possibili valori di Q mentre il valore del soggiorno ha senso

08:37.760 --> 08:42.460
che il valore dello stato sia il massimo di tutti questi quattro valori chiave.

08:42.490 --> 08:44.420
Questo è esattamente ciò che possiamo vedere qui.

08:44.420 --> 08:48.060
Questa è una buona conferma di questa nuova formula che deriviamo.

08:48.080 --> 08:53.080
Se così non fosse, se ciò non corrispondesse, avremmo delle domande.

08:53.270 --> 08:55.150
Quindi perché perché non corrisponde.

08:55.160 --> 08:57.510
Perché non coincide se.

08:57.690 --> 09:05.810
Il valore Q è una metrica quantificata di eseguire un'azione e V dipende dal pavimento.

09:05.930 --> 09:12.650
È come se il massimo dei possibili risultati delle quattro azioni che può eseguire su di esso abbia

09:12.650 --> 09:12.970
senso.

09:12.980 --> 09:21.050
E questo conferma la formula che abbiamo appena derivato e ora lo renderemo ancora più interessante.

09:21.080 --> 09:26.620
Ci libereremo completamente di Wii perché puoi vedere qui che Wii è una funzione ricorsiva.

09:26.810 --> 09:29.750
Allora e poi hai me e poi B e poi B e poi B e così via.

09:29.760 --> 09:35.480
Così puoi esprimere questa vista attraverso tutti i seguenti Vee, i più ottimali

09:36.150 --> 09:36.830
verranno qui.

09:36.840 --> 09:43.210
una funzione ricorsiva dell'OR come funzione del prossimo V e quindi dovresti collegare questo V e poi tornare al B.

09:43.250 --> 09:45.200
Ci aspettiamo Q come un funk

09:45.200 --> 09:51.110
Quindi, cosa stiamo per fare è che prenderemo questa V e lo sostituiremo con

09:51.230 --> 09:54.280
Q Right, quindi diamo un'occhiata a questo.

09:54.930 --> 10:01.410
Prenderemo questo V del prossimo stato e lo inseriremo in questa formula qui.

10:01.570 --> 10:07.180
E come puoi vedere ora, quindi questa parte non cambia, questa probabilità non cambia.

10:07.180 --> 10:16.950
Ma come abbiamo appena discusso di s è il massimo di tutte le azioni di q di S e di un diritto qui.

10:16.990 --> 10:19.180
Quindi questo è quello che sostituiremo qui.

10:19.180 --> 10:24.310
ovviamente la nuova azione, l'azione che stiamo per intraprendere perché qui abbiamo il Wii di prima qualità.

10:24.310 --> 10:26.760
Quindi stiamo per dire che il massimo è

10:26.770 --> 10:30.700
Quindi qui ora abbiamo la console massimale in un primo.

10:30.700 --> 10:34.510
Quindi le azioni che andremo a prendere da questo stato provengono

10:34.510 --> 10:41.200
da qualsiasi altro stato in cui finiamo, ma l'azione che intraprenderemo da lì e Maxima attraverso tutti questi e

10:41.260 --> 10:50.170
il massimo è di tutti i valori del cubo che che ci sono disponibili in quel nuovo stato come prima virgola un numero primo.

10:50.170 --> 10:51.280
E questa è azione.

10:51.280 --> 10:52.140
Quindi questo è il.

10:52.210 --> 10:53.500
Quindi ce ne saranno altri quattro.

10:53.500 --> 10:54.530
Q valori lì.

10:54.610 --> 10:56.700
Quindi ora come puoi vedere torniamo indietro.

10:57.040 --> 11:02.740
Quindi, da ciò che ricaviamo questa parola sarebbe giusta causa solo attraverso la logica e l'intuizione, in modo che possiamo

11:02.740 --> 11:07.400
vedere che i VNS sono effettivamente la vista di AS e di e a sono collegati.

11:07.400 --> 11:12.400
Il valore di S è il massimo tra tutte le azioni di Cuba S e puoi vedere qui proprio in modo che questa

11:12.400 --> 11:13.820
parte sia identica a questa parte.

11:14.290 --> 11:20.740
E poi lo sfrutteremo e sostituiremo questo bit con VNS da qui, ma non con questo

11:20.740 --> 11:25.730
imbuto esatto, prenderemo questa parte interna e la sostituiremo con uccidere gli innocenti.

11:26.080 --> 11:32.920
Quindi lo inseriremo qui e questa parte sarà il primo di un massimo di cubo da Crucell

11:33.430 --> 11:36.810
a Priam di Q As Prime un primo.

11:37.060 --> 11:39.790
E ora abbiamo la nostra formula.

11:39.790 --> 11:46.880
Quindi ora abbiamo una formula ricorsiva per il valore q quindi ora l'agente può pensare qual è il valore della sezione qual è la

11:46.890 --> 11:50.310
qualità di questa sezione è stato il nuovo valore di questa azione.

11:50.470 --> 11:56.570
Beh, dipende dalla ricompensa che ottengo nel passaggio immediato dopo, in più dipende dal fattore

11:56.590 --> 12:02.410
scontato, moltiplicato per il massimo di tutte le possibili azioni Q in quello stato.

12:02.410 --> 12:06.760
abbiamo questo valore atteso qui, quindi abbiamo alcune probabilità volte il massimo che è il valore atteso.

12:06.760 --> 12:12.770
Ma non so se riuscirò a convincere la loro parte a guardare anche quello stato in quello stato e questo è il motivo

12:12.860 --> 12:13.300
per cui

12:13.450 --> 12:18.010
Quindi una formula molto simile, come puoi vedere, ma stavolta stiamo esprimendo le cose attraverso

12:18.490 --> 12:27.310
i valori q ed è per questo che l'intero algoritmo è chiamato Kill learning perché questo è ciò che viene guardato in questo modo è quello che gli agenti

12:27.310 --> 12:32.020
effettivamente usano che non guardano agli stati guardano le loro possibili azioni e poi in base

12:32.020 --> 12:35.760
alle azioni sul valore q delle azioni che decideranno quale azione intraprendere.

12:35.760 --> 12:40.330
Quindi guarderanno solo il valore massimo di Q in questo stato dato che ha quattro azioni.

12:40.330 --> 12:45.340
e poi impegnarsi? sta per ripetere quel processo ripetere quel processo e così via.

12:45.350 --> 12:51.820
Qual è l'azione migliore da intraprendere in modo da poter confrontare un paragone tra i diversi stati che

12:51.820 --> 12:56.830
possono finire per confrontare le possibili azioni che ha attualmente, trovando quello ottimale che

12:56.860 --> 12:57.440
prenderà quell'azione

12:57.580 --> 13:03.940
Così ora puoi vedere come tutto questo si unisce a come ricompensa i fatti di attualizzazione

13:04.360 --> 13:10.330
oi processi decisionali di mercato stocastici ei valori ei valori di q si uniscono per

13:10.690 --> 13:18.400
citare questa equazione di Belman superpotente per i valori di q che ora possiamo applicare e lasciamo che i nostri

13:18.400 --> 13:20.410
agenti imparino a battere l'ambiente.

13:20.410 --> 13:23.380
E quindi questa è una spiegazione intuitiva di quello che sta succedendo.

13:23.380 --> 13:28.510
So che siamo passati attraverso le formule ma è necessario perché è come la

13:28.510 --> 13:34.730
nostra formula che stiamo attraversando tutto questo capitolo e penso che sia una buona transizione dal To.

13:34.780 --> 13:43.450
Q E illustra come ci sono collegamenti tra Yishun E se ti piacerebbe avere un approccio matematico più rigoroso e come

13:43.450 --> 13:49.410
vedi la matematica dietro di esso e imparare un po 'di più sui valori di

13:49.420 --> 13:51.600
q e su come funzionano.

13:51.640 --> 13:54.090
Poi abbiamo qualche lettura aggiuntiva per te.

13:54.130 --> 14:02.980
Questo documento si chiama concetti e algoritmi di processi decisionali Markov di martĂn von Autor basso 2009.

14:02.980 --> 14:09.610
di più complesso come questo articolo se vogliamo ottenere ulteriori informazioni su questo per ottenere una comprensione più profonda.

14:09.820 --> 14:15.220
Così hai tagliato il link qui come sempre e qui puoi leggere un po 'più

14:15.220 --> 14:21.660
in dettaglio per capire tutto il nitty grintoso dietro i valori di Hugh e così via e ora

14:21.790 --> 14:27.670
che abbiamo discusso di tutte queste cose relative all'equazione di Belman ora siamo pronti per vedere qualcosa

14:27.670 --> 14:34.390
Ma anche se non leggi il giornale o la radio, dovresti avere una buona conoscenza pratica di cosa

14:34.390 --> 14:40.850
sia l'apprendimento e di come gli agenti escogano le azioni che devono intraprendere in un determinato ambiente.

14:40.870 --> 14:43.980
Quindi spero che ti piaccia oggi Statoil e attendo con ansia il tuo prossimo.

14:43.990 --> 14:45.360
Fino ad allora divertiti.

14:45.390 --> 14:45.620
IO.