WEBVTT

00:01.090 --> 00:04.270
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.290 --> 00:07.260
Oggi parliamo della pena di vita.

00:07.600 --> 00:13.540
Va bene, qui abbiamo tutte le equazioni di Belman e visto che stiamo seguendo

00:13.540 --> 00:20.030
questo corso, stiamo lentamente diventando sempre più complesse, quindi finora abbiamo già aggiunto queste probabilità qui.

00:20.200 --> 00:22.930
E inoltre abbiamo aggiunto il fattore di sconto.

00:22.930 --> 00:28.440
Ora esamineremo più in dettaglio questo aspetto della domanda in cui ora abbiamo la ricompensa.

00:28.480 --> 00:34.660
rinforzo, abbiamo detto che abbiamo un agente e che compie azioni nell'ambiente e in uno scambio

00:34.660 --> 00:41.290
o come risultato ottiene un nuovo stato e che è ora in e una ricompensa per quell'azione.

00:41.320 --> 00:45.600
Ricorda in precedenza quando abbiamo parlato di come funziona l'apprendimento di

00:45.610 --> 00:52.210
Beh, finora nel nostro esempio abbiamo ottenuto premi alla fine o se arriviamo al traguardo o

00:52.210 --> 00:58.640
se per l'agente finisce nel pozzo del fuoco ottiene un più uno o meno un premio.

00:58.960 --> 01:05.770
Ma questo è un approccio molto semplicistico all'apprendimento di rinforzo e in scenari più realistici è probabile che tu abbia

01:05.800 --> 01:11.050
dei premi per tutto il viaggio, non solo alla fine potresti avere dei premi durante il

01:11.050 --> 01:11.380
viaggio.

01:11.380 --> 01:20.680
Ad esempio, se si tratta di una IA che gioca e se per esempio è come sparare a qualcuno in un destino

01:20.680 --> 01:26.320
potrebbe ottenere punti per uccidere quel nemico o potrebbe essere un altro gioco diverso.

01:26.470 --> 01:32.260
Se sorpassa un'altra macchina o qualcosa del genere solo a causa delle regole del gioco, non per il suo

01:32.260 --> 01:39.400
modo di analizzare il gioco, ma in realtà il gioco è strutturato in modo tale da rinforzare i suoi punti di forza per

01:39.400 --> 01:43.230
fare determinate azioni anche prima che il gioco sia al di sopra di.

01:43.540 --> 01:49.570
Quindi i Sinatra come questi sono molto comuni e non solo nei giochi e nella vita reale ed

01:49.570 --> 01:55.120
è per questo che introdurremo qualcosa di simile nel nostro esempio, una versione semplificata di questo, ma

01:55.330 --> 02:01.180
comunque una ricompensa che viene continuamente assegnata all'agente per tutto il gioco. non solo alla fine e il

02:01.180 --> 02:04.450
modo in cui lo faremo è guardare le altre tessere.

02:04.450 --> 02:10.060
una ricompensa più una nella tessera finale e premiamo meno 1 all'altra tessera finale del firepit.

02:10.060 --> 02:11.530
Quindi adesso abbiamo solo

02:11.800 --> 02:14.310
Ma ora aggiungeremo ricompense in ogni singola volta.

02:14.430 --> 02:17.770
Aggiungeremo una ricompensa molto piccola sarà meno 0. 04.

02:17.770 --> 02:23.440
E come puoi vedere è negativo quindi ogni volta che l'agente si muove otterrà una ricompensa negativa ed è quella che

02:23.440 --> 02:28.300
viene definita una penalità vivente perché non importa dove andrà avrà sempre questa ricompensa negativa eccetto per queste

02:28.450 --> 02:31.000
tessere finali perché quella è la fine il gioco.

02:31.300 --> 02:35.120
E così puoi vedere la ricompensa anche su questa tessera è una follia o un puzzle.

02:35.170 --> 02:37.960
Ma ciò non significa che inizi con quella ricompensa.

02:37.960 --> 02:39.470
Ottiene solo questa ricompensa.

02:39.760 --> 02:44.860
E questo è importante per ricordare che ottiene la sua ricompensa solo quando entra in una tessera, quindi ogni volta

02:44.860 --> 02:51.110
che lui promette un'azione va qui poi otterrà questa ricompensa meno 0. 04 e poi torna in questo stile che avrà

02:51.130 --> 02:53.650
un'altra mente e 0. 04 parole.

02:53.770 --> 03:00.370
E così più a lungo cammina e più accumula la sua ricompensa negativa e quindi è un incentivo per

03:00.370 --> 03:03.870
lui a finire il gioco prima il più rapidamente possibile.

03:03.890 --> 03:10.390
E così ora diamo un'occhiata a come la nostra politica o come la politica degli agenti cambierà

03:10.420 --> 03:14.150
a seconda del valore che abbiamo impostato per questo premio.

03:14.410 --> 03:18.730
Quindi qui ci sono quattro ambienti e in ognuno andremo a esplorare un altro.

03:18.770 --> 03:21.070
Non faremo i calcoli.

03:21.130 --> 03:25.690
Stiamo solo andando a proiettare i risultati e vedrete che intuitivamente hanno un senso.

03:25.690 --> 03:31.820
Quindi qui abbiamo una ricompensa per qualsiasi offerta passo per entrare in qualsiasi stato.

03:32.050 --> 03:32.830
È uguale a zero.

03:32.830 --> 03:36.890
Proprio come quello che abbiamo visto prima qui la ricompensa sarà il 0 di Mei. 0.

03:36.910 --> 03:43.150
Per quello che abbiamo appena fatto ora sapete che la ricompensa sarà a meno 0. 5 o il livello di dare penalità sarà il mio è

03:43.150 --> 03:47.690
fuoco aperto, tanto più in alto puoi vederli qui più di 10 volte più grande.

03:47.800 --> 03:50.170
Ed ecco il Penhall vivente sarà meno due.

03:50.170 --> 03:59.050
Quindi, anche più dei premi che ottieni per il salto o anche meno della ricompensa per il fatto che sei l'agente per finire

03:59.050 --> 04:00.700
nel pozzo del fuoco.

04:00.700 --> 04:07.660
Diamo un'occhiata a come le azioni o le politiche ottimali per il passaggio di questo ambiente cambieranno a

04:07.660 --> 04:09.160
seconda di questa ricompensa.

04:09.170 --> 04:11.560
Quindi questa è la nostra politica originale.

04:11.920 --> 04:18.280
E come puoi ricordare abbiamo avuto queste due decisioni molto interessanti e anche un po 'strane da parte

04:18.280 --> 04:23.950
dell'agente, ma che ha assolutamente senso se può vivere per tutto il tempo che gli piace.

04:23.950 --> 04:29.530
Se si può semplicemente viaggiare per tutto il tempo che vuole senza essere penalizzato per rimanere in vita

04:29.530 --> 04:30.430
molto a lungo.

04:30.670 --> 04:37.630
Perché no, perché non dovrebbe semplicemente andare nell'angolo qui nel muro e continuare a farlo finché non

04:37.870 --> 04:38.470
succede.

04:38.470 --> 04:41.300
Accade così che vada da questa parte e poi camminerà.

04:41.500 --> 04:46.120
E la stessa cosa qui è molto più sicuro per lui saltare nel muro sperando che

04:46.120 --> 04:51.970
uno di questi arrivi alla fine e poi andrà comunque al traguardo perché scegliendo queste due azioni non rischia di

04:51.970 --> 04:53.680
entrare nel pozzo del fuoco .

04:53.690 --> 04:59.950
Ora vediamo cosa succede se aggiungiamo un premio negativo alla ricompensa solo per essere una vita per fare un passo.

05:00.270 --> 05:04.960
Spostati qui puoi vedere che immediatamente questi due sono cambiati.

05:04.970 --> 05:07.940
Ora l'agente non vuole saltare nel muro.

05:07.940 --> 05:13.490
È più probabile che rischi di raggiungere la firepit con il 10% di possibilità di saltare qui,

05:13.490 --> 05:19.400
ma andrà avanti perché ogni volta che viene a guardare qui se lo farà anche qui ogni volta

05:19.850 --> 05:24.620
che salta in esegue un'azione in cui finisce in questo stato con una probabilità

05:24.620 --> 05:24.990
dell'80%.

05:25.010 --> 05:31.180
Ciò significa che l'80 percento di probabilità si ottiene un 0 negativo. avrà questo accumulo di questa ricompensa negativa.

05:31.190 --> 05:34.940
04 ricompensa significa che un sacco di tempo

05:34.940 --> 05:41.600
La stessa cosa qui se salta sul muro aspettando quel momento in cui verrà spostato in modo

05:41.600 --> 05:42.780
casuale a destra.

05:42.980 --> 05:49.340
Se continua a farlo accumula questa ricompensa negativa e che il risultato di ciò se esegui

05:49.340 --> 05:55.670
i calcoli vedrai che il risultato di ciò che il valore atteso di quell'approccio che salta

05:55.670 --> 06:02.840
al muro è peggio che correre il rischio di andare avanti e in effetti finiscono nel firepit.

06:02.840 --> 06:10.230
andare invece avanti e qui spostarsi a sinistra, anche se sa che c'è il rischio dell'incendio del firepit semplicemente perché ora

06:10.230 --> 06:15.320
più a lungo è vivo più a lungo accumulerà questa penalità vivente nel prossimo ambiente.

06:15.320 --> 06:18.830
Quindi cambia le sue decisioni in questi due blocchi per

06:18.830 --> 06:23.720
Ora stiamo aumentando la vita di Pouncey anche a un numero maggiore di Meinzer, il quinto punto e vediamo

06:23.720 --> 06:24.590
cosa cambia qui.

06:24.860 --> 06:27.220
Quindi ora puoi vederlo rispetto a questo ambiente.

06:27.260 --> 06:31.740
L'unica cosa che è cambiata qui è che questa freccia punta a destra.

06:32.060 --> 06:38.360
E ciò significa che ora non è più una buona opzione per l'agente o in realtà anche le frecce che

06:38.360 --> 06:42.340
puntano sono rivolte verso sinistra e il naso degli ugelli verso l'alto.

06:42.350 --> 06:48.740
fino in fondo perché se sbaglia tutto, sì è al sicuro o c'è una possibilità minore che non ci siano possibilità di ottenere il firepit.

06:49.100 --> 06:53.330
Quindi ora non è più una buona idea che l'agente vada in giro da qui o

06:53.340 --> 06:54.030
vada in giro

06:54.320 --> 06:57.640
Ma allo stesso tempo o ci sono meno possibilità che accada.

06:57.710 --> 07:03.140
Ma allo stesso tempo accumulerà una notevole ricompensa negativa mentre cammina.

07:03.140 --> 07:05.540
Quindi è solo il percorso è troppo lungo.

07:05.540 --> 07:12.350
Quindi questo lo costringe a scegliere se è qui o qui per prendere la via più breve per arrivare qui, anche se ha un rischio

07:12.350 --> 07:17.330
molto più alto di entrare nella buca di fuoco perché non appena finisce in piazza c'è una probabilità

07:17.330 --> 07:19.350
del 10% di arrivare al fuoco .

07:20.120 --> 07:21.760
Secondo i suoi calcoli.

07:21.800 --> 07:27.980
È solo che il valore atteso di questo approccio è migliore del valore atteso di andare in giro semplicemente

07:27.980 --> 07:30.480
perché abbiamo aumentato questa pena di vita.

07:30.710 --> 07:37.130
E finalmente arriviamo all'esempio con la penalità di meno di due punti zero.

07:37.130 --> 07:43.010
Quindi qui ti incoraggio a postare il video ora che hai visto come la politica è cambiata mentre aumentiamo

07:43.010 --> 07:44.430
la penalità di caricamento punt.

07:44.450 --> 07:49.850
Ti incoraggio a mettere in pausa il video ea pensare a te stesso cosa succederà in questo scenario.

07:49.850 --> 07:57.070
la politica ottimale sarà data che la pena di vita è così alta, così tutto questo presunto video se lo desideri.

07:57.090 --> 07:58.280
Cosa pensi che

07:58.490 --> 08:04.880
E ora ho intenzione di saltare nel mostrarti la soluzione, quindi in questo caso se

08:04.880 --> 08:13.460
aumenti la penalità a meno 2. 0 è così alto che la penalità qui è solo meno 1. 0 è così alto che l'agente vuole solo uscire

08:13.680 --> 08:18.540
dal gioco in qualsiasi modo possibile, anche se è semplicemente saltando nel pozzo del fuoco.

08:18.560 --> 08:19.200
Lo farà.

08:19.220 --> 08:25.460
Sarà come ogni volta che faccio un passo ogni volta che finisco in un nuovo nel tuo stato

08:25.460 --> 08:30.020
o ogni volta che faccio un'azione finisco per ottenere un meno due ricompensa.

08:30.020 --> 08:36.280
Quindi qual è il punto di cercare di arrivare al traguardo se da qui mi porterà due passaggi in più.

08:36.350 --> 08:41.060
Vado qui e poi direttamente nel pozzetto perché in questo modo

08:41.060 --> 08:49.190
la mia ricompensa sarà inferiore alla ricompensa negativa sarà così grave come nel caso di solo fare ulteriori passaggi in

08:49.190 --> 08:56.770
modo da poter vedere che aggiungendo questo vivere ricompensa e in base al valore della ricompensa vivente che

08:56.780 --> 08:59.270
stiamo aggiungendo i risultati saranno diversi.

08:59.270 --> 09:06.290
E l'agente selezionerà politiche diverse e questo è in pratica il modo in cui il valore della ricompensa può essere

09:06.440 --> 09:12.020
incorporato dall'equazione di Belmont anche quando non è solo al traguardo o alla fine del gioco,

09:12.020 --> 09:13.790
ma anche durante il gioco.

09:13.790 --> 09:19.250
volta non deve essere su ogni singolo in ogni singolo stato a seconda dell'ambiente stesso.

09:19.250 --> 09:20.180
E ancora una

09:20.180 --> 09:26.540
Potrebbe essere dato all'agente in determinati stati specifici non in ogni stato, ma nel nostro esempio

09:26.540 --> 09:29.880
semplicistico stiamo semplicemente usando premi in ogni dato stato.

09:30.050 --> 09:34.470
Per illustrare questo concetto, spero che ti sia piaciuto il tutorial di oggi.

09:34.580 --> 09:40.550
E come puoi vedere abbiamo già reso la nostra equazione di Belman piuttosto sofisticata e ora può essere applicata a

09:40.550 --> 09:44.340
molti scenari diversi e non vedo l'ora di vederla nel prossimo tutorial.

09:44.360 --> 09:46.200
E fino ad allora godermi un io