WEBVTT

00:00.980 --> 00:04.960
Ciao e bentornati al corso sull'intelligenza artificiale.

00:05.000 --> 00:12.140
Precedentemente avevamo un'esercitazione piuttosto lunga e faticosa sui processi decisionali di Margrove e, si spera, tu ti

00:12.200 --> 00:13.710
sia comportato bene.

00:13.760 --> 00:19.010
E spero di poter spiegare le cose in modo accessibile e coinvolgente.

00:19.130 --> 00:22.750
E oggi parleremo di politiche contro piani.

00:22.760 --> 00:27.910
perché ora stiamo entrando in un nuovo mondo, stiamo entrando in un mondo di ricerca non

00:27.910 --> 00:34.310
deterministica con una ricerca stocastica, quando non stai attraversando il labirinto ma tenendo conto di fattori casuali che potrebbero colpire

00:34.310 --> 00:38.990
sei in testa quando stai attraversando questo labirinto e devi essere preparato per questo.

00:38.990 --> 00:41.080
Ci sarà un tutorial rapido e divertente

00:41.080 --> 00:42.070
Questo è il mondo.

00:42.080 --> 00:48.640
Il nostro agente sta vivendo ed è più divertente ma è anche più pericoloso, più è meno prevedibile.

00:48.650 --> 00:50.880
Quindi, come si comporterà il nostro agente.

00:50.960 --> 00:52.280
Diamo un'occhiata.

00:52.280 --> 00:58.190
C'è il nostro marchio nel quadro del processo decisionale che è ancora una volta il nostro favore per l'equazione di Belman.

00:58.250 --> 01:02.010
Tuttavia, la versione più avanzata dell'equazione di Belman con cui stiamo lavorando.

01:02.010 --> 01:04.760
Quindi d'ora in poi chiameremo questa equazione di Beldon.

01:04.760 --> 01:10.970
E qui abbiamo la nostra azione massima e Crucell, quindi il valore di uno stato qualsiasi è il massimo tra tutte

01:10.970 --> 01:14.020
le azioni che un agente potrebbe eseguire in tale stato.

01:14.120 --> 01:21.230
E la massima è stata presa dalla ricompensa che l'agente otterrà eseguendo l'azione A come Plus un fattore

01:21.230 --> 01:26.590
di sconto moltiplicato per il valore atteso del nuovo stato in cui si troverà.

01:26.830 --> 01:31.850
E mi aspetterei che quelli presi qui perché non sanno esattamente cosa finirà il sadle.

01:31.880 --> 01:40.390
Sono alcuni effetti casuali presenti nell'ambiente che potrebbero alterare lo stato e che potrebbero non finire

01:40.800 --> 01:42.630
nello stato desiderato.

01:42.640 --> 01:44.200
Potrebbe finire in uno stato diverso.

01:44.210 --> 01:47.760
Ecco perché stiamo prendendo il valore previsto qui da qualche parte qui.

01:47.990 --> 01:53.750
Diamo un'occhiata a questo come esempio nostro o nel nostro esempio del labirinto.

01:53.750 --> 02:00.220
Quindi questo è ciò che avevamo precedentemente, quindi in precedenza abbiamo a che fare con la ricerca deterministica dal vivo.

02:00.230 --> 02:01.960
Quindi lo sapevamo.

02:01.970 --> 02:05.550
Va bene, quindi se sono qui ho sicuramente bisogno di andare qui se sono qui.

02:05.570 --> 02:09.030
Devo assolutamente andare qui se sono qui, devo assolutamente andare qui se sono qui sono qui.

02:09.140 --> 02:11.360
Quindi era tutto abbastanza semplice.

02:11.480 --> 02:14.680
Una volta che hai questa mappa e ricorda di chiamarla, l'abbiamo definita un piano.

02:14.690 --> 02:18.050
Una volta che hai il piano è abbastanza semplice da fare.

02:18.050 --> 02:18.990
Ci sono.

02:18.990 --> 02:20.490
Quindi questo è il piano con le frecce.

02:20.580 --> 02:25.000
E da qui è stato molto semplice siamo questi sono questi i percorsi che prenderanno ogni volta che

02:25.010 --> 02:26.210
inizierai su questa linea blu.

02:26.210 --> 02:28.210
Questo è esattamente il modo in cui andresti.

02:28.680 --> 02:31.120
Comunque ora non abbiamo più un piano.

02:31.120 --> 02:38.060
ciò che pianifichiamo potrebbe non accadere non è sotto controllo o piano è quando sai esattamente cosa devi fare dopo.

02:38.060 --> 02:40.940
Non possiamo avere un piano perché sai che tutto

02:40.940 --> 02:41.820
Conosci i passi.

02:41.840 --> 02:46.640
Quindi hai un punto di partenza che hai un obiettivo e conosci ogni singolo passo in modo da poterli pianificare come

02:46.640 --> 02:50.500
se lo stessi facendo io lo farò questo lo farò come nella vita come un piano .

02:50.630 --> 02:54.870
Ma allo stesso tempo ci sono così tante cose aleatorie.

02:54.890 --> 03:00.080
Puoi avere un piano perché cosa succede se arrivi qui e poi fai clic a destra e in realtà ti

03:00.080 --> 03:00.560
porta giù.

03:00.680 --> 03:02.100
Quindi non fa parte del tuo piano.

03:02.390 --> 03:04.120
Ecco perché si chiama la pianificazione di più.

03:04.220 --> 03:09.080
E qui andremo a calcolare i valori in realtà andranno a guardare solo

03:09.410 --> 03:11.990
i valori calcolati per questo stesso problema.

03:12.080 --> 03:16.700
Ma sulla base di ciò dato che abbiamo questa casualità dentro.

03:16.700 --> 03:18.380
Quindi questi sono i nuovi valori.

03:18.800 --> 03:22.840
E quindi perché questi valori sono diversi, quindi confrontiamoci con ciò che avevamo precedentemente.

03:22.850 --> 03:24.710
Questo è ciò che avevamo precedentemente.

03:24.710 --> 03:25.650
Questi sei tu.

03:25.660 --> 03:29.750
Quindi, ancora una volta avevamo precedentemente perché ha vinto 3. 9 percento.

03:29.770 --> 03:31.590
Era davvero 366.

03:31.790 --> 03:36.750
E questo è quello che ora abbiamo un a meno di una volta in vigore e 1 6 3.

03:36.800 --> 03:43.850
E dal modo in cui questi non sono esattamente gli attuali rally fuori dalla mia testa, ma se dovessimo eseguire

03:43.850 --> 03:49.220
un agente alcuni valori sarebbero qualcosa di simile a questo e i valori potrebbero cambiare

03:49.220 --> 03:54.650
perché dipendono dal gioco d'azzardo che sceglierebbe 3. 9 o altro valore, ma comunque per il fine

03:54.650 --> 04:00.560
dell'argomento, questi sono i valori con cui abbiamo a che fare ora e sono approssimativi. Essi trasmettono l'intera nozione nel modo

04:00.560 --> 04:02.270
corretto, quindi diamo un'occhiata a loro.

04:02.270 --> 04:03.240
Perché sono cambiati.

04:03.410 --> 04:07.480
Bene perché è qui con questo qui il valore era uno.

04:07.490 --> 04:10.520
Perché è tutto a un tratto 0. 26 Perché è meno di uno.

04:10.560 --> 04:11.730
Basta andare da qui qui.

04:11.930 --> 04:18.620
Beh, in realtà abbiamo chiamato perché da qui se andassimo bene quale è la nostra intenzione se andassimo

04:18.640 --> 04:22.340
bene potremmo avere una probabilità del 10% di finire qui.

04:22.340 --> 04:25.130
Quindi avremmo colpito il muro e saremmo tornati in questo stato.

04:25.130 --> 04:30.740
Gamla Quindi il valore sarebbe scontato e o saremo fuori o fuori a 10 e il caso finirebbe qui in questo stato.

04:30.740 --> 04:32.150
E ricorda che abbiamo una

04:32.150 --> 04:37.670
Quindi non è il 100% di probabilità che potrei arrivare qui, quindi il disvalore non può più essere uno è

04:37.670 --> 04:41.310
qualcosa di meno ed è 0. 26.

04:41.570 --> 04:43.770
Quindi questo è un esempio del perché è così.

04:43.770 --> 04:49.130
E potresti ottenere il valore esatto se calcoli l'equazione di Belman per intero ma la mia domanda che

04:49.130 --> 04:49.850
abbiamo ora.

04:49.850 --> 04:53.540
perché è necessario conoscere il valore per questo e quindi è necessario conoscere il valore per

04:53.540 --> 04:57.440
questo che è abbastanza complesso ed è per questo che non stiamo facendo i calcoli manualmente qui.

04:57.440 --> 04:59.180
L'unico problema è che ci sarà qualche ricorsione

04:59.240 --> 05:06.000
Questo è il motivo per cui posso farcela mentre attraversa tutto questo è come se non fosse niente di troppo complesso

05:06.000 --> 05:06.510
per a.

05:06.540 --> 05:08.520
Non puoi suonare queste cose.

05:08.520 --> 05:10.090
Quindi questo è il nostro valore qui.

05:10.110 --> 05:11.520
Ma di questo è diverso.

05:11.520 --> 05:16.830
Quindi qui basta essere 0. di sconto, da qui a qui di nuovo qui da

05:16.830 --> 05:23.070
qui i college saltano da qui a qui semplicemente perché anche se saltassimo se andassimo così potremmo finire qui di nuovo qui.

05:23.070 --> 05:24.680
9 solo a causa del fattore

05:24.700 --> 05:28.440
Giusto questa probabilità del 20 percento che rimarrà nella piazza perché colpiremo un muro.

05:28.710 --> 05:29.730
E ancora e così via.

05:29.730 --> 05:32.700
Quindi il valore di essere qui è zero virgola settantuno.

05:32.850 --> 05:35.370
Di nuovo questo e il fattore di sconto.

05:35.370 --> 05:39.970
Sai che questo potrebbe sembrarti strano che anche con lo sconto nel fattore questo è troppo alto.

05:40.050 --> 05:44.440
Forse il fattore di sconto in questo esempio non è 0. 9 forse è sette virgola novantanove o

05:44.500 --> 05:46.310
qualcosa che non ti preoccupare.

05:46.350 --> 05:48.480
Solo un po 'come concentrarsi su quello.

05:48.480 --> 05:53.210
I valori hanno effettivamente cambiato che i valori ora sono meno.

05:53.460 --> 05:58.700
Soprattutto perché non è una probabilità del cento per cento arrivare allo stato che vuoi ottenere e

05:59.100 --> 06:00.180
quello che troverai.

06:00.210 --> 06:06.660
Un interessante è qui che qui solo per essere 0. 9 in realtà è caduto molto è diminuito sostanzialmente.

06:06.660 --> 06:07.110
Perché.

06:07.110 --> 06:12.120
una probabilità del 10 percento di colpire un muro ma c'è una possibilità del 10 percento

06:12.120 --> 06:18.700
di finire nel firepit e perdere meno uno per premiare e fondamentalmente questo significa per l'agente che è quella fine Del gioco.

06:18.700 --> 06:22.820
Bene, perché se vai da qui su quale è la nostra intenzione c'è

06:23.160 --> 06:25.640
E quindi questo è un pessimo stato in cui stare.

06:25.680 --> 06:29.910
Quindi all'improvviso ricordo che avevamo zero punti a nove anni di distanza e quindi erano equivalenti.

06:29.910 --> 06:34.900
Non importa che tu ascolti qui, sono praticamente uguali in termini di valore dell'essere in ciascuno di questi stati.

06:34.980 --> 06:43.440
Ma ora improvvisamente bam questa data è quasi il doppio rispetto a questo semplicemente perché qui se ci

06:43.590 --> 06:46.980
vai dritto vai esattamente dove vuoi andare.

06:47.050 --> 06:51.270
Sai che le conseguenze della casualità si verificano è che tu stai qui.

06:51.290 --> 06:55.070
Qui una delle conseguenze è una probabilità del 10% di finire nella fossa.

06:55.110 --> 07:02.160
Quindi, come puoi vedere, questo non è più uno stato così buono semplicemente a causa di una fluttuazione

07:02.160 --> 07:03.460
che potrebbe accadere.

07:03.570 --> 07:09.150
Come puoi vedere, anche questo è molto brutto perché è brutto come questo in quanto sai che c'è solo il 10% di

07:09.150 --> 07:12.660
possibilità di finire in buca e il 10% di possibilità di finire nel muro.

07:12.660 --> 07:18.480
Ma allo stesso tempo c'è un fattore di sconto Quindi prima di tutto il fattore di sconto e

07:18.480 --> 07:20.390
anche dopo questo dovresti andare qui.

07:20.700 --> 07:23.900
E anche se ipoteticamente sei andato qui potresti finire di nuovo nella buca.

07:23.910 --> 07:28.710
ricorda che questi valori derivano da questo valore e questo valore deriva da questo valore.

07:28.710 --> 07:31.760
Quindi anche questa possibilità verrà presa in considerazione perché

07:31.820 --> 07:32.350
Destra.

07:32.400 --> 07:37.560
E quindi è piccolo ma in realtà in realtà quello che ho detto non c'era.

07:37.560 --> 07:39.640
Questo valore non è derivato dalla Fed.

07:39.810 --> 07:46.800
Quindi se guardi ora, noterai che questo valore qui sopra è in realtà più grande di

07:46.800 --> 07:47.300
questo.

07:47.610 --> 07:54.780
Noterai che per l'agente è meglio andare in questo modo che in questo modo e ha senso.

07:54.780 --> 07:58.580
Perché in questo modo non lo perde non c'è possibilità di entrare nella fossa.

07:58.590 --> 08:03.450
Sì è un po 'più lungo e quindi il fattore di sconto ha un effetto maggiore.

08:03.510 --> 08:07.470
Ma allo stesso tempo semplicemente perché c'è una possibilità di entrare nella buca qui se va

08:07.530 --> 08:09.140
dritto ci sarà la possibilità di saltare.

08:09.160 --> 08:15.120
Quindi ci vorrà un pareggio per prendere il suo tempo e basta andare in giro perché in questo modo c'è una possibilità molto

08:15.120 --> 08:16.530
minore di ottenere Ma c'è ancora.

08:16.530 --> 08:19.590
Quindi da qui va lì da qui va lì.

08:19.590 --> 08:23.590
Potrebbe potenzialmente finire nella fossa perché potrebbe finire lì e questo potrebbe finire nel conto.

08:23.730 --> 08:27.430
Ma ciononostante è una possibilità minore quindi andrà avanti così.

08:27.430 --> 08:32.430
Quindi è molto interessante vedere come cambiano tutti, ricorda di averti visto prima da qui.

08:32.430 --> 08:34.790
Da qui andresti così e da qui andiamo così.

08:35.010 --> 08:36.870
E ora tutto ad un tratto puoi vedere il suo cambiamento.

08:36.870 --> 08:41.000
Facciamo rotolare le frecce e vediamo come appare ora e voilà.

08:41.010 --> 08:43.760
Vedi anche una cosa più casuale.

08:43.770 --> 08:45.260
Quindi sì, questo è vero.

08:45.270 --> 08:46.500
Ma guarda cosa è successo qui.

08:46.500 --> 08:47.610
Guarda questo.

08:47.690 --> 08:48.970
Guarda questo.

08:49.050 --> 08:50.490
Te lo aspettavi?

08:50.520 --> 08:54.570
Questo è qualcosa che mi piace decisamente quando ho visto questa prima volta che sono rimasto molto colpito.

08:54.570 --> 08:59.800
Non ero super non ero sorpreso e non me lo aspettavo affatto.

08:59.970 --> 09:04.860
E questo è un esempio di come sai quando posso superare in astuzia un umano.

09:05.120 --> 09:10.680
Sembra che qualcosa che hai colto anche tu potessi prevedere, ma l'I attraverso l'apprendimento delle regole ricorda che

09:10.680 --> 09:14.400
l'esempio di cani a volte può funzionare meglio della normale vita reale.

09:14.400 --> 09:21.330
sono cani robot preprogrammati possono giocare a calcio semplicemente perché escogitano queste idee che nemmeno noi possiamo vedere.

09:21.390 --> 09:22.350
I cani

09:22.440 --> 09:27.330
E come grande esempio probabilmente non ti aspettavi che anche gli asiatici

09:27.330 --> 09:29.690
invece di salire fossero come me.

09:29.850 --> 09:33.120
Come se salissi, c'è il 10% di possibilità di saltare nella fossa.

09:33.120 --> 09:35.130
Ma cosa ottiene entrando in guerra.

09:35.280 --> 09:38.330
Bene, l'80% delle volte si incontrerà e rimarrà nello stato.

09:38.490 --> 09:42.360
Ma il 10 percento delle volte andrà qui e il 10 percento delle volte andrò qui.

09:42.360 --> 09:49.130
Quindi all'improvviso puoi vedere che ora è in realtà in questo nuovo approccio di saltare nel muro.

09:49.170 --> 09:53.350
C'è una probabilità pari allo zero per cento che andrà nel fuoco ma da questo punto così.

09:53.370 --> 09:57.690
Ed è come se davvero non volesse andare nel pozzo del fuoco così drogato nel muro un

09:57.690 --> 10:03.050
paio di volte e poi andrà a destra o a sinistra ad un certo punto perché quella casualità sta per accadere.

10:03.080 --> 10:09.680
E così ha appreso che attraverso la sperimentazione ha imparato che, se procedo, i risultati non sono buoni

10:09.680 --> 10:11.440
come quando vado al muro.

10:11.510 --> 10:13.540
E se ci pensi, è così.

10:13.580 --> 10:18.350
Questo robot se ci pensi questo è un firepit è molto questo è che questo è come una piazza è come

10:18.350 --> 10:21.630
una sporgenza molto piccola e quindi questa è come una montagna come una scogliera.

10:21.650 --> 10:27.830
E questo robot sta semplicemente abbracciando la scogliera e proprio come cercare di aspettare fino a quando spinge a destra o a

10:27.830 --> 10:32.640
sinistra perché, come un umano, probabilmente fai lo stesso, non staresti in piedi di fronte in quel

10:32.750 --> 10:34.970
modo o staresti abbracciando la scogliera a destra.

10:35.000 --> 10:35.860
O qualcosa di simile.

10:35.940 --> 10:39.740
E spero che tu sappia che dobbiamo finire per non finire mai in situazioni del genere.

10:39.770 --> 10:43.670
Ma come visivamente solo visivamente se pensi a qualcosa qui.

10:43.760 --> 10:46.450
E quindi è abbastanza intenso.

10:46.460 --> 10:51.860
che faccio che andrò qui e qualcosa succederà e finirò qui e sarò al sicuro e poi mi limiterò continua così.

10:51.860 --> 10:56.270
In modo che l'intelligenza artificiale abbia avuto questa idea e lo stesso qui è come se andasse

10:56.300 --> 11:01.430
a sinistra e Riskin combatterà, ma cercherò semplicemente di lanciare le palle come sai saltare un muro e provare a

11:01.430 --> 11:04.910
saltare nel muro e un certo punto so che sai che c'è una probabilità

11:04.910 --> 11:06.680
è una probabilità del 10% ogni volta

11:06.830 --> 11:13.240
Quindi l'approccio molto molto interessante che hanno preso qui e puoi vedere le rotte sono così da qui potrebbe andare a destra

11:13.250 --> 11:17.500
e poi andrà a destra all'uscita o qui o vai a sinistra in quel modo.

11:17.690 --> 11:22.230
E qui a un certo punto andrai a sinistra e andrai di nuovo in quel modo.

11:22.310 --> 11:23.170
Questo è importante.

11:23.180 --> 11:27.610
Non sono una politica quindi anche quando salta da qui andrà qui.

11:27.650 --> 11:30.400
Forse E poi da qui potrebbe effettivamente piovere dritto.

11:30.410 --> 11:34.520
Potrebbe effettivamente tornare indietro a destra e poi da qui e mi consentirò di ottenere la cosa giusta.

11:34.550 --> 11:38.260
Quindi ci sono molte opzioni diverse per questo ragazzi che potrebbero non seguire esattamente questo ironmonger andare

11:38.270 --> 11:38.730
dall'altra parte.

11:38.960 --> 11:42.500
Questo è solo il percorso desiderato che è stato progettato per sé.

11:42.590 --> 11:44.690
Ma il modo in cui funzionerà in realtà potrebbe essere diverso.

11:44.690 --> 11:46.130
Dipende dal mondo reale.

11:46.340 --> 11:46.940
Quindi eccoci.

11:46.950 --> 11:50.090
Questo è il mondo dell'intelligenza artificiale.

11:50.090 --> 11:56.780
Questo è ciò che una politica rispetto a un piano è e, si spera, ti stai lentamente eccitando per ciò

11:57.000 --> 12:01.220
che l'intelligenza artificiale può fare, specialmente considerando ciò che abbiamo visto qui.

12:01.340 --> 12:07.430
Questi sono alcuni tipi di decisioni molto virtuosi che le IA hanno in mente.

12:07.610 --> 12:12.500
E come puoi vedere quando giochi a IA, anche da questo piccolo esempio puoi vedere

12:12.500 --> 12:18.950
che anche quando giochi in un mondo reale, forse troverai idee e decisioni che anche a volte gli umani possono

12:18.950 --> 12:19.240
inventare.

12:19.250 --> 12:25.460
E questo è esattamente come quello che è successo in quei giochi in cui l'obiettivo di Google

12:25.520 --> 12:32.320
Alpha stava giocando contro l'idolo campione di gol di Lisa in Corea nel campione del mondo di go.

12:32.390 --> 12:37.000
E stavano suonando in Corea nel bakla nel 2016, credo che sia marzo 2016.

12:37.000 --> 12:42.370
È venuto fuori con alcune mosse che gli umani non avevano mai giocato in 3000 anni o gli umani non erano abituati a giocare.

12:42.380 --> 12:45.510
E questo è esattamente un esempio di ciò.

12:45.740 --> 12:50.290
Quindi, ancora una volta, spero che ti stia eccitando e pompando sul discorso e su cosa possiamo integrare.

12:50.330 --> 12:51.840
E lo cerco.

12:51.840 --> 12:52.720
Arrivederci alla prossima.

12:52.730 --> 12:54.410
Fino ad allora divertiti.

12:54.410 --> 12:54.640
IO.