WEBVTT

00:00.830 --> 00:04.470
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.580 --> 00:09.520
Spero che tu sia entusiasta del tutorial di oggi perché stiamo facendo il nostro primo passo nel

00:09.520 --> 00:10.170
mondo, I.

00:10.460 --> 00:13.150
E oggi stiamo parlando di apprendimento di rinforzo.

00:13.280 --> 00:18.710
È una storia molto importante perché sottolineerà tutto ciò che accadrà in questo corso.

00:18.770 --> 00:21.010
Quindi iniziamo qui.

00:21.020 --> 00:27.140
Abbiamo un piccolo labirinto e questo labirinto è la nostra rappresentazione di un ambiente ed è quello che avremo

00:27.140 --> 00:29.210
a che fare in questo corso.

00:29.210 --> 00:34.040
Avremo a che fare con determinati ambienti in cui la nostra intelligenza artificiale

00:34.040 --> 00:39.950
sta per essere eseguita, e prenderà delle azioni che cercherà di sconfiggere nel mio andare che

00:39.950 --> 00:42.350
cercherà di vincere in questi ambienti.

00:42.350 --> 00:44.190
E qui abbiamo un agente.

00:44.360 --> 00:46.990
L'agente è la nostra intelligenza artificiale.

00:47.030 --> 00:52.910
Questa è la persona o è la mente che sta navigando in questi ambienti e imparando dal

00:53.000 --> 00:57.110
feedback che le loro menti stanno per dargli per eseguire determinate azioni.

00:57.150 --> 01:02.180
E così il modo in cui funziona è che l'agente esegue determinate azioni in questo ambiente.

01:02.360 --> 01:09.050
E di conseguenza lo stato in cui è inserito cambierà in modo che potrebbe essere più o meno vicino o più a sinistra

01:09.050 --> 01:10.070
più a destra.

01:10.070 --> 01:15.030
Potrebbe avere una sorta di altri parametri che descrivono lo stato e quei parametri.

01:15.100 --> 01:20.720
Quindi lo stato cambierà a causa dell'azione e riceverà anche dei premi in base

01:20.720 --> 01:20.970
all'azione.

01:20.970 --> 01:24.950
Quindi ogni volta che prende una decisione, lo stato cambierà e riceverà una ricompensa.

01:24.950 --> 01:29.170
Ora ricorda che a volte può succedere che non cambi lo stato in cui l'azione

01:29.170 --> 01:33.070
non cambierà un soggiorno o che non ci sarà una ricompensa per l'azione.

01:33.110 --> 01:34.530
In quel senso era.

01:34.670 --> 01:38.480
Tuttavia, l'agente continuerà a fare ciò che sta per intraprendere azioni ingannando lo

01:38.480 --> 01:42.510
stato ricevendo ricompense cambiando azione intraprendendo azioni che cambiano lo stato e ricevendo ricompense.

01:42.800 --> 01:47.840
E facendo questo processo impareremo cosa sta per essere esplorato nell'ambiente, comprendendo

01:48.200 --> 01:53.970
quali azioni portano a buone ricompense e stati favorevoli e quali azioni le due

01:53.990 --> 01:55.840
premiano uno stato sfavorevole.

01:56.000 --> 01:59.690
E questo è un problema molto globale di rappresentazione molto semplicistico.

01:59.690 --> 02:04.390
Quindi, se ci pensi, gli ambienti in realtà non devono essere solo labirinti.

02:04.400 --> 02:09.170
Non si tratta solo di uscire da un labirinto o di trovare un tesoro in un labirinto.

02:09.170 --> 02:11.740
Un ambiente può essere praticamente qualsiasi cosa nella vita.

02:11.750 --> 02:15.180
Quindi immagina di svegliarti al mattino e cucinare una frittata.

02:15.410 --> 02:22.010
Quindi, per preparare quell'omelette, è necessario passare attraverso alcuni passaggi necessari per ottenere che il sale ottenga le

02:22.010 --> 02:27.770
padelle che si accendono e così via e suona come una cosa banale di routine.

02:27.770 --> 02:29.870
Ma è diventato routine perché l'hai fatto così tante volte.

02:29.960 --> 02:34.670
determinate azioni che stai prendendo che tu accendi il fuoco mettendo una padella sul fuoco stai mettendo

02:34.670 --> 02:40.250
tutte le uova nella padella e mettici un po 'di sale sulle uova e tu ti capovolgi e così via.

02:40.250 --> 02:43.190
Ma in realtà è un ambiente in cui stai eseguendo

02:43.190 --> 02:49.970
Quindi, come puoi vedere, sono azioni di azioni CRN che stanno prendendo in determinati stati e quelle azioni portano

02:49.970 --> 02:52.460
a certi altri stati ea volte premiano.

02:52.460 --> 02:57.650
Quindi ad esempio quando accendi il fuoco e attendi, aspetta, aspetta, aspetta che tu faccia un'azione

02:57.650 --> 03:01.900
di attesa, aspetta, aspetta troppo a lungo e poi metti le uova nella padella.

03:01.910 --> 03:03.560
I premi saranno molto negativi.

03:03.560 --> 03:05.120
Tutto brucerà.

03:05.120 --> 03:10.130
anche molto importante capire che le azioni dovrebbero essere prese nei punti corretti nel tempo.

03:10.130 --> 03:13.850
D'altra parte, se esegui tutte le azioni corrette nel momento giusto, è

03:13.850 --> 03:20.090
Quindi, ad esempio, mettere il sale nella padella prima di mettere le uova potrebbe non essere la

03:20.090 --> 03:20.770
migliore idea.

03:20.780 --> 03:26.190
Potresti prendere l'azione di mettere il sale nella padella dopo che le uova sono lì in modo

03:26.200 --> 03:28.320
che siano in uno stato diverso.

03:28.370 --> 03:29.620
Quindi è importante ricordarlo.

03:29.780 --> 03:34.070
E allo stesso tempo quindi se prendi tutte le azioni corrette nell'ordine corretto negli stati

03:34.580 --> 03:38.840
corretti, la tua ricompensa finale potrebbe essere quella di ottenere una frittata che puoi mangiare.

03:38.900 --> 03:44.660
E quindi questa è un'attività di base nella tua vita ma se ci pensi è in realtà un ambiente e

03:44.990 --> 03:50.060
tu sei l'agente che attraversa questo ambiente ed esegui un compito che non hai davvero bisogno di imparare

03:50.060 --> 03:52.190
nulla perché lo conosci già abbastanza bene .

03:52.220 --> 03:56.170
Ma allo stesso tempo potresti imparare che potresti imparare come preparare una frittata migliore o, soprattutto, se è

03:56.340 --> 03:59.010
la tua prima frittata che stai facendo, probabilmente stai per rovinare tutto.

03:59.030 --> 04:04.010
Ma imparerai da questo perché capirai quali azioni portano verso stati e percorsi e qualsiasi

04:04.490 --> 04:05.890
altra cosa nella vita.

04:06.050 --> 04:11.900
vendere e ottenere un certo feedback dal mercato nel senso di rendimenti positivi o negativi.

04:11.900 --> 04:16.390
Ad esempio, anche il trading in borsa e sai comprare e

04:16.430 --> 04:20.160
Questo è anche un ambiente in cui partecipi a quell'ambiente come anziano.

04:20.210 --> 04:25.220
Guidare una macchina è anche un ambiente in cui puoi girare il volante che puoi accelerare, puoi

04:25.220 --> 04:29.510
rompere e così via e ricevi feedback dall'ambiente e sai che uno di questi feedback

04:29.510 --> 04:35.840
è il poliziotto che ti dà una multa accelerata se tu? andare al di sopra del limite di velocità accettabile o consentito

04:35.840 --> 04:36.960
su quella autostrada.

04:37.040 --> 04:41.900
E quindi da lì impari che non è qualcosa che dovrebbe essere fatto perché porta

04:41.900 --> 04:43.020
a una ricompensa negativa.

04:43.220 --> 04:45.590
Quindi i premi non devono essere proprio alla fine del processo.

04:45.590 --> 04:48.020
Possono essere durante tutto il viaggio durante tutto il processo.

04:48.020 --> 04:49.490
Quindi quelli sono un paio di esempi.

04:49.490 --> 04:54.980
E in termini di un I il modo più semplice di pensare all'apprendimento rinforzato è come addestrare un cane quando addestrate

04:54.980 --> 05:00.270
il cane a dargli certi comandi e se obbedisce a quei comandi allora gli date una portata che gli date

05:00.440 --> 05:04.820
come un biscotto o qualcosa del genere se Abeles Kamaz non lo dice, è un cane cattivo

05:04.820 --> 05:06.600
o semplicemente non gliene frega niente.

05:06.830 --> 05:13.820
bisogno per fare ciò che è necessario intraprendere in certi stati e gli stati sono i comandi che tu gli dai.

05:13.820 --> 05:18.470
E attraverso questo processo apprende ciò che determinati comandi o ciò di cui ha

05:18.470 --> 05:22.700
E in base a ciò otterrà certamente alcuni premi nel mondo dell'IA.

05:22.700 --> 05:24.590
Non è così complesso.

05:24.590 --> 05:26.910
Non devi dare le leccornie.

05:26.960 --> 05:32.120
Non devi avere con te un sacchetto di biscotti ogni volta che ne dai uno più uno o

05:32.120 --> 05:37.290
uno meno, quindi è un enorme vantaggio che nel mondo dell'IA abbiamo creato queste IA da noi stessi.

05:37.310 --> 05:42.680
Quindi le ricompense che stiamo dando loro se pensate che questa è davvero una bella ricompensa stanno dando loro

05:42.680 --> 05:48.490
che in realtà non esistono, sono solo un più o meno uno o più uno, uno zero o qualcosa del genere.

05:48.500 --> 05:51.100
Quindi è tutto inesistenza tutte le cose immaginarie.

05:51.110 --> 05:56.300
Ma allo stesso tempo porta a grandi risultati in quanto possiamo creare queste incredibili cose con questa

05:56.300 --> 06:01.760
incredibile intelligenza artificiale come con questa incredibile intelligenza artificiale, fornendo solo ricompense che in realtà non esistono.

06:01.790 --> 06:05.670
Più e meno uno non costa nulla, ma i risultati di rilascio stesso tempo.

06:05.900 --> 06:08.170
Quindi molto simile al mondo reale.

06:08.210 --> 06:15.140
E sai ad esempio Dokes Ma qui i premi sono digitali e solo numeri.

06:15.140 --> 06:20.920
quindi questo è solo in foto non necessariamente quel cane robot che conosci che viene addestrato attraverso l'apprendimento

06:20.920 --> 06:26.630
di rinforzo di alcuni dei cani robot, specialmente quelli più grandi che avresti un algoritmo in là.

06:26.710 --> 06:31.050
E con questo in mente possiamo parlare di cani robot amo questo esempio

06:31.370 --> 06:39.260
E questo è in realtà un buon esempio della differenza tra gli agenti preprogrammati e l'agente di apprendimento

06:39.260 --> 06:46.120
di rinforzo in modo da poter avere un cane robot che è preprogrammato su come dirlo.

06:46.160 --> 06:51.500
Quindi nell'algoritmo dietro il cane nel software si dirà OK quindi per camminare è necessario spostare la gamba

06:52.370 --> 06:58.160
sinistra avanti gamba anteriore sinistra avanti quindi la gamba posteriore destra avanti quindi la gamba destra anteriore avanti quindi

06:58.160 --> 07:02.480
la gamba posteriore sinistra avanti e ripeti quell'azione e sai che è la definizione di

07:02.480 --> 07:04.870
camminare è una funzione all'interno di questo cane.

07:05.040 --> 07:09.060
E poi potrebbe farti sapere come sedersi su come stare e cose del genere.

07:09.680 --> 07:16.360
Mentre in un cane robot che viene addestrato attraverso l'apprendimento di rinforzo, ciò che accade è che non lo

07:16.360 --> 07:16.710
preprogrammi.

07:16.730 --> 07:23.810
Questo è il concetto chiave per tutto ciò che non hai alcun algoritmo all'interno che sia codificato

07:23.810 --> 07:24.850
nel cane.

07:24.860 --> 07:28.300
Invece hai ciò di cui parleremo in futuro.

07:28.460 --> 07:36.710
Hai questo algoritmo di apprendimento di rinforzo che viene detto che OK quindi l'obiettivo è quello di ottenere da dove si

07:36.860 --> 07:41.990
sta ora non sapendo nulla per quello alla fine della stanza, per esempio.

07:42.170 --> 07:44.270
E qui ci sono alcune azioni che puoi intraprendere.

07:44.270 --> 07:48.950
Puoi muovere il piede destro puoi muovere il piede sinistro puoi muovere il piede destro indietro sei

07:48.950 --> 07:53.000
indietro piede quindi qui tutti i gradi di libertà che puoi fare puoi muoverlo così

07:53.000 --> 07:59.180
puoi muoverti così come un elenco di le azioni che puoi intraprendere e le tue ricompense ogni volta che fai un passo in

07:59.210 --> 08:01.430
avanti ottieni un vantaggio ogni volta che cadi.

08:01.430 --> 08:04.090
Si ottiene un meno uno e questo è tutto quello che c'è da fare.

08:04.160 --> 08:07.390
E poi lasciano il cane e lasciano che lo capisca da solo.

08:07.400 --> 08:13.460
Quindi il cane cerca di alzarsi e cade poi si rende conto che OK non dovrei fare quell'azione che mi ha portato a cadere perché

08:13.460 --> 08:17.040
ogni volta che cado ne ottengo uno meno che poi non va bene per me.

08:17.060 --> 08:21.560
Così fa l'altra azione che lo ha aiutato a stare in piedi e poi le cifre

08:21.560 --> 08:26.090
sono solo esperimenti esperimenti sperimenta le cose di tri casualmente e poi capisce che può fare

08:26.090 --> 08:31.410
un passo avanti spostando il piede anteriore destro e ottiene un vantaggio e realizza oh dovrei fare di più.

08:31.460 --> 08:35.620
OK, quindi ora apprende che dovrebbe fare di più e di meno.

08:35.630 --> 08:42.270
E attraverso questo processo di apprendimento rapidamente capisce molto rapidamente come può camminare.

08:42.410 --> 08:49.130
quei cani che hanno capito da soli in realtà possono a volte camminare meglio dei cani preprogrammati perché in

08:49.130 --> 08:53.930
realtà preprogrammano cose che guardiamo ai cani della vita reale o sai che usiamo

08:53.930 --> 08:59.960
la nostra immaginazione come farlo mentre un cane di rinforzo può imparare ottimizzare le cose da solo.

08:59.960 --> 09:00.300
E

09:00.320 --> 09:03.540
E perché nell'IA a volte può ottenere risultati ancora migliori.

09:03.680 --> 09:05.290
Ed è così che possono addestrare questi robot.

09:05.320 --> 09:07.320
Lo stesso robot canta per giocare a calcio.

09:07.520 --> 09:12.970
Puoi addestrare un cane normale a giocare a calcio perché sai semplicemente che l'intero approccio è diverso.

09:12.980 --> 09:20.900
E non è qualcosa che sai che probabilmente un cane normale è stato addestrato a fare o ha mai fatto

09:20.900 --> 09:23.030
nel suo processo di evoluzione.

09:23.030 --> 09:28.190
calcio finché si dice loro quali sono i vantaggi che gli obiettivi sono le azioni che possono intraprendere.

09:28.190 --> 09:32.760
Mentre un robot di rinforzo per l'apprendimento dei cani può capire molto facilmente come giocare a

09:33.080 --> 09:36.390
Ecco come funziona l'apprendimento di rinforzo.

09:36.410 --> 09:39.160
In generale, c'è una rapida panoramica dell'apprendimento rinforzato.

09:39.170 --> 09:45.500
Spero che ti abbia fatto molto piacere per il prossimo futuro, perché è un mondo completamente diverso

09:45.530 --> 09:51.980
rispetto alle soluzioni preprogrammate, soluzioni hardcoded con programmi rigidi in cui si hanno le condizioni if ​​else.

09:51.980 --> 09:53.750
Questo è molto diverso.

09:53.840 --> 09:56.010
E ne parleremo di più.

09:56.150 --> 10:03.400
quindi se ti piacerebbe avere dei materiali di supporto Ecco un grande articolo che puoi guardare e guardare.

10:03.700 --> 10:06.810
Nel frattempo abbiamo qualche lettura aggiuntiva per te,

10:06.830 --> 10:09.300
Si chiama semplice apprendimento di rinforzo con flusso tensoriale.

10:09.430 --> 10:10.570
Ha dieci parti.

10:10.570 --> 10:14.790
Il link è qui e troverai il link completo cliccabile su.

10:14.820 --> 10:22.540
Nel corso delle risorse dell'articolo di Arthur Giuliani del 2016, puoi seguire questo corso e ottenere

10:22.540 --> 10:24.770
ulteriori informazioni da quell'articolo.

10:24.790 --> 10:30.010
torche di implementazione così diversa ma impianti, ma allo stesso tempo potresti raccogliere alcune cose qua

10:30.520 --> 10:35.830
e là che potrebbero integrare il tuo apprendimento che siamo andando a fare in questo corso.

10:35.830 --> 10:41.260
Ma tieni presente che quell'articolo tende a fluire dove, come in questo corso, stiamo usando pi

10:41.260 --> 10:44.910
Così ottimi articoli ti seguono se stai pensando di seguirlo di sicuro.

10:44.920 --> 10:45.820
Ancora per ogni evenienza.

10:45.820 --> 10:51.890
Dai un'occhiata a quella prima parte e vedi se ti piace vedere se ti piacerebbe leggerlo un po 'di più.

10:52.210 --> 10:58.210
E poi abbiamo specifico per questo tutorial un apprendimento delle frontiere, c'è un lavoro di Richard Sutton

10:58.210 --> 11:00.380
che si chiama apprendimento di rinforzo.

11:00.420 --> 11:08.170
ma allo stesso tempo si può imparare un po 'sull'apprendimento del rafforzamento di alcuni esempi come l'esempio di omlet e altri esempi

11:08.170 --> 11:13.960
di dove può essere applicato l'apprendimento di rinforzo e solo una panoramica generale dell'apprendimento di rinforzo.

11:13.960 --> 11:17.710
Un'introduzione è che i giornali del 1998 sono piuttosto vecchi,

11:17.710 --> 11:23.220
Se stai cercando qualche lettura aggiuntiva e su quella nota stiamo per concludere questo tutorial.

11:23.230 --> 11:24.640
Non vedo l'ora di vederti la prossima volta.

11:24.640 --> 11:26.560
E fino ad allora goditi l'intelligenza artificiale.