WEBVTT

00:00.930 --> 00:03.970
Ciao e bentornati al corso sull'intelligenza artificiale.

00:03.990 --> 00:08.480
Quindi abbiamo parlato dell'equazione di Belman e abbiamo analizzato il nostro piccolo labirinto.

00:08.520 --> 00:11.100
Diamo un'occhiata al piano.

00:11.100 --> 00:12.400
Qual'è il piano.

00:12.750 --> 00:14.650
Bene, ecco la nostra analisi principale.

00:14.670 --> 00:20.970
E sappiamo che possiamo vedere in realtà gli stati i valori di ogni stato possiamo vedere quale sia il

00:20.970 --> 00:23.310
valore di essere in ogni singolo stato.

00:23.400 --> 00:27.810
Quindi l'IA può o l'agente può navigare in questo labirinto.

00:27.840 --> 00:28.770
Quindi qual è il piano.

00:28.770 --> 00:35.640
Bene, il piano è semplicemente come una mappa del tesoro per l'intelligenza artificiale invece di guardare questi valori

00:35.730 --> 00:41.420
che basta sostituirli con delle frecce che indicano in quale direzione l'agente dovrebbe andare.

00:41.490 --> 00:43.360
A causa di quelli perché conosce quei valori.

00:43.350 --> 00:47.230
Quindi uno scenario ideale dopo aver esplorato questo ambiente.

00:47.250 --> 00:50.860
Conosce il valore dell'essere in ogni stato e quindi puoi creare questa mappa.

00:50.870 --> 00:52.330
Quindi diamo un'occhiata di nuovo.

00:52.380 --> 00:58.410
dai due il migliore è questo. Una volta che vai da qui fuori dai due, questo è uno migliore, questo è uno migliore.

00:58.830 --> 01:02.010
Sappiamo che i tuoi valori sono uno così se sei qui fuori

01:02.010 --> 01:02.750
Questo è uno migliore.

01:02.760 --> 01:04.740
O in realtà da qui hai due opzioni a destra.

01:04.770 --> 01:11.130
Quindi è stato un po 'come un pareggio, quindi sceglierne uno a caso non importa quale, perché il valore in entrambi i

01:11.130 --> 01:16.110
casi è lo stesso, e anche se lo guardi ci vorrà lo stesso numero di passi dello

01:16.110 --> 01:18.390
stesso numero di passi per arrivare alla fine.

01:18.690 --> 01:22.520
Da qui hai tre opzioni ma questo è il valore migliore da qui.

01:22.530 --> 01:24.360
Questo è un valore migliore da qui.

01:24.360 --> 01:29.380
Ovviamente questo è stato un valore migliore perché sei sai che hai appena ottenuto meno una ricompensa subito.

01:29.590 --> 01:35.250
E da qui ne hai in realtà tre, ma questo è il migliore del miglior valore dello stato.

01:35.400 --> 01:41.190
E quindi, se li sostituiamo con le frecce, è logico che questo sia il modo in cui l'agente andrebbe se

01:41.200 --> 01:44.570
recitasse qui o risolvesse per qualche motivo che finisse in questo quadrato.

01:44.580 --> 01:46.070
Sa come uscire da qui.

01:46.280 --> 01:48.980
Le stelle e questa piazza sanno come arrivare qui e così via.

01:48.980 --> 01:51.440
Quindi questo è un piano.

01:51.440 --> 01:56.850
simile ai piani, ma hanno un piccolo trucco per loro perché l'ambiente sarà un po 'diverso.

01:56.850 --> 02:01.660
E non confondere il piano con la politica perché parleremo di politiche per l'Iran

02:01.670 --> 02:02.380
è molto

02:02.420 --> 02:07.560
Sarà stocastico ed è quello di cui parleremo nel prossimo tutorial.

02:07.910 --> 02:10.000
Quindi Conway per te sul prossimo.

02:10.020 --> 02:12.060
E fino ad allora divertiti.