WEBVTT

00:00.710 --> 00:02.430
Ciao a tutti e bentornati.

00:02.450 --> 00:04.970
In questa lezione, prepareremo il nostro ambiente.

00:05.270 --> 00:10.820
E voglio introdurre questa panoramica di più alto livello per coloro che vogliono provare a risolverlo da

00:10.820 --> 00:11.180
soli.

00:11.480 --> 00:14.120
E questo potrebbe sembrare familiare nell'ultima lezione che hai visto.

00:14.330 --> 00:15.740
Quindi, se lo leggi, mi scuso.

00:15.740 --> 00:17.270
Lo passeremo molto velocemente.

00:17.900 --> 00:18.740
Cominciando dall'inizio.

00:19.160 --> 00:24.230
In questo progetto, miriamo davvero a mantenerlo il più semplice possibile, nel senso che non abbiamo bisogno di

00:24.230 --> 00:25.400
importare troppe librerie.

00:25.400 --> 00:27.890
Fondamentalmente useremo NumPy per quello.

00:27.890 --> 00:33.050
Abbiamo solo bisogno di importare NumPy come e P, di solito il riferimento comune per numpy.

00:33.350 --> 00:37.250
E vogliamo anche creare il nostro ambiente, come vedrai qui.

00:37.520 --> 00:40.430
E lo esamineremo di nuovo molto rapidamente come panoramica.

00:40.580 --> 00:46.190
Il primo passo per il nostro apprendimento della Q è che volevamo trovare un ambiente in cui il postino deve navigare.

00:46.190 --> 00:49.910
Abbiamo bisogno che l'ambiente sia impostato in modo da poter effettivamente iterare e attraversarlo.

00:50.570 --> 00:55.340
In questa lezione, l'ambiente sarà composto da stati, azioni e ricompense.

00:55.700 --> 01:01.100
Gli stati e le azioni sono input per l'agente di apprendimento Q, mentre le azioni possibili sono gli

01:01.100 --> 01:06.410
agenti, gli output sono stati a cui possiamo pensare e considerare questa immagine come la nostra rappresentazione.

01:06.710 --> 01:11.360
Gli stati nel nostro ambiente sono tutti i possibili luoghi all'interno della città che possiamo chiamare questa città di

01:11.360 --> 01:11.630
esempio.

01:11.960 --> 01:17.810
Alcuni di questi luoghi sono i confini della città che saranno i nostri quadrati neri, mentre altri luoghi sono isole

01:17.810 --> 01:21.050
che il postino può usare per viaggiare attraverso la città.

01:21.050 --> 01:22.310
Quelli saranno i quadrati bianchi.

01:22.820 --> 01:26.750
Il quadrato verde indica la zona di imballaggio e spedizione dell'articolo.

01:27.140 --> 01:31.310
I quadrati neri e verdi sono quelli che chiameremo stati terminali.

01:31.640 --> 01:35.990
Quindi, nel complesso, il nostro obiettivo o l'obiettivo del nostro agente, vogliamo utilizzare il percorso più breve.

01:35.990 --> 01:41.810
Vogliamo che il nostro agente impari il percorso più breve tra l'area di confezionamento degli articoli, il barattolo, il verde e tutte

01:41.810 --> 01:45.050
le altre località della città in cui il postino può viaggiare.

01:49.330 --> 01:55.480
Nell'immagine sopra, abbiamo 121 possibili stati o posizioni all'interno della città.

01:55.930 --> 01:58.450
Questi stati sono disposti in una griglia 11 per 11.

01:58.750 --> 02:02.140
Ogni posizione può essere identificata dall'indice di riga e colonna.

02:02.560 --> 02:04.450
Allora quale sarebbe il nostro primo passo?

02:04.450 --> 02:07.660
E questo è davvero che voi ragazzi iniziate a pensare a come definirlo.

02:08.470 --> 02:10.340
Dobbiamo definire il nostro ambiente.

02:10.360 --> 02:13.120
Questo è un buon esempio della nostra immagine e di come la affronteremo.

02:13.120 --> 02:14.440
Quindi come lo modelleresti?

02:14.590 --> 02:20.890
Ricorda, stiamo usando NumPy, quindi dobbiamo definire questi limiti e possiamo definire un array numpy 3D per mantenere

02:20.890 --> 02:27.010
i nostri valori Q correnti per ogni coppia di stato e azione mentre vediamo la nostra rappresentazione.

02:27.520 --> 02:32.380
E per quelli di voi che non lo conoscono, o forse questo è

02:32.380 --> 02:38.110
nuovo o volete semplicemente rinfrescarvi, il manuale Air Z di questo corso è estremamente utile, altamente raccomandato.

02:38.380 --> 02:39.820
Allora cosa dobbiamo fare qui?

02:40.180 --> 02:41.140
Possiamo effettivamente.

02:41.440 --> 02:45.040
Consentitemi di espandere questo molto rapidamente per noi in modo da poterlo visualizzare un po' più facilmente.

02:45.070 --> 02:46.420
Fammi solo aggiungere alcune celle di codice.

02:46.720 --> 02:48.610
Definiremo il nostro impero 3D.

02:49.480 --> 02:50.770
Come lo faresti?

02:51.280 --> 02:52.900
Quindi abbiamo alcune opzioni.

02:52.900 --> 02:57.070
Ma l'opzione più diretta e semplice, chiamiamola righe di ambiente.

02:59.790 --> 03:01.450
Rose e impostiamolo su 11.

03:01.470 --> 03:02.590
È un 11 per 11.

03:02.680 --> 03:06.660
Quindi possiamo anche fare ambiente, colonne di sottolineatura.

03:08.860 --> 03:10.600
E potremmo anche impostarlo su 11.

03:11.170 --> 03:17.920
Infine, possiamo impostare i nostri valori Q poiché dobbiamo aggiungere il nostro numpy con le righe dell'ambiente, le colonne

03:17.920 --> 03:18.370
dell'ambiente.

03:19.910 --> 03:30.260
E possiamo impostarlo come valori Q uguali a zeri NumPy e dobbiamo usare le nostre righe di ambiente, colonne di

03:30.980 --> 03:31.730
ambiente.

03:32.790 --> 03:40.050
E abbiamo il nostro numpy array 3D, la nostra rappresentazione dell'ambiente 3D impostata con il nostro ambiente.

03:41.040 --> 03:41.520
Eccezionale.

03:42.330 --> 03:46.440
Ora e lo lasceremo qui, ma voglio che voi ragazzi iniziate a pensare a come risolverlo poiché

03:46.440 --> 03:48.120
avete già impostato il vostro ambiente.

03:48.450 --> 03:52.620
La prossima cosa che vorrai fare come suggerimento è impostare le tue azioni.

03:52.830 --> 03:55.470
Il tuo agente deve essere in grado di muoversi nell'ambiente.

03:55.710 --> 03:57.150
Quindi come lo rappresentereste?

03:57.360 --> 03:58.830
Come lo scriveresti?

03:59.070 --> 04:01.890
Per questo problema, lasciamo perdere qui.

04:01.890 --> 04:04.650
Nel prossimo video, rivisiteremo queste azioni.

04:05.100 --> 04:05.550
Eccezionale.

04:05.940 --> 04:06.960
Ci vediamo ragazzi nel prossimo video.
