WEBVTT

00:01.400 --> 00:02.990
Ciao e bentornato.

00:03.320 --> 00:08.930
Nell'ultima lezione, abbiamo finito per completare o finalizzare la definizione effettiva del nostro ambiente, la rappresentazione

00:08.930 --> 00:14.090
dei nostri valori, la nostra punizione in ricompense e le nostre azioni nell'ambiente.

00:14.450 --> 00:20.510
In questa lezione, quello che voglio fare è introdurre la formazione, l'idea alla base di come addestrare

00:20.510 --> 00:22.730
il modello e aiutarti a iniziare.

00:22.910 --> 00:28.340
E poi nella prossima lezione fornisci la soluzione e più di una ripartizione per i passaggi coinvolti.

00:28.610 --> 00:32.660
Quindi dobbiamo addestrare il modello su ciò che sarebbe richiesto dalla formazione.

00:33.620 --> 00:38.750
Questo è un approccio che possiamo utilizzare per i seguenti passaggi per l'addestramento del modello.

00:38.750 --> 00:44.180
Vogliamo scegliere uno stato casuale non terminale, che sarebbe il quadrato bianco del nostro agente, ed è così

00:44.180 --> 00:46.880
che vogliamo iniziare nel nostro episodio per l'allenamento.

00:47.330 --> 00:50.300
Quindi ovviamente vogliamo scegliere un'azione per lo stato attuale.

00:50.300 --> 00:53.030
Abbiamo bisogno che il nostro agente sia in grado di muoversi nell'ambiente.

00:53.210 --> 00:59.150
Quindi le azioni per noi e per il nostro agente in questa sfida verranno scelte utilizzando Epsilon Greek.

00:59.780 --> 01:04.730
Questo algoritmo sceglierà solitamente l'azione più promettente per l'agente, ma occasionalmente sceglierà un'opzione

01:04.730 --> 01:05.810
meno promettente.

01:05.810 --> 01:10.580
Per incoraggiare l'agente a esplorare l'ambiente, vogliamo davvero trovare la politica ottimale.

01:11.300 --> 01:14.960
Quindi vogliamo eseguire l'azione scelta e passare allo stato successivo.

01:15.200 --> 01:16.340
Passa alla posizione successiva.

01:16.550 --> 01:21.200
E perché sto dicendo questo è che voglio che voi ragazzi pensiate a come potete suddividerlo in

01:21.200 --> 01:22.760
funzioni per risolvere questo problema.

01:23.540 --> 01:29.390
Successivamente, dobbiamo ricevere una ricompensa per essere passati a un nuovo stato e quindi calcolare la differenza temporale.

01:29.750 --> 01:35.480
Dobbiamo aggiornare il valore Q per lo stato precedente e la coppia di azioni, e se la nuova valuta è

01:35.480 --> 01:37.280
uno stato terminale, andremmo a uno.

01:37.610 --> 01:39.200
Altrimenti andremmo al passaggio numero due.

01:39.470 --> 01:43.400
Quindi, per l'intero processo, mireremo a correre per un migliaio di episodi da addestrare.

01:43.670 --> 01:50.750
Questo ci darà un'opportunità sufficiente o al nostro agente un'opportunità sufficiente per calcolare il percorso più breve tra

01:50.750 --> 01:55.520
l'area di imballaggio dell'articolo e altre posizioni nella nostra città di esempio.

01:56.540 --> 01:57.020
Eccezionale.

01:57.530 --> 02:02.840
Quindi, per favore, pensa a come ti avvicini a questo e voglio aiutarti a darti un'idea per provare a risolverlo.

02:03.050 --> 02:07.970
Quindi esamineremo la nostra soluzione, utilizzeremo le seguenti funzioni.

02:08.540 --> 02:11.540
Posso effettivamente commentare questo dato che è un codice, quindi mi scuso.

02:11.960 --> 02:13.070
Non vogliamo il simbolo del dollaro.

02:13.310 --> 02:17.990
Vogliamo commentarli e ti aiuterò a iniziare con il primo.

02:18.990 --> 02:25.650
Nel complesso, queste funzioni definiranno i nostri passaggi per l'addestramento del modello e per aiutarti a

02:25.650 --> 02:26.470
iniziare.

02:26.490 --> 02:31.140
Diamo un'occhiata a come ci avvicineremmo allo stato terminale nella creazione di una funzione all'interno di Python per

02:31.140 --> 02:31.440
questo.

02:31.800 --> 02:36.150
Per prima cosa vorremmo ovviamente definire la nostra funzione così com'è.

02:37.640 --> 02:39.230
Stato terminale.

02:40.670 --> 02:44.630
E questi sono i nomi delle funzioni che vedrai per darti un'idea che potrebbe aiutarti a

02:44.630 --> 02:45.050
scomporla.

02:45.500 --> 02:50.870
Quello che vogliamo fare è prendere l'indice di riga corrente e l'indice di colonna corrente.

02:52.980 --> 03:01.440
Questo ci aiuterà a darci la posizione del nostro agente e possiamo aggiungere qui per le nostre ricompense un vero o un

03:01.440 --> 03:02.000
falso.

03:02.010 --> 03:02.610
Quindi ne abbiamo bisogno.

03:03.150 --> 03:05.490
Quindi impostiamo il nostro se le nostre ricompense.

03:07.430 --> 03:08.300
Della nostra corrente.

03:09.410 --> 03:11.270
Indice di riga.

03:12.510 --> 03:13.260
E attuale.

03:14.040 --> 03:19.890
Indice di colonna uguale a uno negativo se si trovano in quello stato.

03:24.330 --> 03:28.200
Vorremmo restituire false o altrimenti o altro.

03:29.880 --> 03:30.690
Ci torneremmo.

03:31.500 --> 03:31.830
VERO.

03:33.620 --> 03:34.670
Abbastanza semplice.

03:35.450 --> 03:41.360
Ed è così che avremo la nostra idea del nostro stato terminale dopo che avremo se esiste nello stato

03:41.360 --> 03:44.090
terminale, quindi vogliamo ottenere la posizione di partenza.

03:44.270 --> 03:50.660
Come suggerimento, puoi dare un'occhiata all'utilizzo dell'indice di riga corrente nell'indice di colonna corrente e impostare

03:50.660 --> 03:52.730
numpy con un casuale.

03:52.730 --> 03:56.960
Vogliamo inizializzarlo in modo casuale nelle colonne dell'ambiente delle righe dell'ambiente.

03:57.290 --> 04:00.590
Ma nella prossima lezione vedrai un guasto.

04:00.590 --> 04:04.520
Vedrai il resto delle funzioni con alcune note per aiutarti a darti un'idea.

04:04.880 --> 04:08.960
Spero davvero che voi ragazzi cogliete l'occasione per sperimentare questo perché è solo un modo

04:08.960 --> 04:12.050
fantastico per imparare a darvi un'idea e questo è per iniziare.

04:12.260 --> 04:15.080
Quindi non preoccuparti, otterrai la soluzione nella prossima lezione.

04:15.320 --> 04:21.730
E poi concluderemo le cose assegnando effettivamente un eccellente fattore di sconto all'apprendimento, quel tipo di cose

04:21.800 --> 04:25.490
per l'allenamento, l'esecuzione dell'allenamento e la visualizzazione dei risultati.

04:26.030 --> 04:26.660
Eccezionale.

04:27.380 --> 04:29.360
Fermiamoci di nuovo qui.

04:29.750 --> 04:30.830
Prova a risolvere questo.

04:30.830 --> 04:35.360
In caso contrario, se vuoi solo avanzare, vai alla lezione successiva e otterrai la soluzione per

04:35.360 --> 04:37.910
la formazione per la definizione di queste funzioni.

04:38.450 --> 04:40.130
Va bene, ci vediamo ragazzi alla prossima lezione.