WEBVTT

00:00.610 --> 00:03.190
Ciao e benvenuto in questo tutorial Python.

00:03.190 --> 00:09.460
Facciamo così, facciamo questo per il ciclo partendo da destra e andando a sinistra

00:09.460 --> 00:11.900
e per fare questo aggiungeremo quattro.

00:11.920 --> 00:17.980
Quindi questo VAR iterativo sarebbe stato il nostro passo, perché passeremo dall'ultimo passaggio al primo

00:17.980 --> 00:21.590
passaggio di una serie di transizioni e così via.

00:21.960 --> 00:29.850
E poi il trucco per andare da destra a sinistra è utilizzare per il passo invertito invertito.

00:30.160 --> 00:35.300
E ora abbiamo solo bisogno di inserire una sequenza e questa sequenza sarà ovviamente la nostra serie.

00:35.380 --> 00:41.790
Quindi possiamo mettere le nostre serie ma, come puoi vedere dal giornale, passiamo da T meno 1 per iniziare.

00:41.950 --> 00:47.760
Quindi non passiamo dall'ultima fase che è la fase terminale, ma il passaggio precedente è che c'è meno

00:47.800 --> 00:50.380
uno, ma per iniziare è il primo passo.

00:50.430 --> 00:59.090
E quindi ecco perché non dobbiamo fare quel passo prima di aggiungere colonne tra parentesi meno uno.

00:59.380 --> 01:04.270
Sono sicuro che per quelli di voi che hanno seguito l'apprendimento della macchina in

01:04.560 --> 01:11.050
un corso più profondo conoscete questo trucco, Kollin meno uno significa che state salendo all'elemento prima dell'ultimo elemento ma

01:11.050 --> 01:14.740
non fino all'ultimo elemento e quindi otteniamo la sequenza che vogliamo.

01:14.860 --> 01:20.890
Questo è ciò che andremo dall'elemento prima dell'ultimo elemento al primo elemento e che facciamo le

01:20.890 --> 01:23.900
cose invertite per andare da destra a sinistra.

01:24.160 --> 01:26.810
Bene, siamo pronti per entrare nel ciclo for.

01:27.170 --> 01:29.740
E così dentro questo ciclo, cosa faremo.

01:29.780 --> 01:32.870
Dove stiamo andando a fare esattamente come nel giornale.

01:32.900 --> 01:39.340
Stiamo andando ad aggiornare la ricompensa cumulativa moltiplicandola per Ghana e aggiungendo la parola raggiunta nella

01:39.400 --> 01:42.500
fase corrente che è nel passo del follow-up.

01:42.670 --> 01:45.450
Va bene, facciamo questo tornando a Python.

01:45.590 --> 01:57.780
E quindi vogliamo aggiornare il nostro cumulato lavoriamo come segue, prima moltiplicando per gamma.

01:57.780 --> 01:58.580
Eccoci.

01:58.660 --> 02:07.910
Qui lo moltiplichiamo per gamma e quindi vogliamo aggiungere la ricompensa di ciò a cui possiamo accedere in questo modo con

02:07.970 --> 02:09.420
la struttura speciale.

02:09.450 --> 02:13.120
Ricorda che la parola è un attributo dell'oggetto.

02:13.130 --> 02:15.910
E quindi qui ovviamente aggiungiamo un plus.

02:16.020 --> 02:17.330
Va bene, è una ricompensa cumulativa.

02:17.450 --> 02:19.310
Uguali vogliamo questo passo.

02:19.370 --> 02:25.620
Siamo in questo momento il ciclo più Gahanna volte il precedente premio cumulativo prima che sia un.

02:26.150 --> 02:26.870
Perfezionare.

02:26.870 --> 02:28.190
Quindi ora penso che siamo bravi.

02:28.220 --> 02:30.180
Stiamo seguendo a fondo l'algoritmo.

02:30.500 --> 02:32.600
E ora tempo per i prossimi passi.

02:32.840 --> 02:35.090
Bene, diventerà piuttosto facile.

02:35.090 --> 02:40.880
Torniamo al primo follow-up perché questo ciclo for è solo per calcolare la ricompensa cumulativa che non

02:41.060 --> 02:44.010
va dalla destra alla sinistra aggiornando in questo modo.

02:44.030 --> 02:50.930
Seguire l'algoritmo e ora, come ricordi, l'obiettivo di fare questo è ottenere i nostri input pronti e i nostri obiettivi pronti

02:50.930 --> 02:55.950
in modo che possiamo ridurre al minimo la differenza quadratica tra i due per l'allenamento.

02:55.950 --> 03:01.020
E così ora come ora, l'unica cosa che dobbiamo fare è ottenere questi input e il bagno è pronto.

03:01.220 --> 03:08.410
Facciamo prima ciò che dobbiamo aggiungere la prima data della serie nel nostro elenco delle parti.

03:08.510 --> 03:11.460
Finora questo stato è in questa parte del nostro obiettivo.

03:11.480 --> 03:14.100
Era solo per calcolare l'output.

03:14.270 --> 03:19.370
Quindi otterremo questo stato di input del primo passo separatamente, perché è esattamente quello

03:19.370 --> 03:21.320
che dobbiamo fare nella nostra lista.

03:21.380 --> 03:23.340
Quindi prendiamo questo separatamente.

03:23.360 --> 03:25.910
Quindi lo chiameremo stato.

03:26.000 --> 03:32.930
E così esattamente come qui possiamo ottenerlo in questo modo prendendo il primo indice della serie che contiene la

03:32.930 --> 03:38.300
prima transizione e quindi aggiungendo quello stato per ottenere lo stato di questa prima transizione.

03:38.330 --> 03:44.390
Questo è il sito di cui abbiamo bisogno, quindi diciamo che otterremo separatamente gli obiettivi associati a

03:44.840 --> 03:46.830
questa fase di input della transizione.

03:46.880 --> 03:53.450
E quindi una nuova variabile interessante qui target che sarà uguale al valore del primo passo.

03:53.540 --> 03:59.990
E poiché il valore Q viene restituito dalla rete neurale e dal suo contenuto e output

04:00.070 --> 04:07.370
e poiché output è l'uscita associata a questo input che contiene il primo del pozzo di transizione possiamo ottenere

04:07.370 --> 04:12.830
questo valore q della prima data semplicemente prendendo l'output qui e prendendo l'indice zero.

04:13.100 --> 04:20.630
E poi aggiungiamo quei dati che ci otterranno semplicemente il valore Q dello stato di input della prima transizione e che

04:21.050 --> 04:22.310
è esattamente il tempo.

04:22.320 --> 04:30.080
Q In questo modo, quindi, aggiorneremo questa variabile target, ma solo per l'azione selezionata nel primo

04:30.080 --> 04:35.680
passaggio della serie e per accedere a questo primo passaggio della serie.

04:35.870 --> 04:42.710
Bene, dobbiamo prendere la prima serie 0 perché questo è esattamente il primo passo di una serie 3 0.

04:42.970 --> 04:50.290
E per accedere all'azione corrispondente a questo primo passaggio della serie, dobbiamo aggiungere qui di nuovo

04:50.380 --> 04:57.340
quell'azione che è questa struttura di attributi che stiamo usando. L'azione è un attributo del

04:57.340 --> 04:58.900
primo passo della serie.

04:58.900 --> 05:04.570
Questa è la prima transizione della serie perché ogni transizione della serie ha la seguente parola

05:04.720 --> 05:11.350
di azione dello stato della struttura e fatta così azione qui questa azione attributo qui significa che stiamo

05:11.500 --> 05:14.150
semplicemente ottenendo l'azione di questa prima data.

05:14.330 --> 05:21.320
E quindi l'obiettivo per quella specifica azione del primo passo è esattamente ciò che deve essere aggiornato

05:21.410 --> 05:22.850
dalla comunità del mondo.

05:22.850 --> 05:29.490
Quindi, in pratica qui stiamo solo andando a scrivere quell'obiettivo associato all'azione che è stata giocata.

05:29.630 --> 05:35.810
Il primo passo della serie è questa ricompensa cumulativa che abbiamo appena calcolato.

05:36.130 --> 05:44.780
pronti ad aggiornare il nostro contributo aggiungendo questo primo soggiorno qui e questo primo appuntamento qui per la prima ora.

05:44.780 --> 05:46.770
Bene e ora siamo finalmente

05:46.970 --> 05:53.090
Abbiamo solo bisogno di aggiornare il primo passo della serie perché sai che addestriamo l'IA su 10 passi e

05:53.090 --> 05:56.000
quindi l'input è il primo passo dei dieci passi.

05:56.180 --> 06:01.400
E inoltre otteniamo l'obiettivo in questo primo passaggio, ma non otteniamo input o servizi igienici

06:01.400 --> 06:06.310
nei seguenti passaggi dei 10 passaggi, perché in pratica l'apprendimento avviene dopo 10 passaggi.

06:06.500 --> 06:11.380
Ecco perché in questo momento otteniamo solo lo stato e l'obiettivo del primo passo della serie.

06:11.840 --> 06:16.820
Quindi è importante capirlo e quindi se capiamo che ora capiamo che dobbiamo inserirli

06:16.820 --> 06:20.590
nella nostra lista di input e nella nostra lista di obiettivi.

06:20.660 --> 06:21.560
Quindi facciamolo.

06:21.560 --> 06:25.140
Innanzitutto, aggiungiamo gli stati ai nostri input.

06:25.190 --> 06:33.680
Quindi prendiamo la nostra lista di input e usiamo la funzione append per aggiungere lo stato che ricorda lo stato di

06:33.680 --> 06:41.030
input del primo passo della serie e quindi aggiungeremo l'obiettivo al primo passaggio alla nostra lista di obiettivi e

06:41.120 --> 06:47.270
per fare ciò prendiamo la nostra lista di obiettivi e diciamo che usiamo la funzione append

06:47.270 --> 06:49.460
per aggiungere questo primo obiettivo.

06:49.490 --> 06:50.360
Eccoci.

06:50.540 --> 06:56.750
di cui avevamo bisogno, come abbiamo detto all'inizio di questo tutorial, gli input e gli obiettivi che sono ora aggiornati.

06:56.840 --> 07:01.760
Quasi finito e ora abbiamo bisogno di restituire le ultime cose che sono ovviamente ciò

07:02.090 --> 07:07.580
Quindi andremo ad aggiungere qui ogni turno e otterremo i nostri input prima, ma questa

07:07.580 --> 07:14.660
è la cosa di cui abbiamo bisogno per convertirli in un array di numeri prima di fare una conversione

07:14.660 --> 07:21.710
di tipo per assicurarci di avere un singolo tipo con il tipo tu uguaglia e questo galleggia 32 lo stesso.

07:21.890 --> 07:28.520
E poi convertiamo questo in un tensore torcia perché ovviamente stiamo lavorando con una torcia che è

07:28.730 --> 07:29.540
totalmente obbligatoria.

07:29.570 --> 07:36.040
E così sto usando di nuovo la torcia della funzione non-tailandese.

07:37.180 --> 07:39.000
E questo ci dà i nostri input.

07:39.130 --> 07:39.590
Perfezionare.

07:39.590 --> 07:42.460
E ora facciamo lo stesso per gli obiettivi.

07:42.520 --> 07:44.620
Ora possiamo usare questo trucco che è più veloce.

07:44.710 --> 07:50.950
Stiamo andando a raggruppare gli obiettivi insieme e per fare questo dobbiamo prendere prima

07:50.950 --> 07:57.230
la nostra libreria torcia perché useremo la funzione pila per torcia per impilare i bersagli.

07:57.250 --> 07:57.550
Tutto ok.

07:57.550 --> 08:04.030
E così questa riga di codice restituisce sostanzialmente gli input ei servizi igienici che sono stati appena aggiornati

08:04.030 --> 08:07.100
tramite questo algoritmo di tracciabilità di Sarsour di idoneità.

08:07.180 --> 08:10.710
Oppure possiamo chiamarlo e intervenire e inviare le nostre congratulazioni.

08:10.780 --> 08:16.540
Eravamo pronti a fare l'allenamento finale perché fondamentalmente la formazione consiste nel ridurre al minimo

08:16.540 --> 08:20.950
le differenze quadrate tra le previsioni dei nostri input e le toilette.

08:21.160 --> 08:22.870
Quindi diamo i nostri occhi intelligenti.

08:22.870 --> 08:25.150
Diventerà intelligente e il prossimo è.

08:25.210 --> 08:26.980
E così fino ad allora goditi l'intelligenza artificiale.