WEBVTT

00:00.510 --> 00:02.990
Ciao e benvenuto in questo tutorial Python.

00:03.240 --> 00:08.400
Va bene, ora faremo la funzione diretta che propagherà i segnali di uscita del nostro

00:08.400 --> 00:13.550
cervello al corpo dell'IA in modo che giochi l'azione giusta per raggiungere il giubbotto.

00:13.770 --> 00:20.100
Ma non c'è ancora alcuna reazione perché non c'è allenamento che non abbiamo ancora addestrato l'IA, ma

00:20.100 --> 00:25.920
questo è esattamente ciò che faremo in parte per implementare in una profonda convoluzione curvilinea che,

00:25.920 --> 00:29.720
tra l'altro, rinominerò l'addestramento dell'IA con un Killary convoluzionale profondo.

00:29.940 --> 00:35.340
Ma in questo momento abbiamo bisogno di inoltrare il segnale dallo strato di uscita del cervello al corpo.

00:35.370 --> 00:40.170
esattamente ciò che faremo con questa funzione avanzata che è l'ultima funzione del nostro corpo.

00:40.170 --> 00:40.670
Ed è

00:41.420 --> 00:42.860
Quindi facciamolo.

00:42.860 --> 00:50.140
Iniziamo con Teff e in base a voi quali argomenti prenderà.

00:50.330 --> 00:55.030
Bene, ci vorrà prima forza di sé e poi ce n'è un altro.

00:55.220 --> 00:56.740
Ebbene sì, c'è.

00:56.870 --> 00:58.140
E cosa sarà.

00:58.310 --> 01:04.700
Bene, molto naturalmente, vogliamo trasmettere il segnale di uscita del cervello al corpo e quindi l'ingresso

01:04.700 --> 01:07.470
sarà il segnale di uscita del cervello.

01:07.850 --> 01:10.480
E così ora dobbiamo dare un nome a questi segnali esteriori.

01:10.610 --> 01:14.390
E quindi aggiungerò qui la discussione.

01:14.460 --> 01:21.200
Va bene così che corrisponde ai segnali di uscita del cervello dopo che le immagini di input sono state propagate attraverso

01:21.200 --> 01:26.540
tutto il cervello per raggiungere l'uscita in seguito, che è X qui ritorna dalla funzione in avanti

01:26.540 --> 01:27.170
del cervello.

01:27.380 --> 01:32.480
E ora questo segnale di uscita del cervello verrà inoltrato al corpo con questa

01:32.480 --> 01:35.410
nuova funzione avanzata che realizzeremo nella prossima lezione.

01:35.460 --> 01:41.760
'di colore qui e ora, come hai capito, useremo il prossimo metodo sillabato per giocare l'azione.

01:41.870 --> 01:43.940
Facciamo così, aggiungiamo un po

01:43.940 --> 01:49.820
Ciò significa che il corpo della nostra IA dopo aver ricevuto i segnali di uscita del cervello svolgerà le

01:49.820 --> 01:51.440
azioni con la tecnica successiva.

01:51.440 --> 01:56.510
Quindi, in pratica, ora quello che dobbiamo fare è esattamente lo stesso di quello che abbiamo fatto per la macchina.

01:56.600 --> 01:59.390
Stiamo per ottenere la nostra distribuzione delle probabilità.

01:59.540 --> 02:05.960
Questo è il primo passo e quindi andremo a campionare un'azione in base a questa distribuzione di probabilità.

02:05.960 --> 02:11.510
Quindi, in pratica, quello che potremmo fare ora è ottenere il nostro file auto auto-guida e copia incolla di ciò che

02:11.510 --> 02:14.570
abbiamo implementato per la funzione effettivamente selezionata nell'auto a guida automatica.

02:14.810 --> 02:15.700
Ma facciamolo di nuovo.

02:15.710 --> 02:19.710
Sarà una buona pratica e in realtà puoi provare a digitarla prima di me.

02:20.150 --> 02:23.870
OK, per prima cosa quello che faremo è ottenere le nostre probabilità.

02:23.870 --> 02:29.930
Quindi ricordo che questa è una distribuzione di probabilità per ciascuno dei valori q che dipendono dall'immagine di

02:29.960 --> 02:31.790
input e da ciascuna azione.

02:31.790 --> 02:38.120
Quindi abbiamo un valore chiave per ciascuna delle sei o sette azioni possibili e quindi otteniamo una distribuzione

02:38.120 --> 02:43.600
di sette probabilità e poi 7 perché penso che ci siano sette azioni invece di sei.

02:43.670 --> 02:50.010
quindi otteniamo una distribuzione di sette probabilità una per ogni valore q associato a ciascuna azione.

02:50.420 --> 02:57.260
Perché oltre a spostarci a destra o a sinistra possiamo anche correre che fa sette azioni possibili e

02:57.260 --> 02:58.930
Quindi Propst è uguale.

02:59.040 --> 03:00.670
E ora ricorda cosa dovevamo fare.

03:00.860 --> 03:06.650
In pratica, dobbiamo utilizzare la funzione max soughed dal modulo funzionale.

03:06.680 --> 03:13.010
Questo è molto semplice, prima prendiamo il nostro modulo funzionale e poi prendiamo la nostra prossima

03:13.130 --> 03:13.700
funzione.

03:13.700 --> 03:14.480
Ecco qui.

03:14.570 --> 03:22.430
della funzione successiva che ricordo sono gli elementi per i quali si desidera creare una distribuzione di probabilità.

03:22.430 --> 03:25.290
Premiamo invio e ora inseriamo gli argomenti

03:25.550 --> 03:30.560
E quindi questo è ovviamente il valore di q che è l'output della rete neurale.

03:30.680 --> 03:35.830
Questo è l'output della rete neurale per cui si desidera creare una distribuzione di probabilità.

03:35.990 --> 03:41.270
Ora ricordaci di voler creare questa distribuzione di probabilità per poter esplorare le diverse azioni

03:41.270 --> 03:45.760
invece di scegliere direttamente quella che ha il valore massimo di Q.

03:46.010 --> 03:51.020
Se prendiamo direttamente quello che ha il valore massimo di Q, non esploriamo molto le altre azioni

03:51.350 --> 03:52.650
e potremmo perdere qualcosa.

03:52.880 --> 03:58.760
ancora qualche esplorazione e quindi forse trovare alcune soluzioni nascoste nei modelli che potrebbero essere molto migliori.

03:58.760 --> 04:01.520
Ma con questo prossimo metodo sillabato possiamo fare

04:01.850 --> 04:08.060
Quindi di nuovo raccomando fortemente Nax e poi da ora quello che dobbiamo fare è inserire qui i valori

04:08.060 --> 04:09.560
che sono il nostro risultato.

04:09.560 --> 04:13.860
Le uscite del nostro cervello producono così risultati che andiamo.

04:13.970 --> 04:21.710
Ma poi abbiamo questo parametro di temperatura che possiamo usare che possiamo configurare per personalizzare l'esplorazione.

04:21.710 --> 04:28.130
Ricorda che maggiore è la temperatura impostata, minore sarà l'esplorazione delle altre azioni perché l'azione

04:28.130 --> 04:33.260
migliore verrà selezionata con una probabilità più alta rispetto alle altre azioni

04:33.260 --> 04:35.910
che saranno selezionate con probabilità inferiori.

04:35.930 --> 04:42.620
Questo è esattamente come in una macchina e quindi dobbiamo moltiplicare l'output qui per il nostro

04:43.010 --> 04:51.800
parametro di temperatura t che ora siamo perfetti ora riceviamo un piccolo avvertimento perché non abbiamo ancora usato i prep, ma

04:51.810 --> 04:53.220
stiamo per usarlo ora.

04:53.260 --> 04:55.540
E così questo ci porta alla prossima cosa che dobbiamo fare.

04:55.540 --> 04:57.750
Come useremo queste probabilità.

04:57.910 --> 05:04.390
Bene, proveremo l'azione finale da giocare da questa distribuzione di probabilità e quindi quello che dobbiamo

05:04.990 --> 05:10.960
fare ora è usare la funzione multinomiale per campionare l'azione in base a questa distribuzione

05:10.960 --> 05:12.080
di probabilità.

05:12.370 --> 05:15.030
Quindi ora siamo pronti per ottenere le nostre azioni.

05:15.190 --> 05:20.500
Quindi sto creando un nuovo Voivode qui perché diventerà un'azione che verrà eseguita dal corpo

05:20.500 --> 05:21.490
della nostra IA.

05:21.520 --> 05:30.330
E così ora prendiamo i nostri probs di distribuzione delle probabilità a cui aggiungiamo i punti e quindi il metodo

05:30.880 --> 05:31.480
multi-normale.

05:32.220 --> 05:38.030
Va bene e ora otteniamo le nostre azioni finali per suonare lì assemblate dalla nostra distribuzione di oggetti di scena.

05:38.430 --> 05:39.570
Ok perfetto

05:39.570 --> 05:42.300
Quindi ora eravamo pronti a restituire ciò che vogliamo.

05:42.360 --> 05:44.450
Questa è l'azione da giocare.

05:44.670 --> 05:48.720
E queste sono ovviamente azioni e ora l'avviso dovrebbe scomparire.

05:48.840 --> 05:50.440
Usiamo tutto ciò che vogliamo.

05:50.460 --> 05:51.270
Eccoci.

05:51.270 --> 05:52.020
Perfezionare.

05:52.210 --> 05:53.950
Quindi ora la funzione forward è pronta.

05:54.080 --> 05:55.740
E congratulazioni.

05:55.800 --> 05:57.300
Anche il corpo è pronto.

05:57.540 --> 05:59.070
Quindi ora abbiamo il nostro cervello.

05:59.190 --> 06:05.760
Abbiamo il nostro corpo e quindi siamo pronti a riunirli per rendere la futura AI la nostra futura IA. Io

06:05.760 --> 06:08.900
sarò composto nient'altro che un cervello e un corpo.

06:08.970 --> 06:14.160
E così è ciò che hanno intelligenza e un corpo per svolgere le azioni che saranno le

06:14.160 --> 06:16.610
azioni giuste per giocare grazie alla sua intelligenza.

06:16.620 --> 06:22.060
Ma ricorda prima di allenare la sua intelligenza e questo è ciò che faremo in

06:22.070 --> 06:25.180
parte per allenare l'occhio con il cool learning convoluzionale.

06:25.200 --> 06:25.500
Tutto ok.

06:25.500 --> 06:28.470
Quindi facciamo l'intelligenza artificiale nelle prossime fatiche.

06:28.490 --> 06:31.810
Penso che sarà di nuovo una classe di due funzioni.

06:31.950 --> 06:34.510
E quindi questo richiede due o tre tutorial.

06:34.680 --> 06:35.660
Quindi non posso aspettare.

06:35.670 --> 06:36.780
Questo sarà eccitante.

06:36.780 --> 06:37.930
E fino ad allora I.