WEBVTT

00:00.330 --> 00:02.320
Ciao e benvenuto nella storia.

00:02.460 --> 00:09.240
Va bene così, dopo aver realizzato queste quattro convoluzioni e la LCN, ora abbiamo uno stato codificato che

00:09.240 --> 00:14.500
sarà l'input di queste due reti neurali che creeremo per l'attore e il critico.

00:14.790 --> 00:20.730
E parlando di loro l'unica cosa che dobbiamo fare ora è creare strumenti nelle nostre connessioni complete.

00:20.730 --> 00:22.880
Uno per l'attore e uno per il critico.

00:23.190 --> 00:27.260
Ma prima di farlo dobbiamo ottenere il numero di azioni possibili.

00:27.290 --> 00:32.520
E quindi ti chiamerò variabile qui che non sarà una variabile dell'oggetto.

00:32.520 --> 00:38.970
ma creerò delle uscite non valide che rappresenteranno un numero di azioni possibili e per ottenerlo.

00:38.970 --> 00:41.610
Quindi non ho intenzione di usarmi qui,

00:41.760 --> 00:44.520
Bene, possiamo ottenerlo dallo spazio azione.

00:44.520 --> 00:51.330
Quindi prendiamo il nostro spazio azione che sarà l'input della funzione quando creeremo l'oggetto.

00:51.510 --> 00:56.300
E poi aggiungiamo questo e per ottenere questo numero di azioni possibili.

00:56.580 --> 01:03.180
E ora l'attore e il critico prenderanno separatamente lo stesso input che è l'output di questo

01:03.180 --> 01:06.290
intero processo qui con le convoluzioni e GLSEN.

01:06.500 --> 01:12.900
Quindi prenderà lo stesso input che è uno stato codificato, ma poi avranno due connessioni lineari differenti in

01:13.110 --> 01:19.000
modo da ottenere alla fine due reti neurali una per le due e una per un critico.

01:19.020 --> 01:21.030
Quindi facciamo queste due reti neurali separate.

01:21.060 --> 01:27.360
Ma dal momento che abbiamo già fatto il grosso lavoro con la codifica qui bene, quello che dobbiamo semplicemente

01:27.360 --> 01:33.640
fare è creare due oggetti uno nella connessione completa per l'attore e un'altra connessione lineare per il critico.

01:33.660 --> 01:35.430
E quindi è esattamente quello che farò.

01:35.490 --> 01:42.560
Creerò due oggetti ora un primo oggetto per la connessione lineare del critico

01:42.570 --> 01:49.210
che chiamerò critico e il punteggio Linnie e per creare questa connessione lineare.

01:49.380 --> 01:55.020
Sai come farlo, abbiamo semplicemente bisogno di prendere il modulo motore e quindi la classe lineare a cui

01:55.020 --> 01:55.800
abbiamo due ingressi.

01:55.880 --> 02:01.800
Bene i neuroni di input che sono le uscite di tutto questo incluso qui con

02:01.910 --> 02:05.190
le convoluzioni e il GM che è 256 neuroni.

02:05.190 --> 02:12.120
Quindi quando ne metto duecentocinquantasei qui e poi avremo un output perché ricordo che l'output della rete neurale

02:12.210 --> 02:17.940
per il critico è il valore della funzione applicata allo stato di input agli stati

02:18.080 --> 02:20.960
codificati degli input che abbiamo fatto Qui.

02:21.180 --> 02:28.680
Quindi se chiamiamo lo stato dell'ingresso che è l'output di tutto questo, l'uscita della rete neurale del

02:28.680 --> 02:32.530
critico sarà VS e quindi ha una dimensione.

02:32.550 --> 02:33.710
È solo un valore

02:33.870 --> 02:36.320
E così qui ne mettiamo uno.

02:36.510 --> 02:43.020
E ricorda che questo è ciò che è condiviso tra gli attori in modo che possano ottenere alcune informazioni comuni che

02:43.020 --> 02:46.590
possono usare per svolgere la loro azione in un modo più pertinente.

02:46.980 --> 02:50.430
OK, questo è per la rete neurale del critico.

02:50.580 --> 02:59.820
E ora facciamo la nuova rete dell'attore e quindi io sono qui autodidatta attore lineare e lo stesso abbiamo

02:59.850 --> 03:02.830
già gli ingressi con stati codificati.

03:02.850 --> 03:08.430
e quindi dire che prendiamo in un modulo quindi la classe lineare e ora

03:08.430 --> 03:15.870
dicendo che questa nuova rete dell'attore prenderà lo stato codificato che ha la dimensione di 256 quindi 256 qui.

03:15.870 --> 03:19.840
Quindi ora abbiamo semplicemente bisogno di aggiungere una connessione lineare

03:20.070 --> 03:26.010
Ma poi l'output sarà diverso perché ovviamente si sa che l'output della rete neurale

03:26.010 --> 03:30.790
per l'altro attore dell'attore coinvolge i valori chiave degli stati di input.

03:30.860 --> 03:33.620
Quello che potremmo sentire e il piatto d'azione.

03:33.810 --> 03:40.980
Quindi, di nuovo, se chiamiamo questo stato codificato che intendiamo qui come un'azione riprodotta un output di

03:40.980 --> 03:44.480
questa rete neurale effettivamente ci sarà q come a.

03:44.880 --> 03:50.010
E poiché sai che abbiamo un enorme valore per ogni azione, quindi non abbiamo output.

03:50.010 --> 03:57.680
quindi l'output qui saranno non output perché nessun output è in realtà il numero di umani.

03:57.680 --> 03:59.380
I valori Q e

03:59.840 --> 04:01.100
Ok perfetto

04:01.130 --> 04:05.360
Quindi se vuoi posso scrivere qui per te.

04:05.390 --> 04:18.410
Il critico è buono come lo stato codificato e per l'attore l'output è carino come va bene.

04:18.410 --> 04:23.750
Quindi è molto importante capire questa distinzione qui e capire che abbiamo quindi due

04:23.900 --> 04:25.370
reti di notizie separate.

04:25.370 --> 04:29.370
Uno per il critico e uno per l'attore Ok, perfetto.

04:29.380 --> 04:32.080
Quindi abbiamo quasi finito con questa funzione.

04:32.170 --> 04:33.920
Ora la cosa più importante è fatta.

04:34.030 --> 04:39.370
L'unica cosa che rimane da fare è inizializzare tutti i pesi di queste due reti neurali e

04:39.790 --> 04:40.830
tutti i pregiudizi.

04:40.860 --> 04:45.800
E ovviamente per fare ciò utilizzeremo le due funzioni che abbiamo creato in precedenza, ovvero l'inizializzatore

04:45.900 --> 04:48.480
di colonne normalizzato e i pesi in esso contenuti.

04:48.490 --> 04:49.720
Quindi facciamolo velocemente.

04:49.870 --> 04:52.180
Sarà piuttosto facile e abbastanza veloce.

04:52.180 --> 04:56.590
dei pesi casuali e per fare questo applicheremo i pesi in esso funzione al nostro oggetto.

04:56.590 --> 04:58.420
Quindi, per prima cosa iniziamo a inizializzare

04:58.420 --> 05:03.150
Quindi qui dobbiamo prendere se stessi per ottenere il nostro oggetto e per obiettare.

05:03.160 --> 05:06.440
Applichiamo il peso nella sua funzione.

05:06.620 --> 05:14.200
Quindi all'interno abbiamo solo bisogno di mettere i pesi in quella funzione e poi otteniamo che applicheremo questa funzione al

05:14.200 --> 05:20.080
nostro oggetto e così facendo stiamo inizializzando solo dei pesi casuali per ottenere un futuro

05:20.140 --> 05:21.930
apprendimento ottimale di questi pesi.

05:22.000 --> 05:27.460
E ora quello che dobbiamo fare è fare una normalizzazione speciale per l'attore e il critico.

05:27.670 --> 05:33.700
una stessa varianza per la X in acrilico yakked si otterrà una piccola deviazione standard piccola varianza.

05:33.780 --> 05:38.890
Ma ricorda che penso di averlo detto nelle precedenti esercitazioni non abbiamo intenzione di impostare

05:38.890 --> 05:40.840
E i critici ne avranno uno grande.

05:40.840 --> 05:41.800
E perché lo facciamo.

05:41.800 --> 05:47.560
Qual è lo scopo di dare una piccola deviazione standard dei pesi per l'attore e l'ampia deviazione standard

05:47.560 --> 05:49.320
della via per il critico.

05:49.510 --> 05:53.830
Bene, questo permette di gestire l'esplorazione e lo sfruttamento.

05:53.830 --> 05:58.620
Questo è esattamente lo scopo di fare questo dando una piccola varianza all'attore in un pubblico più

05:58.630 --> 05:59.460
ampio alla critica.

05:59.490 --> 06:04.510
Avremo una buona gestione dell'esplorazione vs dello sfruttamento.

06:04.600 --> 06:07.510
Facciamo così, prima prendiamoci cura dell'attore.

06:07.510 --> 06:14.170
Quindi prendiamo il sé o l'oggetto, quindi prendiamo la rete neurale del nostro attore che è l'attore

06:14.270 --> 06:20.350
Linnea, quindi accediamo ai pesi di questa nuova rete dell'attore e ricordiamo di accedere ai dati

06:20.350 --> 06:23.360
dei pesi di cui abbiamo bisogno quei dati.

06:23.410 --> 06:24.280
Tutto ok.

06:24.280 --> 06:31.000
Quindi con questo otteniamo i pesi e ora useremo la nostra funzione inizializzatore del pettine normalizzato.

06:31.390 --> 06:36.520
Quindi copio questo incastro qui e inseriremo un argomento.

06:36.520 --> 06:38.810
La deviazione standard vogliamo che questi pesi abbiano.

06:39.160 --> 06:42.130
Ma innanzitutto ricorda che questa funzione richiede due argomenti.

06:42.200 --> 06:45.280
Per prima cosa vogliamo inizializzarci.

06:45.280 --> 06:49.750
Quindi, dobbiamo semplicemente riprenderlo e basarlo qui.

06:49.870 --> 06:53.010
E il secondo argomento è la deviazione standard.

06:53.170 --> 06:54.420
Vogliamo che questi pesi abbiano.

06:54.580 --> 07:02.880
Quindi, come abbiamo detto, vogliamo una piccola deviazione standard per l'attore in una piccola sarà 0. 01 perfetto.

07:02.890 --> 07:05.880
Ecco dove sono i pesi della rete neurale dell'attore.

07:05.900 --> 07:09.610
Ora prendiamoci cura del pregiudizio del nuovo quel lavoro dell'attore.

07:09.850 --> 07:15.460
E quindi qui faremo quasi la stessa cosa che copieremo questa pasta qui sotto.

07:15.520 --> 07:26.470
Sostituisci il peso degli acquirenti per accedere agli acquirenti e dopo i dati aggiungeremo semplicemente il riempimento e ti ricorderemo quando vengono messi zero

07:26.560 --> 07:31.170
perché vogliamo che tutti i dispositivi vengano inizializzati con zero.

07:31.510 --> 07:37.840
Quindi in realtà non penso che questa linea sia necessaria perché, come ricordi, gli acquirenti sono già inizializzati a

07:37.840 --> 07:41.400
zero con questa funzione di riempimento nella funzione di attesa.

07:41.620 --> 07:47.560
Quindi sai che lo stiamo facendo solo per assicurarci che gli acquirenti siano effettivamente inizializzati a zero.

07:47.560 --> 07:49.490
Ma penso che sia già stato fatto qui.

07:49.690 --> 07:52.720
Ma comunque ora siamo sicuri al 100 percento.

07:53.050 --> 07:55.990
Per ora faremo lo stesso per il critico.

07:56.050 --> 07:59.660
Quindi cerchiamo di essere efficienti e copriamo queste due linee.

08:00.220 --> 08:07.180
Affrontiamoli qui e qui sostituiremo l'attore con il critico.

08:07.180 --> 08:08.400
Anch'io.

08:08.540 --> 08:13.600
E ora l'unica cosa che dobbiamo cambiare è solo la deviazione standard che vogliamo che i

08:13.600 --> 08:15.680
pesi della rete neurale abbiano il critico.

08:15.970 --> 08:23.310
abbiamo una piccola deviazione standard per i pesi del nuovo lavoro dell'attore e una grande deviazione standard per i pesi.

08:23.830 --> 08:29.680
E come ricordi una volta questa volta una deviazione standard piuttosto ampia o aperta, ne

08:29.680 --> 08:31.610
inseriremo una quindi andiamo avanti

08:31.630 --> 08:33.290
E poi quando arriviamo al critico.

08:33.370 --> 08:37.560
E naturalmente è qualcosa che possiamo sostituire qui attivo con il credito.

08:37.980 --> 08:40.460
Tutto bene, ora ci sentiamo bene.

08:40.510 --> 08:46.300
Quindi ora abbiamo ancora due cose da fare prima di inizializzare anche il pregiudizio della squadra e per fare ciò prendiamo il nostro oggetto stesso perché

08:46.300 --> 08:53.500
il LACMA appartiene al nostro oggetto e diremmo o come T. N. poi quello e poi avremo

08:53.870 --> 08:57.980
i due tipi di acquirenti che sono nell'ultimo.

08:58.180 --> 09:04.650
Questo è pregiudizio e il punteggio per età e l'altro si basa sul punteggio età.

09:04.660 --> 09:09.880
Ecco i due tipi di errore nella CME e lo stesso verrà inizializzato a zero.

09:09.880 --> 09:18.810
Quindi per prima cosa accediamo ai dati e poi usiamo la funzione di sottolineatura del riempimento per riempire tutti questi

09:18.850 --> 09:21.940
acquirenti con zero inizializzandoli con i tuoi.

09:21.940 --> 09:22.320
Destra.

09:22.360 --> 09:31.500
E ora per il secondo gruppo di compratori che siamo qui lo stesso viene sostituito dall'età per età.

09:31.500 --> 09:32.430
Tutto ok.

09:32.570 --> 09:39.560
che dobbiamo fare è usare un metodo che è ereditato dalla fine e quel modulo che è il metodo del treno.

09:39.560 --> 09:43.090
Questo inizializza il bias degli zeri e ora l'ultima cosa

09:43.220 --> 09:47.360
E fondamentalmente c'è solo un metodo che mette in trattamento il modulo.

09:47.540 --> 09:48.760
Quindi a cosa serve.

09:48.890 --> 09:55.440
Bene, l'uso è che permette di attivare se c'è qualche abbandono nelle ligazioni del bagno.

09:55.550 --> 10:03.100
E quindi, per utilizzarlo, aggiungiamo un treno di auto pensiero che mette il modulo in perfetto tranciato.

10:03.170 --> 10:05.650
Quindi abbiamo finito con la funzione init.

10:05.720 --> 10:11.210
Abbiamo le nostre convoluzioni abbiamo il CME, abbiamo le nostre due reti neurali separate per il

10:11.210 --> 10:15.400
critico e l'attore e tutti i pesi e i pregiudizi sono ben inizializzati.

10:15.620 --> 10:16.940
Quindi va tutto bene.

10:16.940 --> 10:21.860
Siamo pronti per passare al prossimo passo che è quello di rendere la funzione di forward

10:21.890 --> 10:27.230
che naturalmente inoltrerà il segnale sin dall'inizio con le immagini di input originali in tutto il cervello fino

10:27.230 --> 10:28.640
a quando non otterremo l'output.

10:29.000 --> 10:30.770
Quindi facciamolo nel prossimo tutorial.

10:30.800 --> 10:32.330
E fino ad allora goditi l'intelligenza artificiale.
