WEBVTT

00:01.080 --> 00:04.050
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.050 --> 00:09.810
Oggi continuiamo il nostro viaggio nel mondo ogni tre vediamo e stiamo parlando del lato sincrono di

00:09.870 --> 00:13.530
aither C, così abbiamo la nostra abbreviazione di vantaggio sincrono.

00:13.550 --> 00:14.430
Critico attivo

00:14.430 --> 00:19.040
E oggi scopriremo che cosa significa sincrono qui significa che cosa significa.

00:19.080 --> 00:20.990
E torniamo indietro.

00:21.000 --> 00:27.270
Diamo un'occhiata a ciò che abbiamo iniziato questo corso per l'imposizione delle regole di apprendimento su tutto ciò che

00:27.270 --> 00:29.050
l'asiatico è in un certo stato.

00:29.340 --> 00:30.690
Osservano lo stato.

00:30.730 --> 00:37.080
Prendono certe decisioni che intraprendono azioni in quello stato e poi lo stato viene cambiato in modo che entrino in un nuovo

00:37.080 --> 00:39.010
stato e in più ottengano una ricompensa.

00:39.150 --> 00:46.830
Quindi la ricompensa per aver preso quell'azione o una sorta di ricompensa che potrebbe essere una penalità e finiscono in

00:46.830 --> 00:47.780
un nuovo stato.

00:47.790 --> 00:50.180
E sulla base di ciò ora riprendono un'altra azione.

00:50.250 --> 00:56.280
Ricevono una ricompensa e finiscono in un nuovo stato e intraprendono un'altra azione e così via,

00:56.280 --> 00:59.670
e questa è la base dietro l'apprendimento di rinforzo.

00:59.700 --> 01:06.030
Ed è quello che abbiamo usato nell'apprendimento in deep learning e in deep convolutional keep learning e che

01:06.030 --> 01:10.660
ha permesso ai nostri agenti di battere gradualmente ambienti più complessi e più complessi.

01:10.770 --> 01:18.310
Ma ora introdurremo un concetto ancora migliore e persino per portare questo livello ancora più lontano.

01:18.720 --> 01:25.530
Ciò che A-3 vede introduce attraverso questo elemento sincrono invece di avere un agente

01:25.520 --> 01:26.730
che attacca l'ambiente.

01:26.790 --> 01:34.140
Hanno tre agenti o qualsiasi numero di agenti o agenti che attaccano lo stesso ambiente.

01:34.290 --> 01:39.360
E la chiave qui è per questo che vengono chiamate sincronizzazioni perché sono inizializzate in modo diverso in modo che

01:39.360 --> 01:40.920
i loro ingressi stella siano diversi.

01:40.920 --> 01:46.520
Ad esempio, come vedrai da fonti pratiche, hai impostato un seme casuale e lo hai impostato in modo

01:46.530 --> 01:47.980
diverso per ciascuno degli agenti.

01:48.030 --> 01:51.150
E in questo modo perché i loro punti di partenza sono diversi.

01:51.270 --> 01:55.260
Passeranno dapprima agli ambienti in modi diversi e poi esploreranno in modi diversi

01:55.260 --> 01:58.620
e poi nelle prossime iterazioni andranno ad esplorare in modi diversi.

01:58.620 --> 02:01.190
E così ad esempio abbiamo tre agenti.

02:01.300 --> 02:06.390
All'improvviso ti stai facendo triplicare la quantità di esperienza invece di una

02:06.390 --> 02:12.480
sola età, passando per esplorare l'ambiente e cercando di capire come gestirlo in quell'ambiente.

02:12.570 --> 02:18.780
Ora avete tre o molti di loro che stanno attraversando questa esperienza e così là in modo

02:18.930 --> 02:25.140
che ognuno di loro stia imparando questa esperienza più grande e oltre a dare semplicemente una gamma

02:25.140 --> 02:31.300
più ampia di esperienza riduce anche le possibilità di un agente rimanere bloccati al massimo locale.

02:31.320 --> 02:38.040
Quindi, ad esempio, se un agente trova un modo per battere l'ambiente che non è il più ottimale, perché

02:38.130 --> 02:43.470
se devia una sinistra a destra da quella soluzione, trova sempre che diventa più penalizzato

02:43.470 --> 02:45.710
e potrebbe rimanere bloccato al massimo.

02:45.710 --> 02:49.530
Potrebbe continuare a farlo pensando che è la soluzione ottimale dove non è effettivamente.

02:49.680 --> 02:58.830
probabilità che un agente rimanga bloccato in un determinato massimo locale potrebbe essere elevata ma O potrebbe essere un determinato valore.

02:58.830 --> 03:04.440
Bene, la probabilità che molti agenti rimangano bloccati nello stesso massimo locale diminuisce

03:04.440 --> 03:07.990
al diminuire del numero di agenti, quindi la

03:08.130 --> 03:11.730
Ma la probabilità di avere tre di loro di tutti e tre bloccati nel massimo

03:11.730 --> 03:13.020
locale è molto più bassa.

03:13.020 --> 03:18.630
E fintanto che condividono l'esperienza l'una con l'altra possono aiutarsi a vicenda, quindi se uno di loro rimane bloccato per esempio

03:18.630 --> 03:23.370
è in un massimo locale e pensa semplicemente che è il migliore e quella è la migliore che

03:23.370 --> 03:25.700
è sempre la soluzione migliore continua a farlo.

03:25.830 --> 03:30.740
attraverso il modo in cui costruiamo il nostro intero algoritmo attraverso il cellulare e loro lo aiuteranno.

03:30.770 --> 03:35.710
Beh, finché interagisce con gli altri agenti. Diciamo che questo ragazzo rimane bloccato in un'azione calma

03:35.710 --> 03:37.620
finché interagisce con gli altri agenti

03:37.620 --> 03:42.960
Gli daranno la conoscenza che in realtà sai che dovresti esplorare questo o sarà più

03:43.020 --> 03:44.630
probabile che ne vada fuori.

03:44.760 --> 03:50.370
E anche nel complesso l'ambiente saprà che hey anche se questo è un grande massimo queste altre epoche

03:50.370 --> 03:55.230
hanno visto opzioni migliori e dovremmo continuare ad esplorare perché sembra che ci siano opzioni migliori.

03:55.230 --> 04:00.750
Quindi, in un tipo molto breve di comprensione intuitiva approssimativa, è che quelli sono alcuni dei vantaggi

04:00.750 --> 04:05.970
di avere questi agenti sincroni per cui hai più esperienza tra cui scegliere e da cui imparare.

04:06.210 --> 04:12.750
Potresti arrivare alla soluzione più velocemente e generalmente parlando se c'è una minore possibilità di

04:13.080 --> 04:16.640
rimanere bloccati in un massimo locale di CRN.

04:16.680 --> 04:18.710
Quindi vediamo come tutto questo si svolge.

04:18.720 --> 04:24.300
In questo modello che abbiamo costruito finora, ricordiamo che questo è quello che abbiamo ottenuto finora attraverso il critico

04:24.300 --> 04:29.730
attuale e questo è come se tutti ci stessimo prendendo in giro per quanto ci ricordiamo dal primo a

04:29.730 --> 04:33.030
tartaruga che abbiamo introdotto questo sai che l'avevamo già in mare aperto.

04:33.030 --> 04:38.340
ma finora non ha davvero senso che senso ha avere questo critico e misurare il valore dello

04:38.340 --> 04:43.620
stato o predire il valore di uno stadio usando lo stesso neurale reti o lo stesso approccio.

04:43.620 --> 04:48.320
Q learning's Quindi abbiamo appena chiamato la X ora ma ora abbiamo introdotto il critico

04:48.510 --> 04:52.350
Ma ora è questo è che il partner comincerà a dare più senso.

04:52.350 --> 04:57.750
Quello che faremo è che lo replicheremo perché ora abbiamo più agenti. Quindi se più agenti è

04:57.750 --> 04:59.410
questo è ciò che sembra.

04:59.410 --> 05:07.380
Quindi, il primo modo di immaginarlo ora è che abbiamo questi tre giorni ben ricordati di ciò che abbiamo detto su di loro condividendo

05:07.380 --> 05:09.210
la loro esperienza l'uno con l'altro.

05:09.210 --> 05:12.270
Quindi in questo momento sono come se fossero tutti indipendenti.

05:12.260 --> 05:15.420
Ne hai una che gioca e oltre a giocare un'altra partita nel gioco.

05:15.450 --> 05:20.500
È come lanciare il tuo agente su tre computer diversi, mettere tre diversi computer l'uno accanto

05:20.500 --> 05:23.030
all'altro e lanciarli e sai che è fantastico.

05:23.050 --> 05:29.100
Come se davvero ti piacesse, avrai una maggiore esperienza e otterrai una maggiore varietà, specialmente

05:29.100 --> 05:29.760
se inizializzati.

05:29.790 --> 05:33.600
Quindi da qui possiamo assumere che sono mal inizializzati sempre prima, anche se qui

05:33.600 --> 05:34.770
abbiamo la stessa immagine.

05:34.870 --> 05:39.900
Sapremo che in realtà sono inizializzati in modo diverso quindi non

05:39.900 --> 05:43.460
sarà come l'identico allenamento identico da questo gioco.

05:43.890 --> 05:47.700
E quindi, anche se ti piace, metti tre computer

05:47.700 --> 05:55.560
uno accanto all'altro e li lanci sì, avrai più esperienza perché avrai tre agenti in gioco e avrai anche

05:55.680 --> 05:58.600
una grande varietà di possibili soluzioni .

05:58.620 --> 06:00.120
Quindi è vero.

06:00.120 --> 06:03.840
Ma il problema è che non condividono la nostra esperienza l'uno con l'altro o non imparano gli uni dagli

06:03.840 --> 06:04.120
altri.

06:04.220 --> 06:06.840
Quindi non hanno questa sinergia.

06:06.840 --> 06:11.670
avessi una squadra di persone che lavorano meglio insieme di ognuna di loro separatamente.

06:11.670 --> 06:17.930
Non hanno il vantaggio o la potenza in più che otterrebbero se facessero compering sapessi come se tu

06:17.920 --> 06:20.650
Quindi, come in una squadra qui ne hai uno più uno più uno.

06:20.730 --> 06:25.200
Sono tre ma in una squadra uno più uno da generare e non tre è come i tre perché

06:25.200 --> 06:29.220
si sfruttano reciprocamente i punti di forza e mitigano le debolezze degli altri e la stessa cosa qui.

06:29.220 --> 06:34.080
Quindi se metti insieme questi due computer, sì, avrai più memoria di esperienza e forse

06:34.150 --> 06:35.580
qualcuno otterrà una soluzione migliore.

06:35.580 --> 06:39.710
Un altro è fantastico ma sarà ancora meglio se inizieranno a condividere quell'esperienza.

06:39.780 --> 06:41.120
E come fanno a farlo.

06:41.130 --> 06:47.820
Bene, grazie a questo Wii lo calcoliamo in modo tale che questo valore Wii che è l'output della nostra

06:47.820 --> 06:49.550
rete sia in realtà così.

06:49.560 --> 06:54.960
Quindi hanno lo stesso ogni volta ogni volta.

06:54.960 --> 06:58.050
Tutti questi agenti stanno contribuendo allo stesso critico.

06:58.050 --> 07:04.290
Non hanno critiche separate hanno un critico comune e questa è la chiave di come il critico attore

07:04.290 --> 07:06.270
si collega con il loro sincrono.

07:06.270 --> 07:09.850
Quindi c'è un critico che ci sta guardando mentre fanno esperienza.

07:09.870 --> 07:12.420
Quindi come calcoliamo il Wii.

07:12.570 --> 07:13.920
Dobbiamo far passare la Wii.

07:14.220 --> 07:20.190
Come ricordi, possiamo ottenere la TV attraverso i valori che otteniamo così i benefici che otteniamo

07:20.190 --> 07:20.750
attraverso l'ambiente.

07:20.760 --> 07:28.310
E così come gli agenti esplorano il loro ambiente sono calcoli che stanno predicendo il Wii.

07:28.320 --> 07:30.710
Inoltre hanno il Wii che possono calcolare.

07:30.720 --> 07:35.010
Questo è tutto ciò che rientra in ciò che abbiamo già discusso nelle sezioni precedenti

07:35.010 --> 07:35.730
dei punteggi.

07:35.850 --> 07:42.870
in questo labirinto e che hanno già esplorato e mentre li esplorano, ovviamente, quel valore può cambiare.

07:42.870 --> 07:48.700
Quindi hanno già una Wii che loro possono prevedere come aspettarsi attraverso i premi che

07:48.750 --> 07:49.770
sanno che esistono

07:49.890 --> 07:55.410
Ma anche loro hanno il Wii che questo è l'output della rete neurale, così come

07:55.410 --> 08:01.530
stanno passando attraverso questo stanno andando ad aggiustare le loro reti neurali per meglio abbinare quello previsto.

08:01.530 --> 08:10.080
Quindi, in pratica, questo è condiviso, la parte critica è condivisa tra gli agenti e questo è il modo in cui condividono le

08:10.080 --> 08:15.490
informazioni tra loro. Ecco come sono in grado di vedere cosa succede nell'ambiente condiviso l'uno

08:15.490 --> 08:20.890
con l'altro e poi usarlo come Vedremo più avanti nella prossima parte in vantaggio.

08:20.930 --> 08:25.450
Usalo per ottimizzare il modo in cui si comportano con l'ambiente.

08:25.710 --> 08:27.960
E l'altra cosa da notare qui è.

08:28.080 --> 08:29.510
Quindi questo era un passaggio C.

08:29.520 --> 08:33.150
Questo è come il nucleo di A-3 vedere fino a qui.

08:33.150 --> 08:38.610
Questo è un tipo di versione di 08:30 Ma c'è una implementazione ancora migliore di questo.

08:38.610 --> 08:45.450
pratico delle cose e di cosa parlerà è come il creatore di Pi torche abbia effettivamente apportato un adeguamento a

08:45.450 --> 08:52.680
uno dei codici che sono stati condivisi e ottenere hub dove ha preso tutti questi come potete vedere in questo momento hanno

08:52.980 --> 08:58.530
reti neurali separate e hanno mostrato al Wii che la regolazione che è stata fatta era in

08:58.530 --> 09:03.420
realtà prendere tutte queste reti neurali e metterle in una prendili e mettili insieme

09:03.420 --> 09:09.000
A a C che sentirai di cui mi piacerebbe parlare in uno dei primi tutorial e il

09:09.000 --> 09:09.300
lato

09:09.300 --> 09:15.100
Quindi alla fine c'è solo una rete neurale condivisa tra gli agenti.

09:15.120 --> 09:21.180
Quindi, prima che ognuno di loro avesse una rete neurale condivisa per l'attore e per la critica una

09:21.180 --> 09:25.790
rete neurale Shelfer effettiva per la critica una rete neurale condivide per accuratezza.

09:25.800 --> 09:31.730
Ora hanno tutti una rete neurale condivisa per l'attore o critico critico o critico attuale.

09:31.980 --> 09:35.130
E poi il critico è qui in comune.

09:35.310 --> 09:36.690
Quindi vediamo di farlo.

09:36.690 --> 09:39.840
Spostiamo queste immagini a sinistra qui, quindi crea un po 'di spazio.

09:40.100 --> 09:47.430
E questa è fondamentalmente l'architettura o la struttura che useremo nei tutorial

09:47.430 --> 09:48.250
pratici.

09:48.300 --> 09:55.020
So che questo potrebbe sembrare un po 'travolgente in questa fase, ma ne abbiamo ancora uno per parlare

09:55.020 --> 09:59.370
di quale sia il vantaggio e lo vedremo meglio in azione.

09:59.370 --> 10:02.780
Come va, parleremo dell'intuizione in azione.

10:02.870 --> 10:05.680
Ma in generale questo è ciò che è.

10:05.700 --> 10:10.640
Questo è che c'è una rete che ciascuno degli agenti usa o condivide.

10:10.640 --> 10:15.820
Fondamentalmente ciò significa che condividono i pesi, i pesi della rete sono condivisi tra età

10:15.840 --> 10:19.920
e quando si aggiornano, aggiornano l'intera rete non solo la propria rete.

10:20.480 --> 10:26.270
E poi hanno degli output che hanno come queste azioni per ogni agente e poi hanno il critico

10:26.270 --> 10:27.710
condiviso che verrà monitorato.

10:27.700 --> 10:34.280
Quindi so che tutto questo è un po 'come se ci fosse un sacco di cose in questo momento, ma si spera che

10:34.850 --> 10:35.900
si stia avvicinando lentamente.

10:35.900 --> 10:39.660
Il principale da asporto di qui è che il critico è condiviso.

10:39.670 --> 10:47.810
che gli agenti sono in grado di assicurarsi che collaborino insieme per ottenere il risultato molto più velocemente.

10:47.810 --> 10:48.660
È così

10:48.860 --> 10:52.690
E poi nel prossimo tutorial vedremo ancora di più come tutto questo si aggiunge.

10:52.700 --> 10:53.650
Tutto questo viene insieme.

10:53.900 --> 11:00.920
E per ora c'è come vorrei raccomandare o vorremmo raccomandare una lettura

11:00.920 --> 11:01.210
aggiuntiva.

11:01.210 --> 11:06.780
Quindi questo è un blog di Jaromir Jansch.

11:06.860 --> 11:11.570
Si chiama Facciamo un A3 vedere impianti è in realtà due parti di implementazione e teoria.

11:11.820 --> 11:19.010
non è specifico per questo tutorial, non solo per Sutro ma è per l'intera sezione.

11:19.010 --> 11:25.880
C'è il link ed è molto simile a quello che Adlon implementerà nella parte pratica

11:25.880 --> 11:27.200
del tutorial, quindi

11:27.200 --> 11:30.900
Incoraggiare lì alcune informazioni aggiuntive alcune intuizioni aggiuntive lì.

11:31.040 --> 11:33.260
E quindi è per questo che lo stiamo portando qui.

11:33.320 --> 11:38.030
Ma comunque nel prossimo tutorial inizieremo a tirare tutto questo insieme.

11:38.030 --> 11:39.040
Tutto ciò di cui abbiamo discusso.

11:39.200 --> 11:40.590
E non vedo l'ora di vederti la prossima volta.

11:40.590 --> 11:42.200
E fino ad allora mi godo I.
