WEBVTT

00:00.330 --> 00:07.100
Salve e benvenuti al terzo modulo del discorso sul mare H-3 come agenti critici attivi sincroni.

00:07.200 --> 00:11.850
E così ora posso davvero dire benvenuto allo stato dell'arte del machine learning.

00:12.180 --> 00:16.560
Bene, al momento lo dico perché forse alcuni di voi seguiranno il corso in

00:16.590 --> 00:20.080
uno o due anni, ma al momento lo dico nel 2017.

00:20.190 --> 00:25.410
Bene, stai per lavorare su uno dei modelli più potenti dell'intelligenza artificiale, ma c'è di

00:25.410 --> 00:28.780
più che non è l'unica cosa speciale di questo modulo.

00:28.830 --> 00:35.280
ma implementeremo la versione più potente di questo algoritmo che è la versione ottimizzata

00:35.280 --> 00:42.630
della versione implementata del modello A-380 perché puoi immaginare che ci sia il cuore di l'algoritmo.

00:42.990 --> 00:47.030
Non solo stiamo lavorando con il modello più potente,

00:47.190 --> 00:50.880
Ma poi ci sono molti strumenti che possiamo usare per ottimizzare l'intero modello.

00:50.970 --> 00:55.110
E così non solo avrai il cuore lungo l'algoritmo ma

00:55.110 --> 00:59.450
implementerai anche tutti questi strumenti per rendere il modello super potente.

00:59.670 --> 01:01.490
E perché volevo farlo.

01:01.590 --> 01:03.110
Beh, questo è per due ragioni.

01:03.120 --> 01:06.210
La prima ragione è che ci stiamo avvicinando alla fine del discorso.

01:06.210 --> 01:10.770
Questo corso è il corso di livello più alto tra i tre corsi e si occuperanno di AI.

01:10.870 --> 01:14.340
È che ora penso che tu sia pronto per portarlo al livello successivo.

01:14.400 --> 01:19.230
E la seconda ragione è che risolvere il breakout è davvero super impegnativo.

01:19.230 --> 01:24.270
Ricorda nel video promozionale che volevamo inserire breakout come primo modulo perché pensavamo che sarebbe stata la

01:24.270 --> 01:29.410
sfida più facile ma non è stata in realtà la sfida più difficile e il modo più

01:29.400 --> 01:36.060
semplice per spiegare questo è che nel destino i mostri sono grandi e quindi più facile da individuare e quindi più facile

01:36.060 --> 01:37.620
da uccidere o da evitare.

01:37.830 --> 01:44.160
Ma in Breakout abbiamo questa pallina che anche l'occhio deve rilevare perché l'occhio avrà ancora

01:44.160 --> 01:44.810
gli occhi.

01:44.800 --> 01:47.670
Tu continueremo a fare l'apprendimento di rinforzo profondo.

01:47.910 --> 01:53.340
Quindi è davvero super impegnativo ed è per questo che non abbiamo una scelta da implementare.

01:53.340 --> 01:59.080
La versione più potente di A-3 ora vedo perché dico che questa è la versione più potente.

01:59.120 --> 02:00.350
Questo è per una ragione particolare.

02:00.350 --> 02:05.270
Non è che sto dicendo che implementerò la versione più potente dell'A-380.

02:05.460 --> 02:06.420
No non è questo.

02:06.540 --> 02:11.550
speciale che stiamo per fare è in realtà una versione di 3 C che è stata

02:11.550 --> 02:18.090
implementata da qualcuno ma corretta da una delle persone più influenti oggi in machine learning chi è il creatore della torcia Pi.

02:18.240 --> 02:23.910
La ragione per cui sto dicendo questo è che la versione che stavamo per implementare e questo è

02:23.910 --> 02:24.810
qualcosa di molto

02:24.810 --> 02:27.330
Il suo nome è Dan Pashka.

02:27.710 --> 02:28.840
Ora cosa faremo.

02:29.040 --> 02:35.430
Andremo a prendere nella pagina principale e se scorri verso il basso fino alla fine

02:35.790 --> 02:40.700
in basso vedrai la squadra che il team combatte creatori e collaboratori.

02:40.800 --> 02:45.500
E puoi vedere qui che la mia torcia è attualmente gestita da Adam Pascal.

02:45.690 --> 02:51.340
per il breakout e ha corretto uno dei codici per l'A-380 per eseguire perfettamente il breakout.

02:51.340 --> 02:57.120
Questa è la persona alla quale dovremmo essere veramente grati perché ci sono pochissime versioni delle tre

02:57.120 --> 02:58.470
cose che funzionano bene

02:58.470 --> 03:04.320
Quindi Pascal non sta solo mantenendo By verso Ma è anche uno dei creativi per torcia e come ho

03:04.320 --> 03:08.090
detto oggi è tra i primi 10 personaggi più influenti nell'apprendimento automatico.

03:08.190 --> 03:13.500
Quindi possiamo essere certi che la versione che stiamo per implementare è probabilmente la versione

03:13.500 --> 03:15.050
più potente di A-3 oggi.

03:15.240 --> 03:17.580
E quindi cos'è questa implementazione.

03:17.760 --> 03:23.100
Beh, in origine proviene da uno sviluppatore chiamato iliac storia di.

03:23.220 --> 03:29.400
E così come potete vedere ha fatto un verso verso l'implementazione della A3 C che originariamente non funzionava bene per

03:29.400 --> 03:32.950
il breakout ma poi qualcuno ha fatto una richiesta di pull.

03:32.970 --> 03:39.170
Se andiamo alla richiesta del pool qui possiamo vedere in quello vicino che abbiamo questo abbiamo una soluzione

03:39.170 --> 03:41.030
più pulita al problema di Gretchen.

03:41.190 --> 03:43.810
E indovina da chi è stata fatta questa richiesta di pull.

03:43.950 --> 03:51.060
È stato fatto da Adam Pashka creato dalla torcia e questo ha risolto il problema che rende l'A-380

03:51.060 --> 03:54.720
funziona molto bene per scoppiare senza aspettare giorni e giorni.

03:55.200 --> 04:01.950
se torniamo a questa implementazione possiamo vedere i quattro contributori di questa implementazione più potente.

04:01.950 --> 04:02.900
E quindi

04:03.180 --> 04:04.590
E qui ci sono i contributori.

04:04.590 --> 04:10.380
Quindi, grazie mille a tutti loro e possiamo dire un enorme e speciale ringraziamento alla passione di Adam per

04:10.380 --> 04:12.810
aver risolto il problema di condivisione dei thread.

04:12.810 --> 04:16.590
Ha iniziato facendo una forchetta che è un sottobosco del codice.

04:16.590 --> 04:20.970
E poi ha fatto una richiesta di pull allo sviluppatore per risolvere questo problema.

04:20.970 --> 04:26.790
ed è così che è diventato uno dei principali contributori di questa implementazione, facendo sì che tutto funzionasse perfettamente

04:26.790 --> 04:32.850
e fidati di me ho fatto un sacco di sperimentazione sul modello AC DC che ha implementato cinque modelli.

04:33.000 --> 04:36.390
Non c'era un codice che fosse un grande problema di condivisione

04:36.390 --> 04:41.430
Ero persino disperata che non funzionasse bene, quindi ho fatto il mio breakout e il mio cavy per avere una

04:41.550 --> 04:44.300
palla più grande e quindi una più facile pre-elaborazione delle immagini.

04:44.340 --> 04:48.780
Poi sono tornato all'occhio e ho realizzato la mia implementazione della 3C.

04:48.860 --> 04:53.280
Ma ci sono voluti anni per correre e allenarsi su un computer piuttosto potente.

04:53.460 --> 04:55.190
Quindi volevo trovare un modo migliore.

04:55.380 --> 04:56.990
E questo è il modo in cui è.

04:57.150 --> 05:03.460
potente del Silmaril di cui uno dei maggiori contributori è il Creatore di torcia.

05:03.530 --> 05:04.530
Implementazione molto

05:04.580 --> 05:11.270
Quindi, cosa faremo in questo Mudgal? Penso che tu sia pronto per implementare questo codice di

05:11.270 --> 05:13.980
livello più alto per l'implementazione dell'A3.

05:14.060 --> 05:19.720
Quindi, fondamentalmente, reimplementeremo tutti questi file e per lo più insisteremo sui file che sono direttamente

05:19.720 --> 05:24.650
correlati alle tre C di tutte le parti direttamente correlate a ciò che vediamo.

05:24.680 --> 05:27.800
Implementeremo il codice riga per riga per gli altri.

05:27.820 --> 05:33.290
Mi limiterò ad espandere il codice in modo che dovremmo essere in grado di affrontare questo problema senza trovarlo troppo

05:33.850 --> 05:36.150
travolgente in modo da ottenere un modulo speciale.

05:36.170 --> 05:42.220
Non solo lavoriamo in un modello di IA all'avanguardia, ma anche nel momento in cui parlo e sono

05:42.230 --> 05:45.730
molto fiducioso che stiamo implementando la versione più potente dell'A-380.

05:46.070 --> 05:47.050
Facciamolo.

05:47.090 --> 05:51.740
Torniamo a Python e iniziamo tutto prima di iniziare.

05:51.770 --> 05:54.800
Faremo la cosa più semplice che faremo in questo modulo.

05:54.830 --> 05:56.870
Impostazione della cartella della directory di lavoro.

05:57.080 --> 06:02.660
Andiamo alla nostra intelligenza artificiale è che i moduli di cartella modello si rompono più difficile uno.

06:02.930 --> 06:03.830
E noi andiamo.

06:03.830 --> 06:05.070
Ecco tutti i nostri file.

06:05.240 --> 06:09.130
Quindi vediamo quali sono direttamente collegati all'A-3 C.

06:09.200 --> 06:11.610
E quindi vediamo quali implementeremo.

06:11.690 --> 06:14.770
Linea per linea e concentrare le nostre energie.

06:14.840 --> 06:16.450
Quindi ci sono in realtà due file.

06:16.490 --> 06:22.250
Il primo non è tutto ciò che è questo, quindi lo ri-implementeremo linea per linea perché è

06:22.250 --> 06:25.450
il più importante in cui facciamo vedere il cervello A-3.

06:25.550 --> 06:30.590
un modello condiviso che avrà gli stessi dati dei pesi per l'attore e il critico.

06:30.590 --> 06:34.340
E la cosa più importante da capire qui è che avremo

06:34.370 --> 06:39.490
Questa è una parte di questa versione speciale di A-3 vedere il modello condiviso con i

06:40.130 --> 06:43.890
dati condivisi i pesi e poi l'altro fondatore più importante da implementare.

06:43.910 --> 06:51.270
Line by line è naturalmente l'addestramento di selvaggina selvatica subito dopo aver fatto il cervello della sede.

06:51.500 --> 06:55.940
Bene, dobbiamo addestrarli e li addestriamo in questo treno che io moglie.

06:56.180 --> 07:02.720
Quindi questo è un codice piuttosto lungo, ma questo è ciò che contiene il cuore del modello

07:02.720 --> 07:08.900
A3 C che dovrà ridurre il valore negli Stati Uniti di Lass, che è l'ultimo relativo

07:09.230 --> 07:14.640
alle previsioni del critico e la politica che è l'ultima relativo alle previsioni dell'atomo.

07:14.840 --> 07:20.570
Quindi questo è abbastanza nuovo, ma sapete che è perché l'A-380 stava praticamente lavorando con diversi

07:20.810 --> 07:23.210
agenti ognuno con la propria copia dell'ambiente.

07:23.330 --> 07:28.790
Abbiamo anche questo livello completamente connesso che emette un valore della funzione e che fondamentalmente è una

07:28.790 --> 07:31.540
visione comune di ciò che sta accadendo nel gioco.

07:31.550 --> 07:34.130
Quindi sarà abbastanza impegnativo.

07:34.220 --> 07:40.840
Quindi assicurati di essere in buona forma e per il resto dei borsisti Beh, li spiegherò nei dettagli ma

07:40.880 --> 07:45.810
non trascorrendo troppo tempo su di loro, credimi, vuoi mantenere la tua energia per questo.

07:45.830 --> 07:47.110
Questo sarà già molto.

07:47.150 --> 07:55.490
Quindi questi amici sono le anatre ducky Y, che è un miglioramento dell'ambiente palestra grazie all'universo.

07:55.490 --> 08:00.920
Quindi, fondamentalmente, questo migliora l'ambiente della palestra con l'universo e ciò ci consente

08:00.920 --> 08:07.150
di avere una pre-elaborazione ottimale delle immagini e anche di normalizzare tutti i valori dell'ambiente

08:07.160 --> 08:10.160
come intensità di colori o intensità dei premi.

08:10.280 --> 08:15.710
Bene, tutti i valori dell'ambiente questo file normalizza tutti questi valori e ci assicuriamo di avere

08:15.800 --> 08:18.110
abbastanza per non continuare l'elaborazione delle immagini.

08:18.170 --> 08:24.720
E come puoi vedere questo è preso da questa apertura, ho la sua pagina in cui l'agente della storia dell'universo.

08:24.830 --> 08:28.870
Quindi non impiegheremo troppo tempo per fermarci qui.

08:28.910 --> 08:34.390
Hai solo bisogno di capire che abbiamo migliorato l'ambiente della palestra con l'universo per ottenere

08:34.390 --> 08:36.390
abbastanza da non elaborare le immagini.

08:36.440 --> 08:39.900
Il resto non è così importante, specialmente per il PC.

08:40.340 --> 08:45.190
Quindi abbiamo il principale P Y che è il codice che eseguirà il tutto.

08:45.200 --> 08:50.190
Quindi conosci il codice che eseguirà tutto il processo creando il cervello per allenare il cervello e produrre il video.

08:50.210 --> 08:53.810
E questo perché eseguirà tutti questi codici qui.

08:54.350 --> 08:57.700
Quindi più abbiamo visto dov'era allora che potrebbe essere comparso.

08:57.710 --> 09:00.130
Perché è l'ottimizzatore speciale.

09:00.380 --> 09:06.240
Questo è fondamentalmente l'atom optimizer ma adattato a questo modello condiviso che stiamo implementando.

09:06.260 --> 09:09.290
Quindi spiegheremo tutto questo codice in un tutorial.

09:09.290 --> 09:11.490
Quindi testiamo W-perché.

09:11.530 --> 09:13.610
In realtà è l'ultimo a testare.

09:13.610 --> 09:17.410
D Perché è fondamentalmente il file che implementerà un agente di test.

09:17.510 --> 09:22.440
Quindi c'è un agente che si esibirà senza aggiornare il modello.

09:22.490 --> 09:24.740
Quindi è totalmente indipendente dalla formazione.

09:24.860 --> 09:27.460
E amplieremo anche questo codice in dettaglio.

09:27.530 --> 09:33.710
Inoltre la buona notizia è che avrai due codici un codice che sarà il codice che implementeremo

09:33.710 --> 09:36.080
nei tutorial ma senza alcun commento.

09:36.290 --> 09:40.580
E uno del codice che è uno della cartella di codice con tutti i codici lo comanda.

09:40.700 --> 09:44.060
Quindi con tutti questi sei falli tutti ben collegati.

09:44.180 --> 09:49.520
In modo che se ti manca qualcosa e tutorial Ben si sarà in grado di guardare il contenuto del codice

09:49.640 --> 09:51.010
per capire cosa sta succedendo.

09:51.200 --> 09:52.130
Quindi eccoci.

09:52.130 --> 09:54.500
Spero che tu sia felice di implementarlo.

09:54.500 --> 09:59.020
Sei davvero in cima alla montagna ora o appena sotto la cima perché devi

09:59.120 --> 10:01.160
capirlo prima, ma ci stai arrivando.

10:01.190 --> 10:02.910
Quindi fai un buon respiro di ossigeno.

10:03.020 --> 10:05.690
Ed eccoci con un viaggio super emozionante.

10:05.720 --> 10:06.870
Fino ad allora divertiti.
