WEBVTT

00:00.650 --> 00:05.690
Ciao e bentornati al corso su un I I nella parte precedente abbiamo parlato

00:05.750 --> 00:08.360
dell'intuizione profonda di Killary che abbiamo iniziato lì.

00:08.360 --> 00:14.900
E in effetti siamo arrivati ​​fino a questa parte e abbiamo parlato dell'apprendimento e ora

00:14.900 --> 00:18.200
passeremo alla parte recitazione vera e propria.

00:18.200 --> 00:22.250
Quindi, ci sono due parti in parti distinte che dobbiamo ricordare.

00:22.250 --> 00:25.520
Questa è la parte dell'apprendimento, ma ora in realtà ha fatto tutto questo.

00:25.520 --> 00:26.390
Questo è bello.

00:26.390 --> 00:30.500
prendere un'azione che deve decidere che cosa farà, farà l'azione uno due tre o quattro.

00:30.500 --> 00:31.710
Ora, in realtà, deve

00:31.740 --> 00:32.860
E quindi come fa a farlo.

00:33.020 --> 00:39.370
Bene, il modo in cui lo fa è ora dato gli stessi valori in modo che i valori non cambiano dopo che abbiamo

00:39.370 --> 00:43.430
questi valori di confrontarli con Calcott gli ultimi due dell'era arrogata abbiamo aggiornato i pesi

00:43.430 --> 00:45.950
ma i valori non cambiare in tutto il processo.

00:45.990 --> 00:47.410
Per avere i valori del cubo lì.

00:47.430 --> 00:48.380
Sono riparati.

00:48.380 --> 00:49.440
Sappiamo cosa sono.

00:49.440 --> 00:50.480
Tutto questo succede però.

00:50.510 --> 00:53.820
Reti aggiornate e fuori usando quegli stessi valori che avevamo.

00:53.960 --> 00:58.600
Quello che faremo è che li analizzeremo attraverso una funzione soft max.

00:58.610 --> 01:00.580
E di nuovo morbido Max come descritto.

01:00.620 --> 01:05.160
Penso ad un allegato 2 e parleremo un po 'di più su soft max.

01:05.180 --> 01:12.070
Più avanti o parleremo di questa politica di selezione delle azioni più avanti nel resto di questa sezione.

01:12.140 --> 01:13.610
Quindi, solo in alcuni tutorial.

01:13.730 --> 01:17.270
Ma per ora stiamo solo per dire che lo stiamo passando attraverso una funzione soft successiva.

01:17.270 --> 01:22.150
Fondamentalmente quello che fa è che consente di selezionare il migliore che seleziona la migliore azione possibile.

01:22.250 --> 01:23.650
E c'è un piccolo avvertimento su questo.

01:23.660 --> 01:26.120
Non è solo il migliore possibile.

01:26.120 --> 01:28.940
Ne parleremo nel tutorial sulla politica di selezione delle azioni.

01:28.940 --> 01:35.890
Ma per ora diciamo che seleziona l'azione migliore da qui, dice OK, quindi Q1 conosci la verosimiglianza.

01:36.140 --> 01:41.960
Fondamentalmente sappiamo che i valori di q hanno predetto il valore Q in modo che possa guardarli e dire OK quindi il

01:41.960 --> 01:46.280
valore Q più alto di questi proprio come abbiamo fatto nel semplice algoritmo di apprendimento Q.

01:46.280 --> 01:50.240
tutti questi per dire i valori più alti per cui selezionerò quell'azione che prenderemo.

01:50.240 --> 01:50.860
Ill guardo

01:50.900 --> 01:52.180
E questo è praticamente tutto.

01:52.220 --> 01:57.300
È così che sceglie quale azione prende le azioni necessarie e quindi tutto questo processo si ripresenta.

01:57.290 --> 02:02.120
Per il prossimo stadio l'agente finisce nel nostro caso e nel quadrato successivo del labirinto.

02:02.120 --> 02:04.540
Ma generalmente parlando nel prossimo stato.

02:04.640 --> 02:05.420
Quindi eccoci.

02:05.420 --> 02:14.660
È così che alimentiamo un problema di apprendimento di rinforzo in una rete neurale attraverso un vettore che descrive lo stato in

02:14.660 --> 02:16.160
cui ci troviamo.

02:16.160 --> 02:17.510
E una volta che ci siamo adattati.

02:17.510 --> 02:22.210
Ci sono due parti del processo che avvengono. La prima parte è l'apprendimento.

02:22.400 --> 02:26.840
Quindi ricorda quella parte in cui confrontiamo ciascuno dei valori del cubo con il target e

02:26.840 --> 02:32.360
poi torniamo a propagare la perdita attraverso la rete per aggiornare i pesi in modo che la nostra rete stia

02:32.360 --> 02:34.830
imparando mentre attraversiamo questo labirinto o attraverso questo ambiente.

02:35.210 --> 02:41.120
E anche la seconda parte è ovviamente che dobbiamo agire, dobbiamo selezionare un'azione ed è qui che

02:41.120 --> 02:46.880
passiamo i valori attraverso una funzione soft max e sostanzialmente una politica di selezione delle azioni di

02:46.880 --> 02:48.330
cui parleremo più avanti.

02:48.470 --> 02:53.570
E poi selezioniamo semplicemente l'azione che vogliamo intraprendere e noi eseguiamo quell'azione e quindi

02:53.570 --> 02:54.580
l'intero processo ricomincia.

02:54.770 --> 02:59.570
E poi forse l'agente ottiene allora forse l'agente non interrompe il gioco.

02:59.630 --> 03:01.250
In ogni caso il gioco finisce.

03:01.250 --> 03:08.270
E poi, ancora una volta, l'intero processo ripete l'agente che gioca di nuovo l'intero gioco e poi si ferma così fondamentalmente che è un

03:08.270 --> 03:14.460
altro aeroporto ogni volta che l'agente che conosci ogni volta che il gioco finisce con un favore al di là di

03:14.460 --> 03:16.680
quello che è la fine di un aeroporto.

03:16.700 --> 03:19.560
E poi ricomincia e poi ricomincia e poi ricomincia.

03:19.790 --> 03:20.420
E così via.

03:20.420 --> 03:26.810
Così succede e questo processo avviene ogni volta che l'agente è in te in un nuovo stato, quindi lo stato

03:26.810 --> 03:32.240
è codificato qui, quindi è importante non solo per ogni singolo gioco che suona, ma per ogni

03:32.240 --> 03:33.020
singolo stato.

03:33.020 --> 03:38.030
Quindi è in uno stato che passa le sue date di processo e così via e succede ogni volta.

03:38.150 --> 03:41.410
E così l'apprendimento avviene e anche la recitazione avviene.

03:41.720 --> 03:47.090
Quindi questo è apprendimento profondo nell'intuizione dietro l'apprendimento profondo.

03:47.090 --> 03:54.200
e poi, naturalmente, pratico e nel frattempo se desideri ottenere ulteriori informazioni su come continuare ad imparare.

03:54.410 --> 03:56.720
Abbiamo molto di più da coprire

03:56.720 --> 04:05.200
Abbiamo una lettura consigliata, quindi abbiamo già parlato della serie di post di Arthur Giuliani.

04:05.210 --> 04:12.590
Se osservi il semplice apprendimento informale del flusso di Lifton, parte 4, troverai la parte rilevante per ciò

04:12.590 --> 04:14.260
che abbiamo discusso oggi.

04:14.270 --> 04:21.170
Nota che qui parla delle convoluzioni che non copriamo le rivoluzioni in questa sezione, di cui

04:21.170 --> 04:23.650
parleremo nella prossima sezione del corso.

04:23.720 --> 04:28.880
Quindi la differenza qui è che è solo una specie di saltare la parte delle conclusioni per ora

04:28.880 --> 04:32.850
e ne parleremo nella prossima parte del corso, ma la differenza è nelle evoluzioni.

04:32.850 --> 04:39.170
Sei come guardare l'agente sta guardando l'immagine e quindi deve elaborare un'immagine un'ulteriore complicazione

04:39.170 --> 04:43.540
per il momento in cui lentamente ci stiamo gradualmente sviluppando.

04:43.580 --> 04:50.060
Per ora stiamo codificando il nostro ambiente attraverso il tuo sguardo qui stiamo codificando il nostro ambiente o

04:50.060 --> 04:58.700
forse guardiamo a questo probabilmente nel codificare il nostro ambiente come uno o in uno stato in cui l'agente si trova come un vettore.

04:58.700 --> 05:01.330
Quindi nel nostro caso era un vettore di valori molto semplice.

05:01.490 --> 05:06.190
A volte le persone anche in questo semplice a volte possono o come vedrai da questo post del blog.

05:06.290 --> 05:10.180
A volte le persone preferiscono la versione calda e codificata di quello stato.

05:10.180 --> 05:13.380
Quindi in pratica dove ogni singola casella del labirinto ha un

05:13.620 --> 05:17.780
Quindi hai un vettore di un caso nullo di 12 valori tre per quattro.

05:17.800 --> 05:22.130
Quindi non è come 1 o 0 a seconda degli elementi e della casella in cui ti trovi.

05:22.160 --> 05:22.990
Nell'ambiente

05:23.060 --> 05:29.900
Quindi, in qualsiasi modo tu decida di codificare il tuo ambiente e lo stato del tuo ambiente è così che nella

05:29.900 --> 05:31.520
codifica è fondamentalmente un vettore.

05:31.520 --> 05:36.410
La chiave qui è che non è una convoluzione Quindi non è come un'immagine e non c'è volt convoluzione

05:36.410 --> 05:37.810
Quindi questa parte verrà dopo.

05:37.820 --> 05:43.410
Per noi ricomincia qui e questo semplifica il processo per farci capire gradualmente meglio.

05:43.550 --> 05:49.130
E, naturalmente, non dimenticare che questo post è scortese e tende a fluire e stiamo usando pi torche

05:49.130 --> 05:50.090
nei nostri tutorial.

05:50.090 --> 05:51.910
Quindi spero che ti piaccia questo.

05:51.920 --> 05:59.220
Un'introduzione rapida in un profondo apprendimento convoluzionale, profondo e non ancora profondo.

05:59.310 --> 06:02.910
E su quella nota non vedo l'ora di vederti dopo.

06:02.930 --> 06:05.430
E fino ad allora goditi l'intelligenza artificiale.