WEBVTT

00:00.720 --> 00:03.210
Ciao e bentornati al corso sull'intelligenza artificiale.

00:03.210 --> 00:08.400
Oggi parliamo della prima parte di A-3, vedi la parte critica dell'attore.

00:08.400 --> 00:10.540
Quindi qui abbiamo un vantaggio sincrono.

00:10.550 --> 00:12.380
Algoritmo critico dell'attore.

00:12.420 --> 00:15.440
E stiamo per parlare di questo ha sottolineato Akrotiri.

00:15.570 --> 00:17.210
Ecco dove inizieremo.

00:17.400 --> 00:21.960
tecnicamente da qualche parte, ma è molto più sensato iniziare da un

00:22.320 --> 00:29.640
critico perché in questo modo avremo una spiegazione molto consecutiva della comprensione intuitiva di ciò che sta succedendo ci faciliterà.

00:29.640 --> 00:30.470
Potresti iniziare

00:30.480 --> 00:33.970
Ma se iniziamo a sorprendere ancora alla fine di questa aberrazione.

00:34.170 --> 00:41.840
Va bene così lontano in questo corso che abbiamo creato un apprendimento Kule condizionale profondo che è un illustratore qui, quindi abbiamo

00:41.880 --> 00:48.780
il computer che vede i pixel in modo che l'immagine e i pixel effettivi non siano solo un vettore.

00:48.780 --> 00:53.610
Quindi non è barare, è in realtà vedere esattamente ciò che un umano vede vede

00:53.610 --> 01:00.540
i mostri vede la salute vede i parametri in fondo vede la carta o vede la pistola è esattamente la stessa

01:00.540 --> 01:03.080
cosa che un umano vedrebbe quando gioca gioco.

01:03.090 --> 01:09.450
come ricordiamo che abbiamo quei valori cubici quindi applichiamo una politica di selezione delle azioni a loro.

01:09.450 --> 01:16.380
Poi quell'immagine viene passata attraverso una tana convoluzionale e poi viene passata attraverso una lirats che si appiattisce e

01:16.380 --> 01:20.270
entra in una rete neurale e quindi all'output abbiamo azioni

01:20.270 --> 01:24.540
Ad esempio, applichiamo un Max morbido e scopriamo quale azione vogliamo intraprendere.

01:24.540 --> 01:28.470
E quindi c'è un'esplorazione e uno sfruttamento in corso.

01:28.470 --> 01:29.860
Ci sono una combinazione dei due.

01:30.270 --> 01:33.480
Ecco come funziona il profondo apprendimento convoluzionale.

01:33.640 --> 01:34.980
Ma ora vediamo cosa faremo con esso.

01:34.970 --> 01:39.510
facile per noi operare con noi, perché stiamo modificando questa immagine e spostandola.

01:39.510 --> 01:41.770
Quindi, per ragioni di semplicità, è più

01:41.790 --> 01:46.490
Sostituiremo i cerchi con i quadrati con queste o queste caselle rettangolari.

01:46.560 --> 01:53.190
E ci sbarazzeremo anche di quelle linee e tra appena le cambiamo in frecce quindi questo

01:53.190 --> 01:54.440
non cambia l'essenza.

01:54.450 --> 01:56.590
Questa è solo la rappresentazione su questo grafico.

01:56.610 --> 02:01.620
Anche se questa rappresentazione è ancora profonda, l'apprendimento Kule convoluzionario sarà più facile

02:01.620 --> 02:05.520
per noi modificarlo e mostrare esattamente di cosa si tratta.

02:05.520 --> 02:08.820
Ecco come rappresenteremo le cose da qui.

02:08.820 --> 02:13.070
E cosa fa o questa parte così specifica sta iniziando.

02:13.080 --> 02:16.680
Ricorda che stiamo iniziando come passo per passo, stiamo iniziando con la parte critica attiva.

02:16.680 --> 02:23.490
Quindi vedremo come passiamo dal fondamentale e cruciale apprendimento di Kule all'A-3, vediamo passo dopo passo e il primo

02:23.490 --> 02:27.520
passo introdurremo questo critico degli attori PARTOVI qui, quindi parleremo di questo.

02:27.750 --> 02:32.490
Quindi la prima cosa che succede è questo ultimo bit.

02:32.640 --> 02:36.990
L'output è in realtà stiamo andando a ridisegnarlo in questo modo in modo che sia esattamente lo

02:36.990 --> 02:40.350
stesso output esattamente gli stessi valori di q sono esattamente la stessa azione.

02:40.350 --> 02:45.810
metteranno in cima in modo che occupino meno spazio, quindi nulla finora è cambiato così tanto finora.

02:45.810 --> 02:50.280
Quindi, se lui avesse otto azioni possibili, avresti ancora otto azioni possibili che le

02:50.280 --> 02:52.080
Questo e questo sono esattamente gli stessi.

02:52.080 --> 02:55.080
Ma ora è qui che entra in gioco la parte critica attiva.

02:55.110 --> 02:56.580
Avremo una seconda uscita.

02:56.580 --> 03:02.460
Avremo il primo come una serie di output e qui avremo un output individuale

03:02.460 --> 03:06.040
separato, quindi tecnicamente useremo la nostra rete neurale.

03:06.040 --> 03:08.310
Quindi una volta all'ora.

03:08.340 --> 03:14.720
O l'immagine e tutto come i valori passano attraverso la rete da sinistra a destra qui.

03:14.730 --> 03:17.910
Non sputano solo un set di valori che sputano in realtà in due set.

03:17.910 --> 03:23.910
E così la parte superiore ha detto che sappiamo davvero di cosa si tratta è possibile azioni, ma qui in realtà

03:23.910 --> 03:26.970
avremo un altro valore in più, quindi diamo un'occhiata a questo.

03:27.000 --> 03:28.430
Qual è quel valore.

03:28.620 --> 03:31.260
Quindi qui andiamo è il massimo.

03:31.380 --> 03:35.190
Quindi abbiamo solo un po 'come ridurre le dimensioni di questa illustrazione.

03:35.340 --> 03:41.210
L'output principale sono i valori del cubo come abbiamo discusso in precedenza per le azioni.

03:41.220 --> 03:42.500
Quindi sono la stessa cosa

03:42.510 --> 03:43.240
È tutto uguale

03:43.410 --> 03:47.640
Ma ora questa parte in basso e la parte superiore sono in realtà chiamate X

03:47.640 --> 03:53.400
o ci daremo un nome che è l'attore perché è la parte in cui l'agente sceglie ciò che vuole fare in

03:53.400 --> 03:59.160
modo che sia come se agisse è come se sta andando sul palco e avrà più senso una volta che avremo

03:59.160 --> 04:00.730
il secondo nome sullo schermo.

04:00.900 --> 04:08.120
E poi il secondo output è proprio come un valore e cioè V of S, quindi questo è il valore dello stato.

04:08.130 --> 04:16.800
q di S è il Q di A è il valore q di una certa azione e come puoi vedere è il motivo per cui c'è azione una azione due azione

04:16.980 --> 04:21.450
tre sono fino all'azione sei o più significa che le azioni possono esserci in quello stato.

04:21.450 --> 04:22.030
Quindi se

04:22.030 --> 04:28.410
Quindi in un determinato stato s Qual è il valore q dell'azione da intraprendere un'azione per l'azione un'azione per e così via.

04:28.460 --> 04:34.900
Poi qui stiamo anche prevedendo che stiamo usando la rete neurale per prevedere quale sia il

04:34.900 --> 04:40.620
valore dello stadio in cui ci troviamo effettivamente e questa parte è chiamata il critico.

04:40.820 --> 04:47.070
E così questo è intuitivo per il tipo di non completamente intuitivo che è proprio come l'inizio dell'intuizione

04:47.880 --> 04:53.260
dietro l'attore che prevede che ci siano due uscite ora dalla rete neurale non solo una.

04:53.380 --> 04:56.470
P prima abbiamo appena avuto quello in outbred che ora chiamiamo l'azione.

04:56.470 --> 04:59.040
Ma ora abbiamo due risultati: Akshara e critico.

04:59.250 --> 05:02.320
E tra loro c'è una dinamica che esploreremo ulteriormente.

05:02.370 --> 05:08.850
Ma per ora è importante capire che prevediamo non solo i valori delle azioni che l'agente può assumere dallo stato

05:09.330 --> 05:14.100
attuale, ma stiamo anche predicendo il valore di essere in questo tipo di stato usando

05:14.100 --> 05:15.750
quella rete dello stesso anno.

05:15.750 --> 05:20.700
Questo è il nocciolo del primo passo verso il critico attivo.

05:20.790 --> 05:24.990
E ora avremo bisogno di parlare di un sincrono che faremo il prossimo tutorial per

05:24.990 --> 05:30.900
capire esattamente cosa sta succedendo tra il dovere e l'ultima cosa per oggi è che tutti questi valori chiave come sappiamo

05:30.900 --> 05:32.640
che è anche chiamato Pulse .

05:32.640 --> 05:39.720
Quindi in alcune pubblicazioni in alcuni blog e in alcune discussioni che potresti trovare nel critico attivo potresti

05:39.720 --> 05:47.400
trovare l'autore che parla dei valori di Cue sul lato dell'attore in alcuni in altri articoli di letteratura e blog

05:47.400 --> 05:53.780
e nelle discussioni che troverai nell'agrah dell'autore Parlando della politica, di solito, si usa l'utente come

05:53.860 --> 05:59.810
una lettera greca P per rappresentare la politica o semplicemente dire la politica di stato.

05:59.970 --> 06:05.790
Quindi, complessivamente, questa è la politica dello stato di è perché, come ricordiamo, la politica è che

06:05.790 --> 06:11.660
se si mettono tutte le azioni insieme le azioni possibili e poi si decide quale azione intraprendere.

06:11.660 --> 06:15.400
Quindi queste saranno come le probabilità di intraprendere ogni azione così questa è la politica.

06:15.540 --> 06:19.410
Quindi non essere buttato fuori se vedi l'uno o l'altro.

06:19.410 --> 06:21.090
Fondamentalmente significano la stessa cosa.

06:21.090 --> 06:24.720
Quindi da una parte qui hai la politica o i valori q dall'altra parte hai

06:24.720 --> 06:27.620
il valore reale dello stato e sono previsti da quell'anno su quello.

06:27.750 --> 06:31.770
Quindi questo è l'inizio del critico attivo che continuerà nel prossimo tutorial quando

06:31.770 --> 06:34.320
parliamo di un sincrono e cerchiamo di vedere lì.

06:34.380 --> 06:35.910
Fino ad allora godetevi il.