WEBVTT

00:00.620 --> 00:04.010
Ciao e bentornati al corso sull'intelligenza artificiale.

00:04.010 --> 00:05.940
Nel tutorial di oggi ci divertiremo un po '.

00:05.960 --> 00:11.900
Avremo un aspetto e un'intelligenza artificiale che attraverserà quel labirinto di cui abbiamo parlato

00:11.900 --> 00:18.740
così a lungo e useremo kill learning per orientarci e trovare la via d'uscita e vedremo

00:18.830 --> 00:24.350
cosa succede al q i valori stavano per accadere alla politica e così via.

00:24.350 --> 00:26.310
Quindi diamo un'occhiata.

00:26.330 --> 00:31.910
Useremo dei materiali gentilmente forniti dalla Berkeley University.

00:31.910 --> 00:40.700
Quindi se vai a un non bifolco solo l'E R K E L E perché non vai su quel link di nuovo.

00:40.790 --> 00:47.510
Vedrai questo sito Web e ascolterai ciò che vedremo è la necessità di andare

00:47.550 --> 00:49.130
a progetti PacMan.

00:49.130 --> 00:58.160
Penso che i progetti di Pacman e qui se si scorre verso il basso e li guardi nel primo apprendimento, questo è ciò con cui

00:58.160 --> 00:59.050
stiamo lavorando.

00:59.180 --> 01:01.700
Quindi qui puoi scaricare l'archivio zip.

01:01.700 --> 01:03.500
Quindi se vuoi.

01:03.530 --> 01:08.330
Quindi non devi farlo non stiamo andando insieme a una soluzione insieme in questa prova solo

01:08.330 --> 01:11.860
facendoti sapere da dove viene tutto questo perché siamo molto simili.

01:11.870 --> 01:12.930
Lo apprezziamo davvero.

01:12.980 --> 01:16.180
UC Berkeley ha reso disponibili questi materiali.

01:16.190 --> 01:19.300
Ma se vuoi sperimentarlo da solo.

01:19.400 --> 01:20.660
Basta ricordare che questo non fa parte.

01:20.680 --> 01:23.310
Non farà parte dei nostri corsi come parte del corso di Berkeley.

01:23.330 --> 01:27.860
Non sono sicuro di come funzioni a scopo illustrativo, ma se vuoi sperimentare questo

01:27.860 --> 01:31.340
puoi trovare qui l'archivio zip e anche tutte le vecchie istruzioni.

01:31.430 --> 01:38.450
volevo mostrarti è che qui abbiamo le informazioni sulle licenze, quindi questo è ciò che intendo.

01:38.450 --> 01:42.790
E andremo subito a Python e la prima cosa che

01:42.870 --> 01:47.720
Siamo molto fortunati nel dire che siamo liberi di utilizzare o estendere questi progetti a scopo

01:47.720 --> 01:51.120
didattico, a condizione di sapere distribuire soluzioni pubblicitarie che non faremo.

01:51.200 --> 01:56.750
Conservi questo avviso che abbiamo e fornisci un chiaro arcivescovo a UC Berkeley, incluso un link al quale

01:56.780 --> 01:57.860
abbiamo anche noi.

01:57.860 --> 02:00.750
Quindi, ancora una volta se ti piacerebbe saperne di più lì il link.

02:00.770 --> 02:01.720
Puoi dare un'occhiata

02:01.730 --> 02:07.490
E grazie mille a tutte queste persone che hanno lavorato a questo progetto, ecco il mondo della griglia.

02:07.490 --> 02:09.370
Lavoreremo se c'è una soluzione lì.

02:09.460 --> 02:15.110
Dovresti farlo per farlo funzionare, dovresti risolverlo da solo o eventualmente trovare una soluzione.

02:15.110 --> 02:18.980
Forse alcune delle tue persone, qualcuno che conosci potrebbe aiutarti in questo.

02:19.160 --> 02:24.260
Se di nuovo quello che vuoi non devi, perché lo vedremo su questo schermo

02:24.320 --> 02:25.110
proprio adesso.

02:25.160 --> 02:29.720
Quindi, dopo aver creato tutti questi file, potremmo avviarlo qui.

02:29.720 --> 02:36.680
Quindi ci sono alcuni parametri che sono coinvolti in questo mondo e non vi mostreremo semplicemente

02:36.680 --> 02:39.080
come appare se lo lanciamo.

02:39.080 --> 02:41.540
Quindi proviamo a lanciarlo in modalità manuale.

02:41.540 --> 02:47.070
Quindi se vado meno uno di questi panorami è manuale in modo da poter comandare il tuo agente di controllo.

02:47.090 --> 02:52.820
Quindi qui puoi vedere tutte le griglie, così posso salire, così puoi vedere che sta iniziando e

02:52.820 --> 02:54.980
iniziato negli stati in cui mi trovavo.

02:55.100 --> 03:00.650
E poi hai visto che ho premuto su azione Norf e la prima volta sono finito a zero una

03:00.650 --> 03:01.310
volta salito.

03:01.490 --> 03:05.000
Ma la seconda volta che ho preso l'azione Norf e ho finito lo stesso triste non si è mosso.

03:05.000 --> 03:08.440
Quindi è successo qualcosa, sai che la casualità che ho avuto è andata a destra oa sinistra.

03:08.780 --> 03:10.910
E per impostazione predefinita i parametri sono impostati.

03:10.910 --> 03:16.910
Puoi vedere qui per impostazione predefinita che sono impostati esattamente su ciò che abbiamo discusso su quanto spesso si traduca in

03:16.940 --> 03:18.250
una direzione non intenzionale.

03:18.270 --> 03:20.960
Il 20 percento delle volte il 10 percento a sinistra un po 'a destra.

03:21.230 --> 03:23.520
Quindi se salgo e dico che sono salito, vado a destra.

03:23.520 --> 03:26.810
Sono andato proprio ora non è successo.

03:26.810 --> 03:29.790
Bene, giusto e ho finito.

03:29.790 --> 03:35.810
fare di nuovo clic per uscire da questo output finale, così da lì basta cliccare di nuovo e hai finito.

03:35.810 --> 03:37.140
Ma in questa implementazione devi

03:37.190 --> 03:40.700
Questo è uno stato terminale in modo che possiamo eseguire il nostro manuale.

03:40.730 --> 03:45.620
Puoi vedere che se vado a destra, a destra, a sinistra, su.

03:45.740 --> 03:50.060
Quindi, ecco cosa abbiamo visto in precedenza che l'agente non sarebbe andato bene.

03:50.060 --> 03:53.300
Qual è il punto di salire se c'è la possibilità di andare nella fossa.

03:53.300 --> 03:54.580
Quindi vediamo cosa farebbe l'agente.

03:54.610 --> 03:56.780
Andrebbe a sinistra e andrà ad ovest qui andrebbe ad ovest.

03:56.780 --> 04:00.820
E vedi che ho cliccato a sinistra ma è salito e fare clic qui a destra.

04:00.860 --> 04:05.390
E finisco nella fase finale dell'uscita e vedi la ricompensa di Dio uguale a uno.

04:05.390 --> 04:07.190
Quindi è quello che sembra manualmente.

04:07.190 --> 04:12.520
Ora leghiamo un'IA a questa e lasciala passare.

04:12.510 --> 04:16.800
Quindi facciamo una H qui e aggiungiamo un po 'di Brandner.

04:16.820 --> 04:24.170
Quindi fammi vedere cosa ho digitato qui, quindi spero che tu possa vedere dal mondo della griglia perché allora qui meno

04:24.230 --> 04:25.370
i nostri mezzi.

04:25.370 --> 04:27.980
Questa è la ricompensa per la vita.

04:27.980 --> 04:31.840
Quindi ne ho due, quindi probabilmente dovrei rimuoverlo.

04:32.190 --> 04:35.050
Quindi meno k è il numero di iterazioni.

04:35.060 --> 04:36.690
Sono troppe iterazioni.

04:36.690 --> 04:41.180
Facciamo meno Facciamo come 10 iterazioni dovrebbero essere sufficienti.

04:41.180 --> 04:42.710
Meno a è l'agente.

04:42.710 --> 04:47.040
Che tipo di agente non vuole fare onore e immagine e qualche valore o una Q.

04:47.060 --> 04:49.120
Q Quindi voglio una Q.

04:49.190 --> 04:57.090
L'agente di apprendimento di Q che fa questo meno s è la sua velocità, quindi è una forza troppo grande

04:57.090 --> 05:04.780
che usa solo la massima velocità per ora meno R è una penalità vivente quindi di default è zero.

05:04.820 --> 05:11.000
Quindi ricorda di ricominciare dall'inizio 0 penance viventi quindi chiamiamolo anche 0 0 e possiamo

05:11.000 --> 05:16.040
semplicemente rimuovere questo parametro e D è ciò che è d sconto.

05:16.040 --> 05:20.660
Quindi ho solo un po 'di fattore quindi teniamolo a zero e quindi molto simile

05:20.660 --> 05:27.880
a quello che stiamo iniziando in questa sezione del corso, quindi eseguiamo quel modo OK troppo velocemente di nuovo tutto in realtà così

05:27.880 --> 05:30.130
OK, così puoi vedere come sta esplorando.

05:30.580 --> 05:35.650
E così finora ha colpito negativamente tre volte e puoi vedere come i valori q vengono aggiornati

05:35.650 --> 05:36.690
in questi quadrati.

05:36.700 --> 05:37.860
Quindi questi sono valori chiave.

05:37.870 --> 05:39.310
Sono una specie di zero.

05:39.320 --> 05:40.740
Puoi vedere ora il valore Q.

05:40.740 --> 05:45.220
Quindi ha imparato che questo è un attrezzo un po 'diverso perché una volta arrivato

05:45.220 --> 05:46.560
alla fase finale devi uscirne.

05:46.660 --> 05:48.990
Devi solo fare clic su un altro pulsante per uscire.

05:49.000 --> 05:51.740
E quindi è molto vicino a uno, ma non esattamente uno.

05:51.760 --> 05:57.530
valore lentamente tipo di mani cristallizzanti è un punto in cui un ex collega sta arrivando da qualche parte ma sono

05:57.520 --> 06:02.290
solo così lontani che sono tipo zero perché non ha abbastanza informazioni per capisci cosa sta succedendo

06:02.290 --> 06:05.470
Ma allo stesso tempo puoi vedere che qui sai che il

06:05.470 --> 06:08.710
OK, vediamo come vediamo cosa succede qui.

06:10.180 --> 06:13.620
Esplorando esplorando esplorare cosa sta per accadere.

06:13.710 --> 06:15.300
Bene stava per essere un po '.

06:15.670 --> 06:17.940
E otteniamo qui una certa casualità.

06:18.100 --> 06:20.100
Quindi c'è quella buona un paio di volte.

06:20.110 --> 06:22.500
Ora ha solo 10 iterazioni.

06:22.510 --> 06:26.780
Quindi deve imparare velocemente Ok, ho bisogno che tu sia lì.

06:27.220 --> 06:29.280
Vediamo cosa sta succedendo.

06:29.320 --> 06:30.050
Dai.

06:30.060 --> 06:31.820
Esci da quel labirinto già.

06:32.840 --> 06:38.450
E sì, 10 episodi così mediocri risulta.

06:38.590 --> 06:40.430
Questo non è veramente interessato a questo.

06:40.460 --> 06:41.760
Quindi qui vediamo.

06:41.760 --> 06:43.060
Non ho mai visto abbastanza di un clic.

06:43.100 --> 06:43.460
Destra.

06:43.460 --> 06:43.810
Eccoci.

06:43.820 --> 06:47.780
Quindi puoi vedere che questa è la politica che ha escogitato.

06:48.020 --> 06:50.860
Anche con soli 10 episodi ha già un polso.

06:50.890 --> 06:55.820
Vado su una bomba e qui andrò quaggiù andrò quaggiù andrò

06:55.820 --> 06:58.320
nel muro e poi rimbalzerò qui.

06:58.550 --> 06:59.620
E 'carino

07:00.000 --> 07:00.250
OK.

07:00.260 --> 07:02.530
Quindi ora aumentiamo la velocità.

07:02.650 --> 07:04.220
Qual era il parametro s lì.

07:04.220 --> 07:06.240
E questo è come una doppia illegalità.

07:06.260 --> 07:13.070
Quella è quadruplicare la velocità e aumentiamo il numero di iterazioni quindi diciamo 20 per razionare questa volta e

07:13.070 --> 07:16.390
vediamo se ora può fare un po 'di più.

07:16.790 --> 07:18.700
Quindi puoi vedere che sta andando un po 'più veloce.

07:19.600 --> 07:25.900
E sta imparando che sta imparando che in realtà non sai da questo stato non ci sono molte buone azioni

07:25.900 --> 07:30.220
Orio queste azioni che la destra e la scala non sono così buone.

07:30.250 --> 07:32.400
Sicuramente questo non era decisamente buono.

07:32.410 --> 07:34.680
Ha ancora bisogno di imparare che così anche da qui va bene.

07:34.680 --> 07:36.820
Puoi vedere che questa azione è abbastanza buona.

07:36.820 --> 07:37.330
Tutto ok.

07:37.330 --> 07:38.380
Cosa ha ottenuto.

07:38.530 --> 07:39.100
OK.

07:39.100 --> 07:42.200
Così interessante politica qui decidiamo di salire.

07:42.330 --> 07:43.270
Solo poche informazioni.

07:43.270 --> 07:45.610
Quindi facciamolo davvero.

07:46.850 --> 07:50.370
E aumentiamo la velocità a 100 come piace.

07:50.630 --> 07:56.570
Super veloce e il numero di iterazioni gli darà 100 iterazioni questa volta è corsa

07:56.570 --> 08:02.930
quella scena come una matta veloce e puoi vederlo perché ci sono così tante altre iterazioni Ha

08:02.930 --> 08:09.500
più informazioni più opportunità di sperimentare e davvero costruire questa matrice o matrice questi valori per ogni

08:09.500 --> 08:10.240
singolo stato.

08:10.250 --> 08:13.220
Ora sa che puoi vedere quel punto zero ottantanove.

08:13.250 --> 08:16.050
Che cosa abbiamo detto nel nostro punto zero 86.

08:16.120 --> 08:20.660
Un'altra cosa da ricordare è il valore di ogni dato stato.

08:20.720 --> 08:24.230
Ricorda che la formula che avevamo era il massimo dei valori del cubo.

08:24.230 --> 08:27.160
Ricorda quella cosa che abbiamo trovato con la formula di scelta rapida.

08:27.170 --> 08:30.690
Quindi cos'è che cosa con il valore in questo stato è la V di questo.

08:30.900 --> 08:32.060
Sarebbe 0. 18.

08:32.060 --> 08:37.870
Perché questo è il più alto dei quattro qui il valore di questo stato 0. 7 vuoi il valore di questo

08:37.870 --> 08:38.180
giorno.

08:38.210 --> 08:40.260
C'è il punto sessantuno e così via.

08:40.400 --> 08:41.480
Quindi è qualcosa da ricordare.

08:41.490 --> 08:45.590
Ricordo che quando mi sono alzato penso che avremmo gradito il punto zero 86 o qualcosa così praecox.

08:45.770 --> 08:55.060
E così se andiamo l'anno prossimo sparirò o scomparirò di nuovo e questo può farlo tornare indietro.

08:55.170 --> 08:55.750
OK.

08:55.760 --> 08:56.210
OK.

08:56.210 --> 09:00.680
Lentamente lentamente riempiendo alcuni spazi.

09:00.970 --> 09:01.450
Io vedo.

09:01.490 --> 09:06.170
Ed è anche abbastanza casuale perché non solo l'ambiente ha casualità, ma anche il modo in

09:06.170 --> 09:10.750
cui esplora che la star in realtà non sa che la politica sta esplorando a caso.

09:11.190 --> 09:12.150
Continua a sparire.

09:12.170 --> 09:13.420
Non capisco perché.

09:13.680 --> 09:18.650
Ad ogni modo vediamo cosa succede se aumenti il ​​numero qui e qui dovrebbe

09:18.650 --> 09:23.060
praticamente prendere lo stesso tempo se la velocità non ha un limite.

09:23.480 --> 09:27.610
OK, quindi è come se avesse più opportunità di esplorare le cose.

09:27.650 --> 09:30.850
OK vediamo come va tutto.

09:31.260 --> 09:35.010
E puoi vedere che i valori stanno convergendo, vanno su e giù a seconda che tu lo sappia

09:35.010 --> 09:38.640
perché c'è un po 'di casualità e potrebbe finire come nella buca anche se lui va così.

09:38.640 --> 09:44.940
Ma allo stesso tempo stanno lentamente iniziando a convergere in una sorta di valori e valori di cue.

09:44.950 --> 09:48.540
OK probabilmente un migliaio è un po 'troppo in termini di tempo.

09:48.540 --> 09:53.250
Non sembra che anche la velocità aumenti proporzionalmente.

09:53.610 --> 09:55.560
Quindi potrebbe tagliare quella parte.

09:55.650 --> 09:57.560
Intendo come ridurre la velocità.

09:57.600 --> 10:02.850
Sai che mentre questo è molto basso non devi guardare fino alla fine di questo tutorial,

10:02.850 --> 10:08.430
voglio solo sperimentare un bel po 'per darti alcuni esempi di ciò che stiamo lavorando, ma ottieni

10:08.430 --> 10:10.920
il punto che passa attraverso tutto questo

10:10.950 --> 10:14.800
Ha un po 'di casualità come Rambler è costruito nel suo comportamento.

10:14.820 --> 10:20.720
Quindi, anche se ha una politica simile, continuerà a essere esplorata, quindi non sarà come se, una volta che avrà una

10:20.720 --> 10:23.420
politica di base, non continui a seguire la sua politica.

10:23.460 --> 10:29.130
Sperimenterà ancora con altre variazioni di tanto in tanto al fine di migliorare la sua politica, forse non

10:29.130 --> 10:31.350
ha trovato la politica migliore già subito.

10:31.350 --> 10:33.240
Forse può migliorare la politica.

10:33.360 --> 10:40.080
Ed è per questo che anche dopo tante iterazioni puoi ancora vedere alcuni effetti casuali che a volte salta agli stati

10:40.080 --> 10:45.060
casuali non solo a causa della casualità nell'ambiente ma anche perché c'è un livello come un

10:45.060 --> 10:50.750
parametro che puoi controllare e che potresti impostare per il tuo agente che dice che la maggior parte

10:50.820 --> 10:56.040
delle volte l'80% delle volte fa ciò che la tua politica ti dice di fare, ma il

10:56.040 --> 11:00.930
20% delle volte hai solo qualche divertente esperimento e vedi cosa succede e usa le

11:00.930 --> 11:03.410
informazioni che raccogli per aggiornare la tua politica.

11:03.410 --> 11:05.300
OK, questo sta prendendo troppo tempo.

11:05.310 --> 11:06.360
Proviamoci di nuovo.

11:06.560 --> 11:11.640
Sì, è così che l'agente impara in diversi stati.

11:11.640 --> 11:14.270
Magari ne corriamo uno solo per curiosità.

11:14.280 --> 11:16.590
Quindi c'è qualcos'altro che possiamo cambiare al riguardo.

11:18.420 --> 11:20.110
Iterazioni.

11:21.630 --> 11:22.400
OK.

11:22.430 --> 11:24.280
OK diamo un'occhiata.

11:24.550 --> 11:26.680
Sì, potremmo cambiare la discussione, ad esempio.

11:26.680 --> 11:39.860
Quindi in questo caso potremmo dire che K meno cento meno un Q meno due meno OK migliaia.

11:39.920 --> 11:41.380
Quindi ricompensa.

11:41.390 --> 11:47.920
Vogliamo tenerlo, forse continuiamo a 0. mantieni la ricompensa nel mio punto zero nel deserto ogni volta.

11:47.920 --> 11:49.270
04 Ma diciamo contro,

11:49.280 --> 11:58.340
E poi qui stiamo per dire che lo sconto non è zero virgola nove ma è come zero punto punto

11:58.340 --> 11:59.030
cinque.

11:59.060 --> 12:02.300
Quindi viene scontato parecchio durante il gioco.

12:02.600 --> 12:08.960
Quindi in realtà ora sarà incentivato ad essere più vicino al traguardo piuttosto che un ulteriore percorso in cui gli stati vicini

12:08.960 --> 12:14.060
alla fine otterranno un valore elevato in modo che tu possa vedere che i valori diminuiscono davvero, non

12:14.060 --> 12:15.400
è così verde come prima.

12:16.360 --> 12:20.190
Quindi qui puoi vedere che questa è la politica ora.

12:20.380 --> 12:26.490
Quindi è come se fosse così simile a quello che abbiamo visto prima, ma probabilmente solo le

12:26.500 --> 12:28.830
differenze da qui saltano direttamente qui.

12:28.840 --> 12:29.980
Quindi questo è uno.

12:30.000 --> 12:32.500
E OK, ne eseguiamo uno di più.

12:32.500 --> 12:33.510
Questo è molto divertente.

12:33.580 --> 12:39.020
Facciamo solo un altro k meno k 100 a q scartare.

12:39.130 --> 12:48.960
Mantenerlo come era originale Quindi eseguiamo questa configurazione base di vaniglia ok ok ok.

12:49.110 --> 12:51.110
Vedremo se ci mostrerà la politica.

12:51.210 --> 12:54.820
E sì, abbiamo la politica.

12:54.840 --> 12:55.150
Sì.

12:55.150 --> 12:56.350
Buon finale

12:56.350 --> 12:58.820
Quindi qui abbiamo la politica.

12:58.900 --> 12:59.830
Sai che questo è familiare.

12:59.830 --> 13:05.260
Ricorda quella volta in cui abbiamo visto che l'intelligenza artificiale ha superato in astuzia la bomba umana nel muro per andare

13:05.290 --> 13:08.530
lì e sbattere contro il muro per andare così ad aumentare il problema.

13:08.530 --> 13:09.270
Quindi eccoci.

13:09.280 --> 13:17.020
Questo è un esempio di inattività dell'intelligenza artificiale molto semplice e semplice guadagno di uccisioni, quindi nessun apprendimento profondo

13:17.020 --> 13:18.190
in questa fase.

13:18.610 --> 13:23.810
Ma allo stesso tempo è già abbastanza intelligente e spero vi sia piaciuto il tutorial di oggi.

13:23.810 --> 13:29.210
E ancora una volta grazie a UC Berkeley e spero che ti sia piaciuto il tutorial di oggi e non vedo l'ora

13:29.230 --> 13:29.630
di vederli.

13:29.650 --> 13:31.120
Fino ad allora goditi l'intelligenza artificiale.