WEBVTT

00:00.940 --> 00:04.150
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.150 --> 00:09.070
În regulă, așa că sper că vă bucurați de tutorialul până acum, că aproape că am terminat cu intuiția, veți ajunge în curând

00:09.070 --> 00:13.390
foarte curând la aspectul practic al lucrurilor pe care tocmai am primit câteva lucruri pe care trebuie să le acoperim.

00:13.510 --> 00:20.320
În regulă, am vorbit deja despre modul în care adăugăm rețele neuronale în această întreagă ecuație de învățare

00:20.350 --> 00:25.360
CULE și luăm ular în pasul următor și îl transformăm în învățare profundă.

00:25.690 --> 00:33.130
Și astăzi vom adăuga o caracteristică suplimentară importantă, care va fi codificarea în partea practică a lucrurilor astfel încât titlul și am decis că

00:33.130 --> 00:39.100
este important pentru noi să-l acopere adesea în partea de intuiție a lucrurilor, astfel încât să fiți mai pregătiți pentru

00:39.100 --> 00:42.430
că atunci când vine în partea de codificare a lucrurilor.

00:42.430 --> 00:47.950
Deoarece am discutat că avem rețeaua acolo, există două părți care se întâmplă.

00:47.950 --> 00:53.110
În primul rând este învățarea, astfel încât rețeaua învață de fapt cu fiecare stat nou.

00:53.270 --> 00:58.870
Încearcă încet așteptările sale de a se îmbunătăți și de a face mai bine și de a face față acestui mediu.

00:58.870 --> 01:06.910
Apoi, acționează în interiorul statului, astfel încât valorile q au fost numărate în stare, după ce

01:06.970 --> 01:08.220
ați selectat.

01:08.230 --> 01:14.800
Deci, astăzi vom vorbi încă despre partea de învățare pe care o vom prezenta cu o trăsătură

01:14.800 --> 01:20.050
interesantă, care va ajuta în studioul de a veni cu această caracteristică

01:20.080 --> 01:29.690
noi înșine, dar vom vorbi despre o trăsătură care este foarte importantă pentru o învățare profundă rece și această caracteristică se numește reluarea experienței.

01:29.710 --> 01:30.030
In regula.

01:30.040 --> 01:34.570
Așa că aici este rețeaua noastră, așa că am copiat-o aici.

01:34.570 --> 01:39.000
Avem pierdut că este Calcott în partea de jos este propagator înapoi prin rețea.

01:39.100 --> 01:44.770
Și să aruncăm o privire la un exemplu despre ceea ce se întâmplă pentru a înțelege problema cu care ne confruntăm

01:44.770 --> 01:45.670
puțin mai bine.

01:45.670 --> 01:49.120
Deci, aici este un exemplu de fapt din scoruri.

01:49.120 --> 01:54.820
Acesta este un ecran împușcat exact de la acest curs acest lucru este ceea ce veți fi de programare.

01:54.820 --> 02:02.170
Aceasta este o masina cu autoturism care conduce prin aceasta prin acest drum si trebuie sa invete cum sa

02:02.170 --> 02:03.780
navigheze pe acest drum.

02:03.820 --> 02:09.290
Și așa este ceea ce este așa cum am discutat anterior Ce este acest lucru în această stare.

02:09.320 --> 02:15.850
Și, desigur, statul nu va fi x1 x2 Lundell descrie-o cu mult mai multe detalii despre cum

02:15.850 --> 02:23.650
starea va fi vorba despre câțiva parametri care se referă la unghiul mașinii și la unii parametri relativi care sunt

02:23.650 --> 02:26.490
senzorii lectură și așa mai departe.

02:26.490 --> 02:29.820
Deci, vor exista mai mulți parametri decât descrierea statului.

02:29.830 --> 02:34.120
Dar, totuși, va fi un vector al valorilor care vor trece printr-o rețea neuronală și apoi

02:34.120 --> 02:36.520
pe ieșirea veți avea unele valori ale ACU.

02:36.520 --> 02:39.850
Din nou, va exista o diferență în funcție de mediul înconjurător.

02:39.850 --> 02:44.380
Acestea pot fi un număr diferit de acțiuni posibile acțiuni.

02:44.460 --> 02:49.660
Dar tocmai pentru simplitate o vom lăsa doar pentru ca noi să înțelegem mai bine ce

02:49.660 --> 02:50.830
se întâmplă aici.

02:50.830 --> 02:55.710
Deci, în acest caz, care este întrebarea este până acum ce este asta.

02:55.730 --> 03:03.510
Aceste intrări în această rețea neuronală sau, mai precis, cât de des declanșăm această rețea neurală.

03:03.520 --> 03:05.080
Cât de des are această creștere netă neurală.

03:05.110 --> 03:11.410
Ei bine, de fiecare dată când mașina se termină într-o stare nouă, așa că mașina face o mișcare, se termină într-o stare nouă

03:11.530 --> 03:12.650
și apoi totul merge.

03:12.670 --> 03:17.410
Toate datele pe care toate informațiile despre statul respectiv le trec prin rețea dau lui Alice erorile

03:17.650 --> 03:18.200
calculate.

03:18.280 --> 03:22.960
Această eroare este calculată pe baza celor discutate în instrucțiunile anterioare.

03:22.990 --> 03:26.080
Acest lucru este propagat înapoi și greutățile lor sunt actualizate.

03:26.080 --> 03:32.570
Apoi, masina selecteaza ce actiune urma sa faca face ca aceasta miscare sa se termine intr-o noua stare in noua stare.

03:32.590 --> 03:34.390
Totul începe din nou.

03:34.450 --> 03:39.880
Și așa se întâmplă de fapt, de fiecare dată când mașina este înăuntru și ați spus că aveți o privire la acest exemplu.

03:39.880 --> 03:46.240
Am luat în mod special ecranul pentru că arată că arată foarte bine problema care se adresează prin replayul de experiență

03:46.240 --> 03:51.430
și prin înlocuirea cheltuielilor nu doar cu ceva pe care îl folosim în acest curs sau

03:51.430 --> 03:52.730
în această problemă specifică.

03:52.810 --> 03:57.190
Este ceva pe care îl veți vedea folosit pe tot parcursul.

03:57.340 --> 04:04.480
Pe și peste și din nou în algoritmii inteligenței artificiale, deoarece este atât de puternic și este atât de

04:04.480 --> 04:05.140
important.

04:05.140 --> 04:11.440
Deci, uita-te la aceasta masina aceasta masina in aceasta problema sau in acest mediu scopul este de a veni de la du-te de aici pana

04:11.440 --> 04:12.440
aici si inapoi.

04:12.440 --> 04:17.540
Obiectivul său este de a se deplasa aici aici, fără a traversa acești pereți care sunt făcuți din nisip.

04:17.790 --> 04:24.430
Așa că mașina a pornit de aici și a căzut în jos și ca și cum răsplata ei se bazează pe faptul că știți cât de aproape este

04:24.430 --> 04:25.120
să începeți.

04:25.120 --> 04:29.890
Deci, mașina a pornit de aici și a coborât și a continuat să meargă așa cum se întâmplă așa, sau de-a

04:29.890 --> 04:31.490
lungul acestui zid de-a lungul coastei.

04:31.570 --> 04:34.990
Și ceea ce va face în continuare va merge va continua.

04:34.990 --> 04:37.450
Ceea ce am vrut să facem este să continuăm să mergem aici.

04:37.690 --> 04:39.490
Dar să ne gândim la asta o secundă.

04:39.580 --> 04:44.240
Odată ce a ajuns în acest zid de fiecare dată când se mișcă înainte, se mișcă înainte.

04:44.260 --> 04:48.570
Mută înainte Mută înainte Mută înainte Mută înainte Mută înainte și așa mai departe Mută înainte.

04:48.580 --> 04:53.320
Deci ar putea fi ca în funcție de mediul de structură ar putea fi ca o sută de mișcări aici

04:53.320 --> 04:54.710
sau 50 de mișcări aici.

04:54.990 --> 04:59.100
Pur și simplu continuă să avanseze înainte și nu se schimbă nimic.

04:59.160 --> 05:03.310
Nu se schimba într-adevăr că se obține o cale mai departe de acest lucru a început mai aproape de această poveste.

05:03.310 --> 05:04.060
Este dragut.

05:04.210 --> 05:09.990
Dar în ceea ce privește mediul înconjurător, nu se schimbă multe lucruri, este totuși același zid.

05:10.090 --> 05:15.460
Dacă vă aflați în mașină probabil că ați văzut situația când conduceți în ceea ce vedeți este

05:15.460 --> 05:21.220
ca mediul înconjurător este atât de monoton încât tocmai vedeți că un fel de același lucru trece doar

05:21.220 --> 05:21.840
prin.

05:21.840 --> 05:26.680
Dar, așa cum îmi imaginez că conduci printr-un deșert și doar vezi același lucru, e același

05:26.680 --> 05:29.100
sunet că același sunet nu se întâmplă nimic.

05:29.100 --> 05:30.340
Nimic nu se schimbă.

05:30.550 --> 05:36.820
Și astfel bazat, dar de fiecare dată punem acel stat în starea asta nouă.

05:37.000 --> 05:42.010
Da, desigur, s-ar putea schimba ceva pentru noi când conduci mașina și GPS-ul îți arată că ești

05:42.010 --> 05:43.530
mai aproape de destinația ta.

05:43.540 --> 05:49.300
Deci, unul dintre aceste intrări este ciudat, dar multe dintre aceste alte intrări senzori, de exemplu, care sunt

05:49.300 --> 05:55.850
pe masina nu se schimbă și, prin urmare, pe măsură ce conduceți lent în această zi pentru a pune în

05:55.850 --> 06:02.380
a pune intrări în propria dvs. aici aici aici aici aici aici și aici aici tot timpul intrările sunt aproape

06:02.380 --> 06:03.220
la fel.

06:03.250 --> 06:11.140
Și astfel dacă continuați să introduceți aceleași intrări aceleași valori în vectori sau în vectori foarte asemănători în rețeaua

06:11.140 --> 06:14.240
dvs., deoarece nu există nici o varietate.

06:14.320 --> 06:16.840
Mașina va învăța foarte bine.

06:16.870 --> 06:22.420
Un lucru veti invata foarte bine cum sa conduceti de-a lungul acestui perete care este pe partea dreapta a acestuia si astfel

06:22.420 --> 06:27.970
reteaua se va actualiza si va fi recompensata va incepe sa incet sa devina recompensata pentru condusul asa de bine ca

06:27.970 --> 06:28.570
va fi.

06:28.580 --> 06:33.980
OK, de-aici de aici voi învăța tot ceea ce fac atât de bine mă fac mai bine fac mai bine.

06:34.050 --> 06:34.420
Toate.

06:34.480 --> 06:41.920
Aceasta va avea această percepție falsă că se comportă foarte bine chiar dacă învață doar cum să conducă de-a lungul drumului, precum și alte

06:41.920 --> 06:47.560
rețele neuronale vor deveni foarte adaptate pentru a conduce de-a lungul acestui bine și apoi dintr-o dată există

06:47.560 --> 06:51.100
această curbă și mașina nu Nu știu ce să fac.

06:51.310 --> 06:55.240
Și nu se potrivește complet cu această rețea neurală.

06:55.420 --> 07:01.870
Și chiar dacă o face doar cumva să spunem ipotetic că trece un loc și apoi se termină pe acest

07:01.870 --> 07:02.250
zid.

07:02.260 --> 07:05.320
Același lucru se va întâmpla să conducă de aici de aici.

07:05.320 --> 07:10.870
OK, acum rețeaua neuronală se restructurează pentru a se adapta la acest zid și apoi se întâmplă acest lucru.

07:10.900 --> 07:15.880
Și apoi, chiar dacă într-un fel va trece, va trece pe lângă acest lucru și apoi pe același

07:15.880 --> 07:16.260
lucru.

07:16.260 --> 07:23.590
De fapt, acest lucru este un exemplu foarte viu al problemei pe care noi o avem ceea ce avem este

07:23.590 --> 07:29.770
faptul că pentru că modul în care folosim rețeaua neurală actualizându-l în fiecare stat când avem

07:29.770 --> 07:36.490
o mulțime de lucruri consecutive, acestea nu trebuie nici măcar să fie același lucru, dar există în medii

07:36.880 --> 07:44.950
normale că statele consecutive sunt într-un fel corelate sau sunt într-un fel interdependente și nu vrem ca această interdependență să prejudicieze rețeaua

07:44.980 --> 07:45.550
noastră.

07:45.550 --> 07:52.600
Nu vrem ca masina sa invete cum sa conduca de-a lungul unei linii drepte sau a unei linii

07:54.100 --> 08:01.750
lungi curbe sau ca orice altceva despre care crezi ca te poti gandi in viata in care un agent

08:01.780 --> 08:10.570
ar fi mediul de navigatie unde ne putem gandi de corelatii sau state interdependente care vin după altul, care vă pot afecta

08:10.630 --> 08:12.130
într-adevăr rețeaua neuronală.

08:12.190 --> 08:15.270
Dacă vrei să lași agentul să învețe de la asta.

08:15.430 --> 08:17.600
Și aici intră reluarea experienței.

08:17.620 --> 08:24.850
Ceea ce se întâmplă în replayul de experiență sunt aceste experiențe, astfel încât aceste state că este într-una din cele două

08:24.850 --> 08:31.040
trei, oricât de multe, 50 de state aici, în neuro, ele nu se pun imediat prin rețea.

08:31.350 --> 08:35.980
Ele sunt de fapt salvate în memoria agentului.

08:36.160 --> 08:41.440
Și astfel, de exemplu, salvează toate acestea și salvează toate acestea și altele la un moment dat când atinge un anumit prag pe

08:41.590 --> 08:44.940
care îl vei putea codifica și Atlanta îți va arăta cum să faci asta.

08:45.100 --> 08:51.310
Odată ce atinge un anumit prag, agentul decide singur că este timpul să înveți.

08:51.310 --> 08:57.580
Am eu acest lot de experiențe pe care nu am de gând să învăț de la asta și

08:57.580 --> 09:04.120
așa aleg aleatoriu o distribuție uniformă și uniformitatea este cheia este importantă aici pentru că asta e ceva despre

09:04.240 --> 09:06.460
care vom vorbi despre următorul diapozitiv.

09:06.820 --> 09:08.140
O să discutăm despre asta.

09:08.140 --> 09:12.400
Dar este nevoie de o mostră uniform distribuită.

09:12.460 --> 09:15.660
Deci, practic toate experiențele sunt considerate egale.

09:15.670 --> 09:23.410
Este nevoie de un eșantion distribuit uniform din acel lot de experiențe pe care le are și apoi trece prin ele și învață de la

09:23.410 --> 09:28.060
ei, astfel încât să nu ia toată experiența sau doar să o distribuie în

09:28.060 --> 09:33.130
mod uniform probele ar putea lua câteva dintre ele de aici un cuplu de aici un

09:33.130 --> 09:39.940
cuplu de aici și ea și fiecare experiență este caracterizată de statul în care a fost în acțiunea pe care a luat-o

09:40.000 --> 09:47.110
statul în care a ajuns și pe răsplata pe care a obținut-o prin acea acțiune în acel stat specific, astfel încât patru elemente

09:47.110 --> 09:53.470
din fiecare experiență stau una acționează statul doi și recompensează și astfel ia toate experiențele și apoi le trece prin

09:53.470 --> 09:54.660
rețea și învață.

09:54.660 --> 10:05.160
În felul acesta, se rupe modelul acestei prejudecăți care vine din natura secvențială a experienței ca și cum ați fi trecut

10:05.160 --> 10:08.110
prin rețea una după cealaltă.

10:08.340 --> 10:11.930
Deci, acesta este principalul obiectiv al experienței pe care o jucăm.

10:11.930 --> 10:17.730
Asta este problema și adresa și un alt beneficiu al replay-ului de experiență este că, uneori,

10:17.730 --> 10:22.400
într-un mediu ca acesta, s-ar putea să aveți experiențe rare foarte valoroase.

10:22.410 --> 10:28.340
De exemplu, nu știu să spunem să vedem acest colț drept, acesta este colțul din dreapta.

10:28.440 --> 10:28.730
Dreapta.

10:28.740 --> 10:30.880
Și una foarte ascuțită este ascuțită.

10:30.900 --> 10:35.640
Așa că va veni de aici presupunând că o să îmbrățișeze acest colț.

10:35.640 --> 10:40.500
Deci, având în cele două colțuri drepte și drepte, avem aici în acest întreg un

10:40.500 --> 10:43.410
colț drept aici și un colț drept aici.

10:43.680 --> 10:46.240
Așa că atunci când vine așa, acesta este colțul din dreapta.

10:46.380 --> 10:48.630
Și atunci când se întoarce, este un colț drept.

10:48.620 --> 10:53.070
Deci, și acest lucru nu este ascuțit în acest fel în magazin, așa că există o

10:53.640 --> 10:56.770
singură oportunitate în întregul mediu de a învăța dintr-un colț drept.

10:56.970 --> 11:03.050
Și aceasta este o experiență foarte importantă, pentru că s-ar putea foarte bine să conduci de-a lungul liniilor drepte, să

11:03.060 --> 11:06.990
devii foarte bine să faci niște colțuri moi, cum ar fi așa.

11:07.170 --> 11:14.070
Și apoi va continua să păcălească acest colț drept, pur și simplu pentru că pur și simplu pentru că nu are această șansă de

11:14.070 --> 11:18.070
a învăța din ea și astfel, va învăța totul foarte repede, dar va dura

11:18.070 --> 11:20.180
mult timp pentru a afla dreptul curs.

11:20.180 --> 11:26.010
Exemplul foarte simplificat este o explicație foarte simplificată, dar ilustrează conceptul că

11:26.280 --> 11:30.140
uneori sunt experiențe rare care sunt valoroase.

11:30.270 --> 11:35.880
Și dacă faci doar o rețea neurală simplă în care îți pui valori aici și știi că trec prin

11:35.880 --> 11:40.950
ele și știi că chiar dacă uiți de acea problemă a naturii secvențiale a experiențelor și a

11:40.950 --> 11:45.690
modului în care pot fi interdependent și tot corelat Thimphu chiar uita despre asta pentru

11:45.680 --> 11:46.640
o secundă.

11:46.800 --> 11:52.110
Ce se întâmplă este că odată ce puneți o experiență în ea trece prin rețele de date, atunci uitați instantaneu, dar

11:52.120 --> 11:53.370
uitați de această experiență.

11:53.370 --> 11:54.380
Treci la următoarea.

11:54.420 --> 11:56.180
Așa funcționează rețeaua neuronală.

11:56.220 --> 11:59.710
Apoi, treceți la starea următoare, următorul pas, următorul pas, următoarea experiență, experiența X,

11:59.780 --> 12:01.170
experiența și așa mai departe.

12:01.170 --> 12:06.180
Deci, acest colț din dreapta, imediat ce trece printr-o rețea, a dispărut și nu aveți nici o amintire a

12:06.510 --> 12:07.450
acelei experiențe valoroase.

12:07.560 --> 12:14.220
În timp ce am experimentat reluarea pentru că puneți aceste experiențe în loturi, puteți organiza bash-ul ca o

12:14.220 --> 12:19.920
fereastră de rulare, de exemplu, ați putea avea 100 de loturi. Deci, o sută de

12:19.920 --> 12:25.920
experiențe în lotul dvs., atunci când se va întoarce de aici, aceasta a înregistrat această experiență

12:25.920 --> 12:27.380
în lotul său.

12:27.390 --> 12:34.260
Apoi, ca într-un moment în care rulează, are o distribuție uniformă din lotul său de experiențe și apoi există o fereastră

12:34.260 --> 12:37.980
rulantă, astfel că uită aceste experiențe, dar apoi păstrează aceste experiențe.

12:37.980 --> 12:44.160
Și apoi, din nou, învață de îndată ce este aici, învață din acest lot și, odată ce este aici, uită tot

12:44.280 --> 12:45.410
drumul până aici.

12:45.420 --> 12:50.550
Dar, atunci are un lot de experiențe ca acesta, deci, de aceea nu învăța din aceste experiențe.

12:50.730 --> 12:58.380
Și în acest fel ceea ce obțineți este că acest colț de dreapta ar putea veni de mai multe ori în procesul său

12:58.380 --> 13:03.480
de învățare, deoarece era în acel lot când lotul era așa ca acolo, decât în

13:03.480 --> 13:08.760
lotul de aici aici, așa că a venit în mai multe loturi, deoarece abasul ar putea

13:08.790 --> 13:11.430
fi actualizat ca o fereastră de experiență.

13:11.430 --> 13:15.630
Deci, experiențele mai în vârstă au dat naștere experiențelor mai noi sunt adăugate și apoi experiența din nou mai în

13:15.630 --> 13:16.290
vârstă obține-o.

13:16.440 --> 13:23.040
Așa că și experiența rămâne în lot timp de ceva timp și mașina sau agentul poate învăța de la această experiență de

13:23.040 --> 13:24.100
mai multe ori.

13:24.210 --> 13:27.430
Acesta este un alt avantaj al reluării experienței.

13:27.570 --> 13:33.480
Și, bineînțeles, avantajul final este replayul de experiență, care vă oferă ocazia de a învăța din mai multe

13:34.220 --> 13:39.290
experiențe decât dacă învățați doar unul câte unul pentru că aveți acel lot și,

13:39.300 --> 13:46.710
prin urmare, este o fereastră rulantă și, prin urmare, chiar dacă mediul dvs. este limitat pentru a vă experimenta abordarea replayului experienței

13:46.710 --> 13:49.260
vă poate ajuta să învățați mai repede.

13:49.410 --> 13:55.230
Și, în loc să repetați, există multe multe de multe ori pe care le puteți învăța repede, pentru că nu trebuie să le

13:55.230 --> 13:55.710
refaceți.

13:55.710 --> 13:57.440
Ați salvat aceste experiențe.

13:57.810 --> 13:59.850
Deci acestea sunt principalele avantaje ale experienței.

13:59.910 --> 14:01.760
Să recapitulăm că avem.

14:01.840 --> 14:09.280
Noi distrugem acest model asupra independenței și corelării experiențelor secvențiale, salvăm experiențe rare care ar putea fi

14:09.280 --> 14:15.640
importante, prin urmare putem învăța de la ei mai des și putem învăța în

14:16.090 --> 14:21.260
medii în care putem învăța medii Fosler care sunt experiență.

14:21.520 --> 14:27.310
Avem o lipsă de experiențe care nu au atât de multe experiențe pe care agentul le trece și

14:27.310 --> 14:29.180
încă putem să le învățăm.

14:29.380 --> 14:32.470
Deci, aceasta este ceea ce experiența revine despre toate.

14:32.470 --> 14:34.530
Dacă vrei să citești ceva mai mult decât asta.

14:34.630 --> 14:41.290
Există un articol interesant publicat de mintea profundă în 2016, care se numește reluarea experienței

14:41.560 --> 14:44.380
prioritare și se vorbește de ce.

14:44.410 --> 14:50.860
De ce folosim o distribuție uniformă pentru a alege experiențele noastre din experiența Bachche de ce nu găsim o modalitate

14:50.860 --> 14:55.870
mai bună de a alege experiențele noastre și de a prioritiza unele dintre experiențele pe care

14:55.870 --> 14:57.160
le considerăm importante.

14:57.220 --> 15:03.880
Este un lucru destul de interesant, dar în acest caz, veți fi capabil nu numai să vă

15:03.880 --> 15:11.800
consolidați sau să nu vă consolidați doar cunoștințele despre replayul de experiență, dar, de fapt, veți putea să vă deplasați cu tehnologia

15:11.800 --> 15:12.660
de vârf.

15:12.660 --> 15:15.120
Deci, acesta este anul 2016 și publicat de minți adânci.

15:15.120 --> 15:21.580
Este o lucrare foarte recentă, foarte puternică, astfel încât să puteți explora limitele sau să explorați și mai mult acest

15:21.580 --> 15:24.530
algoritm și să îl treceți la nivelul următor.

15:24.550 --> 15:31.270
Așadar, vă voi lăsa să vă aflați de ce și cum putem schimba uniforma într-o abordare diferită de a

15:31.270 --> 15:33.810
experimenta reluarea din această lucrare dacă doriți.

15:33.940 --> 15:35.270
Și sper că vă place să vă bucurați de asta.

15:35.270 --> 15:41.020
Tauriel și acum știm ce experiență este cu adevărat și o putem folosi cu încredere în cercurile noastre practice și mă uit

15:41.440 --> 15:42.860
că te văd data viitoare.

15:42.940 --> 15:44.550
Până atunci, bucurați-vă de AI.