WEBVTT

00:00.650 --> 00:05.690
Bună ziua și bun venit înapoi la cursul pe care l-am în partea anterioară am vorbit

00:05.750 --> 00:08.360
despre învățarea profundă Killary intuiție am început acolo.

00:08.360 --> 00:14.900
Și, de fapt, am ajuns până la această parte și unde am vorbit despre învățare și

00:14.900 --> 00:18.200
acum vom trece la partea care acționează efectiv.

00:18.200 --> 00:22.250
Deci există două părți la părți distincte pe care trebuie să le amintim.

00:22.250 --> 00:25.520
Deci asta este partea de învățare, dar acum el a făcut toate astea.

00:25.520 --> 00:26.390
Asta-i frumoasă.

00:26.390 --> 00:30.500
Acum, el trebuie să ia o acțiune pe care trebuie să-l decidă ce va face, va face o acțiune de

00:30.500 --> 00:31.710
două sau trei sau patru.

00:31.740 --> 00:32.860
Și cum o face el?

00:33.020 --> 00:39.370
Ei bine, modul în care o face este acum dat acelorași valori, astfel încât valorile nu se schimbă după ce avem aceste valori

00:39.370 --> 00:43.430
de a le compara cu Calcott în ultimele două de către era arogată am actualizat

00:43.430 --> 00:45.950
greutățile, dar valorile nu schimbare a întregului proces.

00:45.990 --> 00:47.410
Pentru a avea valorile cubului acolo.

00:47.430 --> 00:48.380
Sunt fixați.

00:48.380 --> 00:49.440
Știm ce sunt.

00:49.440 --> 00:50.480
Totul se întâmplă totuși.

00:50.510 --> 00:53.820
Rețelele au fost actualizate și utilizate utilizând aceleași valori pe care le aveam.

00:53.960 --> 00:58.600
Ceea ce vom face este ca le vom analiza printr-o functie soft max.

00:58.610 --> 01:00.580
Și din nou Max, așa cum este descris.

01:00.620 --> 01:05.160
Cred că o anexă 2 și vom vorbi un pic mai mult despre soft max.

01:05.180 --> 01:12.070
Mai jos sau vom vorbi despre această politică de selecție a acțiunilor în continuare în restul acestei secțiuni.

01:12.140 --> 01:13.610
Deci, doar în câteva tutoriale.

01:13.730 --> 01:17.270
Dar deocamdată o să spunem că o trecem printr-o funcție ușoară următoare.

01:17.270 --> 01:22.150
În principiu, ceea ce face este că permite să ajute la selectarea celei mai bune pe care o selectează cea mai bună acțiune posibilă.

01:22.250 --> 01:23.650
Și există o mică avertizare pentru asta.

01:23.660 --> 01:26.120
Nu este doar cea mai bună posibilă.

01:26.120 --> 01:28.940
Vom vorbi despre asta în tutorialul privind politica de selecție a acțiunilor.

01:28.940 --> 01:35.890
Dar pentru moment, să spunem doar că selectează cea mai bună acțiune de aici, spune OK, astfel încât Q1 știi probabilitatea.

01:36.140 --> 01:41.960
Practic, știm că valorile q prezise valoarea Q astfel încât să poată să le privească și să spună OK, astfel încât valoarea cea

01:41.960 --> 01:46.280
mai ridicată a acestora să fie exact așa cum am făcut-o în algoritmul Q de învățare simplu.

01:46.280 --> 01:50.240
Mă uit la toate acestea pentru că spun cele mai înalte valori pe care o voi selecta acea acțiune pe care

01:50.240 --> 01:50.860
o vom lua.

01:50.900 --> 01:52.180
Și asta este destul de mult.

01:52.220 --> 01:57.300
Acesta este modul în care el alege ce acțiune ia ia ia măsuri și apoi tot acest proces se întâmplă din nou.

01:57.290 --> 02:02.120
Căci pentru etapa următoare agentul se termină în cazul nostru și în următorul pătrat al labirintului.

02:02.120 --> 02:04.540
Dar, în general, vorbește în următoarea stare.

02:04.640 --> 02:05.420
Așa că mergem.

02:05.420 --> 02:14.660
Așa ne alimenta într-o problemă de învățare a întăririi într-o rețea neurală printr-un vector care descrie statul în care

02:14.660 --> 02:16.160
ne aflăm.

02:16.160 --> 02:17.510
Și odată ce ne potrivim.

02:17.510 --> 02:22.210
Există două părți ale procesului care se întâmplă Partea întâi este învățarea.

02:22.400 --> 02:26.840
Așadar, amintiți-vă acea parte în care comparăm fiecare dintre valorile cubului cu țintă și apoi

02:26.840 --> 02:32.360
propagăm pierderile prin rețea pentru a actualiza greutățile astfel încât rețeaua noastră să învețe pe măsură ce trecem

02:32.360 --> 02:34.830
prin acest labirint sau prin acest mediu.

02:35.210 --> 02:41.120
Și, de asemenea, a doua parte este bineînțeles că trebuie să acționăm că trebuie să selectăm o acțiune și

02:41.120 --> 02:46.880
de aici trecem valorile printr-o funcție max soft și practic o politică de selectare a acțiunii pe care o

02:46.880 --> 02:48.330
vom vorbi mai departe.

02:48.470 --> 02:53.570
Și apoi alegem pur și simplu acțiunea pe care dorim să o luăm și o executăm și apoi întregul proces

02:53.570 --> 02:54.580
începe din nou.

02:54.770 --> 02:59.570
Și apoi poate agentul devine atunci poate agentul nu pausa jocul.

02:59.630 --> 03:01.250
În orice caz, jocul se termină.

03:01.250 --> 03:08.270
Și apoi, din nou, întregul proces repetă că agentul reda tot jocul și apoi se oprește așa că practic este un alt parc de

03:08.270 --> 03:14.460
aer de fiecare dată când agentul pe care-l cunoști de fiecare dată când jocul se termină cu o favoare dincolo

03:14.460 --> 03:16.680
de faire, care este sfârșitul unui aeroport.

03:16.700 --> 03:19.560
Apoi începe din nou și apoi începe din nou și apoi începe din nou.

03:19.790 --> 03:20.420
Si asa mai departe.

03:20.420 --> 03:26.810
Așa se întâmplă și acest proces se întâmplă pentru fiecare dată când agentul este în tine într-o stare nouă, astfel încât

03:26.810 --> 03:32.240
statul este codificat aici, deci nu este important doar pentru fiecare joc pe care îl joacă, ci pentru

03:32.240 --> 03:33.020
fiecare stat.

03:33.020 --> 03:38.030
Deci, el este într-o stare care trece prin datele sale de proces și așa mai departe și se întâmplă de fiecare dată.

03:38.150 --> 03:41.410
Și astfel învățarea se întâmplă și acționarea se întâmplă și ea.

03:41.720 --> 03:47.090
Deci, aceasta este o învățare profundă în intuiția din spatele învățării profunde.

03:47.090 --> 03:54.200
Avem mult mai multe pentru a ne acoperi și, bineînțeles, practic și între timp dacă doriți să obțineți

03:54.410 --> 03:56.720
informații suplimentare despre învățarea continuă.

03:56.720 --> 04:05.200
Avem o lectură recomandată, așa că am vorbit deja despre seria posturilor de blog ale lui Arthur Giuliani.

04:05.210 --> 04:12.590
Dacă te uiți la învățarea informală simplă Lifton's flow part 4 vei găsi acea parte relevantă pentru ceea

04:12.590 --> 04:14.260
ce am discutat astăzi.

04:14.270 --> 04:21.170
Rețineți că aici vorbește despre convoluții pe care nu le acoperim revoluțiile din această secțiune vom vorbi despre

04:21.170 --> 04:23.650
ele în următoarea secțiune a cursului.

04:23.720 --> 04:28.880
Deci, diferența este că este doar un fel de a sări peste partea de concluzii pentru moment și vom

04:28.880 --> 04:32.850
vorbi despre ele în următoarea parte a cursului, dar diferența este în evoluții.

04:32.850 --> 04:39.170
Esti ca si cum arata ca agentul se uita la imagine si, prin urmare, trebuie sa proceseze o imagine o complicatie

04:39.170 --> 04:43.540
suplimentara pentru acum, in cazul in care suntem lent treptat construirea pana la asta.

04:43.580 --> 04:50.060
Deocamdată, codificăm mediul nostru prin faptul că privim aici că codificăm mediul nostru sau poate

04:50.060 --> 04:58.700
că ne uităm la acesta, probabil, în codarea mediului nostru ca fiind sau în afirmația că agentul este în vector.

04:58.700 --> 05:01.330
Deci, în cazul nostru a fost un vector simplu de valori.

05:01.490 --> 05:06.190
Uneori, chiar și în ceea ce privește acel simplu, poate uneori sau așa cum veți vedea din acest post pe blog.

05:06.290 --> 05:10.180
Uneori oamenii preferă versiunea caldă și codată a acelei stări.

05:10.180 --> 05:13.380
Deci, practic, în cazul în care fiecare cutie a labirintului are a.

05:13.620 --> 05:17.780
Deci, aveți ca un vector de pentru un caz nulă ar fi 12 valori trei la patru.

05:17.800 --> 05:22.130
Deci, nu este ca nici unul sau 0 în funcție de elementele și cutia în care vă aflați.

05:22.160 --> 05:22.990
În mediul înconjurător.

05:23.060 --> 05:29.900
Deci, în orice mod vă decideți să codificați mediul înconjurător și starea mediului dumneavoastră, așa cum codificați Este

05:29.900 --> 05:31.520
un vector în esență.

05:31.520 --> 05:36.410
Cheia aici este că nu este o convoluție Deci nu este ca o imagine și nu există nici o convoluție volt Deci

05:36.410 --> 05:37.810
această parte va veni mai târziu.

05:37.820 --> 05:43.410
Pentru noi începe aici și asta simplifică procesul pentru a înțelege mai bine mai bine.

05:43.550 --> 05:49.130
Și, desigur, nu uitați că acest post este nepoliticos și tinde să curgă și că folosim pi torche

05:49.130 --> 05:50.090
în tutorialele noastre.

05:50.090 --> 05:51.910
Deci, sperăm că vă place asta.

05:51.920 --> 05:59.220
O introducere rapidă într-o profundă adâncime de convoluție, adâncă, nu adâncă.

05:59.310 --> 06:02.910
Și în acea notă aștept cu nerăbdare să vă văd în continuare.

06:02.930 --> 06:05.430
Și până atunci savurați inteligența artificială.