WEBVTT

00:01.040 --> 00:04.020
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.040 --> 00:07.040
Astăzi vorbim despre învățarea lui Kule.

00:07.070 --> 00:13.120
În regulă, am obținut deja această ecuație, ecuația de bellmen, la care am adăugat o mulțime de componente.

00:13.130 --> 00:19.910
Avem recompensa aici, care nu poate fi doar la sfârșit, dar poate fi la un anumit pas.

00:19.940 --> 00:21.920
Avem factorul de reducere.

00:21.950 --> 00:26.880
Avem probabilitatea, deoarece acum privim la marcajul proceselor decizionale.

00:26.900 --> 00:32.780
Iar aici avem posibilitatea de a se termina într-un alt stat, indiferent de acțiunile pe care le luăm sau chiar

00:33.350 --> 00:35.210
de acțiunile pe care le luăm.

00:35.210 --> 00:40.670
Pot exista mai multe stări în care putem ajunge și apoi avem valoarea următoarelor state, pentru

00:40.670 --> 00:46.790
că el are un fel de funcție recursivă și așa mai departe, dar probabil că aveți încă o singură întrebare.

00:46.820 --> 00:53.560
Întrebarea este în cazul în care în toate acestea nu există nici o literă Q De ce se numește q.

00:53.750 --> 00:54.270
Învăţare.

00:54.350 --> 00:55.790
Deci, unde e curajul.

00:55.910 --> 00:58.940
Și aceasta este întrebarea pe care o vom răspunde azi.

00:58.940 --> 01:06.620
Până acum am avut de-a face cu valorile valorii de a fi într-o anumită stare și acum ne vom uita la modul

01:06.620 --> 01:09.820
în care Q se potrivește și în toate acestea.

01:10.070 --> 01:16.360
Deci, aici avem două exemple în stânga este ceea ce am fi făcut până acum agentul nostru analizează.

01:16.400 --> 01:18.170
Bine, sunt aici.

01:18.230 --> 01:21.640
Acesta este un semn al procesului de decizie, deci nu contează cum am ajuns aici.

01:21.770 --> 01:28.250
Restul mediului nu-mi pasă de pașii pe care mi-a trebuit să-l găsesc de acum încolo.

01:28.460 --> 01:32.050
Trebuie să fac decizia optimă unde să mă duc aici sau aici.

01:32.060 --> 01:37.280
Pe baza stării actuale și a tuturor stărilor viitoare care vin de aici, dar nu din trecut.

01:37.490 --> 01:42.010
Și poate să vadă că există trei opțiuni în care statul un stat este de stat trei.

01:42.260 --> 01:48.920
Și pe baza experienței sale, el a calculat valorile în aceste stări și acum el va folosi ecuația

01:48.920 --> 01:49.880
de bellmen.

01:49.880 --> 01:54.260
Deci, chiar dacă acesta este un Proceso clasic, el știe că va merge aici, dar există șansa să se

01:54.260 --> 01:56.120
ducă la stânga și așa mai departe.

01:56.110 --> 02:02.450
Așa că pe baza acestor valori vom lua o decizie care este ceea ce facem până acum și care este o abordare

02:02.450 --> 02:03.470
total legitimă aici.

02:03.560 --> 02:05.640
Dar acum suntem modificați puțin.

02:05.660 --> 02:12.860
Vom lua același concept exact la fel cu aceeași problemă exactă, dar aici, în

02:12.950 --> 02:21.440
loc să privim valorile fiecărui stat pe care poate să-l ajungă, vom examina valorile sau valoarea fiecărei acțiuni.

02:21.440 --> 02:25.640
Deci, noi nu vom mai folosi litera V pentru că pentru valoarea statului

02:25.640 --> 02:30.740
vom folosi un Q și ar putea să aveți o întrebare de ce scrisoarea Q Ei bine.

02:30.740 --> 02:32.300
Unii oameni speculează asta.

02:32.300 --> 02:33.760
Q Voi citi asta.

02:33.770 --> 02:35.420
Cred că pe Quora.

02:35.420 --> 02:41.480
Cineva a menționat că Q este din cauza calității, dar în același timp nu am putut găsi alte referințe la acest lucru, așa că nu

02:41.480 --> 02:45.520
ar putea fi pentru că ar putea doar pentru că aceasta este scrisoarea care a fost

02:45.920 --> 02:50.750
folosită la acea dată și acum a devenit super populară pentru că este toate numite învățare cheie din cauza asta.

02:50.780 --> 02:52.520
Deci nici un motiv exact nu a fost deținut.

02:52.530 --> 02:58.830
Q Dar, cel puțin ne ajută să facem distincția între V și Q Așa că Q aici.

02:58.850 --> 03:03.340
Au fost mai degrabă cadouri decât valoarea statului pe care îl reprezintă.

03:03.410 --> 03:06.260
Reprezintă calitatea acțiunii pe care o reprezintă.

03:06.260 --> 03:07.980
OK, așa că am patru acțiuni.

03:08.300 --> 03:10.860
Care sunt calitățile diferite ale acestor acțiuni.

03:10.860 --> 03:16.340
Care este valoarea acțiunii sau a calității acțiunii, acțiunea care este mai lucrativă, așa că am nevoie de o

03:16.340 --> 03:21.380
metrică care să-mi spună bine cum pot cuantifica această acțiune și apoi o pot compara și că

03:21.380 --> 03:23.200
este exact ceea ce este Q.

03:23.470 --> 03:26.240
Și are patru acțiuni posibile.

03:26.360 --> 03:29.240
Ca întotdeauna mergeți în sus spre stânga sau spre dreapta.

03:29.240 --> 03:35.480
Și bazându-ne pe acțiune, theres va fi o formulă care ne spune valoarea cuantificabilă a acelei acțiuni pe care

03:35.480 --> 03:38.410
o numim valoarea Q q a acelei acțiuni.

03:38.630 --> 03:41.700
Deci, haideți să aruncăm o privire la modul în care vom deduce această formulă.

03:41.710 --> 03:44.510
Ce legătură are de fapt cu acestea.

03:44.510 --> 03:51.290
Pentru că așa cum vă puteți imagina pentru că acțiunile conduc către state, trebuie să existe un fel de legătură între cele

03:51.290 --> 03:51.850
două.

03:51.870 --> 03:56.060
Așa că am stabilit deja cum să calculezi acest lucru și suntem destul de buni la asta.

03:56.060 --> 04:02.030
Știm cum să folosim ecuația Belman în medii foarte diferite, cu multe complicații diferite.

04:02.270 --> 04:06.080
Ei bine, să folosim aceste cunoștințe pentru a înțelege modul în care putem calcula acum.

04:06.080 --> 04:12.170
Q Pentru a face aceleași previziuni, pentru că vă puteți imagina că mediul nu se schimbă în

04:12.500 --> 04:16.530
funcție de ce abordare folosim mediul va fi același indiferent.

04:16.550 --> 04:22.130
Prin urmare, această abordare și această abordare ar trebui să ofere întotdeauna același rezultat și, prin urmare, acesta este un alt motiv pentru

04:22.460 --> 04:24.690
care aceste două ar trebui să fie legate.

04:25.100 --> 04:26.290
Să aruncăm o privire.

04:26.300 --> 04:31.280
Deci, aici este abordarea noastră de vedere în care ne uităm doar la valoarea oricărui stat dat de acest stat sau

04:31.280 --> 04:32.260
orice alt stat.

04:32.420 --> 04:37.190
Iar aici intrăm aici, doar că folosim conducerea aici pentru că asta e starea actuală.

04:37.190 --> 04:43.730
Și astfel, terminologia va fi aceeași în ambele ecuații și aici vom folosi q ca un Q

04:43.790 --> 04:45.520
este statul și acțiunea.

04:45.540 --> 04:51.970
A deoarece acțiunea este în desfășurare, dar în ce stare efectuăm acea acțiune, facem această acțiune în stat.

04:53.000 --> 04:57.230
OK, acum vom trece la ecuația lui Belman pentru prima abordare, după cum

04:57.230 --> 05:06.620
puteți vedea aici că avem valoarea sau valoarea oricărei anumite stări s este maximul recompensării pe care o obțineți pe baza unui pariu maxim despre acțiunile pe care

05:07.070 --> 05:08.660
le aveți la trei.

05:08.690 --> 05:14.210
În acest caz, de fapt, aveți patru acțiuni atât de maxime din toate acțiunile posibile ale acestei părți

05:14.210 --> 05:20.090
pe care le-am auzit discutate de mai multe ori, astfel că aceasta este răsplata noastră pe care o obținem

05:20.090 --> 05:26.850
de la efectuarea acelei acțiuni în această reducere de stat plaza, de fapt înmulțită cu cea așteptată valoarea noului stat că vom fi

05:26.850 --> 05:29.420
într-o valoare așteptată, deoarece este un proces stocastic.

05:29.420 --> 05:34.460
Nu știm cu exactitate că vom termina aici, s-ar putea să ajungem la stânga

05:34.460 --> 05:36.050
sau la dreapta probabilității.

05:36.050 --> 05:38.230
De aceea, aceste probabilități sunt în tine.

05:38.240 --> 05:40.290
Bine, deci este valoarea noastră.

05:40.350 --> 05:41.150
Și acum, să ne uităm.

05:41.150 --> 05:43.530
Q Deci, Q va fi definit.

05:43.580 --> 05:49.550
Vom folosi acest lucru pentru a defini Q Deci să spunem că agentul din această locație din această stare efectuează

05:49.550 --> 05:50.640
acțiunea în sus.

05:50.840 --> 05:54.350
Care este valoarea q care va fi apelată la.

05:54.500 --> 05:59.320
Ei bine, mai întâi de toate, să vedem ce va primi în schimbul îndeplinirii acestei acțiuni.

05:59.420 --> 06:02.160
Primul lucru pe care îl vei primi este un drept de recompensă.

06:02.360 --> 06:04.180
N-are nicio îndoială despre asta.

06:04.250 --> 06:09.920
Va exista un fel de regulă sau ar putea fi zero, dar știm că întregul este modul în

06:09.920 --> 06:15.770
care acest proces de învățare a consolidării funcționează este că unele orașe realizează anumite acțiuni dintr-un anumit stat sau două.

06:15.840 --> 06:17.140
Așa că o să adaug aici.

06:17.480 --> 06:19.680
Și apoi vom adăuga ce vom adăuga.

06:19.850 --> 06:21.090
Să ne gândim la asta.

06:21.110 --> 06:24.640
Care este următorul lucru care se întâmplă după ce el merge acolo.

06:24.860 --> 06:32.030
Ei bine, următorul lucru care se întâmplă este că agentul se află într-o anumită stare încât ar putea ajunge aici cu o

06:32.330 --> 06:34.640
probabilitate de 80% sau o anumită probabilitate.

06:34.730 --> 06:36.670
Dar de fapt aici sus aici.

06:36.800 --> 06:43.940
Dar oriunde se termină acum, avem deja o metrică cuantificată pentru statul în care se află.

06:44.210 --> 06:47.100
Și aceasta este de fapt valoarea acestui stat.

06:47.180 --> 06:52.340
Dar pentru că a venit în multe state diferite și în trei state posibile diferite, trebuie să ne

06:52.370 --> 06:55.730
uităm la valoarea așteptată a statului în care se va afla.

06:56.210 --> 06:58.610
Și așa vom adăuga că vom adăuga.

06:58.610 --> 07:04.020
Desigur, factorul actualizat, așa cum am avut în trecut, pentru că este undeva în viitor.

07:04.190 --> 07:11.210
Și apoi vom adăuga unii din toate statele posibile în toate stările posibile, încât el ar putea ajunge

07:11.210 --> 07:12.910
prin luarea acestei acțiuni.

07:12.910 --> 07:14.240
Termeni de probabilitate.

07:14.240 --> 07:20.150
Deci, ceea ce spunem aici este OK, prin efectuarea unei acțiuni veți obține o recompensă Plus, care este o

07:20.150 --> 07:22.700
măsură cuantificată Plus pe care o veți obține.

07:22.730 --> 07:25.820
Voi ajungeți într-un stat pe care nu-l știm pe care ar putea fi aici.

07:25.850 --> 07:26.950
Ar putea fi aici, ar putea fi aici.

07:27.050 --> 07:32.240
Dar aici este valoarea așteptată a statului în care o să ajungeți.

07:32.270 --> 07:36.290
Și acum ne vom multiplica prin factorul de reducere, pentru că asta este o mișcare.

07:36.380 --> 07:44.180
Deci, aceasta este valoarea noastră Q pentru această secțiune de performanță și ceea ce veți observa aici imediat este

07:44.180 --> 07:44.730
asta.

07:44.760 --> 07:51.470
Q Valoarea Q este exact identică cu cea din interiorul acestor paranteze de aici.

07:51.950 --> 07:52.660
De ce, mă rog.

07:52.670 --> 07:59.930
Ei bine, dacă vă gândiți că aici luăm cât mai multe rezultate, vom obține maximum în toate acțiunile

07:59.930 --> 08:04.910
posibile, așa că am ajuns la acțiune, luând maximum în toate acțiunile

08:04.910 --> 08:10.500
posibile ale rezultatului pe care îl obținem prin luarea fiecărei acțiuni și enqueue definim.

08:10.610 --> 08:11.160
Interesant.

08:11.160 --> 08:14.000
Ce vom obține luând o anumită acțiune.

08:14.000 --> 08:19.340
Deci, dacă te gândești la asta, are sens că valoarea unui stat.

08:19.370 --> 08:25.720
De exemplu, această stare este maximul tuturor valorilor Q posibile.

08:25.790 --> 08:32.360
Așa că aici, în state, fiind în stare, agentul are o valoare cheie pentru a păstra valoarea 3Q pentru valoarea

08:32.360 --> 08:32.870
q.

08:32.870 --> 08:37.760
Deci da pozitiv pentru posibile valori Q în timp ce valoarea șederii

08:37.760 --> 08:42.460
are sens că valoarea statului este maximul tuturor celor patru valori-cheie.

08:42.490 --> 08:44.420
Acesta este exact ceea ce vedem aici.

08:44.420 --> 08:48.060
Aceasta este o confirmare bună a acestei noi formulări pe care o derivăm.

08:48.080 --> 08:53.080
Dacă nu ar fi fost cazul dacă dacă nu s-ar potrivi atunci vom avea întrebări.

08:53.270 --> 08:55.150
De ce de ce nu se potrivește.

08:55.160 --> 08:57.510
De ce nu se potrivește dacă.

08:57.690 --> 09:05.810
Valoarea Q este o metrică cuantificată de a efectua o acțiune și V depinde de podea.

09:05.930 --> 09:12.650
Este ca și cum ar fi maximul posibilelor rezultate ale celor patru acțiuni pe care le poate realiza peste acest lucru are

09:12.650 --> 09:12.970
sens.

09:12.980 --> 09:21.050
Și asta confirmă formula pe care tocmai am derivat-o și acum o vom face și mai interesantă.

09:21.080 --> 09:26.620
Vom scapa de Wii în întregime pentru că puteți vedea aici că Wii are o funcție recursivă.

09:26.810 --> 09:29.750
Așa că și atunci m-ai luat pe mine și apoi pe B și apoi pe B și apoi pe B și așa mai departe.

09:29.760 --> 09:35.480
Deci, puteți să exprimați această viziune prin toate cele mai bune ale lui Vee, cele mai bune care vor

09:36.150 --> 09:36.830
veni aici.

09:36.840 --> 09:43.210
Ne asteptam la Q ca functie functie recursiva a OR in functie de urmatorul V si apoi va trebui sa conectam acest V

09:43.250 --> 09:45.200
si apoi sa ne intoarcem la B.

09:45.200 --> 09:51.110
Deci, ce vom face este că vom lua de fapt acest V și o să mergem să o înlocuim cu

09:51.230 --> 09:54.280
Q. Deci, haideți să aruncăm o privire la asta.

09:54.930 --> 10:01.410
Vom lua acest V din următoarea stare și o să conectăm asta la formula asta aici.

10:01.570 --> 10:07.180
Și după cum puteți vedea acum, astfel încât această parte nu se schimbă această probabilitate nu se schimbă.

10:07.180 --> 10:16.950
Dar cum am discutat despre s este maximul prin toate acțiunile lui q din S și un drept de aici.

10:16.990 --> 10:19.180
Deci asta vom înlocui aici.

10:19.180 --> 10:24.310
Așa că vom spune că maximul este, desigur, noua acțiune acțiunea pe care o vom

10:24.310 --> 10:26.760
lua, deoarece aici avem Wii-ul ca prim.

10:26.770 --> 10:30.700
Deci, aici avem acum consola maximală la prim.

10:30.700 --> 10:34.510
Deci, acțiunile pe care le vom lua de la acest

10:34.510 --> 10:41.200
stat sunt de oriunde, oricare alt stat vom ajunge, dar acțiunea pe care o vom lua de acolo și

10:41.260 --> 10:50.170
Maxima peste toate acestea și maximul este de toate valorile cubului care vor care sunt la dispoziția noastră în acea stare nouă ca prima virgulă.

10:50.170 --> 10:51.280
Și asta e acțiune.

10:51.280 --> 10:52.140
Deci asta este.

10:52.210 --> 10:53.500
Deci vor mai fi patru.

10:53.500 --> 10:54.530
Valorile Q acolo.

10:54.610 --> 10:56.700
Acum, după cum puteți vedea, să trecem din nou.

10:57.040 --> 11:02.740
Deci, din ceea ce derivăm acest cuvânt, ar fi cauza doar prin logică și intuiție, astfel încât să putem

11:02.740 --> 11:07.400
vedea că VNS sunt de fapt vederea AS și a și a sunt legate.

11:07.400 --> 11:12.400
S-ul este maxim în toate acțiunile Cubei S și puteți vedea chiar aici, astfel că această parte este

11:12.400 --> 11:13.820
identică cu această parte.

11:14.290 --> 11:20.740
Și apoi o să folosim acest lucru și vom înlocui acest bit cu VNS de aici, dar nu cu această

11:20.740 --> 11:25.730
pâlnie exactă vom lua această parte internă și o vom înlocui cu uciderea nevinovată.

11:26.080 --> 11:32.920
Așa că o să conectăm asta aici și această parte va fi o primă maximă de cub de către

11:33.430 --> 11:36.810
Crucell a Priam lui Q As Prime prime.

11:37.060 --> 11:39.790
Și acum avem formula noastră.

11:39.790 --> 11:46.880
Deci, acum avem o formulă recursivă pentru valoarea q, așa că acum agentul poate gândi care este valoarea secțiunii care este

11:46.890 --> 11:50.310
calitatea acestei secțiuni a fost noua valoare a acestei acțiuni.

11:50.470 --> 11:56.570
Ei bine, depinde de recompensa pe care o primesc în pasul imediat următor, plus

11:56.590 --> 12:02.410
depinde de factorul actualizat ori maximul tuturor acțiunilor Q posibile în acea stare.

12:02.410 --> 12:06.760
Dar nu știu dacă am de gând să-mi fac parte trebuie să mă uit și la

12:06.760 --> 12:12.770
acel stat în acea stare și de aceea avem această valoare așteptată aici, deci avem niște probabilități ori maximul care este valoarea

12:12.860 --> 12:13.300
așteptată.

12:13.450 --> 12:18.010
Deci, o formulă foarte asemănătoare cu cea pe care o puteți observa, dar de această dată

12:18.490 --> 12:27.310
exprimăm lucrurile prin valorile q și de aceea întregul algoritm este numit Kill learning, deoarece acesta este ceea ce se uită la acest lucru este ceea ce agenții folosesc de

12:27.310 --> 12:32.020
fapt, statele se uită la posibilele lor acțiuni și apoi se bazează pe acțiunile privind valoarea

12:32.020 --> 12:35.760
q a acțiunilor pe care le vor decide ce acțiune să ia.

12:35.760 --> 12:40.330
Deci, ei vor uita doar la valoarea maximă Q în această stare dată, are patru acțiuni.

12:40.330 --> 12:45.340
Care este cea mai bună acțiune pe care o puteți lua, astfel încât să poată compara felul de

12:45.350 --> 12:51.820
comparare a diferitelor state care pot ajunge până la capăt, va compara acțiunile posibile pe care le are în prezent prin găsirea celui optim

12:51.820 --> 12:56.830
care va lua această acțiune și apoi va angaja va repeta acest proces, repeta acest proces și așa

12:56.860 --> 12:57.440
mai departe.

12:57.580 --> 13:03.940
Deci, acum puteți vedea cum se întâmplă toate acestea cum răsplătesc faptele de actualizare sau decizia

13:04.360 --> 13:10.330
pieței stochastice, iar valorile și valorile q toate se reunesc pentru a obține o ecuație

13:10.690 --> 13:18.400
Belman super puternică pentru valorile q pe care le putem aplica acum și lăsați agenții noștri să învețe cum

13:18.400 --> 13:20.410
să bată mediul înconjurător.

13:20.410 --> 13:23.380
Și asta este o explicație intuitivă a ceea ce se întâmplă.

13:23.380 --> 13:28.510
Știu că am trecut prin formule, dar este necesar pentru că este ca și

13:28.510 --> 13:34.730
formula noastră, că am trecut prin întregul capitol și cred că este o trecere bună de la la.

13:34.780 --> 13:43.450
Q Și ilustrează modul în care există legături între Yishun Și dacă doriți să obțineți un pic mai mult de o abordare riguroasă abordarea

13:43.450 --> 13:49.410
matematică și cum vedeți matematica din spatele ei și să învețe ceva mai mult despre valorile

13:49.420 --> 13:51.600
q și cum funcționează acestea.

13:51.640 --> 13:54.090
Apoi, avem câteva lecturi suplimentare pentru tine.

13:54.130 --> 14:02.980
Această lucrare se numește concepte și algoritmi de proces decizional Markov de către martín von Autor.

14:02.980 --> 14:09.610
Așa că tăiați link-ul aici ca întotdeauna și aici puteți citi într-un pic mai multe detalii pentru a înțelege toate zgomotul

14:09.820 --> 14:15.220
din spatele valorilor lui Hugh și așa mai departe și acum că am discutat despre toate

14:15.220 --> 14:21.660
aceste lucruri legate de ecuația Belman acum suntem pregătiți să se uite la ceva mai complex, cum ar fi această

14:21.790 --> 14:27.670
lucrare, dacă dacă vrem să obținem niște informații suplimentare în acest sens pentru a obține o înțelegere mai profundă.

14:27.670 --> 14:34.390
Dar chiar dacă nu citiți ziarul sau radioul, ar trebui să aveți o bună cunoaștere a activității de învățare

14:34.390 --> 14:40.850
și a modului în care agenții vin cu acțiunile pe care trebuie să le întreprindă într-un anumit mediu.

14:40.870 --> 14:43.980
Deci, sper că vă bucurați astăzi de Statoil și aștept cu nerăbdare următorii dumneavoastră.

14:43.990 --> 14:45.360
Până atunci, bucurați-vă.

14:45.390 --> 14:45.620
I.