WEBVTT

00:00.830 --> 00:04.470
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.580 --> 00:09.520
Sper că sunteți entuziasmat de tutorialul de astăzi, deoarece luăm primul nostru pas în lume,

00:09.520 --> 00:10.170
I.

00:10.460 --> 00:13.150
Și astăzi vorbim despre învățarea prin întărire.

00:13.280 --> 00:18.710
Este o poveste foarte importantă, pentru că va susține tot ce se va întâmpla în acest curs.

00:18.770 --> 00:21.010
Deci, să începem aici.

00:21.020 --> 00:27.140
Avem un labirint mic si acest labirint reprezinta reprezentarea noastra a unui mediu si cu asta vom avea

00:27.140 --> 00:29.210
de-a face cu acest curs.

00:29.210 --> 00:34.040
Vom avea de-a face cu anumite medii în care inteligența artificială se va desfășura,

00:34.040 --> 00:39.950
va face acțiuni pe care le va încerca să le bată în căutarea pe care va căuta

00:39.950 --> 00:42.350
să le câștige în aceste medii.

00:42.350 --> 00:44.190
Și aici avem un agent.

00:44.360 --> 00:46.990
Agentul este inteligența noastră artificială.

00:47.030 --> 00:52.910
Aceasta este persoana sau mintea care va naviga în aceste medii și de a învăța din feedback-ul pe

00:53.000 --> 00:57.110
care mințile lor o vor da pentru a efectua anumite acțiuni.

00:57.150 --> 01:02.180
Astfel, modul în care funcționează este că agentul efectuează anumite acțiuni în acest mediu.

01:02.360 --> 01:09.050
Și, ca urmare, starea în care se află se va schimba astfel încât să fie mai mult sau mai aproape sau mai mult spre stânga mai

01:09.050 --> 01:10.070
mult spre dreapta.

01:10.070 --> 01:15.030
S-ar putea să aibă și alți parametri care o descriu și acei parametri.

01:15.100 --> 01:20.970
Deci, statul se va schimba din cauza acțiunii și va primi, de asemenea, recompense bazate pe acțiune.

01:20.970 --> 01:24.950
Deci, de fiecare dată când este nevoie de o acțiune, statul se va schimba și va primi recompensă.

01:24.950 --> 01:29.170
Acum țineți minte, uneori, s-ar putea întâmpla ca aceasta să nu schimbe statul, acțiunea nu va

01:29.170 --> 01:33.070
schimba o ședere sau nu va fi o recompensă pentru luarea acelei acțiuni.

01:33.110 --> 01:34.530
În acest sens a fost.

01:34.670 --> 01:38.480
Dar, totuși, agentul va continua să facă acest lucru, urma să ia măsuri care înșeală

01:38.480 --> 01:42.510
statul să primească recompense schimbând acțiunile, luând măsuri de schimbare a statului și obținerea de recompense.

01:42.800 --> 01:47.840
Și făcând acest proces va învăța despre ceea ce urma să exploreze mediul,

01:48.200 --> 01:53.970
înțelegând ce acțiuni conduc la bune recompense și state favorabile și ce acțiuni cele două

01:53.990 --> 01:55.840
recompensează un stat nefavorabil.

01:56.000 --> 01:59.690
Și aceasta este o problemă foarte reprezentativă, foarte globală.

01:59.690 --> 02:04.390
Deci, dacă vă gândiți la mediile de fapt, nu trebuie să fie doar labirinturi.

02:04.400 --> 02:09.170
Nu este vorba doar de a ieși dintr-un labirint sau de a găsi o comoară într-un labirint.

02:09.170 --> 02:11.740
Un mediu poate fi destul de mult în viață.

02:11.750 --> 02:15.180
Așa că imaginați-vă că vă treziti dimineața și gătiți o omletă.

02:15.410 --> 02:22.010
Deci, pentru a face acest omelet, trebuie să treceți prin anumite pași de care aveți nevoie pentru a obține sarea, pentru a obține ouăle, pentru

02:22.010 --> 02:27.770
a obține tigaile pe care să le trageți și așa mai departe și sună ca un lucru obișnuit de rutină.

02:27.770 --> 02:29.870
Dar a devenit rutină pentru că ai făcut-o de atâtea ori.

02:29.960 --> 02:34.670
Dar, în realitate, este un mediu în care efectuați anumite acțiuni pe care le luați, pe care

02:34.670 --> 02:40.250
le puneți pe foc, punând o tigaie pe focul pe care îl puneți toate ouăle în tigaie și puneți niște

02:40.250 --> 02:43.190
sare pe ouă și întoarceți și așa mai departe.

02:43.190 --> 02:49.970
Așa cum puteți vedea că sunt acțiuni ale CRN care se desfășoară în anumite state și acele acțiuni duc la

02:49.970 --> 02:52.460
anumite alte state și, uneori, recompensează.

02:52.460 --> 02:57.650
De exemplu, atunci când puneți focul și așteptați așteptați așteptați așteptați așteptați să luați o acțiune

02:57.650 --> 03:01.900
de așteptare așteptați așteptați prea mult timp și apoi puneți ouăle în tigaie.

03:01.910 --> 03:03.560
Răsplata va fi foarte negativă.

03:03.560 --> 03:05.120
Totul va arde.

03:05.120 --> 03:10.130
Pe de altă parte, dacă faceți toate acțiunile corecte la momentul potrivit, este foarte important

03:10.130 --> 03:13.850
să înțelegeți că acțiunile trebuie luate la punctele corecte în timp.

03:13.850 --> 03:20.090
Așa că, de exemplu, punerea sarei în tigaie înainte de a pune ouăle înăuntru ar putea să nu fie cea mai

03:20.090 --> 03:20.770
bună idee.

03:20.780 --> 03:26.190
S-ar putea să doriți să luați această acțiune de a pune sarea în tigaie după ce ouăle sunt

03:26.200 --> 03:28.320
acolo, astfel încât într-o stare diferită.

03:28.370 --> 03:29.620
Deci, este important să vă amintiți asta.

03:29.780 --> 03:34.070
În același timp, dacă luați toate acțiunile corecte în ordinea corectă în stările corecte, recompensa dvs.

03:34.580 --> 03:38.840
finală ar putea fi aceea că veți obține o omletă pe care o puteți mânca.

03:38.900 --> 03:44.660
Și așa este o activitate foarte activă în viața ta, dar dacă te gândești la ea este de fapt un mediu și tu

03:44.990 --> 03:50.060
ești agentul care trece prin acest mediu și îndeplinește o sarcină pe care nu trebuie să înveți nimic pentru că

03:50.060 --> 03:52.190
deja o cunoști destul de bine .

03:52.220 --> 03:56.170
Dar, în același timp, ați putea învăța că ați putea învăța cum să faceți o omletă mai bună sau, mai ales,

03:56.340 --> 03:59.010
dacă este primul tău omlet pe care îl faci, probabil că o să-l înfurii.

03:59.030 --> 04:04.010
Dar vei învăța din asta pentru că vei înțelege ce acțiuni conduc spre stări și căi și

04:04.490 --> 04:05.890
orice altceva în viață.

04:06.050 --> 04:11.900
De exemplu, chiar tranzacționați pe piața bursieră și cunoașteți cumpărarea și vânzarea și obținerea unor

04:11.900 --> 04:16.390
feedback din partea pieței în sensul revenirii pozitive sau negative.

04:16.430 --> 04:20.160
Acesta este, de asemenea, un mediu în care participați la acel mediu ca pe un vârstnic.

04:20.210 --> 04:25.220
Conducerea unei mașini este, de asemenea, un mediu în care puteți roti volanul pe care îl puteți

04:25.220 --> 04:29.510
accelera, puteți rupe și așa mai departe și primiți feedback din mediul înconjurător și știți

04:29.510 --> 04:35.840
că unul dintre acești factori de reacție este polițistul care vă dă o amendă rapidă, depășind limita de viteză permisă sau permisă

04:35.840 --> 04:36.960
pe acea autostradă.

04:37.040 --> 04:41.900
De aceea, de aici, aflați că nu este ceva ce trebuie făcut, deoarece duce la

04:41.900 --> 04:43.020
o recompensă negativă.

04:43.220 --> 04:45.590
Deci, recompensele nu trebuie să fie chiar la sfârșitul procesului.

04:45.590 --> 04:48.020
Acestea pot fi pe parcursul întregii călătorii.

04:48.020 --> 04:49.490
Deci, acestea sunt câteva exemple.

04:49.490 --> 04:54.980
Iar în termeni de un mod eu cel mai simplu mod de a gândi despre învățarea de întărire este ca și cum ai antrena

04:54.980 --> 05:00.270
un câine atunci când antrenezi câinele să-i dai anumite comenzi și dacă se supune acelor comenzi atunci îi dai o atingere pe care

05:00.440 --> 05:04.820
o dai ca un biscuit sau ceva dacă nu-l face Abeles Kamaz să-i spui că este un câine

05:04.820 --> 05:06.600
rău sau că nu-i dai un tratament.

05:06.830 --> 05:13.820
Și prin acest proces, el învață ce anumite comenzi sau ce trebuie să facă pentru a face ceea ce trebuie

05:13.820 --> 05:18.470
să întreprindă în anumite state, iar statele sunt comenzile pe care le dați.

05:18.470 --> 05:22.700
Și bazându-se pe asta, ea va obține, desigur, anumite recompense în lumea AI.

05:22.700 --> 05:24.590
Nu este așa complexă.

05:24.590 --> 05:26.910
Nu trebuie să oferiți tratamentele.

05:26.960 --> 05:32.120
Nu trebuie să aveți ca tine o pungă de biscuiți de fiecare dată când îi dați un

05:32.120 --> 05:37.290
plus sau un plus, deci este un avantaj imens că în lumea AI am creat noi înșine acele AI-uri.

05:37.310 --> 05:42.680
Deci, recompensele pe care le oferim dacă credeți că acest lucru este o răsplată cu adevărat plăcută le dă

05:42.680 --> 05:48.490
că nu există de fapt că sunt doar un plus sau minus unul sau plus unul sau mai multe sau ceva.

05:48.500 --> 05:51.100
Deci, totul este inexistența tuturor lucrurilor imaginare.

05:51.110 --> 05:56.300
Dar, în același timp, conduce la rezultate extraordinare, deoarece putem crea aceste lucruri uimitoare aceste uimitoare

05:56.300 --> 06:01.760
inteligențe artificiale, ca și prin această inteligență artificială uimitoare, oferind doar recompense pe care nu le existăm.

06:01.790 --> 06:05.670
Plus și minus unul nu costă nimic, dar același timp eliberează rezultatele.

06:05.900 --> 06:08.170
Deci, foarte asemănătoare cu lumea reală.

06:08.210 --> 06:15.140
Și știi, de exemplu, Dokes Dar aici recompensele sunt cifre digitale și simple.

06:15.140 --> 06:20.920
Și cu asta în minte putem vorbi despre cîini robot Îmi place acest exemplu, așa că este doar în jurul

06:20.920 --> 06:26.630
valorii de în imagini nu este neapărat că robot câine exact știți că este instruit prin consolidarea învățarea unii dintre

06:26.710 --> 06:31.050
câinii robot mai ales cei mai mari pe care le-ar fi un algoritm acolo.

06:31.370 --> 06:39.260
Și acesta este, de fapt, un bun exemplu al diferenței dintre agenții preprogramați și agentul de învățare a armăturii, astfel

06:39.260 --> 06:46.120
încât să puteți avea un câine robot care este preprogramat pentru modul în care va merge.

06:46.160 --> 06:51.500
Deci, în algoritmul din spatele câinelui în software-ul va spune OK, astfel încât, în scopul de a merge trebuie să

06:52.370 --> 06:58.160
vă mișcați piciorul stâng înainte înainte stânga picior înainte apoi picioarele dreapta spate înainte înainte de piciorul drept înainte înainte de dvs.

06:58.160 --> 07:02.480
spate stânga piciorul înainte și repetați această acțiune și știți că aceasta este definiția de mers pe

07:02.480 --> 07:04.870
jos este o funcție în interiorul acestui câine.

07:05.040 --> 07:09.060
Și apoi s-ar putea să știți cum să stați cum să stați și așa ceva.

07:09.680 --> 07:16.710
Întrucât într-un câine robot care este instruit prin întărirea învățării ce se întâmplă este că nu o preprogramați.

07:16.730 --> 07:23.810
Acesta este conceptul cheie pentru tot ceea ce aici nu aveți nici un algoritm în interiorul care este greu codificat

07:23.810 --> 07:24.850
în câine.

07:24.860 --> 07:28.300
În schimb, veți avea ce vom discuta în viitor.

07:28.460 --> 07:36.710
Aveți acest algoritm de învățare a întăririi, care este spus că OK, astfel încât obiectivul este de a ajunge de

07:36.860 --> 07:41.990
unde nu acum cunoașteți nimic până la sfârșitul camerei, de exemplu.

07:42.170 --> 07:44.270
Iată câteva acțiuni pe care le puteți lua.

07:44.270 --> 07:48.950
Poți să-ți muți piciorul drept poți să-ți muți piciorul stâng poți să-ți muți piciorul drept înapoi ai rămas piciorul înapoi,

07:48.950 --> 07:53.000
deci aici toate gradele de libertate pe care le poți face tu poți să-l muți așa poți

07:53.000 --> 07:59.180
să te miști așa ca o listă de acțiunile pe care le puteți lua și recompensele dvs. sunt de fiecare dată când faceți un pas înainte obțineți

07:59.210 --> 08:01.430
un plus de fiecare dată când vă cădea peste.

08:01.430 --> 08:04.090
Ai un minus unul și asta e tot ce trebuie să faci.

08:04.160 --> 08:07.390
Și apoi pleacă de la câine și o lasă să se gândească singură.

08:07.400 --> 08:13.460
Așa că câinele încearcă să se ridice, cade, apoi își dă seama că bine nu ar trebui să fac acea acțiune care a dus la căderea mea, pentru

08:13.460 --> 08:17.040
că de fiecare dată când cădesc, primesc un minus care nu e bun pentru mine atunci.

08:17.060 --> 08:21.560
Deci, cealalta actiune care la ajutat sa se ridice si apoi cifrele sunt doar experimente

08:21.560 --> 08:26.090
experimenteaza experimentele lui tri la intamplare si apoi isi da seama ca poate face un pas inainte

08:26.090 --> 08:31.410
prin mutarea piciorului din fata dreapta si devine unul plus si realizeaza ca ar trebui face mai mult din asta.

08:31.460 --> 08:35.620
OK, așa că acum află că ar trebui să facă mai mult din acest lucru și mai puțin din asta.

08:35.630 --> 08:42.270
Și prin acest proces de învățare rapid înțelege foarte repede cum poate merge.

08:42.410 --> 08:49.130
Iar acei câini care se gândesc singuri pot uneori să meargă mai bine decât câinii care sunt preprogramați pentru că într-adevăr

08:49.130 --> 08:53.930
lucrurile preprogramate ne uităm la câinii de viață reală sau știți că ne folosim

08:53.930 --> 09:00.300
imaginația cum să o facem în timp ce un câine de învățare de armare poate optimizați lucrurile pe cont propriu.

09:00.320 --> 09:03.540
Și pentru că în AI uneori pot obține rezultate și mai bune.

09:03.680 --> 09:05.290
Și așa își pot antrena robotul.

09:05.320 --> 09:07.320
Aceiasi caini robot pentru a juca fotbal.

09:07.520 --> 09:12.970
Poți să antrenezi un câine normal pentru a juca fotbal, deoarece știi că întreaga abordare este diferită.

09:12.980 --> 09:20.900
Și nu este ceva ce știi probabil că un câine obișnuit a fost pregătit să facă sau a făcut

09:20.900 --> 09:23.030
vreodată în procesul evoluției sale.

09:23.030 --> 09:28.190
În timp ce un câine robot de învățare de întărire poate foarte ușor să înțeleagă cum să joace fotbal, atâta timp

09:28.190 --> 09:32.760
cât le spuneți ce recompense sunt ceea ce obiectivele sunt ceea ce acțiunile posibile le pot lua.

09:33.080 --> 09:36.390
Așa funcționează procesul de învățare a consolidării.

09:36.410 --> 09:39.160
În general, există o prezentare generală rapidă a procesului de învățare a armăturilor.

09:39.170 --> 09:45.500
Sper că te-a făcut foarte entuziasmat că urma să vină, pentru că este o lume

09:45.530 --> 09:51.980
complet diferită față de soluțiile de preprogramare, soluții hardcoded hard, în cazul în care aveți condițiile altfel.

09:51.980 --> 09:53.750
Acest lucru este foarte diferit.

09:53.840 --> 09:56.010
Și vom vorbi mai mult despre asta.

09:56.150 --> 10:03.400
Între timp, avem o lectură suplimentară pentru dvs., dacă doriți să aveți niște materiale de susținere. Iată un articol

10:03.700 --> 10:06.810
excelent pe care îl puteți arăta și examina.

10:06.830 --> 10:09.300
Se numește învățare simplă a armăturii cu flux tensor.

10:09.430 --> 10:10.570
Are zece piese.

10:10.570 --> 10:14.790
Linkul este aici și veți găsi linkul complet clickabil pe.

10:14.820 --> 10:22.540
În cursul resurselor de articolul lui Arthur Giuliani din 2016 și puteți urmări acest curs și puteți obține

10:22.540 --> 10:24.770
informații suplimentare din acel articol.

10:24.790 --> 10:30.010
Dar țineți cont de faptul că acest articol are tendința de a curge în cazul în care ca în

10:30.520 --> 10:35.830
acest curs vom utiliza tor torche atât de diferite de punere în aplicare, dar implanturi, dar în același timp, ați

10:35.830 --> 10:41.260
putea ridica câteva lucruri aici și acolo, care ar putea să vă suplimenteze învățarea că suntem va face în acest curs.

10:41.260 --> 10:44.910
Articolele grozave care vă urmează văd dacă vă gândiți să o urmăriți cu siguranță.

10:44.920 --> 10:45.820
În caz contrar.

10:45.820 --> 10:51.890
Verificați că prima parte și vedeți dacă vă place să vedeți dacă doriți să citiți ceva mai mult.

10:52.210 --> 10:58.210
Apoi, avem specificul acestui tutorial de învățare a aplicării frontierelor, o lucrare a lui Richard Sutton, care

10:58.210 --> 11:00.380
se numește învățare de întărire.

11:00.420 --> 11:08.170
O introducere este că lucrările din 1998 sunt destul de vechi, dar în același timp puteți învăța un pic despre întărirea

11:08.170 --> 11:13.960
învățării unor exemple precum exemplul Omlet și alte exemple de unde poate fi aplicată învățarea de

11:13.960 --> 11:17.710
întărire și doar o prezentare generală a învățării întăririi.

11:17.710 --> 11:23.220
Dacă sunteți în căutarea unor citiri suplimentare și pe această notă vom încheia acest tutorial.

11:23.230 --> 11:24.640
Nu pot să aștept să vă văd data viitoare.

11:24.640 --> 11:26.560
Și până atunci să vă bucurați de AI.
