WEBVTT

00:00.980 --> 00:04.960
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:05.000 --> 00:12.140
Anterior, am avut un tutorial destul de intens și de lungă durată în ceea ce privește procesele decizionale ale Margrove și, sperăm, ați reușit

00:12.200 --> 00:13.710
să vă înțelegeți bine.

00:13.760 --> 00:19.010
Și, sperăm, aș putea explica lucrurile într-un mod accesibil și angajat.

00:19.130 --> 00:22.750
Și astăzi vom vorbi despre politici și planuri.

00:22.760 --> 00:27.910
Va exista un tutorial rapid și distractiv, pentru că acum intrăm într-o lume nouă intrăm într-o

00:27.910 --> 00:34.310
lume a căutării nestocteriste de căutări stochastice atunci când nu reușești să treci prin labirint, ci și să faci

00:34.310 --> 00:38.990
față unor factori aleatorii tu în cap când treci prin acest labirint și trebuie

00:38.990 --> 00:41.080
să fii pregătit pentru asta.

00:41.080 --> 00:42.070
Asta e lumea.

00:42.080 --> 00:48.640
Agentul nostru trăiește și este mai distractiv, dar este și mai periculos, este mai puțin previzibil.

00:48.650 --> 00:50.880
Deci cum se va comporta agentul nostru?

00:50.960 --> 00:52.280
Haideți să aruncăm o privire.

00:52.280 --> 00:58.190
Există un semn al cadrului de proces decizional care este încă o dată favoarea ecuației Belman.

00:58.250 --> 01:02.010
Totuși, versiunea mai avansată a ecuației Belman cu care lucrăm.

01:02.010 --> 01:04.760
Deci, de acum încolo vom numi această ecuație Beldon.

01:04.760 --> 01:10.970
Și aici avem acțiunea noastră maximă și Crucell, astfel încât valoarea unui stat orice stare este maximă în toate acțiunile pe care

01:10.970 --> 01:14.020
un agent ar putea să le îndeplinească în acea stare.

01:14.120 --> 01:21.230
Iar maximul a fost luat din recompensa pe care agentul o va obține prin efectuarea unei acțiuni Un instat ca Plus

01:21.230 --> 01:26.590
un factor de reducere înmulțit cu valoarea așteptată a noului stat în care va fi.

01:26.830 --> 01:31.850
Și m-aș aștepta ca cei luați aici, pentru că ei nu știu exact ce se sfârșesc.

01:31.880 --> 01:40.390
Sunt niște efecte aleatorii care sunt prezente în mediul înconjurător care ar putea schimba starea și nu ar putea să nu

01:40.800 --> 01:42.630
ajungă în starea dorită.

01:42.640 --> 01:44.200
S-ar putea să ajungă într-o stare diferită.

01:44.210 --> 01:47.760
De asta luăm valoarea așteptată de-aici undeva aici.

01:47.990 --> 01:53.750
Așadar, să aruncăm o privire la acest lucru ca exemplul nostru, al nostru sau în exemplul nostru al labirintului.

01:53.750 --> 02:00.220
Deci, așa am făcut anterior anterior, avem de-a face cu o căutare deterministă în direct.

02:00.230 --> 02:01.960
Așa că am știut asta.

02:01.970 --> 02:05.550
În regulă, dacă sunt aici, trebuie să merg aici dacă sunt aici.

02:05.570 --> 02:09.030
Trebuie să merg aici dacă sunt aici cu siguranță că trebuie să mă duc aici dacă sunt aici Sunt aici.

02:09.140 --> 02:11.360
Deci a fost destul de simplu.

02:11.480 --> 02:14.680
Odată ce ai această hartă și ții minte numit-o, l-am numit un plan.

02:14.690 --> 02:18.050
Odată ce ai planul, e destul de simplu de făcut.

02:18.050 --> 02:18.990
Sunt.

02:18.990 --> 02:20.490
Deci asta este planul cu săgeți.

02:20.580 --> 02:25.000
Și de aici a fost foarte simplu că suntem aceștia sunt acele rute pe care le vor lua de fiecare dată când

02:25.010 --> 02:26.210
porniți pe această linie albastră.

02:26.210 --> 02:28.210
Asta este exact așa cum ați merge.

02:28.680 --> 02:31.120
Cu toate acestea, acum nu mai avem un plan.

02:31.120 --> 02:38.060
Nu putem avea un plan deoarece știți ce planificăm să nu se întâmple, nu este sub control sau planificați atunci când

02:38.060 --> 02:40.940
știți exact ce trebuie să faceți în continuare.

02:40.940 --> 02:41.820
Știi pașii.

02:41.840 --> 02:46.640
Așa că ai un punct de plecare ai un scop și știi fiecare pas astfel încât să-i poți planifica că tu o

02:46.640 --> 02:50.500
să faci asta o voi face asta o voi face ca în viață ca un plan .

02:50.630 --> 02:54.870
Dar, în același timp, se petrece atât de mult acum.

02:54.890 --> 03:00.080
Puteți avea un plan deoarece dacă ajungeți aici și faceți clic pe partea dreaptă și vă duce de fapt în

03:00.080 --> 03:00.560
jos.

03:00.680 --> 03:02.100
Deci asta nu face parte din planul tău.

03:02.390 --> 03:04.120
De aceea se numeste planificarea mai mult.

03:04.220 --> 03:09.080
Și aici vom calcula valorile sunt de fapt doar să se uite

03:09.410 --> 03:11.990
la valorile calculate pentru aceeași problemă.

03:12.080 --> 03:16.700
Dar pe baza faptului că avem această aberație înăuntru.

03:16.700 --> 03:18.380
Deci acestea sunt noile valori.

03:18.800 --> 03:22.840
Deci, de ce sunt diferite aceste valori, așa că trebuie doar să ne comparăm cu ceea ce am avut înainte.

03:22.850 --> 03:24.710
Aceasta a fost ceea ce am avut înainte.

03:24.710 --> 03:25.650
Acestea sunt atunci voi.

03:25.660 --> 03:29.750
Deci, încă o dată am avut înainte pentru că a câștigat 3. 9 la sută.

03:29.770 --> 03:31.590
Era într-adevăr 366.

03:31.790 --> 03:36.750
Și aceasta este ceea ce avem astăzi mai puțin de o dată în vigoare și 1 6 3.

03:36.800 --> 03:43.850
Și de modul în care acestea nu sunt tocmai mitingurile actuale de pe capul meu, dar dacă aveam să conducem un

03:43.850 --> 03:49.220
agent, unele valori ar fi ceva asemănător cu acesta și valorile s-ar putea schimba, în funcție

03:49.220 --> 03:54.650
de jocul pe care l-ar alege 3. 9 sau altă valoare, dar cu toate acestea, pentru argumentul

03:54.650 --> 04:00.560
de dragul, acestea sunt valorile cu care avem de-a face acum și sunt aproximative, ei transmit toată noțiunea în mod corect, așa

04:00.560 --> 04:02.270
că să ne uităm la ele.

04:02.270 --> 04:03.240
De ce s-au schimbat.

04:03.410 --> 04:07.480
Ei bine, de ce este aici cu aceasta aici valoarea a fost una.

04:07.490 --> 04:10.520
De ce este dintr-o dată 0. 26 De ce este mai puțin decât unul.

04:10.560 --> 04:11.730
Du-te de aici.

04:11.930 --> 04:18.620
Ei bine, am sunat pentru că de aici, dacă mergem bine, care este intenția noastră dacă mergem bine, am putea

04:18.640 --> 04:22.340
să avem o șansă de 10 procente ca vom ajunge aici.

04:22.340 --> 04:25.130
Așa că l-am lovit pe perete și am revenit în această stare.

04:25.130 --> 04:30.740
Și amintiți-vă că avem un Gamla. Deci, valoarea ar fi redusă și dacă suntem opriți sau opriți la 10 și întâmplător s-ar

04:30.740 --> 04:32.150
ajunge aici în această stare.

04:32.150 --> 04:37.670
Deci nu este o probabilitate de 100 la sută că aș ajunge aici, deci disconfortul nu mai poate fi unul, este

04:37.670 --> 04:41.310
ceva mai puțin și este 0. 26.

04:41.570 --> 04:43.770
Deci, acesta este un exemplu de ce este așa.

04:43.770 --> 04:49.130
Și ați putea obține valoarea exactă dacă ați calculat ecuația lui Belman, dar întrebarea mea pe care o

04:49.130 --> 04:49.850
avem acum.

04:49.850 --> 04:53.540
Singura problemă este că va exista o recursivitate pentru că ar trebui să știți valoarea pentru

04:53.540 --> 04:57.440
acest lucru și atunci trebuie să știți valoarea pentru acest lucru care este destul de complex și

04:57.440 --> 04:59.180
de aceea nu facem calculele manual aici.

04:59.240 --> 05:06.000
De aceea pot să le fac, pe măsură ce trece prin toate acestea, este ca și cum nu ar fi prea complex pentru

05:06.000 --> 05:06.510
a.

05:06.540 --> 05:08.520
Nu puteți să jucați aceste lucruri.

05:08.520 --> 05:10.090
Deci asta e valoarea noastră aici.

05:10.110 --> 05:11.520
Dar asta e altul.

05:11.520 --> 05:16.830
Deci, aici doar pentru a fi 0. 9 doar din cauza factorului de reducere Amintiți-vă de aici

05:16.830 --> 05:23.070
de aici și din nou acum de aici, colegii sari de aici de aici, pur și simplu pentru că, chiar dacă sari, dacă mergem

05:23.070 --> 05:24.680
așa, am putea ajunge aici aici.

05:24.700 --> 05:28.440
Chiar această șansă de 20% care va rămâne în piață pentru că vom lovi un zid.

05:28.710 --> 05:29.730
Și din nou și așa mai departe.

05:29.730 --> 05:32.700
Deci valoarea de a fi aici este zero punct șaptezeci și una.

05:32.850 --> 05:35.370
Din nou, acesta și factorul de reducere.

05:35.370 --> 05:39.970
Știți că acest lucru ar părea ciudat pentru dumneavoastră că acest lucru este chiar și cu reducerea în factorul acesta este prea mare.

05:40.050 --> 05:44.440
Poate că factorul de actualizare din acest exemplu nu este 0. 9 poate că este vorba de șapte puncte nouăzeci și nouă

05:44.500 --> 05:46.310
sau ceva care nu vă faceți griji despre asta.

05:46.350 --> 05:48.480
Doar ca un accent pe asta.

05:48.480 --> 05:53.210
Valorile s-au schimbat într-adevăr că valorile sunt acum mai mici.

05:53.460 --> 05:58.700
Mai ales pentru că nu este o sută de procente probabilitatea de a ajunge la statul pe care doriți să obțineți

05:59.100 --> 06:00.180
și ce veți găsi.

06:00.210 --> 06:06.660
Un interesant este aici aici, pentru a fi doar 0. 9 de fapt a scăzut foarte mult a scăzut în mod substanțial.

06:06.660 --> 06:07.110
De ce este asta.

06:07.110 --> 06:12.120
Bine, pentru că dacă te duci de aici în sus, care este intenția noastră, există o șansă de

06:12.120 --> 06:18.700
10% să lovești un zid, dar există o șansă de 10% să ajungi până la capătul de foc și să pierzi minus unul pentru

06:18.700 --> 06:22.820
a recompensa și în esență asta înseamnă pentru agent că este sfârșitul a jocului.

06:23.160 --> 06:25.640
Și așa este un stat foarte prost să intrați.

06:25.680 --> 06:29.910
Așadar, dintr-o dată am amintit că avem punct zero la nouă ani și deci erau echivalenți.

06:29.910 --> 06:34.900
Nu contează dacă auziți că sunt aproape egali în ceea ce privește valoarea de a fi în fiecare dintre aceste state.

06:34.980 --> 06:43.440
Dar acum, dintr-o dată, această dată este aproape de două ori mai bună decât aceasta, pur și simplu pentru că aici, dacă te duci direct

06:43.590 --> 06:46.980
la ea, mergi direct acolo unde vrei să mergi.

06:47.050 --> 06:51.270
Știți ce consecințe a întâmplării este că rămâi aici.

06:51.290 --> 06:55.070
Aici una dintre consecințe o șansă de 10% este să ajungi în groapă.

06:55.110 --> 07:02.160
Deci, după cum puteți vedea, acest lucru nu mai este un stadiu bun, pur și simplu din cauza unei fluctuații care

07:02.160 --> 07:03.460
s-ar putea întâmpla.

07:03.570 --> 07:09.150
După cum puteți vedea acest lucru este de asemenea foarte rău pentru că este la fel de rău ca acesta în ceea ce privește știți că este doar șanse de

07:09.150 --> 07:12.660
10 la sută de a ajunge în groapă și 10 la sută șansă de a ajunge în perete.

07:12.660 --> 07:18.480
Dar, în același timp, există un factor de reducere. Deci, în primul rând, factorul de reducere și, după

07:18.480 --> 07:20.390
aceea, trebuie să mergeți aici.

07:20.700 --> 07:23.900
Și chiar dacă ați făcut ipotetic aici, ați putea ajunge din nou în groapă.

07:23.910 --> 07:28.710
Deci, această șansă ar fi de asemenea luată în considerare deoarece amintesc că valorile derivă din această

07:28.710 --> 07:31.760
valoare și că această valoare este derivată din această valoare.

07:31.820 --> 07:32.350
Dreapta.

07:32.400 --> 07:37.560
Și, prin urmare, este mic, dar în realitate, de fapt, ceea ce am spus că nu era corect.

07:37.560 --> 07:39.640
Această valoare nu este derivată din Fed.

07:39.810 --> 07:46.800
Deci, dacă aveți doar o privire acum, veți observa că această valoare de aici este de fapt mai mare decât

07:46.800 --> 07:47.300
aceasta.

07:47.610 --> 07:54.780
Veți observa că pentru agent este mai bine să meargă în tot acest fel decât în ​​acest fel și are dreptate.

07:54.780 --> 07:58.580
Pentru că astfel nu-l pierde, nu există șansa de a ajunge în groapă.

07:58.590 --> 08:03.450
Da este un pic mai lung și, prin urmare, factorul de actualizare are un efect mai mare.

08:03.510 --> 08:07.470
Dar, în același timp, pur și simplu pentru că există șansa de a ajunge în groapă aici, dacă merge direct,

08:07.530 --> 08:09.140
va exista o șansă de a sări.

08:09.160 --> 08:15.120
Deci, va lua o remiză pentru a-și lua timpul și doar pentru a merge în jurul pentru că în acest fel există o șansă mult mai mică

08:15.120 --> 08:16.530
de a obține Dar există încă.

08:16.530 --> 08:19.590
De aici, de acolo, merge de acolo de aici.

08:19.590 --> 08:23.590
S-ar putea să intre în groapă, deoarece ar putea ajunge acolo și asta ar putea ajunge în proiectul de lege.

08:23.730 --> 08:27.430
Dar totuși este o șansă mai mică, așa că va continua așa.

08:27.430 --> 08:32.430
Deci, foarte interesant pentru a vedea cum se schimba toata lumea, amintiti-va inainte ca de aici sa mergeti asa.

08:32.430 --> 08:34.790
De aici ai merge așa și de aici mergem așa.

08:35.010 --> 08:36.870
Acum, dintr-o dată, îi puteți vedea schimbarea.

08:36.870 --> 08:41.000
Să aruncăm săgețile și să vedem cum arată acum și voila.

08:41.010 --> 08:43.760
Vedeți chiar și un lucru mai aleatoriu drept.

08:43.770 --> 08:45.260
Deci da, este adevărat.

08:45.270 --> 08:46.500
Dar uită-te la ce sa întâmplat aici.

08:46.500 --> 08:47.610
Uita-te la asta.

08:47.690 --> 08:48.970
Uita-te la asta.

08:49.050 --> 08:50.490
Ați așteptat asta.

08:50.520 --> 08:54.570
Este ceva ce îmi place cu siguranță când am văzut prima oară când am fost foarte impresionată.

08:54.570 --> 08:59.800
Nu eram super, nu eram surprins și nu mă așteptam deloc.

08:59.970 --> 09:04.860
Și acesta este un exemplu pe care îl știi când pot depăși un om.

09:05.120 --> 09:10.680
Suna ca ceva pe care l-ai prins chiar tu ai putea prezice, dar eu, prin învățarea de aplicare a legii, amintiți-vă

09:10.680 --> 09:14.400
că, de fapt, câinii pot funcționa uneori mai bine decât viața reală normală.

09:14.400 --> 09:21.330
Câinii sunt câini de robot preprogramați pot juca fotbal doar pentru că vin cu aceste idei pe care chiar nu le

09:21.390 --> 09:22.350
putem vedea.

09:22.440 --> 09:27.330
Și, ca un exemplu minunat, probabil că nu v-ați aștepta ca și asienii, în loc să meargă în

09:27.330 --> 09:29.690
sus, sunt ca de ce ar fi eu.

09:29.850 --> 09:33.120
Ca și cum aș merge până acolo, va fi o șansă de 10 procente, că voi sari în groapă.

09:33.120 --> 09:35.130
Dar ce se realizează prin intrarea în război.

09:35.280 --> 09:38.330
Ei bine, 80% din timp se va înrăutăți și va rămâne în stare.

09:38.490 --> 09:42.360
Dar 10% din timp va merge aici și 10% din timp voi merge aici.

09:42.360 --> 09:49.130
Deci, dintr-o dată puteți vedea că acum se află într-o nouă abordare de a sări în perete.

09:49.170 --> 09:53.350
Există o șansă de zero la sută că va intra în foc, dar din acest punct.

09:53.370 --> 09:57.690
Și este ca și cum nu vrea să intre în groapa de foc, atât de drogat de bononi în

09:57.690 --> 10:03.050
perete de câteva ori și apoi va merge la dreapta sau la stânga la un moment dat pentru că acea aleatorie se va întâmpla.

10:03.080 --> 10:09.680
Și așa a învățat că, prin experimentare, a aflat că atunci când merg înainte, rezultatele nu sunt la fel de bune ca atunci

10:09.680 --> 10:11.440
când mă duc la perete.

10:11.510 --> 10:13.540
Și dacă te gândești la asta e așa.

10:13.580 --> 10:18.350
Acest robot, dacă te gândești la asta, este un foc de artificii, este un lucru foarte asemănător cu faptul că un pătrat este

10:18.350 --> 10:21.630
ca o muchie foarte mică și apoi acesta este ca un munte ca o stâncă.

10:21.650 --> 10:27.830
Și acest robot doar îmbrățișează stânca și la fel ca încercarea de a aștepta până când îi place împingeți spre dreapta sau

10:27.830 --> 10:32.640
spre stânga, deoarece, bineînțeles, ca un om, probabil că veți face același lucru, nu ați fi în

10:32.750 --> 10:34.970
față sau ați fi îmbrățișat de stâncă.

10:35.000 --> 10:35.860
Sau ceva de genul ăsta.

10:35.940 --> 10:39.740
Și, sperăm, știi că trebuie să ajungem să nu ajungem niciodată în astfel de situații.

10:39.770 --> 10:43.670
Dar, cum ar fi vizual vizual doar dacă te gândești la ceva aici.

10:43.760 --> 10:46.450
Și așa este foarte corect.

10:46.460 --> 10:51.860
Deci, AI a venit cu această idee și același lucru aici care este un fel de a merge la stânga și Riskin a lua într-o luptă,

10:51.860 --> 10:56.270
dar eu am de gând să încercați bile de pe perete ca stii imbratisa un perete încerca să sară în perete

10:56.300 --> 11:01.430
și la un anumit punct stiu ca stii ca exista doar o probabilitate este o sansa de 10 la suta de fiecare data cand

11:01.430 --> 11:04.910
fac ca voi merge aici si ceva se va intampla si voi ajunge aici si voi

11:04.910 --> 11:06.680
fi in siguranta si apoi voi continuați așa.

11:06.830 --> 11:13.240
Așa că abordarea foarte interesantă pe care au luat-o aici și puteți vedea că rutele sunt așa, astfel că de aici poate merge

11:13.250 --> 11:17.500
bine și apoi se va duce la ieșire sau aici sau mergeți la stânga.

11:17.690 --> 11:22.230
Și aici vom merge într-un anumit moment la stânga și vom merge așa din nou.

11:22.310 --> 11:23.170
Asta e important.

11:23.180 --> 11:27.610
Nu sunt o politică așa că, chiar dacă sare de aici, va merge aici.

11:27.650 --> 11:30.400
Poate Și apoi de aici ar putea chiar să plouă drept.

11:30.410 --> 11:34.520
S-ar putea să se întoarcă de fapt în dreapta și apoi de aici și o să mă las să obțin dreptul.

11:34.550 --> 11:38.260
Deci există o mulțime de opțiuni diferite pentru băieții care ar putea să nu-l urmeze exact pe acel fierar care

11:38.270 --> 11:38.730
merge altfel.

11:38.960 --> 11:42.500
Acestea sunt doar rutele dorite pe care le-a conceput pentru sine.

11:42.590 --> 11:44.690
Dar modul în care va funcționa ar putea fi diferit.

11:44.690 --> 11:46.130
Depinde de lumea reală.

11:46.340 --> 11:46.940
Așa că mergem.

11:46.950 --> 11:50.090
Aceasta este lumea inteligenței artificiale.

11:50.090 --> 11:56.780
Asta e ceea ce este o politică versus un plan și, sperăm, te vei încinge încet de ceea ce poate

11:57.000 --> 12:01.220
face AI, mai ales având în vedere ceea ce am văzut aici.

12:01.340 --> 12:07.430
Acestea sunt niște tipuri de decizii pe care AI le ia cu adevărat.

12:07.610 --> 12:12.500
Și, după cum puteți vedea când jucați AI chiar și din acest mic exemplu, puteți vedea

12:12.500 --> 12:19.240
că, chiar dacă jucați într-o lume reală, veți putea să veniți cu idei și decizii pe care chiar și uneori oamenii le pot face.

12:19.250 --> 12:25.460
Și asta este exact așa cum se întâmplă în jocurile în care obiectivul Google

12:25.520 --> 12:32.320
Alpha se juca împotriva campionului Lisa idol de gol în Coreea înapoi în campionul mondial de du-te.

12:32.390 --> 12:37.000
Și au jucat în Coreea înapoi bakla în 2016 Cred că este martie 2016.

12:37.000 --> 12:42.370
Au venit cu câteva mișcări pe care oamenii nu le-au jucat niciodată în 3000 de ani, sau oamenii nu erau obișnuiți să joace.

12:42.380 --> 12:45.510
Și acesta este exact un exemplu în acest sens.

12:45.740 --> 12:50.290
Așadar, încă o dată, sperăm că sunteți entuziasmat și pompat de discurs și de ceea ce putem integra.

12:50.330 --> 12:51.840
Și eu o caut.

12:51.840 --> 12:52.720
Ne vedem data viitoare.

12:52.730 --> 12:54.410
Până atunci, bucurați-vă.

12:54.410 --> 12:54.640
I.
