WEBVTT

00:00.620 --> 00:04.010
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.010 --> 00:05.940
În tutorialul de astăzi vom avea niște distracție.

00:05.960 --> 00:11.900
O să avem o privire și o inteligență artificială care trec de fapt prin labirintul ăla despre care am

00:11.900 --> 00:18.740
vorbit atât de mult și intenționează să ucidă învățarea să-și navigheze drumul și să găsească calea de ieșire și vom vedea

00:18.830 --> 00:24.350
ce se întâmplă cu Valorile q urmau să se întâmple cu politica și așa mai departe.

00:24.350 --> 00:26.310
Să aruncăm o privire.

00:26.330 --> 00:31.910
Vom folosi câteva materiale oferite de Universitatea Berkeley.

00:31.910 --> 00:40.700
Deci, dacă te duci la un Eu nu doar Birk E R K E L E De ce nu te duci din nou la acel link.

00:40.790 --> 00:47.510
Veți vedea acest site Web și veți auzi ce vom analiza este nevoia de a merge la noi vom

00:47.550 --> 00:49.130
merge la proiectele PacMan.

00:49.130 --> 00:58.160
Cred că proiectele Pacman și aici, dacă parcurgeți în jos și vă uitați la ele în primul rând, aceasta este lucrul cu

00:58.160 --> 00:59.050
care lucrăm.

00:59.180 --> 01:01.700
Deci, aici puteți descărca arhiva zip.

01:01.700 --> 01:03.500
Deci, dacă vrei.

01:03.530 --> 01:08.330
Deci, nu trebuie să mai vorbim de asta, nu vom trece printr-o soluție împreună în acest proces, doar

01:08.330 --> 01:11.860
vă informăm de unde este acest lucru, pentru că suntem foarte asemănători.

01:11.870 --> 01:12.930
Chiar apreciem asta.

01:12.980 --> 01:16.180
UC Berkeley a făcut aceste materiale disponibile.

01:16.190 --> 01:19.300
Dar dacă doriți să experimentați acest lucru pe cont propriu.

01:19.400 --> 01:20.660
Nu uitați că acest lucru nu este o parte.

01:20.680 --> 01:23.310
Nu va fi parte a cursurilor noastre ca parte a cursului de la Berkeley.

01:23.330 --> 01:27.860
Nu sunt sigur cum funcționează pentru ilustrare, dar dacă doriți să experimentați acest lucru, puteți

01:27.860 --> 01:31.340
găsi aici arhiva zip și toate instrucțiunile vechi de asemenea.

01:31.430 --> 01:38.450
Și vom merge imediat în Python și primul lucru pe care vroiam să-ți arăt este că aici

01:38.450 --> 01:42.790
avem informațiile de licențiere, așa că asta vreau să spun.

01:42.870 --> 01:47.720
Suntem foarte norocoși că au spus că suntem liberi să folosim sau să extindem aceste proiecte în scopuri educaționale, cu

01:47.720 --> 01:51.120
condiția să știți că distribuim soluții de publicare pe care nu le vom face.

01:51.200 --> 01:56.750
Mențineți acest anunț pe care îl avem și vă oferim un arhiepiscop clar pentru UC Berkeley, inclusiv o legătură cu care

01:56.780 --> 01:57.860
avem și noi.

01:57.860 --> 02:00.750
Deci, încă o dată, dacă doriți să aflați mai multe link-ul respectiv.

02:00.770 --> 02:01.720
Poți să te uiți.

02:01.730 --> 02:07.490
Și vă mulțumesc foarte mult tuturor acelor oameni care au lucrat la acest proiect, așa că aici este lumea rețelei.

02:07.490 --> 02:09.370
Vom lucra dacă există o soluție acolo.

02:09.460 --> 02:15.110
Va trebui ca pentru a face acest lucru, ar trebui sa o rezolvati singur sau sa gasiti o solutie.

02:15.110 --> 02:18.980
Poate că unii dintre voi, pe cineva pe care îi cunoașteți, vă pot ajuta cu asta.

02:19.160 --> 02:24.260
Dacă din nou ceea ce vrei tu nu trebuie, pentru că vom privi doar la acest ecran

02:24.320 --> 02:25.110
chiar acum.

02:25.160 --> 02:29.720
Deci, după ce am creat toate fișierele, am putea să-l lansăm aici.

02:29.720 --> 02:36.680
Deci, există câțiva parametri care sunt implicați în întreaga lume și nu vom arăta cum

02:36.680 --> 02:39.080
arată dacă l-am lansa.

02:39.080 --> 02:41.540
Deci, să încercăm să-l lansăm în modul manual.

02:41.540 --> 02:47.070
Deci, dacă mă duc minus una dintre aceste panorame sunt manuale, așa că pot să comand comandantului tău.

02:47.090 --> 02:52.820
Deci, aici puteți vedea toate grilele, astfel încât să pot merge în sus, pentru a vedea că începe acțiunile

02:52.820 --> 02:54.980
și începe în statele în care eram.

02:55.100 --> 03:00.650
Și apoi ai văzut că am apăsat acționând Norf și când am terminat prima oară în zero după ce

03:00.650 --> 03:01.310
am urcat.

03:01.490 --> 03:05.000
Dar a doua oară când am acționat Norf și am terminat în același trist nu sa mișcat.

03:05.000 --> 03:08.440
Așa că sa întâmplat ceva, știi că întâmplările au avut loc, ori am plecat la stânga sau la dreapta.

03:08.780 --> 03:10.910
În mod prestabilit, parametrii sunt setați.

03:10.910 --> 03:16.910
Puteți vedea aici, în mod implicit, aceștia sunt stabiliți exact la ceea ce am discutat despre cât de des

03:16.940 --> 03:18.250
rezultă într-o direcție neintenționată.

03:18.270 --> 03:20.960
20 la sută din timp până la 10 la sută spre stânga la dreapta.

03:21.230 --> 03:23.520
Deci, dacă mă urc și spun că m-am dus, merg bine.

03:23.520 --> 03:26.810
M-am dus chiar acum, nu sa întâmplat.

03:26.810 --> 03:29.790
Din nou și din dreapta și am terminat.

03:29.790 --> 03:35.810
Dar în această implementare trebuie să faceți clic din nou pentru a ieși din această ieșire finală, astfel încât să ieșiți de acolo să faceți din

03:35.810 --> 03:37.140
nou clic și să terminați.

03:37.190 --> 03:40.700
Asta este o stare terminală, ca să putem rula manualul nostru.

03:40.730 --> 03:45.620
Puteți vedea că dacă mă duc chiar la dreapta stânga sus.

03:45.740 --> 03:50.060
Deci, aici, ceea ce am văzut anterior că agentul nu ar merge drept în sus.

03:50.060 --> 03:53.300
Care este scopul de a merge în sus, dacă există o șansă de a intra în groapă.

03:53.300 --> 03:54.580
Deci, să vedem ce ar face agentul.

03:54.610 --> 03:56.780
Ar merge la stânga și să meargă spre vest aici să meargă spre vest.

03:56.780 --> 04:00.820
Și tu vezi că am făcut clic pe stânga, dar a mers sus și aici aș da clic dreapta.

04:00.860 --> 04:05.390
Și ajung în etapa finală de ieșire și veți vedea răsplata lui Dumnezeu egală cu una.

04:05.390 --> 04:07.190
Așa arată manual.

04:07.190 --> 04:12.520
Acum, de fapt, să conectăm un AI la acest lucru și să lăsăm să treacă.

04:12.510 --> 04:16.800
Deci, hai să facem un H aici și să adăugăm ceva Brandner.

04:16.820 --> 04:24.170
Deci, permiteți-mi să văd ce am introdus aici, așa că, sperăm, puteți vedea prin rețeaua globală de ce, de aici,

04:24.230 --> 04:25.370
minus mijloacele noastre.

04:25.370 --> 04:27.980
Aceasta este răsplata vieții.

04:27.980 --> 04:31.840
Așa că am două dintre ele, așa că probabil că ar trebui să o eliminăm.

04:32.190 --> 04:35.050
Deci minus k este câte iterații.

04:35.060 --> 04:36.690
Sunt prea multe iterații.

04:36.690 --> 04:41.180
Să facem mai puțin Să facem ca 10 iterații ar trebui să fie suficient.

04:41.180 --> 04:42.710
Minus a este Agent.

04:42.710 --> 04:47.040
Ce tip de agent nu dorește să facă onoarea și imaginea și o anumită valoare sau un Q.

04:47.060 --> 04:49.120
Q Deci vreau un Q.

04:49.190 --> 04:57.090
Q agent de învățare care face acest lucru minus s este ceea ce este viteza, astfel încât este o forță prea mare,

04:57.090 --> 05:04.780
care utilizează doar viteza maximă pentru acum minus R este o penalizare de viață este, prin urmare, implicit este zero.

05:04.820 --> 05:11.000
Așadar, amintiți-vă chiar la începutul repornii 0 penances de viață, deci să numim și 0 0 și poate

05:11.000 --> 05:16.040
doar să eliminăm acest parametru și D este ceea ce este o reducere.

05:16.040 --> 05:20.660
Asa ca am un fel de factor, asa ca haideti sa-l pastram la punctul zero si asa

05:20.660 --> 05:27.880
foarte asemanator cu ceea ce pornim in aceasta sectiune pe curs, asa ca sa alergam atat de OK cat de repede din nou, de fapt, atat de

05:27.880 --> 05:30.130
frumos incat sa vedeti cum este explorarea.

05:30.580 --> 05:35.650
Și până acum a lovit negativ de trei ori și puteți vedea cum sunt actualizate valorile q

05:35.650 --> 05:36.690
în aceste pătrate.

05:36.700 --> 05:37.860
Deci acestea sunt valori-cheie.

05:37.870 --> 05:39.310
Ele sunt un fel de zero.

05:39.320 --> 05:40.740
Acum puteți vedea valoarea Q.

05:40.740 --> 05:45.220
Deci, el a aflat că aceasta este o aplicație diferită, pentru că odată ce ajungi în faza finală,

05:45.220 --> 05:46.560
trebuie să ieșiți din ea.

05:46.660 --> 05:48.990
Trebuie doar să faceți clic pe un alt buton pentru a ieși.

05:49.000 --> 05:51.740
Și așa este foarte aproape de unul, dar nu de unul singur.

05:51.760 --> 05:57.530
Dar, în același timp, puteți vedea că aici știți că valoarea lentă a mâinilor cristalizante este un punct în

05:57.520 --> 06:02.290
care un ex-coleg devine undeva, dar sunt doar atât de departe încât sunt niște zerouri deoarece

06:02.290 --> 06:05.470
nu are suficiente informații pentru a înțelegeți ce se întâmplă.

06:05.470 --> 06:08.710
OK, să vedem să vedem ce se întâmplă aici.

06:10.180 --> 06:13.620
Explorarea explorării explorării a ceea ce se va întâmpla.

06:13.710 --> 06:15.300
A fost un timp.

06:15.670 --> 06:17.940
Și avem aici aici o întâmplătoare.

06:18.100 --> 06:20.100
Deci, este unul bun de câteva ori.

06:20.110 --> 06:22.500
Acum are doar 10 iterații.

06:22.510 --> 06:26.780
Deci trebuie să învețe repede. Ok, am nevoie de tine acolo.

06:27.220 --> 06:29.280
Să vedem ce se întâmplă.

06:29.320 --> 06:30.050
Haide.

06:30.060 --> 06:31.820
Ieșiți din acest labirint deja.

06:32.840 --> 06:38.450
Și da 10 episoade atât de mediu se dovedește că.

06:38.590 --> 06:40.430
Nu prea e interesat de asta.

06:40.460 --> 06:41.760
Deci, hai să vedem.

06:41.760 --> 06:43.060
N-am văzut niciodată un clic.

06:43.100 --> 06:43.460
Dreapta.

06:43.460 --> 06:43.810
Vom merge acolo.

06:43.820 --> 06:47.780
Deci, puteți vedea că aceasta este politica cu care a venit.

06:48.020 --> 06:50.860
Chiar și prin doar 10 episoade are deja un puls.

06:50.890 --> 06:55.820
Voi urca o bombă și aici o să mă duc aici, o să mă duc aici, o să intru în zid

06:55.820 --> 06:58.320
și apoi o să mă duc să mă duc aici.

06:58.550 --> 06:59.620
E foarte cool.

07:00.000 --> 07:00.250
O.K.

07:00.260 --> 07:02.530
Acum, hai să creștem viteza.

07:02.650 --> 07:04.220
Care a fost parametrul s acolo.

07:04.220 --> 07:06.240
Și asta e ca o dublă nelegiuire.

07:06.260 --> 07:13.070
Asta e quadruple viteza si sa crestem numarul de iteratii asa ca sa zicem 20 de rationale de data asta si

07:13.070 --> 07:16.390
sa vedem daca poate sa treaca mai mult acum.

07:16.790 --> 07:18.700
Deci puteți vedea că va merge mai repede.

07:19.600 --> 07:25.900
Și învață că află că nu știi de fapt că nu există multe acțiuni bune Orio aceste

07:25.900 --> 07:30.220
acțiuni pe care dreptul și dreptele nu sunt atât de bune.

07:30.250 --> 07:32.400
Cu siguranta acest lucru nu a fost cu siguranta bun.

07:32.410 --> 07:34.680
Încă mai trebuie să învețe că de aici este de asemenea bun.

07:34.680 --> 07:36.820
Puteți vedea că această acțiune este destul de bună.

07:36.820 --> 07:37.330
In regula.

07:37.330 --> 07:38.380
Ce a făcut el.

07:38.530 --> 07:39.100
O.K.

07:39.100 --> 07:42.200
Politica atât de interesantă, aici, vă hotărâm să mergem.

07:42.330 --> 07:43.270
Doar nu sunt suficiente informații.

07:43.270 --> 07:45.610
Să hai să facem asta.

07:46.850 --> 07:50.370
Și să creștem viteza la 100.

07:50.630 --> 07:56.570
Super-rapid și numărul de iterații îi vor da 100 de iterații de data asta când rulează acea

07:56.570 --> 08:02.930
scenă ca o nebunie rapidă și poți vedea asta pentru că există atât de multe iterații El are mai

08:02.930 --> 08:09.500
multe informații mai multe ocazii de a experimenta și de a construi această matrice sau matrice aceste valori pentru fiecare

08:09.500 --> 08:10.240
stat.

08:10.250 --> 08:13.220
Acum știe că poți vedea acel punct zero la optzeci și nouă.

08:13.250 --> 08:16.050
Ce am spus în punctul nostru zero 86.

08:16.120 --> 08:20.660
Un alt lucru de reținut este faptul că valoarea oricărui stat dat.

08:20.720 --> 08:24.230
Amintiți-vă că formula pe care am avut-o este maximul valorilor cubului.

08:24.230 --> 08:27.160
Amintiți-vă acel lucru pe care l-am găsit cu formula de scurtături.

08:27.170 --> 08:30.690
Deci, ce este cu această valoare valoarea în această stare.

08:30.900 --> 08:32.060
Ar fi 0. 18.

08:32.060 --> 08:38.180
Pentru că acesta este cel mai înalt dintre cei patru aici valoarea acestei stări 0. 7 doriți valoarea din această zi.

08:38.210 --> 08:40.260
Există un punct șaizeci și unu și așa mai departe.

08:40.400 --> 08:41.480
Deci, este ceva de reținut.

08:41.490 --> 08:45.590
Îmi aduc aminte când eram sus, cred că am avut ca zero punctul 86 sau ceva atât de praecox.

08:45.770 --> 08:55.060
Și dacă vom merge anul viitor, voi dispărea sau vor dispărea din nou și asta o va face să revină.

08:55.170 --> 08:55.750
O.K.

08:55.760 --> 08:56.210
O.K.

08:56.210 --> 09:00.680
Încet încet încet umple niște spații.

09:00.970 --> 09:01.450
Văd.

09:01.490 --> 09:06.170
Și este, de asemenea, destul de aleatoriu, deoarece nu numai mediul are aleatoriu, ci și felul în

09:06.170 --> 09:10.750
care el explorează că steaua nu știe cu adevărat că politica e explorată la întâmplare.

09:11.190 --> 09:12.150
Doar continuă să dispară.

09:12.170 --> 09:13.420
Nu înțeleg de ce.

09:13.680 --> 09:18.650
Oricum, să vedem ce se întâmplă dacă măriți numărul aici și aici ar trebui

09:18.650 --> 09:23.060
să luați cam același timp dacă viteza nu are un capac.

09:23.480 --> 09:27.610
OK, așa că are mai multe oportunități de a explora lucrurile.

09:27.650 --> 09:30.850
OK, să vedem cum merge totul.

09:31.260 --> 09:35.010
Și puteți vedea că valorile sunt convergente, merg în sus și în jos, în funcție de care

09:35.010 --> 09:38.640
știți, deoarece există oarecare aleatorie și ar putea ajunge ca în groapă, chiar dacă merge așa.

09:38.640 --> 09:44.940
Dar, în același timp, ele încep încet să converge la niște valori și valori.

09:44.950 --> 09:48.540
OK, probabil că o mie este prea mult din punct de vedere al timpului.

09:48.540 --> 09:53.250
Nu pare ca viteza creste proportional.

09:53.610 --> 09:55.560
Deci ar putea să taie acea parte.

09:55.650 --> 09:57.560
Vreau să spun că reduc viteza.

09:57.600 --> 10:02.850
Știți că în timp ce acest lucru este foarte scăzut, nu trebuie să urmăriți până la sfârșitul acestui

10:02.850 --> 10:08.430
tutorial Vreau doar să experimentez destul de puțin pentru a vă da câteva exemple despre ceea ce am lucrat până

10:08.430 --> 10:10.920
acum, dar obțineți punctul trece prin toate astea.

10:10.950 --> 10:14.800
Are niște întâmplări cum ar fi comportamentul lui Rambler în comportamentul lui.

10:14.820 --> 10:20.720
Așa că, chiar și atunci când are ca o politică, va continua să exploreze, astfel încât nu va dori doar ca odată ce are o

10:20.720 --> 10:23.420
politică de bază, nu va continua doar să-și urmeze politica.

10:23.460 --> 10:29.130
Încă o dată va experimenta cu alte variante, pentru a-și îmbunătăți politica, poate că nu a găsit

10:29.130 --> 10:31.350
cea mai bună politică deja imediat.

10:31.350 --> 10:33.240
Poate că poate îmbunătăți politica.

10:33.360 --> 10:40.080
Iată de ce chiar și după atâtea iterații puteți vedea în continuare unele efecte aleatorii, uneori sari în stări aleatoare, nu doar

10:40.080 --> 10:45.060
din cauza alegerii în mediul înconjurător ci și datorită faptului că există un anumit nivel ca un

10:45.060 --> 10:50.750
parametru pe care l-ați putea controla pe care l-ați putea seta pentru agentul tău spunând că știi că de

10:50.820 --> 10:56.040
cele mai multe ori 80% din timp face ceea ce îți spune politica, dar 20% din timp

10:56.040 --> 11:00.930
ai doar un experiment amuzant și vezi ce se întâmplă și folosește informațiile pe care le

11:00.930 --> 11:03.410
aduni pentru a le actualiza politica ta.

11:03.410 --> 11:05.300
OK, asta durează prea mult.

11:05.310 --> 11:06.360
Să încercăm din nou asta.

11:06.560 --> 11:11.640
Da, așa învață agentul în diferite state.

11:11.640 --> 11:14.270
Poate să mai vedem încă o dată din curiozitate.

11:14.280 --> 11:16.590
Deci există și alte lucruri pe care le putem schimba.

11:18.420 --> 11:20.110
Iterații.

11:21.630 --> 11:22.400
O.K.

11:22.430 --> 11:24.280
OK, haideți să aruncăm o privire.

11:24.550 --> 11:26.680
Da, am putea schimba discuția de exemplu.

11:26.680 --> 11:39.860
Deci, în acest caz am putea spune K minus o sută minus un Q minus doi și minus sunt OK mii.

11:39.920 --> 11:41.380
Deci, recompensa.

11:41.390 --> 11:47.920
Vrem să o păstrăm, poate să o păstrăm la 0. 04 Să spunem, însă, împotriva acestui fapt să păstrăm răsplata la punctul de

11:47.920 --> 11:49.270
deșert zero, de fiecare dată.

11:49.280 --> 11:58.340
Și apoi vom spune că reducerea nu este zero punctul nouă, dar este ca punctul zero punct

11:58.340 --> 11:59.030
cinci.

11:59.060 --> 12:02.300
Deci, devine destul de redus în timp ce treceți prin joc.

12:02.600 --> 12:08.960
Deci, de fapt, acum va fi stimulat să vă apropiați mai mult de finisaj, decât să vă apropiați de stadiul apropiat, să

12:08.960 --> 12:14.060
obțineți o valoare ridicată, astfel încât să puteți vedea că valorile scapă într-adevăr nu este la fel

12:14.060 --> 12:15.400
de verde ca înainte.

12:16.360 --> 12:20.190
Deci, aici puteți vedea că aceasta este politica acum.

12:20.380 --> 12:26.490
Deci, așa se întâmplă ca și cum ar fi așa de asemănătoare cu ceea ce am văzut mai devreme, probabil că

12:26.500 --> 12:28.830
doar diferențele de aici sare direct aici.

12:28.840 --> 12:29.980
Deci, asta e una.

12:30.000 --> 12:32.500
Și OK să mai fugim încă o dată.

12:32.500 --> 12:33.510
Este atât de amuzant.

12:33.580 --> 12:39.020
Hai să mai fim încă unul, așa că k minus k 100 a q aruncați.

12:39.130 --> 12:48.960
Păstrați-l așa cum a fost original Deci, haideți să rulați acest set de bază de vanilie ok ok ok.

12:49.110 --> 12:51.110
Va vedea dacă ne va arăta politica.

12:51.210 --> 12:54.820
Și da, avem politica.

12:54.840 --> 12:55.150
Da.

12:55.150 --> 12:56.350
Finisare bună.

12:56.350 --> 12:58.820
Deci avem aici politica.

12:58.900 --> 12:59.830
Știți că este familiar.

12:59.830 --> 13:05.260
Amintiți-vă că atunci când am văzut că AI a depășit bomba umană în perete pentru a merge acolo și a

13:05.290 --> 13:08.530
bate în perete pentru a merge așa ca să crească problema.

13:08.530 --> 13:09.270
Așa că mergem.

13:09.280 --> 13:17.020
Acesta este un exemplu de inacțiune a inteligenței artificiale, foarte simplu de bază, de a ucide câștigurile, astfel încât să nu existe învățare profundă

13:17.020 --> 13:18.190
în acest stadiu.

13:18.610 --> 13:23.810
Dar, în același timp, este deja destul de inteligent și sper că v-ați bucurat de tutorialul de astăzi.

13:23.810 --> 13:29.210
Și încă o dată vă mulțumesc pentru UC Berkeley și sper că v-ați bucurat de tutorialul de astăzi și aștept cu nerăbdare

13:29.230 --> 13:29.630
scenice-le.

13:29.650 --> 13:31.120
Până atunci, bucurați-vă de AI.
