WEBVTT

00:00.930 --> 00:03.970
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:03.990 --> 00:08.480
Așa că am vorbit despre ecuația lui Belman și am analizat labirintul nostru mic.

00:08.520 --> 00:11.100
Hai să vedem planul.

00:11.100 --> 00:12.400
Care este planul.

00:12.750 --> 00:14.650
Ei bine, aici este analiza noastră principală.

00:14.670 --> 00:20.970
Și știm că putem vedea de fapt stările valorile fiecărui stat, putem vedea care

00:20.970 --> 00:23.310
este valoarea fiecărui stat.

00:23.400 --> 00:27.810
Prin urmare, AI poate sau agentul poate naviga în acest labirint.

00:27.840 --> 00:28.770
Deci, care este planul.

00:28.770 --> 00:35.640
Ei bine, planul este pur și simplu o hartă a comorilor pentru inteligența artificială, în loc să se uite la aceste

00:35.730 --> 00:41.420
valori care le înlocuiesc doar cu săgeți care indică în ce direcție ar trebui să meargă agentul.

00:41.490 --> 00:43.360
Datorită acestor, pentru că știe aceste valori.

00:43.350 --> 00:47.230
Deci, un scenariu ideal după ce a explorat acest mediu.

00:47.250 --> 00:50.860
Ea știe valoarea de a fi în fiecare stat și, prin urmare, puteți veni cu această hartă.

00:50.870 --> 00:52.330
Deci, să aruncăm o privire din nou.

00:52.380 --> 00:58.410
Știm că valorile voastre un astfel de, dacă sunteți aici din cele două mai bine unul este acest lucru Odată ce te duci de aici de

00:58.830 --> 01:02.010
la cele două aceasta este una mai bună aceasta este una mai bună.

01:02.010 --> 01:02.750
Acesta este unul mai bun.

01:02.760 --> 01:04.740
De fapt, de aici aveți două opțiuni corecte.

01:04.770 --> 01:11.130
Deci, el a fost un fel de cravată, așa că alegeți doar unul la întâmplare nu contează care unul pentru că valoarea în acestea, în

01:11.130 --> 01:16.110
fiecare caz este același și mai mult, chiar dacă te uiți prin ea va lua aceeași cantitate de pași același

01:16.110 --> 01:18.390
număr de pași pentru a ajunge la final.

01:18.690 --> 01:22.520
De aici aveți trei opțiuni, dar aceasta este cea mai bună valoare de aici.

01:22.530 --> 01:24.360
Aceasta este o valoare mai bună de aici.

01:24.360 --> 01:29.380
Evident, aceasta a fost o valoare mai bună pentru că știți că tocmai ați luat-o cu o recompensă imediat.

01:29.590 --> 01:35.250
Și de aici aveți trei, de fapt, dar acesta este cel mai bun dintre cele mai bune valori ale statului.

01:35.400 --> 01:41.190
Și așa că, dacă le înlocuim cu săgeți, este logic că așa va merge agentul dacă va juca aici sau

01:41.200 --> 01:44.570
va rezolva dintr-un anumit motiv că se termină în acest pătrat.

01:44.580 --> 01:46.070
Știe cum să iasă de aici.

01:46.280 --> 01:48.980
Stele și acest pătrat știe cum să ajungi aici și așa mai departe.

01:48.980 --> 01:51.440
Deci, acesta este planul.

01:51.440 --> 01:56.850
Și nu confundați planul cu politica, deoarece vom vorbi despre politici pentru Iran, care reprezintă un plan foarte

01:56.850 --> 02:01.660
asemănător cu planurile, dar au un mic șiretlic pentru ei, deoarece mediul va fi un

02:01.670 --> 02:02.380
pic diferit.

02:02.420 --> 02:07.560
Va fi stochastic și despre asta vom vorbi în următorul tutorial.

02:07.910 --> 02:10.000
Deci, Conway cu tine pe următoarea.

02:10.020 --> 02:12.060
Și până atunci bucurați-vă.
