WEBVTT

00:00.930 --> 00:03.970
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:03.990 --> 00:08.480
Więc rozmawialiśmy o równaniu Belmana i przeanalizowaliśmy nasz mały labirynt.

00:08.520 --> 00:11.100
Rzućmy okiem na plan.

00:11.100 --> 00:12.400
Jaki jest plan.

00:12.750 --> 00:14.650
Oto nasza główna analiza.

00:14.670 --> 00:20.970
I wiemy, że faktycznie widzimy stany, w których wartości każdego stanu możemy zobaczyć, jaka jest

00:20.970 --> 00:23.310
wartość bycia w każdym stanie.

00:23.400 --> 00:27.810
Dlatego sztuczna inteligencja może lub agent może poruszać się po labiryncie.

00:27.840 --> 00:28.770
Jaki jest plan?

00:28.770 --> 00:35.640
Plan jest po prostu jak mapa skarbów dla sztucznej inteligencji zamiast patrzenia na te wartości, które

00:35.730 --> 00:41.420
po prostu zastępują je strzałkami, które wskazują, w którym kierunku powinien iść agent.

00:41.490 --> 00:43.360
Z powodu tych, ponieważ zna te wartości.

00:43.350 --> 00:47.230
Idealny scenariusz po zbadaniu tego środowiska.

00:47.250 --> 00:50.860
Zna wartość bycia w każdym stanie i dlatego możesz wymyślić tę mapę.

00:50.870 --> 00:52.330
Spójrzmy raz jeszcze.

00:52.380 --> 00:58.410
Wiemy, że twoje wartości są jedno, więc jeśli jesteś tutaj z dwóch, tym lepiej jest to, gdy dojdziesz stąd,

00:58.830 --> 01:02.010
z tych dwóch jest lepszy, tym lepszy jest jeden.

01:02.010 --> 01:02.750
Ten jest lepszy.

01:02.760 --> 01:04.740
A właściwie stąd masz dwie opcje.

01:04.770 --> 01:11.130
Więc był trochę jak krawat, więc wybierz jeden losowo, nieważne, który z nich, ponieważ wartość w obu przypadkach jest

01:11.130 --> 01:16.110
taka sama i więcej, nawet jeśli spojrzysz przez nią, wykonasz tę samą liczbę kroków, tyle

01:16.110 --> 01:18.390
samo kroki, aby dojść do końca.

01:18.690 --> 01:22.520
Stąd masz trzy opcje, ale ta jest lepsza z tego miejsca.

01:22.530 --> 01:24.360
Ta jest lepsza z tego miejsca.

01:24.360 --> 01:29.380
Oczywiście była to lepsza wartość, ponieważ wiesz, że otrzymujesz od razu minus jedną nagrodę.

01:29.590 --> 01:35.250
A stąd masz trzy, ale ta jest najlepsza z najlepszych wartości państwa.

01:35.400 --> 01:41.190
Dlatego też, jeśli zastąpimy je strzałkami, ma to sens, że w ten sposób agent odejdzie, jeśli tu się pojawi,

01:41.200 --> 01:44.570
lub rozwiąże z jakiegoś powodu, który kończy się na tym kwadracie.

01:44.580 --> 01:46.070
Wie, jak się stąd wydostać.

01:46.280 --> 01:48.980
Gwiazdy i ten kwadrat wiedzą, jak się tu dostać i tak dalej.

01:48.980 --> 01:51.440
A więc taki jest plan.

01:51.440 --> 01:56.850
Nie należy mylić planu z polityką, ponieważ będziemy mówić o polityce dla Iranu, która jest

01:56.850 --> 02:01.660
bardzo podobna do planów, ale mają dla nich trochę sztuczki, ponieważ środowisko będzie nieco

02:01.670 --> 02:02.380
inne.

02:02.420 --> 02:07.560
To będzie stochastyczne i właśnie o tym porozmawiamy w następnym samouczku.

02:07.910 --> 02:10.000
Więc Conway do ciebie na następnym.

02:10.020 --> 02:12.060
A do tego czasu ciesz się.