WEBVTT

00:01.060 --> 00:04.460
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.460 --> 00:07.630
Dzisiaj porozmawiamy o równaniu Belmana.

00:07.630 --> 00:12.580
Jest to dość skomplikowany temat i zamierzamy wprowadzić go krok po kroku przez cały

00:12.580 --> 00:17.110
ten odcinek kursu, więc nie zamierzam od razu przejść bezpośrednio do najbardziej

00:17.110 --> 00:21.730
złożonej wersji równania Belmonta, ale zamiast tego zamierzamy wprowadzić go powoli, aby stopniowo

00:21.730 --> 00:23.250
zrozumieć, jak to działa.

00:23.410 --> 00:28.480
I mam nadzieję, że twój cel z tym podejściem, jeśli jesteś G. R. Przejdźmy od razu do tego.

00:28.690 --> 00:33.820
Tak więc zamierzamy mieć kilka kluczowych koncepcji, z którymi będziemy pracować i te koncepcje

00:33.820 --> 00:34.430
są.

00:34.600 --> 00:41.110
S oznacza państwa, więc stan, w którym znajduje się nasz agent lub jakikolwiek inny możliwy stan, w

00:41.740 --> 00:45.490
którym może być, reprezentuje czynność, jaką może podjąć agent.

00:45.490 --> 00:50.680
Tak więc agent może mieć dostęp do pewnej listy działań, a działania są bardzo

00:50.680 --> 00:53.610
ważne, gdy są oglądane w kombinacji stanów.

00:53.620 --> 00:57.880
Kiedy jesteś w stanie swingu, a następnie patrzysz na działania i zaczyna

00:57.880 --> 01:01.870
to mieć sens, jaki będzie rezultat tych działań, ponieważ sam będziesz

01:01.870 --> 01:07.390
wyglądał działania lub stan nie ma sensu, ponieważ nie wiemy, gdzie jesteś i gdzie możesz

01:07.390 --> 01:13.240
się skończyć, a potem otrzymamy nasze, co oznacza nagrodę, i to przez oddział, który dostaje agent za

01:13.240 --> 01:16.980
wejście w pewien stan, a gamma jest czynnikiem dyskontowym.

01:16.990 --> 01:21.810
A teraz porozmawiamy o współczynniku rabatu w jednym momencie, ale oni po prostu robią notatki.

01:21.820 --> 01:26.300
Pamiętajcie, że będziemy mieli ten list Gamelin, który będzie działał później.

01:26.620 --> 01:31.230
Tak więc osoba stojąca za równaniem bellmana to Richard Ernest.

01:31.360 --> 01:39.400
Był matematykiem lotów i opracował koncepcje programowania dynamicznego, które teraz nazywamy uczeniem się

01:39.400 --> 01:43.790
wzmacniania lub które nazywamy równaniem Belmana.

01:44.110 --> 01:45.490
Teraz to właśnie nazywamy.

01:45.490 --> 01:52.350
W 1953 roku wpadł na ten pomysł i wtedy przyszło mi do głowy równanie Belmonta Belmana.

01:52.630 --> 01:56.530
Zobaczmy więc, jak to wszystko działa.

01:56.540 --> 02:02.410
W lewym dolnym rogu znajduje się nasz uroczy agent, który znajduje się w labiryncie i jest to klasyczny

02:02.500 --> 02:08.680
labirynt, w którym masz kilka bloków, których szerokie bloki są blokami, w których agent może wejść do szarego

02:08.680 --> 02:13.800
bloku, to ten, który jest po prostu niedostępne mówi jak ściana w tym labiryncie.

02:13.900 --> 02:20.150
Zielony jest tam, gdzie agent powinien dążyć do tego, aby zakończyć

02:20.150 --> 02:20.910
proces.

02:21.220 --> 02:25.050
A czerwony jest firepits lub silnik wpada do ognia.

02:25.060 --> 02:26.660
Przegra grę.

02:26.950 --> 02:31.330
Więc w ognisku, nagrodą, która jest R, jest minus 1.

02:31.330 --> 02:36.330
To jest nasz sposób mówienia agentowi, że nie jest to coś, co chcemy, abyś zrobił.

02:36.430 --> 02:41.320
Przypomnijmy sobie na przykład, że kiedy szkolimy psy, chcemy powiedzieć im, że to zły pies, jeśli nie robi się

02:41.320 --> 02:46.030
to, co trzeba, aby zrobić to samo, to mówimy agentowi, że to nie jest coś, czym powinniście być.

02:46.030 --> 02:49.480
robienie nie powinno kończyć się na placu, więc za każdym razem, gdy

02:49.480 --> 02:53.300
się to nie zdarza, wiewiórka dostanie minus jedną nagrodę, więc zostaniesz ukarany minus jedną nagrodą.

02:53.530 --> 02:57.610
Z drugiej strony, jeśli znajdzie się na Zielonym Rynku, otrzyma plus jedną nagrodę, co

02:57.610 --> 02:59.330
oznacza, że chcieliśmy to zrobić.

02:59.590 --> 03:02.470
Więc są to dwie nagrody, których agent nie może uzyskać.

03:02.470 --> 03:06.210
A jak nauczy się działać w tym labiryncie.

03:06.370 --> 03:10.750
Podobnie jak w tym przykładzie psów-robotów, które nauczyły się chodzić, co ma na to pozwolić, po prostu

03:10.750 --> 03:12.490
powiedzą, że tutaj możesz zrobić akcję.

03:12.490 --> 03:18.360
Możesz iść w górę w lewo lub w dół, to są cztery możliwe akcje, które możesz podjąć i to wszystko.

03:18.360 --> 03:21.430
Baw się dobrze i zobacz, co wymyślisz.

03:21.430 --> 03:26.320
Więc agent może pójść w prawo, a potem może pójść jeszcze dwa razy w prawo, mogą wrócić na

03:26.320 --> 03:31.160
lewo, po prostu losowo naciskając przycisk, a oni próbują zobaczyć, co się dzieje i wracają tutaj.

03:31.180 --> 03:34.660
Idą w górę, idą w górę, idą w górę, idą w prawo.

03:34.660 --> 03:38.450
Na razie nie nauczyli się niczego, co do tej pory nic się nie wydarzyło.

03:38.470 --> 03:41.790
Idą w prawo, a potem kończą na Zielonym Rynku.

03:41.830 --> 03:48.150
Więc zdają sobie sprawę, że wow, mam plus jeden przypadek Więc tak szybko, jak wszedłem na Zielony Plac, dostali plus

03:48.150 --> 03:49.040
jedną nagrodę.

03:49.090 --> 03:53.560
A to powoduje, że algorytm mówi OK, to naprawdę fajne.

03:53.830 --> 03:58.920
Jestem nagrodzony za to, że trafiłem na plac, więc chcę skończyć na placu.

03:58.930 --> 04:00.650
Co to oznacza dla agenta?

04:00.910 --> 04:04.310
Oznacza to, że zaczyna zadawać pytanie, w jaki sposób dotarłem do tego kwadratu.

04:04.300 --> 04:10.690
Jaki był poprzedni stan, w którym się znajdowałem i jakie działania podejmowałem, aby dojść do kwadratu, a następnie

04:10.690 --> 04:14.810
spojrzeć wstecz i powiedzieć OK, więc poprzedni stan był tym.

04:14.950 --> 04:17.400
Okazuje się to cenne w tym stanie.

04:17.410 --> 04:19.240
To ta iskra Czerwonej Strzały.

04:19.270 --> 04:26.230
Ponieważ z tego stanu jesteś jestem, jestem tylko o krok od zdobycia maksymalnej nagrody, o jakiej

04:26.230 --> 04:33.210
mógłbym pomarzyć, plus jeden herbatnik dla psa, gdy tylko się dowiem, że kiedykolwiek będę w tym stanie.

04:33.250 --> 04:35.150
Ten kwadrat oznaczony czerwoną strzałką.

04:35.200 --> 04:36.740
Wszystko, co muszę zrobić, to nacisnąć w prawo.

04:37.030 --> 04:41.440
Więc jak mam sobie powiedzieć, że ten stan jest cenny.

04:41.440 --> 04:45.170
Cóż, dla mnie nie ma żadnej różnicy jako agent.

04:45.170 --> 04:50.380
Nie ma różnicy, czy jestem na Zielonym Rynku, czy na białym kwadracie na Zielonym Rynku.

04:50.380 --> 04:51.610
Otrzymuję nagrodę jednego.

04:51.610 --> 04:58.810
Więc mam zamiar zaznaczyć dla siebie, że Y Square jest dla mnie, ma wartość 1, ponieważ prowadzi dokładnie do nagrody jeden

04:58.810 --> 05:03.280
wkrótce, gdy jestem w białym kwadracie Wiem, że wezmę jeszcze jedną akcję.

05:03.350 --> 05:08.180
Będę na Zielonym Rynku, a ja dostanę nagrodę lub jedną, dlatego powiem, że wartość tego kwadratu jest

05:08.180 --> 05:14.690
równa jednej, ponieważ prowadzi bezpośrednio do tego, jeśli na jakimkolwiek odejmowaniu, tak szybko jak to tylko możliwe. Chodzi mi o to, że

05:14.690 --> 05:18.890
wiem, że moja nagroda będzie jedna, więc zamierzam oznaczyć ten kwadrat jako wezwanie do

05:18.890 --> 05:22.430
tego, które jest wartością, która jest postrzeganą wartością bycia w stanie.

05:22.430 --> 05:24.740
Następnie agent będzie w porządku.

05:24.800 --> 05:26.930
Więc jak mam wejść na ten plac.

05:27.050 --> 05:29.990
I wiesz, że może znowu chodzić i tak dalej.

05:29.990 --> 05:33.800
I znowu na placu i bądź jak OK, jak przedtem trafiłem na ten plac.

05:33.800 --> 05:36.860
A sposób, w jaki wszedłem na ten plac, pochodzi z tego kwadratu.

05:36.860 --> 05:37.530
Ciekawy.

05:37.550 --> 05:42.980
OK, gdy tylko wejdę na ten plac, wiem, że wszystko, co muszę zrobić, to iść w prawo.

05:42.980 --> 05:45.640
I stąd już wiem, że zamierzam wygrać.

05:45.650 --> 05:49.970
Wiem dokładnie, jak wszystko się stąd rozwinie i wiem, że wartość bycia w tym stanie

05:49.970 --> 05:50.970
jest równa jednemu.

05:51.020 --> 05:58.340
A ponieważ nie ma nic, co powstrzymałoby mnie przed dorastaniem stąd, wartość w tym idzie do wartości postrzeganej Jestem

05:58.340 --> 06:03.920
wielką wartością będąc tutaj pojazdem, który również chce, ponieważ mam na myśli tutaj, że

06:03.920 --> 06:04.640
wiem.

06:04.650 --> 06:06.660
Bądź tutaj i będę tu dość szybko.

06:06.740 --> 06:07.980
Więc zamierzam wygrać.

06:08.180 --> 06:10.490
A potem, jak przedtem wejdziecie na ten plac.

06:10.490 --> 06:12.940
Z tego kwadratu wszedłem na ten plac.

06:13.070 --> 06:19.670
Tak więc wartość jest podobnym podejściem wartość bycia tutaj jest równy jeden i tak dalej, więc wartość bycia tutaj równa się

06:19.670 --> 06:23.690
jednej wartości bycia tutaj jest równa jednej, ponieważ każda z nich prowadzi do

06:23.690 --> 06:25.710
następnej, a ta do następnej. meta.

06:26.240 --> 06:29.850
Na tym etapie jest to całkiem logiczne.

06:29.960 --> 06:33.410
To właśnie teraz projektujemy równanie Belmana.

06:33.410 --> 06:40.460
Więc możemy myśleć o zaprojektowaniu równania, które pomaga agentowi przejść przez labirynt.

06:40.490 --> 06:45.840
Spójrz więc na nagrodę, a poprzedni stan daje jej wartość równą nagradzaniu postępowania, a więc są

06:45.840 --> 06:51.920
one podobne do tworzenia ścieżki, wszystko jest świetne i dobrze, ale problem tutaj jest OK, co się dzieje,

06:52.010 --> 06:58.790
gdy nasz agent z jakiegoś powodu zaczyna się w ten stan zamiast zaczynać tutaj i podejmować te działania i że faktycznie

06:58.880 --> 07:00.480
zaczyna się w stanie.

07:00.650 --> 07:06.980
Skąd wie, jak pamięta, jakie działania należy podjąć, czy powinien pójść w prawo, czy powinien spaść, czy może powinien pójść w lewo,

07:06.980 --> 07:08.540
czy powinien pójść w górę.

07:08.540 --> 07:13.220
Jak zapamiętuje, co jest następną kontynuacją stąd.

07:13.220 --> 07:18.660
Jeśli jedynymi wartościami są te wartości, są one równe temu, gdy nie są w stanie zobaczyć, co jest dalej.

07:18.660 --> 07:19.700
Widzi tylko.

07:19.700 --> 07:20.030
W porządku.

07:20.030 --> 07:21.940
Co mam tutaj i co mam tutaj.

07:21.980 --> 07:23.530
Skąd wie, którą drogą iść.

07:23.660 --> 07:27.920
Cóż, na tym etapie nie jest to tak samo identyczne z wiekiem i jaką drogą.

07:27.960 --> 07:30.770
I dlatego to podejście tak naprawdę nie działa.

07:30.790 --> 07:32.930
To bardzo uproszczone wyjaśnienie.

07:32.930 --> 07:34.500
Oczywiście jest o wiele więcej.

07:34.520 --> 07:40.550
Ale w intuicyjny sposób, dlatego nie możemy po prostu przypisać po prostu przenieść tę wartość do tyłu w ten sposób.

07:40.790 --> 07:46.210
Ponieważ jednym z powodów jest, gdy Agent jest pomiędzy tymi dwoma wartościami, dokąd zmierza.

07:46.210 --> 07:48.560
Nie może się tak pomylić.

07:48.620 --> 07:52.350
Jak więc rozwiązać ten problem, co zamierzamy zrobić.

07:52.400 --> 07:57.860
I to właśnie tutaj będziemy stopniowo wprowadzać równanie Belmana w jego rzeczywistej

07:57.860 --> 07:58.640
formie.

07:58.670 --> 08:01.510
Tak więc równanie Belmana wygląda mniej więcej tak.

08:01.640 --> 08:07.100
Tak więc mówiliśmy już o wartości bycia w określonym stanie, tak jak jest to twój obecny

08:07.100 --> 08:10.250
stan lub jakikolwiek dany stan, i jest również.

08:10.370 --> 08:17.270
A jako Prime jest stanem następującym stanem, w którym staniesz się po państwie i

08:17.270 --> 08:18.990
podejmujesz skoordynowane działania.

08:19.000 --> 08:24.160
Ale wiemy, że istnieje wiele działań, które może podjąć agent, i dlatego mamy tutaj tego Maxa.

08:24.260 --> 08:30.020
Tak więc, podejmując akcję, co stanie się z agentem, powiedzmy, że jesteśmy w stanie, wykonując akcję

08:30.050 --> 08:32.700
w zasobach państwowych i podejmujemy działania.

08:32.780 --> 08:36.690
To, co się stanie, natychmiast dostanie nagrodę, wchodząc w nowy stan.

08:36.770 --> 08:41.960
I pamiętaj, że nagroda może wynosić jeden lub plus jeden lub minus jeden, jeśli jest na końcu gry lub może

08:41.960 --> 08:46.240
wynosić zero, jeśli jest w trakcie gry, w tym przypadku nasza nagroda w grze wynosi zero.

08:46.280 --> 08:55.160
Tak więc jest to nagroda Plus dostaniemy się do nowego stanu, który ma wartość s prime.

08:55.160 --> 08:57.820
Taka jest wartość nowego stanu i gamma.

08:57.820 --> 08:58.820
Porozmawiamy o tym za chwilę.

08:58.820 --> 09:03.560
Ale punkt, który próbuję tu podnieść, albo punkt, który tu podnoszę, to to, że masz wiele różnych

09:03.560 --> 09:05.810
działań, które możemy podjąć i dlatego mamy maksimum.

09:05.810 --> 09:09.630
Tak więc, podejmując działania, otrzymujemy nagrodę Plus i kończymy w nowym stanie.

09:09.740 --> 09:14.660
I tak za każdy ruch w naszym przypadku przed możliwymi działaniami na każde

09:14.660 --> 09:17.810
z 4 możliwych działań będziemy mieli takie równanie.

09:17.810 --> 09:22.980
Będzie to miało wartość, ponieważ będą one miały inną wartość dla każdego z czterech

09:23.480 --> 09:28.750
działań, a my będziemy patrzeć tylko na maksimum, ponieważ oczywiście agent chce przyjąć optymalny stan.

09:28.760 --> 09:33.860
Jeśli więc znajdzie się w stanie, w którym patrzy na te wartości, znajdzie maksimum na

09:33.860 --> 09:37.500
podstawie działania i wykona to działanie, które wymaga maksymalnej wartości.

09:37.640 --> 09:41.480
Miejmy nadzieję, że ma to sens, dlaczego wykorzystujemy maksimum tutaj.

09:41.660 --> 09:45.400
Kiedy otrzymaliśmy nagrodę i wartość, która mówi, dlaczego mamy tutaj ten parametr Gabaa.

09:45.650 --> 09:52.220
Jest dokładnie tam, aby rozwiązać problem, w którym agent nie wie, w którą stronę pójść, ponieważ nie

09:52.220 --> 09:52.850
może.

09:52.950 --> 09:56.600
Porównuje wartości dwóch stanów po obu stronach i są one takie same.

09:56.810 --> 10:00.890
Dlatego gracze nazywają czynnik dyskontowy, więc przyjrzymy się temu i

10:00.890 --> 10:02.050
lepiej zrozumiemy.

10:02.060 --> 10:04.680
Weźmy formułę, którą umieściłem tutaj w prawym górnym rogu.

10:04.760 --> 10:09.100
A teraz przeanalizujemy, jakie są wartości różnych stanów.

10:09.140 --> 10:11.470
A każdy stan tutaj to kwadrat.

10:11.470 --> 10:11.820
Nie.

10:11.840 --> 10:16.610
Więc jeden z tych któregokolwiek z tych białych kwadratów jest stanem, o którym mówimy, że zamierzamy obliczyć

10:16.610 --> 10:18.290
wartość bycia w tym stanie.

10:18.290 --> 10:19.770
Zacznijmy od kwadratu.

10:19.790 --> 10:21.610
Jaka jest wartość bycia w tym stanie.

10:21.860 --> 10:25.830
Cóż, musimy wziąć maksymalną wartość tej wartości we wszystkich działaniach.

10:26.120 --> 10:31.440
Wiemy, że wartość ta jest zmaksymalizowana, gdy zbliżamy się do linii mety i tak

10:31.440 --> 10:36.440
się ją konstruuje, a po prostu patrząc na ciebie, możesz zobaczyć, ponieważ tutaj

10:36.590 --> 10:40.900
jest nagroda i masz współczynnik dyskonta pomnożony przez wartość następnego stan.

10:41.060 --> 10:46.670
I po prostu ma sens, że w ten sposób skonstruowalibyśmy to równanie, więc ma sens,

10:46.670 --> 10:50.350
że stąd maksymalna wartość będzie, jeśli przejdziemy w prawo.

10:50.360 --> 10:56.120
W ten sposób obliczamy wartości, że ta wartość tego stanu nazywa się maksimum lub jest

10:56.300 --> 10:57.470
równa tej wartości.

10:57.500 --> 11:01.000
Jeśli przejdziemy w prawo, jeśli podejmiemy akcję przejścia w prawo.

11:01.010 --> 11:02.330
Jaka będzie ta wartość?

11:02.360 --> 11:04.850
Cóż, nagroda za przejście w prawo jest równa 1.

11:05.090 --> 11:10.490
I niezależnie od tego, jaki kolor ma gamma, nie mamy wartości w stanie, ponieważ jesteśmy już w

11:10.490 --> 11:11.720
najlepszym możliwym stanie.

11:11.720 --> 11:12.880
To jest ostatni etap.

11:12.890 --> 11:16.280
Nie będzie mieć wartości, którą dostaniemy tutaj i to koniec gry.

11:16.280 --> 11:20.300
Wartość tego maksimum będzie równa 1.

11:20.510 --> 11:23.870
I dlatego wartość stanu, jak tutaj, jest równa 1.

11:23.870 --> 11:27.970
Teraz rzeczy stają się interesujące, gdy poruszamy się w lewo, gdy cofamy się nieco.

11:28.010 --> 11:34.060
Teraz obliczmy wartość tego, że jesteśmy w tym stanie i do tego potrzebujemy Gabaa.

11:34.070 --> 11:39.920
Powiedzmy, że naszym czynnikiem dyskontującym jest zero dziewięć punktów i ma to sens, co jest czynnikiem dyskontującym,

11:39.920 --> 11:40.960
kiedy to policzymy.

11:40.960 --> 11:47.410
Stąd właśnie opiera się na naszej intuicji i opiera się, ponieważ wiemy, jak to działa, jak to działa.

11:47.450 --> 11:51.340
Wiemy, że najlepsze możliwe działania idą w prawo, ponieważ od tego miejsca jesteśmy tutaj.

11:51.530 --> 11:56.120
Oznacza to, że w tym stanie osiągniesz maksimum w prawo.

11:56.270 --> 11:58.970
Zobaczmy więc, co się stanie, jeśli ją tutaj tutaj podłączymy.

11:58.970 --> 12:02.650
Więc jeśli przejdziesz stąd, tutaj, nie dostaniesz nagrody, będzie zero.

12:02.720 --> 12:07.440
Ale wtedy dostaniecie camis, którzy otrzymają zero punktów dziewięć razy więcej od wartości nowego stanu, który jest jeden.

12:07.640 --> 12:14.030
Tak więc w tym przypadku wartość całego wyniku jest 1 razy równa 0. 9 razy jeden równa się 2. 9.

12:14.030 --> 12:15.890
Więc to wszystkie wartości na.

12:16.250 --> 12:18.570
Więc jeśli teraz to obliczysz, zobaczysz to stąd.

12:18.620 --> 12:23.990
Wiemy, patrząc na labirynt, który znamy, ponieważ my jako ludzie, ponieważ rozumiemy, jak

12:23.990 --> 12:28.450
to równanie działa, agent AI musiałby eksperymentować z tymi rzeczami.

12:28.460 --> 12:32.180
Ale ponieważ mamy kryształową kulę, możemy zobaczyć cały ten labirynt.

12:32.180 --> 12:33.860
Teraz lubimy widok z lotu ptaka.

12:33.860 --> 12:36.170
Wiemy, że najlepsze działania idą w prawo.

12:36.320 --> 12:42.230
Więc jeśli podłączymy to wszystko tutaj to będzie zero bez nagrody Plus raport dziewięć razy

12:42.230 --> 12:45.530
wartość w stanie 0. 9 to zero osiemdziesięciu jeden i tak dalej.

12:45.530 --> 12:50.420
Więc tutaj będzie 0. 23 i będzie 0. 66.

12:50.420 --> 12:57.590
Możesz więc zobaczyć, że sposób, w jaki działa czynnik dyskontowy, obniża wartość stanu, ponieważ jesteś

12:57.590 --> 12:58.610
dalej.

12:58.610 --> 13:05.810
Więc jeśli znasz teorię finansów, to jest to coś podobnego do wartości pieniądza w czasie, jak na przykład to, co

13:05.810 --> 13:12.990
byś o tym pomyślał. Co byś chciał mieć 5 USD dzisiaj lub 5 $ za 10 dni od teraz.

13:13.050 --> 13:17.840
Jeśli ktoś miałby ci dać wybór, dam ci dzisiaj pięć dolarów za wszystkie 5 $ za 10

13:17.840 --> 13:18.280
dni.

13:18.390 --> 13:20.300
Oczywiście dzisiaj wybierzesz 5 USD.

13:20.300 --> 13:20.850
Dlaczego.

13:20.870 --> 13:26.750
Cóż, ponieważ możesz wziąć te 5 $ i możesz zainwestować je w pewną stopę procentową, która jest bardzo podobna

13:26.750 --> 13:27.470
do gammy.

13:27.680 --> 13:33.950
A twoje 5 USD za 10 dni faktycznie wzrośnie do 5 dolarów i 73 centów lub coś w tym stylu.

13:34.070 --> 13:36.410
I tak działa wartość czasu w pieniądzu.

13:36.410 --> 13:38.310
I bardzo podobna koncepcja tutaj.

13:38.330 --> 13:43.250
Ważne jest, aby zrozumieć, że jest to tylko teoria, która jest sposobem uczenia się wzmacniania.

13:43.260 --> 13:45.850
Tak więc Richard Belman wymyślił to równanie.

13:46.190 --> 13:48.880
Odtąd tak właśnie z tego korzystamy.

13:48.880 --> 13:51.430
Możesz więc iść do przodu i wymyślić inne równanie.

13:51.430 --> 13:54.820
Nie musi mieć Gamli, może mieć jakiś inny czynnik, o którym nie wiesz.

13:54.950 --> 14:01.550
Ale to podejście działa i dlatego używamy go i tak to wygląda, więc im dalej jesteś, tym

14:01.550 --> 14:06.670
mniejsza jest jego wartość w państwie i pod względem czasu i pieniędzy.

14:06.680 --> 14:09.850
Gdybym mógł powiedzieć ci, gdzie wolałbyś być, wolałbyś być tutaj.

14:09.950 --> 14:11.200
Wolałbyś być tutaj?

14:11.350 --> 14:12.920
Powiedziałbyś, że wolałbym tu być.

14:12.920 --> 14:18.770
Tworzymy więc to samo zjawisko co wartość czasu, którą sztucznie kreujemy

14:18.770 --> 14:24.680
poprzez gamma, aby zachęcić agentów lub zainspirować agentów do zbliżenia się do mety.

14:24.680 --> 14:29.720
Gdyby więc zapytano agenta, wolałbyś być tutaj lub tutaj, ponieważ sposób działania tego równania

14:29.930 --> 14:31.590
sprawił, że byłeś tutaj.

14:31.640 --> 14:33.380
Nie ma w tym nic więcej.

14:33.380 --> 14:35.810
To nie jest coś, co świat działa w ten sposób.

14:35.810 --> 14:42.630
Nie, to jest coś, co sztucznie tworzymy, aby nasi agenci zrozumieli, że to jest dobre, to dobrze, to jest

14:42.750 --> 14:48.140
dobre stare dobro, ale to jest lepsze od tego, a to jest lepsze od tego

14:48.140 --> 14:50.030
i tego jest w tym.

14:50.120 --> 14:54.790
W ten sposób widać, że cały agent może zobaczyć, w którym kierunku powinien iść.

14:54.800 --> 15:00.270
Czyli widzę, że jeśli stoję tutaj, pamiętaj o tym problemie, który mieliśmy lub czy on tu stoi, więc jeśli stoisz

15:00.270 --> 15:05.130
tutaj, to zejdę na dół, albo jeśli nagle będę tu, aby wstać, czy pójdę na dół.

15:05.250 --> 15:10.080
Teraz już nie ma problemu, ponieważ widzi, że lepiej jest iść w górę, ponieważ

15:10.080 --> 15:11.480
wartości są tutaj.

15:11.550 --> 15:14.490
A potem musi iść w prawo, ponieważ wartość tutaj jest większa niż tutaj.

15:14.550 --> 15:17.480
A potem Bertschi idzie w prawo, ponieważ wartość tutaj jest większa niż wiesz.

15:17.670 --> 15:22.620
I stąd już wie, że musi iść w prawo, bo dostanie nagrodę od jednego.

15:22.680 --> 15:24.960
Tak działa to całe podejście.

15:24.960 --> 15:27.600
Teraz rzućmy okiem na resztę kwadratu.

15:27.600 --> 15:29.800
Jak więc obliczyć wartość w tym kwadracie.

15:30.030 --> 15:32.450
Tutaj jest sytuacja, w której sprawy stają się trudne.

15:32.460 --> 15:38.400
Od tego momentu możesz nie iść prosto w prawo, możesz iść tak, żebyśmy mogli tak po prostu iść, ponieważ

15:38.400 --> 15:41.360
może to być krótsze, aby przejść w ten sposób.

15:41.520 --> 15:44.720
To, co mamy zamiar zrobić, to najpierw obliczyć wartość na kwadracie.

15:45.000 --> 15:48.200
A ponieważ oczywiście stąd najlepsze sposoby, aby przejść, jest w górę.

15:48.240 --> 15:52.740
Ponownie, ponieważ widzimy załogę, mamy kryształową kulę, którą widzimy, a zobaczysz dalej w

15:52.740 --> 15:57.060
sekcji, w której zobaczysz, jak agent faktycznie odkrywa, rozumie to na swoich polach

15:57.060 --> 15:58.030
poprzez eksperymenty.

15:58.080 --> 16:02.580
Ale dla nas wiemy, że lepiej iść tą drogą, więc obliczymy tutaj

16:02.580 --> 16:06.410
wartość i dlatego najpierw obliczymy wartość na tym kwadracie.

16:06.420 --> 16:09.230
Mamy tutaj trzy możliwe działania.

16:09.270 --> 16:11.590
W rzeczywistości mamy cztery, możemy też odejść.

16:11.610 --> 16:15.330
Agent może hipotetycznie przycisnąć lewe i uderzenie w ścianę i zostać tutaj.

16:15.420 --> 16:21.030
Ale dla zestawu prostoty, który będzie pokazywał działania, które znamy z tego, co wiemy i posiadające

16:21.030 --> 16:25.920
kryształową kulę, wiemy, które z działań faktycznie prowadzą do czegoś innego niż ten

16:25.920 --> 16:26.780
sam stan.

16:26.850 --> 16:32.010
I tak tutaj znowu wiemy, że tylko dlatego, że mamy kryształową kulę, wiemy, że najlepszym sposobem na

16:32.010 --> 16:36.840
to jest, aby agent oczywiście musiał eksperymentować i znaleźć najlepszy sposób, a zobaczysz, jak to

16:36.840 --> 16:37.500
się dzieje.

16:37.560 --> 16:42.270
W dalszej części sekcji zobaczysz, jak działa agent i jak eksperymentować, próbując

16:42.360 --> 16:43.610
znaleźć te wartości.

16:43.620 --> 16:45.190
Ale dla nas wiemy, że tak jest.

16:45.360 --> 16:50.420
A więc, jeśli podłączymy wszystko do jednego, aby uzyskać maksymalną wydajność, gdy idziesz w górę.

16:50.510 --> 16:53.820
A oto raport 9: 0 Więc to załóż.

16:53.820 --> 16:55.870
Otrzymujesz zero dziewięć punktów.

16:56.220 --> 16:58.730
OK, więc to Kalika to ta, która to oblicza.

16:58.770 --> 16:59.810
To samo podejście.

16:59.820 --> 17:02.070
To masz trzy sposoby, aby przejść.

17:02.070 --> 17:05.580
Właściwie cztery dla agenta, ale dla nas widzimy, że to tylko trzy.

17:05.880 --> 17:10.780
Tak więc punkt zero osiemdziesiąt jeden stąd masz punkt ZERO siedemdziesiąt trzy.

17:11.130 --> 17:16.410
I rzeczywiście dobrze pasuje do tej wartości, ponieważ w tobie, jeśli ponownie obniżysz, wstawisz 66,

17:16.890 --> 17:20.120
a tutaj masz 0. 23 ponieważ jest to optymalna trasa.

17:20.130 --> 17:21.190
Więc idź.

17:21.210 --> 17:23.750
To jest wartość wszystkich tych stanów.

17:23.760 --> 17:29.700
Teraz możesz to zobaczyć, ponieważ stworzyliśmy to równanie lub stworzyliśmy syntetycznie tę całą koncepcję,

17:29.730 --> 17:37.890
im bliżej jesteś do mety, tym bardziej cenny jest ten stan, ponieważ obawiamy się, że teraz jest to dość

17:37.890 --> 17:41.840
oczywiste dla agent w którą stronę powinien iść.

17:41.970 --> 17:44.230
A my porozmawiamy o tym więcej w przyszłości.

17:44.910 --> 17:52.290
Mam nadzieję, że podobała ci się dzisiejsza sesja i wiem, że na tym etapie może to brzmieć nieco bardzo prosto,

17:52.320 --> 17:56.590
ale kiedy przejdziemy tę sekcję, dodamy do niej nieco więcej złożoności.

17:56.700 --> 18:01.500
W tym samym czasie, jeśli nie możesz się doczekać, jeśli chcesz w nie wskoczyć, jest papier, na który

18:01.500 --> 18:04.290
możesz spojrzeć i jest to oryginalna praca Richarda Belmana.

18:04.290 --> 18:08.130
Nazywa się teorią programowania dynamicznego od 1954 roku.

18:08.370 --> 18:10.200
I możesz go znaleźć pod tym linkiem.

18:10.320 --> 18:16.490
I tam idziesz, więc możesz wskoczyć prosto w to i przeczytać od autora równania Belmana.

18:16.620 --> 18:20.860
Ale pamiętaj, że jest to dość matematycznie ciężki papier.

18:20.970 --> 18:22.820
I w tej notatce będę szukać twojej następnej.

18:22.850 --> 18:24.590
A do tego czasu ciesz się AI.