WEBVTT

00:01.040 --> 00:04.020
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.040 --> 00:07.040
Dzisiaj w końcu mówimy o uczeniu się Kule.

00:07.070 --> 00:13.120
W porządku, mamy już to równanie w równaniu dzwonników, do którego dodaliśmy wiele komponentów.

00:13.130 --> 00:19.910
Mamy tutaj nagrodę, która nie może być na samym końcu, ale może być na każdym kroku.

00:19.940 --> 00:21.920
Mamy czynnik rabatu.

00:21.950 --> 00:26.880
Mamy prawdopodobieństwo, ponieważ teraz patrzymy na znak procesów decyzyjnych.

00:26.900 --> 00:32.780
I tutaj mamy możliwość dotarcia do różnych stanów, bez względu na to, jakie działania

00:33.350 --> 00:35.210
podejmujemy lub faktycznie podejmujemy.

00:35.210 --> 00:40.670
Może być wiele stanów, w których możemy skończyć, a następnie otrzymujemy wartość następnych stanów,

00:40.670 --> 00:46.790
ponieważ jest on podobny do funkcji rekursywnej i tak dalej, ale prawdopodobnie nadal masz jedno pytanie.

00:46.820 --> 00:53.560
Pytanie, gdzie w tym wszystkim nie ma litery Q Dlaczego wszystko to nazywa się q.

00:53.750 --> 00:54.270
Uczenie się.

00:54.350 --> 00:55.790
Więc gdzie jest wskazówka.

00:55.910 --> 00:58.940
I to jest pytanie, na które dzisiaj odpowiemy.

00:58.940 --> 01:06.620
Do tej pory traktowaliśmy wartości jako wartość bycia w określonym stanie i teraz przyjrzymy się,

01:06.620 --> 01:09.820
jak Q pasuje do tego wszystkiego.

01:10.070 --> 01:16.360
Oto dwa przykłady po lewej, to, co robimy do tej pory analizował nasz agent.

01:16.400 --> 01:18.170
Ok, jestem tutaj.

01:18.230 --> 01:21.640
To jest znak procesu decyzyjnego, więc nie ma znaczenia, jak się tu dostałem.

01:21.770 --> 01:28.250
Reszta środowiska nie dba o kroki, które zabrały mi od teraz.

01:28.460 --> 01:32.050
Muszę podjąć optymalną decyzję, gdzie się udać tutaj lub tutaj.

01:32.060 --> 01:37.280
W oparciu o obecny stan i wszystkie przyszłe stany, które pochodzą stąd, ale nie z przeszłości.

01:37.490 --> 01:42.010
A więc widzi, że istnieją trzy opcje, że istnieje stan, w którym można podać trzy.

01:42.260 --> 01:48.920
Opierając się na swoim doświadczeniu, obliczył wartości w tych stanach, a teraz użyje równania

01:48.920 --> 01:49.880
dzwonnika.

01:49.880 --> 01:54.260
Mimo że jest to klasyczne Proceso, wie, że pójdzie tutaj, ale jest szansa, że pójdzie

01:54.260 --> 01:56.120
w prawo i tak dalej.

01:56.110 --> 02:02.450
Opierając się na tych wartościach, podejmujemy decyzję o tym, co robimy do tej pory i jest to całkowicie zgodne

02:02.450 --> 02:03.470
z prawem podejście.

02:03.560 --> 02:05.640
Ale teraz jesteśmy trochę zmodyfikowani.

02:05.660 --> 02:12.860
Zamierzamy przyjąć tę samą koncepcję dokładnie tego samego problemu, ale tutaj zamiast patrzeć

02:12.950 --> 02:21.440
na wartości każdego stanu, w którym może on skończyć, będziemy patrzeć na wartości lub wartość każdego działania.

02:21.440 --> 02:25.640
Więc nie zamierzamy używać litery V, ponieważ dla wartości

02:25.640 --> 02:30.740
państwa użyjemy Q i możesz mieć pytanie, dlaczego litera Q Cóż.

02:30.740 --> 02:32.300
P Niektórzy ludzie to spekulują.

02:32.300 --> 02:33.760
Q Czy to przeczytam.

02:33.770 --> 02:35.420
Myślę na Quora.

02:35.420 --> 02:41.480
Ktoś wspomniał, że Q jest ze względu na jakość, ale jednocześnie nie mogłem znaleźć żadnych innych odniesień do tego, więc może nie być

02:41.480 --> 02:45.520
tak dlatego, że może to być spowodowane tym, że ta litera była używana w

02:45.920 --> 02:50.750
tym czasie, a teraz stała się bardzo popularna, ponieważ jest wszystkie z tego powodu są nazywane kluczowymi uczeniami.

02:50.780 --> 02:52.520
Więc nie ma żadnego konkretnego powodu.

02:52.530 --> 02:58.830
Q Niemniej jednak przynajmniej pomaga nam rozróżnić V i Q So Q tutaj.

02:58.850 --> 03:03.340
Nie było prezenty, a wartość stanu, który reprezentuje, pozwala przejść na jakość.

03:03.410 --> 03:06.260
Reprezentuje jakość działania, które reprezentuje.

03:06.260 --> 03:07.980
OK, więc mam cztery akcje.

03:08.300 --> 03:10.860
Jakie są różne cechy tych działań.

03:10.860 --> 03:16.340
Jaka jest wartość akcji lub jakość działania, która jest bardziej lukratywna, więc potrzebuję metryki, która mówi

03:16.340 --> 03:21.380
mi dokładnie, jak mogę kwantyfikować to działanie, a następnie mogę je porównać i to jest

03:21.380 --> 03:23.200
dokładnie to, co jest Q.

03:23.470 --> 03:26.240
I ma cztery możliwe akcje.

03:26.360 --> 03:29.240
Jak zawsze idź w górę w prawo lub w dół.

03:29.240 --> 03:35.480
A w oparciu o te działania będzie formuła, która mówi nam o kwantyfikowalnej wartości tego działania,

03:35.480 --> 03:38.410
które nazywamy wartością Q q tego działania.

03:38.630 --> 03:41.700
Zobaczmy więc, jak wyprowadzić tę formułę.

03:41.710 --> 03:44.510
P Jak właściwie to się do nich odnosi?

03:44.510 --> 03:51.290
Ponieważ, jak możesz sobie wyobrazić, ponieważ działania prowadzą do stanów, musi istnieć jakiś związek między

03:51.290 --> 03:51.850
nimi.

03:51.870 --> 03:56.060
Właśnie, że już ustaliliśmy, jak to obliczyć i jesteśmy w tym całkiem dobrzy.

03:56.060 --> 04:02.030
Wiemy, jak wykorzystać równanie Belmana w bardzo różnych środowiskach z wieloma różnymi komplikacjami.

04:02.270 --> 04:06.080
Cóż, wykorzystajmy tę wiedzę, aby zrozumieć, jak możemy teraz obliczyć.

04:06.080 --> 04:12.170
P Aby wykonać te same prognozy, ponieważ, jak można sobie wyobrazić, środowisko nie zmienia się w zależności

04:12.500 --> 04:16.530
od tego, z jakiego podejścia korzystamy, środowisko będzie takie samo niezależnie.

04:16.550 --> 04:22.130
Dlatego też takie podejście i takie podejście zawsze powinny dawać taki sam wynik, dlatego jest to kolejny powód, dla którego te

04:22.460 --> 04:24.690
dwa elementy powinny być ze sobą powiązane.

04:25.100 --> 04:26.290
Więc spójrzmy.

04:26.300 --> 04:31.280
Oto więc podejście, w którym postrzegamy wartość dowolnego stanu w tym stanie lub w jakimkolwiek

04:31.280 --> 04:32.260
innym stanie.

04:32.420 --> 04:37.190
I tutaj wchodzimy, używamy tutaj tylko wskazówki, ponieważ to jest obecny stan.

04:37.190 --> 04:43.730
Tak więc terminologia będzie taka sama w obu równaniach i tutaj używamy q jako Q Jest

04:43.790 --> 04:45.520
to stan i działanie.

04:45.540 --> 04:51.970
A ponieważ akcja jest zakończona, ale w jakim stanie wykonujemy to działanie, wykonujemy to działanie w państwie.

04:53.000 --> 04:57.230
OK, więc teraz wypuścimy równanie Belmana dla pierwszego podejścia, ponieważ

04:57.230 --> 05:06.620
widać tutaj, że mamy wartość s lub wartość dowolnego stanu s jest maksymalną nagrodą, którą otrzymujesz na podstawie maksymalnego zakładu o działaniach,

05:07.070 --> 05:08.660
które masz trzy.

05:08.690 --> 05:14.210
W tym przypadku masz już cztery akcje, aby zmaksymalizować wszystkie możliwe działania tej części,

05:14.210 --> 05:20.090
o których słyszeliśmy wiele razy, więc to jest nasza nagroda, którą otrzymujemy od wykonania tej

05:20.090 --> 05:26.850
akcji w tym obniżeniu plazmy państwowej w rzeczywistości pomnożonej przez oczekiwaną wartość nowego stanu, że będziemy mieli oczekiwaną

05:26.850 --> 05:29.420
wartość, ponieważ jest to proces stochastyczny.

05:29.420 --> 05:34.460
Nie wiemy na pewno, że skończymy tutaj, możemy skończyć na lewicy lub

05:34.460 --> 05:36.050
na prawym prawdopodobieństwie.

05:36.050 --> 05:38.230
Właśnie dlatego te prawdopodobieństwa są w tobie.

05:38.240 --> 05:40.290
W porządku, więc to jest nasza wartość.

05:40.350 --> 05:41.150
A teraz spójrzmy.

05:41.150 --> 05:43.530
Q Więc Q zostanie zdefiniowany.

05:43.580 --> 05:49.550
Zamierzamy użyć tego do zdefiniowania Q Więc załóżmy, że agent z tej lokalizacji od tego stanu wykonuje

05:49.550 --> 05:50.640
akcję w górę.

05:50.840 --> 05:54.350
Do czego będzie wywoływana wartość q.

05:54.500 --> 05:59.320
Przede wszystkim zobaczmy, co dostanie w zamian za wykonanie tej akcji.

05:59.420 --> 06:02.160
Pierwszą rzeczą, którą otrzymasz, jest prawo do nagrody.

06:02.360 --> 06:04.180
Nie ma co do tego wątpliwości.

06:04.250 --> 06:09.920
Będzie to jakaś reguła lub może być zero, ale wiemy, że cały proces uczenia

06:09.920 --> 06:15.770
się zbrojenia polega na tym, że niektóre miasta wykonują określone działania z danego stanu lub dwóch.

06:15.840 --> 06:17.140
Więc dodam to tutaj.

06:17.480 --> 06:19.680
A potem dodamy, co zamierzamy dodać.

06:19.850 --> 06:21.090
Cóż, pomyślmy o tym.

06:21.110 --> 06:24.640
Jaka jest następna rzecz, jaka się wydarza po tym, jak się tam wybiera.

06:24.860 --> 06:32.030
Kolejną rzeczą, która się dzieje, jest to, że teraz agent jest w pewnym stanie, w którym może znaleźć się z prawdopodobieństwem

06:32.330 --> 06:34.640
80 procent lub z pewnym prawdopodobieństwem.

06:34.730 --> 06:36.670
Ale tak naprawdę tutaj, tutaj.

06:36.800 --> 06:43.940
Ale gdziekolwiek się teraz znajdzie, mamy już dane ilościowe dla tego stanu, w którym się znajduje.

06:44.210 --> 06:47.100
I to jest właśnie wartość tego stanu.

06:47.180 --> 06:52.340
Ale ponieważ pojawił się w wielu różnych stanach i trzech różnych możliwych stanach, musimy

06:52.370 --> 06:55.730
spojrzeć na oczekiwaną wartość państwa, w którym on będzie.

06:56.210 --> 06:58.610
Dodamy więc, że dodamy.

06:58.610 --> 07:04.020
Oczywiście czynnik zdyskontowany, jak mieliśmy wcześniej, ponieważ jest to gdzieś w przyszłości.

07:04.190 --> 07:11.210
A potem dodamy niektóre z wszystkich możliwych stanów we wszystkich możliwych stanach, które może zakończyć,

07:11.210 --> 07:12.910
wykonując to działanie.

07:12.910 --> 07:14.240
Warunki prawdopodobieństwa.

07:14.240 --> 07:20.150
Więc mówimy tutaj, że jest OK, więc wykonując akcję otrzymasz nagrodę Plus, która jest

07:20.150 --> 07:22.700
kwantyfikowaną miarą Plus, którą dostaniesz.

07:22.730 --> 07:25.820
Kończysz w stanie, w którym nie wiemy, który może tu być.

07:25.850 --> 07:26.950
Może być tutaj, może być tutaj.

07:27.050 --> 07:32.240
Ale tutaj jest oczekiwana wartość państwa, w którym się zakończysz.

07:32.270 --> 07:36.290
A teraz pomnożymy przez współczynnik dyskontowy, ponieważ jest to jeden ruch.

07:36.380 --> 07:44.180
Taka jest nasza wartość Q dla tego dla działu wydajności i to, co zauważysz tutaj od razu, jest

07:44.180 --> 07:44.730
tym.

07:44.760 --> 07:51.470
Q Wartość Q jest dokładnie identyczna z wartością zawartą w nawiasach.

07:51.950 --> 07:52.660
A czemu to.

07:52.670 --> 07:59.930
Jeśli myślisz o tym tutaj, przyjmujemy maksimum wyników, osiągniemy maksimum we wszystkich możliwych działaniach,

07:59.930 --> 08:04.910
więc otrzymaliśmy maksymalną możliwą akcję we wszystkich możliwych działaniach

08:04.910 --> 08:10.500
wyniku, którą otrzymamy, wykonując każdą z tych akcji i definiujemy kolejkę.

08:10.610 --> 08:11.160
Ciekawy.

08:11.160 --> 08:14.000
Co otrzymamy, wykonując określone działanie.

08:14.000 --> 08:19.340
Jeśli więc się nad tym zastanowić, ma sens wartość stanu.

08:19.370 --> 08:25.720
Na przykład ten stan jest maksimum wszystkich możliwych wartości Q.

08:25.790 --> 08:32.360
Tak więc tutaj, w Stanach, będąc w stanie, agent ma jedną kluczową wartość, aby utrzymać wartość 3Q dla wartości

08:32.360 --> 08:32.870
q.

08:32.870 --> 08:37.760
Tak więc pozytywnie dla możliwych wartości Q, podczas gdy wartość pobytu ma

08:37.760 --> 08:42.460
sens, wartość stanu jest maksimum wszystkich tych czterech kluczowych wartości.

08:42.490 --> 08:44.420
Dokładnie to możemy zobaczyć tutaj.

08:44.420 --> 08:48.060
To dobre potwierdzenie tej nowej formuły, którą czerpiemy.

08:48.080 --> 08:53.080
Gdyby tak nie było, gdyby to nie pasowało, mielibyśmy pytania.

08:53.270 --> 08:55.150
Dlaczego więc nie pasuje?

08:55.160 --> 08:57.510
Dlaczego nie pasuje, jeśli.

08:57.690 --> 09:05.810
Wartość Q to kwantyfikowana metryka wykonywania akcji, a V zależy od piętra.

09:05.930 --> 09:12.970
Jest jak maksimum możliwych rezultatów czterech działań, które może wykonać, ponieważ ma to sens.

09:12.980 --> 09:21.050
I to potwierdza formułę, którą właśnie wyprowadziliśmy, a teraz zamierzamy uczynić ją jeszcze bardziej interesującą.

09:21.080 --> 09:26.620
Całkowicie pozbędziemy się Wii, ponieważ widzisz, że masz Wii, to funkcja rekursywna.

09:26.810 --> 09:29.750
A więc masz mnie, potem B, potem B, potem B i tak dalej.

09:29.760 --> 09:35.480
Możesz wyrazić ten pogląd za pomocą wszystkich poniższych rozwiązań Vee, które są najbardziej optymalne, jakie pojawią się

09:36.150 --> 09:36.830
tutaj.

09:36.840 --> 09:43.210
Oczekujemy, że Q Jako funk będzie funkcją rekursywną OR jako funkcją następnego V, a następnie będziesz musiał podłączyć to V,

09:43.250 --> 09:45.200
a następnie wrócimy do B.

09:45.200 --> 09:51.110
Więc, co zamierzamy zrobić, to zamierzamy wziąć to V, a zamierzamy zastąpić je

09:51.230 --> 09:54.280
Q Right, więc spójrzmy na to.

09:54.930 --> 10:01.410
Weźmiemy V tego następnego stanu, a my mamy zamiar podłączyć to do tej formuły tutaj.

10:01.570 --> 10:07.180
I jak widać teraz, ta część się nie zmienia, to prawdopodobieństwo się nie zmienia.

10:07.180 --> 10:16.950
Ale jak przedyskutowaliśmy, s jest maksimum przez wszystkie działania q S i prawa tutaj.

10:16.990 --> 10:19.180
Więc to tutaj zamierzamy zastąpić.

10:19.180 --> 10:24.310
Powiemy więc, że maksymalna rzecz jasna to nowa akcja, którą zamierzamy podjąć, ponieważ

10:24.310 --> 10:26.760
tutaj mamy Wii jako najlepszy.

10:26.770 --> 10:30.700
A więc mamy teraz maksymalną konsolę na poziomie podstawowym.

10:30.700 --> 10:34.510
Tak więc działania, które zamierzamy podjąć z tego stanu, pochodzą

10:34.510 --> 10:41.200
z dowolnego miejsca, w którym się znajdziemy, ale od działania, które podejmiemy od tego punktu, a Maxima do

10:41.260 --> 10:50.170
wszystkich tych wartości, a maksymalna do wszystkich wartości kostek, które będą które są dla nas dostępne w tym nowym stanie jako prime comma a prime.

10:50.170 --> 10:51.280
I to jest akcja.

10:51.280 --> 10:52.140
Więc to jest.

10:52.210 --> 10:53.500
Więc będą kolejne cztery.

10:53.500 --> 10:54.530
Wartości Q tam.

10:54.610 --> 10:56.700
Teraz, jak widzisz, przejdźmy ponownie.

10:57.040 --> 11:02.740
Tak więc, z tego, co otrzymamy, słowo to byłoby tylko przyczyną logiki i intuicji, abyśmy

11:02.740 --> 11:07.400
mogli zobaczyć, że VNS są w rzeczywistości widokiem AS, i są połączone.

11:07.400 --> 11:12.400
S jest maksimum dla wszystkich działań Kuba S i widać tutaj, więc ta część jest

11:12.400 --> 11:13.820
identyczna z tą częścią.

11:14.290 --> 11:20.740
A potem zamierzamy to wykorzystać, a my zamierzamy zastąpić ten kawałek VNS, ale nie na

11:20.740 --> 11:25.730
tej ścieżce, weźmiemy tę wewnętrzną część i zastąpimy ją zabijaniem niewinnych.

11:26.080 --> 11:32.920
Więc mamy zamiar podłączyć to tutaj, a ta część ma być q of s primime, a maksimum kostki przez

11:33.430 --> 11:36.810
Crucell Priam z Q As Prime a prime.

11:37.060 --> 11:39.790
A teraz mamy naszą formułę.

11:39.790 --> 11:46.880
Teraz mamy rekursywną formułę dla wartości q, więc teraz agent może pomyśleć, jaka jest wartość sekcji, jaka jest

11:46.890 --> 11:50.310
jakość tej sekcji, była nowa wartość tego działania.

11:50.470 --> 11:56.570
Cóż, zależy to od nagrody, którą otrzymam w następnym kroku, i zależy to

11:56.590 --> 12:02.410
od zdyskontowanego współczynnika razy maksymalnego wszystkich możliwych działań Q w tym stanie.

12:02.410 --> 12:06.760
Ale nie wiem, czy zamierzam przekonać ich stronę, aby również spojrzeli na ten stan

12:06.760 --> 12:12.770
w tym stanie i dlatego mamy tę oczekiwaną wartość tutaj, więc mamy pewne prawdopodobieństwa razy maksymalne, które są wartością

12:12.860 --> 12:13.300
oczekiwaną.

12:13.450 --> 12:18.010
Tak więc bardzo podobna formuła, którą można zobaczyć, ale tym razem wyrażamy rzeczy

12:18.490 --> 12:27.310
za pomocą wartości q, i dlatego cały ten algorytm nazywa się Kill learning, ponieważ właśnie na to patrzy się to, czego agenci faktycznie używają, nie

12:27.310 --> 12:32.020
wyglądają na stanach przyglądają się ich możliwym działaniom, a następnie w oparciu o działania

12:32.020 --> 12:35.760
na q wartości działań będą decydować, które działanie podjąć.

12:35.760 --> 12:40.330
Więc po prostu patrzą na maksymalną wartość Q w tym zadanym stanie, w którym ma cztery akcje.

12:40.330 --> 12:45.340
Jaka jest najlepsza akcja, aby porównać, porównać różne stany, które mogą się

12:45.350 --> 12:51.820
skończyć, porównać bieżące działania, które obecnie posiada, poprzez znalezienie optymalnego, który podejmie takie działanie, a

12:51.820 --> 12:56.830
następnie zaangażuje się powtórzyć ten proces powtórzyć ten proces i tak

12:56.860 --> 12:57.440
dalej.

12:57.580 --> 13:03.940
Teraz możesz zobaczyć, jak wszystko to razem, w jaki sposób nagroda dyskontuje fakty lub

13:04.360 --> 13:10.330
stochastyczne procesy decyzyjne na rynku, a wartości i wartości q łączą się, aby

13:10.690 --> 13:18.400
cueist to jedno potężne równanie Belmana dla q wartości, które możemy teraz zastosować i niech nasi agenci nauczą

13:18.400 --> 13:20.410
się, jak pokonać środowisko.

13:20.410 --> 13:23.380
To intuicyjne wyjaśnienie tego, co się dzieje.

13:23.380 --> 13:28.510
Wiem, że przeszliśmy przez formuły, ale jest to konieczne, ponieważ jest to podobne do

13:28.510 --> 13:34.730
naszej formuły, że przechodzimy przez cały ten rozdział i uważam, że jest to dobre przejście od To.

13:34.780 --> 13:43.450
Q I ilustruje, w jaki sposób istnieją powiązania między Yishunem i jeśli chcesz uzyskać nieco bardziej rygorystyczne podejście matematyczne i

13:43.450 --> 13:49.410
jak widzisz matematykę stojącą za nim i dowiedzieć się nieco więcej o wartościach

13:49.420 --> 13:51.600
q i ich działaniu.

13:51.640 --> 13:54.090
Potem mamy dla ciebie dodatkowe czytanie.

13:54.130 --> 14:02.980
Dokument ten nazywa się koncepcjami i algorytmami procesów decyzyjnych Markowa autorstwa Martín von Autor low 2009.

14:02.980 --> 14:09.610
Więc jak zwykle odcinasz link tutaj i tutaj możesz przeczytać nieco więcej szczegółów, aby zrozumieć wszystkie

14:09.820 --> 14:15.220
wartościowe wartości Hugh i tak dalej, i teraz omawialiśmy wszystkie te

14:15.220 --> 14:21.660
rzeczy związane z równaniem Belmana, teraz jesteśmy gotowi spojrzeć na coś bardziej złożonego, takiego jak

14:21.790 --> 14:27.670
ten artykuł, jeśli chcemy uzyskać dodatkowe informacje na ten temat, aby uzyskać głębsze zrozumienie.

14:27.670 --> 14:34.390
Ale nawet jeśli nie czytasz gazety lub radia, powinieneś mieć dobrą praktyczną wiedzę na temat tego,

14:34.390 --> 14:40.850
czym jest nauka i jak agenci wymyślają działania, które muszą podjąć w określonym środowisku.

14:40.870 --> 14:43.980
Mam więc nadzieję, że spodoba Ci się dzisiaj Statoil i czekam na kolejne.

14:43.990 --> 14:45.360
Do tego czasu ciesz się.

14:45.390 --> 14:45.620
JA.