WEBVTT

00:01.160 --> 00:04.720
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.740 --> 00:07.950
Dzisiaj mówimy o różnicach czasowych.

00:08.100 --> 00:14.310
Teraz bardzo ważna jest próba, ponieważ różnica czasowa jest sercem i duszą algorytmu uczenia

00:14.340 --> 00:15.100
Q.

00:15.120 --> 00:22.410
W ten sposób wszystko, czego nauczyliśmy się do tej pory, łączy się w ramach kluczowej nauki.

00:22.410 --> 00:23.880
Więc spójrzmy.

00:23.910 --> 00:28.040
Przypomnij sobie czas, kiedy rozmawialiśmy o poszukiwaniu deterministycznym i niedeterministycznym.

00:28.410 --> 00:34.960
I pamiętaj, jak powiedzieliśmy w tym przypadku, kiedy agent chce wstać, on i kiedy.

00:35.070 --> 00:38.740
W tym przypadku chce się tam dostać 10% szansy, że uda mu się obniżyć lewy tempa i

00:38.730 --> 00:41.390
szansę i pójść w prawo, a 80 procent szansa pójdzie dobrze.

00:41.400 --> 00:42.390
Idź prosto.

00:42.450 --> 00:46.410
Chociaż liczby te są oczywiście arbitralne i mogą być różne.

00:46.410 --> 00:52.260
A cała ta koncepcja może być inna i inna, więc nie musi się martwić, w

00:52.320 --> 00:57.090
którą stronę się porusza, że istnieje przypadek, coś, co nie ma wpływu

00:57.300 --> 00:59.930
na działanie agenta w tym środowisku.

01:00.060 --> 01:07.470
I jaki był efekt, jaki pamiętacie, to fakt, że w deterministycznym przykładzie bardzo łatwo było obliczyć

01:07.470 --> 01:11.030
wartości Wii, niekoniecznie jednak zawsze bardzo łatwe.

01:11.040 --> 01:16.530
Ale w naszym przypadku moglibyśmy po prostu obliczyć je za pomocą równania Belmana, a my mieliśmy dokładne

01:16.530 --> 01:17.120
wartości.

01:17.370 --> 01:24.810
A potem, jak pamiętacie, bardzo starannie wspomniałem, że te wartości dla niedeterministycznego przykładu wyszukiwania

01:24.810 --> 01:27.810
znajdują się poza moim zasięgiem.

01:27.840 --> 01:29.220
Nie jesteśmy Kalka, których znamy.

01:29.270 --> 01:33.090
Ostatnim razem powiedziałem, że nie musimy po prostu ich obliczać, ponieważ jest to bardzo skomplikowane.

01:33.090 --> 01:39.600
Ale komputer może to zrobić i po prostu podążamy za tymi wartościami, które są wartościami, które wymyśliłem.

01:39.600 --> 01:41.310
Ale dostali robotę.

01:41.310 --> 01:43.030
Pomogli nam zrozumieć tę koncepcję.

01:43.290 --> 01:47.790
Teraz wrócimy do tego trochę i zrozumiemy, co dokładnie się tutaj dzieje.

01:47.790 --> 01:55.420
Dlaczego tak trudno jest obliczyć te wartości w niedeterministycznym przykładzie lub ogólnie mówiąc w tych problemach w

01:55.420 --> 01:59.570
tych środowiskach i że agent przechodzi przez nie.

01:59.580 --> 02:00.400
Dlaczego tak jest.

02:00.510 --> 02:03.030
Dlaczego tak trudno jest obliczyć te wartości.

02:03.030 --> 02:09.010
Cóż, kiedy się nad tym zastanowić, ponieważ kiedy agent przesuwa się na

02:09.090 --> 02:15.270
przykład z tego miejsca na prawo, niekoniecznie zawsze porusza się w tym kierunku czasami

02:15.450 --> 02:22.290
jako szansa, że pójdzie wygrać, zamiast iść prosto, więc nazwijmy to północno-południowo-południowy zachód, trochę na zachód.

02:22.470 --> 02:27.360
Agent może czasem udać się na południe i na przykład od tego momentu idzie na północ.

02:27.360 --> 02:29.220
Czasami może iść na wschód.

02:29.460 --> 02:30.240
Bardzo przepraszam.

02:30.240 --> 02:34.680
A więc zamiast iść na wschód, czasami może jechać na południe i leci na północ.

02:34.710 --> 02:40.200
Czasami może jechać na wschód lub zachód, a tu zamiast jechać na północ, czasami może jechać na zachód, wschód lub zachód

02:40.200 --> 02:41.160
i tak dalej.

02:41.160 --> 02:47.010
A więc i dlatego aby obliczyć tę wartość, musielibyśmy wiedzieć, jaka jest ta wartość, ale interesujące jest to,

02:47.010 --> 02:51.110
że aby obliczyć tę wartość, trzeba wiedzieć, jaka jest ta wartość.

02:51.120 --> 02:56.790
Tak więc dzieje się tu wiele rekurencji i dlatego nie można po prostu zdecydować, jakie są

02:56.790 --> 02:57.340
wartości.

02:57.360 --> 03:01.140
Poza tym ta rekursja nie jest deterministyczna.

03:01.140 --> 03:06.000
Czasami zdarza się tak, że czasami czasami pod górę idzie się w prawo,

03:06.000 --> 03:08.250
zamiast wstać i czasami w lewo.

03:08.730 --> 03:09.540
Kiedy chce iść w górę.

03:09.540 --> 03:10.520
On pójdzie w górę.

03:10.560 --> 03:17.460
Jest więc podporządkowany przypadkowi, więc może wiele razy agent przejdzie tę ścieżkę, a on pójdzie do góry i pomyślisz,

03:17.460 --> 03:22.050
że od tego momentu zawsze podnosisz się, a wartość państwa pójdzie

03:22.050 --> 03:27.370
na całość. będzie dobrze, a potem nagle wpadnie do dołu i ta wartość spadnie.

03:27.620 --> 03:33.600
A zatem można zobaczyć, jak istnieje pewna stochastyczna przypadkowość do tego całego obliczenia tych wartości, ponieważ wszystkie

03:33.600 --> 03:35.370
one są ze sobą powiązane.

03:35.370 --> 03:40.920
Plus na górze masz tę przypadkowość w tym nieodłącznym środowisku, ponieważ istnieje

03:40.920 --> 03:42.320
ślad procesu decyzyjnego.

03:42.540 --> 03:47.790
I tu właśnie wszystko się razem pojawia i tam właśnie wprowadzimy

03:47.790 --> 03:52.370
pojęcie czasowej różnicy, która pozwoli agentowi obliczyć te wartości.

03:52.530 --> 03:55.560
I tutaj mieliśmy do czynienia z wartościami.

03:55.560 --> 03:59.390
Od tego czasu przeszliśmy już na wartości Q, więc właśnie to będziemy pracować.

03:59.400 --> 04:01.980
Będziemy patrzeć na wielkie wartości.

04:02.010 --> 04:06.090
Pamiętam, że to jest nasze równanie Belmana dla wartości q.

04:06.180 --> 04:15.090
Tak więc wartość AQ lub wartość wykonania akcji A w stanie s równa się otrzymywanej

04:15.090 --> 04:22.770
po wykonaniu tego działania nagrody zaraz po wykonaniu akcji plus otrzymujesz maksymalną

04:22.770 --> 04:26.720
wartość gamma sumy wszystkich możliwych .

04:26.910 --> 04:31.680
W ten sposób uzyskasz oczekiwaną wartość stanu, w którym skończysz.

04:31.680 --> 04:37.710
Pamiętasz, że istniała formuła równania Beldona, a teraz dla uproszczenia powiedzmy, że zamierzamy przepisać

04:37.710 --> 04:43.670
ją w staroświecki sposób i w taki sposób, jak mówiliśmy o równaniu bellmanów, zanim

04:43.680 --> 04:45.850
dowiedzieliśmy się o sekwensie.

04:45.880 --> 04:53.100
Więc pamiętaj, że było to nasze równanie Belmana w sensie deterministycznego przykładu wyszukiwania, ponieważ tutaj nie masz takiej

04:53.100 --> 04:57.600
oczekiwanej wartości, że nie masz tego samego we wszystkich prawdopodobieństwach.

04:57.750 --> 05:03.110
Po prostu masz to tak, jakby ustalono, że skończysz, jaki stan się skończy, a potem

05:03.110 --> 05:05.450
powiesz Maxowi w tym jednym stanie.

05:05.570 --> 05:12.170
Powodem, dla którego go przepisujemy, jest po prostu jedyny powód, ponieważ łatwiej jest go napisać i łatwiej

05:12.200 --> 05:14.550
będzie wpaść wraz z formułą.

05:14.550 --> 05:19.340
Pamiętajmy więc, że zastąpiliśmy tę część tego paska.

05:19.430 --> 05:25.400
A także znajdziesz ten zapis w wielu literaturach, więc łatwiej Ci będzie podążać

05:25.400 --> 05:28.310
za innymi źródłami, jeśli je studiujesz.

05:28.370 --> 05:35.390
Ale pamiętajmy, że to, co mamy na myśli, jest tym probabilistycznym podejściem zamiast tego, że notacja jest dla

05:35.500 --> 05:39.130
nas łatwiejsza w obsłudze i zrozumieniu, co się dzieje.

05:39.140 --> 05:44.180
Po prostu lubię patrzeć na równania, żeby nie były zbyt zagracone, ale po prostu pamiętajcie,

05:44.180 --> 05:48.050
że to, co mamy na myśli, to jest to podejście probabilistyczne.

05:48.290 --> 05:52.130
I tak naprawdę wiemy, że Tom Silis rzuca okiem na to, co się dzieje.

05:52.190 --> 06:00.350
Więc tutaj jest nasz pusty stan labiryntu, nie mamy żadnych q wartości, zobaczmy, albo kiedy możemy, ale po prostu zostawmy to

06:00.500 --> 06:05.510
puste na teraz popatrzmy na jeden ze stanów lub jedną z komórek.

06:05.570 --> 06:07.280
Ten konkretnie.

06:07.820 --> 06:11.240
I tutaj mamy odpowiedzi na pytanie o akcję wznoszenia się.

06:11.240 --> 06:14.290
Mamy wartość q, którą obliczamy.

06:14.290 --> 06:18.070
Więc nie chodzi o to, że nie mamy żadnych wartości q, ale mamy to, co robimy.

06:18.080 --> 06:19.930
Ale po prostu niczego nie ilustrujemy.

06:19.930 --> 06:22.520
Po prostu trzymamy puste miejsce ze względu na prostotę.

06:22.610 --> 06:28.570
Ale my mamy epokę chodzącą od jakiegoś czasu i powiedzmy hipotetycznie,

06:28.580 --> 06:36.560
jakoś on obliczył wartość sześcianu wzrastania lub Norf z tego stanu z tej konkretnej komórki i wartości.

06:36.560 --> 06:40.240
Q S i A, a więc teraz, co mamy.

06:40.240 --> 06:45.070
Tak więc jest on obecnie z niebieską strzałką, a agent siedzi w tej celi.

06:45.590 --> 06:48.560
A teraz musi dokonać wyboru gdzie on pójdzie.

06:48.590 --> 06:57.290
I on zna wartość tej akcji idącej na północ i to jest q Senay i tutaj mówię wcześniej, a powodem tego jest

06:57.290 --> 07:01.940
to, że on jest zanim on bierze Właściwie to nie podjął

07:01.940 --> 07:10.760
jeszcze akcji, więc wciąż jest w celi i zanim podjął akcję, wartość tutaj to q i SNH, a teraz on faktycznie wykonuje

07:10.760 --> 07:11.370
akcję.

07:11.390 --> 07:13.670
Powiedzmy, że decyduje, że jest najlepszy.

07:13.670 --> 07:16.440
Bierze akcję i podchodzi do celi.

07:16.730 --> 07:24.320
Teraz to, co się dzieje, jest teraz po tym, jak po podjęciu działania możemy zmierzyć, jaka jest ta

07:24.350 --> 07:30.650
wartość, po prostu obliczyć tę wartość, wartość nagrody za podjęcie tego działania plus gamma razy

07:30.650 --> 07:35.640
maksimum tego nowego stanu, w którym właśnie dostał się jako główny.

07:35.640 --> 07:39.030
A więc maksimum we wszystkich możliwych działaniach i aspirynie.

07:39.080 --> 07:44.770
Tak więc mamy tutaj wartość sprzed tego działania.

07:44.810 --> 07:47.650
Następnie obliczamy ten wskaźnik.

07:47.660 --> 07:54.860
Ale jak pamiętacie z poprzednich czterech miesięcy, jeśli wrócimy bardzo szybko z poprzedniej formuły, którą właśnie obliczyliśmy, to

07:55.630 --> 08:02.180
rzeczywiście jest to wartość Q. za. a jest obliczane.

08:02.210 --> 08:07.930
A więc ta część Arite została obliczona osobno, ale po podjęciu działania.

08:08.330 --> 08:15.470
Tak jak przedtem, zanim poznaliśmy Q S i wartość, którą obliczyliśmy w naszych iteracjach, Preuss

08:15.470 --> 08:16.860
jest czymś.

08:17.000 --> 08:19.990
Tak więc wartość, która jest przechowywana w naszej pamięci.

08:20.000 --> 08:26.990
Tak jak numer, który znamy, a teraz po przeprowadzeniu akcji, wiemy, jaką nagrodę

08:27.050 --> 08:30.270
otrzymał, jaką nagrodę otrzymał agent.

08:30.440 --> 08:33.320
I możemy obliczyć tę nową wartość.

08:33.320 --> 08:39.690
Zasadniczo przeliczamy tę wartość, ale teraz z nowymi informacjami nowe informacje są nagrodą,

08:39.690 --> 08:41.120
którą otrzymaliśmy.

08:41.600 --> 08:47.330
A także co pozostało nam się udało i jakie jest maksymalne w całym tym stanie, jaka

08:47.420 --> 08:50.540
jest ta nowa wartość dla tych konkretnych danych.

08:50.570 --> 08:54.480
Jaka jest wartość tej istoty w tym stanie.

08:54.500 --> 09:02.060
Tak więc w zasadzie Cure Vanessa-Mae, ale dano nowe informacje, a teraz różnica czasowa jest zdefiniowana jako

09:02.150 --> 09:07.700
sprytna jedna i druga z tych dwóch różnic między tymi dwoma.

09:07.700 --> 09:11.770
Więc tutaj pierwszym elementem jest twoja wartość poza terra.

09:11.780 --> 09:16.250
Więc trochę jak Q Esson trochę później obliczone.

09:16.550 --> 09:21.880
I poprzednie quvenzhané A, które zapisałeś w swojej pamięci.

09:22.070 --> 09:24.170
Pytanie brzmi, czy oni są inni.

09:24.290 --> 09:26.240
Więc najlepiej powinny być takie same.

09:26.240 --> 09:31.750
Idealnie powinno to być to samo, ponieważ jest to wzór do obliczenia tego.

09:31.790 --> 09:38.060
Ale chodzi o to, że nie jest to coś, co my, Kalka, mamy z empirycznych dowodów, że

09:38.060 --> 09:41.320
przechodzimy od samego labiryntu wiele razy i obliczamy.

09:41.320 --> 09:44.330
To jest coś, do czego do tej pory doszliśmy.

09:44.360 --> 09:46.820
Nie jest związany z bieżącą iteracją.

09:46.820 --> 09:52.070
Jest to coś, co wymyśliliśmy dawno temu, ale w jednej z naszych poprzednich iteracji przechodzących

09:52.070 --> 09:53.180
przez labirynt.

09:53.510 --> 09:57.740
Chociaż to jest coś, co obliczyliśmy właśnie teraz i nie ma żadnej

09:57.740 --> 10:04.720
gwarancji, że będą one takie same lub z powodu przypadkowości, która istnieje w labiryncie, ponieważ można to było obliczyć i

10:04.750 --> 10:10.260
zobaczył, że niektóre zdarzenia losowe CRN zostały wywołane, a to można wywoływać różne zdarzenia losowe, które

10:10.300 --> 10:11.290
zostały wywołane.

10:11.740 --> 10:15.680
I tak teraz zapisujemy naszych bohaterów, po prostu przenieśmy to tam.

10:15.700 --> 10:16.900
Więc jak tego używamy.

10:16.900 --> 10:20.470
Pytanie jest w porządku, więc mamy tę czasową różnicę.

10:20.470 --> 10:21.340
Jak tego używamy.

10:21.400 --> 10:23.450
I dlaczego nazywa się to różnicą temporalną.

10:23.590 --> 10:28.960
Powód jest nazywany różnicą czasową, ponieważ zasadniczo obliczasz to samo, co obliczasz

10:28.990 --> 10:33.460
Q S i A, więc wartość Q tej akcji.

10:33.640 --> 10:36.140
Twój Calcott tutaj i wyliczacie to tutaj.

10:36.340 --> 10:38.310
Ale różnica to czas.

10:38.320 --> 10:44.140
To jest Q S, a poprzednio to yo Q S i A.

10:44.140 --> 10:49.090
Teraz twoje nowe lekarstwo jest wrodzone, a pytanie brzmi, czy zaistniała różnica.

10:49.090 --> 10:51.700
Czy nastąpiło przesunięcie między nimi w czasie.

10:52.060 --> 10:56.830
I jak możemy wykorzystać to na naszą korzyść, jeśli rzeczywiście nastąpiła zmiana w czasie.

10:57.040 --> 11:02.790
Jedną rzeczą, którą moglibyśmy zrobić, to powiedzieć, że dobrze znacie nasze Q of s. za. a nie.

11:02.830 --> 11:07.490
Ta nowa wartość nie jest równa starości, więc pozbędziemy się starych lub zapomnimy o starym, a

11:07.510 --> 11:09.610
użyjemy tego, to wszystko nowa wartość.

11:09.970 --> 11:11.920
Ale to nie byłoby mądre.

11:11.950 --> 11:17.960
Powodem tego jest fakt, że czasami w naszych środowiskach zdarzają się przypadkowe zdarzenia.

11:18.140 --> 11:25.500
A co jeśli nasze stare QSA s. za. to było coś, co konsekwentnie dzieje się w 80 procentach czasu.

11:25.780 --> 11:28.750
A potem podobało się to, co dzieje się w 80 procentach czasu.

11:28.750 --> 11:33.280
A potem to nowe, co stało się z powodu przypadkowości.

11:33.280 --> 11:39.610
W takim przypadku wyrzucimy tę, która jest odpowiedzialna za większość sytuacji i zastąpimy ją czymś,

11:39.760 --> 11:43.900
co dzieje się tylko 10 lub 20 procent czasu.

11:43.900 --> 11:50.650
To nie byłoby najlepsze podejście i właśnie dlatego właśnie nie chcemy całkowicie zmienić

11:50.650 --> 11:51.990
wartości Opu.

11:52.060 --> 11:56.890
Chcemy ich użyć, jak krok po kroku trochę je zmienić.

11:56.890 --> 12:01.980
I dlatego zamierzamy użyć tej doczesnej różnicy w określony sposób, więc powiemy, że oto

12:02.020 --> 12:05.080
formuła, którą zamierzamy wziąć za wskazówkę SNH.

12:05.560 --> 12:07.120
I zamierzamy to zaktualizować w taki sposób.

12:07.120 --> 12:12.450
Weźmiemy starą wartość leku Senay i dodamy pięć razy różnicę

12:12.460 --> 12:13.380
czasową.

12:13.420 --> 12:15.730
A więc Alpha będzie się dobrze uczyć.

12:15.730 --> 12:17.410
To jest nowy parametr, który wprowadzamy.

12:17.410 --> 12:20.070
Tak szybko uczy się algorytm.

12:20.080 --> 12:26.390
Zasadniczo przyjmujemy tę różnicę i cokolwiek to jest, dodajemy ją do naszego poprzedniego węża

12:26.480 --> 12:27.210
KJo.

12:27.220 --> 12:31.970
Teraz ta formuła prawdopodobnie nie ma żadnego sensu lub podoba się po prostu patrząc na nią nie ma sensu, ponieważ

12:31.970 --> 12:34.040
masz tutaj Covisinta i dajesz nam A tutaj.

12:34.060 --> 12:39.460
To jest to samo, więc prawdopodobnie powinniśmy negować się nawzajem, ale musieliśmy przerobić to na nieco inny

12:39.460 --> 12:40.090
sposób.

12:40.390 --> 12:44.080
Więc zamierzam wam jeszcze raz pokazać, więc dodaję czas na te formuły.

12:44.090 --> 12:48.070
Więc tutaj jest q t minus jeden z poprzednich lat.

12:48.070 --> 12:49.780
Q T minus 1 w poprzednich latach.

12:49.780 --> 12:56.080
Q T New to powinno być również koło tutaj w kółku, ale nieważne i tutaj dostaniesz alfa czasową

12:56.080 --> 12:56.750
różnicę.

12:56.810 --> 12:58.750
Wtedy bieżąca różnica czasowa.

12:58.750 --> 13:01.190
Więc możesz zobaczyć, co robimy, mówimy.

13:01.220 --> 13:04.200
OK, weźmy nasz prąd.

13:04.240 --> 13:10.880
Q będzie równe wszystkim poprzednim Q plus wszelka różnica czasowa, jaką znaleźliśmy Times Alfa.

13:11.150 --> 13:16.330
Ta formuła jest tutaj sercem i duszą algorytmu uczenia sześcianu.

13:16.330 --> 13:18.250
W ten sposób moduł jest lub aktualizacji.

13:18.280 --> 13:24.460
I dobrze, że już nauczyliśmy się, jakie wartości q są tym, czym jest gamma i czym jest

13:24.460 --> 13:25.300
to wszystko.

13:25.420 --> 13:31.740
A teraz wszystko, co musimy zobaczyć, to to, że masz poprzednią wartość Q Tak, to dobrze.

13:31.990 --> 13:37.870
I wtedy może się zdarzyć, że kiedy podejmiesz działanie, gdy podejmiesz działanie, gdy agent podejmie

13:37.870 --> 13:42.530
działanie, będziesz wiedział, że dostanie nagrodę i skończy się w stanie.

13:42.610 --> 13:46.400
Opierając się na tym, może obliczyć Aha.

13:46.420 --> 13:53.220
OK, więc co jest, co miałoby być wartością Q tego ruchu, który zrobiłem.

13:53.530 --> 13:56.390
A teraz to jest ta część równania.

13:56.470 --> 14:02.870
Odejmij dawną wartość Q, a otrzymasz różnicę czasową, a teraz musisz wziąć różnicę próbki w

14:02.920 --> 14:05.410
Alpher i tak dostaniesz regulację.

14:05.430 --> 14:06.370
Q Masz to, co masz na myśli.

14:06.370 --> 14:10.240
Po prostu myślę, że przechodzisz przez to i teraz, żeby to zakończyć.

14:10.240 --> 14:14.890
Takie podejście wystarczy, aby zrozumieć, co się dzieje, ale po prostu wyjaśnić

14:14.890 --> 14:18.370
sytuację jeszcze bardziej, a może nawet wprowadzić zamieszanie.

14:18.460 --> 14:23.320
Co musimy zrobić, aby wziąć tę czasową różnicę lub tę prostą różnicę, lub tutaj, aby podłączyć ją

14:23.320 --> 14:24.180
do tego formatu.

14:24.190 --> 14:29.840
Więc weźmiemy całą tę część i podłączymy ją do tej formuły i skończymy z ogromnym równaniem.

14:29.920 --> 14:31.490
Więc zaczynamy.

14:31.660 --> 14:32.590
Oto nasze równanie.

14:32.590 --> 14:38.470
Więc to jest pełne równanie z różnicą czasową wypisaną całkowicie.

14:38.560 --> 14:43.690
I powód, dla którego go napisałem, przede wszystkim prawdopodobnie znajdziesz to w innej

14:43.690 --> 14:45.560
literaturze, jeśli ją przestudiujesz.

14:45.730 --> 14:50.810
Drugą rzeczą jest to, że sprawia, że niektóre rzeczy są nieco bardziej złożone i mają formuły dłuższe, ale także sprawiają,

14:50.810 --> 14:52.300
że coś jest bardziej klarowne.

14:52.300 --> 14:55.940
Na przykład widać tutaj rolę, jaką odgrywa Alpha.

14:55.960 --> 14:58.310
Możesz to zobaczyć lepiej, ponieważ spójrz na to.

14:58.320 --> 14:58.860
Tutaj.

14:58.900 --> 15:01.410
Q T minus jeden i gotowe.

15:01.420 --> 15:03.760
Q T minus jeden ze znakiem ujemnym.

15:03.760 --> 15:12.170
Więc jeśli podłączysz Alpha równa się 1, jeśli umieścisz tutaj 1, to to neguje.

15:12.190 --> 15:16.170
Więc zniszczą się nawzajem i wszystko, co pozostało, to ta część.

15:16.480 --> 15:23.080
A to oznacza dokładnie taką sytuację, w której powiedzieliśmy Wszystko w porządku, więc masz nową wartość,

15:23.140 --> 15:24.750
którą powinna być.

15:24.850 --> 15:29.570
Zaktualizujmy naszą wartość Q o nową wartość i zapomnij o tym, co mieliśmy wcześniej.

15:29.710 --> 15:35.470
A jak już mówiliśmy, nie jest to najlepsze podejście, ponieważ zdarzają się przypadkowe zdarzenia i chcemy aktualizować rzeczy

15:35.470 --> 15:36.820
krok po kroku.

15:37.530 --> 15:43.590
Z drugiej strony, jeśli powiesz, że Alpher jest równy zeru, to znaczy, że całkowicie zapominasz

15:43.590 --> 15:48.960
o całej tej części i jesteś słodka, nowa lub aktualna będzie zawsze równa poprzedniej,

15:48.960 --> 15:51.720
więc jesteś niczego się nie nauczysz.

15:51.720 --> 15:56.730
A to oznacza, że wszystko, co dzieje się w labiryncie, nie ma znaczenia, ponieważ już dawno temu zdecydowałeś się

15:56.730 --> 15:58.940
na wartości Kuchi i po prostu ją zatrzymasz.

15:59.230 --> 16:03.200
Dlatego Alfas nie powinien być 0 lub powinien być tym, który powinien znajdować się gdzieś pośrodku.

16:03.240 --> 16:09.330
I pozwoli ci powoli uczyć się krok po kroku i pozwoli ci, jako że twój lub

16:09.360 --> 16:12.720
agent, przechodząc przez labirynt, dostrzeże różnicę w czasie.

16:12.960 --> 16:19.530
I powoli, ale na pewno ta wartość zostanie zaktualizowana i zaktualizowana ibed, a co

16:19.680 --> 16:25.440
się stanie w końcu, że w pewnym momencie zbiegnie się algorytm.

16:25.710 --> 16:30.960
A to oznacza, że ta różnica czasowa zacznie zbliżać się do zera i

16:30.960 --> 16:37.860
ostatecznie będzie bardzo bliska zeru lub nawet 0 0 0 0, a to oznacza, że za każdym

16:37.860 --> 16:43.050
razem, gdy twoja nowa wartość cutesie lub twoja nowa obliczona wartość.

16:43.350 --> 16:44.430
Co powinno być.

16:44.440 --> 16:49.950
Więc to nie to, ale to, co hipotetycznie powinno wystarczyć, by zrobić krok, będzie równoznaczne z twoją

16:49.950 --> 16:51.030
poprzednią wartością Q2.

16:51.030 --> 16:55.650
A następnie jeden, który oznacza zero, a to oznacza, że gdy różnica

16:56.070 --> 17:02.720
temperatur wynosi zero, oznacza to, że algorytm się zjednoczył i nie jest konieczne dalsze aktualizowanie tego, co się dzieje.

17:02.720 --> 17:06.270
Wykonuje to wyszukiwanie, aby kontynuować aktualizowanie wartości kostki.

17:06.270 --> 17:12.780
Ograniczeniem jest to, że jedyny raz prawdopodobnie jeden z jedynych momentów, w których nadal chciałbyś

17:12.810 --> 17:19.140
kontynuować wykonywanie tej całości, wiesz, aktualizowanie wartości kolejki, jeśli środowisko stale się zmienia.

17:19.170 --> 17:23.100
Jeśli nie tylko jej nie ma, to po prostu ma jakieś randki z wydarzeniami Kostica.

17:23.220 --> 17:28.750
Ale samo środowisko modyfikuje się, ponieważ zmienia się wraz z upływem czasu.

17:29.040 --> 17:34.260
Ciągle więc musisz się uczyć, ponieważ nie jest możliwe, abyś nauczył się wszystkiego i wymyślił

17:34.260 --> 17:39.210
optymalną politykę, ponieważ optymalne zasady również zmieniały się w środowisku przez cały czas.

17:39.240 --> 17:44.730
W takim przypadku będziesz musiał kontynuować CALKIN i różnicę czasową oraz wyliczyć wartości Q.

17:44.730 --> 17:46.830
Ale poza tym to trochę jak dodatkowa komplikacja.

17:46.830 --> 17:53.370
Poza tym jest to sposób aktualizacji wartości Q, więc jest to główna formuła algorytmu uczenia Q i

17:54.090 --> 17:59.490
jest to trochę jak rozszerzona wersja tego, a teraz wszystko powinno się połączyć i

17:59.490 --> 18:05.250
mieć sens, dlaczego mamy równanie Belmana, a nie tylko to, co reprezentuje gadulstwo, ale także

18:05.250 --> 18:12.870
sposób, w jaki agent dąży do aktualizowania swoich wartości i znajdowania dokładnie tego, co dzieje się w tym środowisku, aby

18:12.870 --> 18:14.620
mógł wymyślić optymalną politykę.

18:14.640 --> 18:21.570
Więc wiem, że bardzo dużo do przyjęcia, ale mam nadzieję, że spodobał Ci się ten samouczek

18:21.570 --> 18:28.680
i mam nadzieję, że zdołasz odjąć podstawowe koncepcje i intuicję kryjącą się za twoimi wartościami i jakie jest

18:28.680 --> 18:36.990
znaczenie pojęcia czasowej różnicy i dlaczego jest ważne, dlaczego pomaga nam to w powolnym treningu agentów i zachęcić ich do

18:37.050 --> 18:39.230
zrozumienia otoczenia, w którym działają.

18:39.270 --> 18:45.540
A jeśli chcesz dowiedzieć się nieco więcej o różnicach czasowych, to bardzo

18:45.540 --> 18:52.470
popularna gazeta uczy się przewidywać metodami różnic czasowych Richarda Suttona z lat osiemdziesiątych osiemdziesiątych.

18:52.620 --> 18:57.060
Mieliśmy już referencje od Richarda Suttona, ale to jest tak samo

18:57.060 --> 19:04.620
jak inne, a właściwie ma książkę, więc jeśli zrozumiesz jego styl pisania i styl komunikacji, to sprawdź także

19:04.620 --> 19:05.660
jego książkę.

19:05.810 --> 19:08.630
Jest to coś w rodzaju bardziej rozbudowanej wersji wszystkich tych rzeczy.

19:08.640 --> 19:12.820
Nie czytałem książki, ale to właśnie wyobrażam sobie w tym samym czasie.

19:12.960 --> 19:19.530
To będzie dodać do tego artykułu i możesz dowiedzieć się trochę więcej o lub prawdopodobnie dużo więcej

19:19.530 --> 19:21.050
o różnicach czasowych.

19:21.300 --> 19:22.950
I mam nadzieję, że ci się też podobało.

19:23.060 --> 19:24.270
Do zobaczenia następnym razem.

19:24.270 --> 19:26.250
Do tego czasu ciesz się AI.