WEBVTT

00:00.730 --> 00:03.690
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:03.730 --> 00:07.440
W dzisiejszej historii mówimy o finale a w 3C.

00:07.450 --> 00:09.400
Mówimy o przewadze.

00:09.550 --> 00:10.340
Więc tak jest.

00:10.360 --> 00:14.040
Już wcześniej mówiliśmy o krytyku aktorskim i synchronicznym.

00:14.260 --> 00:20.500
W ten sposób zbudował drogę do tego, na co dziś patrzymy iz przewagą, którą

00:20.500 --> 00:21.560
zamierzamy połączyć.

00:21.730 --> 00:28.750
Tak więc do tej pory mamy sieć neuronową, która jest dzielona między agentami agentów asynchronicznych, a następnie

00:28.840 --> 00:33.550
mamy krytyka, który jest również dzielony między wiekiem i tak.

00:33.580 --> 00:36.490
Jak to wszystko się dzieje i dlaczego ten krytyk dzieli się między agentami.

00:36.500 --> 00:37.390
Rzućmy okiem na to.

00:37.600 --> 00:42.250
Dobrze rozumiemy, lepiej przyjrzymy się przykładowi, na który zamierzamy spojrzeć na przykład na tego agenta i zobaczyć,

00:42.280 --> 00:46.730
co się dzieje, gdy jest w określonym stanie i musi podjąć decyzję, jakie działania należy podjąć.

00:46.840 --> 00:53.890
Więc ten agent znajduje się w stanie, w którym widzi ten obraz, a następnie, co dzieje się, ta informacja

00:53.980 --> 00:59.200
trafia do sieci neuronowej, która trafia do legowiska splotowego, następnie trafia do legowiska gromadzącego,

00:59.200 --> 01:04.330
następnie trafia do spłaszczającego się legowiska, a stamtąd przechodzi do ukryte warstwy

01:04.330 --> 01:09.870
sieci neuronowej, a następnie jako wynik uzyskuje wszystkie te wartości polityki, które są wartościami.

01:09.970 --> 01:14.160
A także dostaje wartość krytyka.

01:14.230 --> 01:21.640
Ponieważ wiemy, że sieci neuronowe muszą działać, muszą propagować pewne błędy lub straty przez

01:21.640 --> 01:22.720
sieć.

01:22.720 --> 01:29.520
Tak więc, aby zaktualizować wagę, więc co czeka, a więc jakie straty będziemy tu rozwiązywać.

01:29.590 --> 01:30.540
Cóż, mamy dwie straty.

01:30.540 --> 01:32.970
Mamy utratę wartości i postals.

01:32.980 --> 01:38.360
Strata wartości powiązana z wartościową stratą częściową jest powiązana z pulami i jest tak cenna.

01:38.400 --> 01:41.080
Już wcześniej zajmowaliśmy się tym.

01:41.260 --> 01:48.850
Wiemy, że mamy nagrody i wiemy, że mamy czynnik rabatowy, więc w zasadzie jest to bardzo podobne

01:48.850 --> 01:54.690
do tego, o czym mówiliśmy podczas konwersji w samouczkach do głębokiego uczenia się.

01:54.730 --> 02:03.190
Zasadniczo sieć prognozuje pewną wartość V i jednocześnie możemy oszacować, co powinno być oparte na tym, co wiemy o środowisku, do

02:03.190 --> 02:09.160
tej pory możemy oszacować, jaka powinna być wartość w stanie i porównując te dwie wartości,

02:09.190 --> 02:13.730
możemy obliczyć wartość strata, a następnie sieć propagatorów wstecz aktualizują wagę.

02:13.870 --> 02:17.670
A więc to jest ostrze dla nowej rzeczy tutaj jest utrata polisy.

02:17.770 --> 02:21.700
A więc, co to jest utrata polityki i jak działa.

02:21.700 --> 02:28.960
Cóż, to jest ta część, w której ostatecznie ujawni się cała ta sytuacja, w której krytyk

02:28.960 --> 02:32.520
jest dzielony między aktorów lub między agentów.

02:32.590 --> 02:38.920
Aby zrozumieć stratę palsu, musimy wprowadzić wartość o nazwie Advantage, stąd nazwa tej części

02:39.340 --> 02:45.460
historii na całej tej części Salyuta przewagę i przewagę oblicza się jako Q

02:45.480 --> 02:47.900
jako A minus V s.

02:47.920 --> 02:54.550
Tak więc, w zasadzie, wartość Q lub wybrana do odtworzenia wszystkich akcji, które wybrałeś grać w stanie, w którym

02:54.550 --> 02:57.420
jesteś w stanie S minus wartość tego stanu.

02:57.640 --> 03:00.670
Taka jest różnica między tymi dwoma i to się nazywa.

03:00.670 --> 03:04.950
A korzyść jest wykorzystywana przy obliczaniu pulsu.

03:04.990 --> 03:10.510
Teraz nie weźmiemy pod uwagę formuły obliczeń beztapowych, ponieważ jest ona dość złożona, ponieważ używa entropii

03:10.710 --> 03:12.860
lub można użyć entropii nie musi.

03:12.990 --> 03:17.020
Nie będziemy analizować tej formuły, ale zamierzamy to zrozumieć na intuicyjnym poziomie.

03:17.020 --> 03:21.470
Dlaczego to robimy, dlaczego obliczamy tę przewagę i w jaki sposób nam to pomoże.

03:21.640 --> 03:24.190
Cóż, spójrzmy na to założenie na chwilę.

03:24.190 --> 03:33.040
Wartość Q pochodzi tutaj z tego, co sieć neuronowa przewidziała dla tego agenta i dlatego jest przewidywalna w tej konkretnej akcji

03:33.040 --> 03:37.840
w tym konkretnym stanie dla akcji, którą może grać, więc ma

03:38.110 --> 03:45.790
te akcje i może przesuwać jedną z nich i może ją odtwarzać cóż, wartość Wii jest wartością dyktowaną przez

03:45.790 --> 03:46.480
krytyka.

03:46.480 --> 03:52.320
Jest to wartość, którą mamy tutaj w tej wspólnej części, i klucz do tego, że ta część jest

03:52.330 --> 03:56.310
dzielona, więc krytyk ulega zerwaniu, ponieważ w ten sposób wchodzi kredyt.

03:56.470 --> 04:01.300
Ponieważ mamy wybraną przez nas wartość lub akcję, którą wybierzemy dla tego agenta w tym

04:01.300 --> 04:01.930
stanie.

04:01.990 --> 04:09.340
Ale wtedy krytyk może nam powiedzieć, jaka jest znana wartość tego stanu, co jest ogólnie znaną wartością dla całej grupy

04:09.340 --> 04:15.790
agentów, którzy występują razem, ponieważ ich dzielenie się nie odpowiada, ponieważ początkowe B, ponieważ dzielą krytykę wszyscy

04:15.820 --> 04:21.280
oni przyczyniają się do tego do tych wartości v, które są obliczane dla innego

04:21.280 --> 04:25.690
zestawu, a więc całego a. z algorytmem mówi OK.

04:25.690 --> 04:34.060
Tak więc krytyk zna wartość v, o ile lepsza jest twoja wartość q, którą wybierasz w porównaniu do znanej

04:34.060 --> 04:35.290
wartości v.

04:35.350 --> 04:36.480
Tak to mówi.

04:36.640 --> 04:37.930
Więc to w zasadzie to.

04:37.930 --> 04:45.430
Tak więc wybieram tutaj wartość q opartą na mojej mojej polityce opartej na tym, czy cokolwiek używamy jak funkcję

04:45.700 --> 04:50.150
maksimum miękkiego, czy na zasadzie Epsilon Grealy lub coś podobnego.

04:50.170 --> 04:55.660
I oczywiście będziemy tam razem eksplorować plus eksploatację, ale wybraliśmy wartość Q, a

04:55.660 --> 04:59.260
teraz pytanie brzmi: co to jest dodatek.

04:59.290 --> 05:05.820
Co to zbeształo, co jest zaletą, jaką daje ci wybrane działanie w porównaniu ze znaną wartością tego

05:05.820 --> 05:12.480
stanu i która jest istotą przewagi, a w zasadzie to, co jest używane do obliczenia utraty polityki,

05:12.480 --> 05:17.940
a następnie utrata polityki jest następnie propagowana z powrotem przez powrót do sieci.

05:17.940 --> 05:23.910
Oboje są więc z powrotem propagowani przez sieć, a wagi są korygowane, aby sieć

05:23.910 --> 05:28.280
lepiej reprezentowała wartość krytyka, a więc jest to najważniejsza część.

05:28.410 --> 05:33.030
Ale to także część klucza tutaj jest to, że wartość wag to bakra.

05:33.120 --> 05:40.530
Kiedy to biuro pocztowe z powrotem zapomni, że stawki są dostosowane w taki sposób, aby ta

05:40.590 --> 05:46.200
przewaga została zmaksymalizowana, tak jak to jest intuicyjna strona intuicyjnego zrozumienia

05:46.350 --> 05:52.010
tego, że wracamy do tej zasady przez sieć w celu maksymalizacji ta zaleta.

05:52.050 --> 05:57.660
Oznacza to, że gdy agent napotka złe działania, takie jak akcje, w których wartości

05:57.660 --> 06:00.930
q są mniejsze od znanej wartości dla stanu.

06:00.930 --> 06:07.110
Więc zasadniczo cały algorytm ATC wie, że wartość dla stanu jest czymś X, a potem nagle natknąłeś się

06:07.110 --> 06:11.690
na bardzo złą akcję, a ty i zrobiłeś to, co wybrałeś w akcji.

06:11.700 --> 06:17.130
A co to oznacza dla entuzjazmu, to dobrze, dlaczego mielibyśmy robić coś takiego, gdy jest gorzej,

06:17.130 --> 06:21.960
niż to, co już wiemy o tym całym środowisku i co mogliśmy zrobić.

06:22.080 --> 06:23.500
Więc nie powinniśmy robić tego więcej.

06:23.610 --> 06:27.670
I dlatego ciężary są po prostu w pewnym sensie, więc zdarza się to rzadko.

06:27.690 --> 06:29.900
A więc dzieje się to mniej rzadko.

06:30.300 --> 06:33.430
To rzadsze zdarzenie, które wybieramy jako złe działanie.

06:33.510 --> 06:38.880
Z drugiej strony, jeśli wybierzesz bardzo dobrą akcję, w której q wartość jest większa niż V

06:39.050 --> 06:43.220
lub znacznie większa, to gdzie podczas tego zacofania polskiej straty przez sieć

06:43.230 --> 06:50.780
wagi będą uaktualniane iw taki sposób, aby naprawdę wzmocnić to do Zachęcam do upewnienia się, że to się powtórzy, aby wagi zostały dostosowane

06:50.790 --> 06:55.140
w taki sposób, aby algorytm atrezji pomyślał, że to naprawdę fajne, że Wantage

06:55.140 --> 06:56.790
było tam bardzo wysokie.

06:56.880 --> 07:03.750
Powinienem zrobić więcej tego i dlatego będziesz aktualizował wagi w taki sposób, który będzie bardziej prawdopodobny w

07:03.750 --> 07:05.550
przyszłości w tym działaniu.

07:05.560 --> 07:13.080
Tak więc, to znaczy, że wiecie, że sieć powoli powoli dostosowuje się i powoli ma zamiar skonstruować się

07:13.080 --> 07:19.770
w coś, co z jednej strony oblicza wartość poprawnie, a następnie z drugiej strony lub tak

07:19.770 --> 07:21.990
poprawne, jak to możliwe.

07:21.990 --> 07:28.330
Z drugiej strony zachęca lub ma działania, które mają dużą przewagę.

07:28.380 --> 07:30.570
Więc idziemy, to jest ta część.

07:30.570 --> 07:35.930
A teraz spójrzmy na inny, aby wzmocnić to, co właśnie omówiliśmy na pierwszym miejscu.

07:36.000 --> 07:37.210
To samo tutaj.

07:37.350 --> 07:45.330
Najważniejsze agencje to sytuacja, w której państwo jest w stanie, a następnie musi zdecydować, co zrobić, ponieważ ta informacja

07:45.330 --> 07:50.100
do sieci tego obrazu korzysta z Internetu, który odradza się do

07:50.100 --> 07:56.290
splotu, ściągają spłaszczoną Lehre do ukrytych warstw, a stąd otrzymujemy wynik, otrzymujemy ostre wartości polityki,

07:56.310 --> 08:00.960
otrzymujemy wartości V ponownie to samo, co mamy dwie straty.

08:00.960 --> 08:05.240
Mamy stratę wartości, którą jest tutaj polska strata, czyli strata wartości.

08:05.250 --> 08:06.830
Już wiemy, jak jest obliczane.

08:06.960 --> 08:10.950
Kiedy rozmawialiśmy o tym w głębokim Q uczeniu się i właśnie dyskutowaliśmy właśnie teraz.

08:10.950 --> 08:17.340
Tak więc obliczono wartość, a następnie ponownie polisę, aby obliczyć to, czego nie zamierzamy dla

08:17.340 --> 08:18.370
niego zrobić.

08:18.390 --> 08:25.530
Ale na poziomie intuicyjnym obliczamy tę przewagę, która jest w porządku, więc podjęliśmy pewną akcję, którą wybraliśmy w

08:25.530 --> 08:31.140
oparciu o naszą politykę selekcji, czy jest to miękki Max, czy też sprzedajemy chciwość

08:31.170 --> 08:34.470
lub jakąkolwiek inną politykę społeczną, której używamy.

08:34.620 --> 08:42.630
A więc jaka była akcja, którą teraz zrobiliśmy Porównajmy ją ze znaną i wartością stanu, która pochodzi od wspólnych krytyków, więc ten

08:42.630 --> 08:47.670
krytyk jest trochę podobny, jeśli myślisz o tym, że obserwujesz wszystkie te

08:47.670 --> 08:52.950
czynniki w tym samym czasie, kiedy patrzysz w tym jednym spojrzeniu na ten jeden wszyscy

08:52.950 --> 08:58.140
przyczyniają się do krytyki, aby krytycy bardziej przyspieszyli z otoczeniem, aby upewnić się, że

08:58.380 --> 09:03.600
krytyk jest reprezentatywny dla tego, co dzieje się w rzeczywistym środowisku, tak aby wagi.

09:03.660 --> 09:10.170
W tym miejscu dochodzi do utraty wartości, tak aby masy rzeczywistej sieci neuronowej

09:10.260 --> 09:17.700
odzwierciedlały bardzo dobrze aktualną sytuację rzeczy w środowisku, aby mogły następnie polegać na tej wartości, a

09:17.700 --> 09:20.090
następnie wykorzystać ją tutaj.

09:20.090 --> 09:21.550
I tak w zasadzie.

09:21.720 --> 09:26.880
Tak więc wszyscy z tych agentów przyczyniają się do tego krytyka.

09:26.880 --> 09:32.850
Ale jednocześnie poprzez tę bezwartościowość, ale jednocześnie krytyk obserwuje decyzje

09:32.850 --> 09:35.490
lub politykę tych agencji.

09:35.490 --> 09:39.960
To tak, jakby to było jak przeglądanie tego, co próbuję narysować jak strzała do biegunów

09:39.960 --> 09:40.740
i strzały.

09:40.830 --> 09:45.780
Patrząc na nich z góry na decyzję, którą podejmują, krytykujecie te decyzje w ten

09:45.780 --> 09:50.210
sposób i mówicie, że OK podjęliście decyzję, że wybraliście tę akcję.

09:50.220 --> 09:51.240
To wspaniale.

09:51.240 --> 09:56.570
Teraz obliczyć przewagę lub wadę rancha jest równa, wiesz, że wartość

09:56.590 --> 10:04.040
Q może podjął decyzję, którą podjąłem, lub wybór, który podjąłem, że zdecydowałem się wziąć minus znaną wartość

10:04.100 --> 10:05.100
do krytyka.

10:05.110 --> 10:06.470
Nie o krytyku.

10:06.470 --> 10:12.010
Tak więc Kalika różnica, jeśli jest to niska różnica, którą jesteś Polakiem, to wtedy, kiedy polerujesz swoje

10:12.020 --> 10:16.580
straty, propagowane przez sieć w sposób, w jaki zostanie to skorygowane, zachęci wagę do

10:16.580 --> 10:22.010
dostosowania w taki sposób, aby to się nie stało. ponownie, że ta wartość Q lub ta

10:22.010 --> 10:28.910
wartość Q będzie niższa, dlatego, że nasza polityka wybiera akcje oparte na wartościach q, im wyższa wartość Q, tym większe prawdopodobieństwo,

10:28.910 --> 10:30.560
że zostanie ona wybrana.

10:30.560 --> 10:35.210
Więc jeśli używaliśmy zasady arc max, to po prostu zawsze wybieramy jeden z najwyższych, o ile

10:35.360 --> 10:38.870
pamiętacie, że to omawialiśmy, wtedy zawsze wybieramy ten, który ma najwyższą wartość.

10:38.870 --> 10:43.790
Ale faktycznie używaliśmy podejścia probabilistycznego, w którym używałem jak miękkiego Maxa lub w górę sprzedaży chciwej

10:43.790 --> 10:44.420
polityki.

10:44.540 --> 10:49.220
A potem w zasadzie wybieraliśmy, gdzie możemy wybrać dowolne z nich, ale im wyższy moduł, tym lepiej.

10:49.220 --> 10:55.310
Jeśli więc wybraliśmy coś, a wtedy przewaga była bardzo niska to bombowa sieć zostanie

10:55.310 --> 11:01.970
dodana w taki sposób, że następnym razem wartość tego określonego działania będzie mniejsza i może coś jeszcze

11:01.970 --> 11:02.910
będzie więcej.

11:02.960 --> 11:09.770
Tak więc to jest podzielone, az drugiej strony, jeśli wybierzemy coś, w czym ta przewaga będzie

11:09.770 --> 11:15.050
wysoka, to będzie to podlegało prawom politycznym, a następnie sieciom i aktualizujemy je

11:15.060 --> 11:19.590
tak, aby było to częściej obserwowane wydarzenie, takie jak scenariusz.

11:19.640 --> 11:26.300
I tak w zasadzie cała ta polska strata pomaga sieci adaptować się lub zmieniać w taki sposób, w jaki robimy.

11:26.300 --> 11:31.620
Morał z dobrych rzeczy dobrych dobrych uczynków i dobrych rzeczy i rób mniej złych rzeczy.

11:31.700 --> 11:35.040
I w ten sposób te dwie straty wchodzą w grę i tak powracają.

11:35.120 --> 11:41.800
Miejmy nadzieję, że oczyściły się w bardzo intuicyjny sposób, oczywiście nie weszliśmy w formułę do złożonej matematyki,

11:41.810 --> 11:46.930
która kryje się za tym wszystkim i podoba się bardzo skomplikowanym szczegółom.

11:47.060 --> 11:50.940
Ale jednocześnie mam nadzieję intuicyjnie w intuicyjny sposób.

11:50.990 --> 11:58.850
Wszystko to wyjaśnia, dlaczego mamy aktora i krytyka oraz jak współdziałają ze sobą,

11:58.850 --> 12:03.780
wiedząc, że masz te asynchroniczne lub synchroniczne strony.

12:03.790 --> 12:08.480
W takim razie to jest twój aktor i krytyk, a to jest zaleta i jak to wszystko wchodzi w grę.

12:08.480 --> 12:10.840
Są to więc czynniki synchroniczne.

12:10.850 --> 12:11.920
Oni idą.

12:12.040 --> 12:18.740
Grają to lub badają środowisko i pracują przez środowisko, a oni wszyscy

12:18.740 --> 12:26.720
w sumie przyczyniają się do krytyki, która obserwuje ich politykę obserwowania aktorów, jak to się

12:26.720 --> 12:27.400
nazywa.

12:27.560 --> 12:34.610
A przez to, że widok, a przez to zbliżający się, powoduje stratę, a następnie utratę polisy i wartości

12:34.610 --> 12:38.210
lub propagację wsteczną do samej sieci w celu.

12:38.240 --> 12:43.540
Z jednej strony reprezentują prawdziwy sposób rzeczy w środowisku.

12:43.580 --> 12:47.630
Kolejna ręka, aby poprawić występy aktorów.

12:47.930 --> 12:48.410
Więc idziemy.

12:48.410 --> 12:52.800
To jest krótkie podsumowanie intuicji, o której mówiliśmy.

12:52.790 --> 12:58.550
Ponownie, mam nadzieję, że wszystko to będzie odbywało się na poziomie intuicyjnym i oczywiście w

12:58.550 --> 13:04.880
praktycznych tutorialach. Porozmawiamy o tym, jak to wszystko działa w Atlancie, przeprowadzimy Cię przez ten proces właścicieli

13:04.880 --> 13:05.560
budynków.

13:05.570 --> 13:11.240
Ale mając ten obraz w umyśle i to jak coś w rodzaju mapy drogowej wszystkiego, w jaki

13:11.240 --> 13:17.240
sposób się razem wzejdzie, powinno być, mam nadzieję, że będzie bardzo pomocne dla lepszego poruszania się po praktycznej

13:17.240 --> 13:18.160
stronie rzeczy.

13:18.290 --> 13:25.710
A jeśli chodzi o dodatkowe czytanie na dziś, mamy dwa elementy, więc pierwszy z nich ma przewagę.

13:25.760 --> 13:32.480
Mamy tutaj wysokie ciągłe kontrolowanie demencji przy użyciu uogólnionego oszacowania przewagi przez Johna

13:32.480 --> 13:38.930
Shulmana i jest to obraz postaci kija, która wstaje jak wstanie.

13:38.930 --> 13:44.030
A tutaj możesz znaleźć jeszcze więcej o zaletach i zaletach, a znajdziesz wszystkie

13:44.030 --> 13:44.960
różne zalety.

13:44.990 --> 13:50.870
Masz ogólną przewagę w oszacowaniu i masz zalety, których używasz w formularzach w

13:51.110 --> 13:56.360
obliczeniach, więc jeśli chcesz dowiedzieć się więcej o zaletach i jak

13:56.360 --> 14:05.330
działa to formuły za nim i niektóre z nich górne górne elementy lub formuły i brak dziur w przestrzeni

14:05.330 --> 14:06.810
tej przewagi.

14:06.830 --> 14:08.700
Omówiliśmy je.

14:08.720 --> 14:10.140
To jest artykuł, do którego należy przejść.

14:10.490 --> 14:19.880
I jeszcze jeden element, o którym chcemy wspomnieć, jest blogiem serii postów na blogu Arthura Giulianiego,

14:19.990 --> 14:24.350
o których wspominaliśmy już kilka razy.

14:24.350 --> 14:28.010
Jest to część ósma, która dotyczy szczególnie morza A-3.

14:28.280 --> 14:33.280
Tutaj możesz uzyskać dodatkowe wyjaśnienie.

14:33.650 --> 14:38.900
Więc z odrobiną matematyki na temat tego, co się dzieje, a ty możesz stąd odebrać dodatkowe

14:38.900 --> 14:39.420
rzeczy.

14:39.440 --> 14:45.470
Tylko dwie rzeczy, o których należy pamiętać przede wszystkim, ponieważ zawsze ten blog jest obserwatorami intense, używamy pi

14:45.470 --> 14:46.130
latarka.

14:46.130 --> 14:46.840
Miej to na uwadze.

14:46.840 --> 14:53.330
Drugą rzeczą jest to, że sposób, w jaki ustrukturyzowaliśmy nasze podejście, najpierw rozmawialiśmy o aktywnym krytyku, a

14:53.960 --> 14:55.730
następnie mówiliśmy o synchronizacji.

14:55.730 --> 15:03.040
A potem rozmawialiśmy o korzyściach, podczas gdy w pierwszych relacjach dziennika Arthura o Synchronossie aktor krytykuje przewagę, więc miej to

15:03.050 --> 15:07.260
na uwadze, więc mam nadzieję, że to cię nie wyrzuci.

15:07.340 --> 15:10.480
Ale poza tym oczywiście jest świetny kawałek treści.

15:10.490 --> 15:14.510
I bardzo zalecamy sprawdzenie go pod kątem dodatkowych informacji.

15:14.780 --> 15:16.840
Więc mamy nadzieję, że skorzystamy z dzisiejszego samouczka.

15:16.880 --> 15:18.710
I nie mogę się doczekać, aby zobaczyć cię następnym razem.

15:18.710 --> 15:20.240
Do tego czasu ciesz się.

15:20.260 --> 15:20.520
JA.