WEBVTT

00:00.720 --> 00:03.210
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:03.210 --> 00:08.400
Dziś mówimy o pierwszej części A-3, zobacz część krytyka aktorów.

00:08.400 --> 00:10.540
A więc dostaliśmy przewagę synchroniczną.

00:10.550 --> 00:12.380
Krytyczny algorytm aktorski.

00:12.420 --> 00:15.440
I będziemy mówić o tym, podkreślił Akrotiri.

00:15.570 --> 00:17.210
Tam zaczniemy.

00:17.400 --> 00:21.960
Technicznie można zacząć od dowolnego miejsca, ale o wiele bardziej sensowne

00:22.320 --> 00:29.640
jest rozpoczęcie od krytyka, ponieważ w ten sposób będziemy bardzo konsekwentnie wyjaśniać intuicyjne rozumienie tego, co się dzieje, co

00:29.640 --> 00:30.470
nam ułatwi.

00:30.480 --> 00:33.970
Ale jeśli zaczniemy zaskakiwać jeszcze na końcu tej wady.

00:34.170 --> 00:41.840
Jak dotąd, w tym kursie opracowaliśmy głębokie warunkowe nauczanie Kule'a, które jest tutaj ilustratorem, więc mamy

00:41.880 --> 00:48.780
komputer, który widzi piksele, więc rzeczywisty obraz i piksele to nie tylko wektor.

00:48.780 --> 00:53.610
Więc to nie jest oszustwo, że faktycznie widzi dokładnie to, co człowiek widzi,

00:53.610 --> 01:00.540
widzi potwory, widzi zdrowie, widzi parametry na dole, widzi kartę lub widzi pistolet, to dokładnie to samo, co

01:00.540 --> 01:03.080
człowiek zobaczyłby, grając w to gra.

01:03.090 --> 01:09.450
Następnie obraz ten jest przesyłany przez splotowatą legowisko, a następnie przechodzi przez ciągnącą larę, spłaszcza się

01:09.450 --> 01:16.380
i przechodzi w sieć neuronową, a następnie na wyjściu mamy akcje, które pamiętają, że mamy te wartości

01:16.380 --> 01:20.270
kostki, a następnie stosujemy politykę wyboru akcji do nich.

01:20.270 --> 01:24.540
Na przykład stosujemy miękkiego Maxa i dowiadujemy się, jakie działania chcemy podjąć.

01:24.540 --> 01:28.470
Tak więc trwają poszukiwania i eksploatacja.

01:28.470 --> 01:29.860
Istnieje połączenie tych dwóch.

01:30.270 --> 01:33.480
Tak właśnie działa głębokie, splotowe, fajne uczenie się.

01:33.640 --> 01:34.980
Ale teraz zobaczmy, co z tym zrobimy.

01:34.970 --> 01:39.510
Więc dla uproszczenia, po prostu łatwiej nam z tym operować, ponieważ dostosujemy

01:39.510 --> 01:41.770
ten obraz i poruszymy nim.

01:41.790 --> 01:46.490
Zamieniamy kółka na kwadraty na te lub te prostokątne pudełka.

01:46.560 --> 01:53.190
A my także pozbędziemy się tych linii i pomiędzy po prostu zmieniamy je na strzały, więc to

01:53.190 --> 01:54.440
nie zmienia istoty.

01:54.450 --> 01:56.590
To tylko reprezentacja na tym wykresie.

01:56.610 --> 02:01.620
Nadal nawet ta reprezentacja jest nadal głęboko splotowa. Nauka Kule'a będzie dla

02:01.620 --> 02:05.520
nas łatwiejsza do zmodyfikowania i pokazania, co to jest.

02:05.520 --> 02:08.820
Tak właśnie będziemy tutaj reprezentować rzeczy.

02:08.820 --> 02:13.070
I co zaczyna się lub co ta konkretna część.

02:13.080 --> 02:16.680
Pamiętaj, że zaczynamy jak krok po kroku rozpoczynamy od aktywnej krytyki.

02:16.680 --> 02:23.490
Zobaczymy, jak przejdziemy od głębokiego, kluczowego uczenia się Kule do A-3, krok po kroku i pierwszy krok, który zamierzamy

02:23.490 --> 02:27.520
wprowadzić tutaj tego krytyka aktorów PARTOVI tutaj, więc porozmawiamy o tym.

02:27.750 --> 02:32.490
Więc pierwszą rzeczą, która się wydarza, jest ten ostatni kawałek.

02:32.640 --> 02:36.990
Wyjście jest tak, że właśnie tak przerysujemy to tak, że to dokładnie ten sam wynik,

02:36.990 --> 02:40.350
dokładnie takie same wartości q to dokładnie ta sama akcja.

02:40.350 --> 02:45.810
Jeśli więc miałbyś osiem możliwych akcji, nadal masz osiem możliwych akcji, które mają umieścić je na górze,

02:45.810 --> 02:50.280
więc zajmują mniej miejsca, więc nic tak daleko nie zmieniło się tak daleko.

02:50.280 --> 02:52.080
To i to jest dokładnie to samo.

02:52.080 --> 02:55.080
Ale teraz jest to miejsce, w którym bierze udział aktywna krytyka.

02:55.110 --> 02:56.580
Będziemy mieć drugie wyjście.

02:56.580 --> 03:02.460
Będziemy mieć pierwszy jako zestaw wyjść i tutaj będziemy mieli oddzielne indywidualne wyniki,

03:02.460 --> 03:06.040
więc technicznie będziemy używać naszej sieci neuronowej.

03:06.040 --> 03:08.310
Więc raz na godzinę.

03:08.340 --> 03:14.720
Albo obraz i wszystko jak wartości przechodzą przez sieć od lewej do prawej tutaj.

03:14.730 --> 03:17.910
Nie wypluwają tylko jednego zestawu wartości, które wypluwają w rzeczywistości dwa zestawy.

03:17.910 --> 03:23.910
Tak więc najlepsi powiedzieli, że naprawdę wiemy, jakie to możliwe, ale teraz będziemy mieli

03:23.910 --> 03:26.970
kolejną dodatkową wartość, więc spójrzmy na to.

03:27.000 --> 03:28.430
Jaka jest ta wartość.

03:28.620 --> 03:31.260
Więc idziemy na szczyt.

03:31.380 --> 03:35.190
Więc po prostu lubimy zmniejszać rozmiar tej ilustracji.

03:35.340 --> 03:41.210
Najważniejsze dane wyjściowe to wartości kostek, o których mówiliśmy wcześniej dla działań.

03:41.220 --> 03:42.500
Więc to jest to samo.

03:42.510 --> 03:43.240
Wszystko jest takie samo.

03:43.410 --> 03:47.640
Ale teraz ta dolna część i górna część jest rzeczywiście nazywana X lub zamierzamy

03:47.640 --> 03:53.400
nadać jej nazwę, która jest aktorem, ponieważ jest to część, w której agent wybiera to, co chce, aby to

03:53.400 --> 03:59.160
było tak, jakby działało to tak, jakby Występuje na scenie i będzie to miało więcej sensu, gdy będziemy mieć

03:59.160 --> 04:00.730
również drugie imię na ekranie.

04:00.900 --> 04:08.120
A następnie drugie wyjście jest jak jedna wartość, a jest to V S, więc jest to wartość stanu.

04:08.130 --> 04:16.800
Więc jeśli q z S jest Q z A, jest wartością q pewnej akcji i jak widzisz, dlatego jest działanie jedna akcja, a druga akcja jest aż

04:16.980 --> 04:21.450
do akcji szóstej lub wyższej, co oznacza, że akcje tam są prawdopodobnie w tym

04:21.450 --> 04:22.030
stanie.

04:22.030 --> 04:28.410
Tak więc w danym stanie s Jaka jest wartość q podjęcia działania, aby wykonać jedno działanie i tak dalej.

04:28.460 --> 04:34.900
W tym miejscu przewidujemy również, że używamy sieci neuronowej do przewidywania, jaka jest wartość

04:34.900 --> 04:40.620
sceny, na której się aktualnie znajdujemy, a ta część jest nazywana krytykiem.

04:40.820 --> 04:47.070
I tak intuicyjne jest to, że nie jest w pełni intuicyjne, tak jak początek intuicji za aktorem

04:47.880 --> 04:53.260
przewidują, że teraz są dwa wyjścia z sieci neuronowej, a nie tylko jeden.

04:53.380 --> 04:56.470
P zanim po prostu mieliśmy ten w outbredu, który teraz nazywamy akcją.

04:56.470 --> 04:59.040
Ale teraz mamy dwa wyjścia Akshary i krytyka.

04:59.250 --> 05:02.320
I będzie między nimi dynamika, którą będziemy dalej badać.

05:02.370 --> 05:08.850
Ale na razie ważne jest, aby zrozumieć, że przewidujemy nie tylko wartości działań, które agent może podjąć z

05:09.330 --> 05:14.100
bieżącego stanu, ale także przewidują wartość bycia w tym stanie przy użyciu

05:14.100 --> 05:15.750
tej samej, starej sieci.

05:15.750 --> 05:20.700
To jest sedno pierwszego kroku do aktywnego krytyka.

05:20.790 --> 05:24.990
A teraz będziemy musieli porozmawiać o synchronizacji, którą zrobimy w następnym tutorialu, aby dokładnie

05:24.990 --> 05:30.900
zrozumieć, co się dzieje między obowiązkiem a ostatnią rzeczą na dzisiaj, jest to, że wszystkie te kluczowe wartości, które znamy,

05:30.900 --> 05:32.640
są również nazywane Pulsami .

05:32.640 --> 05:39.720
Więc w niektórych publikacjach na niektórych blogach i dyskusjach, które możesz znaleźć u aktywnego krytyka, możesz

05:39.720 --> 05:47.400
znaleźć autora mówiącego o wartościach Cue po stronie aktora w niektórych innych publikacjach i na blogach oraz

05:47.400 --> 05:53.780
w dyskusjach znajdziesz agrah autora Mówiąc o polityce tak i zazwyczaj używa się użytkownika

05:53.860 --> 05:59.810
jak grecka litera P do reprezentowania polityki lub po prostu polityki państwa.

05:59.970 --> 06:05.790
Tak więc jest to polityka państwa, ponieważ, jak pamiętamy, polityka polega na tym, że jeśli

06:05.790 --> 06:11.660
wszystkie działania zostaną połączone razem, możliwe działania, a następnie podejmą decyzję o tym, jakie podjąć działania.

06:11.660 --> 06:15.400
Tak więc będą one podobne do prawdopodobieństwa podjęcia każdego działania, więc jest to polityka.

06:15.540 --> 06:19.410
Więc nie daj się wyrzucić, jeśli widzisz jedną lub drugą.

06:19.410 --> 06:21.090
Zasadniczo oznaczają to samo.

06:21.090 --> 06:24.720
Z jednej więc strony masz politykę lub wartości q, z drugiej strony masz

06:24.720 --> 06:27.620
rzeczywistą wartość stanu i są one przewidywane z tego roku.

06:27.750 --> 06:31.770
Tak więc początek aktywnego krytyka będzie kontynuowany w następnym samouczku, gdy

06:31.770 --> 06:34.320
mówimy o synchronizacji i poszukaj tam.

06:34.380 --> 06:35.910
Do tego czasu ciesz się.