WEBVTT

00:00.760 --> 00:02.520
Witam i zapraszam do Statoil.

00:02.830 --> 00:10.050
Tak więc agent wykonał eksplorację, a kiedy ma zamiar zrobić to zaktualizować udostępnioną sieć.

00:10.240 --> 00:17.050
Pierwszą rzeczą, którą zrobimy, jest zainicjowanie skumulowanego, nazwijmy to, naszego kapitału R i zainicjujemy

00:17.070 --> 00:25.180
go jako tensor pochodni, ale będzie on miał wymiary jeden po drugim, ponieważ jest to tylko wartość,

00:25.180 --> 00:27.710
ale chcieliśmy być tensorem.

00:27.940 --> 00:33.460
Używam tutaj zer, a następnie 1 1.

00:33.790 --> 00:37.230
Więc zasadniczo nagroda skumulowana jest inicjowana do 0.

00:37.610 --> 00:43.870
OK, mówiąc, że nie skończyliśmy, jeśli gra się nie skończyła.

00:43.870 --> 00:50.200
Teraz chcemy uzyskać skumulowaną nagrodę równą wartości ostatniego handlu osiągniętego przez

00:50.200 --> 00:51.750
wspólną sieć.

00:51.820 --> 00:54.400
Więc uzyskamy wynik wartości.

00:54.460 --> 01:00.870
Znasz wartość funkcji wyjściowych naszego modelu i to jest wartość, jaką damy społeczności, w której

01:00.870 --> 01:01.490
pracujemy.

01:01.780 --> 01:05.500
Najpierw zdobądźmy tę wartość, którą możemy uzyskać w ten sposób.

01:05.560 --> 01:12.820
Wartość Więc wiesz, ponieważ chcemy tylko wartości, którą możemy dodać tutaj podkreślenia, a następnie podkreślimy ponownie, a następnie otrzymamy nasz

01:13.240 --> 01:19.980
model, ponieważ wyprowadzi on tę wartość, ale tylko pierwszy wynik moralnej rzeczy do zrobienia jest podwójny na jej

01:19.980 --> 01:25.310
kurs tutaj i tutaj możemy po prostu skopiować wkleić to, co mamy tutaj.

01:25.430 --> 01:33.050
To jest dane wejściowe modelu z obrazami wejściowymi i ciągiem stanów i stanów południowych.

01:33.220 --> 01:35.820
Więc właśnie to wklejam i zaczynamy.

01:35.860 --> 01:37.490
Dostaniemy wartość.

01:37.810 --> 01:47.080
A więc teraz to, co zamierzamy zrobić, to dać naszej wartości, więc wszyscy będą równi wartości i dostępowi do wartości,

01:47.080 --> 01:49.350
którą my tutaj zaczynamy.

01:49.750 --> 01:50.430
W porządku.

01:50.440 --> 01:57.610
Teraz, jeśli warunek jest spełniony i teraz to, co zrobimy, ponieważ otrzymaliśmy nową wartość, wiemy, że

01:57.670 --> 02:04.090
otrzymujemy wyjściowy model pierwszego wyjścia modelu dobrze, który już dodaje tę nową wartość do

02:04.090 --> 02:05.330
listy wartości.

02:05.500 --> 02:16.340
Dlatego możemy wziąć bezpośrednio naszą listę wartości, a następnie w kierunku namiotu, a zmienną stawiamy, ponieważ nasza.

02:16.530 --> 02:20.560
Ta ostatnia wartość jest tak wielka, że teraz jest zrobiona.

02:20.850 --> 02:25.180
Będziemy inicjować straty i pamiętać wykłady intuicyjne.

02:25.260 --> 02:26.320
Masz dwie straty.

02:26.340 --> 02:31.780
Masz ostatnią z zasad, która jest ostatnia związana z przewidywaniami agenta.

02:31.860 --> 02:36.070
A potem masz ostatnią wartość, która jest mniej związana z przewidywaniami krytyka.

02:36.180 --> 02:41.130
Tak więc zamierzamy wprowadzić te dwie zmienne zainicjowane do zera, a oni

02:41.250 --> 02:44.600
przyjmą tutaj politykę dotyczącą nas, strasznej utraty polityki.

02:44.690 --> 02:52.680
Zainicjuj go do zera, a następnie wartość straciła dużo wartości i powiedz, że została zainicjalizowana do zera, nie zapominajmy

02:52.680 --> 02:58.680
o ustawieniu skumulowanej nagrody jako zmiennej palnika, ponieważ będziemy potrzebować go jako pochodnię Roybala, ponieważ

02:58.680 --> 03:03.990
będziemy obliczać gradient za pomocą w związku z tym, że skumulowana nagroda

03:03.990 --> 03:05.850
będzie terminem utraty wartości.

03:05.850 --> 03:10.050
Więc jest to możliwe, jest teraz dołączony do dynamicznych wykresów z gradientem.

03:10.530 --> 03:16.150
A teraz wreszcie ostatnia rzecz, którą musimy zrobić przed uruchomieniem wielkiej pętli trendów, którą znamy, kiedy zastosowaliśmy się

03:16.170 --> 03:20.580
do rozkładu gazu w słońcu, aby zmniejszyć to ostatnie między przewidywaniami i celami.

03:20.850 --> 03:28.160
Cóż, musimy zainicjować GAAP, aby uogólnić oszacowanie przewagi, a nie uzyskać ani niepowlekane.

03:28.260 --> 03:34.530
Bądź ostrożny z tym GAAP, że zmienna, którą właśnie zainicjujemy, jest uogólnionym oszacowaniem

03:34.590 --> 03:35.510
przewagi.

03:35.520 --> 03:42.480
Dla przypomnienia, uogólnione oszacowanie przewagi jest z definicji zaletą odgrywania akcji a

03:42.540 --> 03:45.170
przez obserwację stanu s.

03:45.210 --> 03:51.330
Jest więc funkcją akcji i stanu s i jest równa różnicy między wartościami

03:51.450 --> 03:54.780
q QS i wartością funkcji V.

03:54.780 --> 03:57.120
Więc właściwie mogę to napisać tutaj.

03:57.540 --> 04:05.130
Uogólnione oszacowanie przewagi jest funkcją działania i stanu s i równe q wartościom

04:05.580 --> 04:12.570
działania A i stanu S minus wartość funkcji V zastosowanej do stanu

04:12.650 --> 04:13.440
s.

04:13.530 --> 04:19.000
Oto ogólne korzyści, o których warto wspomnieć, i właśnie to chcemy teraz zainicjować.

04:19.200 --> 04:20.770
I zainicjujemy go do zera.

04:21.470 --> 04:27.320
Ale to musi być w stosunku do tancerzy, którzy zamierzali użyć tej samej sztuczki, co właśnie

04:27.730 --> 04:35.330
zrobiliśmy, tutaj mamy zamiar wziąć bibliotekę pochodni i zastosować do funkcji zebry, aby ustawić ją jako tensor z tylko jedną wartością,

04:35.330 --> 04:36.730
która wynosi zero.

04:37.160 --> 04:45.730
I użyjemy tej nowej zmiennej g, która będzie równa tej latarce, która zeruje 1, tak jak nas

04:45.740 --> 04:46.540
inicjalizuje.

04:46.550 --> 04:52.730
Zostanie to zainicjowane do zera, a zatem wartości q akcji stanu s będą

04:52.730 --> 04:55.600
równe wartości funkcji V stanu s.

04:55.780 --> 04:56.290
W porządku.

04:56.320 --> 04:58.810
Teraz jesteśmy gotowi do uruchomienia pętli for.

04:58.850 --> 05:00.470
Więc mamy tu przygodę.

05:00.500 --> 05:04.700
Więc zrób sobie przerwę, a zobaczę cię w następnym samouczku, aby to zaatakować.

05:04.820 --> 05:06.170
I tak ja.