WEBVTT

00:00.330 --> 00:05.990
Witam i zapraszam do tego samouczka w dzisiejszym Statoil, który zamierzamy zsynchronizować z udostępnionym modelem.

00:06.150 --> 00:13.370
To, co zamierzamy zrobić, to wysłać oczywiście kurs, a następnie zainicjować długość jednego

00:13.380 --> 00:13.980
odcinka.

00:14.190 --> 00:22.020
Więc nazwiemy odcinek odcinka i długości rdzenia, do którego zmierzamy, a my zainicjujemy go

00:22.020 --> 00:23.800
do zera.

00:23.880 --> 00:27.280
Ale wtedy ta obecna długość będzie przyrostowa.

00:27.570 --> 00:30.450
Mówiąc o przyrostach w tym, co dokładnie zrobimy.

00:30.660 --> 00:40.600
Więc użyjemy pętli while i użyjemy tej sztuczki, aby powiedzieć, podczas gdy prawdziwy Kallen powtórzy, co się stanie, teraz,

00:40.600 --> 00:43.840
co wydarzy się w tym świecie.

00:44.160 --> 00:49.360
I tak pierwszą rzeczą, która wydarzy się w tej pętli, jest przyrost długości

00:49.360 --> 00:50.070
odcinka.

00:50.260 --> 00:56.900
Tak więc pierwszą rzeczą, którą zamierzamy zrobić, jest inkrementacja o 1, a my możemy

00:57.010 --> 01:02.680
po prostu wziąć odcinki długości i dodać tutaj plus równe 1.

01:03.200 --> 01:06.440
A teraz zamierzamy zsynchronizować się z udziałem więcej.

01:06.560 --> 01:13.520
Oznacza to, że właśnie teraz agent otrzyma model współdzielony, aby wykonać jego małą eksplorację na pewnej

01:13.700 --> 01:18.730
liczbie kroków i w jaki sposób model uzyska ten współużytkowany model.

01:18.860 --> 01:27.710
No cóż, musimy wziąć naszą moralność, a następnie użyć metody Dicka, ponieważ zamierzamy użyć

01:27.710 --> 01:37.310
jej do uzyskania słownika stanu naszego wspólnego modelu, więc musimy najpierw umieścić wspólny model i zastosować

01:37.310 --> 01:41.870
metodę statyczną uzyskać parametry modelu współdzielonego.

01:41.900 --> 01:48.500
I tak nasz model dostanie wspólny model do jego małej eksploracji.

01:48.500 --> 01:53.670
A kiedy model uzyska ten wspólny model, musimy rozróżnić dwa przypadki.

01:53.840 --> 02:03.280
Pierwszym z nich jest, jeśli ma to znaczenie, jeśli gra jest wykonana, więc gra jest wykonywana, a następnie, co się dzieje w tym przypadku.

02:03.530 --> 02:09.840
Cóż, musimy ponownie zainicjować ukryte stany i stany komórek LSD i centrum handlowego.

02:09.950 --> 02:17.510
I dlatego właśnie wezmę See X stany komórek, a także starzeję X ukryte stany i zamierzam ponownie je

02:17.510 --> 02:21.030
zainicjować i jak zamierzacie je ponownie zainicjować.

02:21.170 --> 02:29.080
Cóż, tylko z zerami będzie wektorem 256 zer, ponieważ pamiętaj o wynikach reszty.

02:29.270 --> 02:31.770
Jak wspomniałem 1 i 256.

02:31.820 --> 02:38.970
Tak więc zaczynamy je inicjalizować za pomocą biblioteki pochodni, a następnie funkcji zera.

02:39.170 --> 02:46.730
A ponieważ chcemy wektora 256 zer, usłyszymy wymiary jeden dla wektora i 256 dla

02:46.730 --> 02:51.560
liczby elementów, które będą zerami, a następnie jedziemy.

02:51.770 --> 02:58.570
Ale wtedy zamienimy to na Wrzeciono pochodni, ponieważ wtedy zostaną obliczone pewne gradienty.

02:58.640 --> 03:02.000
Musimy więc zintegrować to z gradientem.

03:02.030 --> 03:02.510
W porządku.

03:02.540 --> 03:09.860
I będziemy robić to samo dla ukrytych stanów tuż poniżej i naprawdę analizować je w ten sam sposób.

03:09.980 --> 03:10.680
No to jedziemy.

03:10.790 --> 03:13.050
Tak więc, jeśli gra jest skończona.

03:13.360 --> 03:20.810
A teraz drugi przypadek, do którego możemy uzyskać dostęp z innym, niż to, co dzieje się w tej sprawie.

03:20.990 --> 03:27.270
No cóż, zachowamy stare stany komórkowe i ukryte stawki, więc bardzo

03:27.270 --> 03:37.910
łatwo możemy zachować stare w ten sposób, pisząc, że X równa się zmiennej cx, dane są takie same jak w Stanach

03:39.050 --> 03:45.580
możemy dodać tutaj H x równe zmienna xx, w której znajdują się dane.

03:45.650 --> 03:46.570
Dobra robota.

03:46.580 --> 03:52.880
Teraz możemy wydostać się z tego, ponieważ skończymy z tymi dwoma przypadkami, czy gra jest skończona, czy

03:52.910 --> 03:58.340
nie, ale pozostajemy w pętli while, ponieważ teraz zamierzamy zrobić jeszcze kilka rzeczy, które

03:58.340 --> 04:00.450
zasadniczo są całym szkoleniem proces.

04:00.530 --> 04:05.960
I tak teraz zrobimy to, zainicjujemy kilka zmiennych, które będą w centrum

04:06.050 --> 04:07.990
obliczeń podczas szkolenia.

04:08.180 --> 04:13.660
Zróbmy to, potrzebujemy wartości, które pamiętają wyniki krytyka.

04:13.790 --> 04:15.170
To jest funkcja.

04:15.170 --> 04:17.850
I zainicjujemy je jako puste gniazdo.

04:17.960 --> 04:22.790
W ten sposób będziemy musieli uśpić prawdopodobieństwa.

04:22.930 --> 04:27.570
Więc szczęście jest w porządku, a my również zainicjujemy go jako pustą listę.

04:27.590 --> 04:33.540
Oczywiście będziemy potrzebować wszystkich słów, które również zainicjujemy jako pustą listę.

04:33.650 --> 04:38.810
I w końcu potrzebujemy entropii, która jest czymś nowym.

04:38.960 --> 04:43.240
Ale to rzeczywiście jest istotą warunków szkoleniowych.

04:43.280 --> 04:45.120
Więc równie dobrze.

04:45.170 --> 04:50.690
Teraz, gdy zainicjujemy te cztery zmienne, możemy rozpocząć nową pętlę FOR, a następnie ta

04:50.690 --> 04:53.350
nimfa zaktualizuje wartości tych czterech zmiennych.

04:53.420 --> 04:59.330
Tak więc ten nowy Foluke będzie pełnym obręczem nad etapami wydechu i dlatego zmienna

04:59.330 --> 05:01.530
pętli będzie naszym krokiem.

05:01.550 --> 05:11.570
Tak więc dla kroku w zakresie i wewnątrz możemy bezpośrednio umieścić być może kropkę bez zatrzymywania, ponieważ parametr w niektórych

05:11.660 --> 05:15.170
krokach jest dokładnie liczbą kroków przyspieszenia.

05:15.170 --> 05:19.190
Tak więc dla wszystkich kroków w przyspieszeniu Co robimy.

05:19.370 --> 05:22.690
Cóż, dostaniemy prognozy tego modelu.

05:22.740 --> 05:28.730
Teraz, co jest zwracane przez model i uzyskać te prognozy, możemy po prostu wziąć model i

05:28.730 --> 05:33.670
zastosować go do danych wejściowych, które przekazuje sygnał przez mózg w modelu.

05:33.830 --> 05:39.020
A to da nam wyniki, ale dostanie kilka wyników, o których wiesz, że dostarczy

05:39.020 --> 05:42.010
nam wartości funkcji, która jest wynikiem działania krytyka.

05:42.200 --> 05:48.560
Następnie q wartości QSA, która jest wyjściem aktora, ale także nie zapominaj, że będzie również

05:48.680 --> 05:54.830
wyprowadzać przewrót stanów Doheny i małych stanów, ponieważ pamiętaj, że jeśli wrócimy do naszego

05:54.830 --> 06:00.230
modelu dobrze w funkcji forward, to widzimy, że rzeczywiście zwraca wynik krytyka.

06:00.320 --> 06:08.090
Jest to wartość funkcji tak, a następnie wynik aktora, który z wartości kostki QSA, a także wynik

06:08.090 --> 06:14.930
CM, który jest tym podwójnym sprawdzianem i widzą X to Stany i stany komórkowe.

06:14.930 --> 06:16.910
Musimy więc być z tym ostrożni.

06:16.910 --> 06:22.310
To coś zupełnie innego niż to, co działo się wcześniej, dlatego teraz zastosujemy je wszystkie

06:22.310 --> 06:24.470
do wejść, które są stanem.

06:24.530 --> 06:28.020
Ale teraz jest kilka rzeczy do zrobienia związanych z torturami.

06:28.030 --> 06:31.130
Ale to oczywiście daje moc temu, co robimy.

06:31.190 --> 06:39.920
Pierwszą rzeczą, którą musimy zrobić, to ścisnąć stany, aby dodać ten wymiar, który musi mieć indeks

06:39.920 --> 06:40.880
0.

06:40.910 --> 06:47.080
Dzieje się tak dlatego, że model może akceptować tylko wsad nakładów, a nie sam koniec w wektorze lub intenerze.

06:47.240 --> 06:53.320
To jest pierwsza rzecz, którą musimy zrobić i wycisnąć, ale to nie wszystko, czego potrzebujemy, aby

06:53.360 --> 06:58.950
przekształcić nasze stany wejściowe w latarkę, którą można unieruchomić, a ja tu właśnie.

06:59.180 --> 07:05.660
Teraz jesteśmy w stanie policji państwowej, ale pamiętajmy, że dane wejściowe czterech funkcji są w

07:05.660 --> 07:06.990
rzeczywistości obrazem wejściowym.

07:06.990 --> 07:14.660
Właśnie o to właśnie dbaliśmy, ale także tego typu wieku X stany i stany komórkowe i dlatego

07:14.900 --> 07:16.500
musimy dodać tutaj.

07:16.610 --> 07:23.160
Ta druga część danych wejściowych z odwołaniem do wieku X i 6.

07:23.190 --> 07:23.690
W porządku.

07:23.730 --> 07:26.410
I musimy wziąć nawias.

07:26.430 --> 07:32.550
Mamy dwa nasze wejścia, pierwszy to stany wejściowe, które są wejściowymi obrazami, wszystkie przekształcone w

07:32.550 --> 07:38.580
stronę zmiennej i ściśnięte w celu dodania tego fałszywego wymiaru partii i zatrzymują wszystkie stany

07:38.760 --> 07:40.260
i stany południowe.

07:40.440 --> 07:41.630
Więc wszyscy jesteśmy dobrzy.

07:41.670 --> 07:43.890
Jesteśmy gotowi, aby uzyskać nasze prognozy.

07:44.100 --> 07:46.360
A teraz od tego powrotu.

07:46.500 --> 07:52.530
Cóż, nasze trzy przewidywania, wyjście krytyka do aktora i szczyt wszystkich przywróconych

07:52.530 --> 07:54.430
wymaganych przez CME.

07:54.630 --> 07:59.840
Wprowadzimy teraz trzy nowe zmienne, które spowodują trzy wyjścia.

07:59.910 --> 08:05.380
Tak więc otrzymujemy pierwsze wyjście jest wartością funkcji V, która jest wynikiem działania krytyka.

08:05.520 --> 08:07.960
Więc to tak nazwiemy.

08:08.490 --> 08:08.960
Więc idziemy.

08:08.970 --> 08:10.250
To jest pierwsze wyjście.

08:10.350 --> 08:14.630
Drugie wyjście będzie wyjściem aktora.

08:14.760 --> 08:16.820
A to Q wartości QSA.

08:17.130 --> 08:24.570
Ale ponieważ wartości q są powiązane z działaniami, możemy je również nazwać wartościami akcji.

08:24.690 --> 08:25.550
W porządku.

08:25.710 --> 08:28.850
A następnie znajdź dane wyjściowe zwrócone następnego dnia.

08:28.920 --> 08:37.380
To podwójne z ukrytego podatku od sprzedaży, a stany komórkowe widzą X, a potem otrzymujemy trzy wyniki,

08:37.620 --> 08:40.110
które zostały przez nich zwrócone.

08:40.110 --> 08:45.750
Teraz, gdy mamy już predyspozycje, potrzebujemy miękkiego Maxa, aby zagrać właściwą akcję.

08:45.750 --> 08:48.560
I tak teraz to będzie dokładnie to samo, co wcześniej.

08:48.600 --> 08:57.320
Następnym krokiem jest zdobycie naszych prawdopodobieństw, abyśmy mogli je wywołać i tam, gdzie zwykliśmy zbijać metodę

08:57.320 --> 09:05.570
Max, którą pobieramy z modułu funkcjonalnego, który ma strzał na ff, który zsumował Max i

09:05.570 --> 09:12.270
który wygeneruje rozkład prawdopodobieństw wejścia które mamy zamiar teraz umieścić i

09:12.290 --> 09:19.150
które oczywiście wartości rzeczywiste to q wartości, które są wyjściami aktora w modelu.

09:19.220 --> 09:25.070
Czasami mamy nasze prawdopodobieństwa, ale jak zauważyliście, będziemy pracować z entropią i

09:25.130 --> 09:31.280
wspólna entropia będzie nie tylko prowadzić do prawdopodobieństw, ale także prawdopodobieństw LUGG, ponieważ

09:31.280 --> 09:37.280
entropia jest sumą produktu Lucke prob. razy pomiń to wszystko pomnożone przez minus 1.

09:37.400 --> 09:46.420
A więc musimy również zdobyć naszą miłość, z której to samo zostanie wygenerowane z LUGG soft max.

09:46.460 --> 09:51.580
Zamiast więc przyjmować rozkład prawdopodobieństw, bierzemy pod uwagę rozkład prawdopodobieństw i

09:51.860 --> 10:01.260
robimy to z LUGG soughedem, puka funkcję Optimax, by powiedzieć, że stosujemy się do kostki i używamy tego, co

10:02.500 --> 10:04.490
nazywamy wartościami akcji.

10:04.500 --> 10:07.520
W porządku, więc teraz mamy problem i blokadę.

10:07.600 --> 10:11.700
Dlatego jesteśmy gotowi, aby uzyskać entropię i entropię.

10:12.250 --> 10:13.680
Jaka jest na to formuła.

10:13.780 --> 10:19.830
Jak już wspomniałem, bierzemy pod uwagę powody, dla których pomnożymy przez produkt.

10:20.200 --> 10:28.250
Potem weźmiemy całą sumę, a do tego możemy dodać, że niektórzy faktycznie używamy tej ulicy

10:28.250 --> 10:29.920
już wiele razy.

10:30.230 --> 10:33.500
I jak powiedzieliśmy, pomnóżmy to przez minus 1.

10:33.740 --> 10:37.150
Jest to minus sumy produktu.

10:37.170 --> 10:38.600
Wiele razy.

10:39.140 --> 10:39.750
Idealny.

10:39.860 --> 10:45.380
A teraz zamierzamy przechowywać tę entropię, która została właśnie obliczona na naszej liście entropii.

10:45.650 --> 10:48.550
No to idziemy, mamy ostatnie obliczenia entropii.

10:48.590 --> 10:53.660
Musimy więc przechowywać go na liście entropii i aby to zrobić nic prostszego,

10:53.660 --> 10:57.450
użyjemy oczywiście funkcji append, ponieważ entropia jest listą.

10:57.500 --> 11:04.790
Tak więc bierzemy listę naszych entropii, a następnie uruchamiamy i używamy funkcji append do dodania entropii,

11:04.790 --> 11:06.550
która jest obliczana.

11:06.560 --> 11:08.440
W porządku, więc teraz zrobimy sobie przerwę.

11:08.450 --> 11:14.210
Zrobimy to krok po kroku, w kolejnej opowieści odtworzymy akcję, losowo

11:14.360 --> 11:16.740
losując wygenerowaną dystrybucję prawdopodobieństw.

11:17.030 --> 11:22.310
A po tym, jak gramy akcję, otrzymamy wartość tego stanu, a my ostatecznie przechowalimy

11:22.310 --> 11:24.310
naszą nową nagrodę stanów przejściowych.

11:24.360 --> 11:29.430
I tak będzie to nowy duży krok, który wykonamy w następnej przeszkodzie.

11:29.570 --> 11:31.020
Do tego czasu I.