WEBVTT

00:00.610 --> 00:03.190
Cześć i witamy w tutorialu Python.

00:03.190 --> 00:09.460
Zróbmy to dla pętli zaczynając od prawej strony i idąc w lewo, a

00:09.460 --> 00:11.900
do tego dodamy cztery.

00:11.920 --> 00:17.980
To jest wielokrotny VAR, który będzie naszym krokiem, ponieważ przejdziemy od ostatniego kroku do

00:17.980 --> 00:21.590
pierwszego kroku serii przejść i tak dalej.

00:21.960 --> 00:29.850
A następnie lewą ręką, aby przejść od prawej do lewej, jest użycie do kroku odwróconego w odwrotnym kierunku.

00:30.160 --> 00:35.300
A teraz wystarczy wprowadzić sekwencję, a ta sekwencja będzie oczywiście naszą serią.

00:35.380 --> 00:41.790
Możemy więc umieścić naszą serię, ale jak widać w artykule, zaczynamy od T minus 1.

00:41.950 --> 00:47.760
Tak więc nie przechodzimy od ostatniego kroku, który jest końcowym etapem, ale krok przed tym jest do minus jeden,

00:47.800 --> 00:50.380
ale aby rozpocząć, jest to pierwszy krok.

00:50.430 --> 00:59.090
I tak dalej, aby nie robić tego kroku, zanim będziemy musieli dodać kolumnę nawiasów minus jeden.

00:59.380 --> 01:04.270
Jestem pewien, że dla tych z was, którzy podążali za maszynową nauką w

01:04.560 --> 01:11.050
głębszym kursie, znacie tę sztuczkę Kollin minus jeden oznacza, że podchodzicie do pierwiastka przed ostatnim elementem, ale nie

01:11.050 --> 01:14.740
do ostatniego elementu, a zatem otrzymujemy kolejność, którą chcemy.

01:14.860 --> 01:20.890
To właśnie przejdziemy od elementu przed ostatnim elementem do pierwszego elementu i że wykonujemy odwrotne

01:20.890 --> 01:23.900
czynności, aby przejść od prawej do lewej.

01:24.160 --> 01:26.810
W porządku, więc jesteśmy gotowi, aby wprowadzić pętlę for.

01:27.170 --> 01:29.740
Wewnątrz tej pętli, co zamierzamy zrobić.

01:29.780 --> 01:32.870
Gdzie będziemy robić dokładnie tak, jak w gazecie.

01:32.900 --> 01:39.340
Zamierzamy zaktualizować łączną nagrodę poprzez pomnożenie jej przez Ghanę i dodanie słowa uzyskanego w bieżącym

01:39.400 --> 01:42.500
kroku, który jest na etapie obserwacji.

01:42.670 --> 01:45.450
W porządku, zróbmy to wracając do Pythona.

01:45.590 --> 01:57.780
Chcąc zaktualizować nasze skumulowane, pracujemy w następujący sposób, najpierw pomnażając je przez gamma.

01:57.780 --> 01:58.580
No to jedziemy.

01:58.660 --> 02:07.910
Tutaj pomnożymy go przez gamma, a następnie chcemy dodać nagrodę tego, do którego możemy uzyskać dostęp w ten sposób ze

02:07.970 --> 02:09.420
specjalną strukturą.

02:09.450 --> 02:13.120
Pamiętaj, że słowo jest atrybutem obiektu.

02:13.130 --> 02:15.910
I tak tutaj oczywiście dodajemy plus.

02:16.020 --> 02:17.330
W porządku, to skumulowana nagroda.

02:17.450 --> 02:19.310
Czy chcemy tego kroku?

02:19.370 --> 02:25.620
Jesteśmy teraz w pętli plus Gahanna razy poprzedniej skumulowanej nagrody, zanim będzie.

02:26.150 --> 02:26.870
Idealny.

02:26.870 --> 02:28.190
Więc teraz myślę, że jesteśmy dobrzy.

02:28.220 --> 02:30.180
Dokładnie podążamy za algorytmem.

02:30.500 --> 02:32.600
A teraz czas na kolejne kroki.

02:32.840 --> 02:35.090
Teraz stanie się całkiem łatwe.

02:35.090 --> 02:40.880
Wracamy do pierwszej obserwacji, ponieważ ta pętla for służy jedynie do obliczenia skumulowanej nagrody, nie przechodząc od

02:41.060 --> 02:44.010
prawej do lewej poprzez aktualizację w ten sposób.

02:44.030 --> 02:50.930
Podążając za algorytmem, a teraz, gdy pamiętasz, celem jest to, abyśmy przygotowali nasze dane wejściowe i

02:50.930 --> 02:55.950
nasze cele, abyśmy mogli zminimalizować kwadratową różnicę między nimi dla treningu.

02:55.950 --> 03:01.020
A więc w tej chwili jedyną rzeczą, którą musimy zrobić, to uzyskać gotowe wkłady i toaletę.

03:01.220 --> 03:08.410
Zróbmy więc najpierw to, co musimy zrobić, to dodać pierwszą datę serii na liście części.

03:08.510 --> 03:11.460
Jak dotąd ten stan leży w tym w części naszego celu.

03:11.480 --> 03:14.100
To było po prostu do obliczenia wyniku.

03:14.270 --> 03:19.370
Tak więc otrzymamy ten stan wejściowy pierwszego kroku osobno, ponieważ dokładnie to musimy

03:19.370 --> 03:21.320
zrobić na naszej liście.

03:21.380 --> 03:23.340
Zróbmy to osobno.

03:23.360 --> 03:25.910
Dlatego nazwiemy to stanem.

03:26.000 --> 03:32.930
I tak dokładnie tak samo jak tutaj możemy uzyskać to w ten sposób, biorąc pierwszy indeks z serii, która

03:32.930 --> 03:38.300
zawiera pierwszą zmianę, a następnie dodając ten stan, aby uzyskać stan tego pierwszego przejścia.

03:38.330 --> 03:44.390
Więc to jest ta strona, której potrzebujemy, mówiąc, że otrzymamy osobno cele związane z

03:44.840 --> 03:46.830
tym etapem wejściowym przejścia.

03:46.880 --> 03:53.450
A więc interesująca nowa zmienna tutaj docelowa, która będzie równa wartości pierwszego kroku.

03:53.540 --> 03:59.990
A ponieważ wartość Q jest zwracana przez sieć neuronową oraz jej zawartość i wynik, a ponieważ dane

04:00.070 --> 04:07.370
wyjściowe są danymi wyjściowymi związanymi z tym sygnałem wejściowym, który zawiera pierwszy z odwiertu przejściowego, możemy uzyskać tę wartość

04:07.370 --> 04:12.830
q pierwszej daty, po prostu biorąc dane wyjściowe tutaj i biorąc indeks zero.

04:13.100 --> 04:20.630
Następnie dodajemy te dane, które po prostu dostarczą nam wartość Q stanu wejściowego pierwszego przejścia i to jest

04:21.050 --> 04:22.310
dokładnie czas.

04:22.320 --> 04:30.080
Q W ten sposób, weźmiemy to, a następnie zaktualizujemy tę zmienną docelową, ale tylko dla akcji, która została wybrana

04:30.080 --> 04:35.680
w pierwszym etapie serii i aby uzyskać dostęp do tego pierwszego kroku serii.

04:35.870 --> 04:42.710
Cóż, musimy wykonać pierwszą serię 0, ponieważ jest to dokładnie pierwszy krok w serii 3 0.

04:42.970 --> 04:50.290
Aby uzyskać dostęp do akcji odpowiadającej temu pierwszemu krokowi serii, musimy jeszcze raz dodać tę

04:50.380 --> 04:57.340
akcję, która jest strukturą atrybutu, z której korzystamy, wiesz, że akcja jest atrybutem pierwszego

04:57.340 --> 04:58.900
kroku serii.

04:58.900 --> 05:04.570
Jest to pierwsze przejście serii, ponieważ każde przejście w szeregu ma następujące strukturalne

05:04.720 --> 05:11.350
słowo akcji i zostało wykonane, więc akcja tutaj to działanie atrybutów oznacza tutaj, że po

05:11.500 --> 05:14.150
prostu otrzymujemy akcję pierwszej randki.

05:14.330 --> 05:21.320
Dlatego celem tego konkretnego działania z pierwszego kroku jest to, co musi zostać zaktualizowane przez

05:21.410 --> 05:22.850
społeczność światową.

05:22.850 --> 05:29.490
Więc w zasadzie tutaj zamierzamy zapisać ten cel związany z wykonaną akcją.

05:29.630 --> 05:35.810
Pierwszym krokiem serii jest skumulowana nagroda, którą właśnie obliczyliśmy.

05:36.130 --> 05:44.780
W porządku, a teraz jesteśmy w końcu gotowi, aby zaktualizować nasze dane wejściowe, dołączając ten pierwszy pobyt tutaj i to pierwsze są

05:44.780 --> 05:46.770
tutaj przez pierwszą godzinę.

05:46.970 --> 05:53.090
Wystarczy zaktualizować pierwszy krok serii, ponieważ wiesz, że szkolimy SI na 10 krokach, a zatem

05:53.090 --> 05:56.000
wejście jest pierwszym krokiem dziesięciu kroków.

05:56.180 --> 06:01.400
A także otrzymujemy cel w tym pierwszym kroku, ale potem nie dostajemy żadnych danych wejściowych ani

06:01.400 --> 06:06.310
żadnych toalet w kolejnych krokach 10 kroków, ponieważ zasadniczo uczenie się następuje po 10 krokach.

06:06.500 --> 06:11.380
Właśnie dlatego otrzymujemy tylko stan i cel pierwszego etapu serii.

06:11.840 --> 06:16.820
Tak więc ważne jest, aby to zrozumieć, a zatem jeśli zrozumiemy, że teraz rozumiemy, że musimy

06:16.820 --> 06:20.590
wprowadzić je do naszej listy danych wejściowych i naszej listy celów.

06:20.660 --> 06:21.560
Zróbmy to.

06:21.560 --> 06:25.140
Najpierw dołączmy stany do naszych danych wejściowych.

06:25.190 --> 06:33.680
Więc bierzemy listę wejść i używamy funkcji dodawania, aby dodać stan, który zapamiętuje stan wejściowy pierwszego etapu

06:33.680 --> 06:41.030
serii, a następnie dodamy cel na pierwszym etapie do naszej listy celów i do

06:41.120 --> 06:47.270
tego bierzemy listę celów i mówimy, że używamy funkcji append do dołączenia

06:47.270 --> 06:49.460
tego pierwszego celu.

06:49.490 --> 06:50.360
No to jedziemy.

06:50.540 --> 06:56.750
Prawie zrobione, a teraz musimy zwrócić ostatnie rzeczy, które są oczywiście tym, czego potrzebowaliśmy, jak powiedzieliśmy

06:56.840 --> 07:01.760
na początku tego samouczka, dane wejściowe i cele, które są teraz aktualizowane.

07:02.090 --> 07:07.580
Więc dodamy tutaj w każdej turze, a my najpierw zdobędziemy nasze dane wejściowe,

07:07.580 --> 07:14.660
ale to jest to, czego potrzebujemy, aby najpierw przekształcić je w tablicę liczbową, a następnie dokonać konwersji typu,

07:14.660 --> 07:21.710
aby upewnić się, że mamy jeden typ z typem jesteś równy i ten pływa 32 tak samo.

07:21.890 --> 07:28.520
A potem przekształcamy to w tensor pochodni, ponieważ oczywiście pracujemy z pochodnią, która jest całkowicie

07:28.730 --> 07:29.540
obowiązkowa.

07:29.570 --> 07:36.040
Dlatego ponownie używam latarki z funkcji innej niż tajlandzka.

07:37.180 --> 07:39.000
I to daje nam nasz wkład.

07:39.130 --> 07:39.590
Idealny.

07:39.590 --> 07:42.460
A teraz zróbmy to samo dla celów.

07:42.520 --> 07:44.620
Teraz możemy użyć tej sztuczki, która jest szybsza.

07:44.710 --> 07:50.950
Zbierzemy cele razem i aby to zrobić, musimy najpierw wziąć naszą

07:50.950 --> 07:57.230
bibliotekę pochodni, ponieważ zamierzamy użyć funkcji stosu za pomocą latarki, aby ułożyć cele.

07:57.250 --> 07:57.550
W porządku.

07:57.550 --> 08:04.030
Tak więc ta linia kodu w zasadzie zwraca dane wejściowe i toalety, które zostały właśnie

08:04.030 --> 08:07.100
zaktualizowane za pomocą tego algorytmu Sarsour.

08:07.180 --> 08:10.710
Lub możemy to nazwać i wkroczyć i wysłać nasze gratulacje.

08:10.780 --> 08:16.540
Byliśmy gotowi na ostatnie szkolenie, ponieważ zasadniczo szkolenie polega na minimalizowaniu

08:16.540 --> 08:20.950
kwadratowych różnic między przewidywaniami naszych wejść a toaletami.

08:21.160 --> 08:22.870
Więc miejmy oczy mądre.

08:22.870 --> 08:25.150
Stanie się sprytny, a następny jego.

08:25.210 --> 08:26.980
A więc do tej pory ciesz się AI.