WEBVTT

00:00.450 --> 00:02.520
Cześć i witamy w tym samouczku.

00:02.520 --> 00:06.140
W tej chwili mamy naszą sztuczną inteligencję, gotową do treningu.

00:06.330 --> 00:09.660
Pierwszym krokiem szkolenia jest ustawienie powtórki doświadczenia.

00:09.900 --> 00:11.330
Więc powoli się tam dostaniemy.

00:11.340 --> 00:16.690
Szkolenie i dobra wiadomość jest taka, że mamy wdrożoną wersję powtórki doświadczenia.

00:16.830 --> 00:23.490
Poza tym jest przystosowany do śladu kwalifikowalności, który przypominam, jest techniką, która zamiast uczyć się wartości q,

00:23.490 --> 00:27.160
każde przejście uczy się go co 10 przejść.

00:27.210 --> 00:29.460
Więc w zasadzie to jest dokładnie to samo co poprzednio.

00:29.490 --> 00:35.190
Zamiast pojedynczego celu dla pojedynczego słowa dla każdego kroku będziemy mieć łączny cel dziesięciu kroków

00:35.190 --> 00:40.770
i łączną nagrodę 10 kroków, a za każdym razem nauczymy się 10 kroków.

00:40.980 --> 00:44.960
Tak więc uczymy się na przejściach 10 kroków zamiast jednego jak poprzednio.

00:45.180 --> 00:50.440
I dzięki temu będę zdziałać cuda i to uczyni cuda dla procesu szkolenia.

00:50.440 --> 00:52.570
Wiesz, że szkolenie zajmie znacznie mniej czasu.

00:52.620 --> 00:58.850
Dzięki tej technice musimy jednak określić powtórkę niedoświadczenia, którą uczymy się co 10 kroków.

00:58.980 --> 01:04.230
Dlatego powtórka tego doświadczenia nie jest klasyczną implementacją powtórki doświadczenia.

01:04.320 --> 01:06.160
Jak zrobić dla samochodu do samodzielnego prowadzenia.

01:06.210 --> 01:12.540
Jest to implementacja powtórki doświadczenia uwzględniająca te 10 etapów uczenia się, dlatego też w tym pliku powtórzenia

01:12.540 --> 01:19.110
doświadczenia znajdziesz dwie klasy, jedna klasa, która sprawia, że twój postęp w sztucznej inteligencji wykonuje dziesięć kroków,

01:19.110 --> 01:23.460
dzięki czemu można podsumować nagrody obserwowane na tych 10 krokach.

01:23.460 --> 01:28.430
To jest pierwsza klasa i potrzebujemy tej klasy, ponieważ musimy uwzględnić te 10 kroków w klasie

01:28.430 --> 01:33.570
pamięci powtórek, która jest klasowym narzędziem dla doświadczenia, w którym gramy, iw ten sposób upewniamy się, że

01:33.630 --> 01:38.020
pamięć bierze również pod uwagę to, że jesteśmy uczenie się na 10 krokach.

01:38.040 --> 01:42.660
Dlatego właśnie w tej implementacji powtórek doświadczeń znajdziesz dwie klasy, ale to

01:42.660 --> 01:49.070
tylko wziąć pod uwagę, że uczymy się w 10 krokach i które należy uwzględnić również w pamięci.

01:49.410 --> 01:51.940
Mówiąc o naszej pamięci, stwórzmy to.

01:51.970 --> 02:00.150
Zamierzamy nazwać naszą pamięć pamięci, a pamięć stanie się obiektem odrzutu pamięci powtórzenia, a klasa pamięci

02:00.570 --> 02:04.900
powtórek jest klasą tego odtworzenia wrażeń już teraz.

02:05.070 --> 02:15.880
I tak biorę najpierw to doświadczenie powtórzenia doświadczenia i tam biorę klasę pamięci powtórek.

02:15.960 --> 02:16.840
Idealny.

02:16.890 --> 02:23.460
A teraz widać, że musimy podać dwa argumenty, pierwszy argument i kroki, które dokładnie

02:23.640 --> 02:27.540
odpowiadają liczbie etapów, na których poznamy kluczowe wartości.

02:27.540 --> 02:32.090
Więc znasz liczbę kroków, na których gromadzimy cel i chcemy.

02:32.180 --> 02:37.290
Będziemy mieć łączny cel i łączną nagrodę, a drugim argumentem będzie

02:37.290 --> 02:39.840
pojemność, która jest wielkością pamięci.

02:39.840 --> 02:42.650
Na przykład tutaj widzimy dziesięć tysięcy.

02:42.810 --> 02:48.270
Jeśli więc pojemność jest równa 10000, oznacza to, że będziemy mieli

02:48.270 --> 02:54.210
wielkość 10000, a więc oznacza to, że otrzymamy pamięć 10000 kroków wykonanych przez oko.

02:54.390 --> 02:57.390
Ale znowu nie będziemy uczyć się każdego przejścia.

02:57.390 --> 03:02.690
Będziemy uczyć się co dziesięć kroków w ciągu ostatnich 10000 kroków pamięci i to jest właśnie

03:02.700 --> 03:06.100
ta nowa funkcja, którą tutaj wprowadzamy w porównaniu do wcześniejszych.

03:06.180 --> 03:12.480
Zanim mieliśmy tylko tę sztuczkę z pamięcią powtórki i tutaj mamy tę sztuczkę z pamięcią powtórzenia plus tę sztuczkę nauczyłem

03:12.570 --> 03:16.920
się co dziesięć kroków i zamierzamy uczyć się co dziesięć kroków, a my

03:16.920 --> 03:20.000
zrobimy to w pamięci złożonej z ostatnie 10000 kroków.

03:20.190 --> 03:27.810
I to jest doświadczone powtórzenie połączone z cechami nieumiejętności z 10 krokami znacznie poprawi

03:27.810 --> 03:29.240
wydajność treningu.

03:29.490 --> 03:31.130
Zakończmy więc tymi dwoma argumentami.

03:31.200 --> 03:35.900
Pierwszy to i kroki, które będą równe.

03:36.030 --> 03:43.180
Ale na razie załóżmy, że kroki i kroki określą, który krok jest właściwy, po tym, że będzie to

03:43.360 --> 03:49.130
rzeczywiście podupadnięcie drugiej klasy tego pliku powtórki doświadczenia, który jest końcową klasą postępu i

03:49.140 --> 03:52.170
pozwala robić postępy w dziesięciu krokach.

03:52.170 --> 03:57.990
I pamiętaj, że podczas 10 kroków usłyszymy słowa na dziesięciu krokach, aby uzyskać skumulowane nagrody

03:58.050 --> 03:59.550
w 10 krokach.

03:59.550 --> 04:02.250
I to jest właśnie test kwalifikowalności.

04:02.250 --> 04:09.350
Teraz musimy zrobić te kroki tutaj i tworzymy je z drugą klasą, którą mamy w tym

04:09.360 --> 04:13.040
pliku powtórzenia doświadczenia, który jest krokiem do przodu.

04:13.160 --> 04:24.430
Teraz zamierzamy to zrobić, a to będzie przedmiotem krokowej klasy postępu, którą podejmujemy

04:24.430 --> 04:30.650
ponownie z naszego doświadczenia, w którym gramy.

04:30.940 --> 04:31.720
No to jedziemy.

04:31.840 --> 04:37.160
Tak więc jest to klasa anty-postępowa, a teraz musimy przedstawić trzy argumenty, ponieważ, jak

04:37.180 --> 04:41.010
widzicie, musimy umieścić środowisko, które jest środowiskiem, które tutaj zaimportowaliśmy.

04:41.230 --> 04:47.680
Drugim argumentem jest nasza sztuczna inteligencja, a to oczywiście sztuczna inteligencja, którą

04:47.830 --> 04:55.550
zbudowaliśmy tutaj w U. S. a ostatni argument jest krokiem w tym, w którym określimy,

04:55.570 --> 04:59.120
że chcemy 10 kroków, które znasz, aby uczyć się co 10 kroków, czyli co 10 przejść.

04:59.200 --> 05:01.140
Pomóżmy więc z tymi argumentami.

05:01.180 --> 05:06.920
Pierwszym z nich jest środowisko i to jest katastrofa i wszystko w porządku.

05:06.940 --> 05:11.700
Druga to nasza sztuczna inteligencja i to my policzyliśmy ai ai.

05:11.830 --> 05:12.720
To tutaj.

05:12.760 --> 05:17.590
Jest to po prostu nazwa argumentu kroku postępu i tego ai ai.

05:17.590 --> 05:19.730
Oto nasza ai ai.

05:19.750 --> 05:27.150
Ten, który zbudowaliśmy, a następnie ostatni argument, jest ustawiony i jest równy 10.

05:27.160 --> 05:27.910
W porządku.

05:27.910 --> 05:33.670
W tej chwili właśnie uwzględniamy w pamięci, że uczenie się odbywa się na 10 krokach, a to

05:33.670 --> 05:37.210
uczenie się na 10 krokach nosi nazwę śladu kwalifikowalności.

05:37.240 --> 05:39.520
Więc pracujemy tutaj nad zaawansowanymi materiałami.

05:39.640 --> 05:44.160
Ale pamiętajcie, że to dlatego, że próbujemy być Dume'em, a to nie jest jak robienie kawałka ciasta.

05:44.290 --> 05:47.650
Potrzebujemy tych zaawansowanych technik, aby to zadziałało.

05:47.660 --> 05:48.880
Teraz jesteśmy prawie gotowi.

05:48.880 --> 05:55.450
Zanim przejdziemy do następnego etapu, który będzie faktycznie na temat wdrażania tacek LGBT,

05:55.450 --> 06:03.730
jedyną rzeczą, którą musimy uwzględnić, jest oczywiście pojemność, a to powiedzmy, że 10000 mężczyzn będzie mieć rozmiar

06:03.730 --> 06:11.470
10000, co oznacza, że pamięć będzie zawierała ostatnie 10000 kroków wykonanych przez sztuczną inteligencję, które

06:11.500 --> 06:13.810
pozwolą nam wygenerować kilka.

06:13.930 --> 06:16.020
Jak pamiętam, była to prosta funkcja.

06:16.180 --> 06:22.840
Wiesz, że pamięć zawiera 10000 przejść, ale aby wytrenować oko, będziemy próbować tyle partii dziesięciu przejść,

06:22.840 --> 06:28.360
a nie jednego, przed 10 przejściami tym razem, a my spróbujemy tych

06:28.360 --> 06:33.490
mini partii 10 przejściowych w pamięci złożonych ze 10000 kroków .

06:33.490 --> 06:38.770
W porządku, więc teraz myślę, że jesteśmy gotowi przejść do następnego kroku, który dotyczy wdrażania

06:38.770 --> 06:39.490
śladu kwalifikowalności.

06:39.520 --> 06:41.680
Więc mamy tu trochę przygody.

06:41.680 --> 06:43.690
To nie będzie prosta implementacja.

06:43.720 --> 06:47.830
Więc zrób sobie przerwę i kiedy będziesz gotowy, możemy zaatakować to.

06:47.920 --> 06:49.120
I wtedy ciesz się.