WEBVTT

00:01.400 --> 00:02.990
Witam ponownie.

00:03.320 --> 00:08.930
W ostatnim wykładzie zakończyliśmy lub sfinalizowaliśmy faktyczną definicję naszego środowiska, reprezentację naszych

00:08.930 --> 00:14.090
wartości, naszą karę w postaci nagród i nasze działania w środowisku.

00:14.450 --> 00:20.510
W tym wykładzie chcę przedstawić szkolenie, ideę, jak trenować model i

00:20.510 --> 00:22.730
pomóc Ci zacząć.

00:22.910 --> 00:28.340
A następnie w następnym wykładzie podaj rozwiązanie i opis poszczególnych kroków.

00:28.610 --> 00:32.660
Musimy więc wytrenować model, co byłoby wymagane do szkolenia.

00:33.620 --> 00:38.750
Jest to podejście, którego możemy użyć w następujących krokach do trenowania modelu.

00:38.750 --> 00:44.180
Chcemy wybrać losowy stan nieterminalny, który byłby białym kwadratem naszego agenta i tak

00:44.180 --> 00:46.880
chcemy rozpocząć nasz odcinek szkolenia.

00:47.330 --> 00:50.300
Wtedy oczywiście chcemy wybrać akcję dla aktualnego stanu.

00:50.300 --> 00:53.030
Potrzebujemy, aby nasz agent mógł poruszać się po środowisku.

00:53.210 --> 00:59.150
Zatem działania dla nas i naszego agenta w tym wyzwaniu zostaną wybrane po grecku Epsilon.

00:59.780 --> 01:04.730
Algorytm ten zwykle wybiera najbardziej obiecującą akcję dla agenta, ale czasami wybiera mniej

01:04.730 --> 01:05.810
obiecującą opcję.

01:05.810 --> 01:10.580
Aby zachęcić agenta do eksploracji otoczenia, naprawdę chcemy znaleźć optymalną politykę.

01:11.300 --> 01:14.960
Następnie chcemy wykonać wybraną akcję i przejść do kolejnego stanu.

01:15.200 --> 01:16.340
Przejdź do następnej lokalizacji.

01:16.550 --> 01:21.200
I dlaczego to mówię, chcę, żebyście pomyśleli o tym, jak podzielić to na funkcje,

01:21.200 --> 01:22.760
aby rozwiązać ten problem.

01:23.540 --> 01:29.390
Następnie musimy otrzymać nagrodę za przejście do nowego stanu, a następnie obliczyć różnicę czasową.

01:29.750 --> 01:35.480
Musimy zaktualizować wartość Q dla poprzedniej pary stanów i akcji, a jeśli nowa waluta jest stanem

01:35.480 --> 01:37.280
terminalnym, przejdziemy do jednego.

01:37.610 --> 01:39.200
W przeciwnym razie przeszlibyśmy do kroku numer dwa.

01:39.470 --> 01:43.400
Więc cały proces zamierzamy uruchomić przez tysiąc odcinków do trenowania.

01:43.670 --> 01:50.750
To da nam wystarczająco dużo okazji lub naszemu agentowi wystarczającą szansę na obliczenie najkrótszej drogi między

01:50.750 --> 01:55.520
obszarem pakowania przedmiotów a innymi lokalizacjami w naszym przykładowym mieście.

01:56.540 --> 01:57.020
Niesamowite.

01:57.530 --> 02:02.840
Więc proszę zastanów się, jak do tego podchodzisz, a chcę pomóc Ci w rozwiązaniu tego problemu.

02:03.050 --> 02:07.970
Więc przyjrzymy się naszemu rozwiązaniu, będziemy używać następujących funkcji.

02:08.540 --> 02:11.540
Właściwie mogę to skomentować, ponieważ jest to kod, więc przepraszam.

02:11.960 --> 02:13.070
Nie chcemy znaku dolara.

02:13.310 --> 02:17.990
Chcemy je skomentować, a pomogę Ci zacząć od pierwszego.

02:18.990 --> 02:25.650
Ogólnie rzecz biorąc, będziemy mieć te funkcje, które definiują nasze kroki w zakresie trenowania modelu i ułatwiają

02:25.650 --> 02:26.470
rozpoczęcie pracy.

02:26.490 --> 02:31.440
Rzućmy okiem na to, jak podeszlibyśmy do stanu terminala podczas tworzenia funkcji w pythonie.

02:31.800 --> 02:36.150
Najpierw oczywiście chcielibyśmy zdefiniować naszą funkcję taką, jaka jest.

02:37.640 --> 02:39.230
Stan terminala.

02:40.670 --> 02:44.630
A to są nazwy funkcji, które zobaczysz, aby dać ci pomysł, który może pomóc ci to

02:44.630 --> 02:45.050
rozbić.

02:45.500 --> 02:50.870
To, co chcemy zrobić, to wziąć bieżący indeks wiersza i bieżący indeks kolumny.

02:52.980 --> 03:01.440
Pomoże nam to dać nam pozycję naszego agenta i możemy dodać tutaj dla naszych nagród prawdę lub

03:01.440 --> 03:02.000
fałsz.

03:02.010 --> 03:02.610
Więc tego potrzebujemy.

03:03.150 --> 03:05.490
Ustalmy więc nasze, jeśli nasze nagrody.

03:07.430 --> 03:08.300
Z naszego prądu.

03:09.410 --> 03:11.270
Indeks wiersza.

03:12.510 --> 03:13.260
I aktualne.

03:14.040 --> 03:19.890
Indeks kolumny równy minus jeden, jeśli są w tym stanie.

03:24.330 --> 03:28.200
Zwrócilibyśmy fałszywe lub w inny sposób lub inaczej.

03:29.880 --> 03:30.690
Wrócilibyśmy.

03:31.500 --> 03:31.830
Prawdziwe.

03:33.620 --> 03:34.670
Dość proste.

03:35.450 --> 03:41.360
I w ten sposób zrozumiemy nasze wyobrażenie o naszym stanie terminalnym po tym, jak jeśli istnieje

03:41.360 --> 03:44.090
w stanie terminalnym, chcemy uzyskać lokalizację początkową.

03:44.270 --> 03:50.660
Jako wskazówkę możesz przyjrzeć się użyciu bieżącego indeksu wiersza w bieżącym indeksie kolumny i ustawieniu

03:50.660 --> 03:52.730
numpy za pomocą losowego.

03:52.730 --> 03:56.960
Chcemy zainicjować to losowo w kolumnach środowiska wierszy środowiska.

03:57.290 --> 04:00.590
Ale w następnym wykładzie zobaczysz awarię.

04:00.590 --> 04:04.520
Zobaczysz pozostałe funkcje z kilkoma uwagami, które pomogą Ci zorientować się.

04:04.880 --> 04:08.960
Naprawdę mam nadzieję, że skorzystacie z okazji, aby z tym poeksperymentować, ponieważ jest to po prostu niesamowity sposób na

04:08.960 --> 04:12.050
nauczenie się, aby pomóc wam w podsunięciu pomysłu i to jest dobry początek.

04:12.260 --> 04:15.080
Więc nie martw się, rozwiązanie znajdziesz w następnym wykładzie.

04:15.320 --> 04:21.730
A potem zamierzamy podsumować, przypisując doskonały współczynnik rabatowy na naukę tego rodzaju rzeczy

04:21.800 --> 04:25.490
do szkolenia, prowadzenia szkolenia i przeglądania wyników.

04:26.030 --> 04:26.660
Niesamowite.

04:27.380 --> 04:29.360
Zatrzymajmy się tutaj ponownie.

04:29.750 --> 04:30.830
Spróbuj to rozwiązać.

04:30.830 --> 04:35.360
Ale jeśli nie, to jeśli chcesz tylko przejść dalej, przejdź do następnego wykładu, a

04:35.360 --> 04:37.910
dostaniesz rozwiązanie do treningu definiowania tych funkcji.

04:38.450 --> 04:40.130
Dobra, do zobaczenia na następnym wykładzie.