WEBVTT

00:00.830 --> 00:04.470
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.580 --> 00:09.520
Mam nadzieję, że jesteś podekscytowany dzisiejszym tutorialem, ponieważ robimy pierwszy krok w świat

00:09.520 --> 00:10.170
I.

00:10.460 --> 00:13.150
A dzisiaj mówimy o uczeniu się wzmacniania.

00:13.280 --> 00:18.710
Jest to bardzo ważna historia, ponieważ będzie stanowić podstawę wszystkiego, co ma się wydarzyć w tym kursie.

00:18.770 --> 00:21.010
Zacznijmy tutaj.

00:21.020 --> 00:27.140
Mamy mały labirynt, a ten labirynt jest naszą reprezentacją środowiska i właśnie z tym będziemy mieli

00:27.140 --> 00:29.210
do czynienia w tym kursie.

00:29.210 --> 00:34.040
Będziemy mieli do czynienia z pewnymi środowiskami, w których nasza sztuczna inteligencja będzie

00:34.040 --> 00:39.950
działała, że będzie podejmować działania, których będzie szukała, aby pokonać te w moim zamierzaniu, że będzie

00:39.950 --> 00:42.350
szukała wygrać w tych środowiskach.

00:42.350 --> 00:44.190
I tu mamy agenta.

00:44.360 --> 00:46.990
Agent to nasza sztuczna inteligencja.

00:47.030 --> 00:52.910
To jest osoba lub umysł, który będzie poruszał się w tych środowiskach i uczył się na podstawie informacji

00:53.000 --> 00:57.110
zwrotnych, które ich umysły będą przekazywać w celu wykonania określonych czynności.

00:57.150 --> 01:02.180
Tak więc działa w taki sposób, że agent wykonuje określone działania w tym środowisku.

01:02.360 --> 01:09.050
W rezultacie stan, w którym się znajduje, zmieni się, więc może być dalej lub bliżej, lub bardziej w lewo, bardziej

01:09.050 --> 01:10.070
w prawo.

01:10.070 --> 01:15.030
Może mieć inne parametry, które opisują stan i te parametry.

01:15.100 --> 01:20.970
Tak więc stan zmieni się z powodu działania akcji, a także otrzyma nagrody w oparciu o akcję.

01:20.970 --> 01:24.950
Za każdym razem, gdy podejmuje działanie, państwo się zmieni i otrzyma nagrodę.

01:24.950 --> 01:29.170
Pamiętaj, że czasami może się zdarzyć, że nie zmieni to stanu, w którym działanie

01:29.170 --> 01:33.070
nie zmieni pobytu, lub że nie będzie nagrody za podjęcie tego działania.

01:33.110 --> 01:34.530
W tym sensie było.

01:34.670 --> 01:38.480
Niemniej jednak agent będzie nadal robił to, podejmując działania oszukując

01:38.480 --> 01:42.510
państwo otrzymując nagrody zmieniające działania podejmujące działania zmieniające stan i otrzymujące nagrody.

01:42.800 --> 01:47.840
A dzięki temu procesowi będzie się uczyć o tym, co będzie badać

01:48.200 --> 01:53.970
środowisko, zrozumienie, jakie działania prowadzą do dobrych nagród i sprzyjających stanów oraz jakie działania

01:53.990 --> 01:55.840
obaj nagradzają niekorzystnym stanem.

01:56.000 --> 01:59.690
A to bardzo uproszczony reprezentacyjny, bardzo globalny problem.

01:59.690 --> 02:04.390
Więc jeśli myślisz o tym, środowiska wcale nie muszą być po prostu labiryntami.

02:04.400 --> 02:09.170
Nie chodzi tylko o wydostanie się z labiryntu lub odnalezienie skarbu w labiryncie.

02:09.170 --> 02:11.740
Środowisko może być praktycznie wszystkim w życiu.

02:11.750 --> 02:15.180
Więc wyobraź sobie, że budzisz się rano i gotujesz omlet.

02:15.410 --> 02:22.010
Aby zrobić omlet, musisz przejść przez pewne kroki, aby uzyskać sól, aby jajka dostały patelnie,

02:22.010 --> 02:27.770
do których można strzelać i tak dalej. Brzmi to jak zwykła, przyziemna rzecz.

02:27.770 --> 02:29.870
Ale stało się to rutyną, ponieważ robiłeś to tyle razy.

02:29.960 --> 02:34.670
Ale w rzeczywistości jest to środowisko, w którym wykonujesz określone czynności, które wkładasz,

02:34.670 --> 02:40.250
kładziesz na siebie ogień, kładziesz patelnię na ogniu, wkładasz wszystkie jajka na patelnię i wkładasz sól

02:40.250 --> 02:43.190
do jajek i odwracasz się i tak dalej.

02:43.190 --> 02:49.970
Tak więc, jak widać, są one działaniami CRN, które podejmują pewne stany, a te działania prowadzą do pewnych

02:49.970 --> 02:52.460
innych stanów, a czasem do nagrody.

02:52.460 --> 02:57.650
Tak na przykład, kiedy włożysz ogień i poczekasz, poczekaj, czekaj, czekaj, aż podejmiesz decyzję:

02:57.650 --> 03:01.900
czekaj, czekaj, poczekaj zbyt długo, a następnie włóż jajka na patelnię.

03:01.910 --> 03:03.560
Nagrody będą bardzo negatywne.

03:03.560 --> 03:05.120
Wszystko spłonie.

03:05.120 --> 03:10.130
Z drugiej strony, jeśli wykonasz wszystkie właściwe działania we właściwym czasie, ważne jest również

03:10.130 --> 03:13.850
zrozumienie, że działania powinny być podejmowane we właściwych momentach.

03:13.850 --> 03:20.090
Na przykład umieszczenie soli na patelni przed włożeniem jaj może nie być najlepszym

03:20.090 --> 03:20.770
pomysłem.

03:20.780 --> 03:26.190
Możesz wziąć tę akcję wkładania soli do patelni po tym, jak jaja są

03:26.200 --> 03:28.320
tam, w innym stanie.

03:28.370 --> 03:29.620
Ważne jest, aby o tym pamiętać.

03:29.780 --> 03:34.070
A jednocześnie, jeśli weźmiesz wszystkie właściwe działania w prawidłowej kolejności we właściwych

03:34.580 --> 03:38.840
stanach, ostateczną nagrodą może być otrzymanie omletu, który możesz zjeść.

03:38.900 --> 03:44.660
Jest to bardzo podstawowa czynność w twoim życiu, ale jeśli o tym pomyślisz, to jest to środowisko, a

03:44.990 --> 03:50.060
ty jesteś agentem przechodzącym przez to środowisko i wykonujesz zadanie, którego naprawdę nie musisz się uczyć,

03:50.060 --> 03:52.190
ponieważ już to dobrze znasz .

03:52.220 --> 03:56.170
Ale w tym samym czasie możesz się nauczyć, że możesz nauczyć się, jak zrobić lepszy omlet, a

03:56.340 --> 03:59.010
zwłaszcza jeśli to twój pierwszy omlet, który robisz, prawdopodobnie go spieprzysz.

03:59.030 --> 04:04.010
Ale nauczysz się z tego, ponieważ zrozumiesz, jakie działania prowadzą do stanów i szlaków oraz

04:04.490 --> 04:05.890
cokolwiek innego w życiu.

04:06.050 --> 04:11.900
Na przykład nawet handel na giełdzie i wiesz, kupując i sprzedając i uzyskując pewne informacje

04:11.900 --> 04:16.390
zwrotne od rynku w sensie zwrotu pozytywnych lub negatywnych zysków.

04:16.430 --> 04:20.160
To także środowisko, w którym uczestniczycie w tym środowisku jako starzejący się.

04:20.210 --> 04:25.220
Prowadzenie samochodu to także środowisko, w którym można obrócić kierownicę, którą można przyspieszyć, aby się zepsuć

04:25.220 --> 04:29.510
i tak dalej, a otrzymujesz informacje zwrotne od otoczenia i wiesz, że jedną

04:29.510 --> 04:35.840
z tych reakcji jest policjant, który daje ci mandat za przekroczenie prędkości, jeśli " przekraczanie dopuszczalnego lub dozwolonego ograniczenia prędkości

04:35.840 --> 04:36.960
na tej autostradzie.

04:37.040 --> 04:41.900
A zatem stamtąd dowiadujesz się, że nie należy tego robić, ponieważ prowadzi to do

04:41.900 --> 04:43.020
negatywnej nagrody.

04:43.220 --> 04:45.590
Więc nagrody nie muszą być po prostu na samym końcu procesu.

04:45.590 --> 04:48.020
Mogą być w trakcie całej podróży przez cały proces.

04:48.020 --> 04:49.490
Oto kilka przykładów.

04:49.490 --> 04:54.980
I w kategoriach I najprostszy sposób myślenia o uczeniu się wzmacniania jest jak trening psa, kiedy trenujesz psa, abyś

04:54.980 --> 05:00.270
dał mu pewne polecenia i jeśli spełnia te polecenia, to dajesz mu zasięg, który dajesz mu jak biszkopt

05:00.440 --> 05:04.820
czy coś takiego. jeśli nie Abeles Kamaz, powiesz mu, że to zły pies, albo po

05:04.820 --> 05:06.600
prostu nie dajesz mu przyjemności.

05:06.830 --> 05:13.820
I dzięki temu procesowi uczy się, jakie określone polecenia lub czego potrzebuje, aby zrobić to, co trzeba,

05:13.820 --> 05:18.470
aby podjąć pewne stany, a stany to polecenia, które dajesz.

05:18.470 --> 05:22.700
I na tej podstawie otrzyma pewne pewne korzyści w świecie sztucznej inteligencji.

05:22.700 --> 05:24.590
To nie jest takie skomplikowane.

05:24.590 --> 05:26.910
Nie musisz dawać smakołyków.

05:26.960 --> 05:32.120
Nie musisz mieć przy sobie torby z herbatnikami za każdym razem, gdy dajesz jej

05:32.120 --> 05:37.290
plus lub minus, więc to ogromna zaleta, że w świecie sztucznej inteligencji sami stworzyliśmy te sztuczki.

05:37.310 --> 05:42.680
Więc nagrodą, którą im dajemy, jeśli myślisz, że to naprawdę fajne nagrody, dajesz im,

05:42.680 --> 05:48.490
że tak naprawdę nie istnieją, to tylko plus lub minus jeden lub plus jeden, zero lub coś.

05:48.500 --> 05:51.100
Wszystko to jest nieistnieniem wszystkich wymyślonych rzeczy.

05:51.110 --> 05:56.300
Ale jednocześnie prowadzi to do doskonałych rezultatów, ponieważ możemy stworzyć te niesamowite rzeczy, te

05:56.300 --> 06:01.760
niesamowite sztucznej inteligencji, jak ta niesamowita sztuczna inteligencja, dostarczając tylko nagród, których tak naprawdę nie ma.

06:01.790 --> 06:05.670
Plus i minus jeden nie kosztuje nic, ale wyniki w tym samym czasie wydania.

06:05.900 --> 06:08.170
Tak bardzo podobny do prawdziwego świata.

06:08.210 --> 06:15.140
I wiesz na przykład Dokes Ale tutaj nagrody są cyfrowe i tylko liczby.

06:15.140 --> 06:20.920
Mając to na uwadze, możemy porozmawiać o robotach, które uwielbiam ten przykład, więc to jest właśnie

06:20.920 --> 06:26.630
na zdjęciach, niekoniecznie ten dokładny pies-robot, który znasz, który został przeszkolony przez uczenie się wzmacniania,

06:26.710 --> 06:31.050
niektóre z psów-robotów, zwłaszcza te starsze, które miałbyś tam jest algorytm.

06:31.370 --> 06:39.260
I to jest rzeczywiście dobry przykład różnicy między zaprogramowanymi agentami i agentem uczenia się zbrojenia,

06:39.260 --> 06:46.120
więc możesz mieć psa robota, który jest zaprogramowany do tego, jak chodzić, powie.

06:46.160 --> 06:51.500
Tak więc w algorytmie znajdującym się za psem w oprogramowaniu będzie napisane OK, więc aby chodzić, musisz przesunąć lewą nogę

06:52.370 --> 06:58.160
do przodu, lewa przednia noga do przodu, a następnie tylną prawą nogę do przodu, a następnie przednią prawą nogę do przodu,

06:58.160 --> 07:02.480
a następnie tylną lewą nogę do przodu. i powtórz to działanie i wiesz, że to

07:02.480 --> 07:04.870
jest definicja chodzenia jest funkcją wewnątrz tego psa.

07:05.040 --> 07:09.060
A potem może wiesz, jak siedzieć, jak stać i takie rzeczy.

07:09.680 --> 07:16.710
Podczas gdy u psa-robota, który jest wyszkolony w uczeniu się wzmacniania, to, co się dzieje, nie jest zaprogramowany.

07:16.730 --> 07:23.810
Jest to kluczowa koncepcja dla wszystkiego tutaj, że nie masz żadnego algorytmu w środku, który jest mocno zakodowany

07:23.810 --> 07:24.850
w psie.

07:24.860 --> 07:28.300
Zamiast tego masz to, o czym będziemy dyskutować w przyszłości.

07:28.460 --> 07:36.710
Masz ten algorytm uczenia się zbrojenia, o którym mówiono, że jest OK, więc celem jest uzyskanie z miejsca,

07:36.860 --> 07:41.990
w którym nie wiesz nic na ten temat do końca pokoju.

07:42.170 --> 07:44.270
A oto niektóre działania, które możesz podjąć.

07:44.270 --> 07:48.950
Możesz poruszać prawą stopą, możesz przesunąć lewą stopę, możesz przesunąć prawą tylną stopę, a ty masz z powrotem

07:48.950 --> 07:53.000
stopę, więc tutaj wszystkie stopnie swobody, które możesz zrobić, możesz przesunąć to tak, że możesz

07:53.000 --> 07:59.180
poruszać się w ten sposób, tak jak lista Działania, które możesz wykonać, a twoje nagrody są za każdym razem, gdy robisz krok do przodu,

07:59.210 --> 08:01.430
otrzymujesz plus za każdym razem, gdy się przewrócisz.

08:01.430 --> 08:04.090
Dostajesz minus jeden i to wszystko.

08:04.160 --> 08:07.390
A potem po prostu zostawiają psa i pozwalają mu samemu się zorientować.

08:07.400 --> 08:13.460
Więc pies próbuje wstać, a potem zdaje sobie sprawę, że nie powinienem robić tego, co doprowadziło mnie do upadku, ponieważ za

08:13.460 --> 08:17.040
każdym razem, gdy padam, dostaję minus, który nie jest dla mnie dobry.

08:17.060 --> 08:21.560
Tak samo jak inne działania, które pomogły mu wstać, a następnie dane liczbowe są

08:21.560 --> 08:26.090
po prostu eksperymentami eksperymentów eksperymentuje losowo na rzeczach tri, a następnie odkrywa, że może zrobić

08:26.090 --> 08:31.410
krok naprzód, przesuwając prawą przednią stopę i dostaje plus jeden i uświadomić sobie, że powinienem zrób więcej tego.

08:31.460 --> 08:35.620
Świetnie, więc teraz dowiaduje się, że powinna zrobić więcej tego i mniej tego.

08:35.630 --> 08:42.270
Dzięki temu procesowi uczenia się szybko bardzo szybko rozumie, jak może chodzić.

08:42.410 --> 08:49.130
A te psy, które same wyruszyły na własną rękę, mogą czasami chodzić lepiej niż psy, które są zaprogramowane,

08:49.130 --> 08:53.930
ponieważ naprawdę zaprogramowane rzeczy patrzymy na prawdziwe psy i czy wiesz, że

08:53.930 --> 09:00.300
używamy własnej wyobraźni, jak to zrobić, podczas gdy pies uczący się wzmacniający może optymalizować rzeczy samemu.

09:00.320 --> 09:03.540
A ponieważ w Sztucznej Inteligencji czasami może uzyskać jeszcze lepsze wyniki.

09:03.680 --> 09:05.290
I w ten sposób mogą szkolić tego robota.

09:05.320 --> 09:07.320
Te same roboty do gry w piłkę nożną.

09:07.520 --> 09:12.970
Możesz wyszkolić normalnego psa do gry w piłkę nożną, ponieważ wiesz, że całe podejście jest inne.

09:12.980 --> 09:20.900
I nie jest to coś, o czym wiesz, że prawdopodobnie normalny pies został przeszkolony do zrobienia lub kiedykolwiek zrobił

09:20.900 --> 09:23.030
w swoim procesie ewolucji.

09:23.030 --> 09:28.190
Podczas gdy pies uczący się ze wzmacniacza może bardzo łatwo zrozumieć, jak grać w piłkę nożną,

09:28.190 --> 09:32.760
o ile powie im, jakie są nagrody, jakie są cele, jakie mogą podjąć.

09:33.080 --> 09:36.390
Tak właśnie działa uczenie się wzmacniania.

09:36.410 --> 09:39.160
Ogólnie istnieje krótki przegląd uczenia się wzmacniania.

09:39.170 --> 09:45.500
Mam nadzieję, że bardzo się cieszymy, że będzie następny, ponieważ jest to zupełnie inny świat

09:45.530 --> 09:51.980
w porównaniu do preprogramowych rozwiązań twardych programów zakodowanych na twardym dysku, gdzie masz warunki, jeśli chcesz.

09:51.980 --> 09:53.750
To jest zupełnie inne.

09:53.840 --> 09:56.010
I będziemy mówić o tym więcej.

09:56.150 --> 10:03.400
W międzyczasie mamy dla ciebie dodatkowe czytanie, więc jeśli chcesz mieć jakieś materiały pomocnicze Oto świetny

10:03.700 --> 10:06.810
artykuł, który możesz obejrzeć i obejrzeć.

10:06.830 --> 10:09.300
Nazywa się to prostym uczeniem się wzmacniania z przepływem tensorowym.

10:09.430 --> 10:10.570
Ma dziesięć części.

10:10.570 --> 10:14.790
Link znajduje się tutaj, a znajdziesz pełny link, który można kliknąć.

10:14.820 --> 10:22.540
W trakcie zasobów artykułu Arthura Giulianiego z 2016 r. Możesz śledzić ten kurs, a także uzyskać dodatkowe

10:22.540 --> 10:24.770
informacje z tego artykułu.

10:24.790 --> 10:30.010
Pamiętaj jednak, że ten artykuł ma tendencję do przepływania tam, gdzie, jak

10:30.520 --> 10:35.830
w tym kursie, używamy wielu różnych implementacji, ale implantów, ale jednocześnie możesz wybrać kilka

10:35.830 --> 10:41.260
rzeczy, które mogą uzupełnić twoje uczenie się, że jesteśmy będzie robić w tym kursie.

10:41.260 --> 10:44.910
Świetne artykuły podążają za Tobą, jeśli z pewnością myślisz o tym.

10:44.920 --> 10:45.820
Wciąż na wszelki wypadek.

10:45.820 --> 10:51.890
Sprawdź tę pierwszą część i sprawdź, czy podoba Ci się, czy chcesz ją przeczytać nieco więcej.

10:52.210 --> 10:58.210
A potem mamy specyficzne dla tego tutoriala uczenie się egzekwowania granic jest dokument Richarda Suttona, który

10:58.210 --> 11:00.380
nazywa się uczeniem się wzmacniania.

11:00.420 --> 11:08.170
Jednym ze wstępów jest to, że artykuły z 1998 roku są dość stare, ale jednocześnie można się trochę nauczyć o wzmacnianiu,

11:08.170 --> 11:13.960
ucząc się niektórych przykładów takich jak ten przykład omletu i innych przykładów, gdzie można zastosować uczenie

11:13.960 --> 11:17.710
się wzmacniające i ogólny przegląd uczenia się o wzmocnieniu.

11:17.710 --> 11:23.220
Jeśli szukasz dodatkowej lektury i tej notatki, podsumujemy ten samouczek.

11:23.230 --> 11:24.640
Nie mogę się doczekać, aby zobaczyć cię następnym razem.

11:24.640 --> 11:26.560
A do tego czasu ciesz się AI.