WEBVTT

00:01.090 --> 00:04.270
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.290 --> 00:07.260
Dzisiaj mówimy o kary żywej.

00:07.600 --> 00:13.540
W porządku, więc mamy tutaj równanie Belmana i gdy przechodzimy ten kurs,

00:13.540 --> 00:20.030
powoli stajemy się coraz bardziej złożeni, więc do tej pory dodaliśmy już te prawdopodobieństwa.

00:20.200 --> 00:22.930
A także dodaliśmy współczynnik dyskontowania.

00:22.930 --> 00:28.440
Teraz przyjrzymy się bardziej szczegółowo po tej stronie pytania, w którym mamy teraz nagrodę.

00:28.480 --> 00:34.660
Pamiętasz wcześniej, kiedy rozmawialiśmy o tym, jak działa uczenie się wzmacniające, powiedzieliśmy, że mamy

00:34.660 --> 00:41.290
agenta, który wykonuje działania w środowisku i w wymianie, albo w wyniku czego otrzymuje nowy stan,

00:41.320 --> 00:45.600
który jest teraz dostępny i nagrodę za to działanie.

00:45.610 --> 00:52.210
Jak na razie w naszym przykładzie otrzymujemy nagrody tylko na samym końcu, jeśli dojdziemy do mety

00:52.210 --> 00:58.640
lub jeśli agenci znajdą się w ognisku, dostaje on jedną lub minus jedną nagrodę.

00:58.960 --> 01:05.770
Jest to jednak bardzo uproszczone podejście do uczenia się o wzmocnienie i bardziej realistyczne scenariusze, które zapewne zapewnią nagrody podczas

01:05.800 --> 01:11.380
całej podróży, nie tylko na samym końcu, na którym możesz otrzymać nagrody w trakcie podróży.

01:11.380 --> 01:20.680
Na przykład, jeśli jest to sztuczna inteligencja grająca w grę i jeśli na przykład to jak strzelanie do kogoś w

01:20.680 --> 01:26.320
zagładę, może otrzymać punkty za zabicie tego wroga lub inną grę.

01:26.470 --> 01:32.260
Jeśli wyprzedzi inny samochód lub coś podobnego tylko ze względu na zasady gry, nie

01:32.260 --> 01:39.400
ze względu na sposób analizowania gry, ale w rzeczywistości gra jest tak skonstruowana, że wzmacnia jej punkty za

01:39.400 --> 01:43.230
wykonywanie określonych czynności jeszcze przed rozpoczęciem gry. koniec.

01:43.540 --> 01:49.570
Tak więc takie Sinatras są bardzo popularne, nie tylko w grach, ale także w prawdziwym życiu i

01:49.570 --> 01:55.120
dlatego zamierzamy wprowadzić coś podobnego do naszego przykładu, uproszczoną wersję tego, ale jednak nagrodę,

01:55.330 --> 02:01.180
która jest nieustannie przekazywana agentowi przez całą grę nie tylko na końcu i sposobem, w jaki

02:01.180 --> 02:04.450
zamierzamy to zrobić, to patrząc na inne płytki.

02:04.450 --> 02:10.060
Tak więc teraz mamy tylko nagrodę plus jedną przy końcowej płytce i nagrodę minus 1 przy drugiej

02:10.060 --> 02:11.530
końcowej płytce w palenisku.

02:11.800 --> 02:14.310
Ale teraz będziemy dodawać nagrody za każdym razem.

02:14.430 --> 02:17.770
Dodamy bardzo małą nagrodę będzie minus 0. 04.

02:17.770 --> 02:23.440
A jak widzisz, jest to ujemne, więc za każdym razem, gdy agent się porusza, otrzyma negatywną nagrodę i to jest

02:23.440 --> 02:28.300
to, co nazywa się żywą karą, ponieważ bez względu na to, gdzie pójdzie, zawsze otrzyma tę negatywną nagrodę,

02:28.450 --> 02:31.000
z wyjątkiem końcowych płytek, ponieważ to koniec gra.

02:31.300 --> 02:35.120
I tak możesz zobaczyć nagrodę nawet na tym kafelku jest szaleństwo lub zagadka.

02:35.170 --> 02:37.960
Ale to nie znaczy, że zaczyna od tej nagrody.

02:37.960 --> 02:39.470
Otrzyma tylko tę nagrodę.

02:39.760 --> 02:44.860
Ważne jest, aby pamiętać, że otrzymuje on nagrodę tylko wtedy, gdy wejdzie na kafelek, więc za każdym razem,

02:44.860 --> 02:51.110
gdy obiecał akcję, którą podejmie, otrzyma tę nagrodę minus 0. 04, a potem wraca do tego stylu, dostanie inny

02:51.130 --> 02:53.650
umysł i 0. 04 słowo.

02:53.770 --> 03:00.370
Im dłużej chodzi, tym więcej nagromadza swoją negatywną nagrodę i dlatego jest dla niego zachętą do

03:00.370 --> 03:03.870
zakończenia gry tak szybko, jak to możliwe.

03:03.890 --> 03:10.390
Teraz przyjrzyjmy się, w jaki sposób nasza polityka lub polityka zmienią się w zależności

03:10.420 --> 03:14.150
od tego, jaką ustawimy dla tej nagrody.

03:14.410 --> 03:18.730
Oto cztery środowiska i w każdym z nich będziemy odkrywać inne.

03:18.770 --> 03:21.070
Nie będziemy robić obliczeń.

03:21.130 --> 03:25.690
Po prostu zamierzamy rzutować wyniki, a zobaczysz, że intuicyjnie mają one sens.

03:25.690 --> 03:31.820
A więc mamy nagrodę za jakąkolwiek ofertę krokową za wejście w jakikolwiek stan.

03:32.050 --> 03:32.830
Jest równa zero.

03:32.830 --> 03:36.890
Podobnie jak to, co widzieliśmy wcześniej, nagrodą będzie 0 Mei. 0.

03:36.910 --> 03:43.150
Za to, co właśnie zrobiliśmy, wiesz, że nagroda będzie wynosić minus 0. 5 lub poziom kary grzywny będzie mój, to

03:43.150 --> 03:47.690
ogień otwarty, o tyle wyżej, że możesz zobaczyć je tutaj ponad 10 razy większe.

03:47.800 --> 03:50.170
A oto żyjący Penhall będzie minus dwa.

03:50.170 --> 03:59.050
Więc nawet więcej niż nagrody za skoki, a nawet mniej niż nagroda, że jesteś agentem dostaje się

03:59.050 --> 04:00.700
do ognia.

04:00.700 --> 04:07.660
Przyjrzyjmy się zatem, jak działania lub optymalna polityka przejścia tego środowiska ulegną zmianie w zależności

04:07.660 --> 04:09.160
od tej nagrody.

04:09.170 --> 04:11.560
To jest nasza oryginalna polityka.

04:11.920 --> 04:18.280
A jak pamiętacie, mieliśmy dwie bardzo interesujące i nawet trochę dziwaczne decyzje agenta, ale

04:18.280 --> 04:23.950
to ma sens, jeśli może żyć tak długo, jak mu się podoba.

04:23.950 --> 04:29.530
Jeśli możesz po prostu podróżować tak długo, jak chce, nie ponosząc kary za pozostanie przy życiu

04:29.530 --> 04:30.430
bardzo długo.

04:30.670 --> 04:37.630
Dlaczego nie miałby po prostu wejść w kąt w ścianę i po prostu dalej to robić, dopóki to się nie

04:37.870 --> 04:38.470
stanie.

04:38.470 --> 04:41.300
Tak się składa, że idzie tą drogą, a potem będzie chodził.

04:41.500 --> 04:46.120
I tu jest o wiele bezpieczniej wskoczyć do ściany mając nadzieję, że jeden z

04:46.120 --> 04:51.970
nich ostatecznie się pojawi, a potem i tak dojdzie do mety, ponieważ wybierając te dwa działania, nie ryzykuje

04:51.970 --> 04:53.680
dostania się do ognia .

04:53.690 --> 04:59.950
Zobaczmy teraz, co się stanie, jeśli dodamy nagrodę za negatywną nagrodę za bycie życiem za zrobienie kroku.

05:00.270 --> 05:04.960
Przenieś się tutaj, możesz zobaczyć, że natychmiast te dwie zmienione.

05:04.970 --> 05:07.940
Teraz agent nie chce wskoczyć do ściany.

05:07.940 --> 05:13.490
Bardziej prawdopodobne jest, że zaryzykuje dostanie się do paleniska, mając 10 procent szans na skakanie, ale

05:13.490 --> 05:19.400
będzie jeździł dalej, ponieważ za każdym razem, gdy przyjedzie tutaj, jeśli będzie robił to tutaj, za każdym razem,

05:19.850 --> 05:24.620
gdy wskoczy do zdrowia, wykonuje akcję, którą kończy w tym stanie z 80-procentową

05:24.620 --> 05:24.990
szansą.

05:25.010 --> 05:31.180
A to oznacza, że masz 80 procent szans na otrzymanie minus 0. 04 nagroda oznacza, że przez

05:31.190 --> 05:34.940
większość czasu będzie on zbierał tę negatywną nagrodę.

05:34.940 --> 05:41.600
To samo, jeśli wskoczy do ściany, czekając na tę chwilę, kiedy zostanie losowo przesunięty

05:41.600 --> 05:42.780
w prawo.

05:42.980 --> 05:49.340
Jeśli nadal będzie to robił, to zgromadzi tę negatywną nagrodę, a wynik tego,

05:49.340 --> 05:55.670
jeśli wykonasz obliczenia, przekonasz się, że wynik tej oczekiwanej wartości tego podejścia

05:55.670 --> 06:02.840
skaczącego do ściany jest gorszy niż ryzyko pójścia do przodu. i faktycznie ląduje w palenisku.

06:02.840 --> 06:10.230
Więc zmienia swoje decyzje w tych dwóch blokach, aby zamiast tego ruszyć naprzód, a tutaj przesuń się w lewo, nawet wiedząc, że

06:10.230 --> 06:15.320
istnieje ryzyko pożaru w palenisku po prostu dlatego, że teraz im dłużej żyje, tym dłużej

06:15.320 --> 06:18.830
będzie on akumulował tę żywą karę w następnym środowisku.

06:18.830 --> 06:23.720
Teraz zwiększamy żywego Pounceya do nawet większej liczby Meinzer punkt pięć i zobaczmy, co się

06:23.720 --> 06:24.590
tutaj zmienia.

06:24.860 --> 06:27.220
Teraz możesz zobaczyć, że w porównaniu do tego środowiska.

06:27.260 --> 06:31.740
Zmieniło się tylko to, że strzałka skierowana jest w prawo.

06:32.060 --> 06:38.360
A to oznacza, że teraz nie jest to już dobra opcja dla agenta, a właściwie to te

06:38.360 --> 06:42.340
wskazujące strzałki wskazują lewy i dyszy nos skierowany w górę.

06:42.350 --> 06:48.740
Więc teraz nie jest już dobrym pomysłem, żeby agent odszedł stąd lub obejrzał go do końca, ponieważ jeśli pójdzie źle,

06:49.100 --> 06:53.330
tak, tak, jest bezpieczny lub istnieje mniejsza szansa, że nie ma szans na

06:53.340 --> 06:54.030
zdobycie paleniska.

06:54.320 --> 06:57.640
Ale w tym samym czasie, albo będzie mniejsza szansa, że się wydarzy.

06:57.710 --> 07:03.140
Ale jednocześnie będzie gromadził dość znaczną, negatywną nagrodę, gdy będzie chodził.

07:03.140 --> 07:05.540
Więc to tylko ta ścieżka jest za długa.

07:05.540 --> 07:12.350
Więc to zmusza go do tego, czy jest tutaj, czy tutaj, aby obrać krótszą trasę, nawet jeśli ma o wiele większe

07:12.350 --> 07:17.330
ryzyko dostania się do paleniska, ponieważ gdy tylko znajdzie się na placu, ma 10 procent

07:17.330 --> 07:19.350
szans na dotarcie do ognia .

07:20.120 --> 07:21.760
Według jego obliczeń.

07:21.800 --> 07:27.980
To tylko oczekiwana wartość tego podejścia jest lepsza niż oczekiwana wartość chodzenia po prostu dlatego,

07:27.980 --> 07:30.480
że zwiększyliśmy tę żywą karę.

07:30.710 --> 07:37.130
I w końcu dochodzimy do przykładu z karą śmierci minus dwa punkty zero.

07:37.130 --> 07:43.010
Dlatego zachęcamy do opublikowania filmu, gdy zobaczysz, jak zmieniła się polityka, gdy zwiększymy

07:43.010 --> 07:44.430
karę za ładowanie.

07:44.450 --> 07:49.850
Zachęcam do zatrzymania filmu i samemu zastanowić się, co się stanie w tym scenariuszu.

07:49.850 --> 07:57.070
Jak myślisz, jaka będzie optymalna polityka, że kara życia jest tak wysoka, więc wszystko to rzekome wideo,

07:57.090 --> 07:58.280
jeśli chcesz.

07:58.490 --> 08:04.880
A teraz zamierzam pokazać ci rozwiązanie, więc w tym przypadku, jeśli zwiększysz

08:04.880 --> 08:13.460
karę do minus 2. 0 jest tak wysoko, pamiętaj, że kara tutaj jest tylko minus 1. 0 jest tak wysoki, że agent po prostu

08:13.680 --> 08:18.540
chce wyjść z gry w jakikolwiek sposób, nawet jeśli jest to po prostu wskoczenie do ognia.

08:18.560 --> 08:19.200
On to zrobi.

08:19.220 --> 08:25.460
Będzie jak za każdym razem, gdy robię krok za każdym razem, gdy znajdę się w nowym stanie w

08:25.460 --> 08:30.020
twoim stanie lub za każdym razem, gdy podejmę działanie, otrzymam nagrodę minus dwie.

08:30.020 --> 08:36.280
Więc o co chodzi, żeby dojść do mety, jeśli stąd zrobię dwa dodatkowe kroki.

08:36.350 --> 08:41.060
Po prostu pójdę tutaj, a potem prosto do paleniska, ponieważ

08:41.060 --> 08:49.190
w ten sposób moja nagroda będzie mniejsza niż ujemna, będzie tak źle, jak w przypadku robienia dodatkowych

08:49.190 --> 08:56.770
kroków, więc widzisz, że dodanie tego życia Nagroda i zależnie od wartości żywej nagrody, że

08:56.780 --> 08:59.270
dodamy wyniki, będą różne.

08:59.270 --> 09:06.290
Agent wybierze różne polityki, a to w zasadzie, w jaki sposób wartość nagrody może zostać włączona przez równanie

09:06.440 --> 09:12.020
Belmonta, nawet gdy nie jest to tylko na mecie lub na końcu gry, ale

09:12.020 --> 09:13.790
nawet w trakcie gry.

09:13.790 --> 09:19.250
I znowu nie musi być na każdym pojedynczym stanie w zależności od

09:19.250 --> 09:20.180
samego środowiska.

09:20.180 --> 09:26.540
Może zostać przekazane agentowi w określonych stanach, nie w każdym stanie, ale w naszym uproszczonym przykładzie

09:26.540 --> 09:29.880
używamy jedynie nagród w każdym danym stanie.

09:30.050 --> 09:34.470
Aby zilustrować tę koncepcję, mam nadzieję, że podobał Ci się dzisiejszy samouczek.

09:34.580 --> 09:40.550
Jak już widzimy, nasze równanie Belmana zostało już dość wyrafinowane i teraz można je zastosować do wielu różnych scenariuszy

09:40.550 --> 09:44.340
i nie mogę się doczekać, aby zobaczyć je w następnym samouczku.

09:44.360 --> 09:46.200
I do tej pory ciesz się I.