WEBVTT

00:00.980 --> 00:04.960
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:05.000 --> 00:12.140
Wcześniej mieliśmy dość wyczerpujący i długi samouczek dotyczący procesów decyzyjnych Margrove'a i mam nadzieję, że dobrze się

00:12.200 --> 00:13.710
z tym zgodziliście.

00:13.760 --> 00:19.010
Mam nadzieję, że potrafię wyjaśnić wszystko w przystępny i angażujący sposób.

00:19.130 --> 00:22.750
A dzisiaj porozmawiamy o polityce a planach.

00:22.760 --> 00:27.910
Będzie szybki i zabawny samouczek, ponieważ teraz wkraczamy w nowy świat, w który wkraczamy

00:27.910 --> 00:34.310
w świat stochastycznych poszukiwań, niedookreślonych poszukiwań, gdy po prostu nie przebrniesz przez labirynt, ale także uwzględnisz przypadkowe czynniki,

00:34.310 --> 00:38.990
które mogą trafić ty w głowę, kiedy przechodzisz przez ten labirynt i

00:38.990 --> 00:41.080
musisz być na to przygotowany.

00:41.080 --> 00:42.070
To jest świat.

00:42.080 --> 00:48.640
Nasz agent żyje i jest zabawniejszy, ale jest też niebezpieczniejszy, bardziej jest mniej przewidywalny.

00:48.650 --> 00:50.880
Więc jak będzie się zachowywał nasz agent.

00:50.960 --> 00:52.280
Spójrzmy.

00:52.280 --> 00:58.190
Jest nasza cecha procesu decyzyjnego, która jest po raz kolejny naszym ulubionym równaniem Belmana.

00:58.250 --> 01:02.010
Jednak bardziej zaawansowana wersja równania Belmana, z którym pracujemy.

01:02.010 --> 01:04.760
Więc teraz nazwiemy to równaniem Beldona.

01:04.760 --> 01:10.970
I tutaj mamy naszą maksymalną i Crucellową akcję, więc wartość stanu dowolnego stanu jest maksymalna dla wszystkich

01:10.970 --> 01:14.020
działań, które agent może wykonać w tym stanie.

01:14.120 --> 01:21.230
A maksyma została zaczerpnięta z nagrody, którą otrzyma agent, wykonując akcję A instate jako Plus, a

01:21.230 --> 01:26.590
współczynnik dyskonta pomnożony przez oczekiwaną wartość nowego stanu, w którym się znajdzie.

01:26.830 --> 01:31.850
I spodziewam się, że ci, których tu zabrano, ponieważ nie wiedzą dokładnie, w czym kończy się sadle.

01:31.880 --> 01:40.390
Są to pewne efekty losowe, które występują w środowisku, które mogą zmienić stan i nie mogą skończyć

01:40.800 --> 01:42.630
się pożądanym stanem.

01:42.640 --> 01:44.200
To może skończyć się w innym stanie.

01:44.210 --> 01:47.760
Dlatego właśnie tutaj przynosimy oczekiwaną wartość tutaj.

01:47.990 --> 01:53.750
Przyjrzyjmy się temu jako naszemu przykładowi lub naszemu przykładowi labiryntu.

01:53.750 --> 02:00.220
Tak było wcześniej, więc wcześniej mamy do czynienia z wyszukiwaniem deterministycznym na żywo.

02:00.230 --> 02:01.960
Więc wiedzieliśmy o tym.

02:01.970 --> 02:05.550
W porządku, więc jeśli tu jestem, zdecydowanie muszę tu iść, jeśli tu jestem.

02:05.570 --> 02:09.030
Zdecydowanie muszę tu iść, jeśli tu jestem, zdecydowanie muszę tu iść, jeśli tu jestem, jestem tutaj.

02:09.140 --> 02:11.360
Więc wszystko było całkiem proste.

02:11.480 --> 02:14.680
Po uzyskaniu tej mapy i zapamiętaniu jej nazwiemy ją planem.

02:14.690 --> 02:18.050
Kiedy już masz plan, jest to całkiem proste.

02:18.050 --> 02:18.990
Tam są.

02:18.990 --> 02:20.490
Więc to jest plan ze strzałkami.

02:20.580 --> 02:25.000
I stąd było bardzo proste, że to są te trasy, które wezmą za każdym razem, gdy zaczniesz

02:25.010 --> 02:26.210
na tej niebieskiej linii.

02:26.210 --> 02:28.210
Tak właśnie poszedłeś.

02:28.680 --> 02:31.120
Jednak teraz nie mamy już planu.

02:31.120 --> 02:38.060
Nie możemy mieć planu, ponieważ wiesz, co planujemy, może się nie zdarzyć, nie jest pod kontrolą lub plan jest,

02:38.060 --> 02:40.940
gdy wiesz dokładnie, co musisz zrobić dalej.

02:40.940 --> 02:41.820
Znasz te kroki.

02:41.840 --> 02:46.640
Masz więc punkt wyjścia, do którego masz cel i znasz każdy krok, więc możesz je zaplanować, tak jak

02:46.640 --> 02:50.500
ja to zrobię. Zrobię to. Zrobię to tak jak w życiu, jak plan .

02:50.630 --> 02:54.870
Ale w tym samym czasie dzieje się tak wiele losowości.

02:54.890 --> 03:00.080
Możesz mieć plan, bo co by było, gdybyś tu był, a potem kliknąłbyś w prawo i faktycznie cię

03:00.080 --> 03:00.560
zabił.

03:00.680 --> 03:02.100
To nie jest częścią twojego planu.

03:02.390 --> 03:04.120
Dlatego właśnie nazywa się to planowaniem.

03:04.220 --> 03:09.080
I tutaj obliczymy, że wartości będą dotyczyć obliczonych wartości

03:09.410 --> 03:11.990
dla tego samego problemu.

03:12.080 --> 03:16.700
Ale w oparciu o to, że mamy tę przypadkowość wewnątrz.

03:16.700 --> 03:18.380
Oto nowe wartości.

03:18.800 --> 03:22.840
Dlaczego więc te wartości są inne, porównajmy więc to, co wcześniej.

03:22.850 --> 03:24.710
Tak było wcześniej.

03:24.710 --> 03:25.650
To jesteście wtedy.

03:25.660 --> 03:29.750
Tak więc po raz kolejny mieliśmy wcześniej, ponieważ wygrał 3. 9 procent.

03:29.770 --> 03:31.590
Był naprawdę 366.

03:31.790 --> 03:36.750
I to jest to, co mamy teraz mniej niż raz i 1 6 3.

03:36.800 --> 03:43.850
A tak przy okazji, nie są to dokładnie obecne wiece z mojej głowy, ale gdybyśmy mieli uruchomić agenta,

03:43.850 --> 03:49.220
niektóre wartości byłyby podobne do tego, a wartości mogły ulec zmianie, ponieważ zależą

03:49.220 --> 03:54.650
od hazardu, który wybrałby on 3. 9 lub inną wartość, ale mimo to ze względu

03:54.650 --> 04:00.560
na argumenty są to wartości, z którymi mamy do czynienia teraz i są one przybliżone, przekazują całe pojęcie w prawidłowy

04:00.560 --> 04:02.270
sposób, więc spójrzmy na nie.

04:02.270 --> 04:03.240
Dlaczego się zmienili.

04:03.410 --> 04:07.480
Cóż, dlaczego tu, tutaj, wartość była jedna.

04:07.490 --> 04:10.520
Dlaczego to wszystko nagle 0. 26 Dlaczego jest to mniej niż jeden.

04:10.560 --> 04:11.730
Po prostu idź stąd tutaj.

04:11.930 --> 04:18.620
Tak naprawdę zadzwoniliśmy, ponieważ stąd, jeśli pójdziemy w prawo, co jest naszą intencją, jeśli pójdziemy w prawo,

04:18.640 --> 04:22.340
moglibyśmy rzeczywiście mieć 10 procent szans, że skończymy tutaj.

04:22.340 --> 04:25.130
Więc uderzyliśmy w ścianę i wrócimy w tym stanie.

04:25.130 --> 04:30.740
I pamiętajmy, że mamy Gamlę, więc wartość zostanie zdyskontowana i albo będziemy wyłączeni lub wyłączeni o 10, a przypadek skończy

04:30.740 --> 04:32.150
się tutaj w tym stanie.

04:32.150 --> 04:37.670
Więc nie jest to 100-procentowe prawdopodobieństwo, że dostałbym się tutaj, więc nie może to być dana

04:37.670 --> 04:41.310
wartość mniej, a jest 0. 26.

04:41.570 --> 04:43.770
To jest przykład tego, dlaczego tak jest.

04:43.770 --> 04:49.130
I możesz uzyskać dokładną wartość, jeśli obliczysz równanie Belmana jako pełne, ale moje pytanie, które

04:49.130 --> 04:49.850
mamy teraz.

04:49.850 --> 04:53.540
Jedynym problemem jest to, że będzie pewna rekurencja, ponieważ musisz znać wartość

04:53.540 --> 04:57.440
tego, a następnie musisz znać wartość tego, co jest dość skomplikowane i dlatego

04:57.440 --> 04:59.180
nie robimy tutaj ręcznie obliczeń.

04:59.240 --> 05:06.000
Dlatego mogę to zrobić, ponieważ przechodzi przez to wszystko, to tak, jakby nie było to nic zbyt

05:06.000 --> 05:06.510
skomplikowanego.

05:06.540 --> 05:08.520
Nie możesz grać w te rzeczy.

05:08.520 --> 05:10.090
Oto nasza wartość tutaj.

05:10.110 --> 05:11.520
Ale z tego jest inny.

05:11.520 --> 05:16.830
Więc tutaj jest 0. 9 tylko z powodu współczynnika dyskonta, pamiętajcie, że

05:16.830 --> 05:23.070
tutaj znowu tu teraz, stąd kolegia skaczemy stąd do tego miejsca, ponieważ nawet jeśli skoczymy, jeśli tak pójdziemy, możemy wrócić

05:23.070 --> 05:24.680
tutaj z powrotem tutaj.

05:24.700 --> 05:28.440
To 20-procentowa szansa, która pozostanie na placu, ponieważ uderzymy w ścianę.

05:28.710 --> 05:29.730
I znowu i tak dalej.

05:29.730 --> 05:32.700
Tak więc wartość bycia tutaj wynosi zero siedemdziesiąt jeden.

05:32.850 --> 05:35.370
Znowu to i czynnik dyskontujący.

05:35.370 --> 05:39.970
Wiesz, że to może wydawać się dziwne, że jest to nawet z dyskontem w czynniku, który jest zbyt wysoki.

05:40.050 --> 05:44.440
Może czynnikiem dyskontującym w tym przykładzie nie jest 0. 9 może to siedemdziesiąt dziewięć lub coś,

05:44.500 --> 05:46.310
co nie martwi się tym.

05:46.350 --> 05:48.480
Po prostu lubię to koncentrować.

05:48.480 --> 05:53.210
Wartości rzeczywiście zmieniły się, że wartości są teraz mniejsze.

05:53.460 --> 05:58.700
Głównie dlatego, że nie jest to stuprocentowe prawdopodobieństwo, aby dostać się do stanu, który chcesz zdobyć

05:59.100 --> 06:00.180
i co znajdziesz.

06:00.210 --> 06:06.660
Ciekawy jest tutaj, aby tutaj być 0. 9 w rzeczywistości bardzo spadło znacznie spadło.

06:06.660 --> 06:07.110
Dlaczego.

06:07.110 --> 06:12.120
Cóż, ponieważ jeśli odejdziesz stąd, co jest naszą intencją, istnieje 10 procent szans na

06:12.120 --> 06:18.700
trafienie w ścianę, ale istnieje 10 procent szans na to, że trafisz w ognisku i stracisz minus jeden do

06:18.700 --> 06:22.820
nagrody, a to oznacza dla agenta, że to koniec gry.

06:23.160 --> 06:25.640
A więc jest to bardzo zły stan.

06:25.680 --> 06:29.910
Więc nagle pamiętajmy, że mieliśmy punkt zerowy w odstępie dziewięciu lat, więc były one równoważne.

06:29.910 --> 06:34.900
Nie ma znaczenia, że słyszysz, że są one prawie równe pod względem wartości bycia w każdym z tych stanów.

06:34.980 --> 06:43.440
Ale teraz niespodziewanie ta randka jest prawie dwukrotnie lepsza od tej po prostu dlatego, że tutaj, jeśli idziesz prosto

06:43.590 --> 06:46.980
do niej, idziesz tam, gdzie chcesz iść.

06:47.050 --> 06:51.270
Wiesz, jakie są konsekwencje losowości, że po prostu tu zostajesz.

06:51.290 --> 06:55.070
Tutaj jedną z konsekwencji jest 10-procentowa szansa, że trafisz do dołu.

06:55.110 --> 07:02.160
Jak widać, nie jest to już tak dobry stan po prostu z powodu czegoś, co może

07:02.160 --> 07:03.460
się zdarzyć.

07:03.570 --> 07:09.150
Jak widać, ta jest również bardzo zła, ponieważ jest tak zła, jak ta pod względem tego, że masz tylko 10 procent

07:09.150 --> 07:12.660
szans na trafienie w pit i 10 procent szans na trafienie w mur.

07:12.660 --> 07:18.480
Ale w tym samym czasie jest czynnik dyskontowy. Przede wszystkim czynnik dyskontowy, a także po tym

07:18.480 --> 07:20.390
trzeba się tu udać.

07:20.700 --> 07:23.900
A nawet gdybyś tu hipotetycznie poszedł, mógłbyś znowu znaleźć się w dole.

07:23.910 --> 07:28.710
Więc ta szansa również byłaby brana pod uwagę, ponieważ pamiętajmy, że te wartości pochodzą z

07:28.710 --> 07:31.760
tej wartości, a ta wartość pochodzi z tej wartości.

07:31.820 --> 07:32.350
Dobrze.

07:32.400 --> 07:37.560
I dlatego jest mały, ale w rzeczywistości to, co powiedziałem, było złe.

07:37.560 --> 07:39.640
Ta wartość nie pochodzi z Fed.

07:39.810 --> 07:47.300
Jeśli więc rzucisz okiem teraz, zauważysz, że ta wartość jest większa niż ta.

07:47.610 --> 07:54.780
Zauważysz, że dla agenta lepiej iść tą drogą niż ta i ma to sens.

07:54.780 --> 07:58.580
Ponieważ w ten sposób go nie traci, nie ma szans na wejście do dołu.

07:58.590 --> 08:03.450
Tak jest nieco dłuższy, a zatem współczynnik dyskontowania ma większy wpływ.

08:03.510 --> 08:07.470
Ale w tym samym czasie, ponieważ istnieje szansa na dostanie się do dołu, jeśli pójdzie

08:07.530 --> 08:09.140
prosto, będzie szansa na podskoczenie.

08:09.160 --> 08:15.120
Więc trzeba trochę czasu, aby się rozejrzeć i po prostu obejść, ponieważ w ten sposób jest znacznie mniejsza szansa na

08:15.120 --> 08:16.530
to. Ale wciąż jest.

08:16.530 --> 08:19.590
Stamtąd idzie dalej.

08:19.590 --> 08:23.590
Może potencjalnie dostać się do dołu, ponieważ może się tam skończyć i to może skończyć się rachunkiem.

08:23.730 --> 08:27.430
Niemniej jednak jest to mniejsza szansa, więc tak dalej będzie.

08:27.430 --> 08:32.430
Tak bardzo interesujące, aby zobaczyć, jak one wszystkie się zmieniają, pamiętajcie, że poprzednio stąd musielibyście tak pojechać.

08:32.430 --> 08:34.790
Stąd tak byś poszedł i stąd właśnie tak.

08:35.010 --> 08:36.870
A teraz nagle widać jego zmianę.

08:36.870 --> 08:41.000
Rzućmy strzałami i zobaczmy jak teraz wygląda i voila.

08:41.010 --> 08:43.760
Widzisz nawet bardziej przypadkową rzecz.

08:43.770 --> 08:45.260
Więc tak, to prawda.

08:45.270 --> 08:46.500
Ale spójrz, co tu się stało.

08:46.500 --> 08:47.610
Patrz na to.

08:47.690 --> 08:48.970
Patrz na to.

08:49.050 --> 08:50.490
Oczekiwałeś tego.

08:50.520 --> 08:54.570
To coś, co zdecydowanie lubię, kiedy zobaczyłem ten pierwszy raz, kiedy byłem pod dużym wrażeniem.

08:54.570 --> 08:59.800
Nie byłem super, nie byłem zaskoczony i nie spodziewałem się tego w ogóle.

08:59.970 --> 09:04.860
I to jest twój przykład, kiedy potrafię przechytrzyć człowieka.

09:05.120 --> 09:10.680
To brzmi jak coś, co złapałeś, nawet gdybyś mógł przewidzieć, ale ja poprzez egzekwowanie uczenia się pamiętam,

09:10.680 --> 09:14.400
że przykład psów może czasami działać lepiej niż normalne prawdziwe życie.

09:14.400 --> 09:21.330
Psy to zaprogramowane psy robotów mogą grać w piłkę nożną tylko dlatego, że wymyślają te pomysły, których nawet my

09:21.390 --> 09:22.350
nie widzimy.

09:22.440 --> 09:27.330
I jako świetny przykład pewnie nie spodziewaliście się, że Azjaci zamiast iść

09:27.330 --> 09:29.690
w górę, są jak ja.

09:29.850 --> 09:33.120
Tak jakbym wstał, to istnieje 10 procent szans, że wskoczę do dołu.

09:33.120 --> 09:35.130
Ale co to oznacza, wchodząc na wojnę.

09:35.280 --> 09:38.330
Cóż, 80 procent czasu będzie spadać i pozostać w stanie.

09:38.490 --> 09:42.360
Ale 10 procent czasu będzie tu i 10 procent czasu będę tu.

09:42.360 --> 09:49.130
Tak więc nagle widać, że teraz jest to nowe podejście do skakania w ścianę.

09:49.170 --> 09:53.350
Jest zero procent szans, że trafi do ognia, ale z tego miejsca tak.

09:53.370 --> 09:57.690
Wygląda na to, że tak naprawdę nie chce się wchodzić do ognia, więc parę razy pod wpływem

09:57.690 --> 10:03.050
narkotyków wbija się je w ścianę, a potem w pewnym momencie pójdzie w prawo lub w lewo, bo przypadek ma się stać.

10:03.080 --> 10:09.680
I tak nauczyło się, że poprzez eksperymenty nauczyły się, że OK, kiedy idę do przodu, wyniki nie są tak dobre,

10:09.680 --> 10:11.440
jak kiedy idę do ściany.

10:11.510 --> 10:13.540
A jeśli o tym pomyślisz, to tak.

10:13.580 --> 10:18.350
Ten robot, jeśli myślisz o tym, to jest palenisko, to jest to, że jest tak, jakby kwadrat

10:18.350 --> 10:21.630
był jak maleńka półka, a potem jest jak góra jak klif.

10:21.650 --> 10:27.830
A ten robot po prostu przytula się do urwiska i tak jak próbuje czekać, aż popycha się w prawo lub w lewo,

10:27.830 --> 10:32.640
ponieważ podobnie jak człowiek, prawdopodobnie robisz to samo, w przeciwnym razie nie będziesz stał w tym kierunku, albo

10:32.750 --> 10:34.970
będziesz przytulać się do urwiska w prawo.

10:35.000 --> 10:35.860
Czy jakoś tak.

10:35.940 --> 10:39.740
I mam nadzieję, że wiesz, że musimy skończyć, nigdy nie kończymy w takich sytuacjach.

10:39.770 --> 10:43.670
Ale jak wizualnie wizualnie, jeśli myślisz o czymś tutaj.

10:43.760 --> 10:46.450
I to jest bardzo intensywne, prawda.

10:46.460 --> 10:51.860
Żeby AI wpadła na ten pomysł i to tutaj, to jest coś w rodzaju odejścia, a Riskin wchodzi w bójkę, ale

10:51.860 --> 10:56.270
ja po prostu spróbuję kule ze ściany, tak jak wiesz, przytulaj ścianę, próbuj skoczyć do ściany

10:56.300 --> 11:01.430
i w pewnym momencie wiem, że wiesz, że istnieje prawdopodobieństwo, że za każdym razem, gdy to zrobię, prawdopodobieństwo wynosi

11:01.430 --> 11:04.910
10 procent, i coś się wydarzy, a ja skończę tutaj i będę bezpieczny,

11:04.910 --> 11:06.680
a ja po prostu Idź tak.

11:06.830 --> 11:13.240
Tak bardzo interesujące podejście, które podjęli tutaj i możecie zobaczyć trasy są takie, więc stąd może to pójść w prawo, a następnie

11:13.250 --> 11:17.500
pójdzie w prawo do wyjścia lub tutaj lub w lewo w ten sposób.

11:17.690 --> 11:22.230
I tutaj w pewnym momencie pójdziemy w lewo i znowu tak pójdziemy.

11:22.310 --> 11:23.170
To jest ważne.

11:23.180 --> 11:27.610
Nie jestem polityką, więc nawet jeśli skacze stąd, to będzie tutaj.

11:27.650 --> 11:30.400
Może A potem stąd może padać prosto.

11:30.410 --> 11:34.520
To może w rzeczywistości wrócić na prawo, a potem stąd, a ja pozwolę mi to naprawić.

11:34.550 --> 11:38.260
Jest wiele różnych opcji dla facetów, którzy mogą nie podążać dokładnie za tym handlarzem żelazem w inny

11:38.270 --> 11:38.730
sposób.

11:38.960 --> 11:42.500
To tylko pożądane trasy, które zostały zaprojektowane dla siebie.

11:42.590 --> 11:44.690
Ale sposób, w jaki to się uda, może być inny.

11:44.690 --> 11:46.130
To zależy od prawdziwego świata.

11:46.340 --> 11:46.940
Więc idziemy.

11:46.950 --> 11:50.090
To świat sztucznej inteligencji.

11:50.090 --> 11:56.780
Taka jest polityka wobec planu i mam nadzieję, że powoli zaczynasz się ekscytować tym, co sztuczna inteligencja

11:57.000 --> 12:01.220
może zrobić, szczególnie biorąc pod uwagę to, co widzieliśmy tutaj.

12:01.340 --> 12:07.430
Są to bardzo wirtuozowskie decyzje, które wymyślają AI.

12:07.610 --> 12:12.500
A jak widzisz, kiedy grasz w AI nawet z tego małego przykładu, możesz

12:12.500 --> 12:19.240
zauważyć, że nawet kiedy grasz w prawdziwym świecie, może wymyślisz pomysły i decyzje, które nawet czasami mogą wymyślić ludzie.

12:19.250 --> 12:25.460
Dokładnie tak, jak w tych grach, w których gol Google

12:25.520 --> 12:32.320
Alpha grał w porównaniu z mistrzem Lisa idoli w Korei w mistrzostwach świata.

12:32.390 --> 12:37.000
A oni grali w Korei z powrotem na bakla w 2016 roku, myślę, że jest marzec 2016.

12:37.000 --> 12:42.370
Wyszło kilka ruchów, których ludzie nigdy nie grali od 3000 lat, a ludzie nie byli przyzwyczajeni do grania.

12:42.380 --> 12:45.510
I to właśnie jest tego przykładem.

12:45.740 --> 12:50.290
Więc jeszcze raz mam nadzieję, że ekscytujecie się i pompujecie dyskurs i to, co możemy zintegrować.

12:50.330 --> 12:51.840
I szukam tego.

12:51.840 --> 12:52.720
Do zobaczenia następnym razem.

12:52.730 --> 12:54.410
Do tego czasu ciesz się.

12:54.410 --> 12:54.640
JA.