WEBVTT

00:00.620 --> 00:04.010
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.010 --> 00:05.940
W dzisiejszym tutorialu będziemy się dobrze bawić.

00:05.960 --> 00:11.900
Będziemy wyglądać i sztuczna inteligencja przechodząca przez ten labirynt, o którym mówiliśmy od dawna,

00:11.900 --> 00:18.740
i wykorzysta nauczanie typu "zabijanie", aby nawigować w jego kierunku i znaleźć wyjście, a my zobaczymy, co

00:18.830 --> 00:24.350
stanie się z q wartości będą obowiązywały w polityce i tak dalej.

00:24.350 --> 00:26.310
Więc spójrzmy.

00:26.330 --> 00:31.910
Wykorzystamy materiały dostarczone przez Uniwersytet w Berkeley.

00:31.910 --> 00:40.700
Więc jeśli idziesz do Nie birk tylko E R K E L E Dlaczego nie po prostu przejdziesz do tego linku ponownie.

00:40.790 --> 00:47.510
Zobaczysz tę stronę internetową i usłyszysz, na co patrzymy, to trzeba iść, aby przejść

00:47.550 --> 00:49.130
do projektów PacMan.

00:49.130 --> 00:58.160
Myślę, że Pacman projektuje i tutaj, jeśli przewiniesz w dół i patrzysz na nie w pierwszej kolejności, to właśnie z tym

00:58.160 --> 00:59.050
pracujemy.

00:59.180 --> 01:01.700
Możesz pobrać archiwum zip.

01:01.700 --> 01:03.500
Więc jeśli chcesz.

01:03.530 --> 01:08.330
Więc nie musisz tego robić, nie zamierzamy wspólnie omawiać rozwiązania w tej próbie, tylko

01:08.330 --> 01:11.860
informując Cię, skąd to wszystko, ponieważ jesteśmy bardzo podobni.

01:11.870 --> 01:12.930
Naprawdę to doceniamy.

01:12.980 --> 01:16.180
UC Berkeley udostępnił te materiały.

01:16.190 --> 01:19.300
Ale jeśli chcesz eksperymentować z tym samemu.

01:19.400 --> 01:20.660
Pamiętaj, że to nie jest część.

01:20.680 --> 01:23.310
Nie będzie częścią naszych kursów w ramach kursu Berkeley.

01:23.330 --> 01:27.860
Nie jestem pewien, jak to działa w celach ilustracyjnych, ale jeśli chcesz poeksperymentować z

01:27.860 --> 01:31.340
tym, możesz znaleźć tutaj archiwum zip i wszystkie stare instrukcje.

01:31.430 --> 01:38.450
I od razu przejdziemy do Pythona i pierwszą rzeczą, którą chciałem wam pokazać, jest to, że mamy

01:38.450 --> 01:42.790
tutaj informacje o licencjonowaniu, więc o to mi chodzi.

01:42.870 --> 01:47.720
Mamy szczęście, że powiedzieli, że możemy swobodnie używać lub rozszerzać te projekty do celów edukacyjnych, pod

01:47.720 --> 01:51.120
warunkiem, że znasz dystrybucję rozwiązań publikacyjnych, których nie zamierzamy robić.

01:51.200 --> 01:56.750
Zachowujesz to powiadomienie, które mamy i zapewnisz jasnego arcybiskupa UC Berkeley, w tym link, który

01:56.780 --> 01:57.860
również mamy.

01:57.860 --> 02:00.750
Więc jeszcze raz, jeśli chcesz dowiedzieć się więcej tam link.

02:00.770 --> 02:01.720
Możesz rzucić okiem.

02:01.730 --> 02:07.490
I dziękuję bardzo wszystkim tym, którzy pracowali nad tym projektem, więc tutaj jest świat siatki.

02:07.490 --> 02:09.370
Będziemy działać, jeśli istnieje rozwiązanie.

02:09.460 --> 02:15.110
Musiałbyś, aby to działało, musisz sam rozwiązać problem lub znaleźć rozwiązanie.

02:15.110 --> 02:18.980
Może niektórzy z twoich ludzi, których znasz, mogą ci w tym pomóc.

02:19.160 --> 02:24.260
Jeśli znowu to, czego chcesz, nie musisz, ponieważ będziemy teraz patrzeć na to na

02:24.320 --> 02:25.110
tym ekranie.

02:25.160 --> 02:29.720
Po utworzeniu wszystkich tych plików możemy po prostu uruchomić go tutaj.

02:29.720 --> 02:36.680
Istnieją więc pewne parametry, które są zaangażowane w ten cały świat i nie zamierzamy po prostu pokazać, jak

02:36.680 --> 02:39.080
to wygląda, jeśli uruchomimy go.

02:39.080 --> 02:41.540
Więc spróbujmy uruchomić go w trybie ręcznym.

02:41.540 --> 02:47.070
Więc jeśli odejdę, jedna z tych panoram jest ręczna, więc mogę polecić twojemu agentowi kontroli.

02:47.090 --> 02:52.820
Tutaj widać wszystkie siatki, więc mogę iść w górę, aby zobaczyć, że zaczyna się akcja i zaczyna

02:52.820 --> 02:54.980
się w stanach, w których byłem.

02:55.100 --> 03:00.650
A potem zobaczyłeś, że zaatakowałem, podjąłem akcję Norfa i po raz pierwszy znalazłem się w punkcie zero, gdy tylko

03:00.650 --> 03:01.310
podniosłem się.

03:01.490 --> 03:05.000
Ale po raz drugi podjąłem działania Norf i skończyłem w tym samym smutku się nie ruszyłem.

03:05.000 --> 03:08.440
Coś się wydarzyło, wiesz, że losowość się wydarzyła, albo poszedłem w lewo, albo w prawo.

03:08.780 --> 03:10.910
Domyślnie parametry są ustawione.

03:10.910 --> 03:16.910
Widać tutaj domyślnie, że są ustawione dokładnie na to, o czym mówiliśmy, że jak często faktycznie

03:16.940 --> 03:18.250
skutkuje niezamierzonym kierunkiem.

03:18.270 --> 03:20.960
20 procent czasu do 10 procent w lewo trochę po prawej.

03:21.230 --> 03:23.520
Więc jeśli wstaję i mówię, że wstałem, idę w prawo.

03:23.520 --> 03:26.810
Poszedłem właśnie teraz, tak się nie stało.

03:26.810 --> 03:29.790
Racja znowu i prawo i jestem skończony.

03:29.790 --> 03:35.810
Ale w tej implementacji trzeba kliknąć ponownie, aby wydostać się z tego ostatecznego wyniku, więc stamtąd wystarczy kliknąć

03:35.810 --> 03:37.140
ponownie i gotowe.

03:37.190 --> 03:40.700
To jest stan końcowy, więc możemy uruchomić naszą instrukcję.

03:40.730 --> 03:45.620
Widać, że jeśli przejdę w prawo, w prawo, w lewo w górę.

03:45.740 --> 03:50.060
A więc tutaj, co wcześniej widzieliśmy, że agent nie pójdzie prosto.

03:50.060 --> 03:53.300
Jaki jest cel wzlotu, jeśli istnieje szansa, że wejdziesz do dołu.

03:53.300 --> 03:54.580
Zobaczmy więc, co zrobiłby agent.

03:54.610 --> 03:56.780
Pojedzie na lewo i na zachód pójdzie na zachód.

03:56.780 --> 04:00.820
I widzisz, że kliknąłem w lewo, ale podniosło się i tutaj kliknąłem w prawo.

04:00.860 --> 04:05.390
I kończę na końcowym etapie wyjścia i widzisz nagrodę Bożą równą jednej.

04:05.390 --> 04:07.190
Tak to wygląda ręcznie.

04:07.190 --> 04:12.520
A teraz podłączmy sztuczną inteligencję i pozwólmy temu przejść.

04:12.510 --> 04:16.800
Zróbmy więc tutaj H i dodajmy Brandnera.

04:16.820 --> 04:24.170
Po prostu zobaczmy, co tu wpisałem, więc mam nadzieję, że dzięki sieciowemu światu dowiesz się, dlaczego tutaj minus

04:24.230 --> 04:25.370
nasze środki.

04:25.370 --> 04:27.980
To jest nagroda za życie.

04:27.980 --> 04:31.840
Więc mam ich dwóch, więc prawdopodobnie powinienem usunąć ten.

04:32.190 --> 04:35.050
Tak minus k to liczba iteracji.

04:35.060 --> 04:36.690
To zbyt wiele powtórzeń.

04:36.690 --> 04:41.180
Zróbmy mniej Zróbmy tak, jak powinno 10 powtórzeń.

04:41.180 --> 04:42.710
Minus a to Agent.

04:42.710 --> 04:47.040
Jakiego rodzaju agent nie chce robić honoru i wizerunku, jakiejś wartości lub Q.

04:47.060 --> 04:49.120
Q Więc chcę Q.

04:49.190 --> 04:57.090
Q-learning agent robiący to minus s jest tym, co jest prędkością s, więc jest to zbyt duża siła,

04:57.090 --> 05:04.780
która po prostu używa teraz pełnej prędkości minus R jest karą żywą, więc domyślnie jest równa zero.

05:04.820 --> 05:11.000
Dlatego pamiętaj, że na samym starcie wznowić żywe pokuty, więc nazwijmy to również 0 0 i

05:11.000 --> 05:16.040
możemy po prostu usunąć ten parametr, a D jest tym, co jest zniżką.

05:16.040 --> 05:20.660
Więc po prostu taki czynnik, więc zatrzymajmy go w punkcie zerowym i bardzo podobnym

05:20.660 --> 05:27.880
do tego, co zaczynamy w tej sekcji na temat kursu, więc uruchommy to tak szybko, zbyt szybko, wszystko tak całkiem w porządku, żebyście

05:27.880 --> 05:30.130
mogli zobaczyć, jak on jest odkrywanie.

05:30.580 --> 05:35.650
I tak jak dotąd trzykrotnie uderzył w wynik negatywny i widać, jak wartości q są aktualizowane

05:35.650 --> 05:36.690
na tych polach.

05:36.700 --> 05:37.860
Są to więc kluczowe wartości.

05:37.870 --> 05:39.310
Są niczym zero.

05:39.320 --> 05:40.740
Teraz możesz zobaczyć wartość Q.

05:40.740 --> 05:45.220
Dowiedział się, że ten jest nieco innym narzędziem, ponieważ kiedy dojdziesz do końcowego etapu, musisz

05:45.220 --> 05:46.560
się z niego wydostać.

05:46.660 --> 05:48.990
Aby wyjść, wystarczy kliknąć jeszcze jeden przycisk.

05:49.000 --> 05:51.740
I tak jest bardzo blisko jednego, ale nie dokładnie jednego.

05:51.760 --> 05:57.530
Ale jednocześnie możesz zauważyć, że tutaj wiesz, że wartość powoli krystalizujących rąk to punkt, do którego

05:57.520 --> 06:02.290
ex-kolega się gdzieśga, ale są one tak daleko, że są jakby zerami, ponieważ nie

06:02.290 --> 06:05.470
ma wystarczających informacji, aby rozumiem, co się dzieje.

06:05.470 --> 06:08.710
OK, zobaczmy, zobaczmy, co się tutaj stanie.

06:10.180 --> 06:13.620
Odkrywanie odkrywania odkrywania tego, co się wydarzy.

06:13.710 --> 06:15.300
Minęło trochę czasu.

06:15.670 --> 06:17.940
I mamy tu do czynienia z pewną losowością.

06:18.100 --> 06:20.100
Tak jest kilka dobrych rzeczy.

06:20.110 --> 06:22.500
Teraz dostaje tylko 10 iteracji.

06:22.510 --> 06:26.780
Więc musi się szybko nauczyć Ok, potrzebuję cię tam.

06:27.220 --> 06:29.280
Zobaczmy, co się dzieje.

06:29.320 --> 06:30.050
Daj spokój.

06:30.060 --> 06:31.820
Wyjdź już z tego labiryntu.

06:32.840 --> 06:38.450
I tak 10 odcinków tak średnio się to okazuje.

06:38.590 --> 06:40.430
To naprawdę nie jest tym zainteresowane.

06:40.460 --> 06:41.760
Więc zobaczmy.

06:41.760 --> 06:43.060
Nigdy nie widziałem dość kliknięcia.

06:43.100 --> 06:43.460
Dobrze.

06:43.460 --> 06:43.810
No to jedziemy.

06:43.820 --> 06:47.780
Więc widzisz, to jest polityka, którą wymyślił.

06:48.020 --> 06:50.860
Nawet przez 10 odcinków ma już puls.

06:50.890 --> 06:55.820
Zamierzam wznieść bombę i tutaj zamierzam zejść tutaj, zamierzam zejść tutaj, zamierzam wejść w ścianę,

06:55.820 --> 06:58.320
a potem zamierzam odbić, że tu jesteśmy.

06:58.550 --> 06:59.620
To fajnie.

07:00.000 --> 07:00.250
DOBRZE.

07:00.260 --> 07:02.530
Teraz zwiększmy prędkość.

07:02.650 --> 07:04.220
Jakie były tam parametry.

07:04.220 --> 07:06.240
I to jest jak podwójne bezprawie.

07:06.260 --> 07:13.070
To jest czterokrotna prędkość i zwiększmy liczbę iteracji, więc tym razem powiedzmy 20 racji i zobaczmy,

07:13.070 --> 07:16.390
czy uda się jej teraz trochę więcej.

07:16.790 --> 07:18.700
Więc widać, że idzie trochę szybciej.

07:19.600 --> 07:25.900
I on uczy się, że uczy się, że tak naprawdę nie wiesz, że z tego stanu nie ma

07:25.900 --> 07:30.220
wielu dobrych uczynków Orio tych działań, które nie są dobre i proste.

07:30.250 --> 07:32.400
Zdecydowanie nie było to dobre.

07:32.410 --> 07:34.680
Wciąż musi się uczyć, że stąd też jest dobre.

07:34.680 --> 07:36.820
Możesz zobaczyć, że ta akcja jest całkiem dobra.

07:36.820 --> 07:37.330
W porządku.

07:37.330 --> 07:38.380
Co dostał.

07:38.530 --> 07:39.100
DOBRZE.

07:39.100 --> 07:42.200
Tak interesująca polityka, w której decydujemy się pójść.

07:42.330 --> 07:43.270
Po prostu za mało informacji.

07:43.270 --> 07:45.610
Więc naprawdę to zróbmy.

07:46.850 --> 07:50.370
I zwiększmy prędkość do 100.

07:50.630 --> 07:56.570
Superszybki i liczba iteracji da mu 100 iteracji tym razem uruchamia tę scenę

07:56.570 --> 08:02.930
jak szalone szybko i widać to, ponieważ jest o wiele więcej iteracji On ma więcej

08:02.930 --> 08:09.500
informacji więcej możliwości eksperymentowania i faktycznie zbudować tę macierz lub matrycę te wartości dla każdego

08:09.500 --> 08:10.240
stanu.

08:10.250 --> 08:13.220
Teraz wie, że widzisz ten punkt zero osiemdziesiąt dziewięć.

08:13.250 --> 08:16.050
Co powiedzieliśmy w naszym punkcie zerowym 86.

08:16.120 --> 08:20.660
Jeszcze jedną rzeczą do zapamiętania jest wartość dowolnego stanu.

08:20.720 --> 08:24.230
Pamiętaj, że formuła, którą mieliśmy, to maksymalna wartość kostki.

08:24.230 --> 08:27.160
Pamiętaj o tym, że wymyśliliśmy formułę skrótu.

08:27.170 --> 08:30.690
Więc co to za wartość tego stanu, to V tego.

08:30.900 --> 08:32.060
Byłoby 0. 18.

08:32.060 --> 08:38.180
Ponieważ jest to najwyższy z czterech tutaj, wartość tego stanu 0. 7 chcesz wartość tego dnia.

08:38.210 --> 08:40.260
Czy jest punkt sześćdziesiąt jeden i tak dalej.

08:40.400 --> 08:41.480
To jest coś do zapamiętania.

08:41.490 --> 08:45.590
Pamiętam, że kiedy byłem na górze, myślę, że mieliśmy zero punktu 86 lub coś takiego, praecox.

08:45.770 --> 08:55.060
Jeśli więc pójdziemy w przyszłym roku, po prostu zniknę lub znowu zniknę, a to może sprawić, że powrócą.

08:55.170 --> 08:55.750
DOBRZE.

08:55.760 --> 08:56.210
DOBRZE.

08:56.210 --> 09:00.680
Powoli powoli powoli wypełniając niektóre przestrzenie.

09:00.970 --> 09:01.450
Widzę.

09:01.490 --> 09:06.170
Jest to również dość przypadkowe, ponieważ nie tylko środowisko ma losowość, ale także sposób,

09:06.170 --> 09:10.750
w jaki odkrywa, że gwiazda naprawdę nie zna polityki, którą odkrywa losowo.

09:11.190 --> 09:12.150
Po prostu znika.

09:12.170 --> 09:13.420
Nie rozumiem, dlaczego.

09:13.680 --> 09:18.650
W każdym razie zobaczmy, co się stanie, jeśli zwiększysz liczbę tutaj i tutaj

09:18.650 --> 09:23.060
powinno to potrwać tyle samo czasu, jeśli prędkość nie ma ograniczenia.

09:23.480 --> 09:27.610
OK, więc wygląda na to, że ma więcej okazji do odkrywania rzeczy.

09:27.650 --> 09:30.850
OK, zobaczmy, jak to wszystko działa.

09:31.260 --> 09:35.010
I widzicie, że wartości są zbieżne, idą w górę iw dół, w zależności od tego, że istnieje

09:35.010 --> 09:38.640
pewna losowość, a on może skończyć jak w dole, nawet jeśli idzie w ten sposób.

09:38.640 --> 09:44.940
Ale jednocześnie powoli zaczynają się zbiegać do pewnego rodzaju wartości i wartości cue.

09:44.950 --> 09:48.540
OK, prawdopodobnie tysiąc to trochę za dużo czasu.

09:48.540 --> 09:53.250
Wygląda na to, że prędkość nie wzrasta proporcjonalnie.

09:53.610 --> 09:55.560
Więc może odciąć tę część.

09:55.650 --> 09:57.560
Mam na myśli zmniejszenie prędkości.

09:57.600 --> 10:02.850
Wiesz, podczas gdy jest to bardzo niska, nie musisz oglądać do końca tego samouczka. Po

10:02.850 --> 10:08.430
prostu chcę trochę eksperymentować, żeby dać ci kilka przykładów tego, nad czym pracowaliśmy, ale masz rację,

10:08.430 --> 10:10.920
że to przechodzi przez to wszystko.

10:10.950 --> 10:14.800
Ma pewną losowość, taką jak Rambler wbudowany w jego zachowanie.

10:14.820 --> 10:20.720
Więc nawet jeśli ma politykę, będzie nadal eksplorował, więc nie będzie tak jak kiedyś, gdy ma

10:20.720 --> 10:23.420
podstawową politykę, nie będzie kontynuował swojej polityki.

10:23.460 --> 10:29.130
Wciąż będzie eksperymentować z innymi odmianami od czasu do czasu w celu ulepszenia swojej polityki, może

10:29.130 --> 10:31.350
od razu nie znalazł najlepszej polityki.

10:31.350 --> 10:33.240
Może to może polepszyć politykę.

10:33.360 --> 10:40.080
I dlatego nawet po tylu iteracjach wciąż można zobaczyć pewne losowe efekty, czasami wskakuje do losowych stanów nie tylko

10:40.080 --> 10:45.060
z powodu losowości w środowisku, ale także dlatego, że istnieje pewien poziom, taki

10:45.060 --> 10:50.750
jak parametr, który można kontrolować, który można ustawić dla twojego agenta mówiąc, że wiesz, że przez

10:50.820 --> 10:56.040
większość czasu 80 procent czasu robi wszystko, co nakazuje twoja polityka, ale 20 procent

10:56.040 --> 11:00.930
czasu po prostu masz zabawny eksperyment i widzisz, co się dzieje i wykorzystujesz

11:00.930 --> 11:03.410
zebrane informacje do aktualizacji twoja polityka.

11:03.410 --> 11:05.300
OK to trwa zbyt długo.

11:05.310 --> 11:06.360
Spróbujmy jeszcze raz.

11:06.560 --> 11:11.640
Tak, w ten sposób agent uczy się w różnych stanach.

11:11.640 --> 11:14.270
Może po prostu uruchommy jeszcze jedną z czystej ciekawości.

11:14.280 --> 11:16.590
Czy jest coś, co możemy zmienić na ten temat.

11:18.420 --> 11:20.110
Iteracje.

11:21.630 --> 11:22.400
DOBRZE.

11:22.430 --> 11:24.280
OK, spójrzmy.

11:24.550 --> 11:26.680
Tak, możemy na przykład zmienić dyskusję.

11:26.680 --> 11:39.860
W tym przypadku możemy powiedzieć, że K minus sto minus Q minus dwa i minus to OK tys.

11:39.920 --> 11:41.380
Więc nagroda.

11:41.390 --> 11:47.920
Chcemy, aby to pozostało, zatrzymajmy go na 0. 04 Załóżmy jednak, że przeciwstawienie się temu utrzymuje nagrodę w moim pustynnym punkcie

11:47.920 --> 11:49.270
zero za każdym razem.

11:49.280 --> 11:58.340
I tutaj powiemy, że rabat nie jest punktem zerowym dziewiątym, ale jest jak punkt zero w punkcie

11:58.340 --> 11:59.030
piątym.

11:59.060 --> 12:02.300
Dzięki temu gra staje się coraz bardziej dyskontowana.

12:02.600 --> 12:08.960
Tak więc teraz będzie się zachęcać do bycia bliżej końca, niż do dalszej drogi, kiedy stany bliskie ukończenia

12:08.960 --> 12:14.060
uzyskają wysoką wartość, dzięki czemu można zauważyć, że wartości naprawdę spadają, a nie są tak

12:14.060 --> 12:15.400
zielone jak przedtem.

12:16.360 --> 12:20.190
Więc tutaj widać, że to jest teraz polisa.

12:20.380 --> 12:26.490
Tak to wygląda tak, jak to bardzo podobne do tego, co widzieliśmy wcześniej, ale

12:26.500 --> 12:28.830
tylko różnice tutaj skaczą tutaj.

12:28.840 --> 12:29.980
To jeden.

12:30.000 --> 12:32.500
I OK, po prostu uruchom jeszcze jeden.

12:32.500 --> 12:33.510
To świetna zabawa.

12:33.580 --> 12:39.020
Po prostu uruchommy jeszcze jeden, więc k minus k 100 a q odrzuć.

12:39.130 --> 12:48.960
Zachowaj to tak, jak było oryginalne. Zacznijmy więc podstawową konfigurację wanilii ok ok.

12:49.110 --> 12:51.110
Zobaczymy, czy pokaże nam zasady.

12:51.210 --> 12:54.820
I tak, mamy politykę.

12:54.840 --> 12:55.150
Tak.

12:55.150 --> 12:56.350
Dobre wykończenie.

12:56.350 --> 12:58.820
A więc mamy politykę.

12:58.900 --> 12:59.830
Wiesz, że to jest znajome.

12:59.830 --> 13:05.260
Pamiętaj, że kiedy zobaczyliśmy, że sztuczna inteligencja przechytrzyła ludzką bombę w ścianę, aby się tam dostać i uderzyła

13:05.290 --> 13:08.530
w ścianę, aby pójść w ten sposób, aby zwiększyć problem.

13:08.530 --> 13:09.270
Więc idziemy.

13:09.280 --> 13:17.020
To przykład zaniechania sztucznej inteligencji bardzo prostych, prostych zarobków z zabójstw, więc nie ma głębokiego uczenia się na

13:17.020 --> 13:18.190
tym etapie.

13:18.610 --> 13:23.810
Ale jednocześnie jest już całkiem sprytny i mam nadzieję, że podobał Ci się dzisiejszy samouczek.

13:23.810 --> 13:29.210
I jeszcze raz dziękuję UC Berkeley i mam nadzieję, że podobał się wam dzisiejszy tutorial i nie mogę się doczekać

13:29.230 --> 13:29.630
scenariusza.

13:29.650 --> 13:31.120
Do tego czasu ciesz się AI.