WEBVTT

00:01.080 --> 00:04.050
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.050 --> 00:09.810
Dzisiaj kontynuujemy naszą podróż do świata, co trzy widzimy, i mówimy o synchronicznej stronie

00:09.870 --> 00:13.530
albo C, więc mamy nasz skrót przewagi synchronicznej.

00:13.550 --> 00:14.430
Aktywny krytyk.

00:14.430 --> 00:19.040
A dzisiaj dowiemy się, co oznacza synchronizacja w tym miejscu.

00:19.080 --> 00:20.990
I wróćmy o krok.

00:21.000 --> 00:27.270
Spójrzmy na to, co zaczęliśmy przez cały ten kurs, aby dowiedzieć się, co to jest, że azjatycki

00:27.270 --> 00:29.050
jest w pewnym stanie.

00:29.340 --> 00:30.690
Obserwują stan.

00:30.730 --> 00:37.080
Podejmują określone decyzje, podejmując działania w tym stanie, a następnie państwo zostaje zmienione, aby wejść w nowy

00:37.080 --> 00:39.010
stan i uzyskać nagrodę.

00:39.150 --> 00:46.830
A więc nagroda za podjęcie tej akcji lub jakąś nagrodę, która może być karą, a skończy się w

00:46.830 --> 00:47.780
nowym stanie.

00:47.790 --> 00:50.180
W oparciu o to teraz podejmują kolejną akcję.

00:50.250 --> 00:56.280
Dostają nagrodę i kończą w nowym stanie, podejmują kolejne działania i tak dalej, i to

00:56.280 --> 00:59.670
jest podstawą całego uczenia się o wzmocnieniu.

00:59.700 --> 01:06.030
Właśnie tego używamy w uczeniu się w głębokim uczeniu się i głębokim splataniu, uczymy się, a to

01:06.030 --> 01:10.660
pozwoliło naszym agentom pokonać coraz bardziej złożone i bardziej złożone środowiska.

01:10.770 --> 01:18.310
Ale teraz zamierzamy wprowadzić jeszcze lepszą koncepcję, a nawet osiągnąć ten jeszcze wyższy poziom.

01:18.720 --> 01:25.530
To, co widzi A-3 poprzez ten element synchroniczny, zamiast atakować środowisko przez

01:25.520 --> 01:26.730
jednego agenta.

01:26.790 --> 01:34.140
Mają trzech agentów lub dowolną liczbę agentów lub kilku agentów atakujących to samo środowisko.

01:34.290 --> 01:39.360
Kluczem jest to, że nazywa się to synchronizacją, ponieważ są one inicjowane inaczej, więc

01:39.360 --> 01:40.920
ich gwiazdy są różne.

01:40.920 --> 01:46.520
Na przykład, jak zobaczysz z praktycznych źródeł, ustaw losowy materiał siewny i ustawiasz go inaczej dla

01:46.530 --> 01:47.980
każdego z agentów.

01:48.030 --> 01:51.150
I tak, ponieważ ich punkty początkowe są różne.

01:51.270 --> 01:55.260
Będą najpierw przechodzić przez środowiska na różne sposoby, a następnie będą eksplorować na różne sposoby,

01:55.260 --> 01:58.620
a następnie w kolejnych iteracjach będą również eksplorować na różne sposoby.

01:58.620 --> 02:01.190
I tak na przykład mamy trzech agentów.

02:01.300 --> 02:06.390
Nagle uzyskujesz potrójne doświadczenie, a nie tylko jeden wiek,

02:06.390 --> 02:12.480
przechodzenie i badanie środowiska oraz próbowanie zrozumienia, jak obsługiwać to środowisko.

02:12.570 --> 02:18.780
Masz teraz trzy lub wiele z nich przechodzących i zdobywających to doświadczenie, tak aby

02:18.930 --> 02:25.140
każdy z nich uczył się dla tego większego doświadczenia, a oprócz tego, że daje

02:25.140 --> 02:31.300
szerszy zakres doświadczenia, zmniejsza także szanse jednego agenta utknięcie w lokalnym maksimum.

02:31.320 --> 02:38.040
Na przykład, jeśli jeden z agentów znajdzie sposób na pokonanie środowiska, które nie jest najbardziej optymalne, ponieważ jeśli odejmie

02:38.130 --> 02:43.470
lewe na prawo od tego rozwiązania, okaże się, że zawsze będzie wyglądało, że zostanie ukarany,

02:43.470 --> 02:45.710
może utknąć w lokalnym maksimum.

02:45.710 --> 02:49.530
Może dalej to robić, myśląc, że jest to optymalne rozwiązanie tam, gdzie tak naprawdę nie jest.

02:49.680 --> 02:58.830
Cóż, prawdopodobieństwo, że kilku agentów utknie w tym samym lokalnym maksimum, zmniejsza się wraz ze wzrostem liczby agentów, więc

02:58.830 --> 03:04.440
prawdopodobieństwo, że jeden agent utknie w pewnym lokalnym maksimum, może być wysokie,

03:04.440 --> 03:07.990
ale może to być pewna wartość.

03:08.130 --> 03:11.730
Ale prawdopodobieństwo, że trzy z nich wszystkich utknie w tym lokalnym maksimum

03:11.730 --> 03:13.020
jest znacznie niższe.

03:13.020 --> 03:18.630
I dopóki dzielą się doświadczeniami między sobą, mogą sobie wzajemnie pomagać, więc jeśli któryś z nich utknie, na przykład w

03:18.630 --> 03:23.370
lokalnym maksimum i po prostu myśl, że to jest najlepsze i to najlepsze, które jest najlepszym rozwiązaniem

03:23.370 --> 03:25.700
przez cały czas i wciąż to robi.

03:25.830 --> 03:30.740
Dopóki współdziała on z innymi agentami Powiedzmy, że ten facet utknął w spokojnym

03:30.770 --> 03:35.710
działaniu, dopóki współdziała z innymi agentami poprzez sposób, w jaki budujemy cały algorytm przez

03:35.710 --> 03:37.620
komórkę, a oni mu pomogą.

03:37.620 --> 03:42.960
Dadzą mu wiedzę, że tak naprawdę wiesz, że powinieneś to zbadać, bo prawdopodobnie

03:43.020 --> 03:44.630
z tego wyjdzie.

03:44.760 --> 03:50.370
A także ogólnie środowisko będzie wiedzieć, że hej, mimo że jest to wspaniałe maksimum, że te inne grupy wiekowe

03:50.370 --> 03:55.230
widziały lepsze opcje i powinniśmy dalej je badać, ponieważ wygląda na to, że są lepsze opcje.

03:55.230 --> 04:00.750
Tak więc w bardzo krótkim, szorstkim, intuicyjnym zrozumieniu jest to, że są to niektóre z

04:00.750 --> 04:05.970
zalet posiadania synchronicznych agentów, więc masz więcej doświadczenia do wyboru i uczenia się.

04:06.210 --> 04:12.750
Możesz dostać się do rozwiązania szybciej i ogólnie mówiąc, jeśli istnieje mniejsze

04:13.080 --> 04:16.640
prawdopodobieństwo utknięcia w lokalnym maksimum CRN.

04:16.680 --> 04:18.710
Zobaczmy więc, jak to wszystko się dzieje.

04:18.720 --> 04:24.300
W tym modelu, który stworzyliśmy do tej pory, pamiętajcie, to jest to, do czego dotarliśmy tak daleko poprzez faktycznego krytyka

04:24.300 --> 04:29.730
i to jest tak, jakbyśmy wszyscy drażniali się z tym, o ile pamiętasz od pierwszego do żółwia, który wprowadziliśmy

04:29.730 --> 04:33.030
to wiesz, że mieliśmy to już nawet w głębokim oceanie.

04:33.030 --> 04:38.340
Q learning's Więc właśnie nazwaliśmy X, ale teraz wprowadziliśmy krytykę, ale jak dotąd nie ma

04:38.340 --> 04:43.620
sensu, jaki jest sens posiadania tego krytyka i mierzenia wartości stanu lub przewidywania wartości

04:43.620 --> 04:48.320
sceny przy użyciu tego samego układu nerwowego? sieci lub takie samo podejście.

04:48.510 --> 04:52.350
Ale teraz to jest to, że partner zacznie mieć więcej sensu.

04:52.350 --> 04:57.750
Zamierzamy to powtórzyć, ponieważ teraz mamy wielu agentów, więc jeśli jest wielu agentów, to

04:57.750 --> 04:59.410
właśnie tak wygląda.

04:59.410 --> 05:07.380
Tak więc pierwszym sposobem na wyobrażenie sobie tego jest, że mamy te trzy dni dobrze pamiętamy, co mówiliśmy o nich dzieląc się

05:07.380 --> 05:09.210
swoimi doświadczeniami między sobą.

05:09.210 --> 05:12.270
Więc tak jest teraz, wszyscy są niezależni.

05:12.260 --> 05:15.420
Masz jedną grę i inną niż grę w inną grę w grze.

05:15.450 --> 05:20.500
To tak, jakby to było jak uruchomienie agenta na trzech różnych komputerach, w których umieszczasz trzy różne komputery obok

05:20.500 --> 05:23.030
siebie i uruchamiasz je i wiesz, że to świetnie.

05:23.050 --> 05:29.100
Jak naprawdę chcesz, dostaniesz więcej doświadczenia, dostaniesz więcej różnorodności, zwłaszcza jeśli zostaną

05:29.100 --> 05:29.760
zainicjowane.

05:29.790 --> 05:33.600
Możemy więc przypuszczać, że są one źle sformułowane, ale zawsze mamy

05:33.600 --> 05:34.770
ten sam obraz.

05:34.870 --> 05:39.900
Czy dowiemy się, że są one inicjowane inaczej, więc nie będzie

05:39.900 --> 05:43.460
to jak identyczne szkolenie z tej gry.

05:43.890 --> 05:47.700
Nawet jeśli zechcesz, umieścisz trzy komputery obok siebie

05:47.700 --> 05:55.560
i uruchomisz je tak, będziesz miał więcej doświadczenia, ponieważ będziesz miał trzech agentów grających, a także będziesz

05:55.680 --> 05:58.600
mieć większą różnorodność możliwych rozwiązań .

05:58.620 --> 06:00.120
To prawda.

06:00.120 --> 06:03.840
Problem polega jednak na tym, że nie dzielą się między sobą naszym doświadczeniem ani nie uczą się od siebie

06:03.840 --> 06:04.120
nawzajem.

06:04.220 --> 06:06.840
Więc nie mają takiej synergii.

06:06.840 --> 06:11.670
Nie mają przewagi ani dodatkowej siły, którą otrzymywaliby, gdyby mieli komplementy.

06:11.670 --> 06:17.930
Wiesz, jak masz, jeśli masz zespół ludzi, z którymi pracują lepiej niż każdy z nich osobno.

06:17.920 --> 06:20.650
Tak jak w zespole, masz jeden plus jeden plus jeden.

06:20.730 --> 06:25.200
To trzy, ale w zespole jeden plus jeden do odrodzenia, a nie trzy są jak trzy,

06:25.200 --> 06:29.220
ponieważ wykorzystują swoje mocne strony i łagodzą słabości innych i to samo tutaj.

06:29.220 --> 06:34.080
Więc jeśli umieścisz te dwa komputery obok siebie, będziesz miał więcej pamięci i być może

06:34.150 --> 06:35.580
ktoś dostanie lepsze rozwiązanie.

06:35.580 --> 06:39.710
Kolejny, który jest świetny, ale będzie jeszcze lepszy, jeśli zaczną dzielić się tym doświadczeniem.

06:39.780 --> 06:41.120
I jak oni to robią.

06:41.130 --> 06:47.820
Cóż, przez to Wii obliczamy to, więc ta wartość Wii, która jest wynikiem naszej sieci,

06:47.820 --> 06:49.550
jest właśnie taka.

06:49.560 --> 06:54.960
Więc mają to samo za każdym razem.

06:54.960 --> 06:58.050
Wszyscy ci agenci przyczyniają się do tego samego krytyka.

06:58.050 --> 07:04.290
Nie mają oddzielnych krytyków, mają wspólnego krytyka i to jest klucz do tego, w jaki sposób krytyk

07:04.290 --> 07:06.270
aktor jest związany z synchronizacją.

07:06.270 --> 07:09.850
Więc jest jeden krytyk, który obserwuje nas, kiedy mają doświadczenie.

07:09.870 --> 07:12.420
Jak więc obliczyć Wii.

07:12.570 --> 07:13.920
Musimy przejść przez Wii.

07:14.220 --> 07:20.190
Jak pamiętacie, możemy uzyskać TV dzięki wartościom, które otrzymujemy, dzięki czemu otrzymujemy nagrody za

07:20.190 --> 07:20.750
środowisko.

07:20.760 --> 07:28.310
W związku z tym, że agenci badają otoczenie, są kalkulowani i przewidują Wii.

07:28.320 --> 07:30.710
Plus mają Wii, które mogą obliczyć.

07:30.720 --> 07:35.010
To wszystko wiąże się z tym, o czym już mówiliśmy w poprzednich

07:35.010 --> 07:35.730
punktach wyników.

07:35.850 --> 07:42.870
Więc już mają Wii, które oni mogą przewidzieć, jak oczekują od nagród, które wiedzą, że istnieją w tym

07:42.870 --> 07:48.700
labiryncie i że już odkryli i gdy odkrywają je oczywiście, że ta wartość może

07:48.750 --> 07:49.770
się zmienić.

07:49.890 --> 07:55.410
Ale również mają Wii, że jest to wyjście sieci neuronowej,

07:55.410 --> 08:01.530
ponieważ będą przez to dostosowywać swoje sieci neuronowe, aby lepiej pasowały do oczekiwanych.

08:01.530 --> 08:10.080
Więc w zasadzie jest to wspólne, część krytyczna jest dzielona między agentami i to jest, w jaki sposób dzielą się informacjami między sobą,

08:10.080 --> 08:15.490
tak, że są w stanie zobaczyć, co się dzieje w środowisku współdzielonym ze sobą,

08:15.490 --> 08:20.890
a następnie użyć tego jako że zobaczą dalej w następnej części na korzyść.

08:20.930 --> 08:25.450
Wykorzystaj to, aby zoptymalizować zachowanie środowiska.

08:25.710 --> 08:27.960
Inną rzeczą, o której warto tutaj wspomnieć, jest.

08:28.080 --> 08:29.510
Więc to było przez C.

08:29.520 --> 08:33.150
To jest jak rdzeń A-3 do tej pory.

08:33.150 --> 08:38.610
To jest wersja wersji 08:30. Ale jest jeszcze lepsza implementacja tego.

08:38.610 --> 08:45.450
Od A do C, o którym usłyszysz, o czym chciałbym porozmawiać w jednym z pierwszych tutoriali i praktycznej strony

08:45.450 --> 08:52.680
rzeczy, a także o tym, o czym będzie mówił, to w jaki sposób twórca Pi Torche w rzeczywistości dostosował kodów,

08:52.980 --> 08:58.530
które zostały udostępnione i zdobyć koncentrator w miejscu, w którym zabrał wszystkie te elementy, jak

08:58.530 --> 09:03.420
widać teraz mają oddzielne sieci neuronowe i pokazały Wii, że dokonane dostosowanie było

09:03.420 --> 09:09.300
w rzeczywistości przeniesieniem wszystkich tych sieci neuronowych i umieszczeniem ich w jednym weź je i połącz je.

09:09.300 --> 09:15.100
Tak więc ostatecznie istnieje tylko jedna sieć neuronowa dzielona między agentów.

09:15.120 --> 09:21.180
Zanim więc każdy z nich miał jedną sieć neuronową, która była wspólna dla aktora i dla krytyka, jedna

09:21.180 --> 09:25.790
sieć neuronowa Shelfer była dla krytyka jedną z sieci neuronowych dla dokładności.

09:25.800 --> 09:31.730
Teraz wszyscy mają jedną sieć neuronową, która jest wspólna dla aktora lub krytyka rzeczywistego krytyka x lub krytyka.

09:31.980 --> 09:35.130
A potem krytyk jest tutaj wspólny.

09:35.310 --> 09:36.690
Zobaczmy, Let's.

09:36.690 --> 09:39.840
Przesuńmy te zdjęcia w lewo, aby zrobić trochę miejsca.

09:40.100 --> 09:47.430
I to jest w zasadzie architektura lub struktura, której będziemy używać w praktycznych

09:47.430 --> 09:48.250
tutorialach.

09:48.300 --> 09:55.020
Wiem, że to może brzmieć nieco przytłaczająco na tym etapie, ale mamy jeszcze jedną rzecz do omówienia, która

09:55.020 --> 09:59.370
z nich jest zaletą i że zobaczymy ją lepiej w akcji.

09:59.370 --> 10:02.780
Jak to się dzieje, porozmawiamy o intuicji w działaniu.

10:02.870 --> 10:05.680
Ale ogólnie rzecz biorąc to jest właśnie to.

10:05.700 --> 10:10.640
Jest to jedna sieć, z której korzystają każdy z agentów lub z których korzystają.

10:10.640 --> 10:15.820
Zasadniczo oznacza to, że dzielą one wagi, które wagi sieci są dzielone w różnym wieku,

10:15.840 --> 10:19.920
a kiedy je aktualizują, aktualizują całą sieć, nie tylko własną sieć.

10:20.480 --> 10:26.270
A potem mają wyjścia, które podobają się tym działaniom dla każdego agenta, a następnie mają wspólnego krytyka,

10:26.270 --> 10:27.710
który będzie monitorowany.

10:27.700 --> 10:34.280
Tak więc wiem, że to wszystko jest jak teraz, ale mam nadzieję, że powoli zbliża się

10:34.850 --> 10:35.900
do siebie.

10:35.900 --> 10:39.660
Głównym powodem jest to, że krytyk, ponieważ jest wspólny.

10:39.670 --> 10:47.810
W ten sposób agenci są w stanie upewnić się, że współpracują ze sobą, aby uzyskać wynik znacznie

10:47.810 --> 10:48.660
szybciej.

10:48.860 --> 10:52.690
A w następnym samouczku zobaczymy jeszcze, jak to wszystko się składa.

10:52.700 --> 10:53.650
Wszystko to razem.

10:53.900 --> 11:01.210
I na razie jest coś, co chciałbym polecić lub chcielibyśmy polecić ci dodatkową lekturę.

11:01.210 --> 11:06.780
To jest blog Jaromira Janscha.

11:06.860 --> 11:11.570
Nazywa się, Zróbmy implantację typu A3, to w rzeczywistości implementacja dwóch części i teoria.

11:11.820 --> 11:19.010
Jest link i jest bardzo podobny do tego, co Adlon będzie implementował w praktycznej stronie

11:19.010 --> 11:25.880
samouczka, więc nie jest specjalnie dla tego tutoriala, nie tylko dla Sutro, ale dla całej

11:25.880 --> 11:27.200
tej sekcji.

11:27.200 --> 11:30.900
Zachęcam tam pewne dodatkowe informacje, aby uzyskać dodatkowe informacje.

11:31.040 --> 11:33.260
I dlatego właśnie to tutaj wprowadzamy.

11:33.320 --> 11:38.030
Niemniej jednak w następnym samouczku zaczniemy wyciągać to wszystko razem.

11:38.030 --> 11:39.040
Wszystko, o czym rozmawialiśmy.

11:39.200 --> 11:40.590
I nie mogę się doczekać, aby zobaczyć cię następnym razem.

11:40.590 --> 11:42.200
I do tego czasu ciesz się.