WEBVTT

00:00.650 --> 00:05.690
Witam i witam z powrotem na kursie na I I w poprzedniej części rozmawialiśmy

00:05.750 --> 00:08.360
o głębokiej intuicji Killary, którą zaczęliśmy.

00:08.360 --> 00:14.900
I faktycznie dotarliśmy aż do tej części i gdzie rozmawialiśmy o uczeniu się, a

00:14.900 --> 00:18.200
teraz przejdziemy do rzeczywistej części aktorskiej.

00:18.200 --> 00:22.250
Mamy dwie części do odrębnych części, które musimy pamiętać.

00:22.250 --> 00:25.520
Więc to jest część ucząca, ale teraz on właśnie to zrobił.

00:25.520 --> 00:26.390
To jest piękne.

00:26.390 --> 00:30.500
Teraz musi podjąć działanie, które musi podjąć, aby zdecydować, co zamierza zrobić, to zrobić

00:30.500 --> 00:31.710
jedną, dwie trzecie.

00:31.740 --> 00:32.860
Jak on to robi?

00:33.020 --> 00:39.370
Cóż, sposób, w jaki to robi, ma teraz te same wartości, więc wartości się nie zmieniają po tym, jak mamy te wartości,

00:39.370 --> 00:43.430
które porównujemy z Calcottem w ostatnich dwóch latach, w aroganckiej ery zaktualizowaliśmy wagi,

00:43.430 --> 00:45.950
ale wartości nie zmiana w całym tym procesie.

00:45.990 --> 00:47.410
Aby uzyskać wartości kostki tam.

00:47.430 --> 00:48.380
Są naprawione.

00:48.380 --> 00:49.440
Wiemy, jakie one są.

00:49.440 --> 00:50.480
Wszystko to dzieje się jednak.

00:50.510 --> 00:53.820
Sieci zaktualizowano i wykorzystując te same wartości, które mieliśmy.

00:53.960 --> 00:58.600
To, co zamierzamy zrobić, to przetworzyć je za pomocą funkcji maksymalnej maksymalnej.

00:58.610 --> 01:00.580
I znów miękki Max, jak to opisano.

01:00.620 --> 01:05.160
Myślę, że załącznik 2 i porozmawiamy trochę więcej o miękkim maksimum.

01:05.180 --> 01:12.070
W dalszej części lub omówimy tę politykę wyboru działań w dalszej części tego rozdziału.

01:12.140 --> 01:13.610
Tak więc w kilku tutoriali.

01:13.730 --> 01:17.270
Ale na razie zamierzamy powiedzieć, że przekazujemy to przez miękką następną funkcję.

01:17.270 --> 01:22.150
Zasadniczo to, co robi, pozwala mu wybrać najlepszy, który wybierze najlepsze możliwe działanie.

01:22.250 --> 01:23.650
I jest to małe zastrzeżenie.

01:23.660 --> 01:26.120
To nie tylko najlepszy możliwy.

01:26.120 --> 01:28.940
Porozmawiamy o tym w samouczku dotyczącym zasad wyboru działań.

01:28.940 --> 01:35.890
Ale na razie powiedzmy, że wybiera najlepszą akcję stąd mówi OK, więc Q1 znasz prawdopodobieństwo.

01:36.140 --> 01:41.960
Zasadniczo wiemy, że wartości q przewidywały wartość Q, więc można na nie spojrzeć i powiedzieć OK, więc

01:41.960 --> 01:46.280
najwyższa wartość Q, tak jak to zrobiliśmy w prostym algorytmie uczenia Q.

01:46.280 --> 01:50.240
Po prostu popatrz na te wszystkie, powiedzmy, że najwyższe wartości, które wybiorę, wybiorę to, co

01:50.240 --> 01:50.860
zamierzamy zrobić.

01:50.900 --> 01:52.180
I to już prawie wszystko.

01:52.220 --> 01:57.300
W ten sposób wybiera, które działanie ma podjąć, a następnie cały ten proces dzieje się ponownie.

01:57.290 --> 02:02.120
Na następny etap agent znajdzie się w naszym przypadku i następnym kwadracie labiryntu.

02:02.120 --> 02:04.540
Ale ogólnie mówiąc w następnym stanie.

02:04.640 --> 02:05.420
Więc idziemy.

02:05.420 --> 02:14.660
W ten sposób zasilamy problem uczenia wzmacnianego w sieć neuronową poprzez wektor opisujący stan, w którym

02:14.660 --> 02:16.160
się znajdujemy.

02:16.160 --> 02:17.510
A kiedy już to zrobimy.

02:17.510 --> 02:22.210
Są dwie części procesu, pierwsza to nauka.

02:22.400 --> 02:26.840
Pamiętaj więc o tej części, w której porównujemy każdą z wartości kostki z celem,

02:26.840 --> 02:32.360
a następnie cofamy propagację straty w sieci, aby zaktualizować wagi, tak aby nasza sieć uczyła się, przechodząc

02:32.360 --> 02:34.830
przez ten labirynt lub przez to środowisko.

02:35.210 --> 02:41.120
Drugą częścią jest oczywiście to, że musimy działać, musimy wybrać akcję i właśnie tam przekazujemy

02:41.120 --> 02:46.880
wartości za pomocą funkcji "miękkiej maksimum" lub w zasadzie polityki wyboru działań, o której

02:46.880 --> 02:48.330
będziemy mówić dalej.

02:48.470 --> 02:53.570
Następnie wybieramy akcję, którą chcemy wykonać, i wykonujemy tę akcję, a następnie cały proces zaczyna się

02:53.570 --> 02:54.580
od nowa.

02:54.770 --> 02:59.570
A potem może agent dostanie wtedy być może agent nie pausa gry.

02:59.630 --> 03:01.250
W każdym razie gra się kończy.

03:01.250 --> 03:08.270
I znowu cały proces powtarza, że agent gra całą grę ponownie, a potem to się zatrzymuje, więc w zasadzie to jest

03:08.270 --> 03:14.460
kolejny park rozrywki za każdym razem, gdy agent, którego znasz, za każdym razem kończy grę z przysługą

03:14.460 --> 03:16.680
poza fairie, która jest końcem lotniska.

03:16.700 --> 03:19.560
A potem zaczyna od nowa, a potem zaczyna od nowa, a potem zaczyna od nowa.

03:19.790 --> 03:20.420
I tak dalej.

03:20.420 --> 03:26.810
Tak się dzieje i proces ten odbywa się za każdym razem, gdy agent jest w tobie w nowym stanie, więc

03:26.810 --> 03:32.240
stan jest tutaj zakodowany, więc jest ważny nie tylko dla każdej gry, w którą gra, ale dla

03:32.240 --> 03:33.020
każdego stanu.

03:33.020 --> 03:38.030
Więc jest w stanie, który przechodzi przez jego daty procesu i tak dalej i dzieje się za każdym razem.

03:38.150 --> 03:41.410
I tak dzieje się nauka i gra się dzieje.

03:41.720 --> 03:47.090
To jest głębokie uczenie się w intuicji stojącej za głębokim uczeniem się.

03:47.090 --> 03:54.200
Mamy dużo więcej do ukrycia, a potem oczywiście praktycznych, aw międzyczasie, jeśli chcesz uzyskać dodatkowe informacje

03:54.410 --> 03:56.720
na temat dalszego uczenia się.

03:56.720 --> 04:05.200
Mamy zalecaną lekturę, więc już mówiliśmy o serii blogów Arthura Giulianiego.

04:05.210 --> 04:12.590
Jeśli spojrzysz na proste nieformalne uczenie się, część 4 dotycząca przepływu w Lifton znajdziesz część, która jest istotna dla tego,

04:12.590 --> 04:14.260
o czym dzisiaj rozmawialiśmy.

04:14.270 --> 04:21.170
Zauważ, że tutaj mówi on o nawinięciach, których nie omawiamy w tej sekcji, o których będziemy

04:21.170 --> 04:23.650
mówić w następnej części kursu.

04:23.720 --> 04:28.880
Różnica polega na tym, że na razie pomijamy część wniosków i porozmawiamy o

04:28.880 --> 04:32.850
nich w następnej części kursu, ale różnica jest w ewolucji.

04:32.850 --> 04:39.170
Wyglądasz jak agent, który patrzy na obraz, i dlatego musi przetworzyć obraz jako

04:39.170 --> 04:43.540
dodatkową komplikację, na którą teraz powoli stopniowo budujemy.

04:43.580 --> 04:50.060
Na razie kodujemy nasze środowisko, ponieważ patrzysz tutaj, kodujemy nasze środowisko lub

04:50.060 --> 04:58.700
może spoglądamy na to prawdopodobnie kodując nasze środowisko jako lub w celu wskazania, że agent jest w wektorze.

04:58.700 --> 05:01.330
Tak więc w naszym przypadku był to bardzo prosty wektor wartości.

05:01.490 --> 05:06.190
Czasami ludzie nawet w tym w tym prosty może czasami lub jak zobaczysz z tego posta na blogu.

05:06.290 --> 05:10.180
Czasami ludzie wolą gorącą i zakodowaną wersję tego stanu.

05:10.180 --> 05:13.380
Więc w zasadzie, gdzie każde pojedyncze pudełko labiryntu ma.

05:13.620 --> 05:17.780
Więc masz wektor dla przypadku zerowego będzie 12 wartości trzy na cztery.

05:17.800 --> 05:22.130
Więc nie jest to albo albo 1, albo 0, w zależności od tego, które elementy i w którym polu się znajdujesz.

05:22.160 --> 05:22.990
W środowisku.

05:23.060 --> 05:29.900
Tak więc niezależnie od tego, w jaki sposób zdecydujesz się kodować swoje środowisko i stan swojego środowiska, tak właśnie jest w przypadku kodowania

05:29.900 --> 05:31.520
Jest to w zasadzie wektor.

05:31.520 --> 05:36.410
Kluczem jest to, że nie jest to splot, więc nie jest jak obraz i nie ma woltu zwojów

05:36.410 --> 05:37.810
Więc ta część przyjdzie później.

05:37.820 --> 05:43.410
Dla nas zaczyna się tutaj i to tylko upraszcza proces, abyśmy stopniowo lepiej rozumieli.

05:43.550 --> 05:49.130
I oczywiście nie zapominaj, że ten post jest niegrzeczny i ma tendencję do przepływu i używamy pi torche

05:49.130 --> 05:50.090
w naszych samouczkach.

05:50.090 --> 05:51.910
Miejmy nadzieję, że Ci się spodoba.

05:51.920 --> 05:59.220
Szybkie wprowadzenie do głębokiego, sporego, głębokiego, ale nie głębokiego uczenia się książki.

05:59.310 --> 06:02.910
I w tej notatce czekam na kolejne spotkanie.

06:02.930 --> 06:05.430
A do tego czasu ciesz się sztuczną inteligencją.