WEBVTT

00:00.590 --> 00:03.970
Cześć i witam z powrotem na kursie na temat sztucznej inteligencji.

00:04.070 --> 00:05.420
Mam nadzieję, że jak dotąd cieszycie się z tego kursu.

00:05.420 --> 00:09.050
A dzisiaj mówimy o działaniu polityki selekcji.

00:09.050 --> 00:11.010
W porządku, przejdźmy od razu do tego.

00:11.030 --> 00:17.930
Wcześniej rozmawialiśmy o dodaniu sieci neuronowej do naszego prostego uczenia się i do tej pory

00:18.020 --> 00:21.230
wciągamy się do głębokiego uczenia się.

00:21.230 --> 00:26.620
Rozmawialiśmy trochę o części uczącej się, w tym dodaniu do niej pewnych elementów.

00:26.630 --> 00:30.020
A dzisiaj mówimy o tej części, o której mówimy o aktorstwie.

00:30.020 --> 00:31.290
Więc spójrzmy.

00:31.310 --> 00:38.690
Mamy tutaj to, o czym mówiliśmy, że po wprowadzeniu wartości, które są parametrami, wektor opisujący agenta stanu jest

00:38.690 --> 00:45.230
wyraźnie w tym środowisku, to znaczy po tym, jak cała nauka się skończyła, albo jeszcze

00:45.230 --> 00:47.290
zanim nauka się skończy.

00:47.420 --> 00:52.000
Zasadniczo otrzymujemy wszystkie wartości q, więc nie jesteśmy zainteresowani nauką, teraz nalegamy

00:52.010 --> 00:57.350
na działanie, więc gdy tylko otrzymamy te kluczowe wartości, zrozumiemy, które z nich musimy użyć.

00:57.350 --> 00:58.910
Cóż, jeśli o tym pomyślisz.

00:58.910 --> 01:01.890
Wartości Q są po prostu przewidywaniami dla kostki.

01:01.910 --> 01:08.630
Tak jak zrobiliśmy w prostym algorytmie uczenia się, co zrobiliśmy, właśnie wybraliśmy ten, który ma najlepszą z

01:09.180 --> 01:10.420
najwyższej wartości.

01:10.430 --> 01:15.380
Kiedy już mamy ten, który ma najwyższą wartość IQ, po prostu bierzemy tę akcję, ponieważ ona

01:15.380 --> 01:20.330
właśnie przynosi nam najwyższą wartość i że wiemy, że natychmiastowa nagroda Duval's kalkulator, że oczekujemy

01:20.360 --> 01:23.100
otrzymać Plus współczynnik DK razy wartość następnego dnia.

01:23.120 --> 01:29.480
I to jest rekurencyjne obliczenie, więc dlaczego nie miałbyś wziąć najlepszej wartości i na

01:29.480 --> 01:30.570
tym koniec.

01:30.800 --> 01:35.360
Ale jak widzisz, tutaj nie jest tak prosto, że używamy funkcji miękkiego maksimum i

01:35.360 --> 01:37.910
tutaj będziemy mówić o rzeczywistych zasadach wyboru.

01:37.940 --> 01:41.210
Tak więc w rzeczywistości nie musimy mieć tylko funkcji oprogramowania.

01:41.300 --> 01:49.190
Możemy mieć różne strategie wyboru działań, na przykład mamy Epsilon chciwy Epsilon jest miękki i mamy miękkie komputery

01:49.470 --> 01:54.950
Mac i to jest trochę jak najczęściej stosowana polityka wyboru działań, oczywiście, że

01:54.960 --> 01:56.300
są inne.

01:56.300 --> 02:02.120
Na przykład najbardziej podstawowa jest bardzo prosta akcja towarzyska, po prostu wybierz najlepszy.

02:02.120 --> 02:03.770
Ten o najwyższej wartości Q.

02:03.980 --> 02:09.800
Ale dlaczego ten impuls działania nie działa i dlaczego mamy różne typy polityki wyboru akcji pulsu

02:09.800 --> 02:10.510
działania.

02:10.520 --> 02:15.270
Wszystko sprowadza się do poszukiwań a eksploatacji.

02:15.560 --> 02:22.670
I to jest rdzeń uczenia się przez wzmocnienie, ponieważ mówiliśmy o tym trochę, że twój agent działa w

02:22.880 --> 02:28.400
środowisku, w którym może przewidzieć pewne wartości kolejki, które mogą być dobre i

02:28.400 --> 02:34.970
może się okazać, że może się okazać, że są one dostępne i będą zmuszeni do eksploracji.

02:34.970 --> 02:40.640
Jeśli więc na przykład w tym przypadku przewidujemy, że Q2 jest najlepszy, a następnie zajmiemy się Q

02:40.640 --> 02:42.350
Aby podjąć akcję i to.

02:42.500 --> 02:46.880
A więc do Sekcji 2, a potem dostaje bardzo negatywną nagrodę.

02:46.880 --> 02:51.980
Wtedy środowisko zmusza agenta do działania i eksploduje, ponieważ teraz dowie się, że tak

02:51.980 --> 02:56.740
naprawdę myślałem, że Q2 będzie bardzo dobre, ale okazało się bardzo złe.

02:56.780 --> 02:58.370
Więc wyniki nie są bardzo złe.

02:58.370 --> 03:02.730
Tak więc sieci mogą się aktualizować, więc następnym razem, gdy będzie w stanie, że prawdopodobnie zjem moją duszę, po

03:02.720 --> 03:04.010
prostu się do tego zabierz.

03:04.190 --> 03:09.470
Wiesz, że jeśli jest to bardzo korzystne, możesz pomyśleć, że to tak, jakbyś wiedział,

03:09.470 --> 03:14.900
że możesz potrzebować paru razy kilku kar lub kar, aby dowiedzieć się, że chodzi o działanie.

03:14.990 --> 03:20.030
Ale może już wkrótce dowie się, że zamierzam podjąć inną akcję i podjąć akcję nadgarstka,

03:20.030 --> 03:22.020
ponieważ teraz ma najlepszą wartość.

03:22.160 --> 03:28.880
Czasami środowisko zmusza agenta do podjęcia różnych działań w celu zbadania różnych działań, ale czasami

03:29.180 --> 03:36.860
agent może je utknąć w lokalnym maksimum, może odkryć, że podąża za jego początkową eksploracją i odkrył,

03:36.860 --> 03:42.110
że to całkiem fajne działanie, takie jak Mam zamiar iść tutaj.

03:42.200 --> 03:43.920
I ta kolekcja d'esprit.

03:43.940 --> 03:49.760
Ale problem polega na tym, że uważa, że jest to najlepsze działanie, po prostu dlatego, że nie odkrył, że jest badane,

03:49.760 --> 03:55.850
gdy idzie w górę, albo idzie w lewo, to badać, idąc w prawo, ale nie zbadał, idąc w dół od tego konkretnego stanu,

03:56.360 --> 04:01.490
w którym się znajduje i teraz, trochę jak uprzedzeni do tego działania i myślą, że myśli, że dobre

04:01.490 --> 04:03.800
działanie będzie kontynuowało branie tego, co będzie dalej.

04:03.840 --> 04:06.570
On będzie nadal brał, a on wciąż otrzyma dobrą nagrodę.

04:06.620 --> 04:14.000
Ale co by było, gdyby ta akcja była jeszcze lepsza, gdyby ta akcja była o wiele lepsza, gdyby

04:14.060 --> 04:19.310
wiedziała o tym akcie, faktycznie przerzuciłaby się na tę akcję, ale ponieważ utknęła

04:19.310 --> 04:23.580
w lokalnym maksimum, otrzymała te dobre nagrody być wzmocnionym.

04:23.630 --> 04:27.770
Będzie to nadal wzmacniało to, lub przemoc, aby wzmocnić to, że jest to dobre

04:27.770 --> 04:29.450
działanie, aby dalej to robić.

04:29.510 --> 04:35.330
Ale tak naprawdę rzeczywistość jest taka, że jest jeszcze inna akcja, której jeszcze nie odkryto lub jeszcze nie zbadała.

04:35.570 --> 04:37.090
Byłoby znacznie lepiej.

04:37.130 --> 04:43.790
Chcemy więc wymyślić rzeczywistą politykę wyboru, która pozwoli naszemu agentowi utknąć

04:43.910 --> 04:45.800
w lokalnym maksimum.

04:45.800 --> 04:50.120
Tak, ważne jest, abyś wiedział, że nadal wykonuje dobre działania, które są częścią eksploatacji.

04:50.180 --> 04:52.000
Nie wykorzystamy tego, co znaleźliśmy.

04:52.100 --> 04:56.720
Ale jednocześnie wciąż chcemy odkrywać, że nigdy nie chcemy przestać odkrywać, tak jak w życiu, że nigdy nie

04:56.720 --> 04:59.000
chcesz przestać się uczyć, przestać uczyć się umierać.

04:59.120 --> 05:05.030
Takie rzeczy sprawiają, że gdy nie rośniesz, umierasz lub coś się dzieje, chcesz kontynuować naukę,

05:05.090 --> 05:07.580
a twój agent chce się uczyć.

05:07.760 --> 05:10.200
I tu właśnie pojawiają się te zasady wyboru działań.

05:10.400 --> 05:16.190
Mamy tu trzy wymienione tutaj, więc pierwszy jest chciwy Epsilon, jest bardzo prosty,

05:16.190 --> 05:22.140
brzmi dość skomplikowany w tym sensie, że ma fajne imię i zazwyczaj ma chirurgiczne nazwy.

05:22.370 --> 05:23.170
W rzeczywistości tak nie jest.

05:23.180 --> 05:31.530
Zasadniczo to, co robi, wybierze tę z najlepszą wartością Q i epsilon, jak Epsilon, gdzie możesz

05:31.540 --> 05:35.240
usłyszeć inne miejsca, tak jak polityka wyboru.

05:35.240 --> 05:41.210
Tak więc w tym przypadku używamy go do gładzenia, więc nasze wartości Al-Q są sprzedawane tak jak te

05:41.540 --> 05:45.980
z najwyższą wartością Q przez cały czas, z wyjątkiem procentu czasu Epsilon.

05:45.980 --> 05:53.300
Na przykład, jeśli ustawisz epsilon na 10 procent, to będziesz miał albo 0. 1 więcej niż 10 procent czasu, w

05:53.300 --> 05:56.740
którym akcja zostanie wybrana losowo.

05:56.750 --> 06:01.990
Tak więc 90 procent czasu nadal wybierasz najlepsze działanie oparte na najwyższej wartości.

06:02.120 --> 06:05.580
Ale 10 procent czasu będzie wybierać losową akcję.

06:05.600 --> 06:11.120
Jednolite, będzie to absolutnie przypadkowe podjęcie działania lub jeśli powiesz epsilon

06:11.420 --> 06:18.380
do zera punkt pięć za 0. 05 oznacza to, że 95 procent czasu, w którym agent podejmie działanie z

06:18.380 --> 06:19.200
najwyższą wartością.

06:19.220 --> 06:22.470
Ale 5 procent czasu to wciąż będzie wybór i losowe działanie.

06:22.490 --> 06:25.550
Więc będzie tam chodzić i odkrywać.

06:25.790 --> 06:31.640
Miękkość Epsilon jest więc bardzo podobna do tego, w jaki sposób

06:31.750 --> 06:39.780
nazywana jest chciwością FCL, ponieważ wtedy zachłannie wybiera akcję jako dobrą akcję, z wyjątkiem tego małego epizodu.

06:39.780 --> 06:40.290
Trochę czasu.

06:40.280 --> 06:46.970
Im niższa stawka EPS obniży Epsilon Lepp, tym bardziej wybierzesz taki rodzaj działania,

06:46.970 --> 06:53.870
który jest optymalnym działaniem, a im mniej opuszczasz, tym mniej masz szans na eksplorację.

06:53.870 --> 06:56.000
Miękkość Epsilon jest odwrotna.

06:56.000 --> 07:02.000
Zasadniczo wybierasz losowo, wybierając jeden minus centa epsilon czasu.

07:02.000 --> 07:08.240
Jeśli więc epsilons lubią 0. 1 do 10 procent, a następnie tylko 10 procent czasu, w którym wykonujesz to działanie.

07:08.490 --> 07:12.410
I przez 90 procent czasu wybierasz losową akcję.

07:12.410 --> 07:19.000
Tak bardzo proste, po prostu odwrócone algorytmy i miękki Max są czymś w rodzaju następnego kroku od lub jest

07:19.070 --> 07:24.350
to bardziej zaawansowana wersja, którą powiem przez epsilon algorytmu chciwości epsilon, chociaż obaj mają wartość

07:24.350 --> 07:26.570
i obaj mają swoje miejsce.

07:26.610 --> 07:30.860
Będziemy wykorzystywać samofinansowanie w naszym kodowaniu w praktycznych rzeczach.

07:30.860 --> 07:35.270
Więc o tym będziemy rozmawiać nieco bardziej szczegółowo o miękkim maksimum.

07:35.330 --> 07:36.380
Więc spójrzmy.

07:36.380 --> 07:38.440
Przejdźmy więc do następnej nadziei.

07:38.450 --> 07:42.800
Jasne jest, że Ebsen zgadza się, że jest to dość prosty algorytm.

07:42.800 --> 07:45.100
Wybierz ten.

07:45.230 --> 07:47.790
Przez większość czasu, z wyjątkiem czasami udać się na zwiedzanie.

07:47.800 --> 07:53.820
Teraz widzimy także, dlaczego ważne jest, aby przeprowadzić tę eksplorację, abyśmy nie znaleźli się w lokalnych maksimach

07:53.840 --> 07:58.780
w naszym procesie optymalizacji, więc teraz porozmawiamy nieco więcej o miękkich komputerach Mac.

07:58.880 --> 08:02.680
Na końcu kursu znajduje się samouczek dotyczący miękkich znaków.

08:02.750 --> 08:09.560
Myślę, że jest to załącznik numer dwa, w którym mówimy o koncepcji Maxima, ponieważ odświeżysz się trochę

08:09.560 --> 08:14.650
tutaj, więc mówimy o sieciach neuronowych, a przy okazji wszyscy będziemy spowijać

08:14.720 --> 08:15.290
splot.

08:15.290 --> 08:18.170
Nie omawiamy ewolucyjnych sieci neuronowych w tej sekcji.

08:18.210 --> 08:21.470
Oczywiście w tej sekcji wciąż używamy wektora.

08:21.800 --> 08:27.770
Ale w następnej części kursu, kiedy będziemy tworzyli sztuczną inteligencję do gry w Dooma, użyjemy splotowej

08:27.770 --> 08:32.870
sieci neuronowej, więc może to być korzystne dla ciebie w relacyjnych sieciach neuronowych,

08:32.870 --> 08:38.300
a następnie we własnym zakresie. funkcja lub możesz dowiedzieć się więcej o miękkim Max.

08:38.300 --> 08:43.020
Po pobraniu splotowych sieci neuronowych i oczywiście później.

08:43.250 --> 08:48.130
Ale tutaj jest szybki odświeżacz Więc tutaj mamy naszą splotową sieć neuronową, która decyduje, czy to pies

08:48.130 --> 08:48.950
czy kot.

08:48.950 --> 08:56.090
Tak więc mamy proces głosowania między tymi neuronami, a ten mówi, że ma cechy,

08:56.090 --> 09:04.250
które znasz, puszyste uszy. Co to jest spiczasty typ twarzy, a rodzaj cech to rodzaje oczu

09:04.250 --> 09:09.930
i oczu? oczy wyglądają wszystkie te cechy, które należą do psa.

09:09.930 --> 09:13.890
Więc to 95 procent szans, że to pies, a 5 procent szansa, że to kot.

09:13.910 --> 09:19.460
Ale pytanie brzmi: w jaki sposób dotarliśmy do tego Tauriel, o którym mówimy, w jaki sposób możemy uzyskać te wartości, aby

09:19.490 --> 09:20.530
dodać do jednego.

09:20.870 --> 09:27.650
Cóż, niezależnie od splotu, wszystkie nasze sieci neuronowe to splotowa sieć neuronowa oraz w pełni połączone Lares, niezależnie

09:27.650 --> 09:33.300
od tego, czy jest źle, niezależnie od tego, jakie wartości stosujemy do funkcji miękkiego

09:33.300 --> 09:33.980
maksimum.

09:34.010 --> 09:37.720
Tutaj wprowadziliśmy formułę funkcji "miękka następna".

09:37.810 --> 09:38.620
Jest jak to wygląda.

09:38.780 --> 09:40.420
A potem mamy te wartości.

09:40.620 --> 09:43.460
A więc w zasadzie to jest szybkie odświeżenie.

09:43.460 --> 09:46.050
To jest wzór na miękki Max.

09:46.100 --> 09:50.900
To, co robi, wymaga jednak wielu wyników, które masz, nie ma znaczenia.

09:50.900 --> 09:58.130
Potrwa je i zmiażdży je wszystkie na wartości od 0 do 1, bez względu na to, jak duże są po

09:58.130 --> 10:03.720
prostu przez to, że widzę, że na dole jest całkowita suma, więc te urządzenia będą

10:03.720 --> 10:04.860
miały zero.

10:04.860 --> 10:08.630
A także wszystkie te wartości będą zawsze dodawane do jednego.

10:08.700 --> 10:16.770
Jest to bardzo korzystne dla nas, ponieważ kiedy używamy funkcji miękkiego maksimum, co się dzieje, to

10:16.800 --> 10:21.390
otrzymujemy te wartości, wybieramy tę najlepszą wartość widoku.

10:21.390 --> 10:26.740
Ale tak naprawdę to te wartości, które otrzymujemy, są prawidłowe.

10:26.750 --> 10:28.760
To jest liczba liczb.

10:28.920 --> 10:31.720
Nie muszą wszystkie sumować do jednego i nie muszą zawierać się między 0 a 1.

10:31.730 --> 10:32.830
Tylko kilka liczb.

10:33.140 --> 10:38.520
Ale kiedy stosujemy miękki Max, nie wybieramy tego, co najlepsze, tak naprawdę otrzymujemy liczby

10:38.520 --> 10:44.310
takie, więc otrzymujemy nasze liczby w zakresie od 0 do 1, i które również dodają do 1.

10:44.310 --> 10:47.220
I co jeszcze wiemy, co daje jeden.

10:47.340 --> 10:53.010
Prawdopodobieństwo, że wiemy, że prawdopodobieństwo zawsze musi wynosić do 1, dlatego możemy powiedzieć, że

10:53.010 --> 10:57.990
mamy wartości q, ale tutaj nagle mamy miękkie lub mamy prawdopodobieństwa.

10:57.990 --> 11:02.740
Możemy więc powiedzieć, że prawdopodobieństwo, że jest to najlepsza akcja, wynosi 90 procent.

11:02.840 --> 11:08.610
Ta sekcja lesbijek 5 procent 2 procent 3 procent, ponieważ wiemy, że im wyższa wartość, tym lepsze

11:08.610 --> 11:09.290
działanie.

11:09.390 --> 11:14.920
Więc jeśli zmiażdżymy je na 0 do 1, stają się one możliwościami i możemy sobie z nimi poradzić.

11:15.090 --> 11:22.840
I dlatego teraz jest, gdy akcja jest wybrana i tak właśnie wymyślamy Q2.

11:22.890 --> 11:28.580
Ale jeśli przyjrzysz się temu uważnie, nie jest to ścisłe 100 procent, a nie są to Saroo 0 procent.

11:28.590 --> 11:30.670
To jest 5 procent do 3 procent.

11:30.810 --> 11:42.360
Zatem najbardziej naturalnym sposobem zastosowania miękkiego Maxa w celu zachowania eksploracji w algorytmie jest użycie tych

11:42.480 --> 11:48.600
dokładnych prawdopodobieństw, jak często będziemy podejmować takie działania.

11:48.600 --> 11:55.710
Więc te prawdopodobieństwa faktycznie przedstawiają dystrybucję tych działań, które stosujemy, więc w zasadzie miękki

11:55.890 --> 12:01.740
Max bardzo ułatwia nam znalezienie sposobu na połączenie wyzysku i eksploracji.

12:01.740 --> 12:06.930
Tak więc najlepsza najlepsza akcja zawsze będzie miała wysokie prawdopodobieństwo, ponieważ ma najwyższą wartość Q i dlatego

12:06.930 --> 12:11.190
zamierzamy po prostu użyć ich jako naszej dystrybucji lub powiemy, że przyjmiemy Q2

12:11.190 --> 12:16.080
90 procent czasu, ale 5 procent czasu, w którym wciąż mamy do czynienia z Q1

12:16.120 --> 12:21.170
i 2 procentami czasu, kiedy dostaniemy 3 i 3 procent czasu, w którym zamierzamy zająć Q4.

12:21.420 --> 12:27.090
Piękno jest tu również tym, że ponieważ wartości te aktualizują się, a agent

12:27.090 --> 12:35.220
przechodzi przez sieć coraz więcej i więcej, staje się bardziej obeznany ze środowiskiem, a zatem te aktualizacje, więc ta wartość

12:35.210 --> 12:41.640
na przykład może się wydawać taka, ta wartość jest w rzeczywistości mniejsza lub faktycznie jest

12:41.640 --> 12:47.060
wyższa, a więc te prawdopodobieństwa również ulegną zmianie w miarę przechodzenia agenta.

12:47.070 --> 12:49.190
Nawet jeśli mamy tutaj Choo-Choo.

12:49.200 --> 12:55.560
Nikt nie mówi, że czasami 5 procent czasu, aby być bardziej precyzyjnym, wybieramy

12:55.560 --> 13:00.040
Q1 jako akcję, a czasem lub akcję, którą podejmiemy.

13:00.180 --> 13:05.280
Czasami podejmowane są działania przez dwie akcje trzy dwa procent czasu, a akcja za

13:05.280 --> 13:06.400
około 3 procent.

13:06.420 --> 13:13.800
Każde działanie ma szansę zagrać w tym procesie, o ile mamy wystarczającą liczbę iteracji, których agent przechodzi

13:13.800 --> 13:17.930
wiele razy przez te stany, w których się znajdują.

13:17.940 --> 13:23.880
I właśnie tak funkcjonuje jakikolwiek algorytm głębokiego uczenia się, który chcesz zrobić tak

13:23.880 --> 13:30.030
wiele razy, abyś uczył się z doświadczenia i dlatego, jak widać, jest to

13:30.030 --> 13:31.840
bardzo naturalne przejście.

13:31.860 --> 13:37.590
Nie jesteśmy po prostu przypadkowo podobni do rozgniewanego algorytmu firmy Epson, a nie tylko losowo wybieramy

13:37.590 --> 13:44.100
działania, które wybieramy na podstawie ich wartości maksymalnych, co sprawia, że ma ono pewną logikę, nie tylko nie przypadkowe

13:44.190 --> 13:48.780
10 procent czas, w którym wybieramy losową akcję, ale jest pewna logika stojąca

13:48.780 --> 13:53.200
za tym, jak to robimy i na podstawie kluczowych wartości, które zbadaliśmy.

13:53.280 --> 13:58.620
Taka jest polityka wyboru działań, której będziemy używać w tym kursie.

13:58.620 --> 14:04.590
Jeśli chcesz, to z pewnością skorzystaj z sekcji "Zachłanny akcja" Ebsena, ale zamierzamy

14:04.590 --> 14:10.920
w przeważającej mierze korzystać z zasady "miękkich maksimum akcji" i mam dla ciebie interesującą

14:10.920 --> 14:11.490
lekturę.

14:11.490 --> 14:17.430
Jest to nazywane chciwą eksploracją intelektualnej adaptacji Epsilon w uczeniu się wzmacniania opartym na różnicach w wartościach, to jest

14:17.430 --> 14:18.870
artykuł z 2010 roku.

14:18.930 --> 14:27.270
I to jest interesujące, ponieważ Mike Michel nie jestem pewien, jak wymówić Michelle i Miquel toxic

14:27.450 --> 14:36.420
wprowadza inny typ Algren i dostosowany algorytm chciwy Epsilon i nazwał algorytm VDB VDB lub algorytm VDB chciwy

14:37.230 --> 14:40.030
epsilon, który można zobaczyć tutaj.

14:40.410 --> 14:46.590
I faktycznie porównuje się do chciwego i miękkiego Maxa Ebsena i jest

14:46.650 --> 14:55.740
to absolutnie chciwy algorytm, którego podstawową ideą jest dostosowanie wartości epsilon w zależności od stanu, w jakim znajduje się

14:55.740 --> 14:56.550
agent.

14:56.550 --> 15:01.820
Jeśli więc agent jest bardzo pewny co do stanu, wówczas Epsilon powinien być mniejszy, więc powinny one być

15:01.820 --> 15:06.340
mniej eksplorowane, jeśli agent zostanie odebrany. Epson powinien być wyższy, powinien być bardziej eksplorowany.

15:06.350 --> 15:08.930
To jest artykuł z 2010 roku.

15:09.260 --> 15:17.930
Nie jestem pewien, czy to jest, czy ten nowy proponowany algorytm jest powszechnie stosowany, czy też jest akceptowany w społeczności

15:18.010 --> 15:23.090
lub lub jeśli sztuczny Times ma coś w rodzaju tej sugestii.

15:23.090 --> 15:29.450
Niemniej jednak z pewnością pomoże ci to wzmocnić swoją wiedzę o polityce doboru działań, którą omawialiśmy

15:29.450 --> 15:33.180
w Epsom Ingredion, a także o tym, jak

15:33.200 --> 15:38.900
łagodna pomoc dla naksyntów daje ci szansę na zmotywowanie strony Subha, a także

15:38.900 --> 15:46.040
zobacz, w którym kierunku ludzie faktycznie myślą, kiedy chcą ulepszyć sztuczną inteligencję więc jeśli kiedykolwiek planujesz stworzyć

15:46.040 --> 15:51.770
naprawdę ciekawe algorytmy, które przesuwają granicę sztucznej inteligencji Elche i przesuwają kopertę w tej

15:52.130 --> 16:00.140
przestrzeni, to może to być dobry sposób, abyś zobaczył, w którym kierunku ludzie czasem myślą, kiedy próbują udoskonalić normy

16:00.200 --> 16:04.070
sztucznej inteligencji lub normy, które istniały w 2010 roku.

16:04.070 --> 16:04.760
Więc idziemy.

16:04.790 --> 16:11.020
Mamy nadzieję, że podobał Ci się dzisiejszy samouczek dotyczący zasad wyboru akcji i dowiedzieliśmy się

16:11.060 --> 16:18.240
o chciwej soli Epsona i miękkich komputerach Mac, a teraz jesteś jeszcze bardziej przygotowany na praktyczną stronę rzeczy.

16:18.290 --> 16:20.840
I w tej notatce czekam z niecierpliwością na następny krok.

16:20.840 --> 16:22.570
A do tego czasu ciesz się AI.
