WEBVTT

00:01.080 --> 00:04.050
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.050 --> 00:09.810
Astăzi continuăm călătoria noastră în lume la fiecare trei vedeți și vorbim despre partea sincronă a

00:09.870 --> 00:13.530
oricărei C, astfel că avem abrevierea noastră de avantaj sincron.

00:13.550 --> 00:14.430
Critic activ.

00:14.430 --> 00:19.040
Și astăzi vom afla ce înseamnă un sincron aici pentru ce înseamnă.

00:19.080 --> 00:20.990
Și să ne întoarcem un pas.

00:21.000 --> 00:27.270
Să ne uităm la ceea ce am pornit de la acest curs, pentru a afla ce înseamnă că

00:27.270 --> 00:29.050
Asia este într-o anumită stare.

00:29.340 --> 00:30.690
Observă statul.

00:30.730 --> 00:37.080
Aceștia iau anumite decizii pe care le iau în acel stat și apoi statul este schimbat, astfel încât acestea intră

00:37.080 --> 00:39.010
într-un nou stat plus primesc recompensă.

00:39.150 --> 00:46.830
Deci, recompensa pentru luarea acelei acțiuni sau un fel de recompensă care ar putea constitui o pedeapsă și care vor ajunge într-un

00:46.830 --> 00:47.780
nou stat.

00:47.790 --> 00:50.180
Și pe baza lor, ei încep să facă din nou o acțiune.

00:50.250 --> 00:56.280
Ei primesc o recompensă și se termină într-un nou stat și iau o altă acțiune și așa mai

00:56.280 --> 00:59.670
departe și astfel este baza tuturor învățăturilor de întărire.

00:59.700 --> 01:06.030
Și asta am folosit pentru a învăța în învățare profundă și pentru a continua învățarea în profunzime, ceea ce

01:06.030 --> 01:10.660
a permis agenților noștri să bată treptat medii mai complexe și mai complexe.

01:10.770 --> 01:18.310
Dar acum vom introduce un concept chiar mai bun și chiar și pentru a lua acest nivel și mai mult.

01:18.720 --> 01:25.530
Ceea ce vede A-3 prin acest element și elementul sincron este în loc de a avea un

01:25.520 --> 01:26.730
agent ataca mediul.

01:26.790 --> 01:34.140
Ei au trei agenți sau orice număr de agenți sau mai mulți agenți care atacă același mediu.

01:34.290 --> 01:39.360
Iar cheia aici este aceea că se numește sincronizează, deoarece acestea sunt inițializate diferit, astfel încât intrările

01:39.360 --> 01:40.920
lor stele sunt diferite.

01:40.920 --> 01:46.520
De exemplu, așa cum vedeți din surse practice, ați stabilit o sămânță aleatoare și ați stabilit-o

01:46.530 --> 01:47.980
diferit pentru fiecare agent.

01:48.030 --> 01:51.150
Și în acest fel, deoarece punctele lor de plecare sunt diferite.

01:51.270 --> 01:55.260
Mai întâi vor trece prin medii în moduri diferite și apoi vor explora în moduri diferite

01:55.260 --> 01:58.620
și apoi în iterațiile următoare vor fi explorate și în diferite moduri.

01:58.620 --> 02:01.190
Și, de exemplu, avem trei agenți.

02:01.300 --> 02:06.390
Dintr-o dată, obțineți triplu experiența în loc de o singură vârstă,

02:06.390 --> 02:12.480
explorând mediul înconjurător și încercând să înțelegeți cum să o utilizați în acest mediu.

02:12.570 --> 02:18.780
Acum aveți trei sau oricât de mulți dintre ei trece prin asta și obțineți această experiență și astfel încât

02:18.930 --> 02:25.140
fiecare dintre ei să învețe pentru această experiență mai mare și în afară de faptul că oferă doar o

02:25.140 --> 02:31.300
gamă mai largă de experiență, de asemenea, reduce șansele unui agent de blocare la un maxim local.

02:31.320 --> 02:38.040
De exemplu, dacă un agent găsește o modalitate de a bate mediul care nu este cel mai optim, deoarece dacă deviază un stânga

02:38.130 --> 02:43.470
la dreapta de la acea soluție pe care a găsit-o întotdeauna ca și cum devine mai penalizată, s-ar

02:43.470 --> 02:45.710
putea să se blocheze într-un maxim local.

02:45.710 --> 02:49.530
S-ar putea să rămână în continuare gândind că este soluția optimă acolo unde nu este.

02:49.680 --> 02:58.830
Ei bine, probabilitatea ca mai mulți agenți să se blocheze în același maxim local să scadă față de scăderi cu numărul de agenți, astfel

02:58.830 --> 03:04.440
încât probabilitatea ca un agent să se blocheze într-un anumit maxim local ar putea fi

03:04.440 --> 03:07.990
mare dar Sau ar putea fi o anumită valoare.

03:08.130 --> 03:11.730
Dar probabilitatea când ai trei dintre ei din cei trei care se blochează în acel maxim

03:11.730 --> 03:13.020
local este mult mai mică.

03:13.020 --> 03:18.630
Și atâta timp cât împărtășesc experiența între ei, se pot ajuta unul pe celălalt, astfel încât dacă unul dintre ei se blochează, de exemplu, este într-un

03:18.630 --> 03:23.370
maxim local și pur și simplu crede că este cel mai bun și că este cel mai bun care este cea

03:23.370 --> 03:25.700
mai bună soluție tot timpul și continuă să facă asta.

03:25.830 --> 03:30.740
Atâta timp cât interacționează cu ceilalți agenți. Să presupunem că acest tip se blochează într-o acțiune

03:30.770 --> 03:35.710
calmă atâta timp cât interacționează cu alți agenți prin modul în care ne construim întregul algoritm

03:35.710 --> 03:37.620
prin celular și îl vom ajuta.

03:37.620 --> 03:42.960
Îi vor da cunoștință că, de fapt, știi că ar trebui să explorezi acest lucru sau probabil că este mai

03:43.020 --> 03:44.630
probabil să iasă din asta.

03:44.760 --> 03:50.370
Și, de asemenea, în general mediul va ști că hei, chiar dacă acest lucru este un maxim maxim aceste alte vârste au văzut

03:50.370 --> 03:55.230
mai multe opțiuni și ar trebui să continuăm să explorăm pentru că se pare că există opțiuni mai bune.

03:55.230 --> 04:00.750
Deci, intr-un fel de intelegere dificila intuitiva foarte scurta, asta este faptul ca acestea sunt cateva din avantajele ca

04:00.750 --> 04:05.970
acestea sunt agenti sincroni pentru ca aveti mai multa experienta de a alege si de a invata.

04:06.210 --> 04:12.750
Ați putea ajunge la soluție mai rapid și, în general, dacă există o șansă mai mică

04:13.080 --> 04:16.640
de a rămâne blocată într-un maxim local CRN.

04:16.680 --> 04:18.710
Asa ca sa vedem cum totul se desfasoara.

04:18.720 --> 04:24.300
În acest model pe care l-am construit până acum așa este să ne amintim că acesta este ceea ce am ajuns până acum prin criticul actual

04:24.300 --> 04:29.730
și acest lucru este ca și cum noi toți suntem tachinează acest lucru este atât de mult încât vă amintiți de la prima la broasca

04:29.730 --> 04:33.030
testoasa pe care am introdus-o Știți că avem acest lucru chiar și în oceanul adânc.

04:33.030 --> 04:38.340
Q de învățare Așa că am numit doar X acum, dar acum am introdus critic, dar până

04:38.340 --> 04:43.620
acum nu are sens ceea ce este punctul de a avea acest critic și de măsurare a

04:43.620 --> 04:48.320
valorii statului sau prezice valoarea unei scene utilizând același neural rețele sau aceeași abordare.

04:48.510 --> 04:52.350
Dar acum este acesta este faptul că partenerul va începe să aibă mai mult sens.

04:52.350 --> 04:57.750
Ceea ce vom face este că vom replica acest lucru, deoarece acum avem mai mulți agenți. Deci, dacă mai mulți agenți

04:57.750 --> 04:59.410
acest lucru este așa cum arată.

04:59.410 --> 05:07.380
Deci, primul mod de a ne imagina că acum avem aceste trei zile ne amintim bine ce am spus despre ei împărtășind

05:07.380 --> 05:09.210
experiența lor între ele.

05:09.210 --> 05:12.270
Deci, în realitate, toate acestea sunt toate independente.

05:12.260 --> 05:15.420
Aveți unul jucând jocul și altul decât jucând jocul o altă joacă în joc.

05:15.450 --> 05:20.500
Este ca și cum ar fi ca lansarea agentului dvs. pe trei computere diferite pe care le puneți trei calculatoare diferite una

05:20.500 --> 05:23.030
lângă cealaltă și le lansați și știți că este minunat.

05:23.050 --> 05:29.100
La fel cum într-adevăr vă place să obțineți veți obține mai multă experiență veți obține mai multă varietate, mai ales dacă acestea

05:29.100 --> 05:29.760
sunt inițializate.

05:29.790 --> 05:33.600
Deci, putem presupune de aici că sunt inițiali bolnavi întotdeauna inițializați, chiar dacă avem

05:33.600 --> 05:34.770
aceeași imagine aici.

05:34.870 --> 05:39.900
Vom ști că sunt de fapt inițializați în mod diferit, astfel încât nu va fi

05:39.900 --> 05:43.460
ca o formare identică de învățare identică din acest joc.

05:43.890 --> 05:47.700
Și astfel, chiar dacă vă place să puneți trei calculatoare alături

05:47.700 --> 05:55.560
și le lansați da, veți avea mai multă experiență, deoarece veți avea trei agenți care joacă și, de asemenea, veți avea o

05:55.680 --> 05:58.600
varietate mai mare de soluții posibile .

05:58.620 --> 06:00.120
Așa este adevărat.

06:00.120 --> 06:03.840
Dar problema este că nu ne împărtășim experiența între noi sau nu învățăm una de

06:03.840 --> 06:04.120
cealaltă.

06:04.220 --> 06:06.840
Deci nu au acea sinergie.

06:06.840 --> 06:11.670
Ei nu au avantajul sau puterea suplimentară pe care ar primi-o dacă ar comporta că știi

06:11.670 --> 06:17.930
cum ar fi dacă ai dacă ai o echipă de oameni care lucrează mai bine împreună decât fiecare dintre ei separat.

06:17.920 --> 06:20.650
Așa că într-o echipă aici ai unul plus unu plus unul.

06:20.730 --> 06:25.200
Sunt trei, dar într-o echipă unul plus unul pentru a da naștere și nu trei este ca și cele

06:25.200 --> 06:29.220
trei, deoarece ele își pun în valoare punctele forte și diminuează slăbiciunile celorlalți și același lucru aici.

06:29.220 --> 06:34.080
Deci, dacă puneți aceste două calculatoare lângă ele, veți avea mai multă memorie și, eventual, cineva va

06:34.150 --> 06:35.580
obține o soluție mai bună.

06:35.580 --> 06:39.710
Un altul care este minunat, dar va fi chiar mai bine dacă vor începe să împărtășească acea experiență.

06:39.780 --> 06:41.120
Și cum fac asta?

06:41.130 --> 06:47.820
Ei bine, prin acest Wii îl calculam astfel încât această valoare Wii, care este rezultatul rețelei noastre,

06:47.820 --> 06:49.550
este de fapt așa.

06:49.560 --> 06:54.960
Deci ei au același lucru de fiecare dată.

06:54.960 --> 06:58.050
Toți acești agenți contribuie la același critic.

06:58.050 --> 07:04.290
Ei nu au critici separați că au un critic comun și asta e cheia modului în care criticul actorului

07:04.290 --> 07:06.270
se leagă de sincronul lor.

07:06.270 --> 07:09.850
Deci, există un critic care ne urmărește pe măsură ce ei obțin experiență.

07:09.870 --> 07:12.420
Deci, cum calculăm Wii.

07:12.570 --> 07:13.920
Trebuie să trecem prin Wii.

07:14.220 --> 07:20.190
După cum vă amintiți, putem obține TV prin valorile pe care le obținem, astfel încât recompensele pe care le obținem prin mediul

07:20.190 --> 07:20.750
înconjurător.

07:20.760 --> 07:28.310
Și așa cum agenții își explorează mediul, ei sunt calculi pe care îi prezică Wii-ul.

07:28.320 --> 07:30.710
În plus, au Wii pe care le pot calcula.

07:30.720 --> 07:35.010
Acestea sunt toate toate legăturile înapoi în ceea ce am discutat deja în secțiunile anterioare

07:35.010 --> 07:35.730
ale scorurilor.

07:35.850 --> 07:42.870
Deci, ei au deja un Wii pe care ei îl pot prezice așa cum se așteaptă prin recompensele pe care le știu că există

07:42.870 --> 07:48.700
în acest labirint și pe care le-au explorat deja și pe măsură ce le explorează desigur că acea valoare

07:48.750 --> 07:49.770
se poate schimba.

07:49.890 --> 07:55.410
Dar, de asemenea, ei au Wii că aceasta este ieșirea rețelei neuronale, astfel încât acestea trec

07:55.410 --> 08:01.530
prin aceasta vor fi ajustarea rețelele lor neuronale, în scopul de a se potrivi mai bine care se așteaptă.

08:01.530 --> 08:10.080
Deci, practic, acest lucru este împărțit, partea critică este împărțită între agenți și așa este împărtășirea informațiilor între ei, așa că sunt capabili

08:10.080 --> 08:15.490
să vadă ce se întâmplă în mediul înconjurător împărțit unul cu celălalt și apoi să

08:15.490 --> 08:20.890
îl folosească ca și noi vom vedea mai departe în partea următoare în avantaj.

08:20.930 --> 08:25.450
Folosiți-o astfel pentru a optimiza modul în care se comportă mediul înconjurător.

08:25.710 --> 08:27.960
Și celălalt lucru pe care trebuie să-l observăm aici este.

08:28.080 --> 08:29.510
Deci, asta a fost un C.

08:29.520 --> 08:33.150
Acest lucru este la fel ca nucleul A-3 vedea până aici.

08:33.150 --> 08:38.610
Acesta este un tip de versiune de 08:30 Dar există o implementare chiar mai bună a acestui lucru.

08:38.610 --> 08:45.450
A până la C pe care veți auzi de fapt că mi-ar plăcea să vorbesc în unul dintre primele tutoriale și aspectul practic

08:45.450 --> 08:52.680
al lucrurilor și despre ce va vorbi este cum creatorul lui Pi torche a făcut de fapt o ajustare la unul a codurilor care

08:52.980 --> 08:58.530
au fost partajate și a obține hub unde a luat toate acestea, după cum puteți vedea chiar acum

08:58.530 --> 09:03.420
că au rețele neuronale separate și au arătat Wii că ajustarea care a fost făcut

09:03.420 --> 09:09.300
a fost de fapt să ia toate aceste rețele neuronale și le-a pus într-o singură luați-i și puneți-i împreună.

09:09.300 --> 09:15.100
Deci, în cele din urmă există o singură rețea neurală împărtășită între agenți.

09:15.120 --> 09:21.180
Deci, înainte ca fiecare dintre ei să aibă o rețea neuronală care a fost împărtășită pentru actor și pentru

09:21.180 --> 09:25.790
critic, o rețea neuronală Shelfer reale pentru criticul o rețea neurală pentru o acuratețe.

09:25.800 --> 09:31.730
Acum, toți au o rețea neuronală care este împărtășită pentru criticul sau criticul actor sau critic actual.

09:31.980 --> 09:35.130
Și apoi criticul este aici în comun.

09:35.310 --> 09:36.690
Așa că hai să vedem.

09:36.690 --> 09:39.840
Hai să mutăm imaginile în stânga aici, pentru a face puțin spațiu.

09:40.100 --> 09:47.430
Iar aceasta este în esență arhitectura sau structura pe care o vom folosi în tutorialele

09:47.430 --> 09:48.250
practice.

09:48.300 --> 09:55.020
Știu că acest lucru ar putea părea un pic copleșitor în această etapă, dar avem încă unul care să

09:55.020 --> 09:59.370
vorbească despre avantajul pe care îl vom vedea mai bine în acțiune.

09:59.370 --> 10:02.780
Cum mergem, vom vorbi despre intuiția în acțiune.

10:02.870 --> 10:05.680
Dar, în general, acest lucru este ceea ce este.

10:05.700 --> 10:10.640
Aceasta este o rețea pe care fiecare agent o utilizează sau o împărtășește.

10:10.640 --> 10:15.820
În principiu, ceea ce înseamnă că aceștia împărtășesc greutățile pe care greutățile rețelei le împărtășesc între vârste

10:15.840 --> 10:19.920
și când le actualizează, actualizează întreaga rețea nu doar propria lor rețea.

10:20.480 --> 10:26.270
Și apoi au ieșiri pe care le au ca aceste acțiuni pentru fiecare agent și apoi au criticul care este împărțit

10:26.270 --> 10:27.710
care urmează să fie monitorizat.

10:27.700 --> 10:34.280
Asa ca stiu ca toate astea sunt ca si cum ar fi multe lucruri chiar acum, dar sper ca se va intalni

10:34.850 --> 10:35.900
cel putin lent.

10:35.900 --> 10:39.660
Recepția principală de aici este criticul deoarece este împărțită.

10:39.670 --> 10:47.810
Astfel agenții sunt capabili să se asigure că cooperează împreună pentru a obține rezultatul mult mai

10:47.810 --> 10:48.660
rapid.

10:48.860 --> 10:52.690
Și apoi în tutorialul următor vom vedea și mai mult cum se adaugă toate acestea.

10:52.700 --> 10:53.650
Toate astea se reunesc.

10:53.900 --> 11:01.210
Și pentru moment este ca și cum aș vrea să vă recomand sau v-aș recomanda o lectură suplimentară.

11:01.210 --> 11:06.780
Deci acesta este un blog de Jaromir Jansch.

11:06.860 --> 11:11.570
Se numeste "Să facem un A3 vedea implanturi este de fapt două părți punerea în aplicare și teorie.

11:11.820 --> 11:19.010
Există legătura și este foarte asemănătoare cu ceea ce Adlon va implementa în partea practică a

11:19.010 --> 11:25.880
tutorialului, astfel încât nu este special pentru acest tutorial, nu doar pentru Sutro, ci pentru

11:25.880 --> 11:27.200
întreaga secțiune.

11:27.200 --> 11:30.900
Încurajați-i câteva informații suplimentare despre unele informații suplimentare acolo.

11:31.040 --> 11:33.260
Și de aceea îl aducem aici.

11:33.320 --> 11:38.030
Dar, cu toate acestea, în următorul tutorial vom începe să tragem toate astea împreună.

11:38.030 --> 11:39.040
Tot ce am discutat.

11:39.200 --> 11:40.590
Și aștept cu nerăbdare să vă văd data viitoare.

11:40.590 --> 11:42.200
Și până atunci bucura-te.