WEBVTT

00:00.590 --> 00:03.970
Bună ziua și bineveniți înapoi la cursul de inteligență artificială.

00:04.070 --> 00:05.420
Sper că vă bucurați de curs până acum.

00:05.420 --> 00:09.050
Și astăzi discutăm despre acțiunile de politică de selecție.

00:09.050 --> 00:11.010
Bine, hai să intrăm direct în asta.

00:11.030 --> 00:17.930
Anterior am vorbit despre adăugarea unei rețele neuronale în învățarea noastră simplă și

00:18.020 --> 00:21.230
până acum ajungem într-o învățare profundă.

00:21.230 --> 00:26.620
Am vorbit destul de puțin despre partea de învățare, inclusiv adăugarea unor elemente.

00:26.630 --> 00:30.020
Și astăzi vorbim despre această parte despre care vorbim despre actorie.

00:30.020 --> 00:31.290
Să aruncăm o privire.

00:31.310 --> 00:38.690
Deci, aici avem ceea ce am discutat despre acționarea că odată ce introduceți valorile parametrii sunt vectorul care descrie agentul de

00:38.690 --> 00:45.230
stat este în mod evident în acel mediu, atunci că este după ce învățarea este făcută sau chiar înainte

00:45.230 --> 00:47.290
ca învățarea să se facă.

00:47.420 --> 00:52.000
Practic, obținem toate valorile q, astfel încât nu suntem interesați de învățare chiar acum insistăm

00:52.010 --> 00:57.350
să acționăm așa că, odată ce avem aceste valori cheie, cum înțelegem ce dintre noi trebuie să folosim.

00:57.350 --> 00:58.910
Dacă te gândești la asta.

00:58.910 --> 01:01.890
Valorile Q sunt pur și simplu predicții pentru cub.

01:01.910 --> 01:08.630
Așa cum am făcut în algoritmul simplu de învățare, ce am făcut noi am selectat-o pe cea cu cea mai bună valoare de

01:09.180 --> 01:10.420
cea mai mare valoare.

01:10.430 --> 01:15.380
Odata ce avem unul cu cea mai mare valoare IQ, luam aceasta actiune pentru ca ne aduce cea

01:15.380 --> 01:20.330
mai mare valoare si stim ca recompensa imediata a calculatorului lui Duval pe care ne asteptam sa

01:20.360 --> 01:23.100
o primim Plus factorul DK ori valoarea urmatoarei date.

01:23.120 --> 01:29.480
Și este un calcul recursiv, deci de ce nu de ce nu ați lua cea mai bună valoare și asta este un

01:29.480 --> 01:30.570
fel de sfârșit.

01:30.800 --> 01:35.360
Dar, după cum puteți vedea aici, nu este atât de simplu că aici folosim o funcție soft max

01:35.360 --> 01:37.910
și aici vom vorbi despre politicile actuale de selecție.

01:37.940 --> 01:41.210
Deci, aici, în realitate, nu trebuie să avem doar o funcție software.

01:41.300 --> 01:49.190
Putem avea politici diferite de selectare a acțiunii, de exemplu, avem soft Epsilon Epsilon și avem soft-urile Mac și

01:49.470 --> 01:54.950
acelea sunt cele mai frecvente politici de selecție a acțiunilor, desigur că există

01:54.960 --> 01:56.300
și altele.

01:56.300 --> 02:02.120
De exemplu, cea mai de bază este o acțiune foarte simplă, sociabilă, doar selectați cele mai bune.

02:02.120 --> 02:03.770
Cel cu cea mai mare valoare Q.

02:03.980 --> 02:09.800
Dar de ce nu acționează pulsul de acțiune și de ce avem diferite tipuri de politici de selectare a acțiunii impulsurilor

02:09.800 --> 02:10.510
de acțiune.

02:10.520 --> 02:15.270
Ei bine, totul se reduce la explorare și exploatare.

02:15.560 --> 02:22.670
Și acesta este nucleul învățării de întărire, pentru că am vorbit deja despre acest lucru puțin mai mult despre agentul dvs. atunci

02:22.880 --> 02:28.400
când acesta operează într-un mediu în care ar putea anticipa anumite valori de coadă care ar

02:28.400 --> 02:34.970
putea fi bune și s-ar putea dovedi grozav că s-ar dovedi că acestea sunt disponibile și va fi forțat să exploreze.

02:34.970 --> 02:40.640
Deci, dacă, de exemplu, în acest caz, anticipăm că Q2 este cel mai bun și apoi ia Q să ia

02:40.640 --> 02:42.350
măsuri și să o facă.

02:42.500 --> 02:46.880
Așa că de aici până la secțiunea 2 și apoi devine o recompensă foarte negativă.

02:46.880 --> 02:51.980
Apoi, mediul îi forțează pe agent să meargă și să explodeze, pentru că acum el va învăța că de

02:51.980 --> 02:56.740
fapt am crezut că Q2 va fi foarte bun, dar sa dovedit a fi foarte rău.

02:56.780 --> 02:58.370
Rezultatele nu sunt foarte rele.

02:58.370 --> 03:02.730
Deci, rețelele se pot actualiza, astfel încât data viitoare când se află în statul în care probabil va mânca sufletul

03:02.720 --> 03:04.010
meu va ajunge la ea.

03:04.190 --> 03:09.470
Știți că dacă este foarte favorabilă, așa că ați putea crede că este ca și cum ați ști că

03:09.470 --> 03:14.900
ați putea avea nevoie de câteva ori de câteva sancțiuni sau pedepse pentru a afla că este vorba despre acțiune.

03:14.990 --> 03:20.030
Dar poate că deja va afla în curând că voi lua o altă acțiune și voi lua acțiunea pentru încheietura mâinii,

03:20.030 --> 03:22.020
pentru că acum are cea mai bună valoare.

03:22.160 --> 03:28.880
Deci, uneori, mediul forțează agentul să ia diferite pentru a explora diferite acțiuni, dar uneori agentul ar

03:29.180 --> 03:36.860
putea să-l găsească blocat într-un maxim local ar putea găsi că a urmat prin explorarea inițială și a constatat că

03:36.860 --> 03:42.110
oh aceasta este o acțiune destul de rece ca Voi merge chiar aici.

03:42.200 --> 03:43.920
Și colecția d'esprit.

03:43.940 --> 03:49.760
Dar problema este că ea crede că este cea mai bună acțiune pur și simplu pentru că nu a explorat este explorat merge

03:49.760 --> 03:55.850
până nasul său sau merge la stânga este de a explora merge bine, dar nu a explorat coborâre din acea stare specifică că este

03:56.360 --> 04:01.490
în și acum că este un fel de părtinitoare față de această acțiune și crede că o acțiune bună va

04:01.490 --> 04:03.800
continua să o ia și va continua să obțină.

04:03.840 --> 04:06.570
El va continua să ia este de fapt va continua să obțină o recompensă bună.

04:06.620 --> 04:14.000
Dar daca aceasta actiune ar fi fost chiar mai buna daca aceasta actiune ar fi fost mult mai buna decat daca ar fi stiut despre

04:14.060 --> 04:19.310
aceasta actiune, ar trece de fapt la aceasta actiune, dar pentru ca a ramas blocata intr-un maxim

04:19.310 --> 04:23.580
local este obtinerea acestor recompense bune este pur si simplu să fie consolidată.

04:23.630 --> 04:27.770
Aceasta va continua să se consolideze singură, iar violența o va întări că aceasta este o acțiune bună

04:27.770 --> 04:29.450
pentru a continua să facă acest lucru.

04:29.510 --> 04:35.330
Dar realitatea este că există o altă acțiune care nu a mai fost găsită sau nu a fost nici măcar explorată.

04:35.570 --> 04:37.090
Asta ar fi fost mult mai bine.

04:37.130 --> 04:43.790
Așadar, ceea ce vrem să facem este să vrem să prezentăm o politică de selecție reală care să permită agentului nostru să

04:43.910 --> 04:45.800
nu se blocheze într-un maxim local.

04:45.800 --> 04:50.120
Da, este important să știți că continuați să faceți acțiunile bune care reprezintă partea de exploatare.

04:50.180 --> 04:52.000
Nu vom exploata ceea ce am găsit.

04:52.100 --> 04:56.720
Dar, în același timp, noi încă mai dorim să explorăm că nu dorim niciodată să încetăm să explorăm ca și cum în viața pe care nu o

04:56.720 --> 04:59.000
vrei niciodată să nu mai înveți să nu te mai învăț să mori.

04:59.120 --> 05:05.030
Acestea sunt lucruri de genul asta, că atunci când nu creșteți, ești pe moarte sau ceva așa că vrei să continui

05:05.090 --> 05:07.580
învățarea și agentul tău dorește să continue învățarea.

05:07.760 --> 05:10.200
Și aici intră aceste politici de selecție a acțiunilor.

05:10.400 --> 05:16.190
Deci, avem trei pe care le-ați enumerat aici, astfel încât primul este Epsilon lacom, este unul foarte simplu,

05:16.190 --> 05:22.140
sună destul de complex în sensul că, de exemplu, are un nume rece și, de obicei, lucruri cu nume chirurgicale.

05:22.370 --> 05:23.170
De fapt, nu este.

05:23.180 --> 05:31.530
Deci, în principiu, ceea ce face este că va selecta unul cu cea mai bună valoare Q și epsilon ca Epsilon, ați putea

05:31.540 --> 05:35.240
auzi alte locuri, este ca o politică de selecție.

05:35.240 --> 05:41.210
Deci, în acest caz, o folosim pentru a șterge astfel încât valorile noastre Al-Q sunt de vânzare ca cea

05:41.540 --> 05:45.980
cu cea mai mare valoare Q tot timpul, cu excepția procentului Epsilon din timp.

05:45.980 --> 05:53.300
De exemplu, dacă setați epsilon la 10%, atunci mergeți la sau 0. 1 la 10 la sută din timpul în

05:53.300 --> 05:56.740
care acțiunea va fi aleasă la întâmplare.

05:56.750 --> 06:01.990
Deci, în proporție de 90% din timp, veți selecta cea mai bună acțiune bazată pe cea mai mare valoare.

06:02.120 --> 06:05.580
Dar 10% din timp va fi selectarea unei acțiuni aleatorii.

06:05.600 --> 06:11.120
Uniform va fi o acțiune absolută aleatorie sau dacă ați spus epsilon

06:11.420 --> 06:18.380
la zero punctul cinci pentru 0. 05, ceea ce înseamnă că 95% din timpul în care agentul va lua acțiunea cu cea

06:18.380 --> 06:19.200
mai mare valoare.

06:19.220 --> 06:22.470
Dar 5 la suta din timp inca va fi selectarea si actiunea aleatoare.

06:22.490 --> 06:25.550
Deci o să meargă acolo și să exploreze.

06:25.790 --> 06:31.640
Așa că softul lui Epsilon este foarte asemănător cu modul în care se numește

06:31.750 --> 06:39.780
de ce se numește FCL lacom, pentru că atunci selectați cu greu acțiunea, acțiunea bună, cu excepția acelui mic episod.

06:39.780 --> 06:40.290
O parte din timp.

06:40.280 --> 06:46.970
Deci, cu cât contractul EPS este mai mic, va scădea Lepp Epsilon cu cât mai mult alegeți acea acțiune

06:46.970 --> 06:53.870
care este acțiunea optimă și cu atât mai puțin veți părăsi șansele mai puțin de plecare pentru a explora

06:53.870 --> 06:56.000
softul lui Epsilon este opusul.

06:56.000 --> 07:02.000
Deci, în mod esențial, alegi la întâmplare că selectezi un minut minus Epsilon cent.

07:02.000 --> 07:08.240
Deci, dacă epsilonii sunt ca 0. 1 la 10 procente, iar apoi doar 10 la sută din momentul în care faceți această acțiune.

07:08.490 --> 07:12.410
Și 90 la sută din timpul selectării unei acțiuni aleatorii.

07:12.410 --> 07:19.000
Deci foarte foarte simplu doar algoritmi invertit și un soft Max este cam ca pasul următor sau este o

07:19.070 --> 07:24.350
versiune mai avansată aș spune peste epsilon de epsilon algoritm lacomi, deși ambii au merit

07:24.350 --> 07:26.570
și ambele au un loc.

07:26.610 --> 07:30.860
Vom folosi autofinanțe în codarea noastră în felul nostru practic.

07:30.860 --> 07:35.270
Așa vom vorbi în detaliu mai mult despre soft max.

07:35.330 --> 07:36.380
Să aruncăm o privire.

07:36.380 --> 07:38.440
Deci, să mergem la următoarea noastră speranță.

07:38.450 --> 07:42.800
Este destul de clar despre Ebsen este de acord că este un algoritm destul de simplu.

07:42.800 --> 07:45.100
Selectați aceasta.

07:45.230 --> 07:47.790
De cele mai multe ori, cu excepția uneori mergi și explorați.

07:47.800 --> 07:53.820
Și acum vedem și de ce este important să facem această explorare, astfel încât să nu ajungem în maximele locale în

07:53.840 --> 07:58.780
procesul nostru de optimizare, așa că acum vom vorbi un pic mai mult despre soft-urile Mac.

07:58.880 --> 08:02.680
Există un tutorial pe marcările moi la sfârșitul cursului.

08:02.750 --> 08:09.560
Cred că este o anexă numărul doi în care vorbim despre conceptul lui Maxim, pentru că vă reîmprospătați puțin aici,

08:09.560 --> 08:14.650
deci vorbim de rețele neuronale și de felul în care vom acoperi cu toții

08:14.720 --> 08:15.290
convoluția.

08:15.290 --> 08:18.170
Nu acoperim rețele neuronale de evoluție în această secțiune.

08:18.210 --> 08:21.470
Desigur, în această secțiune, încă mai folosim un vector.

08:21.800 --> 08:27.770
Dar în următoarea secțiune a cursului în care suntem creați un AI pentru a juca Doom, vom folosi o rețea

08:27.770 --> 08:32.870
neuronală convoluționară, astfel încât ar putea fi benefic pentru dvs. să vă uitați în rețelele

08:32.870 --> 08:38.300
neuronale relaționale și apoi să luați o auto max funcția sau puteți afla mai multe despre soft Max.

08:38.300 --> 08:43.020
După ce luați rețelele neuronale convoluționale și, bineînțeles, mai târziu.

08:43.250 --> 08:48.130
Dar aici este o reîmprospătare rapidă Deci avem aici rețeaua neuronală convoluțională care decide dacă este un câine

08:48.130 --> 08:48.950
sau o pisică.

08:48.950 --> 08:56.090
Deci, aici avem procesul de votare între acești neuroni și acesta spune că este vorba de caracteristicile

08:56.090 --> 09:04.250
pe care le cunoașteți urechile pufoase Care este tipul de lucru cu vârf ascuțit și tipul de trăsături sunt tipurile

09:04.250 --> 09:09.930
ochilor cu ochii ochii privesc toate aceste trăsături care aparțin unui câine.

09:09.930 --> 09:13.890
Deci este o șansă de 95 la sută că este un câine și șansa de 5 la sută că este o pisică.

09:13.910 --> 09:19.460
Dar întrebarea este cum am ajuns în acel Tauriel despre care vorbim despre cum obținem aceste valori pentru a adăuga

09:19.490 --> 09:20.530
până la unul.

09:20.870 --> 09:27.650
Ei bine, oricare ar fi convoluția tuturor rețelelor noastre neuronale sunt rețeaua neuronală convoluționară plus Lares complet conectat, indiferent

09:27.650 --> 09:33.300
de ce este rău, indiferent de valorile pe care le aplicăm funcției soft max sunt

09:33.300 --> 09:33.980
aici.

09:34.010 --> 09:37.720
Aici am introdus formula pentru funcția următoare.

09:37.810 --> 09:38.620
Este ceea ce pare.

09:38.780 --> 09:40.420
Și apoi avem aceste valori.

09:40.620 --> 09:43.460
Și, în principiu, este o reîmprospătare rapidă.

09:43.460 --> 09:46.050
Aceasta este formula pentru soft Max.

09:46.100 --> 09:50.900
Este ceea ce face, este nevoie de multe rezultate, dar nu conteaza.

09:50.900 --> 09:58.130
Le va lua și le va împușca pe toate în valori cuprinse între 0 și 1, indiferent de cât de mari sunt doar prin faptul

09:58.130 --> 10:03.720
că pentru mine puteți vedea că există o sumă totală în partea de jos, astfel încât aceste dispozitive vor fi

10:03.720 --> 10:04.860
zero și înăuntru.

10:04.860 --> 10:08.630
Și, de asemenea, toate aceste valori vor adăuga până la unul întotdeauna.

10:08.700 --> 10:16.770
Și asta este foarte benefic pentru noi deoarece atunci când folosim funcția soft max ceea ce se întâmplă este că

10:16.800 --> 10:21.390
obținem aceste valori selectând cea mai bună valoare de vizualizare.

10:21.390 --> 10:26.740
Dar, în realitate, ceea ce se întâmplă este acele valori pe care le obținem că există numere reale corecte.

10:26.750 --> 10:28.760
Deci, acesta este un fel de numere.

10:28.920 --> 10:31.720
Nu trebuie să se adune toate la unu și nu trebuie să fie între 0 și 1.

10:31.730 --> 10:32.830
Doar câteva cifre.

10:33.140 --> 10:38.520
Dar când aplicăm soft Max nu selecem doar cel mai bun pe care îl obținem de fapt

10:38.520 --> 10:44.310
numerele astfel încât să obținem numerele noastre între 0 și 1 și care, de asemenea, se adaugă până la 1.

10:44.310 --> 10:47.220
Și ce altceva știm că se adaugă la unul.

10:47.340 --> 10:53.010
Probabilitatea este că știm probabil că probabilitățile trebuie să adauge până la 1, de aceea putem

10:53.010 --> 10:57.990
spune aici că avem valori q, dar dintr-o dată suntem moi sau avem probabilități.

10:57.990 --> 11:02.740
Așadar, putem spune că probabilitatea ca această acțiune să fie cea mai bună acțiune este de 90%.

11:02.840 --> 11:08.610
Această secțiune lesbiană 5 la sută 2 la sută 3 la sută pentru că știm cu cât este mai mare valoarea dvs. cu atât acțiunea este

11:08.610 --> 11:09.290
mai bună.

11:09.390 --> 11:14.920
Deci, dacă le împărțim la 0 la 1, atunci acestea devin posibilități și putem să le facem ca atare.

11:15.090 --> 11:22.840
Și, prin urmare, acum este momentul în care acțiunea este selectată și așa vom veni cu Q2.

11:22.890 --> 11:28.580
Dar dacă te uiți îndeaproape acest lucru nu este strict 100 la sută și acestea nu sunt Saroo 0 la sută.

11:28.590 --> 11:30.670
Deci, acesta este de 5% la 3%.

11:30.810 --> 11:42.360
Deci, modul cel mai natural de a aplica soft-ul Max pentru a păstra explorarea în algoritm este de a folosi aceste

11:42.480 --> 11:48.600
probabilități exacte, cât de des se întâmplă să luăm acea acțiune.

11:48.600 --> 11:55.710
Deci, aceste probabilități prezintă de fapt distribuția acestor acțiuni pe care le luăm, astfel încât în esență moale Max face

11:55.890 --> 12:01.740
foarte ușor pentru noi să vină cu o modalitate de a combina exploatarea și explorarea.

12:01.740 --> 12:06.930
Deci, cea mai buna actiune va avea intotdeauna cea mai mare probabilitate pentru ca are cea mai mare valoare Q si deci

12:06.930 --> 12:11.190
aici vom fi doar sa le folosim ca distributie sau vom spune bine vom lua Q2

12:11.190 --> 12:16.080
90 la sută din timp, dar 5 la sută din timpul pe care încă mai avem de a lua Q1

12:16.120 --> 12:21.170
și 2 la sută din timp ajungem la 3 și 3 la sută din timpul pe care o să luăm Q4.

12:21.420 --> 12:27.090
Și frumusețea aici este, de asemenea, că, pe măsură ce aceste valori se actualizează ca și când agentul

12:27.090 --> 12:35.220
trece prin rețea din ce în ce mai mult, devine mai familiarizat cu mediul și, prin urmare, aceste actualizări, astfel încât această valoare, de exemplu, ar putea

12:35.210 --> 12:41.640
deveni așa cum s - ar putea dovedi că această valoare este de fapt mai mică sau de fapt aceasta este

12:41.640 --> 12:47.060
mai mare și astfel aceste probabilități se vor schimba, de asemenea, pe măsură ce un agent trece.

12:47.070 --> 12:49.190
Deci, chiar dacă avem aici Choo-Choo.

12:49.200 --> 12:55.560
Nimeni nu trebuie să spună că, uneori, 5% din timp, pentru a fi mai precis, vom selecta primul trimestru ca

12:55.560 --> 13:00.040
fiind acțiunea pe care o luăm și, uneori, sau o acțiune, vom lua măsuri.

13:00.180 --> 13:05.280
Uneori vor fi luate măsuri prin două acțiuni, trei două procente din timp, iar acțiunea va

13:05.280 --> 13:06.400
dura aproximativ 3%.

13:06.420 --> 13:13.800
Deci, fiecare acțiune are o șansă de a juca în acest proces, atâta timp cât avem destule iterații, un agent trece prin

13:13.800 --> 13:17.930
mulțime și de multe ori prin aceste state în care se află.

13:17.940 --> 13:23.880
Și asta este felul în care funcționează orice fel de algoritm de învățare profundă, încât doriți să

13:23.880 --> 13:30.030
faceți acest lucru de multe ori pentru a învăța din experiență și, prin urmare, după cum puteți vedea aici

13:30.030 --> 13:31.840
este o tranziție foarte naturală.

13:31.860 --> 13:37.590
Nu suntem doar la întâmplare ca un algoritm furios Epson și nu doar selectarea aleatorie a acțiunilor pe care le selectăm

13:37.590 --> 13:44.100
pe baza valorilor lor soft max, ceea ce face ca acest lucru să aibă ca rezultat o logică în spatele ei, nu numai

13:44.190 --> 13:48.780
că nu doar acea întâmplare de 10% când alegem o acțiune aleatorie, dar există o logică

13:48.780 --> 13:53.200
în spatele modului în care o facem și pe baza valorilor-cheie pe care le-am explorat.

13:53.280 --> 13:58.620
Și așa este politica de selecție a acțiunilor pe care o vom folosi în acest curs.

13:58.620 --> 14:04.590
Sunteți binevenit să verificați cu siguranță afară Ebsen secțiunea de acțiune lacomi Polsce dacă doriți, dar

14:04.590 --> 14:10.920
vom fi în principal, folosind politica moale Max secțiunea de acțiune și am o lectură interesantă pentru

14:10.920 --> 14:11.490
tine.

14:11.490 --> 14:17.430
Deci, acest lucru se numește explorare adaptabilă Epsilon lacomă în procesul de învățare a consolidării pe baza diferențelor de valoare

14:17.430 --> 14:18.870
este articolul din 2010.

14:18.930 --> 14:27.270
Și este interesant pentru că Mike Michel nu sunt sigur cum să pronunți Michelle și Miquel toxic

14:27.450 --> 14:36.420
introduce un alt tip de Algren și ajustat Epsilon algoritm lacom și numit VDB VDB algoritm sau epsilon greu

14:37.230 --> 14:40.030
VDB algoritm puteți vedea aici.

14:40.410 --> 14:46.590
Și el compară de fapt compara cu Ebsen lacomi și moi Max și este un algoritm

14:46.650 --> 14:55.740
absolut lacom, care în principiu ideea principală din spatele ei este de a ajusta valoarea de epsilon, în funcție de starea în care agentul

14:55.740 --> 14:56.550
este.

14:56.550 --> 15:01.820
Deci, dacă agentul este foarte sigur cu privire la stat în atunci Epsilon ar trebui să fie mai mic, astfel încât acestea ar trebui să fie mai

15:01.820 --> 15:06.340
puțin explorare în cazul în care agentul este răspunsul Epson ar trebui să fie mai mare ar trebui să fie explorare mai mult.

15:06.350 --> 15:08.930
Deci este un articol din 2010.

15:09.260 --> 15:17.930
Nu sunt sigur dacă acest algoritm nou propus este utilizat pe scară largă sau este ca fiind acceptat în comunitate sau

15:18.010 --> 15:23.090
dacă Times artificial are un fel de cale de la această sugestie.

15:23.090 --> 15:29.450
Dar, cu toate acestea, vă va ajuta cu siguranță să vă consolidați cunoștințele despre politicile de selecție

15:29.450 --> 15:33.180
a acțiunilor pe care le-am discutat despre Epsom Ingredion,

15:33.200 --> 15:38.900
softul Naxal vă ajută să vă dați posibilitatea de a obliga site-ul Subha și, de

15:38.900 --> 15:46.040
asemenea, să vedeți în ce direcție oamenii gândesc când vor să îmbunătățească inteligența artificială dacă vreți să creați cu adevărat

15:46.040 --> 15:51.770
algoritmi interesanți care să împingă marginea inteligenței artificiale Elche și împingând plicul în acest spațiu, atunci

15:52.130 --> 16:00.140
acesta ar putea fi o modalitate bună de a vedea în ce direcție oamenii gândesc uneori atunci când încearcă pentru a îmbunătăți

16:00.200 --> 16:04.070
normele inteligenței artificiale sau normele care existau atunci în 2010.

16:04.070 --> 16:04.760
Așa că mergem.

16:04.790 --> 16:11.020
Sperăm că v-ați bucurat de tutorialul de astăzi despre politicile de selecție a acțiunilor și am aflat

16:11.060 --> 16:18.240
despre sarea Epson de la abseil și Mac-urile moi și acum sunteți chiar mai pregătiți pentru aspectul practic al lucrurilor.

16:18.290 --> 16:20.840
Și în această notă mă aștept cu nerăbdare să văd următorul pas.

16:20.840 --> 16:22.570
Și până atunci să vă bucurați de AI.
