WEBVTT

00:00.510 --> 00:02.990
Bună ziua și bun venit la acest tutorial Python.

00:03.240 --> 00:08.400
Așa că acum vom face funcția de transmitere care va propaga semnalele de ieșire ale creierului nostru

00:08.400 --> 00:13.550
către corpul AI, astfel încât acesta va juca acțiunea potrivită pentru a ajunge la vestă.

00:13.770 --> 00:20.100
Dar nu există încă nicio reacție pentru că nu există nici o cursă pe care nu am pregătit-o încă AI,

00:20.100 --> 00:25.920
dar acesta este exact ceea ce vom face în parte pentru a implementa în curbe profunde convoluționale care, prin

00:25.920 --> 00:29.720
modul în care voi redenumi formarea AI cu Killary profund convolutionat.

00:29.940 --> 00:35.340
Dar acum trebuie să transmitem semnalul din stratul de ieșire al creierului către corp.

00:35.370 --> 00:40.170
Și exact asta vom face cu această funcție înainte, care este ultima funcție a corpului

00:40.170 --> 00:40.670
nostru.

00:41.420 --> 00:42.860
Deci, să facem asta.

00:42.860 --> 00:50.140
Începem cu Teff înainte și în funcție de ce argumente va lua.

00:50.330 --> 00:55.030
Ei bine, va lua prima forță de forță și apoi mai este una.

00:55.220 --> 00:56.740
Ei bine, da.

00:56.870 --> 00:58.140
Și ce va fi.

00:58.310 --> 01:04.700
Ei bine, foarte natural vrem să transmitem semnalul de ieșire al creierului către organism și, prin urmare, intrarea

01:04.700 --> 01:07.470
va fi semnalul de ieșire al creierului.

01:07.850 --> 01:10.480
Și acum trebuie să dăm un nume acestor semnale exterioare.

01:10.610 --> 01:14.390
Și așa voi adăuga aici argumentul pus.

01:14.460 --> 01:21.200
În regulă, astfel încât să corespundă semnalelor de ieșire ale creierului după ce imaginile de intrare sunt propagate prin intermediul întregului creier

01:21.200 --> 01:26.540
pentru a ajunge la ieșirea ulterioară, care este X aici, se întoarce prin funcția de transmitere a

01:26.540 --> 01:27.170
creierului.

01:27.380 --> 01:32.480
Și acum, acest semnal de ieșire al creierului va fi transmis organismului cu această nouă funcție

01:32.480 --> 01:35.410
de transmitere pe care o facem în clasa următoare.

01:35.460 --> 01:41.760
Deci, haideți să adăugăm o anumită culoare aici și acum cum ați înțeles-o, vom folosi următoarea

01:41.870 --> 01:43.940
metodă pentru a juca acțiunea.

01:43.940 --> 01:49.820
Asta inseamna ca corpul AI nostru dupa primirea semnalelor de iesire ale creierului va juca

01:49.820 --> 01:51.440
actiunile cu urmatoarea tehnica.

01:51.440 --> 01:56.510
Deci, acum, ceea ce trebuie să facem este exact același lucru cu ceea ce am făcut pentru mașină.

01:56.600 --> 01:59.390
Vom distribui probabilitatea noastră.

01:59.540 --> 02:05.960
Acesta este primul pas și apoi vom încerca o acțiune în funcție de această distribuție a probabilităților.

02:05.960 --> 02:11.510
Deci, practic ceea ce am putea face acum este să ne auto-conduce fișierul de masina si copy paste ceea ce am

02:11.510 --> 02:14.570
pus în aplicare pentru funcția selectați de fapt, în auto-conduce masina.

02:14.810 --> 02:15.700
Dar să o facem din nou.

02:15.710 --> 02:19.710
Va fi o practică bună și, de fapt, puteți încerca să o tastați înaintea mea.

02:20.150 --> 02:23.870
OK, așa că mai întâi vom face probele.

02:23.870 --> 02:29.930
Așadar, am reamintit că este o distribuție a probabilităților pentru fiecare dintre valorile q care depind de imaginea de

02:29.960 --> 02:31.790
intrare și de fiecare acțiune.

02:31.790 --> 02:38.120
Așadar, avem o valoare cheie pentru fiecare dintre cele șase sau șapte acțiuni posibile și, prin urmare, obținem o distribuție

02:38.120 --> 02:43.600
de șapte probabilități și apoi 7 deoarece cred că există șapte acțiuni în loc de șase.

02:43.670 --> 02:50.010
Deoarece, pe lângă mișcarea pentru stânga sau spre stânga, putem executa și șapte acțiuni posibile

02:50.420 --> 02:57.260
și, prin urmare, obținem o distribuție de șapte probabilități câte una pentru fiecare valoare q asociată fiecărei acțiuni.

02:57.260 --> 02:58.930
Deci, Propst este egal.

02:59.040 --> 03:00.670
Și acum, amintiți-vă ce trebuia să facem.

03:00.860 --> 03:06.650
Ei bine, practic trebuie să folosim funcția max de la modulul funcțional.

03:06.680 --> 03:13.010
Este foarte simplu să luăm mai întâi modul nostru funcțional, apoi să facem asta și apoi să luăm următoarea noastră

03:13.130 --> 03:13.700
funcție.

03:13.700 --> 03:14.480
Aici este.

03:14.570 --> 03:22.430
Apasă pe enter și acum punem argumentele următoarei funcții pe care îmi amintesc elementele pentru care dorești

03:22.430 --> 03:25.290
să creezi o distribuție a probabilităților.

03:25.550 --> 03:30.560
Și deci este, desigur, valorile q care sunt ieșirile rețelei neuronale.

03:30.680 --> 03:35.830
Aceasta este rezultatul rețelei neuronale pentru care doriți să creați o distribuție a probabilităților.

03:35.990 --> 03:41.270
Acum, reamintim că vrem să creăm această distribuție a probabilităților pentru a putea explora diferitele acțiuni

03:41.270 --> 03:45.760
în loc să alegem în mod direct cel care are valoarea Q maximă.

03:46.010 --> 03:51.020
Dacă alegem în mod direct cel care are valoarea maximă Q în care nu explorăm multe alte acțiuni și

03:51.350 --> 03:52.650
am putea pierde ceva.

03:52.880 --> 03:58.760
Dar, cu această metodă urmărită, putem face mai multă explorare și, prin urmare, poate găsi unele soluții ascunse în

03:58.760 --> 04:01.520
modelele care ar putea fi mult mai bune.

04:01.850 --> 04:08.060
Deci, din nou, recomand foarte mult lucrurile Nax și apoi de acum ceea ce trebuie să facem este să introducem valorile

04:08.060 --> 04:09.560
care sunt rezultatele noastre aici.

04:09.560 --> 04:13.860
Rezultatele creierului nostru, astfel încât ieșirile pe care le ducem.

04:13.970 --> 04:21.710
Dar atunci avem acest parametru de temperatură pe care îl putem folosi pe care îl putem configura pentru a particulariza explorarea.

04:21.710 --> 04:28.130
Amintiți-vă că cu cât setăm temperatura mai mare, cu atât mai puțin explorarea celorlalte acțiuni va face, deoarece cea mai

04:28.130 --> 04:33.260
bună acțiune va fi selectată cu o probabilitate mai mare, spre deosebire de celelalte acțiuni care

04:33.260 --> 04:35.910
vor fi selectate cu probabilități mai mici.

04:35.930 --> 04:42.620
Este exact ca și în cazul unei mașini și, prin urmare, trebuie să înmulțim puterea de ieșire aici

04:43.010 --> 04:51.800
prin parametrul nostru de temperatură, pentru că suntem perfecți acum, avem un avertisment puțin, pentru că nu am folosit încă prefixe, dar o

04:51.810 --> 04:53.220
vom folosi acum.

04:53.260 --> 04:55.540
Și așa ne aduce la următorul lucru pe care trebuie să-l facem.

04:55.540 --> 04:57.750
Cum vom folosi aceste probabilități.

04:57.910 --> 05:04.390
Ei bine, vom încerca acțiunea finală de jucat de la această distribuție a probabilităților și, prin urmare, ceea ce

05:04.990 --> 05:10.960
trebuie să facem acum este să folosim funcția multinomială pentru a încerca acțiunea în funcție de această

05:10.960 --> 05:12.080
distribuție a probabilităților.

05:12.370 --> 05:15.030
Deci, acum suntem gata să luăm acțiunile noastre.

05:15.190 --> 05:20.500
Deci, eu creez un nou voievod aici pentru că asta va deveni acțiuni care vor fi jucate de corpul

05:20.500 --> 05:21.490
nostru de AI.

05:21.520 --> 05:31.480
Și deci acum luăm distribuția probabilităților probs la care adăugăm puncte și apoi metoda multi-normală.

05:32.220 --> 05:38.030
În regulă și acum avem acțiunile noastre finale de a juca acolo, asamblate din distribuția noastră de recuzită.

05:38.430 --> 05:39.570
Bine perfect.

05:39.570 --> 05:42.300
Deci, acum eram gata să ne întoarcem ceea ce vrem.

05:42.360 --> 05:44.450
Aceasta este acțiunea de jucat.

05:44.670 --> 05:48.720
Și acestea sunt, desigur, acțiuni și acum avertismentul ar trebui să dispară.

05:48.840 --> 05:50.440
Folosim tot ce ne dorim.

05:50.460 --> 05:51.270
Vom merge acolo.

05:51.270 --> 05:52.020
Perfect.

05:52.210 --> 05:53.950
Deci, funcția înainte este gata.

05:54.080 --> 05:55.740
Și felicitări.

05:55.800 --> 05:57.300
Corpul este, de asemenea, gata.

05:57.540 --> 05:59.070
Deci acum avem creierul nostru.

05:59.190 --> 06:05.760
Avem corpul nostru și, prin urmare, suntem gata să îi adunăm pentru a face viitorul AI viitorul nostru AI, voi fi

06:05.760 --> 06:08.900
compus din nimic altceva decât un creier și un corp.

06:08.970 --> 06:14.160
Și așa este ceea ce au inteligență și un organism pentru a juca acțiunile care vor fi

06:14.160 --> 06:16.610
acțiunile potrivite de a juca datorită inteligenței sale.

06:16.620 --> 06:22.060
Dar amintiți-vă înainte de a ne instrui inteligența și asta vom face în parte pentru

06:22.070 --> 06:25.180
a ne pregăti ochiul cu învățarea răcoroasă convențională.

06:25.200 --> 06:25.500
In regula.

06:25.500 --> 06:28.470
Așa că hai să facem AI în următorul truc.

06:28.490 --> 06:31.810
Va mai fi o clasă de două funcții.

06:31.950 --> 06:34.510
Și asta necesită două sau trei tutoriale.

06:34.680 --> 06:35.660
Așa că nu pot să aștept.

06:35.670 --> 06:36.780
Acest lucru va fi interesant.

06:36.780 --> 06:37.930
Și până atunci.