WEBVTT

00:00.610 --> 00:03.190
Bună ziua și bun venit la acest tutorial Python.

00:03.190 --> 00:09.460
Deci haideți să facem acest lucru pentru a face acest lucru pentru bucla începând de la dreapta și merge la stânga și

00:09.460 --> 00:11.900
pentru a face acest lucru vom adăuga patru.

00:11.920 --> 00:17.980
Deci, acesta este un VAR iterativ care va fi pasul nostru pentru că vom merge de la ultimul pas la

00:17.980 --> 00:21.590
primul pas al unei serii de tranziții și așa mai departe.

00:21.960 --> 00:29.850
Și apoi truc pentru a merge de la dreapta la stânga este de a utiliza pentru pas în inversat inversat.

00:30.160 --> 00:35.300
Și acum trebuie doar să introducem o secvență și această secvență va fi desigur seria noastră.

00:35.380 --> 00:41.790
Așa că putem pune seria noastră, dar după cum puteți vedea în lucrarea pe care o vedem de la T minus 1 pentru a începe.

00:41.950 --> 00:47.760
Deci nu mergem de la ultima etapa care este etapa terminala, dar pasul inainte este ca este minus unul

00:47.800 --> 00:50.380
dar pentru a incepe este primul pas.

00:50.430 --> 00:59.090
Și aici, pentru a merge de la nu pentru a face acest pas înainte de a avea nevoie să adăugați în coloana de paranteze minus unul.

00:59.380 --> 01:04.270
Sunt sigur că pentru cei dintre voi care au urmat mașina care învață într-un curs mai

01:04.560 --> 01:11.050
profund știi acest truc Kollin minus unul înseamnă că te duci până la elementul înainte de ultimul element, dar nu până la

01:11.050 --> 01:14.740
ultimul element și, prin urmare, ajungem ordinea pe care o dorim.

01:14.860 --> 01:20.890
De asta vom merge de la element înaintea ultimului element la primul element și vom face lucrurile inversate

01:20.890 --> 01:23.900
pentru a merge de la dreapta la stânga.

01:24.160 --> 01:26.810
În regulă, deci suntem gata să intrăm în buclă.

01:27.170 --> 01:29.740
Și așa în interiorul asta pentru bucla ce vom face.

01:29.780 --> 01:32.870
Unde vom proceda exact ca în ziar.

01:32.900 --> 01:39.340
Vom actualiza recompensa cumulativă înmulțind-o cu Ghana și adăugând cuvântul obținut în etapa curentă

01:39.400 --> 01:42.500
care este în etapa de urmărire.

01:42.670 --> 01:45.450
În regulă, hai să ne întoarcem la Python.

01:45.590 --> 01:57.780
Și așa că vrem să actualizăm cumulul nostru, lucrăm în modul următor, multiplicându-l mai întâi cu gama.

01:57.780 --> 01:58.580
Vom merge acolo.

01:58.660 --> 02:07.910
Aici îl înmulțim cu gamma și apoi vrem să adăugăm recompensa a ceea ce putem accesa în acest fel cu

02:07.970 --> 02:09.420
structura specială.

02:09.450 --> 02:13.120
Amintiți-vă că acest cuvânt este un atribut al obiectului.

02:13.130 --> 02:15.910
Și deci, bineînțeles, adăugăm un plus.

02:16.020 --> 02:17.330
În regulă, este o recompensă cumulativă.

02:17.450 --> 02:19.310
Este egal cu acest pas.

02:19.370 --> 02:25.620
Suntem în momentul de față bucla plus Gahanna ori răsplata cumulativă anterioară înainte de a fi a.

02:26.150 --> 02:26.870
Perfect.

02:26.870 --> 02:28.190
Deci acum cred că suntem buni.

02:28.220 --> 02:30.180
Urmărim cu atenție algoritmul.

02:30.500 --> 02:32.600
Și acum este timpul pentru pașii următori.

02:32.840 --> 02:35.090
Ei bine, acum va deveni destul de ușor.

02:35.090 --> 02:40.880
Ne întoarcem la prima urmărire, deoarece acest lucru pentru buclă este doar de a calcula recompensa cumulativă, fără a merge

02:41.060 --> 02:44.010
de la dreapta la stânga prin actualizarea în acest fel.

02:44.030 --> 02:50.930
Urmând algoritmul și acum vă amintiți că obiectivul de a face acest lucru este de a obține datele noastre pregătite și

02:50.930 --> 02:55.950
obiectivele noastre gata, astfel încât să putem minimiza diferența pătrat între cele două pentru formare.

02:55.950 --> 03:01.020
Și chiar acum, singurul lucru pe care trebuie să-l facem este să fim pregătiți pentru aceste intrări și toaletă.

03:01.220 --> 03:08.410
Deci, să facem acest lucru în primul rând ceea ce trebuie să facem este să adăugăm prima dată a seriei în lista noastră de piese.

03:08.510 --> 03:11.460
Până acum, acest stat este în parte în acest scop.

03:11.480 --> 03:14.100
A fost doar pentru a calcula rezultatul.

03:14.270 --> 03:19.370
Deci, vom obține această stare de intrare a primului pas separat, pentru că exact așa trebuie

03:19.370 --> 03:21.320
să ne întâlnim în lista noastră.

03:21.380 --> 03:23.340
Deci, să înțelegem separat.

03:23.360 --> 03:25.910
Prin urmare, o vom numi stat.

03:26.000 --> 03:32.930
Și exact la fel ca aici putem obține acest lucru prin luarea primului indice al seriei care conține prima

03:32.930 --> 03:38.300
tranziție și apoi adăugarea acestei stări pentru a obține starea acestei prime tranziții.

03:38.330 --> 03:44.390
Deci, acesta este site-ul de care avem nevoie atunci spunând că vom obține separat obiectivele asociate acestui

03:44.840 --> 03:46.830
stadiu de intrare al tranziției.

03:46.880 --> 03:53.450
Și aici este o variabilă nouă interesantă, care va fi egală cu valoarea primului pas.

03:53.540 --> 03:59.990
Și din moment ce valoarea Q este returnată de rețeaua neuronală și de conținutul și ieșirea

04:00.070 --> 04:07.370
ei și deoarece ieșirile sunt ieșirile asociate acestei intrări, care conține prima tranziție de bine, putem obține această

04:07.370 --> 04:12.830
valoare q a primei date, luând doar ieșirea aici și luând indicele zero.

04:13.100 --> 04:20.630
Și apoi adăugăm acele date care ne vor da pur și simplu valoarea Q a stării de intrare a primei tranziții

04:21.050 --> 04:22.310
și exact timpul.

04:22.320 --> 04:30.080
Q În acest fel, vom prelua aceasta, apoi vom actualiza această variabilă țintă, dar numai pentru acțiunea selectată în

04:30.080 --> 04:35.680
prima etapă a seriei și pentru a accesa acest prim pas al seriei.

04:35.870 --> 04:42.710
Ei bine, trebuie să luăm prima serie 0, deoarece acesta este exact primul pas dintr-o serie 3 0.

04:42.970 --> 04:50.290
Și pentru a accesa acțiunea care corespunde acestei prime etape a seriei, trebuie să adăugăm aici că acțiunea din

04:50.380 --> 04:57.340
nou, aceasta este structura atributului pe care o utilizăm, știi că acțiunea este un atribut al primei

04:57.340 --> 04:58.900
etape a seriei.

04:58.900 --> 05:04.570
Aceasta este prima tranziție a seriei deoarece fiecare tranziție a seriei are următorul cuvânt de acțiune

05:04.720 --> 05:11.350
pentru structura de stat și a făcut-o astfel încât acțiunea de aici această acțiune de atribut aici înseamnă că pur

05:11.500 --> 05:14.150
și simplu obținem acțiunea acestei prime date.

05:14.330 --> 05:21.320
Astfel, obiectivul pentru acea acțiune specifică a primului pas este exact ceea ce trebuie să fie actualizat de

05:21.410 --> 05:22.850
către comunitatea lumii.

05:22.850 --> 05:29.490
Deci, practic, aici vom scrie acea țintă asociată acțiunii care a fost jucată.

05:29.630 --> 05:35.810
Primul pas al seriei este această recompensă cumulată pe care tocmai am calculat-o.

05:36.130 --> 05:44.780
În regulă și acum suntem gata să actualizăm contribuția noastră prin adăugarea acestei prime șederi aici și acest lucru este

05:44.780 --> 05:46.770
primul pentru prima oră.

05:46.970 --> 05:53.090
Trebuie doar să actualizăm primul pas al seriei, deoarece știți că pregătim AI pe 10 pași și, prin urmare,

05:53.090 --> 05:56.000
intrarea este primul pas al celor zece pași.

05:56.180 --> 06:01.400
Și, de asemenea, obținem ținta în acest prim pas, dar apoi nu primim niciun fel de inputuri sau toalete în

06:01.400 --> 06:06.310
următorii pași ai celor 10 pași, deoarece în principiu învățarea se face la 10 pași după aceea.

06:06.500 --> 06:11.380
Acesta este motivul pentru care, acum, ajungem doar la starea și la ținta primei etape a seriei.

06:11.840 --> 06:16.820
Așadar, este important să înțelegem acest lucru și, prin urmare, dacă înțelegem că acum înțelegem că trebuie să

06:16.820 --> 06:20.590
le introducem pe lista noastră de contribuții și pe lista noastră de obiective.

06:20.660 --> 06:21.560
Deci, să facem asta.

06:21.560 --> 06:25.140
Mai întâi, să adăugăm stările la inputurile noastre.

06:25.190 --> 06:33.680
Așadar, luăm lista de intrări și folosim funcția append pentru a adăuga starea care amintește starea de intrare a primei etape

06:33.680 --> 06:41.030
a seriei și apoi vom adăuga țintă la primul pas spre lista noastră de obiective și pentru a

06:41.120 --> 06:47.270
face acest lucru luăm lista de obiective și spunem că folosim funcția append pentru a

06:47.270 --> 06:49.460
adăuga această primă țintă.

06:49.490 --> 06:50.360
Vom merge acolo.

06:50.540 --> 06:56.750
Aproape făcut și acum trebuie să ne întoarcem ultimele lucruri care, bineînțeles, au fost cele de care aveam nevoie,

06:56.840 --> 07:01.760
așa cum am spus la începutul acestui tutorial despre intrările și obiectivele actualizate acum.

07:02.090 --> 07:07.580
Așa că vom adăuga aici la fiecare întoarcere și vom primi mai întâi inputurile noastre,

07:07.580 --> 07:14.660
dar atunci este chestia de care avem nevoie pentru a le converti într-un număr mai întâi de matrice apoi face o

07:14.660 --> 07:21.710
conversie de tip pentru a ne asigura că avem un singur tip cu tipul ești egal și care plutește la fel.

07:21.890 --> 07:28.520
Și apoi convertim acest lucru într-un tensor de torță, pentru că, bineînțeles, lucrăm cu o torță care este

07:28.730 --> 07:29.540
absolut obligatorie.

07:29.570 --> 07:36.040
Și așa folosesc din nou torța din funcția non-Thai.

07:37.180 --> 07:39.000
Și asta ne oferă datele noastre.

07:39.130 --> 07:39.590
Perfect.

07:39.590 --> 07:42.460
Și acum să facem același lucru și pentru ținte.

07:42.520 --> 07:44.620
Acum putem folosi acest truc, care este mai rapid.

07:44.710 --> 07:50.950
Vom plasa țintele împreună și pentru a face acest lucru trebuie să luăm mai

07:50.950 --> 07:57.230
întâi biblioteca tortei, deoarece vom folosi funcția de stivă cu ajutorul tortei pentru a stivuim țintele.

07:57.250 --> 07:57.550
In regula.

07:57.550 --> 08:04.030
Și astfel, această linie de cod întoarce în principiu intrările și toaletele care au fost actualizate prin

08:04.030 --> 08:07.100
acest algoritm Sarsour de urmărire a eligibilității.

08:07.180 --> 08:10.710
Sau putem să-l sunăm și să intrăm și să-i trimitem felicitările.

08:10.780 --> 08:16.540
Am fost pregătiți să facem pregătirea finală, deoarece practic formarea constă în

08:16.540 --> 08:20.950
minimizarea diferențelor pătrate între predicțiile inputurilor noastre și toaletele.

08:21.160 --> 08:22.870
Deci, haideți să ne ridicăm ochii.

08:22.870 --> 08:25.150
Acesta va deveni inteligent, iar următorul va fi.

08:25.210 --> 08:26.980
Și, până atunci, bucurați-vă de AI.
