WEBVTT

00:00.720 --> 00:03.210
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:03.210 --> 00:08.400
Hari ini kita berbicara tentang bagian pertama dari A-3 melihat bagian kritikus aktor.

00:08.400 --> 00:10.540
Jadi di sini kita mendapat keuntungan sinkron.

00:10.550 --> 00:12.380
Algoritma kritik aktor.

00:12.420 --> 00:15.440
Dan kita akan berbicara tentang itu menggarisbawahi Akrotiri.

00:15.570 --> 00:17.210
Di situlah kita akan memulai.

00:17.400 --> 00:21.960
Secara teknis Anda bisa memulai dari mana saja, tetapi lebih masuk akal untuk memulai

00:22.320 --> 00:29.640
dari seorang kritik karena dengan begitu kita akan memiliki penjelasan yang sangat konsisten tentang pemahaman intuitif tentang apa yang sedang terjadi yang akan

00:29.640 --> 00:30.470
memudahkan kita.

00:30.480 --> 00:33.970
Tetapi jika kita mulai mengejutkan pada akhir penyimpangan ini.

00:34.170 --> 00:41.840
Baiklah sejauh ini dalam kursus ini kita telah datang dengan pembelajaran Kule bersyarat mendalam yang ilustrator di

00:41.880 --> 00:48.780
sini jadi kita punya komputer melihat piksel sehingga gambar aktual dan piksel bukan hanya vektor.

00:48.780 --> 00:53.610
Jadi itu tidak curang itu benar-benar melihat persis apa yang dilihat manusia melihat monster

00:53.610 --> 01:00.540
itu melihat kesehatannya melihat parameter di bagian bawahnya melihat kartu atau melihat pistol itu persis sama dengan yang akan

01:00.540 --> 01:03.080
dilihat manusia ketika bermain ini permainan.

01:03.090 --> 01:09.450
Kemudian gambar itu dilewatkan melalui sarang konvolusional dan kemudian melewati tarik menarik rata dan masuk

01:09.450 --> 01:16.380
ke jaringan saraf dan kemudian pada output kita punya tindakan seperti ingat kita punya nilai-nilai kubus

01:16.380 --> 01:20.270
maka kita menerapkan kebijakan pemilihan tindakan ke mereka.

01:20.270 --> 01:24.540
Jadi misalnya kita menerapkan Max lunak dan kami mencari tahu tindakan yang ingin kita ambil.

01:24.540 --> 01:28.470
Jadi ada beberapa eksplorasi dan eksploitasi yang terjadi.

01:28.470 --> 01:29.860
Ada kombinasi keduanya.

01:30.270 --> 01:33.480
Jadi itulah cara kerja pembelajaran dingin convolutional yang mendalam.

01:33.640 --> 01:34.980
Tapi sekarang mari kita lihat apa yang akan kita lakukan dengannya.

01:34.970 --> 01:39.510
Jadi demi kesederhanaan hanya agar lebih mudah bagi kita untuk beroperasi adalah karena kita

01:39.510 --> 01:41.770
akan menyesuaikan gambar ini dan memindahkannya.

01:41.790 --> 01:46.490
Kita akan mengganti lingkaran dengan kotak dengan ini atau kotak persegi panjang ini.

01:46.560 --> 01:53.190
Dan kita juga akan menghilangkan garis-garis itu dan antara hanya mengubahnya menjadi panah sehingga ini tidak

01:53.190 --> 01:54.440
mengubah esensi.

01:54.450 --> 01:56.590
Ini hanya representasi pada grafik ini.

01:56.610 --> 02:01.620
Ini masih bahkan representasi ini masih dalam pembelajaran convolutional Kule hanya akan lebih

02:01.620 --> 02:05.520
mudah bagi kita untuk memodifikasinya dan menunjukkan apa itu.

02:05.520 --> 02:08.820
Jadi begitulah kita akan mewakili hal-hal dari sini.

02:08.820 --> 02:13.070
Dan apa yang dilakukan atau bagian spesifik ini dimulai?

02:13.080 --> 02:16.680
Ingat kita mulai seperti langkah demi langkah kita mulai dengan bagian kritik aktif.

02:16.680 --> 02:23.490
Jadi kita akan melihat bagaimana kita beralih dari pembelajaran Kule yang sangat penting ke A-3 melihat langkah demi langkah dan langkah pertama

02:23.490 --> 02:27.520
kita akan memperkenalkan aktor kritikus ini PARTOVI di sini jadi kita akan membicarakannya.

02:27.750 --> 02:32.490
Jadi hal pertama yang terjadi adalah bit terakhir ini.

02:32.640 --> 02:36.990
Outputnya sebenarnya kita hanya akan menggambar ulang seperti ini sehingga output yang persis sama persis

02:36.990 --> 02:40.350
dengan nilai q yang sama persis dengan tindakan yang sama.

02:40.350 --> 02:45.810
Jadi jika dia jika Anda memiliki delapan tindakan yang mungkin Anda masih memiliki delapan tindakan yang mungkin akan menempatkan mereka di atas

02:45.810 --> 02:50.280
sehingga mereka mengambil lebih sedikit ruang sehingga tidak ada sejauh ini tidak ada yang berubah sejauh ini.

02:50.280 --> 02:52.080
Ini dan ini persis sama.

02:52.080 --> 02:55.080
Tapi sekarang inilah bagian kritik aktif.

02:55.110 --> 02:56.580
Kami akan memiliki output kedua.

02:56.580 --> 03:02.460
Kita akan memiliki yang pertama sebagai satu set output dan di sini kita akan memiliki output individual yang

03:02.460 --> 03:06.040
terpisah sehingga secara teknis kita akan menggunakan jaringan saraf kita.

03:06.040 --> 03:08.310
Jadi satu jam sekali.

03:08.340 --> 03:14.720
Atau gambar dan segala sesuatu seperti nilai melewati jaringan dari kiri ke kanan di sini.

03:14.730 --> 03:17.910
Mereka tidak hanya memuntahkan satu set nilai yang mereka keluarkan sebenarnya dua set.

03:17.910 --> 03:23.910
Dan si top berkata bahwa kita benar-benar tahu apa itu tindakan yang mungkin tetapi di sini kita benar-benar akan

03:23.910 --> 03:26.970
memiliki nilai tambahan lain jadi mari kita lihat itu.

03:27.000 --> 03:28.430
Apa nilai itu.

03:28.620 --> 03:31.260
Jadi di sini kita pergi itu yang teratas.

03:31.380 --> 03:35.190
Jadi kami seperti mengurangi ukuran ilustrasi ini.

03:35.340 --> 03:41.210
Output teratas adalah nilai-nilai kubus seperti yang kita bahas sebelumnya untuk tindakan.

03:41.220 --> 03:42.500
Jadi mereka adalah hal yang sama.

03:42.510 --> 03:43.240
Semuanya sama.

03:43.410 --> 03:47.640
Tapi kemudian sekarang bagian bawah ini dan bagian atas sebenarnya disebut X atau kita

03:47.640 --> 03:53.400
akan memberikan nama itu aktornya karena itulah bagian di mana agen memilih apa yang ingin dilakukan sehingga seolah-olah itu

03:53.400 --> 03:59.160
bertindak itu seolah-olah itu tampil di atas panggung dan itu akan lebih masuk akal begitu kita memiliki nama

03:59.160 --> 04:00.730
kedua di layar juga.

04:00.900 --> 04:08.120
Dan kemudian output kedua hanya seperti satu nilai dan itu adalah V dari S jadi itu adalah nilai negara.

04:08.130 --> 04:16.800
Jadi jika q dari S adalah Q dari A adalah nilai q dari tindakan tertentu dan seperti yang Anda lihat itulah mengapa ada tindakan satu tindakan dua tindakan

04:16.980 --> 04:21.450
tiga hingga tindakan enam atau tindakan makna yang lebih tinggi mungkin ada di negara

04:21.450 --> 04:22.030
itu.

04:22.030 --> 04:28.410
Jadi dalam keadaan tertentu s Apa nilai q dari mengambil tindakan, tindakan ke tindakan satu tindakan ke dan sebagainya.

04:28.460 --> 04:34.900
Kemudian di sini kita juga memprediksi kita juga menggunakan jaringan saraf untuk memprediksi

04:34.900 --> 04:40.620
berapa nilai dari tahap kita sebenarnya dan bagian ini disebut kritik

04:40.820 --> 04:47.070
Dan itulah intuisi untuk jenis intuisi tidak penuh bahkan seperti permulaan intuisi di belakang aktor yang

04:47.880 --> 04:53.260
memprediksi bahwa ada dua keluaran sekarang dari jaringan saraf bukan hanya satu.

04:53.380 --> 04:56.470
P sebelum kita baru saja memiliki yang di outbred yang sekarang kita sebut aksi.

04:56.470 --> 04:59.040
Tapi sekarang kami memiliki dua keluaran Akshara dan kritikus.

04:59.250 --> 05:02.320
Dan akan ada dinamika di antara mereka yang akan kita jelajahi lebih lanjut.

05:02.370 --> 05:08.850
Namun untuk saat ini, penting untuk dipahami bahwa kami memperkirakan tidak hanya nilai tindakan yang dapat diambil oleh agen dari

05:09.330 --> 05:14.100
kondisi saat ini, tetapi juga memperkirakan nilai berada dalam kondisi seperti ini menggunakan jaringan lama

05:14.100 --> 05:15.750
yang sama tahun itu.

05:15.750 --> 05:20.700
Jadi itulah inti dari langkah pertama menuju kritik aktif.

05:20.790 --> 05:24.990
Dan sekarang kita akan perlu berbicara tentang sinkron yang akan kita lakukan tutorial selanjutnya untuk memahami

05:24.990 --> 05:30.900
dengan tepat apa yang terjadi antara tugas dan hal terakhir untuk hari ini adalah bahwa semua nilai kunci ini seperti yang kita

05:30.900 --> 05:32.640
tahu yang juga disebut Pulse .

05:32.640 --> 05:39.720
Jadi dalam beberapa literatur di beberapa blog dan beberapa diskusi Anda mungkin menemukan dalam kritik aktif Anda

05:39.720 --> 05:47.400
mungkin menemukan penulis berbicara tentang nilai-nilai Cue di sisi aktor dalam beberapa di literatur lain dan posting blog

05:47.400 --> 05:53.780
dan diskusi Anda akan menemukan agrah penulis berbicara tentang kebijakan itu dan biasanya menggunakan

05:53.860 --> 05:59.810
pengguna seperti huruf Yunani P untuk mewakili kebijakan atau hanya mengatakan kebijakan negara.

05:59.970 --> 06:05.790
Jadi, semuanya ini adalah kebijakan negara bagian karena kita ingat kebijakannya adalah jika Anda

06:05.790 --> 06:11.660
menempatkan semua tindakan bersama-sama tindakan yang mungkin dan kemudian memutuskan tindakan mana yang akan diambil.

06:11.660 --> 06:15.400
Jadi ini akan menjadi seperti probabilitas mengambil setiap tindakan sehingga kebijakan.

06:15.540 --> 06:19.410
Jadi jangan dibuang jika Anda melihat satu atau yang lain.

06:19.410 --> 06:21.090
Mereka pada dasarnya berarti hal yang sama.

06:21.090 --> 06:24.720
Jadi di satu sisi di sini Anda punya kebijakan atau nilai q di sisi lain

06:24.720 --> 06:27.620
Anda punya nilai aktual negara dan mereka diprediksi sejak tahun itu.

06:27.750 --> 06:31.770
Jadi itulah awal dari kritik aktif akan melanjutkan ini di tutorial berikutnya ketika

06:31.770 --> 06:34.320
kita berbicara tentang sinkron dan lihat di sana.

06:34.380 --> 06:35.910
Sampai kemudian menikmati.