WEBVTT

00:01.080 --> 00:04.050
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.050 --> 00:09.810
Hari ini kita melanjutkan perjalanan kita ke dunia setiap tiga melihat dan kita berbicara tentang sisi sinkron dari

00:09.870 --> 00:13.530
salah satu C sehingga di sana kita memiliki singkatan keunggulan sinkron.

00:13.550 --> 00:14.430
Kritik aktif.

00:14.430 --> 00:19.040
Dan hari ini kita akan mencari tahu apa arti sinkron di sini.

00:19.080 --> 00:20.990
Dan mari kita mundur selangkah.

00:21.000 --> 00:27.270
Mari kita lihat apa yang kita mulai dari keseluruhan kursus ini untuk penegakan belajar tentang apa itu semua bahwa

00:27.270 --> 00:29.050
Asia berada dalam keadaan tertentu.

00:29.340 --> 00:30.690
Mereka mengamati negara.

00:30.730 --> 00:37.080
Mereka membuat keputusan tertentu mereka mengambil tindakan di negara itu dan kemudian negara diubah sehingga mereka masuk ke negara

00:37.080 --> 00:39.010
baru ditambah mereka mendapat hadiah.

00:39.150 --> 00:46.830
Jadi hadiah untuk mengambil tindakan itu atau semacam hadiah yang bisa menjadi penalti juga dan mereka berakhir di

00:46.830 --> 00:47.780
negara baru.

00:47.790 --> 00:50.180
Dan berdasarkan itu sekarang mereka mengambil tindakan lain lagi.

00:50.250 --> 00:56.280
Mereka mendapatkan hadiah dan berakhir di negara baru dan mereka mengambil tindakan lain dan seterusnya dan

00:56.280 --> 00:59.670
itu adalah dasar di balik semua pembelajaran penguatan.

00:59.700 --> 01:06.030
Dan itulah yang telah kami gunakan dalam pembelajaran dalam pembelajaran mendalam dan pembelajaran terus convolutional yang dalam dan yang memungkinkan

01:06.030 --> 01:10.660
agen kami untuk mengalahkan lingkungan yang lebih kompleks dan lebih kompleks secara bertahap.

01:10.770 --> 01:18.310
Tapi sekarang kita akan memperkenalkan konsep yang lebih baik dan bahkan untuk mengambil tingkat ini lebih jauh.

01:18.720 --> 01:25.530
Apa yang dilihat oleh A-3 diperkenalkan melalui elemen sinkron ini dan bukannya meminta satu agen

01:25.520 --> 01:26.730
menyerang lingkungan.

01:26.790 --> 01:34.140
Mereka memiliki tiga agen atau berapa pun jumlah agen atau beberapa agen yang menyerang lingkungan yang sama.

01:34.290 --> 01:39.360
Dan kuncinya di sini adalah itu sebabnya ini disebut sinkronisasi karena mereka diinisialisasi secara berbeda sehingga

01:39.360 --> 01:40.920
input bintang mereka berbeda.

01:40.920 --> 01:46.520
Jadi misalnya seperti yang akan Anda lihat dari sumber praktis Anda menetapkan benih acak dan Anda mengaturnya

01:46.530 --> 01:47.980
berbeda untuk masing-masing agen.

01:48.030 --> 01:51.150
Dan itu karena titik awal mereka berbeda.

01:51.270 --> 01:55.260
Mereka akan terlebih dahulu melalui lingkungan dengan cara yang berbeda dan kemudian mereka akan mengeksplorasi dengan cara

01:55.260 --> 01:58.620
yang berbeda dan kemudian di iterasi selanjutnya juga akan mengeksplorasi dengan cara yang berbeda.

01:58.620 --> 02:01.190
Jadi misalnya kita punya tiga agen.

02:01.300 --> 02:06.390
Anda tiba-tiba mendapatkan tiga kali lipat pengalaman daripada hanya satu

02:06.390 --> 02:12.480
usia dan melalui dan menjelajahi lingkungan dan mencoba memahami cara mengoperasikannya di lingkungan itu.

02:12.570 --> 02:18.780
Anda sekarang memiliki tiga atau banyak dari mereka yang mengalami hal itu dan mendapatkan pengalaman ini dan

02:18.930 --> 02:25.140
di sana sehingga masing-masing dari mereka belajar untuk pengalaman yang lebih besar ini dan selain dari hanya

02:25.140 --> 02:31.300
memberikan pengalaman yang lebih luas, itu juga mengurangi kemungkinan satu agen terjebak dalam maksimum lokal.

02:31.320 --> 02:38.040
Jadi misalnya jika salah satu agen menemukan cara untuk mengalahkan lingkungan yang bukan yang paling optimal karena jika itu menyimpang

02:38.130 --> 02:43.470
dari kiri ke kanan dari solusi yang ia temukan selalu mendapat hukuman yang lebih besar

02:43.470 --> 02:45.710
mungkin akan terjebak dalam maksimum lokal.

02:45.710 --> 02:49.530
Mungkin terus berpikir bahwa itu adalah solusi optimal di mana itu sebenarnya tidak.

02:49.680 --> 02:58.830
Nah kemungkinan beberapa agen terjebak dalam maksimum lokal yang sama berkurang seiring dengan jumlah agen sehingga

02:58.830 --> 03:04.440
kemungkinan satu agen terjebak dalam maksimum lokal tertentu mungkin tinggi

03:04.440 --> 03:07.990
tetapi Atau mungkin nilai tertentu.

03:08.130 --> 03:11.730
Tetapi kemungkinan ketika Anda memiliki tiga dari mereka bertiga terjebak dalam maksimum lokal

03:11.730 --> 03:13.020
itu jauh lebih rendah.

03:13.020 --> 03:18.630
Dan selama mereka berbagi pengalaman antara satu sama lain, mereka dapat saling membantu sehingga jika salah satu dari mereka terjebak

03:18.630 --> 03:23.370
misalnya itu maksimum lokal dan hanya berpikir bahwa itu yang terbaik dan itu yang terbaik itu

03:23.370 --> 03:25.700
solusi terbaik sepanjang waktu terus melakukan itu.

03:25.830 --> 03:30.740
Nah selama itu berinteraksi dengan agen lain Jadi katakanlah orang ini akan terjebak dalam tindakan

03:30.770 --> 03:35.710
yang tenang selama berinteraksi dengan agen lain melalui cara kami membangun seluruh algoritma kami melalui

03:35.710 --> 03:37.620
seluler dan mereka akan membantunya.

03:37.620 --> 03:42.960
Mereka akan memberinya pengetahuan bahwa sebenarnya Anda tahu hei Anda harus menjelajahi ini atau dia kemungkinan

03:43.020 --> 03:44.630
akan keluar dari itu.

03:44.760 --> 03:50.370
Dan juga secara keseluruhan lingkungan akan tahu bahwa hei meskipun ini adalah yang terbaik pada zaman ini yang telah melihat

03:50.370 --> 03:55.230
opsi yang lebih baik dan kita harus terus mengeksplorasi karena sepertinya ada pilihan yang lebih baik.

03:55.230 --> 04:00.750
Jadi dalam pengertian singkat tentang intuisi kasar, itulah beberapa keuntungan memiliki agen sinkron

04:00.750 --> 04:05.970
ini sehingga Anda memiliki lebih banyak pengalaman untuk dipilih dan dipelajari.

04:06.210 --> 04:12.750
Anda bisa mendapatkan solusi lebih cepat dan secara umum jika ada kemungkinan lebih

04:13.080 --> 04:16.640
kecil untuk terjebak dalam maksimum lokal CRN.

04:16.680 --> 04:18.710
Jadi mari kita lihat bagaimana semua ini berjalan.

04:18.720 --> 04:24.300
Dalam model yang telah kami buat sejauh ini, ingatlah ini adalah apa yang kami dapatkan sejauh ini melalui kritik yang

04:24.300 --> 04:29.730
sebenarnya dan ini seperti kita semua menggoda ini sejauh yang Anda ingat dari pertama hingga kura-kura yang kami perkenalkan

04:29.730 --> 04:33.030
ini Anda tahu kami sudah memiliki ini bahkan di laut dalam.

04:33.030 --> 04:38.340
Q learning Jadi, kami baru saja memberi nama X sekarang tetapi sekarang kami telah memperkenalkan kritik

04:38.340 --> 04:43.620
tetapi sejauh ini tidak benar-benar masuk akal apa gunanya memiliki kritik ini dan mengukur nilai negara

04:43.620 --> 04:48.320
atau memprediksi nilai panggung menggunakan saraf yang sama jaringan atau pendekatan yang sama.

04:48.510 --> 04:52.350
Tapi sekarang ini dia yang akan mulai lebih masuk akal.

04:52.350 --> 04:57.750
Apa yang akan kita lakukan adalah kita akan mereplikasi ini karena sekarang kita memiliki banyak agen Jadi jika ini

04:57.750 --> 04:59.410
adalah beberapa agen seperti ini.

04:59.410 --> 05:07.380
Jadi cara pertama membayangkannya adalah sekarang kita memiliki tiga hari ini dengan baik mengingat apa yang kita katakan tentang mereka berbagi pengalaman

05:07.380 --> 05:09.210
antara satu sama lain.

05:09.210 --> 05:12.270
Jadi ini sebenarnya seperti saat ini mereka semua mandiri.

05:12.260 --> 05:15.420
Anda memiliki satu bermain permainan dan selain bermain permainan bermain lain dalam permainan.

05:15.450 --> 05:20.500
Ini seperti meluncurkan agen Anda di tiga komputer berbeda, Anda menempatkan tiga komputer berbeda di samping satu sama

05:20.500 --> 05:23.030
lain dan Anda meluncurkannya dan Anda tahu itu hebat.

05:23.050 --> 05:29.100
Seperti memang Anda suka, Anda akan mendapatkan Anda akan mendapatkan lebih banyak pengalaman Anda akan mendapatkan lebih banyak variasi terutama jika

05:29.100 --> 05:29.760
mereka diinisialisasi.

05:29.790 --> 05:33.600
Jadi kita dapat berasumsi dari sini bahwa inisial mereka buruk selalu diinisialisasi sebelumnya walaupun kita memiliki gambaran

05:33.600 --> 05:34.770
yang sama di sini.

05:34.870 --> 05:39.900
Apakah kita akan tahu bahwa mereka sebenarnya diinisialisasi secara berbeda sehingga tidak akan seperti

05:39.900 --> 05:43.460
pelatihan yang identik dengan pembelajaran identik dari game ini.

05:43.890 --> 05:47.700
Dan bahkan jika Anda suka Anda menempatkan tiga komputer berdampingan

05:47.700 --> 05:55.560
dan Anda meluncurkannya ya Anda akan memiliki lebih banyak pengalaman karena Anda akan memiliki tiga agen bermain dan Anda juga akan memiliki

05:55.680 --> 05:58.600
berbagai kemungkinan solusi yang lebih besar .

05:58.620 --> 06:00.120
Jadi itu benar.

06:00.120 --> 06:03.840
Tetapi masalahnya adalah mereka tidak berbagi pengalaman kita satu sama lain atau tidak belajar dari satu sama

06:03.840 --> 06:04.120
lain.

06:04.220 --> 06:06.840
Jadi mereka tidak memiliki sinergi itu.

06:06.840 --> 06:11.670
Mereka tidak memiliki keunggulan atau kekuatan ekstra yang akan mereka dapatkan jika mereka memuji Anda tahu

06:11.670 --> 06:17.930
seperti bagaimana jika Anda memiliki jika Anda memiliki tim orang yang mereka bekerja lebih baik bersama daripada masing-masing dari mereka secara terpisah.

06:17.920 --> 06:20.650
Jadi seperti di tim di sini Anda punya satu tambah satu tambah satu.

06:20.730 --> 06:25.200
Itu tiga tetapi dalam tim satu ditambah satu untuk bertelur dan bukan tiga seperti tiga karena mereka

06:25.200 --> 06:29.220
memanfaatkan kekuatan masing-masing dan mengurangi kelemahan satu sama lain dan hal yang sama di sini.

06:29.220 --> 06:34.080
Jadi, jika Anda menempatkan kedua komputer ini berdampingan ya Anda akan memiliki lebih banyak memori pengalaman dan mungkin seseorang akan

06:34.150 --> 06:35.580
mendapatkan solusi yang lebih baik.

06:35.580 --> 06:39.710
Satu lagi yang hebat tetapi akan lebih baik jika mereka mulai berbagi pengalaman itu.

06:39.780 --> 06:41.120
Dan bagaimana mereka melakukannya.

06:41.130 --> 06:47.820
Baik melalui Wii inilah kami menghitungnya sehingga nilai Wii ini yang merupakan output dari jaringan kami

06:47.820 --> 06:49.550
sebenarnya seperti itu.

06:49.560 --> 06:54.960
Jadi mereka memiliki yang sama setiap saat.

06:54.960 --> 06:58.050
Semua agen ini berkontribusi pada kritik yang sama.

06:58.050 --> 07:04.290
Mereka tidak memiliki kritik yang terpisah. Mereka memiliki kritik yang sama dan itulah kunci dari bagaimana aktor

07:04.290 --> 07:06.270
tersebut berhubungan dengan sinkron mereka.

07:06.270 --> 07:09.850
Jadi ada satu kritikus yang mengawasi kami saat mereka mendapatkan pengalaman.

07:09.870 --> 07:12.420
Jadi bagaimana kita menghitung Wii.

07:12.570 --> 07:13.920
Kita harus menyelesaikan Wii.

07:14.220 --> 07:20.190
Seperti yang Anda ingat kita bisa mendapatkan TV melalui nilai-nilai yang kita dapatkan sehingga penghargaan yang kita dapatkan melalui

07:20.190 --> 07:20.750
lingkungan.

07:20.760 --> 07:28.310
Dan saat para agen menjelajahi lingkungan mereka, mereka sedang memprediksi Wii.

07:28.320 --> 07:30.710
Plus mereka memiliki Wii yang dapat mereka hitung.

07:30.720 --> 07:35.010
Ini semua adalah semua ikatan kembali ke apa yang telah kita bahas di bagian sebelumnya

07:35.010 --> 07:35.730
dari skor.

07:35.850 --> 07:42.870
Jadi mereka sudah memiliki Wii yang dapat mereka prediksi seperti harapkan melalui hadiah yang mereka tahu ada di

07:42.870 --> 07:48.700
labirin ini dan bahwa mereka sudah menjelajahi dan saat mereka menjelajahinya tentu saja nilai itu

07:48.750 --> 07:49.770
bisa berubah.

07:49.890 --> 07:55.410
Tetapi juga mereka memiliki Wii bahwa ini adalah output dari jaringan saraf sehingga

07:55.410 --> 08:01.530
mereka akan melalui ini mereka akan menyesuaikan jaringan saraf mereka agar lebih sesuai dengan yang diharapkan.

08:01.530 --> 08:10.080
Jadi pada dasarnya ini dibagikan bagian kritik dibagikan antara agen dan itu adalah bagaimana mereka berbagi informasi antara satu sama lain sehingga

08:10.080 --> 08:15.490
mereka dapat melihat apa yang terjadi di lingkungan yang dibagikan satu sama lain dan

08:15.490 --> 08:20.890
kemudian menggunakannya seperti Akan lihat lebih lanjut di bagian selanjutnya dalam keuntungan.

08:20.930 --> 08:25.450
Jadi gunakan itu untuk mengoptimalkan bagaimana mereka berperilaku lingkungan.

08:25.710 --> 08:27.960
Dan hal lain yang perlu diperhatikan di sini adalah.

08:28.080 --> 08:29.510
Jadi ini adalah melalui C.

08:29.520 --> 08:33.150
Ini seperti inti dari A-3 lihat di sini.

08:33.150 --> 08:38.610
Ini adalah jenis versi 08:30 Tapi sebenarnya ada implementasi yang lebih baik dari ini.

08:38.610 --> 08:45.450
A sampai C yang akan Anda dengar sebenarnya saya ingin bicarakan di salah satu tutorial pertama dan sisi praktisnya

08:45.450 --> 08:52.680
dan apa yang akan dia bicarakan adalah bagaimana pembuat Pi torche benar-benar membuat penyesuaian ke satu dari kode-kode yang dibagikan

08:52.980 --> 08:58.530
dan mendapatkan hub di mana ia mengambil semua ini seperti yang Anda lihat sekarang mereka

08:58.530 --> 09:03.420
memiliki jaringan saraf yang terpisah dan mereka menunjukkan kepada Wii bahwa penyesuaian

09:03.420 --> 09:09.300
yang dilakukan sebenarnya untuk mengambil semua jaringan saraf ini dan menempatkannya dalam satu ambil dan satukan.

09:09.300 --> 09:15.100
Jadi pada akhirnya hanya ada satu jaringan saraf di sini yang dibagikan di antara para agen.

09:15.120 --> 09:21.180
Jadi sebelum mereka memiliki masing-masing dari mereka memiliki satu jaringan saraf yang dibagikan untuk aktor dan untuk kritikus

09:21.180 --> 09:25.790
satu jaringan saraf Shelfer sebenarnya untuk kritikus satu jaringan saraf berbagi untuk akurasi.

09:25.800 --> 09:31.730
Sekarang mereka semua memiliki satu jaringan saraf yang dibagikan untuk aktor atau kritikus yang sebenarnya atau kritik.

09:31.980 --> 09:35.130
Dan kemudian kritiknya ada di sini.

09:35.310 --> 09:36.690
Jadi mari kita lihat, mari.

09:36.690 --> 09:39.840
Mari kita pindahkan gambar-gambar ini ke kiri di sini jadi buat beberapa ruang.

09:40.100 --> 09:47.430
Dan ini pada dasarnya adalah arsitektur atau struktur yang akan kita gunakan dalam tutorial

09:47.430 --> 09:48.250
praktis.

09:48.300 --> 09:55.020
Saya tahu bahwa seperti ini mungkin kedengarannya agak luar biasa pada tahap ini, tetapi kita punya satu lagi untuk dibicarakan yang

09:55.020 --> 09:59.370
merupakan keuntungan dan di sana kita akan melihatnya lebih baik dalam tindakan.

09:59.370 --> 10:02.780
Bagaimana caranya, kita akan bicara tentang intuisi yang sedang beraksi.

10:02.870 --> 10:05.680
Tapi secara umum ini adalah ini.

10:05.700 --> 10:10.640
Ini ada satu jaringan yang masing-masing agen gunakan atau mereka bagikan.

10:10.640 --> 10:15.820
Pada dasarnya apa artinya adalah bahwa mereka berbagi bobot bobot jaringan dibagi antara usia dan ketika

10:15.840 --> 10:19.920
mereka memperbaruinya mereka memperbarui seluruh jaringan tidak hanya jaringan mereka sendiri.

10:20.480 --> 10:26.270
Dan kemudian mereka memiliki keluaran yang mereka sukai seperti tindakan ini untuk setiap agen dan kemudian mereka memiliki kritik yang

10:26.270 --> 10:27.710
dibagikan yang akan dipantau.

10:27.700 --> 10:34.280
Jadi saya tahu semua ini seperti ada banyak hal saat ini, tapi semoga perlahan-lahan

10:34.850 --> 10:35.900
datang bersama.

10:35.900 --> 10:39.660
Hal utama yang dapat diambil dari sini adalah bahwa kritik tersebut karena dibagikan.

10:39.670 --> 10:47.810
Begitulah cara agen memastikan bahwa mereka bekerja sama untuk mendapatkan hasil yang lebih

10:47.810 --> 10:48.660
cepat.

10:48.860 --> 10:52.690
Dan kemudian dalam tutorial berikutnya kita akan melihat lebih jauh bagaimana semua ini bertambah.

10:52.700 --> 10:53.650
Semua ini bersatu.

10:53.900 --> 11:01.210
Dan untuk saat ini ada seperti saya ingin merekomendasikan atau kami ingin merekomendasikan Anda bacaan tambahan.

11:01.210 --> 11:06.780
Jadi ini adalah blog oleh Jaromir Jansch.

11:06.860 --> 11:11.570
Namanya Let's make a A3 see implantations sebenarnya adalah dua bagian implementasi dan teori.

11:11.820 --> 11:19.010
Ada tautan dan sangat mirip dengan apa yang akan diterapkan Adlon di sisi praktis tutorial

11:19.010 --> 11:25.880
sehingga tidak khusus untuk tutorial ini, tidak hanya untuk Sutro tetapi untuk seluruh

11:25.880 --> 11:27.200
bagian ini.

11:27.200 --> 11:30.900
Mendorong ada beberapa informasi tambahan beberapa wawasan tambahan di sana.

11:31.040 --> 11:33.260
Dan itulah mengapa kami membawanya ke sini.

11:33.320 --> 11:38.030
Namun demikian dalam tutorial selanjutnya kita akan mulai menyatukan semua ini.

11:38.030 --> 11:39.040
Semua yang kami diskusikan.

11:39.200 --> 11:40.590
Dan saya berharap dapat melihat Anda lain kali.

11:40.590 --> 11:42.200
Dan sampai saat itu nikmati aku.