WEBVTT

00:00.590 --> 00:03.970
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.070 --> 00:05.420
Saya harap Anda menikmati kursus sejauh ini.

00:05.420 --> 00:09.050
Dan hari ini kita berbicara tentang tindakan kebijakan seleksi.

00:09.050 --> 00:11.010
Baiklah mari kita langsung ke dalamnya.

00:11.030 --> 00:17.930
Sebelumnya kami berbicara tentang menambahkan jaringan saraf ke pembelajaran sederhana kami dan sejauh

00:18.020 --> 00:21.230
ini kami mendapatkan pembelajaran yang mendalam.

00:21.230 --> 00:26.620
Kami sudah berbicara sedikit tentang bagian pembelajaran termasuk menambahkan beberapa elemen ke dalamnya.

00:26.630 --> 00:30.020
Dan hari ini kita berbicara tentang bagian ini kita berbicara tentang akting.

00:30.020 --> 00:31.290
Jadi mari kita lihat.

00:31.310 --> 00:38.690
Jadi di sini kita sudah mendapatkan apa yang kita bahas tentang akting bahwa setelah Anda memasukkan nilai-nilai parameter

00:38.690 --> 00:45.230
adalah vektor yang menggambarkan agen negara jelas di lingkungan itu maka setelah semua pembelajaran dilakukan atau

00:45.230 --> 00:47.290
bahkan sebelum pembelajaran dilakukan.

00:47.420 --> 00:52.000
Pada dasarnya kita mendapatkan semua nilai q jadi kita tidak tertarik dengan pembelajaran saat ini, kita

00:52.010 --> 00:57.350
bersikeras untuk bertindak jadi setelah kita memiliki nilai-nilai kunci ini bagaimana kita memahami yang mana yang perlu kita gunakan.

00:57.350 --> 00:58.910
Nah kalau dipikir-pikir.

00:58.910 --> 01:01.890
Nilai Q hanyalah prediksi untuk kubus.

01:01.910 --> 01:08.630
Jadi seperti yang kami lakukan dalam algoritma pembelajaran sederhana apa yang kami lakukan, kami hanya memilih satu dengan yang terbaik

01:09.180 --> 01:10.420
dari nilai tertinggi.

01:10.430 --> 01:15.380
Setelah kita memiliki yang dengan nilai IQ tertinggi, kita hanya mengambil tindakan itu karena itu hanya membawa

01:15.380 --> 01:20.330
kita nilai tertinggi dan bahwa kita tahu bahwa hadiah langsung kalkulator Duval yang kita harapkan untuk menerima

01:20.360 --> 01:23.100
Plus, faktor DK kali nilai dari tanggal berikutnya.

01:23.120 --> 01:29.480
Dan ini adalah perhitungan rekursif jadi mengapa tidak mengapa Anda tidak mengambil nilai terbaik dan

01:29.480 --> 01:30.570
itulah akhirnya.

01:30.800 --> 01:35.360
Tapi seperti yang Anda lihat di sini, ini tidak sesederhana di sini kami menggunakan fungsi soft max dan

01:35.360 --> 01:37.910
di sinilah kita akan berbicara tentang kebijakan pemilihan aktual.

01:37.940 --> 01:41.210
Jadi di sini dalam kenyataannya kita tidak harus hanya memiliki fungsi perangkat lunak.

01:41.300 --> 01:49.190
Kita dapat memiliki kebijakan pemilihan tindakan yang berbeda misalnya kita punya Epsilon rakus Epsilon lunak dan kita punya soft

01:49.470 --> 01:54.950
Macs dan itu semacam kebijakan pemilihan tindakan yang paling umum digunakan tentu saja

01:54.960 --> 01:56.300
ada yang lain.

01:56.300 --> 02:02.120
Misalnya yang paling mendasar adalah aksi sosial yang sangat sederhana. Pilih saja yang terbaik.

02:02.120 --> 02:03.770
Yang dengan nilai Q tertinggi.

02:03.980 --> 02:09.800
Tapi mengapa itu tidak terjadi, dan mengapa kita memiliki berbagai jenis kebijakan pemilihan

02:09.800 --> 02:10.510
tindakan.

02:10.520 --> 02:15.270
Yah itu semua bermuara pada eksplorasi versus eksploitasi.

02:15.560 --> 02:22.670
Dan itu adalah inti dari pembelajaran penguatan karena kita sudah membicarakan ini sedikit bahwa agen Anda ketika

02:22.880 --> 02:28.400
itu beroperasi di lingkungan itu mungkin memprediksi nilai antrian tertentu yang mungkin

02:28.400 --> 02:34.970
baik dan mungkin ternyata hebat itu mungkin ternyata itu tersedia dan akan dipaksa untuk menjelajah.

02:34.970 --> 02:40.640
Jadi jika kita misalnya dalam hal ini memprediksi bahwa Q2 adalah yang terbaik dan kemudian dibutuhkan Q Untuk mengambil

02:40.640 --> 02:42.350
tindakan untuk itu dan itu.

02:42.500 --> 02:46.880
Jadi dari sini ke Bagian 2 dan kemudian mendapat imbalan yang sangat negatif.

02:46.880 --> 02:51.980
Kemudian lingkungan memaksa agen untuk pergi dan meledak karena sekarang dia akan belajar bahwa

02:51.980 --> 02:56.740
oh sebenarnya saya pikir Q2 akan sangat baik tetapi ternyata sangat buruk.

02:56.780 --> 02:58.370
Jadi hasilnya tidak terlalu buruk.

02:58.370 --> 03:02.730
Jadi jaringan bisa memperbarui sendiri jadi lain kali dia dalam keadaan dia mungkin akan memakan jiwaku

03:02.720 --> 03:04.010
hanya sampai ke sana.

03:04.190 --> 03:09.470
Anda tahu jika itu sangat sangat menguntungkan sehingga Anda mungkin berpikir bahwa seperti Anda

03:09.470 --> 03:14.900
tahu Anda mungkin perlu beberapa kali beberapa hukuman atau hukuman untuk mempelajarinya adalah tentang tindakan.

03:14.990 --> 03:20.030
Tapi mungkin dia sudah akan segera belajar bahwa saya akan mengambil tindakan yang berbeda dan mengambil tindakan pergelangan

03:20.030 --> 03:22.020
tangan karena sekarang ia memiliki nilai terbaik.

03:22.160 --> 03:28.880
Jadi kadang-kadang lingkungan memaksa agen untuk mengambil yang berbeda untuk mengeksplorasi tindakan yang berbeda, tetapi kadang-kadang agen

03:29.180 --> 03:36.860
mungkin akan menemukan dirinya terjebak dalam maksimum lokal. Mungkin menemukan bahwa ia mengikuti melalui eksplorasi awal dan menemukan bahwa

03:36.860 --> 03:42.110
oh ini adalah tindakan yang cukup keren Saya akan pergi ke sini.

03:42.200 --> 03:43.920
Dan koleksi d'esprit itu.

03:43.940 --> 03:49.760
Tetapi masalahnya adalah itu dianggap tindakan terbaik hanya karena belum dieksplorasi dieksplorasi naik hidungnya atau

03:49.760 --> 03:55.850
ke kiri mengeksplorasi mengeksplorasi kanan tetapi itu belum dieksplorasi turun dari keadaan tertentu bahwa itu dalam dan

03:56.360 --> 04:01.490
sekarang jenis suka bias terhadap tindakan ini dan berpikir berpikir tindakan yang baik akan

04:01.490 --> 04:03.800
terus mengambilnya akan terus mendapatkan.

04:03.840 --> 04:06.570
Dia akan terus menerima sebenarnya akan terus mendapatkan hadiah yang bagus.

04:06.620 --> 04:14.000
Tetapi bagaimana jika tindakan ini akan menjadi lebih baik jika tindakan ini akan menjadi jauh lebih baik sehingga jika tahu tentang

04:14.060 --> 04:19.310
tindakan ini sebenarnya akan beralih ke tindakan ini tetapi karena tersangkut dalam batas maksimum lokal

04:19.310 --> 04:23.580
adalah mendapatkan hadiah yang bagus ini hanya akan terjadi untuk diperkuat.

04:23.630 --> 04:27.770
Ini akan terus memperkuat itu sendiri atau kekerasan akan memperkuatnya bahwa ini adalah tindakan yang

04:27.770 --> 04:29.450
baik untuk terus melakukan itu.

04:29.510 --> 04:35.330
Tetapi kenyataannya adalah bahwa ada tindakan lain yang belum ditemukan atau bahkan belum dieksplorasi.

04:35.570 --> 04:37.090
Itu akan jauh lebih baik.

04:37.130 --> 04:43.790
Jadi yang ingin kami lakukan adalah kami ingin membuat kebijakan seleksi aktual yang memungkinkan agen kami tidak

04:43.910 --> 04:45.800
terjebak dalam maksimum lokal.

04:45.800 --> 04:50.120
Ya, penting bagi Anda untuk tetap melakukan tindakan baik yang merupakan bagian eksploitasi.

04:50.180 --> 04:52.000
Kami tidak akan mengeksploitasi apa yang kami temukan.

04:52.100 --> 04:56.720
Tetapi pada saat yang sama kami masih ingin mengeksplorasi, kami tidak pernah ingin berhenti mengeksplorasi seperti dalam hidup Anda tidak

04:56.720 --> 04:59.000
pernah ingin berhenti belajar Anda berhenti belajar Anda mati.

04:59.120 --> 05:05.030
Itulah hal-hal seperti itu bahwa ketika Anda tidak tumbuh Anda sedang sekarat atau sesuatu jadi Anda ingin terus

05:05.090 --> 05:07.580
belajar dan agen Anda ingin terus belajar.

05:07.760 --> 05:10.200
Dan di situlah kebijakan pemilihan tindakan ini masuk.

05:10.400 --> 05:16.190
Jadi kami punya tiga Anda terdaftar di sini jadi yang pertama adalah Epsilon serakah itu yang

05:16.190 --> 05:22.140
sangat sederhana kedengarannya cukup kompleks dalam arti seperti itu punya nama keren dan biasanya hal-hal dengan nama bedah.

05:22.370 --> 05:23.170
Sebenarnya tidak.

05:23.180 --> 05:31.530
Jadi pada dasarnya yang dilakukannya adalah memilih yang dengan nilai Q terbaik dan epsilon seperti Epsilon, Anda

05:31.540 --> 05:35.240
mungkin mendengar tempat lain seperti kebijakan pemilihan.

05:35.240 --> 05:41.210
Jadi, dalam hal ini kami menggunakannya untuk menyelinap sehingga nilai Al-Q kami keluar dengan penjualan seperti yang

05:41.540 --> 05:45.980
dengan nilai Q tertinggi sepanjang waktu kecuali untuk Epsilon persen sepanjang waktu.

05:45.980 --> 05:53.300
Jadi misalnya jika Anda menetapkan epsilon menjadi 10 persen maka Anda akan ke atau 0. 1 dari 10 persen waktu tindakan

05:53.300 --> 05:56.740
akan dipilih secara acak.

05:56.750 --> 06:01.990
Jadi 90 persen dari waktu Anda masih akan memilih tindakan terbaik berdasarkan nilai tertinggi.

06:02.120 --> 06:05.580
Tetapi 10 persen dari waktu akan memilih tindakan acak.

06:05.600 --> 06:11.120
Seragam itu akan benar-benar mengambil tindakan secara acak atau jika Anda mengatakan

06:11.420 --> 06:18.380
epsilon ke nol koma lima untuk 0. 05 itu berarti bahwa 95 persen dari waktu agen akan mengambil tindakan dengan

06:18.380 --> 06:19.200
nilai tertinggi.

06:19.220 --> 06:22.470
Tapi 5 persen dari waktu itu masih akan memilih dan tindakan acak.

06:22.490 --> 06:25.550
Jadi itu akan pergi ke sana dan menjelajahi.

06:25.790 --> 06:31.640
Jadi lunak Epsilon sangat mirip dengan cara yang tidak seperti mengapa disebut

06:31.750 --> 06:39.780
FCL serakah karena dengan begitu Anda dengan rakus memilih tindakan tindakan yang baik kecuali untuk episode kecil itu.

06:39.780 --> 06:40.290
Beberapa waktu.

06:40.280 --> 06:46.970
Jadi semakin rendah kesepakatan EPS, mereka akan menurunkan Epsilon Lepp semakin mudah Anda memilih jenis tindakan

06:46.970 --> 06:53.870
yang merupakan tindakan optimal dan semakin sedikit Anda meninggalkan semakin sedikit peluang Anda pergi untuk eksplorasi

06:53.870 --> 06:56.000
Epsilon lunak adalah sebaliknya.

06:56.000 --> 07:02.000
Jadi pada dasarnya Anda memilih secara acak Anda memilih satu minus Epsilon persen dari waktu.

07:02.000 --> 07:08.240
Jadi jika Anda epsilons suka 0. 1 hingga 10 persen lalu hanya 10 persen dari waktu Anda melakukan tindakan ini.

07:08.490 --> 07:12.410
Dan 90 persen dari waktu Anda memilih tindakan acak.

07:12.410 --> 07:19.000
Jadi sangat sederhana sekali hanya algoritma terbalik dan Max lunak semacam seperti langkah berikutnya atau itu adalah versi yang lebih

07:19.070 --> 07:24.350
maju saya akan mengatakan lebih dari epsilon dari algoritma serakah epsilon meskipun mereka berdua memiliki

07:24.350 --> 07:26.570
kelebihan dan mereka berdua memiliki tempat.

07:26.610 --> 07:30.860
Kita akan menggunakan keuangan sendiri dalam pengkodean kita dalam hal-hal praktis kita.

07:30.860 --> 07:35.270
Jadi itulah yang akan kita bicarakan sedikit lebih detail tentang soft max.

07:35.330 --> 07:36.380
Jadi mari kita lihat.

07:36.380 --> 07:38.440
Jadi mari kita beralih ke harapan Anda berikutnya.

07:38.450 --> 07:42.800
Cukup jelas tentang Ebsen yang setuju bahwa ini adalah algoritma yang cukup mudah.

07:42.800 --> 07:45.100
Pilih yang ini.

07:45.230 --> 07:47.790
Sebagian besar waktu kecuali kadang-kadang pergi dan menjelajah.

07:47.800 --> 07:53.820
Dan sekarang kita juga melihat mengapa penting untuk melakukan eksplorasi itu agar kita tidak mencapai maksimum lokal dalam

07:53.840 --> 07:58.780
proses optimisasi kami, jadi sekarang kita akan berbicara sedikit lebih banyak tentang Mac lunak.

07:58.880 --> 08:02.680
Ada tutorial tentang tanda lunak di akhir kursus.

08:02.750 --> 08:09.560
Saya pikir ini adalah lampiran nomor dua di mana kita berbicara tentang konsep Maxim karena Anda menyegarkan sedikit di

08:09.560 --> 08:14.650
sini sehingga kita berbicara tentang jaringan saraf dan omong-omong kita semua akan membahas

08:14.720 --> 08:15.290
konvolusional.

08:15.290 --> 08:18.170
Kami tidak membahas jaringan saraf evolusi di bagian ini.

08:18.210 --> 08:21.470
Tentu saja di bagian ini kami masih menggunakan vektor.

08:21.800 --> 08:27.770
Tetapi di bagian selanjutnya dari kursus ketika kita sedang membuat AI untuk bermain Doom kita akan menggunakan

08:27.770 --> 08:32.870
jaringan saraf convolutional sehingga bisa bermanfaat bagi Anda untuk melihat dalam jaringan saraf relasional

08:32.870 --> 08:38.300
dan kemudian mengambil self max berfungsi atau Anda bisa belajar lebih banyak tentang soft Max.

08:38.300 --> 08:43.020
Setelah Anda mengambil jaringan saraf convolutional dan tentu saja nanti.

08:43.250 --> 08:48.130
Tapi ini penyegaran cepat Jadi di sini kita punya jaringan saraf convolutional kami yang memutuskan apakah itu anjing

08:48.130 --> 08:48.950
atau kucing.

08:48.950 --> 08:56.090
Jadi di sini kita punya proses pemungutan suara antara neuron-neuron ini dan yang ini mengatakan

08:56.090 --> 09:04.250
bahwa ini adalah fitur yang Anda tahu telinga yang lembut Apa jenis wajah runcing dan jenis fitur adalah

09:04.250 --> 09:09.930
jenis mata dengan mata Mata melihat semua fitur ini milik anjing.

09:09.930 --> 09:13.890
Jadi, kemungkinannya 95 persen untuk seekor anjing dan 5 persen peluang untuk kucing.

09:13.910 --> 09:19.460
Tetapi pertanyaannya adalah bagaimana kita masuk ke dalam Tauriel yang sedang kita bicarakan tentang bagaimana kita mendapatkan nilai-nilai

09:19.490 --> 09:20.530
ini untuk menambahkannya.

09:20.870 --> 09:27.650
Baik apa pun konvolusional seluruh jaringan saraf kita adalah jaringan saraf convolutional ditambah Lares yang terhubung sepenuhnya apa

09:27.650 --> 09:33.300
pun itu buruk apa pun nilai-nilai yang kita terapkan pada fungsi soft max ada di

09:33.300 --> 09:33.980
sini.

09:34.010 --> 09:37.720
Di sinilah kami memperkenalkan formula untuk fungsi soft berikutnya.

09:37.810 --> 09:38.620
Seperti apa bentuknya.

09:38.780 --> 09:40.420
Dan kemudian kami mendapat nilai-nilai ini.

09:40.620 --> 09:43.460
Dan pada dasarnya itu adalah penyegaran cepat.

09:43.460 --> 09:46.050
Ini adalah formula untuk Max lunak.

09:46.100 --> 09:50.900
Apa yang dilakukannya adalah dibutuhkan tetapi banyak output yang Anda miliki tidak masalah.

09:50.900 --> 09:58.130
Itu akan membawa mereka dan itu akan meremas mereka semua ke dalam nilai antara 0 dan 1 terlepas dari seberapa besar mereka hanya

09:58.130 --> 10:03.720
untuk saya, Anda dapat melihat bahwa ada jumlah total di bagian bawah sehingga perangkat ini akan menjadi

10:03.720 --> 10:04.860
nol dan masuk

10:04.860 --> 10:08.630
Dan juga semua nilai ini akan bertambah menjadi satu selalu.

10:08.700 --> 10:16.770
Dan itulah yang sangat bermanfaat bagi kami karena ketika kami menggunakan fungsi soft max yang terjadi adalah kami

10:16.800 --> 10:21.390
mendapatkan nilai-nilai ini, kami memilih nilai tampilan terbaik ini.

10:21.390 --> 10:26.740
Namun pada kenyataannya yang terjadi adalah nilai-nilai yang kita dapatkan ini ada angka sebenarnya yang benar.

10:26.750 --> 10:28.760
Jadi ini semacam angka.

10:28.920 --> 10:31.720
Semuanya tidak harus berjumlah satu dan tidak harus antara 0 dan 1.

10:31.730 --> 10:32.830
Hanya beberapa angka.

10:33.140 --> 10:38.520
Tetapi ketika kita menerapkan soft Max kita tidak hanya memilih yang terbaik, kita benar-benar mendapatkan angka seperti

10:38.520 --> 10:44.310
itu sehingga kita mendapatkan angka kita di kisaran antara 0 dan 1 dan itu juga yang menambahkan hingga 1.

10:44.310 --> 10:47.220
Dan hal lain apa yang kita ketahui yang menambahkan hingga satu.

10:47.340 --> 10:53.010
Nah probabilitas kita tahu bahwa probabilitas selalu harus menambahkan hingga 1 jadi itu sebabnya kita bisa mengatakan di sini

10:53.010 --> 10:57.990
kita punya nilai q tapi tiba-tiba di sini kita punya lunak atau kita punya probabilitas.

10:57.990 --> 11:02.740
Jadi kita dapat mengatakan bahwa kemungkinan ini menjadi tindakan terbaik adalah 90 persen.

11:02.840 --> 11:08.610
Bagian lesbian ini 5 persen 2 persen 3 persen karena kami tahu semakin tinggi nilainya, semakin baik

11:08.610 --> 11:09.290
aksinya.

11:09.390 --> 11:14.920
Jadi jika kita menekannya menjadi 0 hingga 1 maka ini menjadi kemungkinan dan kita bisa mengatasinya.

11:15.090 --> 11:22.840
Dan oleh karena itu sekarang adalah saat tindakan dipilih dan itulah bagaimana kami menghasilkan Q2.

11:22.890 --> 11:28.580
Tetapi jika Anda melihatnya dengan seksama, ini bukan 100 persen ketat dan ini bukan Saroo 0 persen.

11:28.590 --> 11:30.670
Jadi ini 5 persen hingga 3 persen.

11:30.810 --> 11:42.360
Jadi cara paling alami untuk menerapkan Max lunak untuk menjaga eksplorasi dalam algoritma adalah dengan menggunakan probabilitas yang tepat

11:42.480 --> 11:48.600
ini sebagai seberapa sering kita akan mengambil tindakan itu.

11:48.600 --> 11:55.710
Jadi probabilitas ini sebenarnya menyajikan distribusi tindakan yang kami ambil sehingga pada dasarnya lunak Max membuatnya

11:55.890 --> 12:01.740
sangat mudah bagi kami untuk menemukan cara untuk menggabungkan eksploitasi dan eksplorasi.

12:01.740 --> 12:06.930
Jadi tindakan terbaik yang terbaik akan selalu memiliki probabilitas tinggi karena memiliki nilai Q tertinggi dan oleh karena itu

12:06.930 --> 12:11.190
di sini kita hanya akan menggunakan ini sebagai distribusi kita atau kita akan mengatakan

12:11.190 --> 12:16.080
oke kita akan mengambil Q2 90 persen dari waktu tetapi 5 persen dari waktu kita masih akan mengambil

12:16.120 --> 12:21.170
Q1 dan 2 persen dari waktu kita sampai 3 dan 3 persen dari waktu kita akan mengambil Q4.

12:21.420 --> 12:27.090
Dan keindahan di sini adalah juga bahwa seiring dengan bertambahnya nilai-nilai ini dan

12:27.090 --> 12:35.220
seiring agen melewati jaringan semakin lama semakin menjadi akrab dengan lingkungan dan oleh karena itu pembaruan ini sehingga nilai

12:35.210 --> 12:41.640
ini misalnya menjadi seperti mungkin dapat memastikan nilai ini sebenarnya kurang atau ini sebenarnya

12:41.640 --> 12:47.060
lebih tinggi dan probabilitas ini juga akan berubah saat agen melewati.

12:47.070 --> 12:49.190
Jadi meskipun di sini kita punya Choo-Choo.

12:49.200 --> 12:55.560
Tidak ada yang mengatakan bahwa kadang-kadang 5 persen dari waktu menjadi lebih tepat kita akan memilih Q1 sebagai

12:55.560 --> 13:00.040
tindakan untuk diambil dan kadang-kadang atau tindakan satu akan mengambil tindakan satu.

13:00.180 --> 13:05.280
Terkadang akan mengambil tindakan melalui dua tindakan, tiga dua persen dari waktu dan tindakan untuk akan mengambil

13:05.280 --> 13:06.400
sekitar 3 persen.

13:06.420 --> 13:13.800
Jadi setiap tindakan memiliki peluang untuk dimainkan dalam proses ini selama kita memiliki cukup iterasi,

13:13.800 --> 13:17.930
agen melewati banyak dan berkali-kali melalui kondisi ini.

13:17.940 --> 13:23.880
Dan begitulah cara kerjanya, itulah jenis algoritma pembelajaran mendalam yang ingin Anda lakukan berkali-kali

13:23.880 --> 13:30.030
sehingga Anda belajar dari pengalaman dan karena itu seperti yang Anda lihat di sini, ini adalah

13:30.030 --> 13:31.840
transisi yang sangat alami.

13:31.860 --> 13:37.590
Kami tidak hanya secara acak seperti algoritme kemarahan Epson dan tidak hanya secara acak memilih tindakan yang kami

13:37.590 --> 13:44.100
pilih berdasarkan pada nilai maks lunak yang membuatnya menjadikannya seperti memiliki beberapa logika di belakangnya, bukan hanya tidak hanya 10

13:44.190 --> 13:48.780
persen acak dari waktu kita memilih tindakan acak tetapi ada beberapa logika di balik

13:48.780 --> 13:53.200
bagaimana kita melakukannya dan berdasarkan pada nilai-nilai kunci yang telah kita jelajahi.

13:53.280 --> 13:58.620
Dan itulah kebijakan pemilihan tindakan yang akan kita gunakan dalam kursus ini.

13:58.620 --> 14:04.590
Anda dipersilakan untuk pasti memeriksa bagian tindakan serakah Ebsen Polsce jika Anda suka, tetapi

14:04.590 --> 14:10.920
kami akan didominasi menggunakan kebijakan bagian tindakan Max lembut dan saya punya bacaan yang menarik untuk

14:10.920 --> 14:11.490
Anda.

14:11.490 --> 14:17.430
Jadi ini disebut eksplorasi serakah Epsilon adaptif dalam pembelajaran penguatan berdasarkan perbedaan nilai

14:17.430 --> 14:18.870
itu artikel 2010.

14:18.930 --> 14:27.270
Dan itu menarik karena Mike Michel Saya tidak yakin bagaimana cara mengucapkan Michelle dan Miquel toxic memperkenalkan jenis

14:27.450 --> 14:36.420
berbeda dari Algren dan algoritma serakah Epsilon yang disesuaikan dan disebut algoritma VDB VDB atau algoritma VDB serakah epsilon serakah

14:37.230 --> 14:40.030
yang dapat Anda lihat di sini.

14:40.410 --> 14:46.590
Dan dia benar-benar membandingkan membandingkan dengan Ebsen Max serakah dan lunak dan itu

14:46.650 --> 14:55.740
adalah algoritma serakah mutlak yang pada dasarnya ide utama di baliknya adalah untuk menyesuaikan nilai epsilon tergantung pada keadaan agen

14:55.740 --> 14:56.550
itu.

14:56.550 --> 15:01.820
Jadi jika jika agen sangat yakin tentang keadaan di Epsilon maka harus lebih kecil sehingga mereka

15:01.820 --> 15:06.340
harus kurang eksplorasi jika agen dijawab Epson harus lebih tinggi harus lebih eksplorasi.

15:06.350 --> 15:08.930
Jadi ini adalah artikel 2010.

15:09.260 --> 15:17.930
Saya tidak yakin apakah ini jika algoritma usulan baru ini digunakan secara luas atau diterima di komunitas atau

15:18.010 --> 15:23.090
atau jika Times buatan memiliki semacam cara dari saran ini.

15:23.090 --> 15:29.450
Namun demikian itu pasti akan membantu Anda memperkuat pengetahuan Anda tentang kebijakan pemilihan tindakan yang kami

15:29.450 --> 15:33.180
bahas Epsom Ingredion soft Naxal membantu Anda tidak

15:33.200 --> 15:38.900
memberi Anda kesempatan untuk memaksa situs Subha dan juga melihat ke arah mana orang-orang

15:38.900 --> 15:46.040
berpikir ketika mereka ingin meningkatkan kecerdasan buatan jadi jika Anda berencana membuat algoritma yang sangat menarik yang mendorong

15:46.040 --> 15:51.770
ujung kecerdasan buatan Elche dan mendorong amplop di ruang ini maka ini bisa menjadi

15:52.130 --> 16:00.140
cara yang baik bagi Anda untuk melihat ke arah mana orang berpikir kadang-kadang ketika mereka mencoba untuk meningkatkan norma-norma kecerdasan

16:00.200 --> 16:04.070
buatan atau norma-norma yang ada saat itu pada tahun 2010.

16:04.070 --> 16:04.760
Jadi begitulah.

16:04.790 --> 16:11.020
Semoga Anda menikmati tutorial hari ini tentang kebijakan pemilihan tindakan dan kami belajar

16:11.060 --> 16:18.240
tentang abseil garam Epson serakah dan soft Mac dan sekarang Anda bahkan lebih siap untuk sisi praktisnya.

16:18.290 --> 16:20.840
Dan pada catatan itu saya berharap melihat langkah Anda selanjutnya.

16:20.840 --> 16:22.570
Dan sampai saat itu nikmati AI.