WEBVTT

00:00.830 --> 00:04.470
Halo dan selamat datang kembali ke kursus tentang kecerdasan buatan.

00:04.580 --> 00:09.520
Saya harap Anda senang dengan tutorial hari ini karena kami mengambil langkah pertama kami ke dunia

00:09.520 --> 00:10.170
I.

00:10.460 --> 00:13.150
Dan hari ini kita berbicara tentang pembelajaran penguatan.

00:13.280 --> 00:18.710
Ini adalah kisah yang sangat penting karena akan mendukung segala hal lain yang akan terjadi dalam kursus ini.

00:18.770 --> 00:21.010
Jadi mari kita mulai dari sini.

00:21.020 --> 00:27.140
Kami punya labirin kecil dan labirin ini adalah representasi kami dari suatu lingkungan dan itulah yang akan

00:27.140 --> 00:29.210
kita hadapi dalam kursus ini.

00:29.210 --> 00:34.040
Kita akan berhadapan dengan lingkungan tertentu di mana kecerdasan buatan kita akan melakukan

00:34.040 --> 00:39.950
itu akan mengambil tindakan itu akan berusaha untuk mengalahkan ini dalam perjalanan saya dia akan mencari

00:39.950 --> 00:42.350
untuk menang di lingkungan ini

00:42.350 --> 00:44.190
Dan di sini kita punya agen.

00:44.360 --> 00:46.990
Agen itu adalah kecerdasan buatan kita.

00:47.030 --> 00:52.910
Itulah orang atau pikiran yang akan menavigasi lingkungan ini dan belajar dari umpan balik yang

00:53.000 --> 00:57.110
akan diberikan oleh pikiran mereka untuk melakukan tindakan tertentu.

00:57.150 --> 01:02.180
Jadi cara kerjanya adalah agen melakukan tindakan tertentu di lingkungan ini.

01:02.360 --> 01:09.050
Dan sebagai akibatnya keadaan di mana ia akan berubah sehingga mungkin lebih jauh atau lebih dekat atau lebih ke kiri

01:09.050 --> 01:10.070
lebih ke kanan.

01:10.070 --> 01:15.030
Mungkin memiliki semacam parameter lain yang menggambarkan statusnya dan parameter tersebut.

01:15.100 --> 01:20.970
Jadi negara akan berubah karena tindakan yang diambil dan itu juga akan mendapatkan hadiah berdasarkan tindakan.

01:20.970 --> 01:24.950
Jadi setiap kali mengambil tindakan negara akan berubah dan itu akan mendapat hadiah.

01:24.950 --> 01:29.170
Sekarang ingatlah kadang-kadang itu mungkin terjadi bahwa itu tidak akan mengubah keadaan tindakan tidak

01:29.170 --> 01:33.070
akan mengubah tinggal atau tidak akan ada hadiah untuk mengambil tindakan itu.

01:33.110 --> 01:34.530
Dalam arti itu.

01:34.670 --> 01:38.480
Namun demikian agen tetap melakukan itu akan mengambil tindakan menipu

01:38.480 --> 01:42.510
negara mendapatkan hadiah mengubah tindakan mengambil tindakan mengubah negara dan mendapatkan hadiah.

01:42.800 --> 01:47.840
Dan dengan melakukan proses itu akan belajar tentang apa yang akan mengeksplorasi lingkungan memahami

01:48.200 --> 01:53.970
tindakan apa yang mengarah pada imbalan yang baik dan keadaan yang menguntungkan dan tindakan apa yang keduanya

01:53.990 --> 01:55.840
hadiah kondisi yang tidak menguntungkan.

01:56.000 --> 01:59.690
Dan ini adalah masalah global yang sangat sederhana yang representasional.

01:59.690 --> 02:04.390
Jadi, jika Anda memikirkannya, sebenarnya lingkungan tidak harus hanya labirin.

02:04.400 --> 02:09.170
Ini bukan hanya tentang keluar dari labirin atau menemukan harta karun di labirin.

02:09.170 --> 02:11.740
Lingkungan bisa menjadi apa saja dalam hidup.

02:11.750 --> 02:15.180
Jadi bayangkan Anda bangun di pagi hari dan memasak telur dadar.

02:15.410 --> 02:22.010
Jadi untuk membuat telur dadar itu Anda harus melalui langkah-langkah tertentu Anda perlu mendapatkan garam untuk mendapatkan telur

02:22.010 --> 02:27.770
mendapatkan wajan yang akan dinyalakan dan seterusnya dan itu terdengar seperti hal biasa yang biasa.

02:27.770 --> 02:29.870
Tetapi ini menjadi rutin karena Anda telah melakukannya berkali-kali.

02:29.960 --> 02:34.670
Tetapi pada kenyataannya itu adalah lingkungan di mana Anda melakukan tindakan tertentu yang Anda lakukan sehingga

02:34.670 --> 02:40.250
Anda menaruh api pada Anda menempatkan wajan di atas api Anda meletakkan semua telur ke dalam wajan dan Anda

02:40.250 --> 02:43.190
menaruh garam pada telur dan Anda berbalik dan sebagainya.

02:43.190 --> 02:49.970
Jadi seperti yang Anda lihat itu adalah tindakan tindakan CRN yang mengambil di negara tertentu dan tindakan tersebut mengarah ke

02:49.970 --> 02:52.460
negara lain tertentu dan kadang-kadang hadiah.

02:52.460 --> 02:57.650
Jadi misalnya ketika Anda menyalakan api dan Anda menunggu menunggu tunggu tunggu Anda mengambil tindakan menunggu

02:57.650 --> 03:01.900
tunggu tunggu terlalu lama dan kemudian Anda memasukkan telur ke dalam wajan.

03:01.910 --> 03:03.560
Hadiahnya akan sangat negatif.

03:03.560 --> 03:05.120
Semuanya akan terbakar.

03:05.120 --> 03:10.130
Di sisi lain, jika Anda melakukan semua tindakan yang benar di waktu yang tepat, maka sangat penting

03:10.130 --> 03:13.850
untuk memahami bahwa tindakan harus dilakukan pada titik waktu yang tepat.

03:13.850 --> 03:20.090
Jadi misalnya memasukkan garam ke dalam wajan sebelum Anda memasukkan telur mungkin bukan ide

03:20.090 --> 03:20.770
terbaik.

03:20.780 --> 03:26.190
Anda mungkin ingin melakukan tindakan memasukkan garam ke dalam wajan setelah telur ada di

03:26.200 --> 03:28.320
sana sehingga dalam keadaan berbeda.

03:28.370 --> 03:29.620
Jadi penting untuk diingat itu.

03:29.780 --> 03:34.070
Dan pada saat yang sama, jadi jika Anda mengambil semua tindakan yang benar dalam urutan yang benar di

03:34.580 --> 03:38.840
negara bagian yang benar, hadiah terakhir Anda adalah Anda mendapatkan telur dadar yang bisa Anda makan.

03:38.900 --> 03:44.660
Jadi itu adalah kegiatan yang sangat mendasar dalam hidup Anda, tetapi jika Anda memikirkannya itu sebenarnya adalah sebuah lingkungan dan

03:44.990 --> 03:50.060
Anda adalah agen yang melewati lingkungan ini dan melakukan tugas, Anda tidak benar-benar perlu mempelajari apa pun karena

03:50.060 --> 03:52.190
Anda sudah tahu dengan cukup baik .

03:52.220 --> 03:56.170
Tetapi pada saat yang sama Anda bisa belajar mungkin Anda bisa belajar cara membuat telur dadar yang lebih baik atau

03:56.340 --> 03:59.010
terutama jika itu telur dadar pertama yang Anda buat, Anda mungkin akan mengacaukannya.

03:59.030 --> 04:04.010
Tapi Anda akan belajar dari itu karena Anda akan memahami tindakan apa yang mengarah ke negara dan rute

04:04.490 --> 04:05.890
dan hal lain dalam hidup.

04:06.050 --> 04:11.900
Misalnya bahkan berdagang di pasar saham dan Anda tahu membeli dan menjual dan mendapatkan umpan

04:11.900 --> 04:16.390
balik tertentu dari pasar dalam arti pengembalian positif atau negatif.

04:16.430 --> 04:20.160
Itu juga sebuah lingkungan yang Anda ikuti dalam lingkungan itu seiring usia.

04:20.210 --> 04:25.220
Mengemudi mobil juga merupakan lingkungan di mana Anda dapat memutar setir Anda dapat mempercepat Anda dapat mematahkan dan

04:25.220 --> 04:29.510
sebagainya dan Anda mendapatkan umpan balik dari lingkungan dan Anda tahu salah satu dari umpan

04:29.510 --> 04:35.840
balik itu adalah polisi memberi Anda denda ngebut jika Anda ' sedang berada di atas batas kecepatan yang dapat diterima atau diizinkan di

04:35.840 --> 04:36.960
jalan raya itu.

04:37.040 --> 04:41.900
Dan karenanya dari sana Anda belajar bahwa itu bukan sesuatu yang harus dilakukan karena itu mengarah

04:41.900 --> 04:43.020
pada hadiah negatif.

04:43.220 --> 04:45.590
Jadi hadiah tidak harus tepat di akhir proses.

04:45.590 --> 04:48.020
Mereka bisa sepanjang perjalanan sepanjang proses.

04:48.020 --> 04:49.490
Jadi itu adalah beberapa contoh.

04:49.490 --> 04:54.980
Dan dalam hal huruf I, cara paling sederhana untuk memikirkan pembelajaran penguatan adalah seperti melatih anjing ketika Anda melatih

04:54.980 --> 05:00.270
anjing Anda untuk memberinya perintah tertentu dan jika mematuhi perintah itu maka Anda memberikannya jangkauan yang Anda berikan

05:00.440 --> 05:04.820
seperti biskuit atau sesuatu. jika bukan Abeles Kamaz Anda mengatakan itu adalah anjing yang buruk

05:04.820 --> 05:06.600
atau Anda hanya tidak memberikannya.

05:06.830 --> 05:13.820
Dan melalui proses itu ia belajar apa perintah tertentu atau apa yang perlu dilakukan tindakan apa yang perlu dilakukan

05:13.820 --> 05:18.470
di negara bagian tertentu dan negara bagian adalah perintah yang Anda berikan.

05:18.470 --> 05:22.700
Dan berdasarkan hal itu akan mendapatkan beberapa penghargaan tertentu tentu saja di dunia AI.

05:22.700 --> 05:24.590
Itu tidak rumit.

05:24.590 --> 05:26.910
Anda tidak harus memberikan hadiah.

05:26.960 --> 05:32.120
Anda tidak harus memiliki sekantong biskuit bersama Anda setiap kali Anda hanya memberikannya satu plus

05:32.120 --> 05:37.290
atau lebih sedikit sehingga itu adalah keuntungan besar bahwa di dunia AI kami telah menciptakan AI sendiri.

05:37.310 --> 05:42.680
Jadi hadiah yang kami berikan kepada mereka jika Anda berpikir wow ini adalah hadiah yang benar-benar keren

05:42.680 --> 05:48.490
memberi mereka itu tidak benar-benar ada mereka hanya plus atau minus satu atau ditambah satu atau nol atau sesuatu.

05:48.500 --> 05:51.100
Jadi tidak ada semua hal imajiner.

05:51.110 --> 05:56.300
Tetapi pada saat yang sama hal itu membuahkan hasil yang luar biasa karena kita dapat menciptakan hal-hal luar biasa

05:56.300 --> 06:01.760
ini kecerdasan buatan yang luar biasa ini dengan kecerdasan buatan yang menakjubkan ini hanya dengan memberikan hadiah yang tidak kita miliki.

06:01.790 --> 06:05.670
Plus dan minus satu tidak ada biaya apa pun kecuali hasil rilis waktu yang sama.

06:05.900 --> 06:08.170
Sangat mirip dengan dunia nyata.

06:08.210 --> 06:15.140
Dan Anda tahu misalnya Dokes Tapi di sini hasilnya digital dan hanya angka.

06:15.140 --> 06:20.920
Dan dengan itu dalam pikiran kita dapat berbicara tentang anjing robot. Saya suka contoh ini, jadi ini hanya

06:20.920 --> 06:26.630
ada di gambar tidak harus anjing robot yang Anda tahu yang dilatih melalui penguatan belajar beberapa anjing

06:26.710 --> 06:31.050
robot terutama yang lebih tua yang Anda miliki. sebuah algoritma di sana.

06:31.370 --> 06:39.260
Dan ini sebenarnya adalah contoh yang baik dari perbedaan antara agen yang diprogram dan agen pembelajaran penguatan

06:39.260 --> 06:46.120
sehingga Anda bisa memiliki anjing robot yang diprogram untuk cara berjalan akan dikatakan.

06:46.160 --> 06:51.500
Jadi di dalam algoritma di belakang anjing dalam perangkat lunak akan berkata OK jadi untuk berjalan Anda perlu menggerakkan

06:52.370 --> 06:58.160
kaki kiri Anda ke depan kaki depan ke depan kemudian kaki kanan depan ke depan lalu kaki kanan depan ke

06:58.160 --> 07:02.480
depan lalu kaki kiri ke depan dan ulangi tindakan itu dan Anda tahu itulah definisi

07:02.480 --> 07:04.870
berjalan adalah fungsi di dalam anjing ini.

07:05.040 --> 07:09.060
Dan mungkin Anda tahu bagaimana cara duduk dan hal-hal seperti itu.

07:09.680 --> 07:16.710
Sedangkan pada anjing robot yang dilatih melalui pembelajaran penguatan yang terjadi adalah Anda tidak memprogramnya.

07:16.730 --> 07:23.810
Ini adalah konsep kunci untuk semua yang ada di sini bahwa Anda tidak memiliki algoritme apa pun di dalamnya yang dikodekan langsung

07:23.810 --> 07:24.850
ke dalam anjing.

07:24.860 --> 07:28.300
Sebaliknya, Anda memiliki apa yang akan kami diskusikan di masa depan.

07:28.460 --> 07:36.710
Anda memiliki algoritma pembelajaran penguatan ini yang mengatakan bahwa OK jadi tujuannya adalah untuk mendapatkan dari tempat

07:36.860 --> 07:41.990
Anda sekarang tidak tahu apa-apa sampai akhir ruangan misalnya.

07:42.170 --> 07:44.270
Dan berikut adalah tindakan tertentu yang dapat Anda ambil.

07:44.270 --> 07:48.950
Anda dapat menggerakkan kaki kanan Anda. Anda dapat menggerakkan kaki kiri Anda. Anda dapat menggerakkan kaki kanan

07:48.950 --> 07:53.000
Anda kembali. Anda kaki belakang kiri jadi di sini semua derajat kebebasan yang dapat

07:53.000 --> 07:59.180
Anda lakukan Anda bisa menggerakkannya seperti ini tindakan yang dapat Anda ambil dan imbalan Anda adalah setiap kali Anda mengambil langkah maju Anda

07:59.210 --> 08:01.430
mendapat nilai tambah setiap kali Anda jatuh.

08:01.430 --> 08:04.090
Anda mendapatkan satu minus dan itu semua ada untuk itu.

08:04.160 --> 08:07.390
Dan kemudian mereka meninggalkan anjing itu dan membiarkannya sendiri.

08:07.400 --> 08:13.460
Jadi anjing itu mencoba untuk berdiri dan jatuh kemudian menyadari bahwa OK saya seharusnya tidak melakukan tindakan yang membuat saya jatuh karena

08:13.460 --> 08:17.040
setiap kali saya jatuh saya mendapat minus yang tidak baik untuk saya.

08:17.060 --> 08:21.560
Begitu juga tindakan lain yang membantunya berdiri dan kemudian angka itu hanyalah eksperimen.

08:21.560 --> 08:26.090
Eksperimen hal-hal tri secara acak dan kemudian menemukan bahwa itu dapat membuat langkah maju dengan

08:26.090 --> 08:31.410
menggerakkan kaki depan kanannya dan dia mendapat satu plus dan menyadari oh saya harus lakukan lebih dari itu.

08:31.460 --> 08:35.620
OK keren jadi sekarang belajar bahwa itu harus melakukan ini lebih banyak dan lebih sedikit itu.

08:35.630 --> 08:42.270
Dan melalui proses pembelajaran ini dengan cepat sangat cepat memahami bagaimana ia bisa berjalan.

08:42.410 --> 08:49.130
Dan anjing-anjing yang tahu sendiri sebenarnya kadang-kadang bisa berjalan lebih baik daripada anjing yang diprogram sebelumnya karena hal-hal

08:49.130 --> 08:53.930
yang benar-benar terprogram kita melihat anjing kehidupan nyata dan atau Anda tahu

08:53.930 --> 09:00.300
kita menggunakan imajinasi kita sendiri bagaimana melakukannya sedangkan anjing yang belajar penguatan mengoptimalkan berbagai hal dengan sendirinya.

09:00.320 --> 09:03.540
Dan karena dalam AI kadang-kadang bisa mendapatkan hasil yang lebih baik.

09:03.680 --> 09:05.290
Dan itulah cara mereka dapat melatih robot ini.

09:05.320 --> 09:07.320
Anjing robot yang sama bermain sepak bola.

09:07.520 --> 09:12.970
Anda dapat melatih anjing normal untuk bermain sepak bola karena Anda tahu bahwa seluruh pendekatannya berbeda.

09:12.980 --> 09:20.900
Dan itu bukan sesuatu yang Anda tahu mungkin anjing normal telah dilatih untuk melakukan atau pernah

09:20.900 --> 09:23.030
dilakukan dalam proses evolusinya.

09:23.030 --> 09:28.190
Sedangkan anjing robot belajar penguatan dapat dengan mudah memahami cara bermain sepak bola selama Anda memberi

09:28.190 --> 09:32.760
tahu mereka apa hadiahnya apa tujuannya adalah apa tindakan yang mungkin mereka ambil.

09:33.080 --> 09:36.390
Begitulah cara kerja pembelajaran penguatan.

09:36.410 --> 09:39.160
Secara umum ada gambaran singkat tentang pembelajaran penguatan.

09:39.170 --> 09:45.500
Saya harap membuat Anda sangat senang akan datang berikutnya karena ini adalah dunia yang sama

09:45.530 --> 09:51.980
sekali berbeda dibandingkan dengan solusi praprogram program keras solusi hardcoded di mana Anda memiliki kondisi jika lain.

09:51.980 --> 09:53.750
Ini sangat berbeda.

09:53.840 --> 09:56.010
Dan kita akan berbicara lebih banyak tentang itu.

09:56.150 --> 10:03.400
Sementara itu, kami memiliki beberapa bacaan tambahan untuk Anda, jadi jika Anda ingin memiliki beberapa bahan pendukung Berikut adalah

10:03.700 --> 10:06.810
artikel bagus yang dapat Anda lihat dan lihat.

10:06.830 --> 10:09.300
Ini disebut pembelajaran penguatan sederhana dengan aliran tensor.

10:09.430 --> 10:10.570
Ada sepuluh bagian.

10:10.570 --> 10:14.790
Tautan ada di sini dan Anda akan menemukan tautan lengkap yang dapat diklik.

10:14.820 --> 10:22.540
Dalam kursus sumber daya oleh artikel Arthur Giuliani 2016 dan Anda dapat mengikuti kursus ini dan juga mendapatkan

10:22.540 --> 10:24.770
informasi tambahan dari artikel itu.

10:24.790 --> 10:30.010
Tapi ingatlah bahwa artikel itu cenderung mengalir di mana seperti dalam kursus ini kita

10:30.520 --> 10:35.830
menggunakan pi torche implementasi yang berbeda tetapi implantasi tetapi pada saat yang sama Anda dapat mengambil

10:35.830 --> 10:41.260
beberapa hal di sana-sini yang mungkin melengkapi pembelajaran Anda bahwa kami akan lakukan dalam kursus ini.

10:41.260 --> 10:44.910
Begitu banyak artikel yang mengikuti Anda jika Anda mempertimbangkan untuk mengikutinya dengan pasti.

10:44.920 --> 10:45.820
Masih untuk berjaga-jaga.

10:45.820 --> 10:51.890
Periksa bagian pertama itu dan lihat apakah Anda menyukainya lihat apakah Anda ingin membacanya sedikit lagi.

10:52.210 --> 10:58.210
Dan kemudian kita punya khusus untuk tutorial ini pembelajaran penegakan perbatasan ada makalah oleh Richard

10:58.210 --> 11:00.380
Sutton yang disebut pembelajaran penguatan.

11:00.420 --> 11:08.170
Salah satu pengantar adalah makalah 1998 cukup tua tetapi pada saat yang sama Anda dapat belajar sedikit tentang penguatan

11:08.170 --> 11:13.960
belajar beberapa contoh seperti contoh omlet dan contoh lain di mana pembelajaran penguatan dapat

11:13.960 --> 11:17.710
diterapkan dan hanya gambaran umum tentang pembelajaran penguatan.

11:17.710 --> 11:23.220
Jika Anda mencari beberapa bacaan tambahan dan dengan catatan itu kita akan menyelesaikan tutorial ini.

11:23.230 --> 11:24.640
Tidak sabar untuk melihat Anda lain kali.

11:24.640 --> 11:26.560
Dan sampai saat itu nikmati AI.