WEBVTT

00:00.390 --> 00:02.550
Halo dan selamat datang di tutorial ini.

00:02.550 --> 00:02.870
Baiklah.

00:02.880 --> 00:08.370
Jadi dalam tutorial sebelumnya kita membuat otak atau jika Anda ingin otak untuk A-3 lihat sekarang kita perlu

00:08.370 --> 00:09.560
melatih otak ini.

00:09.660 --> 00:15.240
Tetapi untuk melatih otaknya, kita membutuhkan pengoptimal yang menggunakan alat ini dan menempelkan rokok di

00:15.240 --> 00:20.820
tengah untuk mengambil berat sesuai dengan seberapa banyak mereka berkontribusi pada kesalahan antara prediksi

00:20.940 --> 00:21.900
dan target.

00:22.200 --> 00:29.790
Dan apa yang kami lakukan sampai sekarang dalam modul pertama dan kedua kami menggunakan pengoptimal atom oleh torche dalam

00:29.910 --> 00:30.660
pelatihan.

00:30.840 --> 00:38.260
Tapi seperti yang saya katakan, kita berhadapan dengan masalah yang sangat menantang yang muncul dan algoritma

00:38.260 --> 00:41.560
A-380 tidak cukup untuk menyelesaikan masalah ini.

00:41.580 --> 00:48.480
Kami membutuhkan beberapa pengoptimal khusus dan banyak trik berbeda untuk menyelesaikan masalah ini tanpa menunggu

00:48.480 --> 00:49.340
lama.

00:49.530 --> 00:56.790
Jadi itulah tujuan melakukan ini dan itulah mengapa kami memiliki pengoptimal kustom terpisah berdasarkan

00:56.790 --> 00:57.990
pengoptimal atom.

00:58.200 --> 01:02.680
Dan itu terkandung dalam kelas musuh bersama ini dan mengapa atom dibagi.

01:02.880 --> 01:08.190
Itu karena itu sebenarnya pengoptimal atom tetapi itu akan bekerja pada negara yang dibagikan.

01:08.190 --> 01:12.840
Jadi kita akan menjelaskan cara kerjanya dan bekerja keras. Jadi kita akan pergi

01:12.840 --> 01:18.170
melalui berbagai fungsi di sini tanpa membunuh mereka karena Anda tahu kami ingin menyimpan energi untuk selanjutnya

01:18.180 --> 01:23.190
dan selain itu adalah kereta yang saya jatuh yang akan mengambil lebih dari seratus baris kode.

01:23.190 --> 01:24.550
Jadi bersiaplah untuk itu.

01:24.600 --> 01:30.440
Dan oleh karena itu kami akan mencoba menjelaskan apa yang terjadi di sini dalam satu Statoil Statoil.

01:30.480 --> 01:31.970
Dan mari kita mulai sekarang.

01:32.810 --> 01:38.480
Baiklah, pertama-tama kami perkenalkan atom berbagi kelas ini yang akan berisi tiga fungsi, fungsi init,

01:38.480 --> 01:40.900
fungsi memori bersama, dan fungsi langkah.

01:41.180 --> 01:48.410
Jadi apa yang kita lakukan pertama adalah bahwa kita mewarisi dari optin atom yang tentu saja pengoptimal atom dan

01:48.410 --> 01:52.100
yang kita dapatkan dari modul Upton dari pustaka obor.

01:52.280 --> 01:57.980
Jadi di sini kita adalah warisan sederhana untuk mendapatkan semua alat yang terkait dengan pengoptimal atom dan kemudian kita

01:57.980 --> 01:59.320
mulai dengan fungsi init.

01:59.330 --> 02:00.990
Jadi apa yang terjadi di sini.

02:01.150 --> 02:08.050
Pertama kita menggunakan fungsi super untuk mewarisi dari semua alat dan semua parameter dasar dari atom kelas

02:08.050 --> 02:11.310
Atom dan parameter dasar ini ada di sini.

02:11.380 --> 02:16.090
Harams belajar pengumpan ras Epsilon dan pembusukan berat.

02:16.240 --> 02:17.920
Dan kemudian kita mulai tindak lanjut.

02:17.980 --> 02:21.840
Foluke pertama ini untuk grup itu sendiri yaitu grup Paramo.

02:21.850 --> 02:28.310
Jadi bagi kami, apa yang diatur grup parum di sekeliling grup berisi semua atribut optimizer.

02:28.510 --> 02:34.030
Dan di antara atribut-atribut ini kita memiliki parameter yang harus kita optimalkan parameter

02:34.030 --> 02:40.790
ini yang kita inginkan atomisasi cara lain dari jaringan yang terkandung dalam kelompok parum diri mungkin.

02:40.930 --> 02:44.860
Jadi di sana kita pergi kelompok milik kelompok swadaya.

02:44.980 --> 02:50.920
Dan di sini kita memiliki Faltu kedua yang akan mendapatkan parameter ini yang ingin kita optimalkan

02:50.920 --> 02:54.910
dan yang mungkin terkandung dalam grup parum keraguan diri mungkin.

02:54.910 --> 03:01.870
Jadi pada dasarnya kita pergi melalui grup swadaya yang berisi semua parameter dan untuk setiap grup parameter

03:01.930 --> 03:07.480
dan self-talk dari grup kita akan melalui parameter yang ingin kita optimalkan.

03:07.540 --> 03:14.300
Karena itu untuk grup Paramo di sini berarti untuk setiap Tancer bobot yang ingin kita optimalkan.

03:14.410 --> 03:20.200
Jadi untuk setiap bobot sensor yang ingin kita optimalkan dan kemudian apa yang terjadi di dalam grup ini dengan

03:20.200 --> 03:21.550
empat baris kode ini.

03:21.820 --> 03:29.650
Pada dasarnya yang terjadi adalah pembaruan yang dibuat oleh pengoptimal didasarkan pada rata-rata

03:29.890 --> 03:31.170
bergerak gradien.

03:31.250 --> 03:32.880
Itu baris kode ini di sini.

03:33.010 --> 03:38.270
Itulah rata-rata bergerak eksponensial dari gradien momen yang merupakan urutan satu.

03:38.500 --> 03:44.860
Tetapi benda-benda yang dibuat oleh atom tidak hanya didasarkan pada itu juga didasarkan pada rata-rata bergerak

03:45.190 --> 03:47.140
eksponensial dari kuadrat gradien.

03:47.260 --> 03:51.770
Itu adalah rata-rata bergerak eksponensial dari gradien momentum ke atau dua.

03:52.030 --> 03:55.320
Jadi di sini adalah rata-rata bergerak eksponensial dari semuanya.

03:55.480 --> 04:00.560
Dan di sini adalah moving average eksponensial dua untuk masing-masing EMJ yang telah terdegradasi.

04:00.790 --> 04:01.890
Sehingga yang terjadi di sini.

04:02.080 --> 04:07.930
Dan sekarang jika Anda ingin mendapatkan lebih dalam tentang bagaimana rata-rata bergerak eksponensial bekerja dengan

04:07.930 --> 04:14.560
baik, saya sangat mendorong Anda untuk melihat makalah penelitian ini metode Adam untuk optimasi stokastik karena pada

04:14.860 --> 04:20.610
dasarnya pengoptimal atom yang kami laksanakan saat ini didasarkan pada satu algoritma di sini.

04:20.890 --> 04:27.700
Jadi, jika Anda ingin memiliki detail lebih lanjut tentang bagaimana algoritma bekerja dengan baik, makalah ini pasti akan sangat membantu.

04:27.700 --> 04:32.720
Dan kemudian Anda memiliki beberapa penjelasan lebih lanjut tentang algoritma dengan atom dan aturannya.

04:32.860 --> 04:37.840
Jadi Anda tahu itu hanya jika Anda ingin menyerang ini sebelum menyerang fungsi kereta besar yang

04:37.840 --> 04:39.120
akan dibuat sesudahnya.

04:39.400 --> 04:41.990
OK jadi mari kita kembali ke bison.

04:42.220 --> 04:46.140
Dan sekarang mari kita beralih ke fungsi memori bersama yang kedua.

04:46.190 --> 04:47.890
Jadi sekarang saya hanya akan mengatakan beberapa patah kata.

04:48.010 --> 04:54.580
Gagasan fungsi memori bersama ini adalah semacam tensor yang kuda Anda tahu adalah akselerator

04:54.580 --> 04:55.830
berdasarkan tampilan.

04:55.870 --> 05:03.160
Dan pada dasarnya yang terjadi di sini adalah kita memiliki tensor status yang berbagi memori di

05:03.160 --> 05:10.210
sini dan di sini yang berperilaku sedikit seperti tenso yang dapat mempercepat perhitungan dipercepat.

05:10.420 --> 05:17.140
Tetapi perbedaannya adalah bahwa di sini sensor yang berbagi memori mengirimkan perhitungan ke bagian GP

05:17.140 --> 05:22.150
Anda atau Anda yang dapat diakses oleh semua ancaman yang lumpuh.

05:22.160 --> 05:23.580
Jadi pada dasarnya itulah yang dilakukan di sini.

05:23.590 --> 05:30.220
Itu sedikit seperti 10 untuk kuda itu, tetapi itu hanya dikirim ke bagian GP untuk dapat

05:30.220 --> 05:32.090
diakses oleh ancaman paralel.

05:32.090 --> 05:32.460
Baiklah.

05:32.470 --> 05:35.100
Dan kemudian kita memiliki langkah fungsi terakhir.

05:35.110 --> 05:41.830
Jadi Anda tahu fungsi ini seperti metode langkah pengoptimal atom yang kita gunakan dalam kursus ini.

05:41.830 --> 05:47.170
Dan sekali lagi ini didasarkan pada algoritma salah satu dari kertas yang sama yang kita lihat sebelumnya.

05:47.170 --> 05:48.610
Jadi algoritma ini.

05:48.850 --> 05:52.250
Jadi sekali lagi Anda ingin memahami secara rinci baris kode berikut.

05:52.420 --> 05:57.240
Nah sekali lagi saya Ingrid Anda untuk melihat algoritma ini satu per makalah ini.

05:57.580 --> 06:04.330
Dan selain apa yang dilakukan di sini tidak sepenuhnya wajib karena ini sebenarnya adalah copy paste dari

06:04.330 --> 06:07.180
metode langkah yang bertindak kelas atom.

06:07.180 --> 06:14.050
Jadi pada dasarnya apa yang dilakukan di sini kita bisa melakukannya dengan menggunakan warisan kita karena di

06:14.050 --> 06:20.620
sini kita mewarisi dari Acton bahwa Adam dan menggunakan warisan kita Yah apa yang bisa

06:20.620 --> 06:29.260
kita lakukan daripada melakukan semua ini hanya akan menulis di sini komentar hanya menggunakan superfungsi yang kita terapkan ke kelas Adam

06:29.710 --> 06:38.020
bersama kita maka objek kita sendiri dan di sini kita hanya menambahkan langkah dengan langkah kurung adalah metode tindakan di kelas

06:38.320 --> 06:40.550
itu dan itu persis sama.

06:40.750 --> 06:45.820
Itu sebabnya saya hanya mengatakan bahwa di sini hanya copy paste dari metode langkah tindakan di

06:45.850 --> 06:46.860
kelas Atom.

06:46.930 --> 06:53.440
Jadi saya pikir jika Anda mengganti semua ini dengan fungsi super ini diterapkan untuk berbagi Adam dan metode langkah dengan baik kita

06:53.830 --> 06:55.960
mungkin mendapatkan hal yang persis sama.

06:57.220 --> 06:59.900
Baiklah, jadi menarik untuk melihatnya sebentar.

06:59.920 --> 07:02.750
Pada dasarnya Anda dapat melihat ini sebagai pengoptimal Adam.

07:02.850 --> 07:04.530
Sepertinya kita sudah melihatnya lebih dalam.

07:04.640 --> 07:10.000
Tetapi sekali lagi jika Anda ingin masuk lebih detail dari semua ini dan jika Anda ingin memahami apa yang

07:10.000 --> 07:14.120
terjadi di balik layar Yah saya mendorong Anda untuk melihat makalah penelitian ini.

07:14.170 --> 07:16.120
Saya akan menaruh tautan di komentar di sini.

07:16.120 --> 07:19.940
Anda tahu ingat Anda akan memiliki semua kode yang terhubung dengan sangat detail.

07:19.990 --> 07:22.120
Jadi sangat bagus jika Anda bisa melihatnya.

07:22.580 --> 07:30.310
Dan sekarang saya harap Anda memiliki energi yang besar karena kita akan beralih ke file kereta yang akan berisi fungsi kereta besar

07:30.310 --> 07:35.860
ini dan itu pada dasarnya akan melatih otak kita yang sekarang dapat kita lakukan karena

07:35.860 --> 07:37.510
kita memiliki pengoptimal kita.

07:37.690 --> 07:39.230
Jadi, istirahatlah yang baik sekarang.

07:39.250 --> 07:41.840
Tidur nyenyak dan kapan pun Anda merasa bugar.

07:41.980 --> 07:44.440
Mari beralih ke langkah selanjutnya.

07:44.440 --> 07:45.910
Sampai kemudian menikmati AI.
