WEBVTT

00:00.600 --> 00:02.360
Halo dan selamat datang di ceritanya.

00:02.520 --> 00:07.920
Sekarang kita akan membuat for loop untuk menghitung kerugian kebijakan dan kehilangan nilai dan begitu

00:07.920 --> 00:13.260
kita memiliki dua pelajaran ini kita akan dapat menggunakan pengoptimal kita untuk menempatkan rokok di

00:13.260 --> 00:14.820
pasir untuk mengurangi kerugian.

00:14.820 --> 00:15.990
Baiklah jadi kita mulai.

00:15.990 --> 00:22.740
Kami mulai di sini dengan cara di tutorial sebelumnya kami menerapkan bagian ini dan saya lupa menghapus indentasi

00:22.740 --> 00:24.280
tentang hal itu.

00:24.420 --> 00:28.210
Jadi mulai dari sini bukan di musim gugur.

00:28.530 --> 00:32.650
Dan sekarang kita memulai loop penuh baru jadi saya mulai di sini dengan empat.

00:32.840 --> 00:38.340
Dan sekarang yang akan kita lakukan adalah kita akan mulai dari langkah terakhir yang dilakukan selama eksplorasi dan kita

00:38.670 --> 00:40.420
akan bergerak mundur dalam waktu.

00:40.470 --> 00:51.250
Jadi itu sebabnya saya lakukan untuk saya di tanah yang dibalik hadiah imbalan terbesar adalah yang paling.

00:51.260 --> 00:57.000
Dan karena setiap langkah eksplorasi terkait dengan tempat kami bekerja karena pada setiap langkah kami mendapat hadiah

00:57.230 --> 00:58.400
saat kami mengucapkannya.

00:58.400 --> 01:05.090
Apakah ini jumlah langkah dan ini terbalik di sini digunakan sehingga kita dapat mundur dalam waktu sehingga kita pergi.

01:05.160 --> 01:10.890
Dan sekarang yang akan kita lakukan adalah memperbarui hadiah kumulatif yang jauh dan kita akan memperbaruinya dengan

01:10.890 --> 01:11.570
cara ini.

01:11.640 --> 01:14.110
Itu sebenarnya sama dengan apa yang kami lakukan untuk Doom.

01:14.170 --> 01:23.280
Ini sama dengan gamma yang kita dapatkan dari parameter kita dan mengambil dari program pertama yang tidak jauh ditambah

01:24.060 --> 01:31.290
hadiah ini yang bisa kita dapatkan dengan mengambil hadiah paling sedikit dan mengambil indeks.

01:31.500 --> 01:36.680
Jadi bagi kami ini akan menjadi pekerjaan yang terakhir dan kemudian akan menjadi hadiah dari hari sebelumnya dan lain-lain.

01:37.080 --> 01:43.320
dan setiap kali kami memperbarui Dengan mengalikannya dengan gamma dan kemudian menambahkan hadiah ini di set.

01:43.650 --> 01:47.090
Dan dengan melakukan ini, ingat kita akan mendapatkan pada akhirnya.

01:47.210 --> 01:53.070
Jadi saya akan menuliskannya ketika mereka datang dan kami akan mendapatkan hadiah komunitas kami yang akan

01:53.070 --> 01:55.910
keren di akhir loop ke nol kami.

01:56.060 --> 02:02.100
Hadiah dari langkah nol plus waktu gamma adalah satu.

02:02.290 --> 02:09.040
Kami adalah yang pertama kali menambahkan gamma kuadrat pada kata.

02:09.060 --> 02:21.960
Langkah kedua plus itu ditambah gamma pada kekuatan dan minus satu kali imbalan yang didapat pada langkah dan minus 1 di mana

02:22.800 --> 02:30.690
sejumlah langkah tetapi kemudian hati-hati pada akhirnya kita akan memiliki gamma pada kekuatan sejumlah

02:31.050 --> 02:32.250
langkah.

02:33.530 --> 02:40.110
Waktu mendevaluasi nilai fungsi yang diterapkan ke status terakhir.

02:40.150 --> 02:42.450
Itu yang seharusnya kita dapatkan.

02:42.680 --> 02:49.130
Dan ini kita akan dapatkan itu karena ingat di sini kita mendapat nilai ini dan langkah terakhir karena ini dilakukan pada akhir

02:49.130 --> 02:50.840
ini untuk loop di sini.

02:51.200 --> 02:56.140
Jadi kami mendapat nilainya dan kami mengatur agar kami sama dengan nilai itu.

02:56.420 --> 03:02.710
Jadi sekarang di awal dari loop penuh kedua di sini akan sama dengan nilai tanggal terakhir

03:02.710 --> 03:03.310
ini.

03:03.590 --> 03:10.300
Tapi kemudian dengan melakukan ini, inilah yang akan kita dapatkan pada akhirnya setara atau nol persen atau satu atau

03:10.520 --> 03:16.620
dua lapangan tenis plus dapat menambah kekuatan dan minus satu kali kita berada di langkah dan minus

03:16.620 --> 03:20.990
satu plus permainan dengan kekuatan angka dari langkah kali nilai Lastings ini.

03:21.020 --> 03:25.900
Jadi itulah hal utama yang harus dipahami dan ini bisa menjadi aksi penghargaan kumulatif.

03:26.090 --> 03:33.560
Dan itulah mengapa penting untuk memulai dengan menginisialisasi atau dengan di sini dan melakukan loop terbalik

03:33.820 --> 03:37.390
ini untuk mendapatkan persamaan akhir yang sempurna.

03:37.400 --> 03:43.430
Dan sekarang setelah kita memiliki nilai yang tepat untuk hadiah kumulatif Yah kita akan menghitung keuntungan

03:43.850 --> 03:49.110
dan keuntungan di sini hanyalah keuntungan dari mendapatkan hadiah ini dibandingkan dengan mereka.

03:49.160 --> 03:56.600
Jadi saya akan memperkenalkan keunggulan evolvable dan karena itu akan sama dengan hadiah kumulatif ini dikurangi

03:57.020 --> 04:01.390
nilai fungsi V yang diperoleh pada tahap tersebut.

04:01.610 --> 04:06.690
Jadi karena itu itulah nilai minus kami.

04:07.130 --> 04:07.740
Sempurna.

04:07.760 --> 04:13.160
Dan sekarang kita memiliki komunitas tempat kita bekerja dan keuntungannya maka kita bisa mendapatkan nilai yang hilang.

04:13.190 --> 04:15.170
Ini yang pertama yang bisa kita dapatkan sekarang.

04:15.200 --> 04:20.940
Jadi kita akan mendapatkan nilai kita dengan sangat baik dan ini akan diperbarui dengan cara berikut.

04:20.960 --> 04:24.530
Ingat sejauh ini bahwa mendevaluasi kita diinisialisasi ke nol.

04:24.800 --> 04:34.670
Jadi kita akan mengambil nilai yang hilang lagi dan pada 0. 5 kali kuadrat untuk keuntungan sehingga kita bisa mendapatkannya dengan cara

04:34.670 --> 04:35.480
ini.

04:35.490 --> 04:39.410
Keuntungan juga dipikirkan.

04:39.470 --> 04:46.460
Jadi itu hanya berarti untuk mengkuadratkan keunggulan daya dan itu adalah nilai plus

04:46.580 --> 04:52.830
kerugian yang dihasilkan oleh prediksi nilai fungsi yang dihasilkan oleh sungai.

04:53.120 --> 04:59.840
Jadi masuk akal bahwa ini didevaluasi hanya karena mengingat keuntungan dari tindakan di negara

04:59.840 --> 05:04.820
bagian adalah perbedaan antara nilai Q dan nilai fungsi B.

05:04.880 --> 05:14.660
Jadi ketika kita memainkan aksi optimal Nah kita mendapatkan status stasioner dengan Q optimal dari aksi optimal

05:14.660 --> 05:20.080
pemain bintang di negara bagian sama dengan nilai optimal.

05:20.080 --> 05:22.000
Vistar negara s.

05:22.180 --> 05:28.390
Jadi cukup intuitif untuk memahami bahwa jika keuntungannya tidak sama dengan nol maka akan ada

05:28.390 --> 05:29.990
perbedaan antara keduanya.

05:30.220 --> 05:32.930
Dan karena itu begitulah yang terakhir diukur.

05:33.370 --> 05:34.120
BAIK.

05:34.120 --> 05:37.410
Jadi yang terakhir dihitung satu yang terakhir.

05:37.420 --> 05:39.000
Sekarang kita punya satu lagi.

05:39.010 --> 05:44.560
Itu adalah kerugian kebijakan dan itulah yang akan kita hitung saat ini

05:44.560 --> 05:51.990
dan untuk menghitungnya kita perlu mempertimbangkan lagi estimasi keuntungan umum karena untuk menghitung kerugian kebijakan kita perlu

05:52.000 --> 05:58.450
estimasi keuntungan umum dan untuk mendapatkan keuntungan umum bangsa pertama-tama kita perlu perbedaan temporal dari

05:58.540 --> 05:59.760
katup panggung.

05:59.830 --> 06:06.220
Jadi kita memiliki banyak hal untuk dihitung di sini dan kita akan mulai dengan perbedaan temporal ini begitu

06:06.220 --> 06:07.710
kita mendapatkan perbedaan temporal.

06:07.780 --> 06:12.850
Kami akan mendapatkan estimasi keuntungan yang digeneralisasi dan begitu kami mendapatkan keuntungan yang digeneralisasi untuk

06:13.180 --> 06:14.900
menyebutkan kami akan mendapatkan semenanjung.

06:14.920 --> 06:15.460
Baiklah.

06:15.670 --> 06:28.100
Jadi mari kita mulai dengan perbedaan temporal T. G. DD sama dengan hadiah dari langkah

06:28.700 --> 06:39.200
I ditambah Ghana yang kami dapatkan di daftar program kami sehingga Bromstad gamma kali nilai hutang

06:39.200 --> 06:50.260
ini ditambah satu dan kami menambahkan data untuk mengaksesnya dikurangi nilai langkah I dan sama kami tambahkan data.

06:50.280 --> 06:50.610
Baiklah.

06:50.670 --> 06:53.900
Itulah rumus perbedaan temporal dan nilai-nilai negara.

06:54.180 --> 06:59.690
Dan sekarang kita dapat memperbarui estimasi keuntungan umum dan bagaimana tanggalnya.

06:59.880 --> 07:10.230
Baik kita mengambil R-GA dan kita mengalikannya dengan parameter gamma kali gamma sehingga kita mengakses dengan parameter kita

07:10.230 --> 07:10.940
juga.

07:10.950 --> 07:18.410
Jadi kami mengambil sel program dan kami menambahkan perbedaan temporal dari nilai-nilai negara.

07:18.510 --> 07:19.890
Jadi berhati-hatilah.

07:19.890 --> 07:21.280
Kami berada di loop.

07:21.450 --> 07:27.060
Dan setiap kali kita mengalikan dengan dan oleh dan kita menambahkan perbedaan temporal.

07:27.150 --> 07:33.720
Jadi, penting untuk dipahami bahwa pada akhir loop ini. Estimasi keuntungan

07:34.170 --> 07:46.180
umum ini akan sama dengan jumlah pada semua langkah kali gamma sehingga kekuatan i kali perbedaan temporal pada langkah tersebut sangat

07:46.480 --> 07:50.360
penting untuk menjaga agar dalam pikiran.

07:50.700 --> 07:57.000
Dan sekarang kita memiliki estimasi keuntungan umum dan perbedaan umum kita akhirnya

07:57.000 --> 07:58.880
dapat menghitung kebijakan.

07:59.070 --> 08:00.210
Jadi mari kita lakukan ini.

08:00.210 --> 08:10.020
Kami akan memperbarui undang-undang kebijakan kami dengan cara berikut dengan mengambil kebijakan lama untuk kami dan kami mengurangi probabilitas

08:10.230 --> 08:20.280
LUGG yang diperoleh pada langkah yang kami kalikan dengan estimasi keuntungan umum ini yang harus kami masukkan ke dalam

08:20.280 --> 08:23.920
variabel karena kami akan menghitung gradien.

08:24.150 --> 08:33.170
Jadi itu harus dilampirkan ke gradien dalam grafik dan kemudian kita tambahkan minus 0. 1 kali entropi.

08:33.170 --> 08:36.660
Entropi diperoleh pada langkah di musim gugur.

08:37.200 --> 08:38.130
Dan lagi.

08:38.220 --> 08:39.540
Sekarang hati-hati.

08:39.540 --> 08:50.830
Ini adalah bagian dalam loop yang berarti bahwa pada akhir flu apa yang akan Anda dapatkan

08:51.280 --> 09:03.110
adalah polis plus sama dengan minus beberapa di atas langkah-langkah produk luggin kebijakan pada langkah-langkah untuk estimasi keuntungan

09:03.110 --> 09:04.090
umum.

09:04.160 --> 09:10.710
Ditambah 0 ini. 01 kali entropi melakukan sehingga kita dapatkan.

09:10.720 --> 09:13.240
Dan sekarang apa kebijakan I.

09:13.280 --> 09:19.100
Nah itulah probabilitas Max lunak dari tindakan dan entropi dari ini yang saya akan Anda tahu

09:19.100 --> 09:21.320
apa itu tempat kami menghitung sebelumnya.

09:21.430 --> 09:22.870
Dan apa yang kami ingin lakukan daftar.

09:22.940 --> 09:24.130
Jadi kita sudah memilikinya.

09:24.290 --> 09:29.950
Tapi tahun ini saya mendengar itu adalah probabilitas Max lunak dari tindakan.

09:30.170 --> 09:32.080
Dan mengapa kita memberi minus di sini.

09:32.150 --> 09:37.220
Itu karena keberuntungan dari probabilitas dan entropi adalah nilai negatif.

09:37.220 --> 09:43.340
Dan karena kita ingin meminimalkan nilai absolutnya, kita harus melihat ini sebagai kemungkinan LUGG sebagai lawan

09:43.340 --> 09:44.370
dari jarak.

09:44.370 --> 09:51.530
Tidak, kami ingin memaksimalkan probabilitas tindakan yang akan memaksimalkan keuntungan.

09:51.530 --> 09:53.130
Itulah seluruh ide di baliknya.

09:53.210 --> 09:59.060
Kami ingin memaksimalkan kemungkinan memainkan aksi yang akan memaksimalkan keuntungan dan bagi

09:59.060 --> 10:03.500
Anda yang mungkin bertanya-tanya apa tujuan entropi ini efisien.

10:03.650 --> 10:05.720
Ada faktor ini 0. 01 di sini.

10:05.930 --> 10:13.430
Nah tujuan dari itu adalah hanya untuk mencegahnya agar tidak jatuh terlalu cepat ke dalam perangkap di mana kita

10:13.430 --> 10:19.340
memiliki distribusi probabilitas dengan nol untuk semua tindakan kecuali satu yang memiliki probabilitas satu.

10:19.550 --> 10:22.370
Dan jika itu terjadi, itu akan meminimalkan entropi.

10:22.550 --> 10:29.060
Jadi itu sebabnya kami menambahkan revisi kecil ini 0. 01 tahun itu akan membuat entropi bertambah

10:29.060 --> 10:30.940
besar dalam arti.

10:31.020 --> 10:35.460
OK jadi sekarang kabar baiknya adalah bahwa bagian yang paling sulit dilakukan.

10:35.500 --> 10:41.050
Kami memiliki dua kerugian dan oleh karena itu apa yang hanya perlu kami lakukan sekarang dan kami sudah tahu bagaimana

10:41.050 --> 10:44.820
melakukannya adalah melakukan hanya untuk mendapatkan nilai dalam arti mengurangi dua kelas ini.

10:45.190 --> 10:51.170
Jadi apa yang akan kita lakukan sekarang adalah keluar dari lingkaran ini dan kita akan mengambil pengoptimal kita.

10:51.390 --> 10:57.220
Yang kita buat secara terpisah lalu ingat hal pertama yang harus kita lakukan adalah menginisialisasi

10:57.220 --> 11:04.810
semua parameter penilaian ke nol dan untuk melakukan ini kita tambahkan itu lalu ke nol dan itu disebut metode grad.

11:04.810 --> 11:06.980
Baiklah jadi itu sudah selesai.

11:07.000 --> 11:11.890
Sekarang kita akan melakukan propagasi mundur tetapi kita akan memberikan dua kali lebih penting untuk

11:11.890 --> 11:15.670
kebijakan yang terakhir daripada nilai yang hilang karena kebijakan lebih kecil.

11:15.970 --> 11:28.190
Jadi untuk melakukan ini kita akan memasukkan kebijakan kurung dan skor plus plus 0. 5 nilai kerugian jadi 0. 5 kali nilainya bagi kami dan kami akan

11:28.970 --> 11:37.400
menambahkan di sini bahwa kami menerapkan metode mundur untuk melakukan propagasi mundur dan berkat trik ini di sini

11:37.400 --> 11:43.880
dengan kebijakan yang kurang ditambah setengah dari nilai yang kami miliki dua kali

11:43.880 --> 11:47.460
lebih penting daripada kebijakan dibandingkan the Vaness.

11:47.480 --> 11:53.630
OK maka kita akan menggunakan trik lain yaitu untuk mencegah gradien dari mengambil nilai

11:53.630 --> 11:56.890
yang sangat besar dan karenanya menghasilkan algoritma.

11:57.020 --> 12:03.530
Dan trik untuk melakukan itu adalah untuk mendapatkan pertama perpustakaan obor kami kemudian

12:04.220 --> 12:13.040
akhir dan modul dari perpustakaan obor kemudian submodule utils dan sekarang kita akan menggunakan fungsi CLEP garis bawah grad

12:13.530 --> 12:20.830
pada norma skor dan kita akan memasukkan parameter model dengan input kedua yang akan menjadi 40.

12:21.200 --> 12:26.560
Dan trik itu pada dasarnya akan memastikan bahwa gradien tidak akan mengambil nilai yang sangat

12:26.560 --> 12:28.000
besar dan menghasilkan algoritma.

12:28.220 --> 12:30.770
Dan bagi Anda yang mungkin bertanya-tanya apakah ini 40 tahun.

12:30.800 --> 12:31.640
Persis.

12:31.850 --> 12:37.130
Nah itu hanya berarti bahwa kita menggunakan nilai-nilai ini sehingga norma gradien tetap antara

12:37.130 --> 12:42.510
0 dan 40 dan oleh karena itu bagaimana kita mencegah gradien dari mengambil ke nilai besar.

12:43.000 --> 12:45.170
OK sekarang kita hampir selesai.

12:45.170 --> 12:52.550
Ingat kami membuat ini dan yakin bahwa fungsi Gretz yang dibagikan pada awal musim gugur adalah untuk memastikan bahwa

12:52.670 --> 12:59.450
agen dan model bersama berbagi gradien yang sama dan melakukan ini untuk memastikan bahwa kami dapat menerapkan

12:59.450 --> 13:01.090
fungsi ini di sini.

13:01.220 --> 13:13.310
Jadi kita akan menambahkan dan yakin berbagi lulusan untuk memastikan bahwa moral dan model bersama berbagi gradien yang

13:13.310 --> 13:14.690
sama.

13:14.690 --> 13:16.670
Baiklah jadi itu hanya pencegahan.

13:16.670 --> 13:21.620
Saya tidak yakin itu benar-benar diperlukan tetapi Anda tahu setidaknya kita tidak akan mendapatkan masalah di sini.

13:22.040 --> 13:22.550
Baik.

13:22.550 --> 13:29.900
Dan akhirnya baris kode terakhir kita tentu saja akan melakukan langkah optimasi untuk mengurangi kerugian

13:29.900 --> 13:38.900
dan Anda tahu bagaimana melakukannya tentu saja kita ambil optimizer kita dan kita tambahkan langkah itu dengan tanda kurung

13:39.320 --> 13:43.300
lalu kita lanjutkan ke pelatihan otak kita lebih.

13:43.550 --> 13:44.780
Jadi selamat.

13:44.780 --> 13:47.030
Saya harap ini tidak terlalu berlebihan.

13:47.060 --> 13:49.620
Jangan khawatir, saya akan memberikan kode dengan semua komentar.

13:49.670 --> 13:53.330
Jadi, jika Anda melewatkan detail apa pun, Anda dapat melihat komentar.

13:53.420 --> 13:57.260
Dan jangan khawatir jika Anda belum mengerti apa-apa ini sangat maju.

13:57.410 --> 14:04.020
Tapi yakinlah ini juga kunjungan ingat paling kuat yang dibuat dari pencipta pi.

14:04.100 --> 14:06.770
Jadi kami benar-benar bekerja dengan yang terbaik di sini.

14:06.850 --> 14:12.560
Keadaan seni sehingga benar-benar normal jika Anda tidak mendapatkan semuanya pertama kali tetapi

14:12.560 --> 14:16.520
dengan mengerjakannya berkali-kali Anda pasti akan semakin nyaman.

14:16.520 --> 14:19.150
Jadi sekarang kita selesai dengan pelatihan.

14:19.220 --> 14:26.080
Jadi pada dasarnya kami membuat semua hal terpenting yang Anda tahu kami buat dengan membangun arsitektur

14:26.120 --> 14:30.610
jaringan saraf dengan konvolusi LCN dan lapisan yang terhubung sepenuhnya.

14:30.620 --> 14:34.360
Kami melatih otaknya dengan membuat kode kereta ini di sini.

14:34.520 --> 14:37.190
Jadi pada dasarnya jantung algoritma dilakukan.

14:37.310 --> 14:39.800
Anda membuat A3 melihat selamat.

14:39.800 --> 14:43.940
Sekarang kita memiliki beberapa hal yang harus dilakukan tetapi itu hanya untuk mendapatkan bagian yang menyenangkan.

14:43.940 --> 14:52.540
Anda tahu kami perlu melakukan tes ini yang kami temukan yang akan menguji agen dan memberikan video dan

14:52.550 --> 14:54.020
pesawat keluar.

14:54.170 --> 15:00.860
Jadi ini akan sangat menyenangkan untuk menonton kami tidak akan kode semua baris tes ini yang saya jatuh karena seperti yang kami katakan

15:00.860 --> 15:02.720
kami melakukan hal yang paling penting.

15:02.840 --> 15:10.310
Semua yang berhubungan 23C tetapi saya tentu saja akan menjelaskan kode dan akhirnya kami memiliki ini dibuat saya menemukan yang

15:10.310 --> 15:11.770
akan mengeksekusi kode.

15:11.890 --> 15:15.900
Dan sejak saat kita mengeksekusi kode ini semua kode akan dihasilkan.

15:16.040 --> 15:18.150
Jadi otak akan dibuat.

15:18.200 --> 15:24.080
Pelatihan akan terjadi dan mata akan memainkan game baru pelarian dan kami akan mendapatkan semua videonya.

15:24.080 --> 15:26.480
Jadi saya tidak sabar akhirnya menonton mereka.

15:26.550 --> 15:29.810
Kita akan melihat apakah dia cukup pintar untuk menangkap bola.

15:29.990 --> 15:36.380
Jadi sekarang saya akan melihat tutorial berikutnya untuk UI desktop ini sehingga kami dapat menguji AI pada beberapa

15:36.380 --> 15:37.250
game baru.

15:37.300 --> 15:38.980
Dan sampai saat itu nikmati AI.