WEBVTT

00:00.270 --> 00:02.590
Halo dan selamat datang di tutorial Python ini.

00:02.820 --> 00:08.730
Baiklah jadi hari ini kita akan membuat fungsi pembaruan yang akan memperbarui semua yang

00:08.850 --> 00:12.240
ada saat ini begitu mata mencapai kondisi baru.

00:12.510 --> 00:16.140
Jadi, ketika mencapai tahap baru, Anda tahu kami perlu memperbarui tindakan.

00:16.200 --> 00:19.320
Yang terakhir sebenarnya adalah aksi baru yang baru saja dimainkan.

00:19.530 --> 00:22.630
Tetapi juga tanggal terakhir yang menjadi negara baru.

00:22.680 --> 00:27.450
Dan akhirnya kata terakhir yang menjadi kata baru yang kita dapatkan saat kita memainkan aksinya.

00:27.480 --> 00:31.480
Jadi itulah jalur logis yang terjadi tepat setelah memilih suatu tindakan.

00:31.530 --> 00:35.100
Kita perlu memperbarui semua elemen transisi.

00:35.310 --> 00:37.370
Dan tentu saja Anda akan mendapatkan transisi baru.

00:37.420 --> 00:40.300
Jadi kita harus menambahkan transisi baru ini ke memori.

00:40.350 --> 00:46.200
Dan akhirnya kami juga akan memperbarui atau menghargai jendela yang Anda tahu untuk mengawasi evolusi

00:46.200 --> 00:49.460
bagaimana pelatihan berlangsung dan bagaimana eksplorasi berlangsung

00:49.680 --> 00:55.380
Tetapi yang paling penting bagi Anda untuk dipahami adalah bahwa sekarang kami akhirnya dapat membuat

00:55.530 --> 01:01.650
koneksi antara AI yang kami terapkan sekarang ke peta kami karena jika kami kembali ke peta kami

01:01.650 --> 01:08.580
ingat ada fungsi pembaruan Beiji ini ke dalam kelas permainan dan di situlah kami benar-benar membuat permainan dengan mobil

01:08.580 --> 01:12.940
dan menentukan bagaimana mobil itu harus dihukum ketika itu membuat kesalahan.

01:13.170 --> 01:19.140
Tetapi di kelas game ini kami memperhatikan fungsi pembaruan ini dan dalam fungsi pembaruan ini kami

01:19.500 --> 01:24.700
memperhatikan tindakan garis ini karena pembaruan otak terakhir kami bekerja lebih sedikit sinyal.

01:24.900 --> 01:28.410
Dan sebenarnya inilah yang akan kita buat.

01:28.410 --> 01:36.300
Kami akan membuat fungsi pembaruan ini yang akan mengambil kata terakhir dan sinyal terakhir untuk mendapatkan tindakan

01:36.300 --> 01:37.860
selanjutnya untuk dimainkan.

01:37.860 --> 01:41.640
Jadi tidak hanya pembaruan akan semua elemen transisi yang berbeda.

01:41.910 --> 01:48.390
Tetapi sebagian besar kita akan memainkan aksi yang harus kita mainkan ketika mendapatkan kata terakhir dan

01:48.390 --> 01:55.920
sinyal terakhir dan tentu saja dalam fungsi pembaruan ini kita akan menggunakan fungsi tindakan pilih yang baru saja

01:55.920 --> 02:02.400
kita implementasikan sebelum kita akan mengintegrasikan fungsi tindakan pilih di fungsi pembaruan di masa mendatang

02:02.400 --> 02:07.740
yang akan kami buat untuk memilih arah bermain selain membuat semua pembaruan.

02:07.860 --> 02:11.200
Jadi itu sangat penting untuk membuat koneksi ini dengan peta sekarang.

02:11.310 --> 02:18.480
Apa yang akan kita buat pada akhirnya adalah hubungan antara mata kita dan permainan yang kita buat

02:18.480 --> 02:19.750
di kelas ini.

02:19.770 --> 02:24.030
Jadi yang bisa kita lakukan sekarang adalah langsung mengambil pembaruan ini.

02:24.060 --> 02:29.970
Terakhir, kami kurang sinyal karena itu sebenarnya fungsi yang akan kami buat dengan dua argumen di

02:29.970 --> 02:30.430
sini.

02:30.720 --> 02:38.530
Dan seperti halnya otak pengingat cepat adalah objek AI kita yang merupakan objek kelas Dejuan.

02:38.540 --> 02:45.690
Jadi apa yang akan kita lakukan sekarang adalah kita akan menyalin pembaruan ini lebih sedikit kata kurang sinyal dan itu

02:45.690 --> 02:48.390
akan menjadi fungsi berikutnya yang kita buat.

02:48.480 --> 02:54.120
Dan karena itu dan menempelkan itu di sini maka hanya untuk berhati-hati saya hanya ingin memberikan beberapa nama yang berbeda

02:54.120 --> 02:56.190
dari nama yang kita miliki di sini.

02:56.200 --> 03:00.820
Anda tahu kami memiliki kata terakhir di sini dan saya tidak ingin mengacaukan kata terakhir ini dengan yang ini.

03:00.900 --> 03:02.060
Itu bisa berbahaya.

03:02.220 --> 03:06.100
Jadi saya akan mengganti kata terakhir di sini dengan kata.

03:06.390 --> 03:13.880
Dan dengan cara yang sama untuk sinyal yang lebih sedikit mari kita letakkan sinyal atau bahkan sinyal baru untuk menentukan bahwa Anda

03:13.920 --> 03:18.900
tahu kami ingin mengukurnya ketika mencapai keadaan baru dan karenanya mendapatkan sinyal baru.

03:18.900 --> 03:26.100
Tapi tentu saja kata ini di sini akan menjadi hadiah terakhir yang kita dapatkan di sini.

03:26.280 --> 03:32.400
Anda tahu ketika pergi ke pasir atau lebih buruk terlalu dekat dengan satu tepi peta di situlah

03:32.670 --> 03:34.130
kami mendefinisikan kata terakhir.

03:34.200 --> 03:39.400
Kata terakhir ini akan menjadi input dari fungsi pembaruan jadi itu sebabnya kami memiliki kata terakhir di sini.

03:39.600 --> 03:43.660
Tapi di sini saya hanya memberi nama lain untuk argumen itu.

03:43.710 --> 03:47.640
Kami ingin tidak membingungkan dengan kata terakhir di sini.

03:47.640 --> 03:50.160
Baiklah jadi ini adalah fungsi pembaruan.

03:50.310 --> 03:54.090
Dan sekarang mari kita masuk ke dalamnya dan mari kita lakukan dua hal ini.

03:54.090 --> 03:58.970
Itu adalah data semua elemen transisi kami dan tentu saja pilih tindakan.

03:59.290 --> 04:01.670
OK jadi apa yang perlu kita perbarui dulu.

04:01.950 --> 04:06.760
Seperti yang Anda pahami, kami ingin membuat kencan ketika mencapai kondisi apa pun.

04:06.840 --> 04:12.800
Jadi hal pertama yang akan kami perbarui adalah berita ini bahwa itu adalah berita yang kami tuju.

04:12.840 --> 04:17.340
Jadi saya akan memanggil negara baru ini negara baru dan kemudian akan melakukannya.

04:17.340 --> 04:19.810
Jadi bagaimana kita bisa mendapatkan status baru ini.

04:20.040 --> 04:25.460
Yah tentu saja itu tergantung pada sinyal sinyal baru yang baru saja terdeteksi sensornya.

04:25.830 --> 04:32.760
Dan sebagai pengingat keadaan adalah sinyal itu sendiri terdiri dari tiga sinyal bahwa sensor memberi sinyal

04:32.760 --> 04:37.470
satu sinyal ke sinyal tiga plus orientasi dan minus orientasi.

04:37.530 --> 04:38.600
Itu negara kita.

04:38.610 --> 04:42.470
Jadi, pastikan untuk memahami bahwa sinyal adalah keadaan.

04:42.660 --> 04:46.160
Tetapi sekarang ini adalah daftar sederhana dari lima elemen.

04:46.200 --> 04:51.540
Dan karena ini akan menjadi input untuk melakukan semua yang bekerja ingat kita harus mengubahnya menjadi sensor

04:51.540 --> 04:52.200
obor.

04:52.490 --> 04:54.960
Jadi itulah yang akan kita lakukan sekarang.

04:54.960 --> 05:03.910
Kita akan mengambil perpustakaan obor kita dan kemudian mengambil kelas tensor di sana kita pergi yang akan mengubah sinyal

05:04.450 --> 05:12.420
baru kita menjadi lebih padat obor maka lebih baik untuk memastikan bahwa semua elemen obor untuk menjawab

05:12.420 --> 05:19.650
adalah mengapung jadi saya akan buat konversi jenis untuk mengubahnya menjadi pelampung seperti ini.

05:19.900 --> 05:24.500
Dan akhirnya mencoba untuk mendapatkan refleks dari apa yang perlu kita lakukan selanjutnya.

05:24.530 --> 05:29.590
Tentu saja untuk membuat mesin turun palsu untuk menambahkan berlian dan sesuai

05:29.590 --> 05:37.080
dengan batch dan kami melakukan ini tentu saja dengan fungsi pemerasan yang kita harus meletakkan indeks berlian besar ini.

05:37.100 --> 05:40.210
Dan kami ingin untuk bets yang nol.

05:40.770 --> 05:41.320
Baiklah.

05:41.320 --> 05:47.110
Dan sekarang kita memiliki status baru yang terdiri dari tiga sinyal dari tiga sensor plus

05:47.110 --> 05:54.290
orientasi minus orientasi dan tentu saja itu akan tergantung pada sinyal baru yang kita dapatkan dengan fungsi pembaruan ini.

05:54.400 --> 05:57.940
Tepat pada saat ini sinyal terakhir kita dapatkan tiga sinyal.

05:57.940 --> 06:04.450
Jadi sebagai tambahan minus atau tambahan dan sebagai pengingat ketiga sinyal adalah kepadatan sensor yang

06:04.720 --> 06:06.490
terdeteksi di sekitar sensor.

06:06.490 --> 06:06.940
Baiklah.

06:06.970 --> 06:13.710
Jadi kami baru saja mendapatkan tahap baru sehingga itu berarti kami mencapai tahap baru dan sekarang kami harus membuat pembaruan berikutnya.

06:13.750 --> 06:16.440
Jadi menurut Anda apa yang perlu kami perbarui sekarang.

06:16.660 --> 06:22.320
Apa yang logis saat ini setelah mencapai kondisi baru ini.

06:22.630 --> 06:25.940
Nah yang perlu kita kencani sekarang adalah memori.

06:25.960 --> 06:27.010
Mengapa demikian.

06:27.010 --> 06:34.200
Itu karena pada setiap kali t transisi terdiri dari keadaan saat ini Estey pada hari berikutnya sebagai

06:34.220 --> 06:37.660
tipis ketika hadiah arti dan tindakan 80.

06:37.860 --> 06:44.020
Dan saat ini kami sudah memiliki S-T, kami sudah memiliki tim kami dan kami sudah memiliki 80 dan kami

06:44.020 --> 06:47.540
baru saja mendapatkan elemen terakhir dari transisi Estep plus satu.

06:47.590 --> 06:55.720
Jadi dengan mendapatkan keadaan baru ini sedalam yang kita dapatkan transisi memori baru dan oleh karena itu kita

06:55.720 --> 07:01.910
harus menambahkan transisi baru ke memori karena itu hanya transisi kita berikutnya.

07:01.930 --> 07:03.980
Jadi itu sebabnya kita harus mengingatnya sekarang.

07:04.120 --> 07:10.990
Dan karena itu apa yang akan saya lakukan adalah mengambil objek memori saya yang dibuat dari kelas

07:10.990 --> 07:17.130
memori replay dan karena itu saya akan mengambil memori sendiri untuk merujuk ke objek.

07:17.160 --> 07:22.700
Tetapi karena saya menggunakan diri saya harus memasukkan diri dalam fungsi itu.

07:22.950 --> 07:25.440
Jadi sekarang Anda benar-benar dapat melihat untuk apa diri ini.

07:25.550 --> 07:32.600
Itu setiap kali Anda menggunakan satu variabel yang Anda buat dan diinisialisasi dalam fungsi init dan memori itu.

07:32.600 --> 07:33.960
Dan sekarang kita berhasil.

07:34.190 --> 07:36.950
Dan menurut Anda bagaimana kami akan memperbarui itu.

07:37.160 --> 07:41.290
Berita baiknya adalah kita sudah membuat fungsi untuk melakukan itu.

07:41.300 --> 07:46.990
Ini adalah fungsi push yang melarang suatu peristiwa atau transisi ke memori.

07:47.190 --> 07:49.060
Jadi itulah yang akan kita gunakan sekarang.

07:49.070 --> 07:55.460
Kita akan menggunakan fungsi push untuk menuliskan transisi baru yang baru saja kita buat ke memori dan oleh karena

07:55.760 --> 08:01.820
itu di sini saya mengambil tidak sama karena kita akan menggunakan metode dan oleh karena itu kita

08:02.320 --> 08:04.200
dapat langsung menggunakan dorongan itu.

08:04.280 --> 08:10.010
Dan pertama saya akan menambahkan transisi ini transisi baru yang baru saja kita dapatkan dan itu adalah tanggal

08:10.010 --> 08:10.780
terakhir terakhir.

08:10.850 --> 08:14.010
Jadi tanggal terakhir itu sendiri.

08:14.270 --> 08:18.680
Jadi itu S-T Itu persis ini sudah ada.

08:18.680 --> 08:23.620
Maka elemen selanjutnya dari transisi ini tentu saja adalah keadaan baru yang baru saja kita capai.

08:23.840 --> 08:29.720
Dan karena itu karena tidak layak dari objek yang kita buat dan diinisialisasi dalam fungsi init ini, kita tidak

08:30.080 --> 08:31.470
menempatkan dirinya di sini.

08:31.580 --> 08:39.940
Kami langsung menempatkan Newstead maka elemen transisi berikutnya adalah aksinya dan mengatakan kami sudah memiliki bagian terakhir yaitu

08:39.940 --> 08:43.690
diri ini yang merupakan tindakan terakhir di sini.

08:43.840 --> 08:45.320
Jadi tentu saja sama dengan nol.

08:45.350 --> 08:50.050
Tetapi tentu saja itu akan diperbarui dengan fungsi tindakan pilih.

08:50.170 --> 08:51.190
Tapi yang ini.

08:51.190 --> 08:55.620
Jadi itu adalah tindakan terakhir diri.

08:55.840 --> 08:57.120
Tapi sekarang hati-hati.

08:57.190 --> 09:01.540
Elemen-elemen yang dimasukkan dalam transisi ini semuanya harus dibakar jawaban.

09:01.870 --> 09:03.860
Seperti yang Anda lihat itulah yang terjadi untuk kencan terakhir.

09:03.880 --> 09:05.200
Ini adalah sensor obor.

09:05.350 --> 09:07.860
Negara baru juga dibakar jawabannya.

09:07.900 --> 09:12.050
Dan jadi ini harus sama untuk tindakan dan kemudian hadiahnya tentu saja.

09:12.190 --> 09:17.320
Tapi sekarang Anda akan berpikir bagaimana itu bisa menjadi jawaban yang dibakar mengingat itu hanya angka.

09:17.410 --> 09:20.700
Anda tahu aksinya adalah 0 1 atau 2.

09:20.890 --> 09:22.370
Tapi sebenarnya itu bukan masalah.

09:22.390 --> 09:28.640
Kami masih dapat mengubah variabel 0 1 atau 2 ini menjadi sensor obor.

09:28.660 --> 09:31.530
Ini hanya akan menjadi apa yang kita sebut tensor panjang.

09:31.540 --> 09:36.910
Panjang adalah tipe dan tensor yang akan berisi integer karena aksi terakhir adalah integer

09:36.910 --> 09:39.660
itu adalah 0 1 atau 2.

09:39.670 --> 09:47.650
Jadi apa yang akan kita ambil sekarang adalah perpustakaan kita torche kemudian kita akan mengambil lama adalah kelas tensor

09:48.190 --> 09:53.470
panjang yang akan membuat objek yang akan menjadi non-tenur itu sendiri.

09:53.710 --> 10:00.370
Dan dengan mengambil fungsi aksi terakhir diri ini sebagai input, ia akan membuat objek tensor panjang ini

10:00.370 --> 10:08.590
tetapi masih akan berisi 0 1 atau 2 menjadi objek tensor panjang dan itu hanya agar konsisten dengan transisi yang hanya

10:08.830 --> 10:14.070
berisi tensor karena bekerja dengan obor PI dan kami bekerja dengan jaringan saraf.

10:14.170 --> 10:18.480
Jadi kita harus bekerja dengan sensor sehingga kita pergi lama untuk menjawab.

10:18.580 --> 10:20.780
Dan satu konversi terakhir untuk dilakukan.

10:20.860 --> 10:27.520
Kita harus yakin bahwa apa yang ada di dalam jawaban panjang ini adalah bilangan bulat dan untuk memastikannya

10:27.520 --> 10:34.000
meskipun kita sudah tahu bahwa tindakan terakhir adalah 0 1 atau 2 untuk memastikan bahwa kita akan melakukan

10:34.000 --> 10:39.310
konversi jenis int ini lagi kita mengonversi aksi terakhir diri menjadi bilangan bulat.

10:39.310 --> 10:46.450
Di sana kita pergi dan kemudian kita harus meletakkan tindakan tanpa pamrih integer ke dalam kurung di sini sehingga sekarang kita mendapatkan

10:46.450 --> 10:52.810
tensor panjang dari satu elemen yang akan menjadi tindakan terakhir ini 0 atau 1 atau 2 itu sendiri.

10:52.810 --> 10:59.880
Jadi intinya adalah bagaimana Anda mengubah angka nol satu atau dua menjadi tensor dengan torche.

11:00.060 --> 11:00.360
Baiklah.

11:00.360 --> 11:06.820
Dan akhirnya, elemen terakhir dari transisi dan tentu saja itu adalah kata terakhir yang kami dapat.

11:06.880 --> 11:12.980
Itulah tepatnya kata terakhir bola voli yang kami buat di fungsi apa pun yang diinisialisasi ke nol.

11:13.110 --> 11:19.720
Tetapi tentu saja diperbarui di sini dalam kode ini baik ketika kita pergi ke beberapa pengertian yang merupakan kata

11:19.770 --> 11:24.020
negatif atau jika kita semakin jauh dari tujuan itu lagi-lagi hadiah negatif.

11:24.180 --> 11:30.090
Jika kita semakin dekat ke tujuan, itu adalah hadiah positif dan hukuman terburuk jika kita terlalu dekat dengan

11:30.090 --> 11:34.080
satu sisi peta. Nah itu kata negatif yang mengerikan minus satu.

11:34.290 --> 11:36.190
Dan itu a.

11:36.260 --> 11:40.810
Jadi mari kita tambahkan elemen terakhir dari transisi ini dengan mengarahkan sendiri kata tersebut.

11:41.060 --> 11:47.660
Jadi saya menyalin paste ini di sini dan sekarang kita harus membuat konversi lain yang tentu saja persis

11:47.750 --> 11:53.570
sama dengan yang ini hanya karena kata itu bukan bilangan bulat tetapi angka mengambang.

11:53.780 --> 12:00.350
Kami hanya akan membuat obor yang konversi tensor tetapi tanpa itu akan tetap kurung di sini karena Anda tahu pertama

12:00.350 --> 12:06.200
kita harus memasukkan nomor ke dalam daftar dan kemudian daftar ini akan pergi dan memasukkan obor ke

12:06.200 --> 12:11.510
kelas tetapi kita tidak memiliki untuk membuatnya dalam konversi karena kata terakhir adalah angka float.

12:11.510 --> 12:21.400
Jadi apa yang akan kita lakukan adalah menambahkan saja di sini torche dot tensor atau membakar tensor kemudian kurung kurung

12:21.680 --> 12:27.470
Dan kita akan menutup kurung di sini dan kita tutup kurung.

12:27.470 --> 12:28.820
Itu dia.

12:28.820 --> 12:35.180
Jadi untuk meringkas mana yang Anda katakan bahwa kami baru saja mencapai dan kata kami kami mengamati peristiwa transisi baru

12:35.540 --> 12:37.150
yang kami tambahkan ke memori.

12:37.550 --> 12:44.240
Dan transisi ini berisi tanggal terakhir dan melihat status baru sebagai tipis ketika tindakan terakhir

12:44.540 --> 12:47.640
dimainkan 80 dan kata terakhir Archie.

12:48.020 --> 12:48.390
Baiklah.

12:48.440 --> 12:51.220
Dan sekarang kita akan pergi dengan ingatan kita tentang tanggal.

12:51.410 --> 12:55.710
Jadi mari kita istirahat sebentar dan kita akan mengurus pembaruan selanjutnya di tutorial berikutnya.

12:55.970 --> 12:57.440
Sampai saat itu.
