WEBVTT

00:00.710 --> 00:02.530
สวัสดีทุกคนและยินดีต้อนรับกลับ

00:02.540 --> 00:11.420
ในการบรรยายนี้ เราจะจัดเตรียมสภาพแวดล้อมของเรา และฉันต้องการแนะนำภาพรวมระดับสูงกว่านี้สำหรับผู้ที่ต้องการลองและแก้ปัญหาด้วยตัวเอง

00:11.420 --> 00:14.270
และนี่อาจดูคุ้นๆ ในการบรรยายครั้งที่แล้วคุณเห็นสิ่งนี้

00:14.270 --> 00:15.770
ดังนั้นถ้าคุณอ่านผ่านมันฉันขอโทษ

00:15.770 --> 00:17.510
เราจะผ่านมันไปได้อย่างรวดเร็วจริงๆ

00:17.840 --> 00:19.070
สิ่งแรกก่อน

00:19.070 --> 00:25.430
ในโปรเจ็กต์นี้ เราตั้งเป้าที่จะทำให้มันเรียบง่ายที่สุดเท่าที่จะเป็นไปได้ ในแง่ที่เราไม่จำเป็นต้องนำเข้าไลบรารีจำนวนมากเกินไป

00:25.430 --> 00:27.920
โดยพื้นฐานแล้วเราจะใช้ NumPy สำหรับสิ่งนั้น

00:27.920 --> 00:33.260
เราแค่ต้องนำเข้า NumPy เป็น NP ซึ่งมักจะเป็นข้อมูลอ้างอิงทั่วไปสำหรับ numpy

00:33.260 --> 00:37.490
และเรายังต้องการตั้งค่าสภาพแวดล้อมของเราดังที่คุณเห็นที่นี่

00:37.490 --> 00:40.580
และเราจะพูดถึงภาพรวมอีกครั้งอย่างรวดเร็ว

00:40.610 --> 00:46.250
ขั้นตอนแรกสำหรับการเรียนรู้ Q ของเราคือ เราต้องการกำหนดสภาพแวดล้อมที่บุรุษไปรษณีย์ต้องนำทาง

00:46.250 --> 00:50.210
เราต้องตั้งค่าสภาพแวดล้อมนั้นเพื่อให้เราสามารถทำซ้ำและผ่านมันไปได้

00:50.510 --> 00:55.580
ในการบรรยายนี้ สิ่งแวดล้อมจะประกอบด้วยสถานะ การกระทำ และรางวัล

00:55.580 --> 01:01.160
สถานะและการกระทำคืออินพุตสำหรับเอเจนต์การเรียนรู้ Q ในขณะที่การกระทำที่เป็นไปได้คือเอเจนต์

01:01.160 --> 01:06.620
ผลลัพธ์คือสถานะที่เราสามารถคิดและมองภาพนี้เป็นตัวแทนของเรา

01:06.620 --> 01:11.870
รัฐในสภาพแวดล้อมของเราเป็นสถานที่ที่เป็นไปได้ทั้งหมดภายในเมืองที่เราเรียกกันว่าเมืองตัวอย่างนี้

01:11.870 --> 01:21.110
สถานที่เหล่านี้บางแห่งเป็นเขตแดนของเมืองซึ่งจะเป็นสี่เหลี่ยมสีดำของเรา ในขณะที่สถานที่อื่นๆ เป็นเกาะที่บุรุษไปรษณีย์สามารถใช้เดินทางผ่านเมืองได้

01:21.110 --> 01:22.580
พวกนี้จะเป็นสี่เหลี่ยมสีขาว

01:22.670 --> 01:27.020
Green Square ระบุรายการบรรจุภัณฑ์และพื้นที่จัดส่ง

01:27.020 --> 01:31.520
สี่เหลี่ยมสีดำและสีเขียวคือสิ่งที่เราจะเรียกว่าสถานะเทอร์มินัล

01:31.520 --> 01:36.050
โดยรวมแล้ว เป้าหมายของเราหรือเป้าหมายของตัวแทน เราต้องการใช้เส้นทางที่สั้นที่สุด

01:36.050 --> 01:41.870
เราต้องการให้ตัวแทนของเราเรียนรู้เส้นทางที่สั้นที่สุดระหว่างพื้นที่บรรจุภัณฑ์ โถ สีเขียว และสถานที่อื่นๆ

01:41.870 --> 01:45.260
ในเมืองที่บุรุษไปรษณีย์ได้รับอนุญาตให้เดินทางได้

01:49.360 --> 01:55.750
ในภาพด้านบน เรามีรัฐหรือสถานที่ที่เป็นไปได้ 121 แห่งภายในเมือง

01:55.780 --> 01:58.690
สถานะเหล่านี้ถูกจัดเรียงในตารางที่ 11 คูณ 11

01:58.720 --> 02:02.400
ดังนั้นแต่ละตำแหน่งจึงสามารถระบุได้ด้วยดัชนีแถวและคอลัมน์

02:02.410 --> 02:04.510
แล้วก้าวแรกของเราจะเป็นอย่างไร?

02:04.510 --> 02:07.870
และนี่เป็นสิ่งที่ต้องการให้พวกคุณเริ่มคิดว่าคุณจะนิยามมันได้อย่างไร

02:08.380 --> 02:10.420
เราจำเป็นต้องกำหนดสภาพแวดล้อมของเรา

02:10.420 --> 02:13.180
นี่เป็นตัวอย่างที่ดีของภาพของเราและวิธีที่เราจะเข้าใกล้มัน

02:13.180 --> 02:14.580
แล้วคุณจะทำแบบอย่างได้อย่างไร?

02:14.590 --> 02:20.890
โปรดจำไว้ว่า เรากำลังใช้ NumPy ดังนั้น เราจำเป็นต้องกำหนดขอบเขตเหล่านี้ และเราสามารถกำหนด a3d numpy

02:20.920 --> 02:27.310
array เพื่อเก็บค่า Q ปัจจุบันของเราสำหรับแต่ละสถานะและคู่การกระทำตามที่เราเห็นการแทนค่าของเรา

02:27.400 --> 02:32.440
และสำหรับผู้ที่ไม่คุ้นเคยกับหลักสูตรนี้ หรืออาจเป็นเรื่องใหม่หรือคุณต้องการทบทวน

02:32.440 --> 02:38.320
คู่มือ i a z จากหลักสูตรนี้มีประโยชน์มาก ขอแนะนำเป็นอย่างยิ่ง

02:38.320 --> 02:40.080
แล้วเราต้องทำอะไรที่นี่?

02:40.090 --> 02:41.420
เราสามารถจริงๆ

02:41.440 --> 02:45.100
ผมขอขยายเรื่องนี้อย่างรวดเร็วสำหรับเราเพื่อให้เราดูง่ายขึ้นเล็กน้อย

02:45.100 --> 02:46.630
ขอผมเพิ่มโค้ดเซลล์หน่อย

02:46.630 --> 02:49.060
เราจะกำหนดอาร์เรย์ numpy สาม d ของเรา

02:49.360 --> 02:51.070
คุณจะไปเกี่ยวกับเรื่องนี้ได้อย่างไร?

02:51.190 --> 02:57.370
ดังนั้นเราจึงมีบางตัวเลือก แต่ตัวเลือกที่ตรงไปตรงมาและเรียบง่ายที่สุด เรียกว่าแถวสภาพแวดล้อม

02:59.820 --> 03:01.500
โรส แล้วตั้งค่าเป็น 11 กัน

03:01.500 --> 03:02.640
มันคือ 11 คูณ 11

03:02.690 --> 03:06.960
จากนั้นเราก็สามารถสร้างสภาพแวดล้อม ขีดเส้นใต้คอลัมน์

03:08.890 --> 03:10.870
และเราสามารถตั้งค่านี้เป็น 11 ได้

03:11.200 --> 03:18.610
สุดท้ายนี้ เราสามารถตั้งค่า Q ได้ เนื่องจากเราต้องเพิ่ม numpy ด้วยแถวสภาพแวดล้อม คอลัมน์สภาพแวดล้อม

03:19.910 --> 03:32.030
และเราสามารถตั้งค่านี้เป็นค่า Q เท่ากับศูนย์ NumPy และเราจำเป็นต้องใช้แถวสภาพแวดล้อม คอลัมน์สภาพแวดล้อม

03:32.760 --> 03:40.260
และเรามีอาร์เรย์ 3 มิติ numpy ของเรา การแสดงสภาพแวดล้อม 3 มิติของเราถูกกำหนดด้วยสภาพแวดล้อมของเรา

03:41.100 --> 03:41.760
สุดยอด.

03:42.240 --> 03:48.340
ตอนนี้และเราจะทิ้งมันไว้ที่นี่ แต่ฉันอยากให้พวกคุณเริ่มคิดเกี่ยวกับวิธีแก้ปัญหานี้ เนื่องจากคุณได้ตั้งค่าสภาพแวดล้อมไว้แล้ว

03:48.360 --> 03:52.820
สิ่งต่อไปที่คุณต้องการทำเป็นคำใบ้คือตั้งค่าการกระทำของคุณ

03:52.830 --> 03:55.620
ตัวแทนของคุณต้องสามารถเคลื่อนที่ผ่านสภาพแวดล้อมได้

03:55.620 --> 03:57.330
แล้วคุณจะแสดงออกอย่างไร?

03:57.330 --> 04:00.750
คุณจะเขียนว่าสำหรับปัญหานี้อย่างไร

04:00.930 --> 04:01.950
ทิ้งมันไว้ที่นี่

04:01.950 --> 04:04.950
ในวิดีโอหน้า เราจะทบทวนการกระทำเหล่านั้นอีกครั้ง

04:05.100 --> 04:05.790
สุดยอด.

04:05.970 --> 04:07.170
แล้วพบกันใหม่ในวิดีโอหน้าครับ