WEBVTT

00:01.400 --> 00:03.230
สวัสดีและยินดีต้อนรับกลับ

00:03.260 --> 00:08.990
ในการบรรยายครั้งสุดท้าย เราได้เสร็จสิ้นหรือสรุปคำจำกัดความที่แท้จริงของสภาพแวดล้อมของเรา

00:08.990 --> 00:14.330
การแสดงค่านิยมของเรา การลงโทษและรางวัลของเรา และการกระทำของเราในสภาพแวดล้อม

00:14.360 --> 00:20.600
ในการบรรยายนี้ สิ่งที่ฉันต้องการจะทำคือแนะนำการฝึกอบรม แนวคิดเบื้องหลังการฝึกโมเดล

00:20.600 --> 00:22.880
และช่วยให้คุณเริ่มต้นได้

00:22.880 --> 00:28.520
จากนั้นในการบรรยายครั้งต่อไปจะมีวิธีแก้ไขและรายละเอียดเพิ่มเติมสำหรับขั้นตอนที่เกี่ยวข้อง

00:28.520 --> 00:32.960
ดังนั้นเราจึงต้องฝึกโมเดลว่าจะต้องฝึกอะไรบ้าง

00:33.620 --> 00:38.840
นี่เป็นแนวทางที่เราสามารถใช้สำหรับขั้นตอนต่อไปนี้ในการฝึกโมเดล

00:38.840 --> 00:47.210
เราต้องการสุ่มเลือกสถานะที่ไม่ใช่เทอร์มินัล ซึ่งจะเป็นช่องสีขาวของตัวแทนของเรา และนั่นคือวิธีที่เราต้องการเริ่มต้นในตอนของเราสำหรับการฝึกอบรม

00:47.210 --> 00:50.360
แน่นอนว่าเราต้องการเลือกการดำเนินการสำหรับสถานะปัจจุบัน

00:50.360 --> 00:53.120
เราจำเป็นต้องมีตัวแทนของเราสามารถเคลื่อนที่ไปรอบ ๆ สิ่งแวดล้อมได้

00:53.120 --> 00:59.450
ดังนั้นการดำเนินการสำหรับเราและตัวแทนของเราในการท้าทายนี้จะถูกเลือกโดยใช้ Epsilon Greedy

00:59.660 --> 01:05.870
อัลกอริทึมนี้มักจะเลือกการดำเนินการที่มีแนวโน้มมากที่สุดสำหรับตัวแทน แต่บางครั้งก็เลือกตัวเลือกที่มีแนวโน้มน้อยกว่า

01:05.870 --> 01:10.850
เพื่อส่งเสริมให้ตัวแทนสำรวจสภาพแวดล้อม เราต้องการหานโยบายที่เหมาะสมที่สุด

01:11.210 --> 01:15.140
จากนั้นเราต้องการดำเนินการที่เลือกและเปลี่ยนเป็นสถานะถัดไป

01:15.140 --> 01:16.490
ย้ายไปยังตำแหน่งถัดไป

01:16.490 --> 01:23.060
และทำไมผมถึงบอกว่านี่คือผมอยากให้คุณคิดว่าคุณจะแบ่งมันออกเป็นฟังก์ชันเพื่อแก้ปัญหานี้ได้อย่างไร

01:23.480 --> 01:29.660
ต่อไป เราต้องได้รับรางวัลสำหรับการไปสู่สถานะใหม่แล้วคำนวณความแตกต่างชั่วคราว

01:29.660 --> 01:34.940
เราต้องอัปเดตค่า Q สำหรับสถานะก่อนหน้าในคู่การกระทำ และหากสถานะใหม่หรือสถานะปัจจุบันเป็นสถานะเทอร์มินัล

01:34.970 --> 01:37.550
เราก็จะไปที่สถานะหนึ่ง

01:37.550 --> 01:39.380
มิฉะนั้นเราจะไปที่ขั้นตอนที่สอง

01:39.380 --> 01:43.610
ดังนั้น กระบวนการทั้งหมด เราจะตั้งเป้าที่จะรัน 1,000 ตอนเพื่อฝึกฝน

01:43.610 --> 01:50.810
นี่จะทำให้เรามีโอกาสเพียงพอหรือตัวแทนของเรามีโอกาสเพียงพอในการคำนวณเส้นทางที่สั้นที่สุดระหว่างพื้นที่บรรจุสินค้ากับสถานที่อื่นๆ

01:50.810 --> 01:55.790
ในเมืองตัวอย่างของเรา

01:56.570 --> 01:57.260
สุดยอด.

01:57.440 --> 02:02.990
ดังนั้นโปรดลองคิดดูว่าคุณจะเข้าถึงสิ่งนี้อย่างไร และฉันต้องการช่วยให้คุณมีแนวคิดในการลองและแก้ไขปัญหานี้

02:02.990 --> 02:08.240
เราจะดูในโซลูชันของเรา เราจะใช้ฟังก์ชันต่อไปนี้

02:08.540 --> 02:10.700
ฉันสามารถแสดงความคิดเห็นได้จริงเนื่องจากเป็นเซลล์รหัส

02:10.730 --> 02:11.840
ขอโทษด้วย.

02:11.840 --> 02:13.250
เราไม่ต้องการเครื่องหมายดอลลาร์

02:13.250 --> 02:18.230
เราต้องการแสดงความคิดเห็นเหล่านี้ และฉันจะช่วยคุณเริ่มต้นในข้อแรก

02:19.020 --> 02:24.600
โดยรวมแล้ว เราจะมีฟังก์ชันเหล่านี้กำหนดขั้นตอนของเราสำหรับการฝึกโมเดล

02:24.900 --> 02:29.910
และเพื่อช่วยให้คุณเริ่มต้น มาดูกันว่าเราจะใช้สถานะเทอร์มินัลในการสร้างฟังก์ชันภายใน

02:29.910 --> 02:36.450
python สำหรับสิ่งแรกนี้ได้อย่างไร อันดับแรก แน่นอนว่าเราต้องการกำหนดฟังก์ชันของเราตามที่เป็นอยู่

02:37.610 --> 02:39.530
สถานะเทอร์มินัล

02:40.640 --> 02:45.320
และนี่คือชื่อของฟังก์ชันต่างๆ ที่คุณจะเห็นเพื่อให้แนวคิดที่อาจช่วยคุณแยกแยะได้

02:45.350 --> 02:51.170
สิ่งที่เราต้องการจะทำคือนำดัชนีแถวปัจจุบันและดัชนีคอลัมน์ปัจจุบัน

02:52.980 --> 03:02.010
สิ่งนี้จะช่วยให้เรามีตำแหน่งตัวแทนของเรา และเราสามารถเพิ่มที่นี่สำหรับรางวัลของเราเป็นจริงหรือเท็จ

03:02.010 --> 03:03.210
ดังนั้นเราจึงต้องการคำสั่ง if

03:03.210 --> 03:05.790
เรามากำหนดผลตอบแทนของเรากัน

03:07.490 --> 03:08.630
ของเราในปัจจุบัน

03:09.410 --> 03:11.600
ดัชนีแถว

03:12.480 --> 03:20.190
และดัชนีคอลัมน์ปัจจุบันเท่ากับลบหนึ่งถ้าอยู่ในสถานะนั้น

03:24.300 --> 03:28.500
เราจะคืนค่าเท็จหรืออย่างอื่นหรืออย่างอื่น

03:29.850 --> 03:30.990
เราจะกลับมา

03:31.470 --> 03:32.100
จริง.

03:33.590 --> 03:35.030
ค่อนข้างตรงไปตรงมาพอสมควร

03:35.360 --> 03:41.390
และนี่คือวิธีที่เราจะได้แนวคิดว่าสถานะเทอร์มินัลของเรา หลังจากที่เรามี ถ้ามันอยู่ในสถานะเทอร์มินัล

03:41.390 --> 03:44.240
เราก็ต้องการได้ตำแหน่งเริ่มต้น

03:44.240 --> 03:50.750
ตามคำแนะนำ คุณสามารถดูโดยใช้ดัชนีแถวปัจจุบันและดัชนีคอลัมน์ปัจจุบัน และการตั้งค่า

03:50.750 --> 03:52.820
numpy ด้วยการสุ่ม

03:52.820 --> 03:57.200
เราต้องการเริ่มต้นที่สุ่มไปยังคอลัมน์สภาพแวดล้อมแถวสภาพแวดล้อม

03:57.200 --> 04:00.620
แต่ในการบรรยายครั้งต่อไป คุณจะเห็นรายละเอียด

04:00.620 --> 04:04.790
คุณจะเห็นฟังก์ชันที่เหลือพร้อมโน้ตบางส่วนที่จะช่วยให้คุณมีไอเดีย

04:04.790 --> 04:10.700
ฉันหวังเป็นอย่างยิ่งว่าพวกคุณจะมีโอกาสได้ทดลองกับสิ่งนี้เพราะมันเป็นวิธีที่ยอดเยี่ยมในการเรียนรู้และช่วยให้คุณมีไอเดีย

04:10.700 --> 04:12.200
และนี่คือการเริ่มต้นของคุณ

04:12.200 --> 04:15.260
ไม่ต้องกังวล คุณจะได้คำตอบในการบรรยายครั้งต่อไป

04:15.260 --> 04:21.860
จากนั้นเราจะสรุปโดยกำหนดปัจจัยส่วนลดของเอปไซลอน อัตราการเรียนรู้ ประเภทของการฝึกอบรม

04:21.860 --> 04:25.760
ดำเนินการฝึกอบรม และดูผลลัพธ์

04:26.060 --> 04:26.900
สุดยอด.

04:27.260 --> 04:29.660
หยุดที่นี่อีกครั้ง

04:29.660 --> 04:30.890
ลองแก้ปัญหานี้

04:30.890 --> 04:38.180
แต่ถ้าไม่ใช่ ถ้าคุณต้องการก้าวหน้า ไปที่การบรรยายครั้งถัดไป และคุณจะได้คำตอบสำหรับการฝึกอบรมเพื่อกำหนดฟังก์ชันเหล่านี้

04:38.420 --> 04:40.340
โอเค แล้วเจอกันใหม่ในบทเรียนหน้า