WEBVTT

00:00.490 --> 00:01.990
สวัสดีทุกคนและยินดีต้อนรับกลับมา

00:02.020 --> 00:05.350
ในการบรรยายครั้งที่แล้ว เราเริ่มสร้างสภาพแวดล้อมของเรา

00:05.350 --> 00:13.330
โดยพื้นฐานแล้วเรามีตารางขนาด 11 คูณ 11 ที่นี่ซึ่งเราต้องการให้บุรุษไปรษณีย์ของเราทำซ้ำเพื่อแก้ปัญหาความท้าทายของเรา

00:13.960 --> 00:18.490
เราต้องการเริ่มคิดถึงเมื่อเรามีกริดแล้ว

00:18.490 --> 00:23.890
เราจำเป็นต้องดำเนินการกับตัวแทนของเราด้วย และฉันจะลบสิ่งเหล่านี้อย่างรวดเร็ว

00:23.890 --> 00:24.970
เราไม่ต้องการเซลล์เหล่านี้

00:24.970 --> 00:27.790
ฉันแค่อยากจะมีมันในช่องว่าง

00:27.790 --> 00:29.490
ทำให้ง่ายต่อการดูเท่านั้น

00:29.500 --> 00:35.530
ขอ 1/2 ให้ฉันลบทิ้งแล้วปล่อยให้นี่ตรงนี้

00:35.890 --> 00:36.520
ดังนั้น.

00:37.420 --> 00:43.330
ฉันฝากข้อความไว้ที่เรามีและเราต้องการตั้งค่าการกระทำของเราเป็นแนวตั้งลงและซ้าย

00:43.570 --> 00:45.580
ด้วย Python มันค่อนข้างตรงไปตรงมา

00:45.580 --> 00:48.270
เราสามารถสร้างรายการและกำหนดการกระทำของเราได้

00:48.280 --> 00:51.400
การกระทำของเราจะเท่าเทียมกัน

00:52.140 --> 00:55.310
สองอย่างที่เรามี ขึ้น ขวา ลง ซ้าย

00:55.320 --> 01:01.310
เลยมาตั้งค่าขวาล่างและซ้ายกัน

01:01.320 --> 01:07.290
เราต้องให้ตัวแทนของเราขอโทษด้วยความสามารถในการจัดการกับการกระทำเหล่านี้ผ่านเขาวงกต

01:08.270 --> 01:12.000
นอกจากนั้น เรายังต้องเริ่มตั้งค่ารางวัล

01:12.020 --> 01:18.050
ทีนี้ นี่คือจุดที่มันจะเริ่มซับซ้อนขึ้นเล็กน้อย เพราะเราต้องตั้งค่าสถานะต่างๆ

01:18.050 --> 01:25.010
ของสภาพแวดล้อมของเรา สถานะต่างๆ ในแง่ที่เราต้องการจะกำหนด -100 เหล่านี้และลบหนึ่งขั้นตอนเหล่านี้หรือค่าสถานะเหล่านี้

01:25.010 --> 01:31.930
ไปยังแต่ละช่องสี่เหลี่ยมภายในตาราง

01:31.940 --> 01:39.320
ดังนั้นเราจึงเห็นว่าการช่วยให้ตัวแทนของเราเรียนรู้แต่ละรัฐหรือสถานที่ในเมืองของเรา เราต้องการมีมูลค่ารางวัล

01:39.320 --> 01:40.910
นั่นเป็นวิธีที่ตัวแทนของเราจะเรียนรู้

01:40.910 --> 01:45.290
ดังนั้นตัวแทนอาจเริ่มต้นที่สี่เหลี่ยมสีขาวใดก็ได้ แต่เป้าหมายของมันก็เหมือนกันเสมอ

01:45.290 --> 01:49.460
ฉันต้องการเพิ่มรางวัลทั้งหมดให้สูงสุดภายใน Q Learning Native Rewards

01:49.460 --> 01:51.980
เรารู้ว่าพวกเขาถูกเรียกว่าการลงโทษ

01:51.980 --> 01:54.110
สิ่งเหล่านี้ใช้สำหรับทุกรัฐยกเว้นเป้าหมาย

01:54.110 --> 02:02.780
นั่นคือวิธีที่เราจะกำหนดนโยบายที่เหมาะสมที่สุด ซึ่งกระตุ้นให้ตาระบุเส้นทางที่สั้นที่สุดสู่เป้าหมายโดยลดโทษให้น้อยที่สุด

02:03.200 --> 02:03.860
ไม่เป็นไร.

02:04.460 --> 02:09.830
นอกจากนี้ เพื่อเพิ่มรางวัลสะสมให้สูงสุด เจ้าหน้าที่ AI จะต้องค้นหาเส้นทางที่สั้นที่สุดระหว่างพื้นที่บรรจุไอเทม

02:09.830 --> 02:15.590
จัตุรัสสีเขียว ความทรงจำ และสถานที่อื่นๆ ในเมืองที่บุรุษไปรษณีย์สามารถเดินทางได้

02:15.590 --> 02:20.480
เจ้าหน้าที่ White Squares จะเรียนรู้ที่จะหลีกเลี่ยงการบุกเข้าไปในเขตแดนของเมือง

02:20.480 --> 02:23.180
นั่นคือสี่เหลี่ยมสีดำ ตามที่เราเห็นด้วย -100

02:23.180 --> 02:24.440
เราต้องการที่จะอยู่ห่างจากพวกเขา

02:24.440 --> 02:26.720
พวกเขามีบทลงโทษมากกว่า

02:26.810 --> 02:36.290
ในการทำเช่นนี้ เรามีกริดของเรา สภาพแวดล้อมที่เราสร้างขึ้นด้านบนพร้อมกับแถวของเรา แต่เราต้องการกำหนดค่าเหล่านี้ให้กับกริดด้วย

02:36.290 --> 02:42.050
ในการทำเช่นนั้น ลองคิดดูว่าเราจะสร้างได้อย่างไรว่าเราสามารถใช้ NumPy และเรายังสามารถเริ่มตั้งค่าเป็น

02:42.050 --> 02:47.060
Native 100 สำหรับแถวสภาพแวดล้อมและคอลัมน์สภาพแวดล้อมได้

02:47.060 --> 02:49.490
ดังนั้นเราจึงมีแถวสภาพแวดล้อมและคอลัมน์สภาพแวดล้อม

02:49.490 --> 03:04.280
เรียกรางวัลนี้ว่าเท่ากับ num pi เต็ม แล้วส่งต่อคอลัมน์สภาพแวดล้อมแถวสภาพแวดล้อมของเรา และเพื่อตั้งค่าของเรา

03:04.280 --> 03:10.370
เราสามารถเริ่มต้นด้วย -100

03:11.890 --> 03:18.610
นอกจากนั้น เรายังต้องการตั้งค่าหน้าต่างรางวัลของเราเป็น

03:20.150 --> 03:23.780
ใช้ดัชนีศูนย์และห้า

03:24.290 --> 03:25.880
เท่ากับ 100

03:26.620 --> 03:28.530
และนี่จะสมเหตุสมผลในวินาทีนี้

03:28.540 --> 03:30.190
เรากำลังดู Green Square ของเรา

03:30.190 --> 03:31.330
เรามีศูนย์และห้าของเรา

03:31.330 --> 03:37.330
เรามี Green Square ตั้งค่าเป็น 100 โดยใช้ตำแหน่งเหล่านี้หรือตำแหน่งนี้เพื่อตั้งค่า

03:37.420 --> 03:41.680
ตอนนี้ฉันจะวางในตัวอย่างโค้ดถัดไปเพื่อให้เราสามารถดำเนินการได้

03:41.680 --> 03:44.770
ดังนั้นคุณไม่ต้องดูฉันเขียนแต่ละขั้นตอนเพราะมันซ้ำซาก

03:44.770 --> 03:47.690
และตอนนี้เราก็มีพื้นที่สีขาวของเราแล้ว

03:47.710 --> 03:51.820
มาตั้งค่าบันทึกของเราสำหรับคะแนนสะสมของเรา

03:52.030 --> 03:57.490
และในโค้ดสั้นๆ นี้ เรากำลังใช้พจนานุกรมและตั้งค่าแต่ละค่าของเราภายในพจนานุกรมของเรา

03:57.490 --> 03:58.480
ดังนั้นเราจึงมีทางเดินของเรา

03:58.480 --> 04:06.550
เรากำลังคิดว่าเป็นแต่ละแถว และเราสามารถตั้งค่าด้วยการแบ่งส่วน โดยดัชนีของเราตั้งแต่หนึ่งถึงเก้า

04:06.550 --> 04:11.470
และเราต้องการใช้การวนซ้ำกับ for loop เพื่อตั้งค่าเหล่านี้

04:11.860 --> 04:17.650
ในการทำเช่นนั้น คุณจะเห็นว่าเราดูที่หนึ่งถึงสิบ หนึ่ง เจ็ดและเก้า และเมื่อใช้สิ่งนี้ เราสามารถตั้งค่าดัชนีแถวในช่วงหนึ่งถึงสิบ

04:17.650 --> 04:23.320
ซึ่งเรากำลังดำเนินการในสภาพแวดล้อมของเรา .

04:23.410 --> 04:25.570
เราสามารถกำหนดดัชนีคอลัมน์

04:26.530 --> 04:34.720
ในทางเดินของดัชนีแถวของเราที่มีพจนานุกรมของเรา ดัชนีแถวรางวัลและดัชนีคอลัมน์ เราสามารถตั้งค่าให้เป็นค่าลบได้

04:34.720 --> 04:41.650
ที่กำลังทำอยู่โดยพื้นฐานแล้ว ถ้าเราดูที่แต่ละอันเฉพาะ ถ้าเราหาช่วงตรงนี้ เช่น ช่อง 9 สำหรับฉัน

04:41.650 --> 04:49.300
ในช่วงของเรา เรามีค่าลบหนึ่งเซตตลอดสภาพแวดล้อมทั้งหมด หรือแต่ละสถานะภายในสภาพแวดล้อมของเรา

04:49.450 --> 04:52.450
สำหรับแปด เรามีสามและเจ็ด

04:52.450 --> 04:57.700
ดังนั้นถ้าเลื่อนขึ้นไปได้ จะเห็นว่าในสามและเจ็ด เรากำลังตั้งค่าลบเนื่องจากทั้งหมดจะเป็นลบ

04:57.700 --> 05:03.340
100 ถูกตั้งค่าเป็นลบร้อย และด้วยการทำซ้ำนี้ เราสามารถกำหนดรางวัลเหล่านั้นหรือตั้งค่าแต่ละสถานะได้

05:03.340 --> 05:08.830
ที่เรากำลังกำหนดภายในทางเดินของเราเป็นค่าลบ

05:08.830 --> 05:10.420
มันทำให้ง่ายมาก

05:10.420 --> 05:18.880
แทนที่จะต้องเขียนตรรกะเพิ่มเติมหรือฟังก์ชันหรือคำสั่งที่มีรายละเอียดมากกว่านี้ เราสามารถทำซ้ำและตั้งค่าเหล่านี้ได้

05:18.880 --> 05:24.310
ฉันขอแนะนำอย่างยิ่งให้คุณสละเวลาสักครู่เพื่อสำรวจการทดลอง หากคุณต้องการเปลี่ยนสภาพแวดล้อมในภายหลัง

05:24.310 --> 05:29.440
หลังจากที่เราเรียกใช้โซลูชันนี้แล้ว เป็นวิธีที่ดีในการช่วยเรียนรู้และส่งเสริมนโยบายเหล่านี้

05:29.440 --> 05:35.050
แต่สิ่งนี้กำลังเริ่มเป็นรูปเป็นร่าง และสิ่งที่ยอดเยี่ยมที่เราสามารถทำได้คือเราสามารถเห็นภาพได้จริง

05:35.050 --> 05:38.680
ลองทำสี่แถวในรางวัลกัน

05:39.990 --> 05:46.650
พิมพ์แถวแล้วลองพิมพ์ดู เราจะเห็นว่าฉันอาจต้องเรียกใช้เซลล์ใหม่จริงๆ

05:46.650 --> 05:47.640
ขอโทษด้วย.

05:47.640 --> 05:50.190
ฉันไม่ได้เชื่อมต่อกับโน้ตบุ๊กที่ทำงานผ่านที่นี่

05:50.220 --> 05:51.270
ให้ 1/2

05:51.270 --> 05:52.520
มันจะโยนข้อผิดพลาด

05:52.530 --> 05:55.290
ฉันต้องย้อนกลับไปและเรียกใช้เซลล์ใหม่

05:55.290 --> 05:57.240
ขอผมดำเนินการนี้อย่างรวดเร็วจริงๆ

05:57.240 --> 05:58.770
ฉันต้องการนำเข้า NumPy

05:58.770 --> 06:00.300
ฉันทำได้จริงๆ

06:00.420 --> 06:01.710
โอ้ฉันขอโทษ

06:02.130 --> 06:04.890
ให้ฉันผ่านที่นี่และเรากำลังจะลงมา

06:04.890 --> 06:07.080
เราต้องการเรียกใช้สภาพแวดล้อมของเรา

06:07.080 --> 06:08.580
เราต้องการเรียกใช้การกระทำของเรา

06:08.580 --> 06:10.710
ส่วนอื่นๆ เป็นเพียงข้อความ เราจึงไม่ต้องการ

06:10.710 --> 06:14.670
แต่ฉันชอบที่จะมีสิ่งนั้นเพื่อให้คุณสามารถอ้างอิงได้

06:14.700 --> 06:18.750
เราต้องการคะแนนสะสมของเรา และในที่สุดเราก็ต้องการที่จะเห็นภาพนี้

06:18.810 --> 06:25.920
เราสามารถเห็นการแสดงภาพ การแสดงตัวเลขที่เกิดขึ้นจริงในสภาพแวดล้อมของเรา

06:25.920 --> 06:26.970
เจ๋งจริงๆ

06:26.970 --> 06:29.160
ดังนั้นเราจึงมีการตั้งค่าสภาพแวดล้อมของเรา

06:29.190 --> 06:30.210
การทำงานที่น่าตื่นตาตื่นใจ.

06:30.240 --> 06:31.740
หวังว่าพวกคุณจะพบว่าสิ่งนี้มีประโยชน์

06:31.740 --> 06:36.750
ตอนนี้เราจะปิดท้ายที่นี่ เพราะในการบรรยายครั้งต่อไป เราจะเริ่มฝึกโมเดล

06:36.750 --> 06:42.840
ดังนั้นนี่คือการกำหนดการกระทำของตัวแทนของเรา เพื่อกำหนดสภาพแวดล้อมของเรา กำหนดรางวัลของเรา การลงโทษของเรา

06:42.840 --> 06:46.650
สิ่งนี้จะช่วยให้ตัวแทนกำหนดนโยบายที่เหมาะสมที่สุดภายในการเรียนรู้ของ Q

06:46.650 --> 06:54.960
โดยรวมแล้ว เรามีการแสดงภาพหรือภาพนี้ และเราสามารถเห็นได้ที่นี่หากเราพิมพ์แถวของเรา

06:56.060 --> 06:56.840
อัศจรรย์.

06:56.930 --> 06:57.560
ไม่เป็นไร.

06:57.710 --> 06:59.000
ฉันจะไม่เดินเตร่ต่อไป

06:59.000 --> 07:00.680
มาปิดท้ายกันที่นี่ในการบรรยายครั้งต่อไป

07:00.710 --> 07:02.300
มาเริ่มฝึกโมเดลกันเลย

07:02.600 --> 07:04.070
เจอกันใหม่ตอนหน้าค่ะ