WEBVTT

00:00.090 --> 00:00.923
ผู้สอน: สวัสดีเพื่อน

00:00.923 --> 00:03.870
ๆ และยินดีต้อนรับสู่กรณีการใช้งานวิทยาศาสตร์ข้อมูลใหม่ด้วย

00:03.870 --> 00:07.560
ChatGPT ซึ่งครั้งนี้จะเป็นการเรียนรู้แบบเสริมแรง

00:07.560 --> 00:13.260
ดังนั้น เราจะบอก ChatGPT ในตอนนี้ว่าเราได้ตั้งโปรแกรมรถยนต์ที่ขับเคลื่อนด้วยตัวเองเสมือนจริงโดยที่ยังไม่มี

00:13.260 --> 00:14.730
AI

00:14.730 --> 00:19.020
ดังนั้นเราจึงใช้ความสามารถในการเดินหน้า เลี้ยวซ้าย

00:19.020 --> 00:21.300
เลี้ยวขวา และหยุด

00:21.300 --> 00:27.540
และเราจะบอกว่ารถยนต์ไร้คนขับคันนี้จะได้รับรางวัลหากสามารถไปถึงจุดหมายที่กำหนดได้

00:27.540 --> 00:30.420
และจะถูกลงโทษหากรถขับออกจากจุดหมายนี้

00:30.420 --> 00:33.360
หรือหากรถชนสิ่งกีดขวาง

00:33.360 --> 00:35.460
โอเค แล้วเราจะถาม ChatGPT

00:35.460 --> 00:40.020
ว่าควรใช้โมเดล AI ใดกับรถไร้คนขับและทำอย่างไร

00:40.020 --> 00:40.853
ตกลง?

00:40.853 --> 00:41.686
มาทำสิ่งนี้กันเถอะ

00:41.686 --> 00:43.530
ฉันจะเปิดแชทใหม่ที่นี่

00:43.530 --> 00:45.637
และภายในเราจะพูดตามตรงว่า

00:45.637 --> 00:57.000
"นี่ ฉันได้ตั้งโปรแกรมรถที่ขับเองเสมือนจริง โดยมีการดำเนินการคือ เดินหน้า

00:57.000 --> 01:04.710
เลี้ยวซ้าย เลี้ยวขวา และหยุด

01:04.710 --> 01:08.370
จากนั้นรถคันนี้จะได้รับรางวัลเมื่อไปถึงจุดหมายหนึ่งๆ

01:08.370 --> 01:28.070
และจะถูกลงโทษหากไปไกลกว่าจุดหมายนี้ หรือหากไปชนสิ่งกีดขวาง

01:28.070 --> 01:28.070
เอาล่ะ ตอนนี้เรามาโลภกันดีกว่า

01:28.650 --> 01:34.110
ฉันแค่อยากจะขอคำแนะนำเกี่ยวกับวิธีสร้างแบบจำลองการเรียนรู้แบบเสริมแรงสำหรับรถยนต์ไร้คนขับ

01:34.110 --> 01:35.490
แต่จริงๆ แล้วขอให้สร้างโดยตรง

01:35.490 --> 01:38.700
ทำไมจะไม่ล่ะ?

01:38.700 --> 01:39.533
มาดูกันว่า ChatGPT มีความสามารถอะไรบ้าง

01:39.533 --> 01:41.730
ดังนั้นฉันจะถามว่า

01:41.730 --> 01:44.650
"คุณช่วยเขียนโค้ด Python

01:45.750 --> 01:53.580
ให้ฉันโดยใช้ไลบรารี่ที่ดีที่สุดเพื่อสร้างโมเดลการเรียนรู้เสริมกำลังที่ใช้

01:53.580 --> 02:01.770
AI ภายในรถที่ขับเคลื่อนด้วยตัวเองได้ไหม

02:01.770 --> 02:01.770
เอาล่ะ

02:01.770 --> 02:06.750
มันค่อนข้างโลภที่จะถามเรื่องนี้ แต่เราไม่มีทางรู้

02:08.010 --> 02:09.870
ChatGPT อาจให้สิ่งที่เราต้องการอย่างแน่นอน

02:09.870 --> 02:11.160
ลองมาลองดูกันและหากพบปัญหาใด

02:11.160 --> 02:14.010
ๆ เราจะช่วยได้

02:14.010 --> 02:16.500
เอาล่ะ กด Enter กันเลย

02:16.500 --> 02:17.340
แน่นอน โอเค นั่นเป็นการเริ่มต้นที่ดีอีกครั้ง

02:17.340 --> 02:22.477
"ฉันสามารถช่วยคุณเริ่มต้นใช้งานโมเดลการเรียนรู้แบบเสริมกำลังสำหรับรถขับเองใน

02:22.477 --> 02:24.180
Python ได้ อัศจรรย์.

02:24.180 --> 02:25.230
"นี่คือโค้ดบางส่วนที่แสดงวิธีใช้ห้องสมุด

02:25.230 --> 02:26.700
OpenAI Gym สุดยอด.

02:26.700 --> 02:29.730
"เพื่อฝึกอบรมรูปแบบการเรียนรู้เสริมแรงสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเองของคุณ

02:29.730 --> 02:29.730
โอเค

02:29.730 --> 02:31.793
นั่นน่าทึ่งจริงๆ ฉันไม่ได้คาดคิดเลยว่า ChatGPT จะทำได้ง่ายขนาดนี้ และมันก็สมเหตุสมผลดีว่าตอนนี้กำลังทำอะไรอยู่

02:31.793 --> 02:33.180
กำลังเริ่มต้น ตาราง Q จำนวนสถานะ

02:33.180 --> 02:34.920
จำนวนการดำเนินการ อัตราการเรียนรู้ที่เริ่มต้นเป็น

02:34.920 --> 02:36.330
0 1 ปัจจัยส่วนลดเป็น

02:36.330 --> 02:40.050
0 95.

02:40.050 --> 02:43.230
นี่มันน่าทึ่งจริงๆ ฉันรู้สึกทึ่ง

02:43.230 --> 02:45.600
อัตราการสำรวจเป็น 0 5 จำนวนตอนสูงสุด 1,000

02:45.600 --> 02:47.670
ตอน จำนวนตอนสูงสุด

02:47.670 --> 02:49.920
100 ตอน

02:49.920 --> 02:51.660
จากนั้นก็ฝึกโมเดล Q-learning ที่น่าทึ่ง

02:51.660 --> 02:54.270
ฉันจะท้าทายให้เขาใช้โมเดลขั้นสูงขึ้น

02:54.270 --> 02:55.743
เช่น โมเดล Deep

02:56.610 --> 02:58.950
Q-learning หรือ A3C แต่มาดูกัน

02:58.950 --> 03:01.950
มันดำเนินการทุกอย่างตั้งแต่เริ่มต้นด้วย For Loop

03:01.950 --> 03:04.770
เริ่มต้นด้วยการเลือกการดำเนินการ จากนั้นดำเนินการตามขั้นตอนที่

03:04.770 --> 03:07.140
AI ดำเนินการ จากนั้นจะอัปเดตตาราง

03:07.140 --> 03:12.720
Q จากนั้นจึงตั้งค่าสถานะเป็นวันถัดไป

03:12.720 --> 03:16.380
นี่คือกระบวนการเรียนรู้แบบเสริมแรง กระบวนการ Q-learning

03:16.380 --> 03:18.030
นี่มันน่าทึ่งมาก

03:18.030 --> 03:21.690
จากนั้นจึงใช้วิธีการทดสอบโมเดล Q-learning

03:21.690 --> 03:25.410
และสุดท้ายก็ปิดสภาพแวดล้อม

03:25.410 --> 03:26.243
ว้าว มันน่าทึ่งจริงๆ

03:26.243 --> 03:28.260
โอเค ฉันไม่ได้คาดหวังมากขนาดนั้น

03:28.260 --> 03:30.510
ในเมื่อมันทำได้ง่ายมาก มาท้าทายกันให้มากขึ้น

03:30.510 --> 03:33.450
ยากขึ้นกว่าเดิม

03:33.450 --> 03:39.780
ก่อนอื่น สมมติว่า "ขอบคุณมาก นั่นเป็นประโยชน์จริงๆ

03:39.780 --> 03:41.430
อย่างไรก็ตาม

03:41.430 --> 03:43.080
ฉันรู้วิธีนำ

03:43.080 --> 03:46.470
Q-learning ไปใช้แล้ว

03:46.470 --> 03:56.040
คุณช่วยทำแบบเดียวกันนี้ด้วยโมเดลการเรียนรู้เสริมกำลังขั้นสูง

03:56.040 --> 03:59.700
เช่น การเรียนรู้เชิงลึก Q-learning

03:59.700 --> 04:04.260
ได้ไหม หรือดีกว่านั้น เรามาตะกละกันดีกว่า

04:04.260 --> 04:06.210
"รูปแบบการเรียนรู้การเสริมแรงที่ทันสมัย โอเค พร้อมหรือยัง?

04:06.210 --> 04:09.030
ไปเลย.

04:09.030 --> 04:11.280
และ "แน่นอน เขามักจะพูดว่า "แน่นอน ที่น่าตื่นตาตื่นใจ.

04:11.280 --> 04:16.280
"นี่คือรหัสบางส่วนที่แสดงให้เห็นว่าคุณสามารถใช้ไลบรารีพื้นฐานของ OpenAI

04:18.720 --> 04:21.990
เพื่อฝึกโมเดลการเรียนรู้ Q-learning อย่างลึกซึ้ง

04:21.990 --> 04:30.297
DQN สำหรับรถยนต์ที่ขับด้วยตนเองของคุณได้อย่างไร

04:30.297 --> 04:30.297
และที่นี่เราไปอีกครั้ง

04:32.340 --> 04:33.420
มันให้รหัสแก่เรา

04:33.420 --> 04:34.980
มันน่าทึ่งจริงๆ

04:34.980 --> 04:36.420
เอาล่ะ ใช่ ตอนนี้มันใช้ไลบรารี Wrap DeepMind

04:36.420 --> 04:37.800
จากไลบรารี Atari ทั่วไปของพื้นฐาน และนำ

04:37.800 --> 04:38.633
AI มาใช้อีกครั้งด้วยโมเดล

04:38.633 --> 04:39.870
Q-learning เชิงลึกในครั้งนี้

04:39.870 --> 04:42.180
มันน่าทึ่งจริงๆ

04:42.180 --> 04:45.900
"รหัสนี้ใช้อัลกอริทึม DQN เพื่อฝึกโมเดลการเรียนรู้ Q-learning เชิงลึกสำหรับรถยนต์ที่ขับด้วยตนเองของคุณ

04:45.900 --> 04:49.140
ตัวแบบจะเรียนรู้ที่จะดำเนินการอย่างดีที่สุดในแต่ละสถานะเพื่อเพิ่มรางวัลสูงสุด

04:49.140 --> 04:50.820
อีกทางหนึ่ง หากคุณต้องการใช้โมเดลการเรียนรู้การเสริมกำลังขั้นสูง

04:50.820 --> 05:05.040
คุณสามารถใช้ไลบรารี OpenAI Spinning Up ซึ่งให้การใช้งานอัลกอริทึมการเรียนรู้การเสริมแรงที่ล้ำสมัย

05:05.040 --> 05:07.117
ต่อไปนี้เป็นโค้ดบางส่วนที่สาธิตวิธีการใช้ไลบรารี

05:07.117 --> 05:09.450
Spinning Up เพื่อฝึกการเพิ่มประสิทธิภาพนโยบายใกล้เคียง

05:09.450 --> 05:12.120
แบบจำลอง PPO แน่นอนว่าเป็นแบบอย่างที่ดี

05:12.120 --> 05:17.430
"สำหรับรถขับเองของคุณ และไปที่นี่ มันให้แบบจำลองกับคุณอีกครั้งพร้อมรหัสทั้งหมด

05:17.430 --> 05:20.460
ว้าว ช่างเป็นการปฏิวัติจริงๆ ChatGPT นี้

05:20.460 --> 05:21.930
จริงค่ะ ประทับใจมาก

05:21.930 --> 05:24.450
ได้เลย คุณมีรหัสแล้ว

05:24.450 --> 05:30.960
"โค้ดนี้ใช้อัลกอริทึม PPO เพื่อฝึกโมเดลการเรียนรู้แบบเสริมแรงสำหรับรถที่ขับเอง

05:30.960 --> 05:34.950
ตัวแบบจะเรียนรู้การดำเนินการเพื่อเพิ่มผลรวมของรางวัลที่มีส่วนลดสูงสุด

05:34.950 --> 05:36.097
ฉันหวังว่านี่จะช่วยได้.

05:36.097 --> 05:39.690
แจ้งให้เราทราบหากคุณมีคำถามหรือต้องการความช่วยเหลือเพิ่มเติม

05:39.690 --> 05:39.690
ฉันไม่ได้คาดหวังอะไรมาก

05:40.950 --> 05:44.430
ฉันแค่ประทับใจเหมือนคุณในเวลาเดียวกันที่ทำทั้งหมดนี้

05:44.430 --> 05:47.220
เราจะพูดว่า "ขอบคุณมาก มันวิเศษมาก และเสร็จแล้ว

05:47.220 --> 05:49.357
ขอขอบคุณอีกครั้งที่รับชมกรณีการใช้งานด้านวิทยาศาสตร์ข้อมูลกับ

05:49.357 --> 05:51.210
ChatGPT

05:51.210 --> 05:52.530
เรามาต่อกันที่อันถัดไป

05:52.530 --> 05:53.940
และจนกว่าจะถึงเวลานั้น ขอให้สนุกกับแมชชีนเลิร์นนิง