WEBVTT

00:02.520 --> 00:04.620
ผู้สอน: สวัสดีทุกคนและยินดีต้อนรับกลับ

00:04.620 --> 00:07.920
ในวิดีโอนี้ เราจะพูดถึงวิธีใช้

00:07.920 --> 00:11.640
ChatGPT เพื่อแก้ปัญหา "Breakout"

00:11.640 --> 00:15.540
โดยใช้ ChatGPT เพื่อปรับใช้ A3C

00:15.540 --> 00:19.470
ดังนั้นฉันจึงแจ้งด้วยคำแนะนำบ้าๆ มากมาย เราได้ผลลัพธ์ที่น่าทึ่ง

00:19.470 --> 00:23.010
เราจะเห็นมันในอีกไม่กี่วินาที

00:23.010 --> 00:28.740
ดังนั้นวิดีโอนี้จะเป็นการอธิบายถึงกระบวนการคิดของฉันว่าฉันได้รับผลลัพธ์อย่างไร

00:28.740 --> 00:31.470
และคุณสามารถใช้ ChatGPT เพื่อสร้างอัลกอริทึม

00:31.470 --> 00:34.890
A3C ได้อย่างไร

00:34.890 --> 00:41.340
โอเค ฉันเริ่มคล้ายกับที่เราทำกับ "DOOM" ฉันบอกว่า โอเค โดยพื้นฐานแล้วคุณเป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิง

00:41.340 --> 00:46.110
ที่มีประสบการณ์ด้านวิทยาการหุ่นยนต์มาหลายปี

00:46.110 --> 00:52.110
ฉันจ้างคุณให้ทำอัลกอริทึม A3C สำหรับ "Breakout. เป้าหมายคือการมีอัลกอริทึม SOTA, A3C ที่ทำงานได้อย่างสมบูรณ์ซึ่งสามารถเล่นเกม

00:52.110 --> 00:56.100
"Breakout" ได้

00:56.100 --> 00:58.401
ฉันได้นำคลาส สภาพแวดล้อมของรหัสการทดสอบ

00:58.401 --> 01:00.150
และโปรแกรมเพิ่มประสิทธิภาพ

01:00.150 --> 01:05.040
Adam รุ่นที่กำหนดเองซึ่งใช้สำหรับเป็นเครื่องมือเพิ่มประสิทธิภาพน้ำหนักที่ใช้ร่วมกันสำหรับรุ่น

01:05.040 --> 01:07.590
A3C

01:07.590 --> 01:09.361
นี่คือการให้บริบทมากขึ้น

01:09.361 --> 01:13.076
สิ่งที่ฉันทำ ฉันจะให้สามสิ่งนี้แก่คุณ

01:13.076 --> 01:23.250
ดังที่ฉันได้อ้างอิงก่อนที่จะสร้างโค้ดที่เหลือ เป้าหมายของคุณคือการนำโซลูชันทั้งหมดไปใช้โดยใช้

01:23.250 --> 01:27.690
Python, Torch ซึ่งคล้ายกับที่เรามี และเพิ่มประสิทธิภาพโค้ดที่จะดำเนินการใน

01:27.690 --> 01:31.680
Google Colab แบบเดียวกับที่เรามีก่อนหน้านี้

01:31.680 --> 01:38.590
นอกจากนี้ ให้แสดงความคิดเห็นทุกบรรทัดของโค้ดเพื่อให้นักเรียนเข้าใจสิ่งที่คุณทำในโค้ด

01:40.710 --> 01:42.990
ถามคำถามที่ชัดเจนหากจำเป็น เข้าใจแล้ว

01:42.990 --> 01:48.360
ดังนั้นเราจึงมีบางอย่างที่ทับซ้อนกับสิ่งที่เราทำสำหรับ

01:48.360 --> 01:57.390
Deep Q เชิงสนทนาสำหรับ "DOOM" แต่ฉันได้เพิ่มบริบทมากมายที่ฉันได้นำไปใช้แล้ว และฉันต้องการใช้มัน

01:57.390 --> 02:00.210
นั่นคือสิ่งที่ฉันเริ่มต้นและได้รับการยืนยัน

02:00.210 --> 02:03.030
ใช่ ฉันเข้าใจและฉันจะถามคำถามใด

02:03.030 --> 02:06.840
ๆ โปรดระบุรหัสที่เหลือ

02:06.840 --> 02:09.510
จากนั้นฉันก็พูดว่า นี่คือ Adam optimer

02:09.510 --> 02:11.753
วางโค้ดสำหรับ Adam optimer

02:11.753 --> 02:27.210
สำหรับทรัพยากรที่เรามี และฉันก็ให้คำแนะนำนี้ ฉันพูดว่า รอโค้ดที่เหลือก่อนที่จะนำไปใช้ ฉันแค่ ก่อนที่ฉันจะได้ผลลัพธ์ที่ดี จริง ๆ แล้วฉันเพิ่งวางและมันก็ข้ามไปที่การนำ A3C ไปใช้ทันที

02:27.210 --> 02:30.510
โดยไม่ต้องรอที่เหลือ

02:30.510 --> 02:33.750
ดังนั้นฉันจึงเพิ่มสิ่งนี้เป็นโค้ดแบบระบบ

02:33.750 --> 02:41.820
ข้อความแจ้งแบบระบบ และบอกว่า โอเค โปรดจัดเตรียมสภาพแวดล้อมและทดสอบโค้ด

02:41.820 --> 02:43.650
มันหมายถึงสิ่งที่เราให้ไว้ในพรอมต์แรก

02:43.650 --> 02:51.030
ฉันพูดว่า เจ๋ง นี่คือการใช้สภาพแวดล้อมของโรงยิม

02:51.030 --> 02:52.173
ฉันวางโค้ดหลักนั้น

02:53.760 --> 02:56.010
เพิ่มบริบทที่นี่ ถ้าคุณลองสังเกตดู

02:56.010 --> 02:59.040
และนี่คือไฟล์หลักที่รันทุกอย่าง

02:59.040 --> 03:01.383
แล้วฉันก็พูดว่า โอเค เย็น

03:03.690 --> 03:05.267
รอรหัสการทดสอบ

03:05.267 --> 03:08.766
และมันบอกว่า ใช่ ฉันยังต้องการดูรหัสการทดสอบก่อนที่จะใช้

03:08.766 --> 03:13.410
A3C ฉันบอกว่า เยี่ยม นี่คือรหัสการทดสอบ

03:13.410 --> 03:19.170
และคุณจะเห็นว่าถ้าคุณมีโปรเจกต์ที่ใหญ่และใหญ่กว่า

03:19.170 --> 03:33.630
คุณสามารถใช้มันเพื่อโน้มน้าวให้มันใช้โค้ดส่วนนั้นหรือเป็นข้อมูลอ้างอิง ในรูปแบบเพื่อให้คุณสามารถสร้างบางอย่างในรูปแบบโค้ดของคุณได้

03:33.630 --> 03:34.983
เยี่ยมมาก และเมื่อฉันทำอย่างนั้น

03:36.360 --> 03:38.370
มันก็พูดว่า เยี่ยมเลย ไปเลย

03:38.370 --> 03:41.190
และมันบอกว่าโดยพื้นฐานแล้ว

03:41.190 --> 03:45.840
ฉันจะใช้โค้ดหลักนี้ ทดสอบ และนำสิ่งนี้ไปใช้

03:45.840 --> 03:52.800
แล้วมันบอกว่าสร้างแบบจำลอง py ซึ่งจริงๆ แล้วเราก็ทำในคอร์สนี้เช่นกัน

03:52.800 --> 03:55.830
และเขาบอกว่านี่คือโมเดลของ ActorCritic

03:55.830 --> 03:58.620
และฉันก็เปรียบเทียบกับของเรา

03:58.620 --> 04:00.630
นี่เป็นเวอร์ชันที่ใหม่กว่าของ python

04:00.630 --> 04:05.640
การเริ่มต้นน้ำหนักจำนวนมากและอะไรทำนองนั้นสามารถทำได้ในลักษณะที่หรูหรากว่า

04:05.640 --> 04:09.060
ดังนั้นมันจึงทำได้และใช้งานได้ค่อนข้างดี

04:09.060 --> 04:13.680
จากนั้นจึงสร้างรหัสรถไฟ และโดยพื้นฐานแล้วเป็น

04:13.680 --> 04:15.663
ActorCritic

04:16.500 --> 04:23.039
และถ้าคุณลองดู มันค่อนข้างเรียบง่าย ดังนั้นจึงต้องมีการปรับปรุงอย่างแน่นอน

04:23.039 --> 04:25.980
สิ่งที่คุณทำได้ คุณสามารถพูดว่า

04:25.980 --> 04:27.423
โอเค ฉันบอกว่า ทำต่อ

04:28.500 --> 04:31.560
และมันก็เขียนมันต่อไป

04:31.560 --> 04:35.373
มันสร้างสิ่งนี้ขึ้นมาในลักษณะของการสูญเสีย

04:37.920 --> 04:41.040
แต่มี ใช่ โดยพื้นฐานแล้วทุกอย่างที่เราต้องการ

04:41.040 --> 04:51.333
มันปรับทุกอย่างให้เหมาะสม และคุณจะเห็นตัวเพิ่มประสิทธิภาพนั้น

04:51.333 --> 04:51.333
หยุดในตอนท้าย

04:53.160 --> 04:56.550
โดยพื้นฐานแล้วมันใช้ทุกอย่างที่เรากำหนดไว้

04:56.550 --> 04:59.220
เช่นเดียวกับการสูญเสียที่เหมาะสม และใช่ เครื่องมือเพิ่มประสิทธิภาพ

04:59.220 --> 05:02.490
ทุกอย่าง

05:02.490 --> 05:05.730
แค่นั้นแหละ

05:05.730 --> 05:07.591
ด้วยขั้นตอนง่ายๆ สองสามขั้นตอน

05:07.591 --> 05:15.270
เราสามารถใช้โค้ดทั้งหมดสำหรับหนึ่งในโมเดลที่ล้ำสมัยซึ่งเป็นหนึ่งในโมเดลที่ดีที่สุดในปี

05:15.270 --> 05:18.450
2017, 2018

05:18.450 --> 05:24.900
จนถึงทุกวันนี้ มันมีความสามารถมากมายในการแก้ไขสภาพแวดล้อมที่ซับซ้อน

05:24.900 --> 05:32.490
เช่น "Breakout. คุณเห็นแล้วว่าตอนนี้เรามี ChatGPT แล้ว คุณสามารถแนะนำให้ติดตั้งบางส่วนของโค้ดได้

05:32.490 --> 05:35.250
และถ้าคุณไม่รู้ว่าจริง

05:35.250 --> 05:36.990
ๆ แล้วส่วนไหนของโค้ดทำหน้าที่อะไร

05:36.990 --> 05:51.840
คุณก็ไปถามมันได้ เช่น เจ๋ง คุณช่วยอธิบายส่วนการฝึกได้ไหม และธรรมเนียมของอดัมอยู่ที่ไหน

05:51.840 --> 05:59.223
ดังนั้นฉันจึงขอให้มันอธิบายตัวมันเอง นั่นเป็นอีกวิธีหนึ่งที่จะกระตุ้นให้มันออกมาโดยพื้นฐานแล้ว

06:04.740 --> 06:10.290
เพื่อให้คุณมีเหตุผลมากขึ้นที่อยู่เบื้องหลังรุ่นของมัน

06:10.290 --> 06:16.803
และคุณจะเห็นว่ามันอธิบายทีละขั้นตอนจริงๆ

06:17.730 --> 06:18.563
ใช่ เรารอได้

06:18.563 --> 06:25.890
คุณสามารถทำพร้อมท์เดียวกัน และคุณจะได้ผลลัพธ์ที่คล้ายกับของฉันมาก

06:25.890 --> 06:38.010
แต่โดยทั่วไปแล้ว สิ่งที่จะทำคือใช้ฟังก์ชันรถไฟที่กำหนดไว้ด้านบนตรงนี้ และโดยพื้นฐานแล้วจะผ่านทุกขั้นตอนและนำไปปฏิบัติ

06:38.010 --> 06:40.890
ใช่ว่าจะเป็นเช่นนั้น

06:40.890 --> 06:43.803
ฉันสนับสนุนให้คุณลองใช้โค้ดนี้ใน

06:44.700 --> 06:46.053
Google Colab อย่างแน่นอน

06:47.580 --> 06:48.600
ซึ่งสามารถทำได้

06:48.600 --> 06:54.780
การทำให้มันใช้งานได้ค่อนข้างยุ่งยาก เนื่องจากการแสดงภาพและข้อจำกัดของสภาพแวดล้อมของ

06:54.780 --> 06:58.380
Goggle Colab

06:58.380 --> 06:59.760
อย่างไรก็ตาม คุณสามารถไปและวางข้อผิดพลาดที่นี่ได้

06:59.760 --> 07:07.083
และคุณทำได้ คุณสามารถไปรับผลลัพธ์ที่ค่อนข้างดีสำหรับการดีบักกระบวนการ

07:08.580 --> 07:11.310
และใช่ ฉันจะให้คุณทำอย่างนั้น

07:11.310 --> 07:13.890
และตอนนี้คุณมีวิธีใช้ ChatGPT

07:13.890 --> 07:16.860
เพื่อหามูลค่าสำหรับ A3C

07:16.860 --> 07:20.400
และใช่ หวังว่าคุณจะสนุกกับหลักสูตรจนถึงตอนนี้

07:20.400 --> 07:24.960
ลาก่อน
