WEBVTT

00:00.300 --> 00:02.000
สวัสดีและยินดีต้อนรับสู่การกวดวิชานี้

00:02.160 --> 00:05.090
ขอแสดงความยินดีอีกครั้งเมื่อทำเสร็จแล้ว

00:05.150 --> 00:08.200
ดูว่าเราสร้างมันขึ้นมาแล้วเราสร้างสมองและฝึกฝนพวกมัน

00:08.400 --> 00:19.430
แต่ตอนนี้เรายังต้องสร้างเอเจนต์ทดสอบซึ่งจะไม่เป็นวันที่ในวันพรุ่งนี้เลย แต่มันจะใช้โมเดลการแชร์เพื่อทำการสำรวจของมันเอง

00:19.530 --> 00:28.750
และแน่นอนในรหัสนี้เราจะบันทึกวิดีโอและสิ่งเหล่านี้จะเป็นตัวแทนทดสอบวิดีโอที่ทำคะแนนออกมาได้

00:28.810 --> 00:30.840
งั้นลองดูโค้ดนี้กัน

00:30.850 --> 00:38.580
สิ่งที่สำคัญที่สุดคือทำอย่างที่ฉันบอกคุณว่าเราจะไม่เขียนมันทีละบรรทัด แต่ฉันคิดว่ามันสำคัญที่คุณต้องเข้าใจว่าเกิดอะไรขึ้น

00:38.800 --> 00:42.680
ดังนั้นเราจึงไปกับรหัสนี้ในส่วนแรกตามที่คุณสังเกตเห็น

00:42.790 --> 00:52.390
เรานำเข้าห้องสมุดจากนั้นเราได้พบกับฟังก์ชั่นการทดสอบนี้ซึ่งจะทำให้เอเจนต์การทดสอบนี้ทำการสำรวจตนเองและเล่นเกมฝ่าวงล้อม

00:52.600 --> 01:02.060
ดังนั้นเราจึงได้รับฟังก์ชั่นการทดสอบนี้ใช้สามข้อโต้แย้งสิ่งแรกคือการจัดอันดับที่ยังคงทำการซิงโครไนซ์ทดสอบตัวแทนตามที่เราทำกับตัวแทนการฝึก

01:02.230 --> 01:05.380
จากนั้นเรามีพารามิเตอร์ของเราแน่นอนเพราะคุณต้องการบางอย่าง

01:05.380 --> 01:13.360
และแน่นอนว่าเรามีรูปแบบที่ใช้ร่วมกันเพราะตัวแทนทดสอบนี้จะใช้รูปแบบที่ใช้ร่วมกันเพื่อทำการสำรวจตนเอง

01:13.360 --> 01:18.790
เอาล่ะเราเข้าไปในฟังก์ชั่นและบรรทัดของโค้ดนี้ที่เราซิงโครไนซ์กับตัวแทน

01:18.820 --> 01:23.120
ตรงตามที่เราทำก่อนหน้านี้แล้วเรานำเข้าสภาพแวดล้อม

01:23.170 --> 01:27.070
ดังนั้นฉันเตือนว่าในรหัสหลักซึ่งจะเป็นในการกวดวิชาต่อไป

01:27.250 --> 01:33.970
และชื่อที่นี่จะถูกแทนที่ด้วยการแบ่งศูนย์เพื่อให้เราสามารถเข้าไปในสภาพแวดล้อมที่เป็นศูนย์และเล่นเกมและ Trumans

01:34.060 --> 01:40.180
สภากาชาดที่จะได้รับวิดีโอในตอนเย็นของเราแตก

01:40.180 --> 01:46.680
ดังนั้นโดยทั่วไปบรรทัดของรหัสนี้หมายความว่าเราเรียกใช้หนึ่งสภาพแวดล้อมด้วยวิดีโอ

01:47.080 --> 01:54.520
จากนั้นในบรรทัดถัดไปของรหัสเราซิงโครไนซ์สภาพแวดล้อมนี้มีหลักการเดียวกับฟังก์ชั่นเทรนด์

01:54.700 --> 02:13.690
จากนั้นเราได้รับแบบจำลองของเราและเพื่อทำสิ่งนี้เราสร้างวัตถุของคลาสกิจกรรมและเราใส่รูปร่างอินพุตด้วยพื้นที่สังเกตสภาพแวดล้อมและเลขศูนย์รูปร่างเหมือนกับฟังก์ชันรถไฟและเอาต์พุตของเราซึ่งเป็นแอ็คชั่นที่มีพื้นที่ปฏิบัติการ

02:13.900 --> 02:19.770
เหมือนก่อนแล้วมีอะไรใหม่ที่นี่ตั้งแต่เราฝึกเสร็จแล้ว

02:19.870 --> 02:26.880
เราไม่ต้องการให้โมเดลอยู่ในโหมดรถไฟเพราะเพียงแค่เราไม่ต้องการให้มันฝึกฝนเราต้องการนำมาพัฒนา

02:27.160 --> 02:29.740
และนั่นคือสิ่งที่เราทำกับโมเดลที่วิวัฒนาการ

02:29.890 --> 02:38.350
นั่นเป็นเพียงการวางเอเจนต์การทดสอบในโหมดที่จะทดสอบการประเมินประสิทธิภาพ

02:38.720 --> 02:46.790
จากนั้นที่นี่เราได้รับสถานะอินพุตของเราซึ่งเป็นภาพอินพุตจากเกมซึ่ง ณ จุดนี้เป็นการแข่งขันทั้งหมด

02:46.840 --> 02:49.360
จากนั้นเราเปลี่ยนพวกเขาเป็นนักเต้นคบเพลิง

02:49.480 --> 02:52.810
ที่นี่เราเริ่มต้นคำบางคำที่นี่

02:52.840 --> 02:54.980
เราเริ่มต้นเป็นจริง

02:55.200 --> 03:05.990
ดังนั้นยังคงเหมือนครั้งที่แล้วมีอะไรใหม่อีกครั้งที่เราแนะนำที่สามนี้ทำงานได้กับฟังก์ชั่นเวลาเพื่อวัดเวลาของการคำนวณ

03:06.190 --> 03:08.680
และนั่นเป็นเพราะคุณต้องการได้รับจุดเริ่มต้น

03:08.890 --> 03:16.550
จากนั้นนี่คือการกระทำที่เราใช้คิวที่มีประโยชน์มากซึ่งช่วยให้สามารถเพิ่มองค์ประกอบลงในคิวจากด้านขวาหรือจากด้านซ้าย

03:16.600 --> 03:21.960
มันใช้งานได้จริงมากและฉันจะให้ข้อมูลอ้างอิงแก่คุณฉันคิดว่าเป็นโค้ดที่ลดลง

03:22.180 --> 03:27.320
ดังนั้นคุณจะต้องดูว่า dequeue นี้คืออะไรและอนุญาตให้ทำเช่นนั้น

03:27.490 --> 03:34.690
จากนั้นเราเริ่มต้นความยาวของตอนที่มีศูนย์แน่นอนและจากนั้นเราจะเพิ่มขนาดในวงนี้

03:34.870 --> 03:36.480
ดังนั้นเราจึงใช้เคล็ดลับเดียวกันที่นี่

03:36.680 --> 03:42.290
ในขณะที่เป็นจริงและในลูปเราเพิ่มความยาวของแต่ละตอน

03:42.490 --> 03:51.460
เมื่อเกมสิ้นสุดลงเมื่อเกมจบลงเราจะโหลดโมเดลแชร์ล่าสุดชุดแชร์โมเดลที่ลงวันที่โดยรุ่นอื่น

03:51.460 --> 03:55.610
จำไว้ว่าที่นี่แบบจำลองที่ใช้ร่วมกันไม่ได้ลงวันที่แล้ว

03:55.660 --> 04:04.030
ถ้าเกมจบลงถ้าเกมจบเราจะกำหนดค่าเริ่มต้นใหม่ให้เราเห็นสถานะของเซลล์จากนั้นระบุสถานะของ X

04:04.190 --> 04:13.840
และจากนั้นระบุรัฐ H x และหากเป็นเกมที่ยังไม่จบ

04:13.840 --> 04:18.030
แต่เพื่อให้แน่ใจว่าพวกเขาจะสอนตัวแปรเพื่อให้พวกเขาสามารถแนบกับการไล่ระดับสี

04:18.170 --> 04:30.870
ตกลงนั่นคือสิ่งที่เราตายไปแล้วในฟังก์ชั่นเทรนด์แล้วยังอยู่ในขณะที่ลูปและหลังจากมีข้อมูลที่ระบุในสถานะที่ซ่อนอยู่อย่างถูกวิธีขึ้นอยู่กับสองกรณี

04:31.060 --> 04:34.360
เราจะทำอย่างไรเราจะได้คำทำนายของวันพรุ่งนี้

04:34.450 --> 04:37.380
นั่นคือสิ่งที่เราทำที่นี่ด้วยรหัสบรรทัดนี้

04:37.750 --> 04:43.360
ดังนั้นเราจึงได้รับค่าซึ่งเป็นผลลัพธ์ของนักวิจารณ์มูลค่าที่แท้จริงซึ่งเป็นผลลัพธ์ของนักแสดง

04:43.600 --> 04:49.750
จากนั้นมันก็ขึ้นอยู่กับสถานะที่ซ่อนอยู่ทั้งหมด H x และเซลล์ระบุ X

04:49.750 --> 04:54.130
แล้วเราสร้างการแจกแจงความน่าจะเป็นของการกระทำที่ค่า Q เป็นค่าการกระทำที่นี่

04:54.270 --> 04:56.380
และเราทำสิ่งนี้ด้วยฟังก์ชั่นถัดไป

04:56.470 --> 05:02.650
และแน่นอนว่าเราไม่จำเป็นต้องได้รับความน่าจะเป็นที่โชคเพราะนี่เป็นเพียงการฝึกอบรมสำหรับตัวแทนการทดสอบ

05:02.650 --> 05:10.920
มันจะเล่นการกระทำที่เราเพิ่งจะใช้คุณรู้เหมือนการลงโทษกิจกรรมบางอย่างที่จะเล่น แต่เราไม่ได้ทำการฝึกอบรมใด ๆ ที่นี่

05:10.960 --> 05:22.720
ดังนั้นเราจึงมีเพียงเสาและจากนี้เราเล่นการกระทำโดยการโดยตรงกับ RMX ของความน่าจะเป็นที่ใช้การกระทำที่มีความน่าจะเป็นสูงสุด

05:22.810 --> 05:26.860
และเหตุผลก็คือตัวแทนทดสอบไม่ได้ทำการสำรวจใด ๆ

05:26.860 --> 05:38.170
โปรดจำไว้ว่าเราต้องการโอกาสที่จะรับการกระทำบางอย่างที่มีความน่าจะเป็นต่ำเมื่อคุณต้องการทำการสำรวจบางอย่างของการกระทำอื่น ๆ

05:38.170 --> 05:53.340
และคุณรู้ว่าไม่ดำเนินการทุกครั้งที่มีความน่าจะเป็นสูงสุด แต่ที่นี่ตัวแทนทดสอบสามารถทำการสำรวจและ นั่นคือเหตุผลที่เราดำเนินการโดยตรงที่มีความน่าจะเป็นสูงสุดอีกครั้งจากนั้นเมื่อเราเล่นการกระทำที่เราไปถึงสถานะถัดไปและเราได้คำต่อไป

05:53.470 --> 05:56.920
และนั่นคือวันลงวันที่ว่าเกมจะจบ

05:57.160 --> 06:04.630
ดังนั้นนี่คือสิ่งที่เราได้รับทั้งหมดนี้ด้วยโค้ดบรรทัดนี้โดยการเล่นแอ็คชั่นหลังจากเลือกมันด้วย Max ของเราที่นี่

06:04.840 --> 06:18.950
ดังนั้นเราเล่นการกระทำที่นี่และเราได้รับสถานะที่เราได้รับรางวัลและทำมันอีกครั้งแล้วเนื่องจากเราเพิ่งได้รับรางวัลใหม่เราจะอัปเดตรางวัลบางส่วนโดยเพียงเพิ่มคำใหม่

06:19.180 --> 06:21.480
และในที่สุดเมื่อใดก็ตามที่เกมเสร็จสิ้น

06:21.490 --> 06:31.210
ดังนั้นถ้านั่นหมายความว่าเมื่อเกมเสร็จเมื่อฉันเล่นเกมจนจบเราจะพิมพ์ผลลัพธ์ตามเวลาที่ตรงกันข้าม

06:31.230 --> 06:36.100
เราต้องการความยาวของตอนที่มันใช้เวลานานเท่าไหร่

06:36.100 --> 06:42.890
เล่นได้ดีและนี่คือวิธีที่เราพิมพ์ตัวแปรเหล่านี้ทั้งหมดโดยใช้ลูกเล่นเล็ก ๆ เหล่านี้

06:42.910 --> 06:46.280
นั่นเป็นเวลาที่เราต้องการบางอย่างมันเป็นเพียงตัวแปร

06:46.340 --> 06:51.960
บางคำและแนวคิดที่มีความยาวคือความยาวของตกลงปัจจุบัน

06:52.160 --> 06:59.930
และเมื่อเราพิมพ์ผลลัพธ์ทั้งหมดออกมาได้ดีเนื่องจากเกมจบและเราต้องการเริ่มเกมใหม่

06:59.930 --> 07:04.170
นั่นคือผลรวมของสองคำศูนย์ความยาวของตอนเป็นศูนย์

07:04.230 --> 07:13.360
เราจะออกพระราชบัญญัติใหม่อีกครั้งโดยใช้ฟังก์ชั่นคีย์นี้รีเซ็ตภาพอินพุตที่คุณรู้จัก

07:13.610 --> 07:22.840
และในที่สุดเราก็ใช้เวลานี้ที่หลับ 60 วินาทีเพื่อพักสักหนึ่งนาที

07:22.850 --> 07:24.810
และถ้าหากเกมจบลง

07:25.210 --> 07:25.840
ตกลง.

07:25.940 --> 07:32.210
และในที่สุดเราก็มีรหัสบรรทัดสุดท้ายนี้ซึ่งจะทำให้เราได้สถานะใหม่และจากนั้นเราสามารถก้าวไปข้างหน้า

07:32.240 --> 07:34.550
เราสามารถดำเนินการต่อในเกมใหม่นี้

07:34.550 --> 07:35.840
ดังนั้นเราไปกันเลย

07:35.870 --> 07:37.430
นั่นคือฟังก์ชั่นทดสอบ

07:37.430 --> 07:40.550
สิ่งที่คุณจะเห็นวิดีโอในหนึ่งหรือสองบทเรียน

07:40.550 --> 07:45.310
ฉันหวังว่าคุณจะเป็นเหมือนครั้งสุดท้ายที่ได้ดูผลลัพธ์ที่อยู่กับคุณ

07:45.350 --> 07:47.360
Curial และฉันที่จะสนุก

07:47.480 --> 07:48.400
และฉันกำลังบอกคุณ

07:48.440 --> 07:50.330
คาดว่าจะเห็นผลลัพธ์ที่ดี

07:50.360 --> 07:55.130
แต่โปรดทราบว่าเกมฝ่าวงล้อมนี้ท้าทายมาก

07:55.130 --> 07:58.430
เราคิดว่ามันเป็นเกมง่ายๆที่เล่นก่อน แต่ไม่ได้เลย

07:58.430 --> 08:01.480
จริงๆแล้วมันกลับกลายเป็นสิ่งที่ยากยิ่งกว่าการลงโทษ

08:01.670 --> 08:03.890
และนั่นคือสาเหตุที่เราใส่เข้าไปในโมดูลสุดท้าย

08:04.190 --> 08:09.510
แต่ต่อไปเรามาทำฟังก์ชั่นหลักในบทต่อไป

08:09.590 --> 08:11.770
เหมือนกันนี่ไม่ใช่สิ่งสำคัญที่สุดที่นี่

08:11.780 --> 08:20.570
ตอนนี้ A-380 นั้นบ้าคลั่งเราจะไม่เขียนมันทีละบรรทัดมันจะขยายโค้ดและเราก็จะได้ผลลัพธ์อย่างรวดเร็ว

08:20.570 --> 08:22.130
จนกว่าจะสนุกกับ AI
