WEBVTT

00:00.600 --> 00:02.360
สวัสดีและยินดีต้อนรับสู่เรื่องราว

00:02.520 --> 00:14.820
ทีนี้เราจะทำการวนรอบเพื่อคำนวณการสูญเสียนโยบายและการสูญเสียคุณค่าและเมื่อเรามีบทเรียนสองบทนี้เราจะสามารถใช้เครื่องมือเพิ่มประสิทธิภาพของเราเพื่อวางบุหรี่ในทรายเพื่อลดการสูญเสีย

00:14.820 --> 00:15.990
เอาล่ะเราไปกันเลย

00:15.990 --> 00:24.280
เราเริ่มต้นที่นี่โดยวิธีการในบทช่วยสอนก่อนหน้านี้ที่เราใช้งานส่วนนี้และฉันลืมลบการเยื้องออกไป

00:24.420 --> 00:28.210
ดังนั้นการเริ่มต้นจากที่นี่จะไม่ตก

00:28.530 --> 00:32.650
และตอนนี้เรากำลังเริ่มวนเต็มใหม่ดังนั้นฉันเริ่มที่นี่ด้วยสี่

00:32.840 --> 00:40.420
และตอนนี้สิ่งที่เรากำลังจะทำคือเราจะเริ่มจากขั้นตอนสุดท้ายที่ทำในระหว่างการสำรวจและเราจะย้อนเวลากลับไป

00:40.470 --> 00:51.250
นั่นคือเหตุผลที่ฉันทำเพื่อฉันในช่วงการกลับรายการที่ดินรางวัลที่ยิ่งใหญ่ที่สุดคืออย่างน้อย

00:51.260 --> 00:58.400
และเนื่องจากแต่ละขั้นตอนของการสำรวจมีความสัมพันธ์กับที่เราทำงานเพราะในแต่ละขั้นตอนเราจะได้รับรางวัลเมื่อเราพูด

00:58.400 --> 01:05.090
จำนวนขั้นตอนนี้และย้อนกลับที่นี่ถูกใช้เพื่อให้เราสามารถย้อนเวลากลับไปได้

01:05.160 --> 01:11.570
และตอนนี้สิ่งที่เรากำลังจะทำคืออัปเดตรางวัลสะสมที่อยู่ไกลและเราจะอัปเดตด้วยวิธีนี้

01:11.640 --> 01:14.110
นั่นเป็นสิ่งเดียวกับที่เราทำเพื่อ Doom

01:14.170 --> 01:31.290
มันเท่ากับแกมม่าที่เราได้รับจากพารามิเตอร์ของเราและรับจากโปรแกรมแรกที่ไม่ไกลเท่าบวกกับรางวัลของสิ่งนี้ซึ่งเราสามารถรับได้โดยการให้รางวัลน้อยที่สุดและรับดัชนี

01:31.500 --> 01:36.680
ดังนั้นสำหรับเรานี่จะเป็นงานสุดท้ายและจากนั้นก็จะเป็นรางวัลของวันก่อนหน้าและอื่น ๆ

01:37.080 --> 01:43.320
และทุกครั้งที่เราอัพเดทโดยการคูณด้วยแกมม่าแล้วเพิ่มรางวัลนี้ที่ชุด

01:43.650 --> 01:47.090
และด้วยการทำเช่นนี้อย่าลืมว่าเราจะได้ในที่สุด

01:47.210 --> 01:55.910
ดังนั้นฉันจะเขียนมันเมื่อพวกเขามาและเราจะได้รับรางวัลชุมชนของเราที่จะเจ๋งที่สุดในตอนท้ายของวงให้เป็นศูนย์

01:56.060 --> 02:02.100
รางวัลของ step zero บวก gamma times เป็นหนึ่งเดียว

02:02.290 --> 02:09.040
เราเป็นคนแรกที่บวกแกมม่าคูณด้วยคำนั้น

02:09.060 --> 02:21.960
ขั้นตอนที่สองบวกนั่นคือบวกแกมม่าที่ระดับกำลังของและลบหนึ่งครั้งที่ได้รับรางวัลตามขั้นตอนและลบ 1 ที่จำนวนขั้นตอนใด

02:22.800 --> 02:32.250
ๆ แต่จากนั้นให้ระมัดระวังในตอนท้ายเราจะมีแกมม่าที่จำนวนขั้นตอน

02:33.530 --> 02:40.110
เวลาจะลดคุณค่าของฟังก์ชันที่ใช้กับสถานะสุดท้าย

02:40.150 --> 02:42.450
นั่นคือสิ่งที่เราควรจะได้รับ

02:42.680 --> 02:50.840
และนี่คือสิ่งที่เราจะได้รับเพราะจำไว้ที่นี่เราได้ค่านี้และขั้นตอนสุดท้ายเพราะนี่ทำตอนท้ายของลูป

02:51.200 --> 02:56.140
ดังนั้นเราจึงได้ค่าและเราตั้งค่าให้เท่ากับค่านั้น

02:56.420 --> 03:03.310
ตอนนี้อยู่ที่จุดเริ่มต้นของการวนรอบเต็มสองที่นี่จะเท่ากับค่านี้ของวันสุดท้าย

03:03.590 --> 03:10.300
แต่จากการทำเช่นนี้นี่คือสิ่งที่เราจะได้ในตอนท้ายเท่ากับหรือเป็นศูนย์เปอร์เซ็นต์หรือหนึ่งสนามเทนนิสหรือสองบวกสามารถเพิ่มพลังและลบหนึ่งครั้งที่เราอยู่ในขั้นตอน

03:10.520 --> 03:20.990
ของขั้นตอนคูณค่านี้ของการ Lastings

03:21.020 --> 03:25.900
นั่นคือสิ่งสำคัญที่ต้องเข้าใจและนี่อาจเป็นการกระทำของรางวัลสะสม

03:26.090 --> 03:37.390
และนั่นเป็นสาเหตุที่เป็นสิ่งสำคัญที่จะต้องเริ่มต้นจากการเริ่มต้นหรือกับที่นี่และทำวงวนกลับด้านนี้เพื่อให้สมการสุดท้ายสมบูรณ์แบบ

03:37.400 --> 03:49.110
และตอนนี้เรามีคุณค่าที่เหมาะสมสำหรับรางวัลสะสมเราจะคำนวณความได้เปรียบและความได้เปรียบที่นี่เป็นเพียงประโยชน์จากการได้รับรางวัลนี้เมื่อเทียบกับพวกเขา

03:49.160 --> 03:56.600
ดังนั้นฉันจะแนะนำความได้เปรียบที่วิวัฒนาการได้ดังนั้นมันจะเท่ากับรางวัลสะสมนี้ลบด้วยค่าของฟังก์ชัน V

03:57.020 --> 04:01.390
ที่ได้มาในระยะ

04:01.610 --> 04:06.690
ดังนั้นนั่นคือค่าลบของเรา

04:07.130 --> 04:07.740
สมบูรณ์

04:07.760 --> 04:13.160
และตอนนี้เรามีชุมชนที่เราทำงานและได้เปรียบจากนั้นเราจะได้รับการสูญเสียค่า

04:13.190 --> 04:15.170
นี่เป็นครั้งแรกที่เราจะได้รับตอนนี้

04:15.200 --> 04:20.940
ดังนั้นเราจะได้รับคุณค่าของเราทำได้ดีมากและสิ่งนี้จะได้รับการปรับปรุงด้วยวิธีต่อไป

04:20.960 --> 04:24.530
จำไว้ว่าจนถึงตอนนี้คุณค่าที่เราได้รับการเริ่มต้นเป็นศูนย์

04:24.800 --> 04:35.480
แล้วเราจะหาค่าการสูญเสียอีกครั้งและที่ 0 5 คูณสแควร์เพื่อผลประโยชน์เพื่อให้เราได้มาทางนี้

04:35.490 --> 04:39.410
ได้เปรียบคิดเช่นกัน

04:39.470 --> 04:52.830
ดังนั้นนั่นหมายถึงการยกกำลังสองของความได้เปรียบของกำลังและนั่นคือค่าบวกกับความสูญเสียที่เกิดขึ้นจากการทำนายค่าของฟังก์ชั่นเอาท์พุทโดยลำห้วย

04:53.120 --> 04:59.840
ดังนั้นมันจึงสมเหตุสมผลว่าสิ่งนี้ถูกลดคุณค่าเพียงเพราะจำข้อได้เปรียบของการกระทำในสถานะ s คือความแตกต่างระหว่างค่า Q

04:59.840 --> 05:04.820
และค่าของฟังก์ชัน B

05:04.880 --> 05:14.660
ดังนั้นเมื่อเราเล่นการกระทำที่ดีที่สุดเราจะได้สถานะนิ่งกับ Q

05:14.660 --> 05:20.080
ที่ดีที่สุดของการกระทำที่ดีที่สุดผู้เล่นดาวในรัฐตามมูลค่าที่เหมาะสม

05:20.080 --> 05:22.000
Vistar ของรัฐ

05:22.180 --> 05:29.990
ดังนั้นจึงค่อนข้างง่ายที่จะเข้าใจว่าเมื่อข้อได้เปรียบไม่เท่ากับศูนย์จะมีความแตกต่างระหว่างสองสิ่งนี้

05:30.220 --> 05:32.930
และนั่นคือวิธีการวัดครั้งสุดท้าย

05:33.370 --> 05:34.120
ตกลง.

05:34.120 --> 05:37.410
การคำนวณครั้งสุดท้ายที่ผ่านมาอย่างมาก

05:37.420 --> 05:39.000
เรามีอีกแล้วที่จะไป

05:39.010 --> 05:59.760
มันคือการสูญเสียนโยบายและนั่นคือสิ่งที่เรากำลังจะคำนวณในขณะนี้และในการคำนวณเราจำเป็นต้องพิจารณาการประเมินความได้เปรียบทั่วไปอีกครั้งเพราะการคำนวณการสูญเสียนโยบายที่เราจำเป็นต้องมี เราต้องการความแตกต่างชั่วคราวของวาล์วเวที

05:59.830 --> 06:07.710
ดังนั้นเราจึงมีหลายสิ่งที่ต้องคำนวณที่นี่และเราจะเริ่มต้นด้วยความแตกต่างชั่วคราวนี้เมื่อเราได้รับความแตกต่างชั่วคราว

06:07.780 --> 06:14.900
เราจะได้รับการประมาณความได้เปรียบโดยทั่วไปและเมื่อเราได้รับข้อได้เปรียบโดยทั่วไปเมื่อพูดถึงเราจะได้รับคาบสมุทร

06:14.920 --> 06:15.460
เอาล่ะ

06:15.670 --> 06:28.100
งั้นเริ่มจากความแตกต่างชั่วคราว กรัม DD

06:28.700 --> 06:39.200
เท่ากับรางวัลของขั้นตอนที่ฉันบวกกานาซึ่งเราได้สิ่งต่าง ๆ ในรายการโปรแกรมของเราดังนั้น

06:39.200 --> 06:50.260
Bromstad gamma คูณมูลค่าของหนี้นี้บวกหนึ่งและเราเพิ่มข้อมูลเพื่อเข้าถึงลบด้วยมูลค่าของขั้นตอนที่ฉันและเดียวกันที่เราเพิ่ม ข้อมูล.

06:50.280 --> 06:50.610
เอาล่ะ

06:50.670 --> 06:53.900
นั่นคือสูตรของความแตกต่างชั่วคราวและค่าสถานะ

06:54.180 --> 06:59.690
และตอนนี้เราสามารถอัปเดตการประเมินความได้เปรียบโดยทั่วไปและวิธีการลงวันที่

06:59.880 --> 07:10.940
ทีนี้เราเอา R-GA และเราคูณมันด้วยพารามิเตอร์แกมม่าเวลาแกมม่าเพื่อให้เราเข้าถึงกับพารามิเตอร์ของเราได้เช่นกัน

07:10.950 --> 07:18.410
ดังนั้นเราจึงใช้โปรแกรมเซลล์และเราเพิ่มความแตกต่างชั่วคราวของค่าสถานะ

07:18.510 --> 07:19.890
ดังนั้นระวัง

07:19.890 --> 07:21.280
เราอยู่ในวง

07:21.450 --> 07:27.060
และแต่ละครั้งที่เราคูณด้วยและโดยเราเพิ่มความแตกต่างชั่วคราว

07:27.150 --> 07:50.360
ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องเข้าใจว่าในตอนท้ายของวงนี้การประมาณค่าความได้เปรียบโดยทั่วไปนี้จะเท่ากับผลรวมของทุกขั้นตอนของแกมม่าครั้ง ในใจ.

07:50.700 --> 07:58.880
และตอนนี้เรามีการประมาณความได้เปรียบโดยทั่วไปและความแตกต่างทั่วไปในที่สุดเราก็สามารถคำนวณนโยบายได้

07:59.070 --> 08:00.210
ลองทำสิ่งนี้กัน

08:00.210 --> 08:10.020
เราจะอัปเดตกฎหมายนโยบายของเราด้วยวิธีต่อไปนี้โดยใช้นโยบายเก่าสำหรับเราและเราลดความน่าจะเป็นของ

08:10.230 --> 08:23.920
LUGG ที่ได้รับในขั้นตอนที่เราคูณด้วยการประมาณความได้เปรียบทั่วไปที่เราต้องใส่ในตัวแปร การไล่ระดับสี

08:24.150 --> 08:33.170
มันจะต้องแนบกับการไล่ระดับสีในกราฟแล้วเราบวกลบ 0 1 เท่าของเอนโทรปี

08:33.170 --> 08:36.660
เอนโทรปีที่ได้จากขั้นตอนในฤดูใบไม้ร่วง

08:37.200 --> 08:38.130
และอีกครั้ง.

08:38.220 --> 08:39.540
ตอนนี้ระวัง

08:39.540 --> 08:50.830
นี่คือวงในซึ่งหมายความว่าในตอนท้ายของไข้หวัดใหญ่สิ่งที่คุณจะได้รับคือนโยบายบวกเท่ากับลบบางส่วนผ่านขั้นตอนของการ

08:51.280 --> 09:04.090
luggin ผลิตภัณฑ์ของนโยบายในช่วงเวลาเพื่อประเมินความได้เปรียบทั่วไป

09:04.160 --> 09:10.710
บวก 0 นี้ 01 คูณเอนโทรปีทำเพื่อเราจะได้

09:10.720 --> 09:13.240
และตอนนี้นโยบายของฉันคืออะไร

09:13.280 --> 09:21.320
นั่นคือความน่าจะเป็นที่อ่อนนุ่มสูงสุดของการกระทำและเอนโทรปีของสิ่งนี้ที่คุณจะรู้ว่ามันคือที่ที่เราคำนวณก่อนหน้า

09:21.430 --> 09:22.870
และสิ่งที่เราตั้งใจจะทำรายการ

09:22.940 --> 09:24.130
ดังนั้นเรามีอยู่แล้ว

09:24.290 --> 09:29.950
แต่ปีนี้ฉันได้ยินว่ามันเป็นความน่าจะเป็นสูงสุดของการกระทำ

09:30.170 --> 09:32.080
แล้วทำไมเราถึงใส่เครื่องหมายลบตรงนี้

09:32.150 --> 09:37.220
นั่นเป็นเพราะโชคของความน่าจะเป็นและเอนโทรปีเป็นค่าลบ

09:37.220 --> 09:44.370
และเนื่องจากเราต้องการที่จะลดค่าสัมบูรณ์ของพวกเขาเราจะต้องดูสิ่งนี้เป็นโอกาสสุดท้ายของ LUGG เมื่อเทียบกับระยะทาง

09:44.370 --> 09:51.530
ไม่เราต้องการเพิ่มความน่าจะเป็นของการกระทำที่จะเพิ่มความได้เปรียบ

09:51.530 --> 09:53.130
นั่นคือความคิดทั้งหมดที่อยู่เบื้องหลัง

09:53.210 --> 10:03.500
เราต้องการเพิ่มความน่าจะเป็นของการเล่นแอ็คชั่นที่จะเพิ่มความได้เปรียบและสำหรับพวกคุณที่อาจสงสัยว่าอะไรคือจุดประสงค์ของเอนโทรปีนี้

10:03.650 --> 10:05.720
มีปัจจัยนี้ 0 01 ที่นี่

10:05.930 --> 10:19.340
จุดประสงค์ของมันก็เพื่อป้องกันไม่ให้มันตกลงไปในกับดักเร็วเกินไปที่เรามีการแจกแจงความน่าจะเป็นด้วยศูนย์สำหรับการกระทำทั้งหมดยกเว้นที่มีความน่าจะเป็นที่หนึ่ง

10:19.550 --> 10:22.370
และถ้าเกิดว่านั่นจะลดเอนโทรปี

10:22.550 --> 10:30.940
นั่นคือเหตุผลที่เรากำลังเพิ่มการแก้ไขเล็ก ๆ 0 01 ปีที่จะทำให้การเพิ่มขึ้นของเอนโทรปีในความรู้สึก

10:31.020 --> 10:35.460
ตกลงดังนั้นตอนนี้ข่าวดีก็คือว่าส่วนที่ยากที่สุดจะทำ

10:35.500 --> 10:44.820
เรามีการสูญเสียสองอย่างดังนั้นสิ่งที่เราต้องทำในตอนนี้และเรารู้อยู่แล้วว่าจะทำอย่างไรเพื่อให้ได้เกรดเพื่อลดระดับสองคลาสนี้

10:45.190 --> 10:51.170
สิ่งที่เราจะทำตอนนี้คือออกจากวงนี้และเราจะใช้เครื่องมือเพิ่มประสิทธิภาพของเรา

10:51.390 --> 11:04.810
สิ่งที่เราทำแยกต่างหากจากนั้นจำสิ่งแรกที่เราต้องทำคือการเริ่มต้นพารามิเตอร์การให้คะแนนทั้งหมดให้เป็นศูนย์และการทำเช่นนี้เราเพิ่มที่แล้วไปที่ศูนย์

11:04.810 --> 11:06.980
เอาล่ะเสร็จแล้ว

11:07.000 --> 11:15.670
ตอนนี้เรากำลังทำการแพร่กระจายย้อนหลัง แต่เราจะให้ความสำคัญกับนโยบายมากกว่าค่าที่สูญเสียไปสองเท่า

11:15.970 --> 11:28.190
ดังนั้นในการทำเช่นนี้เราจะใส่นโยบายวงเล็บและคะแนนบวกกับ 0 การสูญเสีย 5 ค่าดังนั้น 0

11:28.970 --> 11:37.400
5

11:37.400 --> 11:47.460
เท่าของมูลค่าสำหรับเราและเราจะเพิ่มตรงนี้ว่าเราใช้วิธีย้อนหลังเพื่อทำการเผยแพร่ย้อนหลังและด้วยเคล็ดลับนี้ที่นี่กับนโยบายน้อยกว่าครึ่งหนึ่งของมูลค่าที่เรามีความสำคัญมากกว่านโยบายมากกว่า Vaness

11:47.480 --> 11:56.890
ตกลงจากนั้นเราจะใช้เคล็ดลับอื่นเพื่อป้องกันการไล่ระดับสีจากการรับค่าที่มีขนาดใหญ่มากและเพื่อสร้างอัลกอริทึม

11:57.020 --> 12:03.530
และเคล็ดลับในการทำเช่นนั้นคือการได้รับห้องสมุดคบเพลิงของเราก่อนจากนั้นจุดสิ้นสุดและโมดูลจากห้องสมุดคบเพลิงจากนั้นจะใช้

12:04.220 --> 12:13.040
submodule และตอนนี้เราจะใช้ฟังก์ชั่น

12:13.530 --> 12:20.830
พารามิเตอร์โมเดลพร้อมอินพุตที่สองซึ่งจะเป็น 40

12:21.200 --> 12:28.000
และเคล็ดลับนั้นจะทำให้แน่ใจว่าการไล่ระดับสีจะไม่ใช้ค่าขนาดใหญ่มากและเพื่อสร้างอัลกอริทึม

12:28.220 --> 12:30.770
และสำหรับพวกคุณที่อาจสงสัยว่า 40 ปีนี้

12:30.800 --> 12:31.640
เผง

12:31.850 --> 12:37.130
นั่นก็หมายความว่าเรากำลังใช้ค่าเหล่านี้นั่นจึงเป็นบรรทัดฐานของการไล่ระดับสีอยู่ระหว่าง 0

12:37.130 --> 12:42.510
ถึง 40 และนั่นคือวิธีที่เราป้องกันไม่ให้การไล่ระดับสีเป็นค่าขนาดใหญ่

12:43.000 --> 12:45.170
ตกลงตอนนี้เราเกือบจะเสร็จแล้ว

12:45.170 --> 12:52.550
จำไว้ว่าเราได้ทำสิ่งนี้แล้วและแน่ใจว่าฟังก์ชั่น

12:52.670 --> 13:01.090
Gretz ที่ใช้ร่วมกันเมื่อต้นฤดูใบไม้ร่วงนั้นคือเพื่อให้แน่ใจว่าตัวแทนและรูปแบบที่ใช้ร่วมกันนั้นใช้การไล่ระดับสีเดียวกันและเพื่อทำสิ่งนี้เพื่อให้แน่ใจว่า

13:01.220 --> 13:14.690
ดังนั้นเราจะเพิ่มและแน่ใจว่าจะแบ่งแกร็ดเพื่อให้แน่ใจว่าศีลธรรมและโมเดลที่แชร์นั้นมีการไล่ระดับสีเดียวกัน

13:14.690 --> 13:16.670
เอาล่ะนั่นเป็นเพียงข้อควรระวัง

13:16.670 --> 13:21.620
ฉันไม่แน่ใจว่าจำเป็นอย่างยิ่ง แต่คุณรู้ว่าอย่างน้อยเราจะไม่ได้รับปัญหาที่นี่

13:22.040 --> 13:22.550
ถูก

13:22.550 --> 13:43.300
และสุดท้ายบรรทัดสุดท้ายของรหัสเราแน่นอนว่าจะดำเนินการตามขั้นตอนการปรับให้เหมาะสมเพื่อลดการสูญเสียและคุณรู้วิธีที่จะทำแน่นอนเราจะใช้เครื่องมือเพิ่มประสิทธิภาพของเราและเราเพิ่มขั้นตอนนั้นด้วยวงเล็บแล้วเราไปฝึกสมองของเรา เกิน.

13:43.550 --> 13:44.780
ขอแสดงความยินดีด้วย

13:44.780 --> 13:47.030
ฉันหวังว่ามันจะไม่ท่วมท้นเกินไป

13:47.060 --> 13:49.620
ไม่ต้องกังวลฉันจะให้รหัสพร้อมความคิดเห็นทั้งหมด

13:49.670 --> 13:53.330
ดังนั้นหากคุณพลาดรายละเอียดใด ๆ คุณสามารถดูความคิดเห็น

13:53.420 --> 13:57.260
และไม่ต้องกังวลหากคุณยังไม่เข้าใจอะไรเลยว่านี่เป็นขั้นสูงมาก

13:57.410 --> 14:04.020
แต่โปรดมั่นใจว่านี่เป็นการเข้าชมที่จดจำที่มีประสิทธิภาพมากที่สุดจากผู้สร้าง Pi

14:04.100 --> 14:06.770
ดังนั้นเราจึงทำงานร่วมกับสิ่งที่ดีที่สุดได้ที่นี่

14:06.850 --> 14:16.520
สถานะของศิลปะจึงเป็นเรื่องปกติโดยสิ้นเชิงถ้าคุณไม่ได้รับทุกอย่างเป็นครั้งแรก แต่โดยการทำงานหลายครั้งคุณจะได้รับความสะดวกสบายมากขึ้นอย่างแน่นอน

14:16.520 --> 14:19.150
ดังนั้นตอนนี้เราเสร็จสิ้นการฝึกอบรมแล้ว

14:19.220 --> 14:26.080
โดยพื้นฐานแล้วเราสร้างสิ่งที่สำคัญที่สุดที่คุณรู้ว่าเราสร้างสมองด้วยการสร้างสถาปัตยกรรมของโครงข่ายประสาทเทียมด้วยการโน้มน้าว LCN

14:26.120 --> 14:30.610
และเลเยอร์ที่เชื่อมต่อกัน

14:30.620 --> 14:34.360
เราฝึกสมองของเขาโดยสร้างรหัสรถไฟที่นี่

14:34.520 --> 14:37.190
ดังนั้นโดยพื้นฐานแล้วหัวใจของอัลกอริทึมก็เสร็จสิ้น

14:37.310 --> 14:39.800
คุณทำให้ A3 ดูยินดีด้วย

14:39.800 --> 14:43.940
ตอนนี้เรามีสิ่งที่ต้องทำอีกสองสามอย่าง แต่นั่นก็เพื่อความสนุกสนาน

14:43.940 --> 14:54.020
คุณรู้ว่าเราจำเป็นต้องทำการทดสอบนี้ที่เราพบซึ่งจะทดสอบตัวแทนและให้วิดีโอและเครื่องบินแตกออก

14:54.170 --> 15:02.720
ดังนั้นนี่จะสนุกมากที่ได้ดูเราจะไม่เขียนโค้ดทุกบรรทัดของการทดสอบนี้ที่ฉันล้มเพราะอย่างที่เราบอกว่าเราทำสิ่งที่สำคัญที่สุด

15:02.840 --> 15:11.770
23C ที่เกี่ยวข้องทั้งหมด แต่แน่นอนว่าฉันจะอธิบายรหัสและในที่สุดเราก็ทำสิ่งนี้ขึ้นมาฉันพบว่ามันจะรันโค้ด

15:11.890 --> 15:15.900
และจากช่วงเวลาที่เราเรียกใช้รหัสนี้รหัสทั้งหมดจะถูกสร้างขึ้น

15:16.040 --> 15:18.150
ดังนั้นสมองจะถูกสร้างขึ้น

15:18.200 --> 15:24.080
การฝึกอบรมจะเกิดขึ้นและตาจะเล่นเกมฝ่าวงล้อมใหม่และเราจะได้รับวิดีโอทั้งหมด

15:24.080 --> 15:26.480
ดังนั้นฉันจึงอดใจรอไม่ไหวที่จะดูพวกเขาในที่สุด

15:26.550 --> 15:29.810
เราจะดูว่าเขาฉลาดพอที่จะจับบอลหรือไม่

15:29.990 --> 15:37.250
ดังนั้นตอนนี้ฉันจะเห็นในบทช่วยสอนถัดไปสำหรับเดสก์ท็อป UI นี้เพื่อให้เราสามารถทดสอบ AI ในเกมใหม่บางเกม

15:37.300 --> 15:38.980
และจนกว่าจะสนุกกับ AI