WEBVTT

00:00.330 --> 00:02.170
สวัสดีและยินดีต้อนรับสู่ Statoil

00:02.400 --> 00:06.270
ตกลงดังนั้นเราเพิ่งคำนวณเอนโทรปีและเพิ่มเข้าไปในรายการเอนโทรปี

00:06.270 --> 00:13.190
และตอนนี้สิ่งที่เรากำลังจะทำคือลดการกระทำแบบสุ่มตามการแจกแจงความน่าจะเป็นของการถัดไป

00:13.200 --> 00:14.540
ลองทำสิ่งนี้กัน

00:14.540 --> 00:15.780
นั่นคือขั้นตอนต่อไป

00:15.870 --> 00:19.910
เรายังอยู่ในลูปเพราะเรายังคงทำงานในขั้นตอนที่นี่

00:20.160 --> 00:22.550
ตอนนี้คุณก็รู้วิธีเล่นแอ็คชั่น

00:22.590 --> 00:41.390
ก่อนอื่นเราจะแนะนำตัวแปรสำหรับการกระทำที่เรียกว่าการกระทำจากนั้นเราจะแจกแจงความน่าจะเป็นและเราจะใช้ฟังก์ชั่นมัลติไม่มีระบบประสาทเพื่อดึงการสุ่มจากการกระจายความน่าจะเป็นนี้

00:41.500 --> 00:51.010
ดังนั้นสิ่งสำคัญคือให้สังเกตว่าการกระทำนั้นจะเป็นเมตริกซ์ที่มีค่าเดียวเท่านั้น แต่คุณไม่ควรมองว่านี่เป็นค่าง่ายๆ

00:51.010 --> 00:57.050
คุณควรเห็นสิ่งนี้ว่าเป็นเทนเซอร์ที่สร้างความเสียหายทีละตัวที่มีค่านี้สำหรับการกระทำ

00:57.190 --> 01:02.970
และนั่นเป็นเพราะมันไม่ได้ถูกบีบให้อยู่ในวงเดียวกัน

01:02.970 --> 01:09.880
เราจะได้ค่าความน่าจะเป็นของบันทึกที่เกี่ยวข้องกับการกระทำที่เพิ่งเล่น

01:10.170 --> 01:16.750
ดังนั้นเมื่อฉันคบกับความน่าจะเป็นโชคของฉันที่นี่โดยนำหนึ่งก่อนหน้านี้โชคก่อนหน้าจากที่เราคำนวณที่นี่แล้วฉันจะใช้วิธีอื่นที่ฉันจะป้อน

01:16.810 --> 01:31.510
1 และการกระทำที่เพิ่ง เล่นเพราะเราต้องการได้รับความน่าจะเป็นโชคที่เกี่ยวข้องกับการกระทำนี้

01:31.510 --> 01:44.530
ดังนั้นอาร์กิวเมนต์ที่สองที่นี่ฉันจะใช้การกระทำของฉัน แต่จะต้องมีการทรมานที่น่ากลัวตามที่รวบรวมโดยฟังก์ชั่นที่รวบรวมและฟังก์ชั่นที่รวบรวมเพียงดัชนีที่มีจำนวนเต็มเทนเซอร์

01:44.530 --> 01:48.910
เอาล่ะตอนนี้เราเพิ่งได้รับการเชื่อมโยงกับการกระทำที่แสดง

01:49.030 --> 01:53.790
และตอนนี้ขั้นตอนต่อไปคือการผนวกสิ่งที่เราได้มาไว้ในรายการที่นี่

01:53.800 --> 01:55.570
ดังนั้นเราจึงได้คุณค่า

01:55.750 --> 01:58.820
นั่นคือสิ่งที่เราได้รับที่นี่เป็นผลลัพธ์ของโมเดล

01:58.840 --> 02:00.880
จากนั้นเราก็มีปัญหาการล็อค

02:00.910 --> 02:04.030
ดังนั้นเราจะเพิ่มการล็อคในรายการประกอบฉากล็อค

02:04.180 --> 02:09.610
เราได้เพิ่มเอนโทรปีให้กับเอนโทรปีนั้นดีน้อยและรางวัลจะได้รับหลังจากนั้น

02:09.700 --> 02:15.250
ดังนั้นเราจะเปิดให้เห็นคุณค่าและค้นหารายการค่าและกระบวนการทางกฎหมาย

02:15.520 --> 02:16.180
ลงมือทำกันเถอะ.

02:16.180 --> 02:36.080
เราใช้รายการค่าของเราที่เราเพิ่มว่าเราใช้ฟังก์ชั่นการใช้จ่ายและเราเพิ่มค่าที่ส่งคืนโดยแบบจำลองที่สมบูรณ์แบบแล้วเหมือนกันสำหรับโพรบล็อคเราเพิ่งได้อุปกรณ์ประกอบฉากใหม่ของเราและเราจะผนวกเข้ากับ

02:36.180 --> 02:43.960
ดังนั้นในฟังก์ชั่นผนวกนี้เราสามารถใส่บันทึกจากโชคของเรามันอาจจะเป็นแค่การคำนวณที่นี่

02:43.960 --> 02:47.320
เอาล่ะเพื่อให้รายการของเราได้รับการปรับปรุงเป็นอย่างดี

02:47.350 --> 02:56.570
ตอนนี้สิ่งที่เรากำลังจะทำคือเล่นการกระทำเพราะที่นี่เราเลือกการกระทำโดยการสุ่มจับจากการกระจายความน่าจะเป็น

02:56.650 --> 03:06.150
แต่จริงๆแล้วเรายังไม่ได้เล่นและเราจะเล่นทันทีเพื่อให้เราสามารถเข้าถึงรัฐใหม่และดังนั้นจึงได้รับการเปลี่ยนใหม่และเล่น

03:06.170 --> 03:12.990
เราจะนำสภาพแวดล้อมของเราเพราะเราเล่นการกระทำในสภาพแวดล้อมของเราแล้วเราจะใช้วิธีการขั้นตอน

03:13.210 --> 03:25.280
และภายในเราระบุการกระทำที่ถูกเลือกให้เล่นและการทำเช่นนี้เราจะดำเนินการของเราและเราเพิ่มว่าไม่มีโดยเพราะนั่นคือสิ่งที่คาดว่าจะมีฟังก์ชั่น

03:25.750 --> 03:43.500
ตกลง แต่สิ่งนี้จะส่งคืนสถานะใหม่และรางวัลใหม่เพราะการไปถึงสถานะใหม่เราจะได้รับรางวัลใหม่และเรายังได้รับค่าใหม่สำหรับดันน์เพื่อทราบว่าเกมนั้นเสร็จหรือไม่

03:43.500 --> 03:50.510
ทั้งหมดนี้เราเล่นแอ็คชั่นที่เราไปถึงสถานะใหม่และเราได้รับรางวัลและเรารู้ว่าถ้าเราทำกับเกม

03:50.520 --> 03:52.740
และการพูดของการทำกับเกม

03:52.990 --> 03:59.180
ทีนี้เราจะเพิ่มสิ่งที่นี่เพื่อให้แน่ใจว่าเอเจนต์จะไม่ซ้อนในบางสถานะ

03:59.280 --> 04:04.240
และในการทำเช่นนั้นเรากำลังจะทำการอัพเดตซึ่งทำได้ดีมากในวิธีต่อไป

04:04.860 --> 04:11.910
มันจะเท่ากับทำหรือเราจะเพิ่มเงื่อนไขบอกว่าตอนของเกมไม่ควรใช้เวลานานเกินไปและเราจะเห็นในฟังก์ชั่นหลักว่าจะมีพารามิเตอร์ความยาวสูงสุดซึ่งจะเท่ากับ

04:11.910 --> 04:21.960
ถึง 10,000

04:22.170 --> 04:25.750
และเราไม่ต้องการให้มีตอนมากกว่า 10,000 หน่วย

04:25.860 --> 04:34.200
ดังนั้นเราจะได้ยินความยาวของตอนซึ่งเป็นความยาวของตอนและเราจะเขียนเงื่อนไขที่ใหญ่กว่าตอนสูงสุดของ

04:34.830 --> 04:43.250
Lex ที่เรายังไม่ได้พูดเรื่องนี้ในความยาว

04:43.250 --> 04:49.210
เราได้รับมาจากพารามิเตอร์ของเราสำหรับการสิ้นสุดที่นี่ Paramjit แต่ Ramstad

04:49.210 --> 04:50.600
แม็กซ์มีความยาว

04:50.600 --> 05:02.110
ดังนั้นหมายความว่าหากเกมนั้นเสร็จสิ้นหรือความยาวของตอนนั้นใหญ่กว่าความยาวสูงสุดของตอนที่ตั้งไว้ซึ่งจะเท่ากับ 10,000

05:02.270 --> 05:05.410
เกมจะดีและเราจะเริ่มเกมใหม่

05:05.960 --> 05:08.040
ตกลงนั่นเป็นเพียงข้อควรระวัง

05:08.180 --> 05:15.400
และการพูดถึงข้อควรระวังเราจะเพิ่มข้อควรระวังอีกข้อเพื่อยึดรางวัลระหว่างลบ 1 กับบวก 1

05:15.470 --> 05:20.960
เราได้รับแล้วเราอยู่ที่นี่ แต่เราต้องการให้แน่ใจว่ารางวัลอยู่ระหว่างลบ 1 และบวก 1

05:21.140 --> 05:31.060
และในการทำเช่นนี้เราเพียงแค่ต้องอัปเดตรางวัลโดยการทำสิ่งนี้ให้ได้ประโยชน์สูงสุดจากนั้นรับรางวัลและ 1

05:31.190 --> 05:37.790
และที่นี่เรารับรางวัลสูงสุดขั้นต่ำและ 1 และลบ 1

05:37.790 --> 05:40.040
และนั่นจะทำให้แน่ใจว่ารางวัลอยู่ระหว่างลบหนึ่งบวกหนึ่ง

05:40.160 --> 05:40.910
เอาล่ะ

05:40.910 --> 05:42.180
การเคาะอีกครั้ง

05:42.380 --> 05:49.070
และตอนนี้เราแค่ต้องการตรวจสอบว่าเกมทำในกรณีที่เราจะรีสตาร์ทสภาพแวดล้อม

05:49.220 --> 05:53.010
และทำไมเราต้องตรวจสอบว่าตอนนี้มันเป็นเพราะเราเพิ่งมาถึงสถานะใหม่

05:53.090 --> 05:54.880
เราเพิ่งผ่านการเปลี่ยนแปลงใหม่

05:54.890 --> 05:58.010
ดังนั้นเราต้องตรวจสอบว่าหลังจากผ่านการเปลี่ยนแปลงใหม่นี้แล้ว

05:58.130 --> 06:14.180
เกมจะไม่ทำเช่นนั้นหากทำอีกครั้งหากทำไปแล้วในกรณีนั้นเราจะรีสตาร์ทสภาพแวดล้อมโดยการตั้งค่าความยาวตอนเป็นศูนย์

06:14.330 --> 06:25.270
และรัฐก็จะเริ่มต้นใหม่อีกครั้งเพื่อเริ่มต้นใหม่ในขณะที่เราใช้สภาพแวดล้อมของเราและเราใช้ฟังก์ชั่นรีเซ็ตตกลง

06:25.310 --> 06:29.040
ตอนนี้เราออกไปจากเงื่อนไขที่เพิ่งตรวจสอบ

06:29.230 --> 06:40.410
และตอนนี้สิ่งที่เรากำลังจะทำคือเมื่อเราไปถึงสถานะใหม่ในขณะที่รัฐใหม่นี้อยู่ในขณะนี้แล้วโดยเรย์เพราะจำได้ว่าสหรัฐฯ

06:40.570 --> 06:44.430
และตอนนี้สิ่งที่เราต้องทำคือเปลี่ยนสถานะใหม่ให้เป็นคำตอบที่ทรมาน

06:44.600 --> 06:50.410
ดังนั้นเราจะอัพเดทสถานะของเราและเราจะใช้ไลบรารี่ของห้องสมุด

06:50.630 --> 07:01.800
และแน่นอนว่าจากฟังก์ชั่นที่ไม่ใช่ภาษาไทยในการแปลงผู้ที่ไม่ได้เป็นผู้จ่ายเงินนี้จะระบุภาพอินพุตให้เป็นเซ็นเซอร์ไฟฉาย

07:02.150 --> 07:03.150
สมบูรณ์

07:03.260 --> 07:13.030
และตอนนี้สิ่งสุดท้ายที่เราต้องทำก่อนออกจากวงนี้นั่นคือลูปในขั้นตอนของเราแน่นอนว่ามันคือการใช้รางวัลเพื่อเฝ้าดู

07:13.040 --> 07:18.310
นั่นคือสิ่งสุดท้ายที่จำเป็นต้องได้รับการอัปเดตเราอัปเดตรายชื่อทั้งหมดที่นี่ยกเว้นรางวัล

07:18.320 --> 07:28.110
ดังนั้นเราจะทำอย่างนั้นตอนนี้เรารับรางวัลและเราใช้ฟังก์ชั่นสมองของคุณเพื่อต่อท้ายคำสุดท้ายที่เพิ่งได้รับ

07:28.220 --> 07:39.490
และก่อนที่เราจะออกจากลูปเราต้องทำการตรวจสอบครั้งสุดท้ายเพื่อตรวจสอบว่าถ้าเสร็จแล้วเราต้องการหยุดการหมดอายุ

07:39.530 --> 07:42.550
แล้วเราจะเพิ่มที่นี่สักพัก

07:42.560 --> 07:57.980
หมายความว่าถ้าทำเสร็จแล้วเราจะหยุดการสำรวจและเราจะไปยังขั้นตอนต่อไปโดยตรงซึ่งจะเป็นการอัปเดตโมเดลที่ใช้ร่วมกันและตอนนี้เราก็ทำสิ่งนี้เสร็จแล้วสำหรับตอนนี้ที่ตัวแทนได้ทำการสำรวจแล้ว

07:58.190 --> 08:04.910
มันจะอัปเดตโมเดลที่แชร์และเราจะดูแลในบทช่วยสอนถัดไปดังนั้นฉัน