WEBVTT

00:00.760 --> 00:02.520
สวัสดีและยินดีต้อนรับสู่ Statoil

00:02.830 --> 00:10.050
ดังนั้นตอนนี้ตัวแทนได้ทำการสำรวจแล้วเมื่อเขากำลังจะทำคือการปรับปรุงเครือข่ายที่ใช้ร่วมกัน

00:10.240 --> 00:17.050
สิ่งแรกที่เราจะทำคือเริ่มต้นสะสมสิ่งที่เราจะเรียกมันว่าทุน R

00:17.070 --> 00:27.710
ของเราและเราจะเริ่มต้นมันเป็นเทนเซอร์คบเพลิง แต่นั่นจะมีมิติทีละคนเพราะมันเป็นเพียงค่า แต่เราต้องการ ที่จะเป็นเมตริกซ์

00:27.940 --> 00:33.460
ดังนั้นฉันจึงใช้ที่นี่ยกเว้นศูนย์แล้ว 1 1

00:33.790 --> 00:37.230
ดังนั้นโดยทั่วไปรางวัลสะสมจะเริ่มต้นที่ 0

00:37.610 --> 00:43.870
ตกลงแล้วบอกว่าถ้าเรายังไม่เสร็จนั่นคือถ้าเกมยังไม่จบ

00:43.870 --> 00:51.750
สิ่งที่เราต้องการในตอนนี้คือรางวัลสะสมจะเท่ากับมูลค่าของการแลกเปลี่ยนครั้งล่าสุดที่เครือข่ายแชร์

00:51.820 --> 00:54.400
เราจะได้เอาท์พุทค่า

00:54.460 --> 01:01.490
คุณรู้คุณค่าของฟังก์ชันเอาต์พุตของโมเดลของเราและนี่คือค่าที่เราจะมอบให้กับชุมชนที่เราทำงาน

01:01.780 --> 01:05.500
งั้นลองเอาค่านี้มาก่อน

01:05.560 --> 01:25.310
คุณค่าจากนั้นคุณก็รู้เพราะเราต้องการค่าที่เราสามารถเพิ่มได้ที่นี่ขีดล่างแล้วขีดล่างอีกครั้งแล้วเราได้แบบจำลองของเราเพราะมันจะเอาท์พุทค่านี้ เราสามารถคัดลอกวางสิ่งที่เรามีที่นี่

01:25.430 --> 01:33.050
นั่นคืออินพุตของโมเดลที่มีรูปภาพอินพุตและดึงของรัฐและรัฐเซาท์

01:33.220 --> 01:35.820
ดังนั้นฉันแค่วางมันและเราไปที่นั่น

01:35.860 --> 01:37.490
เราจะได้รับความคุ้มค่า

01:37.810 --> 01:49.350
ทีนี้สิ่งที่เรากำลังจะทำคือให้คุณค่าของเราดังนั้นทั้งหมดจะเท่ากับมูลค่าและการเข้าถึงคุณค่าที่เราเริ่มตอนนี้

01:49.750 --> 01:50.430
เอาล่ะ

01:50.440 --> 02:05.330
ทีนี้ถ้าเงื่อนไขเสร็จสิ้นแล้วและตอนนี้สิ่งที่เรากำลังจะทำเนื่องจากเราเพิ่งได้รับค่าใหม่จากการที่คุณรู้ว่าการเอาท์พุทของรูปแบบเอาท์พุทแรกของรูปแบบที่ดีที่ผนวกค่าใหม่นี้เข้ากับรายการค่า

02:05.500 --> 02:16.340
ดังนั้นเราสามารถนำรายการค่าของเราโดยตรงไปยังเต็นท์และเราใส่ตัวแปรเป็นเพราะ

02:16.530 --> 02:20.560
ค่าสุดท้ายนี้ยอดเยี่ยมมากที่ทำตอนนี้

02:20.850 --> 02:25.180
เราจะเริ่มต้นการสูญเสียและจดจำการบรรยายสัญชาตญาณ

02:25.260 --> 02:26.320
คุณมีการสูญเสียสองครั้ง

02:26.340 --> 02:31.780
คุณมีนโยบายสุดท้ายที่เกี่ยวข้องกับการคาดการณ์ล่าสุดของตัวแทน

02:31.860 --> 02:36.070
แล้วคุณมีค่าสุดท้ายซึ่งไม่เกี่ยวข้องกับการทำนายของนักวิจารณ์

02:36.180 --> 02:44.600
ดังนั้นเราจะแนะนำตัวแปรสองตัวนี้เริ่มต้นเป็นศูนย์และพวกเขาจะใช้นโยบายที่นี่สำหรับเราสูญเสียนโยบายที่น่ากลัว

02:44.690 --> 02:52.680
กำหนดค่าเริ่มต้นให้เป็นศูนย์จากนั้นค่าก็สูญเสียค่ามากและบอกว่าเริ่มต้นเป็นศูนย์แล้วอย่าลืมตั้งค่ารางวัลสะสมเป็นตัวแปรคบเพลิงเพราะเราจะต้องใช้มันเป็นคบเพลิง

02:52.680 --> 03:05.850
Roybal เพราะเราจะใช้การไล่ระดับสีด้วย ด้วยความเคารพเนื่องจากรางวัลสะสมจะเป็นเทอมของการสูญเสียมูลค่า

03:05.850 --> 03:10.050
ดังนั้นมันจึงเป็นไปได้ที่มันจะถูกแนบกับกราฟแบบไดนามิกที่มีการไล่ระดับ

03:10.530 --> 03:20.580
และในที่สุดก็เป็นสิ่งสุดท้ายที่เราต้องทำก่อนที่จะเริ่มวนเวียนใหญ่ที่คุณรู้เมื่อเราใช้กับแก๊สที่เสื่อมสภาพในดวงอาทิตย์เพื่อลดสิ่งสุดท้ายนี้ระหว่างการทำนายและเป้าหมาย

03:20.850 --> 03:28.160
ทีนี้เราต้องเริ่มต้น GAAP เพื่อให้ได้เปรียบโดยทั่วไปและไม่ได้รับมันหรือไม่เคลือบผิว

03:28.260 --> 03:35.510
ระวังด้วย GAAP นั้นตัวแปรที่เรากำลังจะเตรียมใช้งานตอนนี้คือการประมาณความได้เปรียบโดยทั่วไป

03:35.520 --> 03:45.170
ดังนั้นในการแจ้งเตือนการประมาณความได้เปรียบโดยทั่วไปคือการกำหนดความได้เปรียบของการเล่นแอคชั่น a โดยการสังเกตสถานะ

03:45.210 --> 03:51.330
ดังนั้นมันคือฟังก์ชั่นของการกระทำและสถานะ s และมันเท่ากับความแตกต่างระหว่างค่า q Q A

03:51.450 --> 03:54.780
และค่าของฟังก์ชัน V

03:54.780 --> 03:57.120
ที่จริงฉันสามารถเขียนได้ที่นี่

03:57.540 --> 04:05.130
การประมาณความได้เปรียบโดยทั่วไปคือฟังก์ชั่นของการดำเนินการและสถานะ s และนั่นเท่ากับค่า q ของการกระทำ

04:05.580 --> 04:13.440
A และสถานะ S ลบค่าของฟังก์ชัน V ที่ใช้กับสถานะ s

04:13.530 --> 04:19.000
นั่นคือข้อดีทั่วไปที่จะกล่าวถึงและนั่นคือสิ่งที่เราต้องการเริ่มต้นตอนนี้

04:19.200 --> 04:20.770
และเราจะเริ่มต้นให้เป็นศูนย์

04:21.470 --> 04:36.730
แต่มันจะต้องมีต่อนักเต้นที่จะใช้เคล็ดลับแบบเดียวกับสิ่งที่เราเพิ่งทำตรงนี้เราจะนำไลบรารี่ของไฟฉายมาใช้กับฟังก์ชั่นของม้าลายเพื่อตั้งค่าให้เป็นค่าเทนเซอร์เดียวซึ่งเป็นศูนย์

04:37.160 --> 04:46.540
และเราจะใช้ตัวแปรใหม่ g นี้และนั่นจะเท่ากับคบไฟนั้นที่ศูนย์ 1 หนึ่งเมื่อเริ่มต้น

04:46.550 --> 04:52.730
ดังนั้นสิ่งนี้จะเริ่มต้นเป็นศูนย์และดังนั้นค่า q ของการกระทำที่รัฐจะเท่ากับค่าของฟังก์ชั่น V

04:52.730 --> 04:55.600
ของรัฐ

04:55.780 --> 04:56.290
เอาล่ะ

04:56.320 --> 04:58.810
และตอนนี้เราพร้อมที่จะเริ่มการวนซ้ำ

04:58.850 --> 05:00.470
ดังนั้นเราจะไปผจญภัยที่นี่

05:00.500 --> 05:04.700
ดังนั้นให้หยุดพักและฉันจะพบคุณในบทช่วยสอนถัดไปเพื่อโจมตีสิ่งนั้น

05:04.820 --> 05:06.170
แล้วฉันก็