WEBVTT

00:00.720 --> 00:03.210
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.210 --> 00:08.400
วันนี้เรากำลังพูดถึงส่วนแรกของ A-3 ดูส่วนนักวิจารณ์

00:08.400 --> 00:10.540
ดังนั้นที่นี่เราได้เปรียบตรง

00:10.550 --> 00:12.380
อัลกอริทึมนักวิจารณ์นักแสดง

00:12.420 --> 00:15.440
และเรากำลังจะพูดถึง Akrotiri ที่ขีดเส้นใต้

00:15.570 --> 00:17.210
นั่นคือสิ่งที่เราจะเริ่มต้น

00:17.400 --> 00:30.470
ในทางเทคนิคคุณสามารถเริ่มต้นได้ทุกที่ แต่มันก็สมเหตุสมผลดีกว่าที่จะเริ่มจากนักวิจารณ์เพราะวิธีการที่เราจะมีคำอธิบายที่ต่อเนื่องกันของความเข้าใจที่เข้าใจง่ายว่าเกิดอะไรขึ้นจะช่วยเรา

00:30.480 --> 00:33.970
แต่ถ้าเราเริ่มประหลาดใจในตอนท้ายของความผิดปกตินี้

00:34.170 --> 00:41.840
เอาล่ะจนถึงตอนนี้เราได้เรียนรู้การเรียนรู้ Kule

00:41.880 --> 00:48.780
แบบมีเงื่อนไขซึ่งเป็นนักวาดภาพประกอบที่นี่ดังนั้นเราจึงมีคอมพิวเตอร์ที่เห็นพิกเซลเพื่อให้ได้ภาพและพิกเซลที่แท้จริงไม่ใช่แค่เวกเตอร์

00:48.780 --> 00:53.610
ดังนั้นจึงไม่ใช่การโกงที่จริง

00:53.610 --> 01:03.080
ๆ แล้วเห็นว่าสิ่งที่มนุษย์เห็นมันเห็นสัตว์ประหลาดที่เห็นสุขภาพที่เห็นพารามิเตอร์ที่ด้านล่างที่เห็นการ์ดหรือเห็นปืนมันเป็นสิ่งเดียวกับที่มนุษย์จะเห็นเมื่อเล่นนี้ เกม.

01:03.090 --> 01:20.270
จากนั้นภาพนั้นจะถูกส่งผ่านถ้ำที่เป็นรูปธรรมและจากนั้นก็จะถูกส่งผ่านลาบรีที่ดึงแล้วแผ่ไปสู่เครือข่ายประสาทและจากนั้นเมื่อผลลัพธ์ที่เราได้รับการกระทำตามที่จำไว้ว่าเรามีค่าลูกบาศก์เหล่านั้น ถึงพวกเขา.

01:20.270 --> 01:24.540
ตัวอย่างเช่นเราใช้ soft Max และพบว่าเราต้องการดำเนินการใด

01:24.540 --> 01:28.470
ดังนั้นจึงมีการสำรวจและการแสวงหาผลประโยชน์เกิดขึ้น

01:28.470 --> 01:29.860
มีการรวมกันของทั้งสอง

01:30.270 --> 01:33.480
นั่นคือวิธีการเรียนรู้ที่เย็นเฉียบในเชิงลึก

01:33.640 --> 01:34.980
แต่ตอนนี้เรามาดูกันว่าเราจะทำอะไรกับมัน

01:34.970 --> 01:41.770
ดังนั้นเพื่อความเรียบง่ายเพียงเพื่อให้ง่ายขึ้นสำหรับเราที่จะทำงานด้วยเพราะเรากำลังจะปรับภาพนี้และเคลื่อนย้ายไปมา

01:41.790 --> 01:46.490
เราจะแทนที่วงกลมด้วยสี่เหลี่ยมด้วยกล่องเหล่านี้หรือกล่องสี่เหลี่ยมเหล่านี้

01:46.560 --> 01:54.440
และเรากำลังจะกำจัดเส้นเหล่านั้นและระหว่างเพียงเปลี่ยนเป็นลูกศรดังนั้นนี่จะไม่เปลี่ยนแก่นแท้

01:54.450 --> 01:56.590
นี่เป็นเพียงการแสดงในแผนภูมินี้

01:56.610 --> 02:01.620
สิ่งนี้ยังคงเป็นแม้กระทั่งการเป็นตัวแทนนี้ยังคงเป็นการเรียนรู้ที่ลึกซึ้ง Kule

02:01.620 --> 02:05.520
การเรียนรู้เป็นไปได้ง่ายขึ้นสำหรับเราที่จะแก้ไขและแสดงสิ่งที่มันเป็น

02:05.520 --> 02:08.820
นั่นคือวิธีที่เราจะนำเสนอสิ่งต่าง ๆ จากที่นี่

02:08.820 --> 02:13.070
และส่วนใดของส่วนนี้ก็เริ่มต้นขึ้น

02:13.080 --> 02:16.680
โปรดจำไว้ว่าเราเริ่มต้นอย่างเป็นขั้นเป็นตอนเราเริ่มต้นด้วยส่วนนักวิจารณ์ที่ใช้งานอยู่

02:16.680 --> 02:23.490
ดังนั้นเราจะดูว่าเราไปจากการเรียนรู้ Kule ที่สำคัญลึก ๆ ไปที่ A-3

02:23.490 --> 02:27.520
ได้อย่างไรทีละขั้นตอนและขั้นตอนแรกเราจะแนะนำนักวิจารณ์นักแสดงคนนี้ PARTOVI ที่นี่เพื่อที่เราจะพูดคุยเกี่ยวกับเรื่องนี้

02:27.750 --> 02:32.490
ดังนั้นสิ่งแรกที่เกิดขึ้นคือบิตสุดท้าย

02:32.640 --> 02:36.990
เอาท์พุทคืออันที่จริงเรากำลังจะวาดมันแบบนี้อีกครั้งดังนั้นมันจึงเหมือนกันทุกประการค่า q

02:36.990 --> 02:40.350
เดียวกันคือการกระทำที่เหมือนกัน

02:40.350 --> 02:50.280
ดังนั้นถ้าเขาถ้าคุณมีการกระทำที่เป็นไปได้แปดอย่างคุณยังคงมีการกระทำที่เป็นไปได้แปดอย่างที่จะทำให้พวกเขาอยู่ด้านบนเพื่อที่พวกเขาจะได้ใช้พื้นที่น้อยลง

02:50.280 --> 02:52.080
สิ่งนี้และสิ่งนี้เหมือนกันทุกประการ

02:52.080 --> 02:55.080
แต่ตอนนี้เป็นที่ที่นักวิจารณ์เข้ามา

02:55.110 --> 02:56.580
เราจะได้ผลลัพธ์ที่สอง

02:56.580 --> 03:06.040
เราจะมีอันแรกเป็นชุดของเอาท์พุทและที่นี่เราจะแยกเอาท์พุทแยกต่างหากดังนั้นในทางเทคนิคเราจะใช้โครงข่ายประสาทเทียมของเรา

03:06.040 --> 03:08.310
ดังนั้นหนึ่งชั่วโมง

03:08.340 --> 03:14.720
หรือรูปภาพและทุกอย่างเช่นค่าที่ผ่านเครือข่ายจากซ้ายไปขวาตรงนี้

03:14.730 --> 03:17.910
พวกเขาไม่เพียงแค่คายค่าหนึ่งชุดที่พวกเขาคายจริง ๆ สองชุด

03:17.910 --> 03:23.910
และด้านบนก็บอกว่าเรารู้จริง ๆ ว่ามันคืออะไรมันเป็นไปได้ที่การกระทำ

03:23.910 --> 03:26.970
แต่ที่นี่เราจะมีค่าเพิ่มเติมอีกดังนั้นลองดูที่

03:27.000 --> 03:28.430
คุณค่านั้นคืออะไร

03:28.620 --> 03:31.260
ดังนั้นที่นี่เราไปนั่นคือด้านบน

03:31.380 --> 03:35.190
ดังนั้นเราแค่ชอบลดขนาดของภาพประกอบนี้

03:35.340 --> 03:41.210
เอาต์พุตสูงสุดคือค่าคิวบ์ตามที่เรากล่าวถึงก่อนหน้านี้สำหรับการดำเนินการ

03:41.220 --> 03:42.500
พวกมันเหมือนกัน

03:42.510 --> 03:43.240
ทุกอย่างเหมือนกัน

03:43.410 --> 03:53.400
แต่ตอนนี้ส่วนล่างนี้และส่วนบนสุดเรียกว่า X หรือเราจะตั้งชื่อมันว่านักแสดงเพราะนั่นคือส่วนที่ตัวแทนเลือกสิ่งที่ต้องการทำเพื่อให้เหมือนว่ามันทำหน้าที่เหมือน

03:53.400 --> 04:00.730
มันกำลังแสดงอยู่บนเวทีและมันจะสมเหตุสมผลมากกว่าเมื่อเรามีชื่อที่สองขึ้นมาบนหน้าจอเช่นกัน

04:00.900 --> 04:08.120
แล้วเอาท์พุทที่สองก็เหมือนหนึ่งค่าและนั่นคือ V ของ S นั่นก็คือค่าของรัฐ

04:08.130 --> 04:16.800
ดังนั้นถ้า q of S คือ Q of

04:16.980 --> 04:22.030
A คือค่า q ของการกระทำบางอย่างและอย่างที่คุณเห็นว่าเหตุใดจึงมีการกระทำหนึ่งการกระทำสองการกระทำที่สามจะขึ้นอยู่กับการกระทำที่หกหรือมากกว่าการกระทำที่มีความหมาย

04:22.030 --> 04:28.410
ดังนั้นในสถานะที่กำหนดอะไรคือค่า q ของการดำเนินการกระทำเพื่อดำเนินการหนึ่งการกระทำเพื่อและอื่น ๆ

04:28.460 --> 04:40.620
จากนั้นที่นี่เรายังทำนายว่าเราใช้โครงข่ายประสาทเทียมเพื่อคาดการณ์มูลค่าของเวทีที่เราเข้าร่วมและส่วนนี้เรียกว่านักวิจารณ์

04:40.820 --> 04:53.260
และนั่นก็คือสัญชาตญาณของประเภทที่ไม่เต็มไปด้วยสัญชาตญาณที่เหมือนกับจุดเริ่มต้นของสัญชาตญาณที่อยู่เบื้องหลังนักแสดงทำนายว่าตอนนี้มีสองเอาต์พุตจากเครือข่ายประสาทไม่ใช่แค่หนึ่ง

04:53.380 --> 04:56.470
P ก่อนที่เราจะมีอันนั้นที่ outbred ซึ่งตอนนี้เราเรียกการกระทำ

04:56.470 --> 04:59.040
แต่ตอนนี้เรามีเอาท์พุทสอง Akshara และนักวิจารณ์

04:59.250 --> 05:02.320
และจะมีพลวัตระหว่างพวกเขาที่เราจะสำรวจเพิ่มเติม

05:02.370 --> 05:08.850
แต่สำหรับตอนนี้สิ่งสำคัญคือต้องเข้าใจว่าเราคาดการณ์ไม่เพียง แต่คุณค่าของการกระทำที่ตัวแทนสามารถนำมาจากสถานะปัจจุบัน

05:09.330 --> 05:15.750
แต่ยังคาดการณ์มูลค่าของการอยู่ในสภาพเช่นนี้โดยใช้เครือข่ายในปีเดียวกัน

05:15.750 --> 05:20.700
นั่นคือแก่นของขั้นตอนแรกในการวิจารณ์อย่างแข็งขัน

05:20.790 --> 05:24.990
และตอนนี้เราจะต้องพูดถึงซิงโครนัสซึ่งเราจะทำแบบฝึกหัดต่อไปเพื่อให้เข้าใจว่าสิ่งที่เกิดขึ้นระหว่างหน้าที่และสิ่งสุดท้ายสำหรับวันนี้คือค่าสำคัญทั้งหมดเหล่านี้ที่เรารู้ว่าเรียกว่า

05:24.990 --> 05:32.640
Pulse .

05:32.640 --> 05:39.720
ดังนั้นในวรรณกรรมบางเรื่องในบล็อกและการอภิปรายบางอย่างที่คุณอาจพบในนักวิจารณ์ที่ใช้งานอยู่คุณอาจพบว่าผู้เขียนกำลังพูดถึงค่าคิวที่ด้านข้างของนักแสดงในบางส่วนในวรรณกรรมอื่น

05:39.720 --> 05:47.400
ๆ และโพสต์บล็อกและการอภิปราย

05:47.400 --> 05:59.810
พูดคุยเกี่ยวกับนโยบายดังนั้นและมักจะใช้ผู้ใช้เช่นตัวอักษรกรีก P สำหรับเป็นตัวแทนของนโยบายหรือเพียงแค่พูดว่านโยบายของรัฐ

05:59.970 --> 06:11.660
ดังนั้นทั้งหมดนี้เป็นนโยบายของรัฐเพราะในขณะที่เราจำได้ว่านโยบายคือถ้าคุณรวมการกระทำทั้งหมดเข้าด้วยกันการกระทำที่เป็นไปได้และจากนั้นก็ตัดสินใจที่จะดำเนินการ

06:11.660 --> 06:15.400
ดังนั้นสิ่งเหล่านี้จะเป็นเหมือนความน่าจะเป็นของการดำเนินการแต่ละอย่างเพื่อให้เป็นนโยบาย

06:15.540 --> 06:19.410
ดังนั้นอย่าโยนออกหากคุณเห็นอย่างใดอย่างหนึ่ง

06:19.410 --> 06:21.090
พวกเขาโดยทั่วไปหมายถึงสิ่งเดียวกัน

06:21.090 --> 06:24.720
ในอีกด้านหนึ่งคุณจะได้รับนโยบายหรือค่า q

06:24.720 --> 06:27.620
ในอีกทางหนึ่งคุณมีค่าจริงของรัฐและพวกเขาถูกคาดการณ์จากปีนั้น

06:27.750 --> 06:34.320
นั่นคือจุดเริ่มต้นของนักวิจารณ์ที่มีความกระตือรือร้นจะดำเนินต่อไปในบทช่วยสอนถัดไปเมื่อเราพูดถึงซิงโครนัสและมองหาที่นั่น

06:34.380 --> 06:35.910
จนกว่าจะถึงเวลานั้น