WEBVTT

00:00.660 --> 00:03.920
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.930 --> 00:09.440
และในที่สุดเราก็มาถึงเรื่องสนุก ๆ ที่เรากำลังเรียนรู้อย่างลึกซึ้ง

00:09.450 --> 00:10.660
เอาล่ะมาดูกันดีกว่า

00:10.720 --> 00:14.100
บรูซเราพูดถึงรายได้จากนักฆ่าและทุกอย่างเกี่ยวกับ

00:14.140 --> 00:20.160
และเราได้เรียนรู้เกี่ยวกับสภาพแวดล้อมของตัวแทนและวิธีที่ตัวแทนมองสภาพ

00:20.210 --> 00:23.620
หรือเธออยู่ในการดำเนินการรับรางวัล

00:23.640 --> 00:29.460
เข้าสู่สถานะใหม่และขึ้นอยู่กับวงข้อเสนอแนะที่พวกเขาจะดำเนินการต่อไปและพวกเขาจะได้เรียนรู้จากที่

00:29.460 --> 00:32.310
ทำความเข้าใจกับสิ่งที่เป็นการกระทำที่ดีที่สุดที่จะทำ

00:32.310 --> 00:35.040
ดังนั้นเราจึงดูตัวอย่างพื้นฐานของเขาวงกต

00:35.040 --> 00:40.550
เราเข้าใจว่าในขณะที่เอเชียสำรวจสภาพแวดล้อมเข้าใจว่าคุณค่าของรัฐคืออะไร

00:40.560 --> 00:45.150
จากนั้นเราย้ายจากการจัดการกับค่าของรัฐไปสู่การจัดการกับค่าของการกระทำกับค่าแล้ว

00:45.150 --> 00:57.070
A-Basin ที่เราเข้าใจว่าแผนในสภาพแวดล้อมที่ไม่ประชดประชันทำงานอย่างไรและนโยบายทำงานอย่างไรในสภาพแวดล้อมแบบสุ่มและนี่คือ ตัวอย่างของนโยบาย

00:57.120 --> 01:01.340
นั่นคือการสรุปอย่างรวดเร็วของทุกสิ่งที่เราพูดถึงในการเรียนรู้ขั้นพื้นฐาน

01:01.450 --> 01:08.080
และตอนนี้เรามาดูว่าสิ่งนี้สามารถนำไปสู่ระดับถัดไปผ่านการเรียนรู้ลึกผ่านการเพิ่มการเรียนรู้ลึก

01:08.260 --> 01:08.510
ตกลง.

01:08.520 --> 01:21.860
นี่คือสภาพแวดล้อมของเราและสิ่งที่เราจะทำตอนนี้คือเราจะเพิ่มแทนที่จะทำการคำนวณพื้นฐานในเมทริกซ์นี้ที่เรามีซึ่งค่อนข้างง่าย

01:21.870 --> 01:26.970
สิ่งที่เราจะทำคือเราจะเพิ่มแกนสองแกนซึ่งเพิ่มแกน x และ y หรือเราจะเรียกมันว่า x1 และ

01:27.090 --> 01:28.480
x2

01:28.560 --> 01:30.430
เพียงเพื่อให้สิ่งต่าง ๆ โดยทั่วไปยิ่งขึ้น

01:30.480 --> 01:36.830
และที่นี่เรามีจำนวนจริงแถวหนึ่งคอลัมน์ 1 2 สาม 4 เขาจะหารหมายเลข 1 ถึง 3

01:36.960 --> 01:44.730
ดังนั้นตอนนี้ทุก ๆ สถานะสามารถอธิบายได้ด้วยคู่ของค่าสองค่าคือ x1 และ x2

01:44.730 --> 01:50.940
ดังนั้นหนึ่งในสี่เหลี่ยมเหล่านี้ที่เอเจนต์สามารถอยู่ในนั้นสามารถอธิบายได้ด้วย x1 x2

01:50.940 --> 01:58.280
ตัวอย่างเช่นตอนนี้เขาอยู่ในจตุรัสที่มี X1 เท่ากับ 1 และ x 2 เท่ากับ 2

01:58.470 --> 02:03.430
และนั่นไม่ใช่วิธีที่เราสามารถหลบหนีในจตุรัสของคุณซึ่งหมายความว่าเราสามารถอธิบายได้ในรัฐของคุณ

02:03.480 --> 02:08.330
แน่นอนว่านี่เป็นเวอร์ชั่นที่ง่ายมากของสภาพแวดล้อมของการอธิบายรัฐ

02:08.340 --> 02:10.110
แต่ถึงกระนั้นก็ใช้งานได้ในกรณีนี้

02:10.290 --> 02:17.260
และนั่นหมายความว่าตอนนี้เราสามารถป้อนสถานะเหล่านี้ให้เป็นเครือข่ายประสาท

02:17.400 --> 02:21.830
และโดยวิธีที่นี่ฉันอยากจะพูดถึงว่าในตอนท้ายของภาคผนวกที่ดีเรามี

02:21.830 --> 02:26.880
x จำนวนหนึ่งและการแสดงตลกและสองเพื่อดำเนินการประสบความสำเร็จในส่วนนี้

02:26.970 --> 02:37.470
ขอแนะนำให้คุณตรวจสอบสิ่งที่ไม่สามารถเข้าถึงได้ซึ่งอยู่บนเครือข่ายประสาทเทียมเพื่อให้คุณเข้าใจวิธีการทำงานเพื่อที่เราจะได้ไม่ต้องเจาะลึกลงไปที่นี่และเราสามารถใช้ประโยชน์จากความรู้เกี่ยวกับวิธีการทำงานของเครือข่ายประสาทเทียม ดังนั้นเราจึงป้อนข้อมูลนี้ให้กับรัฐในเครือข่ายนิวรัลและจากนั้นมันจะประมวลผลข้อมูลนี้ X1

02:37.470 --> 02:43.800
และ

02:43.830 --> 02:55.380
x2 ขึ้นอยู่กับโครงสร้างของเครือข่ายประสาทอาจมีเลเยอร์ที่ซ่อนอยู่หลายชั้นและอื่น ๆ

02:55.380 --> 03:00.900
นั่นคือสิ่งที่คุณจะได้รู้ในบทช่วยฝึกหัด

03:00.900 --> 03:06.570
แต่ท้ายที่สุดเราจะจัดโครงสร้างในลักษณะที่มันคายค่าและค่าสี่ค่านี้จะเป็นค่า Q

03:06.570 --> 03:15.220
ดังนั้นค่าที่บอกถึงการกระทำที่เราต้องดำเนินการและสิ่งที่ไม่ควรทำในบทช่วยสอนนี้จะเห็นได้อย่างชัดเจนถึงวิธีการใช้ค่าคีย์เหล่านี้ในการตัดสินใจว่าจะดำเนินการใด

03:15.240 --> 03:22.490
แต่ประเด็นหลักที่นี่คือเราไม่ได้ดูเขาวงกตเพียงแค่นี้จากมุมมองการเรียนรู้อีกต่อไป

03:22.650 --> 03:31.360
ตอนนี้เรากำลังเข้าสู่สภาวะของเขาวงกตและเรากำลังให้พวกมันเข้าสู่เครือข่ายประสาทลึกเพื่อที่จะได้ห้องเล็ก ๆ เหล่านี้และ

03:31.410 --> 03:42.990
และในตอนท้ายของวันเราจะยังคงเกิดขึ้นกับการกระทำเราจะยังคงเข้าใจว่าเราต้องทำอะไรและเราจะพูดคุยกันในรายละเอียดเพิ่มเติม เราทำทั้งหมดนี้ทำไมเราถึงเรียกมันว่า

03:43.200 --> 03:48.990
ทำไมการทำสิ่งต่าง ๆ มีความซับซ้อนมากขึ้นเมื่อวิธีการเริ่มต้นของการเรียนรู้นั้นทำงานได้ดีอยู่แล้ว

03:49.170 --> 03:59.830
เหตุผลคือเพื่อการเรียนรู้ที่ทำงานในสภาพแวดล้อมที่ง่ายมากและเรากำลังดำเนินการต่อเพื่อจัดการกับสภาพแวดล้อมที่เรียบง่ายนี้เพื่อให้เข้าใจแนวคิดได้ดียิ่งขึ้น

04:00.000 --> 04:06.220
แต่ในขณะเดียวกันการเรียนรู้อย่างง่ายของ Kial จะไม่ทำงานในสภาพแวดล้อมที่ซับซ้อนมากขึ้นอีกต่อไปและเรากำลังพูดถึงเช่นรถยนต์ขับเคลื่อนด้วยตนเองซึ่งจะสร้างหรือเล่น

04:06.600 --> 04:12.780
Doom เมื่อปัญญาประดิษฐ์กำลังเล่น

04:13.020 --> 04:19.200
Doom หรือเกม

04:19.260 --> 04:26.400
Atari อื่น ๆ

04:26.730 --> 04:34.700
เช่นการฝ่าวงล้อม หรือแม้กระทั่งรถยนต์ที่ขับเคลื่อนด้วยตนเองและการเรียนรู้การเสริมแรงขั้นสูงเช่นหุ่นยนต์เดินไปรอบ ๆ และดำเนินการในทุกกรณีโดยทั่วไปการเรียนรู้ไม่เพียงพอไม่แข็งแรงไม่แข็งแกร่งพอที่จะสามารถเอาชนะความท้าทายเหล่านั้นได้

04:34.710 --> 04:41.250
และเช่นเดียวกับที่เราเคยเห็นในหลักสูตรการเรียนรู้ลึกหากคุณอยู่ในวินัยของเราหรือถ้าคุณทำภาคผนวกใน x

04:41.250 --> 04:47.820
หมายเลขหนึ่งและ X-2 คุณจะรู้ว่าการเรียนรู้ลึกนั้นเหนือกว่า

04:47.820 --> 04:51.640
การเรียนรู้ของเครื่องทุกประเภทนับประสาเป็นการเรียนรู้ที่เรียบง่าย

04:51.660 --> 04:58.580
และนั่นคือเหตุผลที่เราใช้ประโยชน์จากพลังของการเรียนรู้อย่างลึกซึ้งที่นี่ดังนั้นเราจึงป้อนข้อมูลเกี่ยวกับสภาพแวดล้อมเป็นเวกเตอร์ของค่า

04:58.590 --> 05:07.220
ในกรณีนี้เพียงเพื่อใช้ในเครือข่ายประสาทลึกแล้วเราจะใช้สิ่งนั้นเพื่อดำเนินการที่เราต้องการตัดสินใจว่าการกระทำใดเป็นตัวแทนที่จะต้องดำเนินการ

05:07.420 --> 05:11.700
นั่นเป็นภาพรวมระดับสูงว่าทำไมเราถึงทำเช่นนี้

05:11.830 --> 05:17.920
และตอนนี้เรามาดูรายละเอียดเพิ่มเติมว่าเกิดอะไรขึ้นกับแนวคิดการเรียนรู้ที่ยอดเยี่ยมเมื่อเราถ่ายโอนเมื่อเราทำการเปลี่ยนแปลงจากหรือเปลี่ยนจากการเรียนรู้อย่างง่ายไปสู่

05:17.920 --> 05:24.100
Killary ที่ลึกซึ้ง

05:24.130 --> 05:33.550
ดังที่คุณเห็นในบทเรียนปรีชาก่อนหน้าเรามีสไลด์เช่นนี้ซึ่งเป็นรากฐานของการเรียนรู้ที่แตกต่างชั่วคราว

05:33.700 --> 05:37.430
นี่คือสูตรสำหรับความแตกต่างทางโลกและโดยพื้นฐานแล้วเรามาดูกัน

05:37.430 --> 05:44.640
โดยพื้นฐานแล้วเรามีตัวแทนที่อยู่ในสถานะนี้ตรงนี้ซึ่งระบุลูกศรสีน้ำเงิน

05:45.070 --> 05:51.760
และเราเข้าใจว่าความแตกต่างทางโลกทำงานอย่างไรสำหรับค่านี้ยกตัวอย่างเช่น

05:51.790 --> 05:57.610
และสิ่งที่เราเห็นที่นี่คือก่อนหน้านี้คือในคิลลารี่ธรรมดาไม่ใช่การเรียนรู้อย่างลึกซึ้งอยู่ในตัวนักฆ่าธรรมดา

05:57.640 --> 06:06.260
สิ่งที่เราเห็นคือก่อนที่ตัวแทนจะมีค่าสีที่ตามมาซึ่งเขาได้เรียนรู้เกี่ยวกับการกระทำของการเพิ่มขึ้นนี้

06:06.340 --> 06:08.700
จากนั้นเขาก็ตัดสินใจที่จะรักษาให้สูงขึ้น

06:08.860 --> 06:14.830
และหลังจากที่เขาลงมือทำเขาก็จะได้รับรางวัลจากการกระทำนี้ในสถานะนี้

06:14.830 --> 06:21.070
และนั่นคือรางวัลบวกตอนนี้เขาสามารถประเมินมูลค่าของสถานะปัจจุบันที่เขาอยู่ซึ่งเป็นค่าสูงสุดของค่า q

06:21.070 --> 06:27.850
ใหม่ทั้งหมดของคิวบ์ทั้งหมดของการกระทำใหม่ที่เขาสามารถรับตำแหน่งสำคัญในสถานะใหม่เป็นสิ่งพิมพ์ อ่านคูณด้วยค่า DK

06:27.850 --> 06:32.400
ของแกมม่า

06:32.440 --> 06:43.200
นั่นคือคิวโดยพื้นฐานของค่าคิวบ์ใหม่หรือชนิดของค่าคิวเชิงประจักษ์ที่เขาเพิ่งได้รับจากการกระทำนั้น

06:43.270 --> 06:45.640
และความนึกคิดสองคนนี้ควรจะเหมือนกัน

06:45.640 --> 06:51.430
ดังนั้นค่า

06:51.430 --> 06:57.420
Q ที่เขามีในความทรงจำของเขาเกี่ยวกับการกระทำนี้ในรัฐนี้ควรเทียบเคียงกับรางวัลจริงบวกกับแกมมาคูณค่าของสถานะที่เขาลงเอยด้วย

06:57.610 --> 07:05.200
และนั่นคือวิธีที่เราคำนวณความแตกต่างทางโลกที่เราใช้ในสิ่งที่คุณเป็นหลังจากลบสิ่งที่เขาได้ในสิ่งที่เขามีอยู่ในใจสิ่งที่เขาคาดหวัง

07:05.200 --> 07:06.740
คุณจะลบหนึ่งจากที่อื่น

07:06.780 --> 07:07.690
นั่นคือความแตกต่างชั่วคราว

07:07.690 --> 07:16.940
จากนั้นคุณใช้อัตราการเรียนรู้ของคุณอัลฟ่าเพื่อปรับค่าคิวของคุณค่าคิวใหม่ของคุณตามความแตกต่างชั่วคราว แต่ด้วยสัมประสิทธิ์อัลฟ่า

07:17.110 --> 07:20.360
นั่นคือสาระสำคัญของการเรียนรู้อย่างง่าย

07:20.460 --> 07:25.990
ทีนี้ลองมาดูกันว่ามันจะเปลี่ยนแปลงอย่างไรใน Killary ที่ลึกและเราจะยังคงทำงานกับสไลด์

07:26.000 --> 07:29.440
แต่เราจะเห็นว่าเกิดอะไรขึ้น

07:29.620 --> 07:36.320
ดังนั้นในการเรียนรู้อย่างลึกซึ้งโครงข่ายประสาทเทียมจะทำนายวาลิสอย่างที่เราเห็นในก่อนหน้านี้และอย่างที่เราจะเห็น

07:36.370 --> 07:44.790
Donna Citronelle เครือข่ายประสาทเทียมจะทำนายค่าหรืออาจทำนายค่ามากขึ้นของการกระทำที่เป็นไปได้มากขึ้นในสถานะที่กำหนด

07:44.800 --> 07:48.500
แต่ในกรณีนี้เรารู้ว่ามีเพียงการกระทำสี่อย่างที่ควรทำ

07:48.670 --> 07:58.800
และดังนั้นโครงข่ายประสาทเทียมจะทำนายค่าสี่ค่าเหล่านี้ดังนั้นจะไม่มีจุดสิ้นสุดในสถานการณ์การเรียนรู้ที่ลึกเป็นสิ่งสำคัญคือไม่มีก่อนหรือหลัง

07:58.960 --> 08:01.610
และนี่คือวิธีที่เราจะทำความรู้จักกับสิ่งนี้ให้ดีขึ้น

08:01.720 --> 08:08.080
ดังนั้นโครงข่ายประสาทเทียมจะทำนายค่าสี่ค่าเหล่านี้และจะไม่เปรียบเทียบกับสิ่งที่จะเกิดขึ้นหลังจากนั้น

08:08.140 --> 08:17.740
แต่โครงข่ายประสาทจะเปรียบเทียบกับค่าที่แน่นอนนี้ แต่เป็นค่าที่คำนวณในขั้นตอนก่อนหน้า

08:17.740 --> 08:22.950
ดังนั้นในครั้งก่อนเมื่อตัวแทนอยู่ในสแควร์ที่แน่นอนนี้

08:23.080 --> 08:34.420
สมมุติว่าฉันไม่รู้เมื่อกี้นี้ตัวแทนก็อยู่ในจตุรัสที่แน่นอนอีกครั้งและมันคำนวณค่านี้ก่อนหน้านี้

08:34.420 --> 08:43.720
ดังนั้นในครั้งก่อนเมื่อนานมาแล้วตัวแทนคำนวณค่านี้ตัวแทนจึงเก็บค่านี้สำหรับอนาคตและตอนนี้อนาคตได้มา

08:43.720 --> 08:50.510
ดังนั้นตอนนี้เขาอยู่ในจัตุรัสอีกครั้งและตอนนี้เขามีค่าลูกบาศก์เหล่านี้ซึ่งถูกทำนายไว้และหนึ่งในนั้นคือสำหรับการขึ้นสี่ครั้ง

08:50.680 --> 08:57.220
ตอนนี้สิ่งที่เขาจะทำคือการเปรียบเทียบค่าที่คาดการณ์ของ Q

08:57.220 --> 09:03.440
กับค่านี้ซึ่งเขาได้บันทึกไว้จากขั้นตอนก่อนหน้าและจะเข้าใจว่าทำไมสิ่งนี้ถึงสำคัญในตอนนี้

09:03.520 --> 09:07.990
ไม่เคยมีเจ้าหน้าที่มาก่อนในจัตุรัสนี้เวลานี้

09:08.140 --> 09:14.650
เราใช้ค่า Q

09:14.710 --> 09:22.060
ที่เขาทำนายโดยใช้เครือข่ายประสาทในครั้งนี้และเราเปรียบเทียบกับค่านี้ซึ่งเขามีมาจากครั้งก่อนจากครั้งก่อนหน้าเขาอยู่ในจัตุรัสนี้เพื่อประเมินสถานการณ์ทั้งหมดและคุณรู้ว่าเหมือนก่อนหน้านี้ เวลาที่เขาทำสิ่งนี้จริง

09:22.110 --> 09:28.100
ๆ

09:28.270 --> 09:29.290
ดังนั้นเราไปกันเลย

09:29.290 --> 09:33.360
ทีนี้ลองมาดูกันว่ามันทำงานอย่างไรในโครงข่ายประสาทและทำไม

09:33.370 --> 09:39.990
ทำไมมันเหมือนฉันรู้ว่ามันฟังดูซับซ้อนเล็กน้อยในตอนนี้ แต่เราจะแยกมันออกเป็นคำศัพท์ง่ายๆในไม่กี่วินาที

09:40.000 --> 09:44.380
ดังนั้นสิ่งนี้ในเครือข่ายของคุณเองเรากำลังป้อนสภาวะของสภาพแวดล้อมเข้าสู่เครือข่ายประสาทกำลังผ่านเลเยอร์ที่ซ่อนอยู่ซึ่งจะออกมาพร้อมกับผลลัพธ์เหล่านี้ Q1

09:44.380 --> 09:48.880
Q2 Q3 Q4

09:48.880 --> 09:57.380
ในสถานะเฉพาะเหล่านี้คือค่าคิวบ์ที่เครือข่ายประสาทคาดการณ์สำหรับการกระทำที่เป็นไปได้

09:57.400 --> 09:58.420
นั่นคือสิ่งที่ไร้สาระ

09:58.420 --> 10:07.230
ดังนั้นเราจึงปรากฏว่ามีเป้าหมายและเป้าหมายเหล่านี้มีอยู่จริงดังนั้นหากเรากลับไปที่นี่นี่คือเป้าหมายดังนั้นนี่คือค่าที่ถูกทำนายไว้

10:07.300 --> 10:11.740
และจากนั้น แต่เราก็รู้ว่าเรามีเป้าหมายตั้งแต่ครั้งสุดท้ายที่เราอยู่ในจัตุรัส

10:11.800 --> 10:16.660
เรามีเป้าหมายสำหรับการกระทำเดียวกันนี้ซึ่งมีขึ้นเพื่อเป็นตัวอย่าง

10:16.660 --> 10:21.490
ดังนั้นที่นี่เรามีเป้าหมายและเราจะเปรียบเทียบเรากำลังเปรียบเทียบ Q1

10:21.490 --> 10:28.390
กับเป้าหมายนั้นเรากำลังเปรียบเทียบ Q2 กับเป้าหมายเป้าหมายที่เรามีจากไตรมาสก่อนหน้านี้เมื่อเทียบกับเป้าหมายไตรมาสที่สี่กับเป้าหมาย

10:28.420 --> 10:38.630
และนี่คือส่วนที่เครือข่ายประสาทหรือตัวแทนกำลังเรียนรู้ผ่านการเรียนรู้อย่างลึกซึ้งว่าจะผ่านไปได้อย่างไร

10:38.650 --> 10:50.720
และประเด็นสำคัญที่นี่คือเรายังคงใช้การเรียนรู้ที่ยอดเยี่ยม แต่แนวคิดการตอบนั้นง่ายมากที่คุณเรียนรู้ที่คุณเรียนรู้ผ่านความแตกต่างทางโลกซึ่งตรงไปตรงมาซึ่งเราได้พูดคุยกันแล้วและเรารู้ดีว่าทำไม

10:50.920 --> 10:56.970
แต่ในเวลาเดียวกันในการเรียนรู้อย่างลึกซึ้งเครือข่ายประสาทเรียนรู้เครือข่ายประสาทเรียนรู้ได้อย่างไรผ่านการปรับน้ำหนักของเรา

10:57.010 --> 11:08.550
ดังนั้นเราจึงต้องปรับแนวคิดของการเสริมแรงแนวคิดของการเรียนรู้การฆ่าง่าย ๆ กับวิธีการทำงานของเครือข่ายประสาทเทียม

11:08.710 --> 11:10.950
และนั่นคือการปรับปรุงน้ำหนักของพวกเขา

11:10.960 --> 11:21.060
และนี่คือสิ่งที่เราพยายามหาที่นี่เราจะปรับแนวคิดของความแตกต่างชั่วคราวกับเครือข่ายของคุณเองเพื่อให้เราสามารถใช้ประโยชน์จากเครือข่ายประสาทเทียมได้อย่างเต็มประสิทธิภาพ

11:21.260 --> 11:33.240
จนถึงตอนนี้เราได้สิ่งนี้มาแล้วดังนั้นเราจึงเข้าสู่สภาวะแวดล้อมของเราที่นี่เมื่อเวกเตอร์ผ่านเครือข่ายประสาทเราได้รับการทำนายค่าหลักและจากครั้งก่อนหน้าที่ตัวแทนอยู่ในสถานะนั้น

11:33.240 --> 11:39.480
เรามีเป้าหมายใหม่เหล่านี้เพื่อกำหนดเป้าหมายหนึ่งสองสามและสี่สำหรับแต่ละการกระทำเหล่านี้

11:39.490 --> 11:40.870
และตอนนี้เราก็ขึ้นอยู่กับ

11:40.870 --> 11:43.360
ตกลงลองเปรียบเทียบกันกับแต่ละอัน

11:43.630 --> 11:50.500
และจากตรงนี้มันจะค่อนข้างตรงไปตรงมาถ้าคุณเร่งความเร็วด้วยเครือข่ายประสาท

11:50.500 --> 11:52.500
อีกครั้งที่อยู่บน Anax

11:52.570 --> 12:01.760
หมายเลขหนึ่งที่เราจะคำนวณการสูญเสียซึ่งอยู่ที่นี่และเราจะเป็นเป้าหมาย q อันนี้หนึ่งลบ Q ลบอันนี้

12:01.840 --> 12:06.730
เรากำลังสองกำลังสองนั่นก็คือผลต่างกำลังสองของแต่ละอันแล้วเราจะบวกพวกมัน

12:06.820 --> 12:13.940
ดังนั้นเราจึงนำผลรวมของความแตกต่างยกกำลังสองของค่าเหล่านี้และเป้าหมายของพวกเขาและเราจะส่งพวกเขาและนั่นจะเป็นการสูญเสีย

12:14.020 --> 12:31.750
และอย่างยอดเยี่ยมเช่นเดียวกับที่เราได้เรียนรู้ในความแตกต่างชั่วคราวดังนั้นถ้าเราย้อนกลับไปในความทรงจำครั้งที่สองเราพูดว่าอุดมคติเราต้องการให้นี่เท่ากับสิ่งนี้ดังนั้นเราต้องการความแตกต่างชั่วคราวเป็นศูนย์ การทำนายอย่างถูกต้องสิ่งที่คุณรู้ว่าค่า Q

12:31.750 --> 12:42.940
คือเอเจนต์กำลังทำนายค่าทั้งหมดหรือว่าเขามีและหน่วยความจำนั้นมีความหมายถึงสภาพแวดล้อมอย่างแท้จริงและดังนั้นตัวแทนจึงไม่สามารถรับสภาพแวดล้อมได้อย่างถูกต้อง

12:43.000 --> 12:49.970
ไม่มีเซอร์ไพร์สไม่มีของไม่มี ตราบใดที่ความแตกต่างทางโลกเป็นนักบินที่มีทั้งบวกและลบสูง

12:50.040 --> 12:51.340
งั้นเราก็มีเซอร์ไพรสบ้าง

12:51.340 --> 13:01.110
แต่ถ้าความแตกต่างทั่วไปเป็นศูนย์จากนั้นเขารู้สภาพแวดล้อมเป็นอย่างดีว่าเขาสามารถทำนายสิ่งที่เกิดขึ้นและเขาสามารถและดังนั้นนโยบายของเขาจะเป็นสิ่งที่ดีมากและเขาจะสามารถนำทาง

13:01.350 --> 13:02.200
ดังนั้นที่นี่

13:02.200 --> 13:07.460
สิ่งเดียวกันดังนั้นเราต้องการให้กฎนี้ใกล้เคียงกับศูนย์ฉันคิดว่าเล็กที่สุดเท่าที่จะเป็นไปได้

13:07.720 --> 13:31.120
และนั่นคือสาเหตุที่ตอนนี้เรากำลังไปที่นี่เป็นส่วนที่เราจะใช้ประโยชน์จากพลังที่แท้จริงของเครือข่ายประสาทดังนั้นเราจะใช้การสูญเสียนี้และเราจะใช้การขยายพันธุ์แบบย้อนกลับ เพื่อรับความสูญเสียนี้และผ่านมันผ่านเครือข่ายโพสต์กลับหรือย้อนกลับแพร่กระจายผ่านเครือข่ายและผ่านวันที่ดีและเหมาะสมน้ำหนัก

13:31.120 --> 13:41.050
สิ่งเหล่านี้ทั้งหมดในเครือข่ายเพื่อให้ครั้งต่อไปที่เราผ่านเครือข่ายนี้เป็นวิธีที่ดีกว่าที่จะอธิบายสภาพแวดล้อมและนั่นคือสิ่งที่เราเป็น

13:41.080 --> 13:49.330
ดังนั้นที่นี่คุณมีถ้าคุณกลับไปนี่คือการคำนวณการสูญเสีย Kalka และเดาว่าผู้เผยแพร่โฆษณาสำหรับเครือข่ายที่มีการปรับปรุงน้ำหนัก

13:49.330 --> 13:55.720
แล้วครั้งต่อไปที่เรามาถึงที่นี่สิ่งนี้เกิดขึ้นซ้ำแล้วซ้ำอีกที่นี่เกิดขึ้นอีกเรื่อย

13:55.780 --> 14:02.560
ๆ และมันก็เกิดขึ้นเรื่อย

14:02.560 --> 14:12.100
ๆ และนั่นก็เป็นสิ่งที่เอเจนต์นี้เรียนรู้ สื่อความหมายของสภาพแวดล้อมได้มากขึ้นดังนั้นเอเจนต์จึงสามารถนำทางสภาพแวดล้อมได้

14:12.130 --> 14:36.940
เมื่อเราพูดถึงสภาพแวดล้อมที่สื่อความหมายโดยทั่วไปแล้วหมายความว่าเมื่อเราใส่สถานะของสภาพแวดล้อมที่เอเจนต์นี้อยู่เราก็มีแนวโน้มที่จะเข้าใกล้ค่าคิวจริงมากขึ้นและใกล้จะเกิดขึ้นเพราะค่าคิวที่เราต้องการ การกระทำและสิ่งนั้นเกิดขึ้นเพราะเป้าหมายใหม่เหล่านี้ได้มาจากการสังเกตุอย่างแท้จริงดังนั้นเขาทุกวันเขาจะหาเป้าหมายที่น่ารักเหล่านี้ได้อย่างไร

14:37.090 --> 14:40.090
ที่จริงมีอยู่ที่นี่เพื่อให้เขาสังเกตเห็นจริง

14:40.100 --> 14:42.940
ตกลงดังนั้นเมื่อฉันทำตามขั้นตอนนี้สิ่งที่ฉันได้รับคือรางวัล

14:43.060 --> 14:45.070
แล้วค่าของรัฐนี้คืออะไร

14:45.070 --> 14:48.850
เช่นเดียวกับที่เราเห็นก่อนหน้านี้ในการเรียนรู้ Q และสัญชาตญาณการเรียนรู้อย่างง่าย

14:48.850 --> 14:59.260
ดังนั้นเขาจึงเรียนรู้สิ่งนี้ผ่านการลองผิดลองถูกและจากนั้นเขาก็สร้างเครือข่ายของเขาหรือนั่นคือวิธีที่มันเป็นไปในแบบที่ค่าที่ทำนายไว้นั้นใกล้เคียงกัน

14:59.380 --> 15:01.330
พิจารณาว่าเป้าหมาย

15:01.330 --> 15:09.870
ค่า Q นั้นคล้ายกับแนวคิดที่เรากล่าวถึงในการเรียนรู้ความแตกต่างชั่วคราวอย่างง่ายของอัลกอริทึมการเรียนรู้ทักษะอย่างง่าย

15:09.910 --> 15:10.460
ดังนั้นคุณไป

15:10.460 --> 15:12.540
นั่นคือวิธีที่ตัวแทนเรียนรู้

15:12.550 --> 15:13.930
ดังนั้นเราถึงที่นี่

15:14.260 --> 15:15.490
และนั่นคือส่วนการเรียนรู้