WEBVTT

00:01.160 --> 00:04.720
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.740 --> 00:07.950
วันนี้เรากำลังพูดถึงความแตกต่างทางโลก

00:08.100 --> 00:15.100
ตอนนี้มันสำคัญมากที่ต้องทดลองใช้เพราะความแตกต่างชั่วคราวคือหัวใจและวิญญาณของอัลกอริทึมการเรียนรู้ Q

00:15.120 --> 00:22.410
นี่คือความจริงที่ว่าทุกสิ่งที่เราเรียนรู้มารวมกันเป็นส่วนหนึ่งในการเรียนรู้ที่สำคัญ

00:22.410 --> 00:23.880
ดังนั้นเรามาดู

00:23.910 --> 00:28.040
จำเวลาที่เราพูดคุยเกี่ยวกับการค้นหาแบบกำหนดค่าได้กับการค้นหาแบบไม่ระบุชื่อ

00:28.410 --> 00:34.960
และจำไว้ว่าเราพูดในกรณีนี้เมื่อตัวแทนต้องการขึ้นเขาขึ้นไปและเมื่อ

00:35.070 --> 00:38.740
ในกรณีนี้เขาต้องการที่จะขึ้นไปมีโอกาส 10 เปอร์เซ็นต์ที่เขาจะไปที่อุณหภูมิและโอกาสที่ต่ำกว่าและไปทางขวาและไปทางขวาและโอกาส

00:38.730 --> 00:41.390
80 เปอร์เซ็นต์จะไปทางขวา

00:41.400 --> 00:42.390
ตรงขึ้นไป

00:42.450 --> 00:46.410
ในขณะที่ตัวเลขเหล่านี้แน่นอนโดยพลการและอาจแตกต่างกัน

00:46.410 --> 00:59.930
และแนวคิดทั้งหมดนี้อาจเป็นปัญหาที่แตกต่างและแตกต่างกันดังนั้นจึงไม่ต้องกังวลว่าวิธีการที่เขาเคลื่อนไหวเพียงแค่ว่ามีบางสิ่งแบบสุ่มที่อยู่นอกเหนือการควบคุมของตัวแทนที่เกิดขึ้นภายในสภาพแวดล้อมนี้

01:00.060 --> 01:11.030
และสิ่งที่เกิดขึ้นตามที่คุณจำได้ก็คือในตัวอย่างที่กำหนดได้ง่ายมากในการคำนวณค่า Wii ในขณะที่ไม่จำเป็นต้องง่ายเสมอไป

01:11.040 --> 01:17.120
แต่ในกรณีของเราเราสามารถคำนวณได้ง่ายๆโดยใช้สมการ Belman และเรามีค่าที่แน่นอน

01:17.370 --> 01:27.810
และอย่างที่คุณจำได้ฉันพูดถึงอย่างระมัดระวังว่าค่าเหล่านี้สำหรับตัวอย่างการค้นหาแบบไม่ระบุชื่ออยู่ด้านบนของหัวของฉัน

01:27.840 --> 01:29.220
พวกเขาไม่ใช่ Kalka ที่เรารู้จัก

01:29.270 --> 01:33.090
ครั้งล่าสุดที่ฉันบอกว่าเราไม่ใช่เราแค่ต้องคำนวณพวกมันเพราะมันซับซ้อนมาก

01:33.090 --> 01:39.600
แต่คอมพิวเตอร์สามารถทำได้และเราก็ไปกับค่าเหล่านี้ซึ่งเป็นค่าที่ฉันสร้าง

01:39.600 --> 01:41.310
แต่พวกเขาก็ทำงานให้เสร็จ

01:41.310 --> 01:43.030
พวกเขาช่วยให้เราเข้าใจแนวคิด

01:43.290 --> 01:47.790
ทีนี้เราจะกลับไปดูอีกหน่อยและเข้าใจว่าเกิดอะไรขึ้นที่นี่

01:47.790 --> 01:55.420
ทำไมการคำนวณค่าเหล่านี้ในตัวอย่าง nondeterministic

01:55.420 --> 01:59.570
จึงยากกว่ามากหรือโดยทั่วไปแล้วพูดถึงปัญหาเหล่านี้ในสภาพแวดล้อมเหล่านี้และเอเจนต์จะผ่านมันไป

01:59.580 --> 02:00.400
ทำไมมันเป็น

02:00.510 --> 02:03.030
เหตุใดจึงยากที่จะคำนวณค่าเหล่านี้

02:03.030 --> 02:22.290
เมื่อคุณคิดเกี่ยวกับมันเพราะเมื่อเอเจนต์ย้ายตัวอย่างจากที่นี่ไปทางขวาเขาไม่จำเป็นต้องเคลื่อนไหวอย่างนั้นบางครั้งก็เป็นโอกาสที่เขาจะชนะแทนที่จะไปทางตรงดังนั้นลองโทรไปทางตะวันออกเฉียงใต้ทิศตะวันออกเฉียงใต้ ไปทางตะวันตก

02:22.470 --> 02:27.360
ตัวแทนอาจลงใต้บางครั้งและตัวอย่างจากที่นี่จะไปทางเหนือ

02:27.360 --> 02:29.220
บางครั้งเขาอาจไปทางตะวันออก

02:29.460 --> 02:30.240
ขอโทษมาก.

02:30.240 --> 02:34.680
ดังนั้นที่นี่แทนที่จะไปทางตะวันออกเขาอาจจะไปทางใต้และบางครั้งเขาก็ไปทางเหนือ

02:34.710 --> 02:41.160
บางครั้งเขาอาจไปทางตะวันออกหรือตะวันตกและที่นี่แทนที่จะไปทางเหนือบางครั้งเขาอาจไปทางตะวันตกหรือตะวันออกหรือตะวันตกและอื่น ๆ

02:41.160 --> 02:51.110
ดังนั้นในการคำนวณค่านี้คุณจะต้องรู้ว่าค่านี้คืออะไร แต่สิ่งที่น่าสนใจคือในการคำนวณค่านี้คุณต้องรู้ว่าค่านี้คืออะไร

02:51.120 --> 02:57.340
มีการสอบถามซ้ำเกิดขึ้นมากมายที่นี่และดังนั้นคุณไม่สามารถตัดสินใจที่จะกำหนดว่าค่าเหล่านี้คืออะไร

02:57.360 --> 03:01.140
และนอกเหนือจากนั้นการเรียกซ้ำครั้งนี้ไม่ได้กำหนดขึ้น

03:01.140 --> 03:08.250
บางครั้งมันเกิดขึ้นด้วยวิธีนี้บางครั้งมันเป็นทางขึ้นเขาบางครั้งแทนที่จะไปทางซ้าย

03:08.730 --> 03:09.540
เมื่อเขาต้องการขึ้นไป

03:09.540 --> 03:10.520
เขาจะขึ้นไป

03:10.560 --> 03:27.370
ดังนั้นมันจึงขึ้นอยู่กับโอกาสและบางทีตัวแทนหลายต่อหลายคนก็ต้องผ่านเส้นทางนี้และเขาก็จะขึ้นไปข้างบนแล้วคุณจะคิดว่าจากที่นี่คุณมักจะขึ้นไปและคุณค่าของรัฐ จะดีแล้วทันใดนั้นเขาก็จะตกลงไปในหลุมและค่านี้จะลดลง

03:27.620 --> 03:35.370
ดังนั้นคุณจึงเห็นได้ว่ามีการสุ่มสุ่มมาจากการคำนวณทั้งหมดเกี่ยวกับค่าเหล่านี้เพราะพวกมันทั้งหมดเชื่อมโยงกัน

03:35.370 --> 03:42.320
ยิ่งกว่านั้นคุณจะได้รับการสุ่มในสภาพแวดล้อมนี้เพราะมีกระบวนการตัดสินใจ

03:42.540 --> 03:52.370
นั่นคือสิ่งที่ทั้งหมดนี้มารวมกันและที่ที่เราจะแนะนำแนวคิดของความแตกต่างชั่วคราวซึ่งจะช่วยให้ตัวแทนในการคำนวณค่าเหล่านี้

03:52.530 --> 03:55.560
และที่นี่เรากำลังจัดการกับค่านิยม

03:55.560 --> 03:59.390
และตั้งแต่นั้นเราได้ย้ายไปยังค่า Q แล้วนั่นคือสิ่งที่เรากำลังจะทำงาน

03:59.400 --> 04:01.980
เรากำลังจะมองคุณค่าที่ยิ่งใหญ่

04:02.010 --> 04:06.090
ดังนั้นฉันจำได้ว่านี่คือสมการ Belman ของเราสำหรับค่า q

04:06.180 --> 04:15.090
ดังนั้นค่า AQ หรือค่าของการกระทำประเภท

04:15.090 --> 04:22.770
A ในสถานะเท่ากับรางวัลที่คุณได้รับหลังจากการกระทำนั้นทันทีหลังจากทำการกระทำบวกคุณจะได้รับจำนวนสูงสุดของแกมม่าจากผลรวมทั้งหมดที่เป็นไปได้

04:22.770 --> 04:26.720
.

04:26.910 --> 04:31.680
ดังนั้นคุณจะได้ค่าคาดหวังของรัฐที่คุณจะได้รับ

04:31.680 --> 04:37.710
ดังนั้นเมื่อคุณจำได้ว่ามีสูตรสำหรับสมการ Beldon

04:37.710 --> 04:45.850
และตอนนี้เพื่อความเรียบง่ายบอกว่าเราจะเขียนมันใหม่ในแบบเก่าและในแบบที่เราเคยพูดถึงสมการ Bellmen ก่อนที่เราจะรู้เกี่ยวกับภาคต่อ

04:45.880 --> 04:57.600
ดังนั้นจำไว้ว่านี่คือสมการเบลแมนของเราในแง่ของตัวอย่างการค้นหาที่กำหนดขึ้นเพราะที่นี่คุณไม่มีค่าที่คาดหวังไว้

04:57.750 --> 05:05.450
คุณแค่ทำแบบนั้นราวกับว่ามันถูกกำหนดแล้วว่าคุณจะจบลงด้วยสถานะที่คุณกำลังจะจบลงและจากนั้นคุณจะบอกคุณสูงสุดในสถานะหนึ่ง

05:05.570 --> 05:14.550
และเหตุผลที่เราเขียนใหม่มันเป็นเพียงเหตุผลเดียวก็คือเพราะมันง่ายกว่าที่จะเขียนมันและมันจะง่ายกว่าที่จะตกไปพร้อมกับสูตร

05:14.550 --> 05:19.340
ดังนั้นเราจะต้องจำไว้ว่าเราแทนที่ส่วนนี้ของแถบนี้

05:19.430 --> 05:28.310
และคุณจะพบสัญลักษณ์นี้ในวรรณคดีจำนวนมากดังนั้นคุณจะสามารถติดตามพร้อมกับแหล่งข้อมูลอื่น ๆ ได้ง่ายขึ้นหากคุณกำลังศึกษาสิ่งเหล่านี้

05:28.370 --> 05:39.130
แต่จำไว้ว่าในความเป็นจริงสิ่งที่เราหมายถึงคือแนวทางความน่าจะเป็นที่นี่แทนที่จะเป็นสัญลักษณ์นี้ง่ายกว่าสำหรับเราในการดำเนินการและเข้าใจสิ่งที่เกิดขึ้น

05:39.140 --> 05:48.050
ฉันแค่มองไปที่สมการเพื่อว่ามันจะไม่รกเกินไป แต่อีกครั้งแค่จำไว้ว่าอันที่จริงสิ่งที่เราหมายถึงคือแนวทางความน่าจะเป็นที่นี่

05:48.290 --> 05:52.130
ดังนั้นเราจึงรู้อยู่แล้วว่า Tom Silis มีลักษณะที่เกิดขึ้น

05:52.190 --> 06:00.350
ดังนั้นนี่คือสถานะที่ว่างเปล่าของเขาวงกตที่เราไม่มีค่า q ใด ๆ

06:00.500 --> 06:05.510
ลองดูหรือเมื่อเราทำได้ แต่ลองเก็บว่างไว้ตอนนี้ลองดูที่สถานะใดสถานะหนึ่งหรือหนึ่งในเซลล์

06:05.570 --> 06:07.280
อันนี้โดยเฉพาะ

06:07.820 --> 06:11.240
และที่นี่เรามีคำตอบสำหรับการขึ้น

06:11.240 --> 06:14.290
เรามีค่า q ที่เราคำนวณ

06:14.290 --> 06:18.070
ดังนั้นไม่ใช่ว่าเราไม่มีค่า q ใด ๆ แต่เรามีค่าที่เราทำ

06:18.080 --> 06:19.930
แต่เราไม่ได้อธิบายอะไรเลย

06:19.930 --> 06:22.520
เราแค่ทำตัวว่างเปล่าเพื่อความเรียบง่าย

06:22.610 --> 06:28.570
แต่เรามีช่วงอายุที่เดินไปรอบ ๆ

06:28.580 --> 06:36.560
มาแล้วสมมุติว่าเขาคำนวณค่าคิวบ์ของการเพิ่มขึ้นหรือ Norf จากสถานะนี้จากเซลล์เฉพาะนี้และค่า

06:36.560 --> 06:40.240
Q S และ A และตอนนี้สิ่งที่เรามี

06:40.240 --> 06:45.070
ดังนั้นเขาจึงอยู่ในขณะนี้โดยมีลูกศรสีน้ำเงินชี้และตัวแทนกำลังนั่งอยู่ในห้องนี้

06:45.590 --> 06:48.560
และตอนนี้เขาต้องเลือกว่าเขาจะไปที่ไหน

06:48.590 --> 06:57.290
และเขาก็รู้คุณค่าของการกระทำนี้ที่ไปทางเหนือนั่นคือคิวเซเน่และที่นี่ฉันพูดมาก่อนและเหตุผลที่เป็นเพราะเขาคือก่อนที่เขาจะลงมือทำจริงเขายังไม่ได้ลงมือเลย ก่อนที่เขาจะดำเนินการค่าที่นี่คือ

06:57.290 --> 07:01.940
q

07:01.940 --> 07:11.370
และ SNH และตอนนี้เขาจะดำเนินการจริง

07:11.390 --> 07:13.670
สมมติว่าเขาตัดสินใจเป็นคนที่ดีที่สุด

07:13.670 --> 07:16.440
เขาลงมือทำและย้ายไปที่ห้องขัง

07:16.730 --> 07:35.640
ทีนี้สิ่งที่เกิดขึ้นตอนนี้มาหลังจากดังนั้นหลังจากที่เขาลงมือแล้วเราสามารถวัดได้ว่าค่านี้คืออะไรลองคำนวณค่านี้เป็นมูลค่าของรางวัลสำหรับการกระทำนั้นบวกแกมม่าคูณค่าสูงสุดของสถานะใหม่ที่เขาเพิ่งเข้ามา สำคัญ

07:35.640 --> 07:39.030
ดังนั้นจำนวนสูงสุดของการกระทำและแอสไพริน

07:39.080 --> 07:44.770
และสิ่งที่เรามีอยู่ที่นี่คือคุณค่าก่อนการกระทำ

07:44.810 --> 07:47.650
จากนั้นเราก็คำนวณตัวชี้วัดนี้หลังจากนั้น

07:47.660 --> 08:02.180
แต่อย่างที่คุณสามารถจำได้จากสี่เดือนก่อนหน้าถ้าเราย้อนกลับไปอย่างรวดเร็วจากสูตรก่อนหน้านี้ที่เราเพิ่งคำนวณนั้นเป็นค่าที่เป็น Q

08:02.180 --> 08:02.180
 คำนวณ

08:02.210 --> 08:07.930
ดังนั้นส่วน Arite ของการคำนวณแยกต่างหาก แต่หลังจากเราได้ทำ

08:08.330 --> 08:15.470
ดังนั้นก่อนที่เราจะรู้ Q ของ S และให้คุณค่ากับสิ่งที่เราคำนวณผ่านการทำซ้ำของเรา Preuss

08:15.470 --> 08:16.860
เป็นบางสิ่ง

08:17.000 --> 08:19.990
ดังนั้นค่าที่เก็บไว้ในความทรงจำของเรา

08:20.000 --> 08:26.990
ดังนั้นเช่นเดียวกับตัวเลขที่เรารู้และหลังจากดำเนินการแล้วเรารู้ว่ารางวัลอะไรที่เขาได้รับจริง ๆ สิ่งที่ตัวแทนได้รับจริง

08:27.050 --> 08:30.270
ๆ

08:30.440 --> 08:33.320
และเราสามารถคำนวณค่าใหม่นี้ได้

08:33.320 --> 08:41.120
ดังนั้นโดยพื้นฐานแล้วเรากำลังคำนวณค่านี้ใหม่ แต่ตอนนี้มีข้อมูลใหม่ข้อมูลใหม่คือรางวัลที่เราได้รับ

08:41.600 --> 08:50.540
และบวกกับสิ่งที่เรายังคงอยู่และสิ่งที่สูงสุดข้ามสถานะนั้นสิ่งที่ค่าใหม่นี้สำหรับข้อมูลเฉพาะที่สามารถ

08:50.570 --> 08:54.480
ดังนั้นมูลค่าของสิ่งนั้นที่อยู่ในสถานะนั้น

08:54.500 --> 09:02.060
โดยพื้นฐานแล้ว Cure Vanessa-Mae แต่ได้รับข้อมูลใหม่และตอนนี้ความแตกต่างชั่วคราวถูกกำหนดเป็น tiddy ของ

09:02.150 --> 09:07.700
a และ s ของความแตกต่างระหว่างสองสิ่งนี้

09:07.700 --> 09:11.770
ดังนั้นที่นี่องค์ประกอบแรกคือค่านอกของคุณ

09:11.780 --> 09:16.250
ดังนั้นชนิดเช่น Q ของ Esson จะถูกคำนวณเล็กน้อยหลังจากนั้น

09:16.550 --> 09:21.880
และquvenzhané A ก่อนหน้าซึ่งคุณเก็บไว้ในหน่วยความจำของคุณ

09:22.070 --> 09:24.170
และคำถามก็คือพวกเขาต่างกัน

09:24.290 --> 09:26.240
ดังนั้นควรพวกเขาควรจะเหมือนกัน

09:26.240 --> 09:31.750
เป็นการดีที่ควรจะเป็นเช่นนี้เพียงเพราะนี่คือสูตรสำหรับการคำนวณนี้

09:31.790 --> 09:38.060
แต่สิ่งนี้ไม่ใช่สิ่งที่เรา Kalka

09:38.060 --> 09:41.320
นี่คือสิ่งที่เรามีจากหลักฐานเชิงประจักษ์สิ่งที่เรามีจากการผ่านเขาวงกตหลายครั้งและคำนวณ

09:41.320 --> 09:44.330
นี่คือสิ่งที่เราคิดขึ้นมา

09:44.360 --> 09:46.820
มันไม่เกี่ยวข้องกับการทำซ้ำปัจจุบัน

09:46.820 --> 09:53.180
มันเป็นอะไรบางอย่างที่เราเคยทำมานานแล้วเมื่อก่อน แต่ในการทำซ้ำครั้งก่อน ๆ ของเราจะต้องผ่านเขาวงกต

09:53.510 --> 10:04.720
ในขณะที่นี่คือสิ่งที่เราได้คำนวณตอนนี้และไม่มีการรับประกันว่าพวกเขาจะเหมือนกันหรือเนื่องจากการสุ่มที่มีอยู่ในเขาวงกตเพราะสิ่งนี้สามารถคำนวณได้และเห็นเหตุการณ์สุ่ม CRN บางอย่างถูกกระตุ้น

10:04.750 --> 10:11.290
สามารถเรียกเหตุการณ์สุ่มที่แตกต่างกันที่เกิดขึ้นถูกเรียก

10:11.740 --> 10:15.680
ทีนี้เราก็เขียนฮีโร่ของเราลงไปที่นั่น

10:15.700 --> 10:16.900
ดังนั้นเราจะใช้สิ่งนี้อย่างไร

10:16.900 --> 10:20.470
คำถามก็โอเคดังนั้นเราจึงมีความแตกต่างชั่วคราวนี้

10:20.470 --> 10:21.340
เราจะใช้สิ่งนี้อย่างไร

10:21.400 --> 10:23.450
และทำไมจึงเรียกว่าความแตกต่างชั่วคราว

10:23.590 --> 10:28.960
เหตุผลที่เรียกว่าความแตกต่างชั่วคราวนั้นเป็นเพราะคุณกำลังคำนวณสิ่งเดียวกันกับที่คุณคำนวณ Q of S และ

10:28.990 --> 10:33.460
A ดังนั้นค่า Q ของการกระทำ

10:33.640 --> 10:36.140
Calcott ของคุณที่นี่และคุณคำนวณได้ที่นี่

10:36.340 --> 10:38.310
แต่ความแตกต่างคือเวลา

10:38.320 --> 10:44.140
นี่คือ Q ของ S และก่อนหน้านี้นี่คือ yo Q ของ S และ A

10:44.140 --> 10:49.090
ตอนนี้การรักษาแบบใหม่ของคุณนั้นเป็นมา แต่กำเนิดและคำถามก็มีความแตกต่าง

10:49.090 --> 10:51.700
มีการเปลี่ยนแปลงระหว่างพวกเขาในเวลา

10:52.060 --> 10:56.830
และเราจะใช้สิ่งนี้เพื่อประโยชน์ของเราได้อย่างไรหากมีการเปลี่ยนแปลงตามเวลา

10:57.040 --> 11:02.790
สิ่งหนึ่งที่เราทำได้คือเราสามารถพูดว่าโอเคคุณรู้ Q ของเรา  ไม่

11:02.830 --> 11:09.610
ค่าใหม่นี้ไม่เท่ากันดังนั้นเราจะกำจัดเก่าหรือลืมค่าเก่าและเราแค่ใช้นี่คือค่าใหม่ทั้งหมด

11:09.970 --> 11:11.920
แต่นั่นจะไม่ฉลาด

11:11.950 --> 11:17.960
และสาเหตุที่เป็นเช่นนั้นในบางครั้งเหตุการณ์สุ่มอาจเกิดขึ้นได้ในสภาพแวดล้อมของเรา

11:18.140 --> 11:25.500
และถ้า QSA เก่าของเราเป็นอย่างไร  เป็นสิ่งที่เกิดขึ้นอย่างต่อเนื่องเช่นร้อยละ 80 ของเวลา

11:25.780 --> 11:28.750
และเช่นนั้นถูกแทนด้วยสิ่งที่เกิดขึ้น 80 เปอร์เซ็นต์ของเวลา

11:28.750 --> 11:33.280
แล้วอันใหม่นี้ก็เกิดอะไรขึ้นเนื่องจากการสุ่ม

11:33.280 --> 11:39.610
ในกรณีนั้นเราจะทิ้งสิ่งที่รับผิดชอบต่อสถานการณ์จำนวนมากและเราจะแทนที่ด้วยสิ่งที่เกิดขึ้นเพียง 10 หรือ 20

11:39.760 --> 11:43.900
เปอร์เซ็นต์ของเวลา

11:43.900 --> 11:51.990
นั่นไม่ใช่วิธีที่ดีที่สุดที่จะไปและนั่นคือเหตุผลที่ว่าทำไมเราไม่ต้องการเปลี่ยนค่า Opu อย่างสมบูรณ์

11:52.060 --> 11:56.890
เราต้องการที่จะใช้เช่นเปลี่ยนพวกเขาทีละนิดทีละนิด

11:56.890 --> 12:01.980
และนั่นคือสาเหตุที่เราจะใช้ความแตกต่างชั่วคราวนี้ในวิธีเฉพาะดังนั้นเราจะบอกว่านี่คือสูตรที่เราจะใช้คิว SNH

12:02.020 --> 12:05.080
ของเรา

12:05.560 --> 12:07.120
และเราจะอัปเดตในลักษณะนี้

12:07.120 --> 12:13.380
เราจะนำคุณค่าเก่าแก่ของการบำบัด Senay และเราจะเพิ่มความแตกต่างชั่วคราวทั้งห้าเท่า

12:13.420 --> 12:15.730
ดังนั้นอัลฟาจะต้องเรียนรู้อย่างถูกต้อง

12:15.730 --> 12:17.410
นั่นคือพารามิเตอร์ใหม่ที่เรากำลังแนะนำ

12:17.410 --> 12:20.070
นั่นคือการเรียนรู้อัลกอริทึมที่รวดเร็ว

12:20.080 --> 12:27.210
โดยพื้นฐานแล้วเราจะรับความแตกต่างนี้และอะไรก็ตามที่เราเพิ่มเข้าไปในงู KJo ก่อนหน้าของเรา

12:27.220 --> 12:31.970
ตอนนี้สูตรนี้อาจจะไม่สมเหตุสมผลหรือเพียงแค่มองมันไม่สมเหตุสมผลเพราะคุณได้ Covisint ที่นี่และให้ A

12:31.970 --> 12:34.040
ตรงนี้กับเรา

12:34.060 --> 12:40.090
มันเป็นสิ่งเดียวกันดังนั้นอาจจะเป็นการคัดค้านซึ่งกันและกัน แต่เราต้องเขียนมันใหม่ด้วยวิธีที่แตกต่างกันเล็กน้อย

12:40.390 --> 12:44.080
ดังนั้นฉันจะแสดงให้คุณเห็นอีกครั้งดังนั้นฉันแค่เพิ่มเวลาให้กับสูตรเหล่านี้

12:44.090 --> 12:48.070
นี่คือ q t ลบหนึ่งปีก่อนหน้านี้

12:48.070 --> 12:49.780
Q T ลบ 1 ปีก่อนหน้า

12:49.780 --> 12:56.750
คำถามใหม่สิ่งนี้ควรเป็นวงกลมตรงนี้ในวงกลมที่นี่เช่นกัน แต่ไม่เป็นไรและที่นี่จะได้รับความแตกต่างชั่วคราว

12:56.810 --> 12:58.750
แล้วคุณจะเห็นความแตกต่างทางโลกปัจจุบัน

12:58.750 --> 13:01.190
ดังนั้นคุณสามารถเห็นสิ่งที่เรากำลังทำเรากำลังพูด

13:01.220 --> 13:04.200
ตกลงเรามาดูกันดีกว่า

13:04.240 --> 13:10.880
Q จะเท่ากับ Q ก่อนหน้านี้ทั้งหมดบวกกับความแตกต่างชั่วคราวใด ๆ ที่เราพบ Times Alpha

13:11.150 --> 13:16.330
สูตรนี้คือหัวใจและจิตวิญญาณของอัลกอริทึมการเรียนรู้คิวบ์

13:16.330 --> 13:18.250
นี่คือวิธีที่คิวบ์เป็นหรืออัพเดต

13:18.280 --> 13:25.300
และเป็นเรื่องดีที่เราได้เรียนรู้แล้วว่าค่า q คืออะไรแกมม่าคืออะไรและอะไรคือสิ่งนี้

13:25.420 --> 13:31.740
และตอนนี้สิ่งที่เราต้องเห็นคือคุณมีค่า Q ก่อนหน้าใช่ว่าดี

13:31.990 --> 13:42.530
และสิ่งที่สามารถเกิดขึ้นได้คือเมื่อคุณดำเนินการเมื่อคุณทำสิ่งที่ตัวแทนดำเนินการคุณจะรู้ว่าเขาจะได้รับรางวัลและเขาจะได้รับสถานะ

13:42.610 --> 13:46.400
จากนั้นเขาสามารถคำนวณ Aha ได้

13:46.420 --> 13:53.220
ตกลงดังนั้นสิ่งที่จะมีสิ่งที่ควรได้รับค่า Q ของการย้ายที่ฉันทำ

13:53.530 --> 13:56.390
และตอนนี้นั่นคือส่วนหนึ่งของสมการนี้

13:56.470 --> 14:02.870
ลบค่า Q เก่าจะทำให้คุณมีความแตกต่างชั่วคราวและตอนนี้คุณต้องใช้ความแตกต่างตัวอย่างเวลาของ Alpher

14:02.920 --> 14:05.410
และนั่นคือวิธีที่คุณจะปรับ

14:05.430 --> 14:06.370
ถามคุณเข้าใจหรือไม่ว่าคุณหมายถึงอะไร

14:06.370 --> 14:10.240
ฉันแค่คิดว่าคุณผ่านไปแล้วและตอนนี้ก็จบเรื่องนี้

14:10.240 --> 14:18.370
นี่เป็นแบบนี้เพียงพอที่จะเข้าใจว่าเกิดอะไรขึ้น แต่เพื่อให้ชัดเจนขึ้น

14:18.460 --> 14:24.180
เราต้องทำอะไรเพื่อให้ได้ความแตกต่างชั่วคราวนี้หรือความแตกต่างง่ายๆนี้หรือนี่คือวิธีที่จะเสียบเข้ากับรูปแบบนี้

14:24.190 --> 14:29.840
ดังนั้นเราจะเอาส่วนนี้ทั้งหมดมาต่อกับสูตรนี้และจบลงด้วยสมการขนาดใหญ่

14:29.920 --> 14:31.490
ดังนั้นเราไปกันเลย

14:31.660 --> 14:32.590
มีสมการของเรา

14:32.590 --> 14:38.470
นี่คือสมการเต็มรูปแบบที่มีความแตกต่างชั่วคราวเขียนออกมาอย่างสมบูรณ์

14:38.560 --> 14:45.560
และเหตุผลที่ฉันเขียนมันออกมาก่อนอื่นคุณอาจพบสิ่งนี้ในวรรณกรรมอื่น ๆ

14:45.730 --> 14:52.300
และสิ่งที่สองคือมันทำให้บางสิ่งที่ซับซ้อนกว่าเล็กน้อยมีสูตรยาวกว่า แต่ก็ทำให้บางสิ่งชัดเจนขึ้น

14:52.300 --> 14:55.940
ตัวอย่างเช่นคุณสามารถดูได้ที่นี่บทบาทของอัลฟ่า

14:55.960 --> 14:58.310
คุณสามารถดูได้ดีขึ้นเพราะดูที่

14:58.320 --> 14:58.860
ที่นี่

14:58.900 --> 15:01.410
Q ลบหนึ่งและคุณไปที่นี่

15:01.420 --> 15:03.760
Q T ลบด้วยเครื่องหมายลบ

15:03.760 --> 15:12.170
ถ้าคุณเสียบอัลฟ่าเท่ากับ 1 ถ้าคุณใส่ 1 ลงไปตรงนี้นี่จะลบล้างนี่

15:12.190 --> 15:16.170
ดังนั้นพวกเขาจะทำลายซึ่งกันและกันและสิ่งที่คุณเหลืออยู่คือส่วนนี้

15:16.480 --> 15:24.750
และนั่นหมายความว่าเป็นสถานการณ์ที่เราพูดว่าถูกต้องเพื่อให้คุณได้รับค่าใหม่ที่ควรจะเป็น

15:24.850 --> 15:29.570
มาอัปเดตค่า Q ของเราด้วยค่าใหม่และลืมทุกอย่างที่เรามีก่อนหน้านี้

15:29.710 --> 15:36.820
และอย่างที่เราพูดถึงไม่ใช่วิธีที่ดีที่สุดเพราะมีเหตุการณ์แบบสุ่มที่นี่และเราต้องการที่จะอัปเดตทุกขั้นตอน

15:37.530 --> 15:43.590
และในทางกลับกันถ้าคุณบอกว่า Alpher เท่ากับศูนย์สิ่งที่เกิดขึ้นก็คือคุณลืมส่วนนี้ทั้งหมดและคุณน่ารัก

15:43.590 --> 15:48.960
t ชิ้นใหม่หรืออันปัจจุบันจะเท่ากับเสมอก่อน

15:48.960 --> 15:51.720
จะไม่ได้เรียนรู้อะไรเลย

15:51.720 --> 15:58.940
และนั่นหมายความว่าสิ่งที่เกิดขึ้นในเขาวงกตไม่สำคัญเพราะคุณตัดสินใจให้คุณค่ากับคุจิเมื่อนานมาแล้วและคุณจะต้องเก็บมันไว้

15:59.230 --> 16:03.200
นั่นคือสาเหตุที่อัลฟ่าไม่ควรเป็น 0 หรือควรเป็นอันที่ควรอยู่ระหว่าง

16:03.240 --> 16:12.720
และมันจะช่วยให้คุณเรียนรู้อย่างช้าๆทีละขั้นตอนคือการอนุญาตให้คุณเป็นตัวแทนของคุณหรือในขณะที่มันผ่านเขาวงกตที่จะได้รับความแตกต่างชั่วคราว

16:12.960 --> 16:25.440
และอย่างช้าๆ แต่แน่นอนว่าค่านี้จะได้รับการอัปเดตและอัปเดตที่ถูกต้องและสิ่งที่จะเกิดขึ้นในที่สุดก็คือในบางครั้งหวังว่าอัลกอริทึมจะมาบรรจบกัน

16:25.710 --> 16:30.960
และนั่นหมายความว่าความแตกต่างชั่วคราวนี้จะเริ่มใกล้เข้ามาใกล้ศูนย์มากขึ้นและในที่สุดก็จะใกล้เคียงกับศูนย์มากหรือ 0 0

16:30.960 --> 16:37.860
0 0 และนั่นหมายความว่าทุกครั้งที่คุณเห็นคุณค่าใหม่

16:37.860 --> 16:43.050
ค่าที่คำนวณได้

16:43.350 --> 16:44.430
สิ่งที่ควรจะเป็น

16:44.440 --> 16:51.030
ไม่ใช่อันนี้ แต่สิ่งที่มันควรจะเพียงพอที่จะทำตามขั้นตอนจะเท่ากับค่าไตรมาสที่ 2 ของคุณก่อนหน้านี้

16:51.030 --> 17:02.720
จากนั้นค่าใดค่าหนึ่งที่เป็นศูนย์และนั่นหมายความว่าเมื่อความแตกต่างของอุณหภูมิเป็นศูนย์หมายความว่าอัลกอริทึมของคุณแปรสภาพและไม่จำเป็นต้องทำการอัปเดตสิ่งที่เกิดขึ้นต่อไป

17:02.720 --> 17:06.270
การค้นหานี้เพื่อปรับปรุงค่าคิวบ์ของคุณต่อไป

17:06.270 --> 17:19.140
คำเตือนที่นี่คือครั้งเดียวอาจเป็นเพียงครั้งเดียวเมื่อคุณยังต้องการที่จะดำเนินการทั้งหมดนี้คุณรู้ว่าการปรับปรุงค่าคิวหากสภาพแวดล้อมมีการเปลี่ยนแปลงตลอดเวลา

17:19.170 --> 17:23.100
ถ้าไม่ใช่แค่มันไม่ได้อยู่ที่นั่นมันก็มีเหตุการณ์ที่เกิดขึ้นกับ Kostic อยู่ด้วย

17:23.220 --> 17:28.750
แต่สภาพแวดล้อมเองกำลังปรับเปลี่ยนตามสภาพที่เปลี่ยนแปลงไปตามกาลเวลา

17:29.040 --> 17:39.210
ดังนั้นคุณต้องเรียนรู้อย่างต่อเนื่องเพราะมันเป็นไปไม่ได้ที่คุณจะเรียนรู้ทุกอย่างและมาพร้อมกับนโยบายที่ดีที่สุดเพราะนโยบายที่ดีที่สุดก็เปลี่ยนไปตามสภาพแวดล้อมตลอดเวลา

17:39.240 --> 17:44.730
ในกรณีนี้คุณจะต้องดำเนินการ CALKIN และความแตกต่างชั่วคราวและคำนวณค่า Q

17:44.730 --> 17:46.830
แต่นอกเหนือจากนั้นมันก็เหมือนเป็นโรคแทรกซ้อนพิเศษ

17:46.830 --> 17:53.370
นอกเหนือจากนั้นนี่คือค่า Q ที่ปรับปรุงดังนั้นนี่คือสูตรหลักของอัลกอริทึมการเรียนรู้

17:54.090 --> 17:59.490
Q

17:59.490 --> 18:05.250
และนี่เป็นเหมือนเวอร์ชันขยายของมันและตอนนี้มันควรมารวมกันและทำให้เข้าใจว่าทำไมเราจึงมีสมการ Belman

18:05.250 --> 18:14.620
และไม่ เฉพาะสิ่งที่มันแสดงถึง gewgaws แต่ยังรวมถึงวิธีที่เอเจนต์ดำเนินการเกี่ยวกับการปรับปรุงค่าของมันและค้นหาสิ่งที่เกิดขึ้นในสภาพแวดล้อมนั้นเพื่อให้เกิดนโยบายที่เหมาะสมที่สุด

18:14.640 --> 18:39.230
ฉันหวังว่าคุณจะสนุกกับการสอนนี้และหวังว่าคุณจะสามารถนำแนวคิดพื้นฐานและสัญชาตญาณเบื้องหลังค่านิยมของคุณและสิ่งที่ความคิดทั้งหมดของความแตกต่างทางโลกคืออะไรและทำไมมันสำคัญที่ทำไมเราช่วยเราฝึกฝนช้า ตัวแทนและช่วยให้พวกเขาเข้าใจสภาพแวดล้อมที่พวกเขากำลังทำงานอยู่

18:39.270 --> 18:45.540
และหากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับความแตกต่างทางโลกแล้วกระดาษที่นิยมมากก็คือการเรียนรู้ที่จะทำนายโดยวิธีการของความแตกต่างทางโลกโดย

18:45.540 --> 18:52.470
Richard Sutton จากสิบเก้าแปด

18:52.620 --> 18:57.060
เรามีการอ้างอิงโดย Richard

18:57.060 --> 19:05.660
Sutton เช่นกัน แต่นี่เป็นอีกเล่มหนึ่งและจริง ๆ แล้วมีหนังสือเล่มหนึ่งดังนั้นหากคุณเข้าใจสไตล์การเขียนและสไตล์การสื่อสารของเขาแล้วลองดูที่หนังสือของเขาเช่นกัน

19:05.810 --> 19:08.630
มันเป็นเหมือนสิ่งที่ขยายมากขึ้นของทุกสิ่งเหล่านี้

19:08.640 --> 19:12.820
ฉันไม่ได้อ่านหนังสือ แต่นั่นคือสิ่งที่ฉันจินตนาการในเวลาเดียวกัน

19:12.960 --> 19:21.050
นี่จะเพิ่มลงในกระดาษและคุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับความแตกต่างชั่วคราวของมัน

19:21.300 --> 19:22.950
และฉันหวังว่าคุณจะสนุกกับมันเช่นกัน

19:23.060 --> 19:24.270
เราจะพบคุณในครั้งต่อไป

19:24.270 --> 19:26.250
จนกว่าจะสนุกกับ AI
