WEBVTT

00:00.590 --> 00:03.970
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.070 --> 00:05.420
ฉันหวังว่าคุณจะเพลิดเพลินไปกับหลักสูตรนี้

00:05.420 --> 00:09.050
และวันนี้เรากำลังพูดถึงการดำเนินการตามนโยบายการคัดเลือก

00:09.050 --> 00:11.010
เอาหละตรงเข้าไปเลย

00:11.030 --> 00:21.230
ก่อนหน้านี้เราได้พูดคุยเกี่ยวกับการเพิ่มเครือข่ายประสาทเทียมในการเรียนรู้อย่างง่ายของเราและจนถึงตอนนี้เราเริ่มเรียนรู้อย่างลึกซึ้ง

00:21.230 --> 00:26.620
เราได้พูดคุยเกี่ยวกับส่วนการเรียนรู้ไม่น้อยรวมถึงการเพิ่มองค์ประกอบบางอย่างลงไป

00:26.630 --> 00:30.020
และวันนี้เรากำลังพูดถึงส่วนนี้เรากำลังพูดถึงการแสดง

00:30.020 --> 00:31.290
ดังนั้นเรามาดู

00:31.310 --> 00:47.290
ดังนั้นที่นี่เรามีสิ่งที่เราพูดถึงเกี่ยวกับการทำหน้าที่เมื่อคุณป้อนค่าพารามิเตอร์เป็นเวกเตอร์ที่อธิบายตัวแทนของรัฐอย่างชัดเจนในสภาพแวดล้อมนั้นนั่นคือหลังจากการเรียนรู้ทั้งหมดเสร็จสิ้นหรือก่อนที่การเรียนรู้จะเสร็จสิ้น

00:47.420 --> 00:52.000
โดยพื้นฐานแล้วเราได้ค่า

00:52.010 --> 00:57.350
q ทั้งหมดดังนั้นเราจึงไม่สนใจการเรียนรู้ตอนนี้เรายืนยันในการแสดงดังนั้นเมื่อเรามีค่าคีย์เหล่านี้แล้วเราจะเข้าใจได้อย่างไรว่าเราต้องใช้อะไร

00:57.350 --> 00:58.910
ถ้าคุณคิดเกี่ยวกับมัน

00:58.910 --> 01:01.890
ค่า Q เป็นเพียงการคาดการณ์สำหรับคิวบ์

01:01.910 --> 01:10.420
ดังนั้นอย่างที่เราทำในอัลกอริทึมการเรียนรู้อย่างง่ายเราทำอะไรเราเพิ่งเลือกอันที่ดีที่สุดของค่าสูงสุด

01:10.430 --> 01:15.380
เมื่อเรามีค่า IQ ที่สูงที่สุดเราก็จะดำเนินการนั้นเพราะมันจะนำมูลค่าสูงสุดมาให้เราและเรารู้ว่ารางวัลของเครื่องคิดเลขของ

01:15.380 --> 01:20.330
Duval ที่เราคาดหวังว่าจะได้รับบวกกับ DK

01:20.360 --> 01:23.100
ปัจจัยคูณมูลค่าของวันถัดไป

01:23.120 --> 01:30.570
และนี่เป็นการคำนวณแบบเรียกซ้ำดังนั้นทำไมไม่เช่นนั้นคุณจะไม่เห็นคุณค่าที่ดีที่สุดและนั่นคือจุดจบของมัน

01:30.800 --> 01:35.360
แต่อย่างที่คุณเห็นนี่มันไม่ง่ายเลยที่นี่เรากำลังใช้ฟังก์ชั่น soft max

01:35.360 --> 01:37.910
และนี่คือที่ที่เราจะพูดคุยเกี่ยวกับนโยบายการเลือกจริง

01:37.940 --> 01:41.210
ดังนั้นที่นี่ในความเป็นจริงเราไม่จำเป็นต้องมีฟังก์ชั่นซอฟต์แวร์

01:41.300 --> 01:49.190
เราสามารถมีนโยบายการเลือกการกระทำที่แตกต่างกันได้ตัวอย่างเช่นเรามี Epsilon โลภ Epsilon

01:49.470 --> 01:56.300
เป็นซอฟต์และเรามี Macs ที่อ่อนนุ่มและเป็นนโยบายที่เหมือนการเลือกใช้แอคชั่นที่ใช้กันโดยทั่วไป

01:56.300 --> 02:02.120
ตัวอย่างเช่นพื้นฐานที่สุดคือโซเชียลแอ็คชั่นที่ง่ายมากมันแค่เลือกสิ่งที่ดีที่สุด

02:02.120 --> 02:03.770
อันที่มีค่า Q สูงสุด

02:03.980 --> 02:10.510
แต่ทำไมแอคชั่นพัลส์ fly จึงไม่ได้และทำไมเราถึงมีนโยบายการเลือกแอคชั่นแอคชั่นพัลส์หลายประเภท

02:10.520 --> 02:15.270
ทีนี้มันก็ยิ่งทำให้การสำรวจกับการแสวงหาประโยชน์

02:15.560 --> 02:34.970
และนั่นคือแกนกลางของการเรียนรู้การเสริมกำลังเพราะเราได้พูดคุยกันเล็กน้อยเกี่ยวกับเรื่องนี้ว่าเอเจนต์ของคุณเมื่อมันทำงานในสภาพแวดล้อมมันอาจทำนายค่าคิวบางอย่างซึ่งอาจจะดีและมันอาจกลายเป็นดี และจะถูกบังคับให้สำรวจ

02:34.970 --> 02:40.640
ดังนั้นหากเรายกตัวอย่างเช่นในกรณีนี้ทำนายว่า Q2 นั้นดีที่สุดและมันต้องใช้ Q

02:40.640 --> 02:42.350
เพื่อดำเนินการกับมัน

02:42.500 --> 02:46.880
ดังนั้นจากที่นี่ไปยังส่วนที่ 2 จากนั้นจะได้รับรางวัลเชิงลบมาก

02:46.880 --> 02:51.980
จากนั้นสภาพแวดล้อมก็บังคับให้ตัวแทนออกไปและระเบิดเพราะตอนนี้เขาจะได้เรียนรู้ว่าโอ้จริง ๆ แล้วฉันคิดว่า Q2

02:51.980 --> 02:56.740
น่าจะดีมาก แต่มันกลับกลายเป็นว่าแย่มาก

02:56.780 --> 02:58.370
ดังนั้นผลลัพธ์ไม่เลวร้ายนัก

02:58.370 --> 03:04.010
ดังนั้นเครือข่ายสามารถอัปเดตตัวเองได้ในครั้งต่อไปที่เขาอยู่ในสภาพที่เขาอาจจะกินวิญญาณของฉันเพิ่งจะได้รับมัน

03:04.190 --> 03:09.470
คุณรู้ว่าถ้ามันเป็นสิ่งที่ดีมาก

03:09.470 --> 03:14.900
ๆ ดังนั้นคุณอาจคิดว่านั่นเป็นสิ่งที่คุณรู้ว่าคุณอาจต้องใช้เวลาสองสามครั้งในการลงโทษหรือการลงโทษเพื่อที่จะเรียนรู้ว่ามันเกี่ยวกับการกระทำ

03:14.990 --> 03:22.020
แต่บางทีเขาอาจจะได้เรียนรู้ว่าฉันกำลังจะทำสิ่งที่แตกต่างและทำข้อมือเพราะตอนนี้มันมีค่าที่สุด

03:22.160 --> 03:28.880
ดังนั้นบางครั้งสภาพแวดล้อมบังคับให้เอเจนต์ดำเนินการแตกต่างกันในการสำรวจการกระทำที่แตกต่างกัน

03:29.180 --> 03:42.110
แต่บางครั้งเอเจนต์อาจทำให้ตัวเองติดอยู่ในท้องถิ่นสูงสุดมันอาจพบว่ามันตามมาผ่านการสำรวจครั้งแรกและพบว่าโอ้นี่เป็นการกระทำที่เท่ ฉันกำลังจะไปที่นี่

03:42.200 --> 03:43.920
และคอลเลกชันศิลปวัตถุ

03:43.940 --> 03:55.850
แต่ปัญหาคือมันคิดว่าเป็นการกระทำที่ดีที่สุดเพียงเพราะมันไม่ได้สำรวจคือการขึ้นไปบนจมูกของเขาหรือไปทางซ้ายคือสำรวจไปทางขวา แต่มันไม่ได้สำรวจลงไปจากสถานะที่เฉพาะเจาะจงที่มันอยู่ในและตอนนี้

03:56.360 --> 04:03.800
ชนิดของความลำเอียงที่มีต่อการกระทำนี้และคิดว่าการกระทำที่ดีกำลังจะดำเนินการต่อไป

04:03.840 --> 04:06.570
เขากำลังจะทำต่อไปจริง ๆ แล้วจะได้รับรางวัลที่ดีต่อไป

04:06.620 --> 04:14.000
แต่จะเกิดอะไรขึ้นถ้าการกระทำนี้ดีกว่านี้ถ้าการกระทำนี้ดีกว่านี้มากถ้ารู้เกี่ยวกับการกระทำนี้จริง ๆ

04:14.060 --> 04:23.580
แล้วจะเปลี่ยนเป็นการกระทำนี้ แต่เพราะมันติดอยู่ในระดับสูงสุดของท้องถิ่นนั่นคือการได้รับรางวัลที่ดี ที่จะเสริม

04:23.630 --> 04:29.450
นี่จะเป็นการตอกย้ำตัวเองอย่างต่อเนื่องหรือความรุนแรงที่จะเสริมว่านี่เป็นการกระทำที่ดีที่จะดำเนินการต่อไป

04:29.510 --> 04:35.330
แต่จริงๆแล้วความจริงก็คือมีการกระทำอื่น ๆ ที่ยังไม่พบหรือยังไม่ได้สำรวจ

04:35.570 --> 04:37.090
นั่นคงจะดีกว่ามาก

04:37.130 --> 04:45.800
ดังนั้นสิ่งที่เราต้องการทำคือเราต้องการกำหนดนโยบายการเลือกจริงที่ช่วยให้ตัวแทนของเราไม่ติดอยู่ในท้องถิ่นสูงสุด

04:45.800 --> 04:50.120
ใช่มันเป็นสิ่งสำคัญสำหรับคุณที่จะรู้ว่าการกระทำที่ดีนั้นเป็นส่วนที่เป็นการแสวงหาผลประโยชน์

04:50.180 --> 04:52.000
เราจะไม่ใช้ประโยชน์จากสิ่งที่เราพบ

04:52.100 --> 04:59.000
แต่ในขณะเดียวกันเรายังต้องการสำรวจเราไม่ต้องการหยุดการสำรวจเหมือนในชีวิตที่คุณไม่ต้องการหยุดเรียนรู้คุณหยุดเรียนรู้ที่คุณตาย

04:59.120 --> 05:07.580
นั่นคือสิ่งที่เมื่อคุณไม่เติบโตคุณกำลังจะตายหรือมีบางอย่างที่คุณต้องการเรียนรู้ต่อไปและตัวแทนของคุณต้องการเรียนรู้ต่อไป

05:07.760 --> 05:10.200
และนั่นคือที่มาของนโยบายการเลือกการกระทำ

05:10.400 --> 05:16.190
เรามีสามคุณอยู่ที่นี่ดังนั้นอันแรกคือเอปไซลอนโลภมันง่ายมากที่ฟังดูค่อนข้างซับซ้อนในแง่ที่ว่ามันมีชื่อเจ๋ง

05:16.190 --> 05:22.140
ๆ และมักจะเป็นชื่อศัลยกรรม

05:22.370 --> 05:23.170
มันไม่จริง

05:23.180 --> 05:31.530
ดังนั้นโดยทั่วไปสิ่งที่มันทำคือมันจะเลือกหนึ่งค่า Q ที่ดีที่สุดและ epsilon เช่น

05:31.540 --> 05:35.240
Epsilon คุณอาจได้ยินสถานที่อื่นมันเหมือนกับนโยบายการเลือก

05:35.240 --> 05:41.210
ดังนั้นในกรณีนี้เราใช้มันเพื่อลดค่า Al-Q ของเราโดยการขายเช่นเดียวกับค่า Q สูงสุดตลอดเวลายกเว้น

05:41.540 --> 05:45.980
Epsilon เปอร์เซ็นต์ของเวลา

05:45.980 --> 05:53.300
ตัวอย่างเช่นถ้าคุณตั้งค่า epsilon เป็น 10 เปอร์เซ็นต์คุณก็จะได้ 0 หรือ 1 มากกว่า 10

05:53.300 --> 05:56.740
เปอร์เซ็นต์ของเวลาที่การดำเนินการจะถูกเลือกแบบสุ่ม

05:56.750 --> 06:01.990
ดังนั้น 90 เปอร์เซ็นต์ของเวลาที่คุณจะยังคงเลือกการกระทำที่ดีที่สุดตามค่าสูงสุด

06:02.120 --> 06:05.580
แต่ 10 เปอร์เซ็นต์ของเวลานั้นจะเป็นการเลือกการกระทำแบบสุ่ม

06:05.600 --> 06:11.120
การใส่เครื่องแบบมันจะเป็นการสุ่มอย่างเด็ดขาดหรือถ้าคุณบอกว่า epsilon เป็นศูนย์จุดห้าสำหรับ

06:11.420 --> 06:19.200
0 05 นั่นหมายความว่า 95 เปอร์เซ็นต์ของเวลาที่เอเจนต์กำลังดำเนินการกับค่าสูงสุด

06:19.220 --> 06:22.470
แต่ 5 เปอร์เซ็นต์ของเวลาที่มันยังคงเลือกและดำเนินการสุ่ม

06:22.490 --> 06:25.550
ดังนั้นมันจะออกไปข้างนอกและสำรวจ

06:25.790 --> 06:31.640
ดังนั้นเอปไซลอนจึงนุ่มนวลคล้ายกับวิธีการที่เรียกว่า FCL

06:31.750 --> 06:39.780
โลภเพราะคุณเลือกการกระทำที่ดีอย่างโลภยกเว้นตอนเล็ก ๆ น้อย ๆ นั้น

06:39.780 --> 06:40.290
บางครั้ง

06:40.280 --> 06:46.970
ดังนั้นยิ่งกำไรต่อหุ้นต่ำลงพวกเขาจะยิ่งลด Lepp

06:46.970 --> 06:56.000
Epsilon ยิ่งขึ้นคุณเลือกประเภทของการกระทำที่เป็นการกระทำที่เหมาะสมที่สุดและยิ่งคุณทิ้งโอกาสที่คุณจะออกไปสำรวจ Epsilon น้อยเพียงใด

06:56.000 --> 07:02.000
โดยพื้นฐานแล้วคุณกำลังเลือกสุ่มคุณเลือกหนึ่งลบเอปไซลอนร้อยละของเวลา

07:02.000 --> 07:08.240
ดังนั้นถ้าคุณ epsilons ชอบ 0 1 ถึง 10 เปอร์เซ็นต์จากนั้นเพียง 10 เปอร์เซ็นต์ของเวลาที่คุณดำเนินการ

07:08.490 --> 07:12.410
และ 90 เปอร์เซ็นต์ของเวลาที่คุณเลือกการกระทำแบบสุ่ม

07:12.410 --> 07:19.000
อัลกอริทึมกลับด้านง่ายมากและซอฟต์แม็กซ์เป็นเหมือนขั้นตอนต่อไปจากหรือเป็นรุ่นขั้นสูงกว่าที่ฉันจะพูดเกี่ยวกับ epsilon

07:19.070 --> 07:26.570
ของอัลกอริทึมโลภ epsilon แม้ว่าพวกเขาทั้งสองมีข้อดี

07:26.610 --> 07:30.860
เรากำลังจะใช้การเงินตนเองในการเขียนโค้ดของเราในสิ่งที่เป็นประโยชน์

07:30.860 --> 07:35.270
นั่นคือสิ่งที่เรากำลังจะพูดคุยในรายละเอียดเพิ่มเติมเกี่ยวกับ soft max

07:35.330 --> 07:36.380
ดังนั้นเรามาดู

07:36.380 --> 07:38.440
ดังนั้นเราจะไปต่อในครั้งต่อไปของคุณหวังว่า

07:38.450 --> 07:42.800
มันค่อนข้างชัดเจนเกี่ยวกับ Ebsen เห็นด้วยว่ามันเป็นอัลกอริธึมที่ค่อนข้างตรงไปตรงมา

07:42.800 --> 07:45.100
เลือกอันนี้

07:45.230 --> 07:47.790
ส่วนใหญ่เวลายกเว้นบางครั้งไปและสำรวจ

07:47.800 --> 07:53.820
และตอนนี้เราก็เห็นด้วยว่าเหตุใดการสำรวจจึงเป็นสิ่งสำคัญเพื่อที่เราจะได้ไม่ได้รับประโยชน์สูงสุดจากกระบวนการปรับให้เหมาะสมของเราดังนั้นตอนนี้เราจะพูดถึง Macs นุ่ม

07:53.840 --> 07:58.780
ๆ อีกเล็กน้อย

07:58.880 --> 08:02.680
มีแบบฝึกหัดเกี่ยวกับเครื่องหมายอ่อนในตอนท้ายของหลักสูตร

08:02.750 --> 08:09.560
ฉันคิดว่ามันเป็นภาคผนวกที่สองที่เราพูดถึงแนวคิดของ Maxim เพราะคุณรีเฟรชเล็กน้อยที่นี่ดังนั้นเราจึงพูดถึงเครือข่ายประสาทและโดยวิธีที่เราทุกคนกำลังจะครอบคลุม

08:09.560 --> 08:15.290
convolutional

08:15.290 --> 08:18.170
เราไม่ได้ครอบคลุมเครือข่ายประสาทวิวัฒนาการในส่วนนี้

08:18.210 --> 08:21.470
แน่นอนในส่วนนี้เรายังคงใช้เวกเตอร์อยู่

08:21.800 --> 08:27.770
แต่ในส่วนถัดไปของหลักสูตรเมื่อเรากำลังสร้าง AI เพื่อเล่น

08:27.770 --> 08:32.870
Doom เราจะใช้โครงข่ายประสาทเทียมเพื่อให้เป็นประโยชน์สำหรับคุณที่จะดูในเครือข่ายประสาทเชิงสัมพันธ์

08:32.870 --> 08:38.300
ฟังก์ชั่นหรือคุณสามารถเรียนรู้เพิ่มเติมเล็กน้อยเกี่ยวกับ soft Max

08:38.300 --> 08:43.020
หลังจากที่คุณใช้เครือข่ายประสาทเทียมและแน่นอนในภายหลัง

08:43.250 --> 08:48.950
แต่นี่คือการทบทวนอย่างรวดเร็วดังนั้นที่นี่เรามีเครือข่ายประสาทเทียมของเราซึ่งตัดสินว่าเป็นสุนัขหรือแมว

08:48.950 --> 09:09.930
ดังนั้นที่นี่เรามีกระบวนการลงคะแนนระหว่างเซลล์ประสาทเหล่านี้และอันนี้บอกว่ามันเป็นคุณสมบัติที่คุณรู้ว่าหูปุยคืออะไรประเภทของใบหน้าแหลมปลายแหลมและประเภทของคุณสมบัติเป็นประเภทของดวงตาด้วย ดวงตาดูคุณสมบัติเหล่านี้ทั้งหมดที่เป็นของสุนัข

09:09.930 --> 09:13.890
ดังนั้นโอกาส 95 เปอร์เซ็นต์ที่เป็นสุนัขและโอกาส 5 เปอร์เซ็นต์ที่เป็นแมว

09:13.910 --> 09:20.530
แต่คำถามก็คือเราเข้ามาใน Tauriel ได้อย่างไรว่าเราได้รับคุณค่าเหล่านี้มารวมกันได้อย่างไร

09:20.870 --> 09:27.650
ไม่ว่า Convolutional ทุกเครือข่ายประสาททั้งหมดของเราคือเครือข่ายประสาทแบบ Convolutional บวกกับ Lares

09:27.650 --> 09:33.980
ที่เชื่อมต่ออย่างเต็มที่สิ่งที่มันเลวร้ายอะไรก็ตามที่ค่าที่เราใช้กับฟังก์ชั่น soft max อยู่ที่นี่

09:34.010 --> 09:37.720
นี่คือที่เราแนะนำสูตรสำหรับฟังก์ชั่นอ่อนต่อไป

09:37.810 --> 09:38.620
มันเป็นสิ่งที่ดูเหมือน

09:38.780 --> 09:40.420
แล้วเราได้ค่าเหล่านี้

09:40.620 --> 09:43.460
และโดยทั่วไปนั่นเป็นการทบทวนอย่างรวดเร็ว

09:43.460 --> 09:46.050
นี่คือสูตรสำหรับ soft max

09:46.100 --> 09:50.900
มันเป็นสิ่งที่มันต้องใช้ แต่ก็มีหลายเอาต์พุตที่คุณไม่สำคัญ

09:50.900 --> 09:58.130
มันจะพาพวกมันมาและมันจะทำให้พวกมันกลายเป็นค่าระหว่าง 0 ถึง

09:58.130 --> 10:04.860
1 โดยไม่คำนึงว่าพวกมันใหญ่แค่ไหนสำหรับฉันคุณจะเห็นว่ามันมีผลรวมทั้งหมดที่ด้านล่าง

10:04.860 --> 10:08.630
และค่าเหล่านี้ทั้งหมดจะเพิ่มขึ้นหนึ่งค่าเสมอ

10:08.700 --> 10:16.770
และนั่นก็เป็นประโยชน์อย่างมากสำหรับเราเพราะเมื่อเราใช้ฟังก์ชั่น soft max

10:16.800 --> 10:21.390
สิ่งที่เกิดขึ้นคือเราได้รับค่าเหล่านี้เราเลือกค่ามุมมองที่ดีที่สุด

10:21.390 --> 10:26.740
แต่ในความเป็นจริงสิ่งที่เกิดขึ้นคือค่าเหล่านี้ที่เราได้มามีจำนวนจริง

10:26.750 --> 10:28.760
นี่คือตัวเลขบางชนิด

10:28.920 --> 10:31.720
พวกเขาไม่จำเป็นต้องรวมกันเป็นหนึ่งเดียวและไม่จำเป็นต้องอยู่ระหว่าง 0 ถึง 1

10:31.730 --> 10:32.830
เพียงแค่ตัวเลขบางส่วน

10:33.140 --> 10:38.520
แต่เมื่อเราใช้ soft Max เราไม่เพียงแค่เลือกตัวเลขที่ดีที่สุดเราได้รับตัวเลขเช่นนั้นดังนั้นเราจึงได้ตัวเลขของเราอยู่ในช่วงระหว่าง

10:38.520 --> 10:44.310
0 ถึง 1 และนั่นก็เป็นเช่นนั้นซึ่งเพิ่มขึ้นเป็น 1

10:44.310 --> 10:47.220
แล้วเรารู้อะไรอีกบ้างที่รวมกันเป็นหนึ่ง

10:47.340 --> 10:53.010
ความน่าจะเป็นที่ดีที่เรารู้ว่าความน่าจะเป็นต้องเพิ่มเป็น 1 เสมอนั่นคือสาเหตุที่เราสามารถพูดได้ที่นี่ว่าเรามีค่า

10:53.010 --> 10:57.990
q แต่ที่นี่ทันทีเรามีความอ่อนนุ่มหรือมีความน่าจะเป็น

10:57.990 --> 11:02.740
ดังนั้นเราสามารถพูดได้ว่าความเป็นไปได้ที่จะทำสิ่งที่ดีที่สุดคือ 90 เปอร์เซ็นต์

11:02.840 --> 11:09.290
เลสเบี้ยนส่วนนี้ 5 เปอร์เซ็นต์ 2 เปอร์เซ็นต์ 3 เปอร์เซ็นต์เพราะเรารู้ว่าคุณค่าของคุณยิ่งสูงการกระทำก็ยิ่งมากขึ้นเท่านั้น

11:09.390 --> 11:14.920
ดังนั้นถ้าเราบีบพวกเขาเป็น 0 ต่อ 1 แล้วความเป็นไปได้เหล่านี้ก็เป็นไปได้และเราสามารถจัดการกับพวกมันได้

11:15.090 --> 11:22.840
ดังนั้นตอนนี้ก็คือตอนที่การกระทำถูกเลือกและนั่นคือวิธีที่เรามากับ Q2

11:22.890 --> 11:28.580
แต่ถ้าคุณดูอย่างใกล้ชิดนี่จะไม่เข้มงวด 100 เปอร์เซ็นต์และนี่ไม่ใช่ Saroo 0 เปอร์เซ็นต์

11:28.590 --> 11:30.670
นี่คือ 5 เปอร์เซ็นต์ถึง 3 เปอร์เซ็นต์

11:30.810 --> 11:42.360
ดังนั้นวิธีที่เป็นธรรมชาติที่สุดในการใช้ soft Max

11:42.480 --> 11:48.600
เพื่อรักษาการสำรวจในอัลกอริทึมคือการใช้ความน่าจะเป็นที่แน่นอนเหล่านี้เป็นความถี่ที่เราจะทำการกระทำนั้น

11:48.600 --> 12:01.740
ดังนั้นความน่าจะเป็นเหล่านี้แสดงให้เห็นถึงการกระจายตัวของการกระทำเหล่านี้ที่เราทำอยู่ดังนั้นโดยพื้นฐานแล้วแม็กซ์อ่อนทำให้มันง่ายมากสำหรับเราที่จะหาวิธีรวมการหาประโยชน์

12:01.740 --> 12:06.930
ดังนั้นสิ่งที่ดีที่สุดการกระทำที่ดีที่สุดจะมีความน่าจะเป็นสูงเสมอเพราะมันมีค่า Q สูงสุดดังนั้นที่นี่เราจะใช้สิ่งเหล่านี้เป็นการกระจายตัวของเราหรือเราจะบอกว่าโอเคเรากำลังจะทำ Q2 90

12:06.930 --> 12:11.190
เปอร์เซ็นต์ของเวลา แต่ 5

12:11.190 --> 12:16.080
เปอร์เซ็นต์ของเวลาที่เรายังคงได้รับไตรมาสที่ 1 และ 2 เปอร์เซ็นต์ของเวลาที่เราได้รับ

12:16.120 --> 12:21.170
3 และ 3 เปอร์เซ็นต์ของเวลาที่เราจะได้รับ Q4

12:21.420 --> 12:35.220
และความสวยงามที่นี่ก็คือเมื่อค่าเหล่านี้อัปเดตตามและเมื่อเอเจนต์ผ่านเครือข่ายมากขึ้นเรื่อย ๆ มันก็จะคุ้นเคยกับสภาพแวดล้อมมากขึ้นและดังนั้นจึงมีการอัปเดตเหล่านี้ดังนั้นค่านี้อาจกลายเป็นเหมือนมันอาจยืนยันได้ว่า

12:35.210 --> 12:47.060
ค่านี้น้อยกว่าจริงหรือสูงกว่านี้จริงดังนั้นความน่าจะเป็นเหล่านี้ก็จะเปลี่ยนไปเมื่อเอเจนต์ดำเนินการผ่าน

12:47.070 --> 12:49.190
ดังนั้นแม้ว่าที่นี่เรามี Choo-Choo

12:49.200 --> 12:55.560
ไม่มีใครจะพูดได้ว่าบางครั้ง 5 เปอร์เซ็นต์ของเวลาที่จะแม่นยำยิ่งขึ้นเราจะเลือก

12:55.560 --> 13:00.040
Q1 เป็นการกระทำที่จะทำและบางครั้งหรือการกระทำที่จะดำเนินการอย่างใดอย่างหนึ่ง

13:00.180 --> 13:06.400
บางครั้งจะมีการดำเนินการผ่านการกระทำที่สองร้อยละสามของเวลาและการกระทำที่จะมีการประมาณ 3 เปอร์เซ็นต์

13:06.420 --> 13:13.800
ดังนั้นทุกการกระทำมีโอกาสที่จะเล่นในกระบวนการนี้ตราบใดที่เรามีการทำซ้ำมากพอตัวแทนจะต้องผ่านหลาย ๆ

13:13.800 --> 13:17.930
ครั้งผ่านทางรัฐเหล่านี้ว่าพวกเขากำลังมา

13:17.940 --> 13:31.840
และนั่นคือสิ่งที่นี่เป็นวิธีที่อัลกอริทึมการเรียนรู้แบบลึกชนิดใดที่คุณต้องการทำสิ่งนี้หลายครั้งเพื่อให้คุณเรียนรู้จากประสบการณ์

13:31.860 --> 13:37.590
เราไม่เพียง แต่สุ่มอย่างเช่นอัลกอริธึมของ Epson

13:37.590 --> 13:44.100
เท่านั้นและไม่เพียงแค่สุ่มเลือกการกระทำที่เราเลือกตามค่า soft max ซึ่งทำให้มันเหมือนมีเหตุผลบางอย่างอยู่เบื้องหลังไม่ใช่แค่เพียง

13:44.190 --> 13:48.780
10 เปอร์เซ็นต์ของการสุ่ม เวลาที่เราเลือกการกระทำแบบสุ่ม

13:48.780 --> 13:53.200
แต่มีตรรกะบางอย่างที่อยู่เบื้องหลังวิธีการที่เราทำและขึ้นอยู่กับค่าคีย์ที่เราได้สำรวจ

13:53.280 --> 13:58.620
นั่นคือนโยบายการคัดเลือกการกระทำที่เราจะใช้ในหลักสูตรนี้

13:58.620 --> 14:04.590
คุณยินดีที่จะตรวจสอบ Ebsen

14:04.590 --> 14:11.490
โลภการกระทำส่วน Polsce ถ้าคุณชอบ แต่เราจะเป็นส่วนใหญ่จะใช้นโยบายส่วนการกระทำที่อ่อนนุ่มที่สุดและฉันได้อ่านที่น่าสนใจสำหรับคุณ

14:11.490 --> 14:18.870
ดังนั้นสิ่งนี้จึงถูกเรียกว่าการสำรวจโลภ Epsilon แบบปรับตัวในการเรียนรู้การเสริมแรงโดยอาศัยความแตกต่างของคุณค่าเป็นบทความ 2010

14:18.930 --> 14:27.270
และมันน่าสนใจเพราะ Mike Michel ฉันไม่แน่ใจว่าจะออกเสียง Michelle และ Miquel toxic ได้อย่างไรแนะนำ

14:27.450 --> 14:36.420
Algren และ Epsilon โลภอัลกอริธึมชนิดต่าง ๆ และเรียกว่าอัลกอริทึม VDB VDB หรืออัลกอริทึม VDB

14:37.230 --> 14:40.030
VPS ที่คุณสามารถดู

14:40.410 --> 14:46.590
และเขาเปรียบเทียบจริง ๆ กับ

14:46.650 --> 14:56.550
Ebsen โลภและ soft Max และมันเป็นอัลกอริทึมโลภซึ่งโดยทั่วไปแนวคิดหลักที่อยู่เบื้องหลังคือการปรับค่าของ epsilon ขึ้นอยู่กับสถานะที่ตัวแทนอยู่

14:56.550 --> 15:06.340
ดังนั้นหากเอเจนต์มีความมั่นใจมากเกี่ยวกับสถานะในนั้นเอปไซลอนควรมีขนาดเล็กลงดังนั้นพวกเขาจึงควรสำรวจน้อยกว่าหากเอเจนต์ได้รับคำตอบของเอปสัน

15:06.350 --> 15:08.930
ดังนั้นจึงเป็นบทความปี 2010

15:09.260 --> 15:23.090
ฉันไม่แน่ใจว่าเป็นอย่างไรหากอัลกอริทึมที่เสนอใหม่นี้มีการใช้อย่างกว้างขวางหรือเป็นที่ยอมรับในชุมชนหรือว่าไทม์สเทียมมีวิธีการตามข้อเสนอแนะนี้

15:23.090 --> 15:29.450
แต่อย่างไรก็ตามจะช่วยให้คุณเสริมความรู้เกี่ยวกับนโยบายการคัดเลือกการกระทำที่เรากล่าวถึง Epsom

15:29.450 --> 15:38.900
Ingredion Naxal ที่อ่อนนุ่มช่วยให้คุณป่วยให้โอกาสคุณในการบังคับไซต์

15:38.900 --> 15:46.040
Subha และดูว่าผู้คนคิดอย่างไรเมื่อพวกเขาต้องการปรับปรุงปัญญาประดิษฐ์

15:46.040 --> 15:51.770
ดังนั้นหากคุณวางแผนที่จะสร้างอัลกอริธึมที่น่าสนใจอย่างแท้จริงซึ่งกำลังผลักดันปัญญาประดิษฐ์ของ

15:52.130 --> 16:04.070
Elche และผลักซองจดหมายในพื้นที่นี้นี่อาจเป็นวิธีที่ดีสำหรับคุณที่จะเห็นทิศทางที่ผู้คนคิดในบางครั้งเมื่อพวกเขาพยายาม เพื่อปรับปรุงบรรทัดฐานของปัญญาประดิษฐ์หรือบรรทัดฐานที่มีอยู่ในปี 2010

16:04.070 --> 16:04.760
ดังนั้นเราไปกันเลย

16:04.790 --> 16:11.020
หวังว่าคุณจะสนุกกับการสอนวันนี้เกี่ยวกับนโยบายการเลือกการดำเนินการและเราได้เรียนรู้เกี่ยวกับเกลือเอปสันโลภโลภโลภและ

16:11.060 --> 16:18.240
Macs ที่อ่อนนุ่ม

16:18.290 --> 16:20.840
และในบันทึกนั้นฉันหวังว่าจะเห็นขั้นตอนต่อไปของคุณ

16:20.840 --> 16:22.570
และจนกว่าจะสนุกกับ AI