WEBVTT

00:00.830 --> 00:04.470
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.580 --> 00:10.170
ฉันหวังว่าคุณจะตื่นเต้นกับการสอนวันนี้เพราะเรากำลังก้าวเข้าสู่โลกครั้งแรกของเรา

00:10.460 --> 00:13.150
และวันนี้เรากำลังพูดถึงการเรียนรู้การเสริมแรง

00:13.280 --> 00:18.710
มันเป็นเรื่องที่สำคัญมากเพราะมันจะหนุนทุกสิ่งที่กำลังจะเกิดขึ้นในหลักสูตรนี้

00:18.770 --> 00:21.010
งั้นเริ่มกันที่นี่

00:21.020 --> 00:29.210
เรามีเขาวงกตนิดหน่อยและเขาวงกตนี้เป็นตัวแทนของสภาพแวดล้อมและนั่นคือสิ่งที่เรากำลังจะได้รับในหลักสูตรนี้

00:29.210 --> 00:42.350
เรากำลังจะจัดการกับสภาพแวดล้อมบางอย่างที่ปัญญาประดิษฐ์ของเรากำลังจะดำเนินการมันกำลังจะดำเนินการมันจะต้องเอาชนะสิ่งเหล่านี้ในการดำเนินการของฉันเธอจะมองหาที่จะชนะในสภาพแวดล้อมเหล่านี้

00:42.350 --> 00:44.190
และที่นี่เรามีตัวแทน

00:44.360 --> 00:46.990
ตัวแทนคือปัญญาประดิษฐ์ของเรา

00:47.030 --> 00:57.110
นั่นคือบุคคลหรือนั่นคือจิตใจที่กำลังจะสำรวจสภาพแวดล้อมเหล่านี้และเรียนรู้จากข้อเสนอแนะที่จิตใจของพวกเขากำลังจะให้มันเพื่อดำเนินการบางอย่าง

00:57.150 --> 01:02.180
และวิธีการทำงานคือเอเจนต์ทำการกระทำบางอย่างในสภาพแวดล้อมนี้

01:02.360 --> 01:10.070
และเป็นผลให้รัฐที่มันอยู่ในจะเปลี่ยนดังนั้นมันอาจจะเพิ่มเติมหรือใกล้ชิดหรือมากขึ้นไปทางซ้ายมากขึ้นไปทางขวา

01:10.070 --> 01:15.030
อาจมีการเรียงลำดับของพารามิเตอร์อื่น ๆ ที่อธิบายถึงสถานะและพารามิเตอร์เหล่านั้น

01:15.100 --> 01:20.970
ดังนั้นรัฐจะเปลี่ยนไปเพราะการกระทำนั้นเกิดขึ้นและมันก็จะได้รับรางวัลตามการกระทำด้วย

01:20.970 --> 01:24.950
ดังนั้นทุกครั้งที่มีการดำเนินการรัฐจะเปลี่ยนแปลงและจะได้รับรางวัล

01:24.950 --> 01:33.070
ตอนนี้จำไว้ว่าบางครั้งมันอาจเกิดขึ้นที่มันจะไม่เปลี่ยนสถานะการกระทำจะไม่เปลี่ยนการเข้าพักหรือจะไม่มีรางวัลสำหรับการดำเนินการที่

01:33.110 --> 01:34.530
ในแง่ที่มันเป็น

01:34.670 --> 01:42.510
แต่อย่างไรก็ตามเจ้าหน้าที่ของตัวแทนก็ยังคงทำเช่นนั้นต่อไปคือการกระทำที่โกงรัฐที่ได้รับรางวัลการเปลี่ยนแปลงการกระทำการกระทำที่เปลี่ยนรัฐและรับรางวัล

01:42.800 --> 01:55.840
และโดยการทำกระบวนการนั้นมันจะเป็นการเรียนรู้เกี่ยวกับสิ่งที่กำลังสำรวจสภาพแวดล้อมการทำความเข้าใจว่าการกระทำใดนำไปสู่ผลตอบแทนที่ดีและรัฐที่น่าพึงพอใจ

01:56.000 --> 01:59.690
และนี่คือปัญหาระดับโลกที่เป็นตัวแทนอย่างง่ายมาก

01:59.690 --> 02:04.390
ดังนั้นหากคุณคิดว่าสภาพแวดล้อมนั้นไม่จำเป็นต้องเป็นเขาวงกตจริงๆ

02:04.400 --> 02:09.170
มันไม่ได้เกี่ยวกับการออกจากเขาวงกตหรือค้นหาสมบัติในเขาวงกต

02:09.170 --> 02:11.740
สภาพแวดล้อมอาจเป็นอะไรก็ได้ในชีวิต

02:11.750 --> 02:15.180
ลองจินตนาการว่าคุณตื่นขึ้นมาในตอนเช้าและทำไข่เจียว

02:15.410 --> 02:22.010
ดังนั้นเพื่อให้ไข่เจียวนั้นคุณต้องทำตามขั้นตอนบางอย่างคุณต้องได้รับเกลือรับไข่ได้รับกระทะทอดที่ไฟและอื่น ๆ

02:22.010 --> 02:27.770
และมันเสียงเหมือนสิ่งธรรมดา

02:27.770 --> 02:29.870
แต่มันก็กลายเป็นกิจวัตรประจำวันเพราะคุณทำไปแล้วหลายครั้ง

02:29.960 --> 02:34.670
แต่ในความเป็นจริงมันเป็นสภาพแวดล้อมที่คุณกำลังทำอะไรบางอย่างที่คุณกำลังทำอยู่นั่นคือการที่คุณวางไฟบนกระทะที่คุณวางไว้บนไฟ

02:34.670 --> 02:43.190
และคุณกำลังจะพลิกกลับเรื่อย ๆ

02:43.190 --> 02:49.970
ดังนั้นคุณจะเห็นได้ว่าพวกเขาเป็นการกระทำของ CRN ซึ่งมีการดำเนินการในบางรัฐและการกระทำเหล่านั้นนำไปสู่บางรัฐอื่น ๆ

02:49.970 --> 02:52.460
และบางครั้งก็ให้รางวัล

02:52.460 --> 03:01.900
ตัวอย่างเช่นเมื่อคุณวางไฟไว้และคุณรอเดี๋ยวรอเดี๋ยวรอคุณทำอะไรรอเดี๋ยวรอเดี๋ยวรอนานเกินไปจากนั้นก็ใส่ไข่ลงไปในกระทะ

03:01.910 --> 03:03.560
ผลตอบแทนจะเป็นลบมาก

03:03.560 --> 03:05.120
ทุกอย่างจะเผาไหม้

03:05.120 --> 03:13.850
ในทางกลับกันถ้าคุณทำทุกอย่างที่ถูกต้องในเวลาที่ถูกต้องดังนั้นมันสำคัญมากที่จะต้องเข้าใจว่าการกระทำนั้นควรทำในเวลาที่ถูกต้อง

03:13.850 --> 03:20.770
ตัวอย่างเช่นการใส่เกลือลงในกระทะก่อนที่คุณจะใส่ไข่เข้าไปอาจจะไม่ใช่ความคิดที่ดีที่สุด

03:20.780 --> 03:28.320
คุณอาจต้องการที่จะดำเนินการวางเกลือลงในกระทะหลังจากไข่อยู่ในนั้นเพื่อให้อยู่ในสถานะที่แตกต่างกัน

03:28.370 --> 03:29.620
ดังนั้นสิ่งสำคัญคือต้องจำไว้ว่า

03:29.780 --> 03:38.840
และในเวลาเดียวกันดังนั้นถ้าคุณทำสิ่งที่ถูกต้องในลำดับที่ถูกต้องในสถานะที่ถูกต้องรางวัลสุดท้ายของคุณอาจเป็นเพราะคุณได้รับไข่เจียวซึ่งคุณสามารถทานได้

03:38.900 --> 03:44.660
และนั่นก็เป็นกิจกรรมพื้นฐานในชีวิตของคุณ แต่ถ้าคุณคิดว่ามันเป็นสภาพแวดล้อมจริง

03:44.990 --> 03:52.190
ๆ และคุณเป็นตัวแทนผ่านสภาพแวดล้อมนี้และทำงานที่คุณไม่ต้องเรียนรู้อะไรเพราะคุณรู้ดี .

03:52.220 --> 03:59.010
แต่ในเวลาเดียวกันคุณสามารถเรียนรู้บางทีคุณอาจเรียนรู้วิธีการทำไข่เจียวให้ดีขึ้นหรือโดยเฉพาะอย่างยิ่งถ้ามันเป็นไข่เจียวตัวแรกที่คุณทำ

03:59.030 --> 04:05.890
แต่คุณจะได้เรียนรู้จากสิ่งนั้นเพราะคุณจะเข้าใจว่าการกระทำใดนำไปสู่รัฐและเส้นทางและสิ่งอื่นใดในชีวิต

04:06.050 --> 04:16.390
ตัวอย่างเช่นแม้แต่การซื้อขายในตลาดหุ้นและคุณรู้ว่าการซื้อและขายและได้รับผลตอบรับจากตลาดในแง่ของผลตอบแทนที่เป็นบวกหรือลบ

04:16.430 --> 04:20.160
นอกจากนี้ยังเป็นสภาพแวดล้อมที่คุณมีส่วนร่วมในสภาพแวดล้อมที่เป็นผู้สูงอายุ

04:20.210 --> 04:29.510
การขับขี่รถยนต์ยังเป็นสภาพแวดล้อมที่คุณสามารถหมุนพวงมาลัยที่คุณสามารถเร่งความเร็วที่คุณสามารถฝ่าได้และคุณจะได้รับการตอบรับจากสภาพแวดล้อมและคุณรู้ว่าหนึ่งในการตอบรับเหล่านั้นคือ กำลังไปเหนือขีด จำกัด

04:29.510 --> 04:36.960
ความเร็วที่ยอมรับหรืออนุญาตบนทางหลวงสายนั้น

04:37.040 --> 04:43.020
และจากที่นั่นคุณเรียนรู้ว่านั่นไม่ใช่สิ่งที่ควรทำเพราะมันนำไปสู่รางวัลเชิงลบ

04:43.220 --> 04:45.590
ดังนั้นรางวัลไม่จำเป็นต้องเป็นตอนท้ายของกระบวนการ

04:45.590 --> 04:48.020
พวกเขาสามารถตลอดการเดินทางตลอดกระบวนการ

04:48.020 --> 04:49.490
ดังนั้นนี่คือตัวอย่างบางส่วน

04:49.490 --> 04:54.980
และในแง่ของฉันวิธีที่ง่ายที่สุดในการคิดการเสริมกำลังการเรียนรู้ก็เหมือนการฝึกสุนัขเมื่อคุณฝึกสุนัขให้คุณให้คำสั่งที่แน่นอนและถ้ามันเชื่อฟังคำสั่งเหล่านั้น ถ้ามันไม่ได้

04:54.980 --> 05:00.270
Abeles

05:00.440 --> 05:06.600
Kamaz คุณบอกว่ามันเป็นสุนัขที่ไม่ดีหรือคุณเพียงแค่ไม่ให้การรักษา

05:06.830 --> 05:18.470
และผ่านกระบวนการนั้นเรียนรู้คำสั่งบางอย่างหรือสิ่งที่จำเป็นต้องทำในสิ่งที่การกระทำที่จำเป็นต้องใช้ในบางรัฐและรัฐเป็นคำสั่งที่คุณให้มัน

05:18.470 --> 05:22.700
และขึ้นอยู่กับว่ามันจะได้รับรางวัลแน่นอนบางอย่างในโลกของ AI

05:22.700 --> 05:24.590
มันไม่ซับซ้อนเลย

05:24.590 --> 05:26.910
คุณไม่ต้องให้ขนม

05:26.960 --> 05:32.120
คุณไม่จำเป็นต้องมีถุงบิสกิตกับคุณทุกครั้งที่คุณให้บวกหนึ่งหรือลบหนึ่งดังนั้นมันจึงเป็นข้อได้เปรียบอย่างมากที่ในโลกของ AI

05:32.120 --> 05:37.290
เราได้สร้าง AIs เหล่านี้ขึ้นมา

05:37.310 --> 05:42.680
ดังนั้นรางวัลที่เรามอบให้ถ้าคุณคิดว่าว้าวนี่คือรางวัลที่ยอดเยี่ยมจริง ๆ

05:42.680 --> 05:48.490
ที่ให้พวกเขาพวกเขาไม่มีตัวตนจริง ๆ พวกเขาแค่บวกหรือลบหนึ่งหรือบวกหนึ่งหรือบวกหนึ่งหรือศูนย์

05:48.500 --> 05:51.100
ดังนั้นมันจึงไม่มีสิ่งมีชีวิตทั้งหมดในจินตนาการ

05:51.110 --> 06:01.760
แต่ในขณะเดียวกันก็นำไปสู่ผลลัพธ์ที่ยอดเยี่ยมในขณะที่เราสามารถสร้างสิ่งที่น่าอัศจรรย์เหล่านี้ปัญญาประดิษฐ์ที่น่าอัศจรรย์เหล่านี้เช่นเดียวกับปัญญาประดิษฐ์ที่น่าทึ่งนี้โดยเพียงแค่ให้รางวัลที่เราไม่ได้มีอยู่จริง

06:01.790 --> 06:05.670
บวกและลบอย่างใดอย่างหนึ่งไม่เสียค่าใช้จ่าย แต่ผลการเปิดตัวในเวลาเดียวกัน

06:05.900 --> 06:08.170
คล้ายกันมากกับโลกแห่งความเป็นจริง

06:08.210 --> 06:15.140
และคุณรู้ตัวอย่างเช่น Dokes แต่ที่นี่รางวัลเป็นตัวเลขดิจิตอล

06:15.140 --> 06:31.050
และในใจเราสามารถพูดคุยเกี่ยวกับหุ่นยนต์สุนัขฉันรักตัวอย่างนี้ดังนั้นในภาพไม่จำเป็นว่าสุนัขหุ่นยนต์ที่แน่นอนที่คุณรู้ว่าได้รับการฝึกฝนผ่านการเสริมกำลังการเรียนรู้สุนัขหุ่นยนต์ อัลกอริทึมในนั้น

06:31.370 --> 06:46.120
และนี่คือตัวอย่างที่ดีของความแตกต่างระหว่างเอเจนต์ที่เตรียมไว้ล่วงหน้าและเอเจนต์เสริมการเรียนรู้เพื่อให้คุณสามารถมีสุนัขหุ่นยนต์

06:46.160 --> 07:04.870
ดังนั้นในอัลกอริทึมที่อยู่เบื้องหลังสุนัขในซอฟแวร์จะบอกว่าตกลงเพื่อที่จะเดินคุณจะต้องย้ายขาซ้ายของคุณไปข้างหน้าขาหน้าซ้ายไปข้างหน้า และทำซ้ำการกระทำนั้นและคุณรู้ว่านั่นคือคำจำกัดความของการเดินคือฟังก์ชั่นภายในสุนัขตัวนี้

07:05.040 --> 07:09.060
แล้วคุณอาจรู้วิธีนั่งวิธียืนและสิ่งต่าง ๆ เช่นนั้น

07:09.680 --> 07:16.710
ในขณะที่สุนัขหุ่นยนต์ที่ฝึกผ่านการเสริมแรงการเรียนรู้สิ่งที่เกิดขึ้นคือคุณไม่ได้เตรียมโปรแกรมไว้ล่วงหน้า

07:16.730 --> 07:24.850
นี่เป็นแนวคิดหลักสำหรับทุกสิ่งที่คุณไม่ได้มีอัลกอริธึมใด ๆ อยู่ภายในซึ่งเป็นรหัสที่ยากสำหรับสุนัข

07:24.860 --> 07:28.300
แต่คุณมีสิ่งที่เราจะพูดคุยในอนาคต

07:28.460 --> 07:41.990
คุณมีอัลกอริธึมการเรียนรู้การเสริมแรงซึ่งบอกว่าตกลงดังนั้นเป้าหมายมาจากที่คุณไม่ทราบอะไรจนถึงตอนจบของห้อง

07:42.170 --> 07:44.270
และนี่คือการกระทำบางอย่างที่คุณสามารถทำได้

07:44.270 --> 08:01.430
คุณสามารถย้ายเท้าขวาของคุณคุณสามารถย้ายเท้าซ้ายของคุณคุณสามารถย้ายเท้าหลังขวาของคุณคุณซ้ายเท้าหลังดังนั้นที่นี่ทุกองศาอิสระคุณสามารถย้ายได้เช่นนี้คุณสามารถย้ายแบบนี้เช่นรายการ การกระทำที่คุณสามารถทำได้และรางวัลของคุณคือทุกครั้งที่คุณก้าวไปข้างหน้าคุณจะได้รับผลบวกทุกครั้งที่คุณล้ม

08:01.430 --> 08:04.090
คุณได้หนึ่งลบและนั่นคือทั้งหมดที่มีให้

08:04.160 --> 08:07.390
จากนั้นพวกเขาก็ปล่อยสุนัขและปล่อยให้มันคิดออกเอง

08:07.400 --> 08:17.040
ดังนั้นสุนัขพยายามที่จะยืนขึ้นมันก็ตกลงมามันก็ตระหนักว่าโอเคฉันไม่ควรทำสิ่งนั้นที่ทำให้ฉันล้มเพราะทุกครั้งที่ฉันล้มฉันจะได้รับลบซึ่งไม่ดีสำหรับฉันแล้ว

08:17.060 --> 08:26.090
การกระทำอื่น ๆ ที่ช่วยให้เขายืนขึ้นและจากนั้นก็เป็นเพียงการทดลองการทดลองการทดลองของไตรและจากนั้นคิดว่ามันสามารถก้าวไปข้างหน้าโดยการขยับเท้าขวาของหน้า

08:26.090 --> 08:31.410
ทำมากกว่านั้น

08:31.460 --> 08:35.620
ตกลงดีดังนั้นตอนนี้เรียนรู้ว่าควรทำมากกว่านี้และน้อยกว่านั้น

08:35.630 --> 08:42.270
และผ่านกระบวนการเรียนรู้นี้อย่างรวดเร็วเข้าใจอย่างรวดเร็วว่าสามารถเดินได้อย่างไร

08:42.410 --> 08:49.130
และสุนัขเหล่านั้นที่คิดได้ด้วยตัวเองสามารถเดินได้ดีกว่าสุนัขที่มีการตั้งโปรแกรมล่วงหน้าจริง ๆ เพราะสิ่งที่มีการตั้งโปรแกรมไว้ล่วงหน้าจริง ๆ

08:49.130 --> 08:53.930
แล้วเรามองดูสุนัขในชีวิตจริง

08:53.930 --> 09:00.300
เพิ่มประสิทธิภาพของสิ่งต่าง ๆ ด้วยตัวมันเอง

09:00.320 --> 09:03.540
และเพราะในบางครั้ง AI ก็จะได้ผลลัพธ์ที่ดียิ่งขึ้น

09:03.680 --> 09:05.290
และนั่นคือวิธีที่พวกเขาสามารถฝึกหุ่นยนต์เหล่านี้

09:05.320 --> 09:07.320
หุ่นยนต์สุนัขเดียวกันเล่นฟุตบอล

09:07.520 --> 09:12.970
คุณสามารถฝึกสุนัขธรรมดาให้เล่นฟุตบอลได้เพราะคุณรู้ว่าวิธีการทั้งหมดนั้นต่างกัน

09:12.980 --> 09:23.030
และไม่ใช่สิ่งที่คุณรู้ว่าอาจเป็นสุนัขธรรมดาที่ได้รับการฝึกฝนให้ทำหรือเคยทำมาแล้วในกระบวนการวิวัฒนาการของมัน

09:23.030 --> 09:32.760
ในขณะที่สุนัขหุ่นยนต์เรียนรู้การเสริมแรงสามารถเข้าใจได้อย่างง่ายดายว่าจะเล่นฟุตบอลได้อย่างไรตราบใดที่คุณบอกพวกเขาว่ารางวัลคืออะไรเป้าหมายคือสิ่งที่พวกเขาสามารถทำได้

09:33.080 --> 09:36.390
นั่นคือวิธีการเรียนรู้เสริมแรง

09:36.410 --> 09:39.160
โดยทั่วไปมีภาพรวมอย่างรวดเร็วของการเรียนรู้การเสริมแรง

09:39.170 --> 09:45.500
ฉันหวังว่าคุณจะตื่นเต้นมากที่กำลังจะมาถึงเพราะมันเป็นโลกที่แตกต่างอย่างสิ้นเชิงเมื่อเทียบกับโซลูชั่น preprogram

09:45.530 --> 09:51.980
โปรแกรม hardcoded ที่ยากที่คุณมีเงื่อนไขอื่น ๆ

09:51.980 --> 09:53.750
มันแตกต่างกันมาก

09:53.840 --> 09:56.010
และเราจะพูดเพิ่มเติมเกี่ยวกับเรื่องนี้

09:56.150 --> 10:06.810
ในระหว่างนี้เรามีการอ่านเพิ่มเติมสำหรับคุณดังนั้นหากคุณต้องการมีเอกสารประกอบการสนับสนุนนี่เป็นบทความที่ยอดเยี่ยมซึ่งคุณสามารถตรวจสอบและดูได้

10:06.830 --> 10:09.300
มันเรียกว่าการเรียนรู้การเสริมแรงแบบง่ายด้วยการไหลของเทนเซอร์

10:09.430 --> 10:10.570
มันมีสิบส่วน

10:10.570 --> 10:14.790
ลิงค์อยู่ที่นี่แล้วคุณจะพบลิงค์ที่คลิกได้แบบเต็ม

10:14.820 --> 10:22.540
ในบทความเกี่ยวกับทรัพยากรโดย Arthur Giuliani ปี 2559

10:22.540 --> 10:24.770
และคุณสามารถติดตามหลักสูตรนี้และรับข้อมูลเพิ่มเติมจากบทความ

10:24.790 --> 10:30.010
แต่โปรดจำไว้ว่าบทความนั้นมีแนวโน้มที่จะไหลเหมือนในหลักสูตรนี้เราใช้

10:30.520 --> 10:35.830
pi torche เพื่อการใช้งานที่แตกต่างกัน

10:35.830 --> 10:41.260
แต่การปลูกฝัง แต่ในเวลาเดียวกันคุณอาจเลือกบางสิ่งที่นี่ กำลังจะทำในหลักสูตรนี้

10:41.260 --> 10:44.910
บทความที่ดีมากจะติดตามคุณหากคุณกำลังพิจารณาที่จะติดตามมัน

10:44.920 --> 10:45.820
ยังคงอยู่ในกรณี

10:45.820 --> 10:51.890
ตรวจสอบว่าส่วนแรกนั้นและดูว่าคุณชอบดูว่าคุณต้องการอ่านอีกนิด

10:52.210 --> 10:58.210
และจากนั้นเราก็มีความเฉพาะเจาะจงสำหรับการกวดวิชานี้การเรียนรู้การบังคับใช้ชายแดนมีเอกสารของ Richard Sutton

10:58.210 --> 11:00.380
ซึ่งเรียกว่าการเรียนรู้การเสริมแรง

11:00.420 --> 11:08.170
การแนะนำหนึ่งคือ 1998 เอกสารค่อนข้างเก่า แต่ในเวลาเดียวกันคุณสามารถเรียนรู้เล็กน้อยเกี่ยวกับการเสริมแรงการเรียนรู้ตัวอย่างบางอย่างเช่นตัวอย่าง

11:08.170 --> 11:13.960
omlet และตัวอย่างอื่น ๆ

11:13.960 --> 11:17.710
ที่สามารถเรียนรู้การเสริมแรง

11:17.710 --> 11:23.220
หากคุณกำลังมองหาการอ่านเพิ่มเติมและในบันทึกนั้นเราจะสรุปบทแนะนำนี้

11:23.230 --> 11:24.640
แทบรอไม่ไหวที่จะพบคุณในครั้งต่อไป

11:24.640 --> 11:26.560
และจนกว่าจะสนุกกับ AI