WEBVTT

00:00.620 --> 00:04.010
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:04.010 --> 00:05.940
ในแบบฝึกหัดวันนี้เราจะได้สนุกกัน

00:05.960 --> 00:11.900
เราจะมีรูปลักษณ์และปัญญาประดิษฐ์ที่แท้จริงผ่านเขาวงกตที่เราพูดถึงมานานแล้วและจะใช้การเรียนรู้การฆ่าเพื่อนำทางและหาทางออกและเราจะเห็นว่าเกิดอะไรขึ้น ค่า

00:11.900 --> 00:18.740
q จะเกิดขึ้นกับนโยบายและอื่น

00:18.830 --> 00:24.350
ๆ

00:24.350 --> 00:26.310
ดังนั้นเรามาดู

00:26.330 --> 00:31.910
เรากำลังจะใช้วัสดุบางอย่างที่มหาวิทยาลัย Berkeley จัดหา

00:31.910 --> 00:40.700
ดังนั้นถ้าคุณไปที่ฉันไม่ได้เป็น Birk เท่านั้น E R K E L E ทำไมคุณไม่ไปที่ลิงค์นั้นอีกครั้ง

00:40.790 --> 00:49.130
คุณจะเห็นเว็บไซต์นี้และได้ยินสิ่งที่เรากำลังจะได้เห็นคือความต้องการที่จะไปหาเราจะไปที่โครงการ PacMan

00:49.130 --> 00:59.050
ฉันคิดว่าโครงการ Pacman และที่นี่ถ้าคุณเลื่อนลงและคุณดูพวกเขาในการเรียนรู้ครั้งแรกนี่คือสิ่งที่เรากำลังทำงานกับ

00:59.180 --> 01:01.700
ดังนั้นที่นี่คุณสามารถดาวน์โหลดไฟล์ zip

01:01.700 --> 01:03.500
นั่นคือถ้าคุณต้องการ

01:03.530 --> 01:11.860
ดังนั้นคุณไม่จำเป็นต้องทำสิ่งนี้เพราะเราจะไม่ไปหาคำตอบร่วมกันในการทดลองนี้เพียงแค่บอกให้คุณรู้ว่ามันมาจากไหนเพราะเราชอบ

01:11.870 --> 01:12.930
เราซาบซึ้งจริงๆ

01:12.980 --> 01:16.180
UC Berkeley ทำให้วัสดุเหล่านี้พร้อมใช้งาน

01:16.190 --> 01:19.300
แต่ถ้าคุณต้องการทดลองกับสิ่งนี้ด้วยตัวเอง

01:19.400 --> 01:20.660
เพียงจำไว้ว่านี่ไม่ใช่ส่วนหนึ่ง

01:20.680 --> 01:23.310
จะไม่เป็นส่วนหนึ่งของหลักสูตรของเราซึ่งเป็นส่วนหนึ่งของหลักสูตร Berkeley

01:23.330 --> 01:27.860
ฉันไม่แน่ใจว่ามันทำงานอย่างไรเพื่อวัตถุประสงค์ในการแสดงภาพประกอบ แต่หากคุณต้องการทดลองใช้คุณสามารถค้นหาได้ที่นี่ไฟล์ zip

01:27.860 --> 01:31.340
และคำแนะนำเก่าทั้งหมด

01:31.430 --> 01:38.450
และเรากำลังจะไปสู่ Python

01:38.450 --> 01:42.790
ทันทีและสิ่งแรกที่ฉันต้องการแสดงให้คุณเห็นคือที่นี่เรามีข้อมูลลิขสิทธิ์ดังนั้นนี่คือสิ่งที่ฉันหมายถึง

01:42.870 --> 01:51.120
เราโชคดีมากที่พวกเขาบอกว่าเรามีอิสระที่จะใช้หรือขยายโครงการเหล่านี้เพื่อวัตถุประสงค์ทางการศึกษาหากคุณรู้ว่าการเผยแพร่วิธีแก้ไขปัญหาการเผยแพร่ที่เราไม่ได้ทำ

01:51.200 --> 01:57.860
คุณเก็บประกาศนี้ซึ่งเรามีและคุณมอบบาทหลวงที่ชัดเจนให้กับ UC Berkeley รวมถึงลิงค์ที่เรามี

01:57.860 --> 02:00.750
ดังนั้นอีกครั้งหากคุณต้องการเรียนรู้เพิ่มเติมที่ลิงค์

02:00.770 --> 02:01.720
คุณสามารถดูได้

02:01.730 --> 02:07.490
และขอขอบคุณทุกคนที่ได้ทำงานในโครงการนี้มากดังนั้นนี่คือโลกกริด

02:07.490 --> 02:09.370
เรากำลังจะทำงานหากมีวิธีการแก้ปัญหาที่นั่น

02:09.460 --> 02:15.110
คุณจะต้องทำมันให้สำเร็จคุณจะต้องแก้ปัญหาด้วยตัวเองหรืออาจต้องหาวิธีแก้ปัญหา

02:15.110 --> 02:18.980
บางทีบางคนที่คุณรู้จักอาจเป็นคนที่ช่วยคุณได้

02:19.160 --> 02:25.110
หากสิ่งที่คุณต้องการให้คุณไม่ต้องทำอีกเพราะเรากำลังจะดูที่หน้าจอนี้ทันที

02:25.160 --> 02:29.720
ดังนั้นหลังจากที่เราได้สร้างไฟล์ทั้งหมดเราก็สามารถเปิดมันได้ที่นี่

02:29.720 --> 02:39.080
ดังนั้นจึงมีพารามิเตอร์บางอย่างที่เกี่ยวข้องกับโลกทั้งใบนี้และเราจะไม่แสดงให้คุณเห็นว่ามันเป็นอย่างไรถ้าเราเปิดตัวมัน

02:39.080 --> 02:41.540
ดังนั้นลองเปิดใช้ในโหมดแมนนวล

02:41.540 --> 02:47.070
ดังนั้นถ้าฉันลบหนึ่งในพาโนรามาเหล่านี้ด้วยตนเองฉันสามารถสั่งตัวแทนการควบคุมของคุณได้

02:47.090 --> 02:54.980
ดังนั้นที่นี่คุณสามารถเห็นกริดทั้งหมดดังนั้นฉันจึงสามารถขึ้นไปข้างบนเพื่อที่คุณจะได้เห็นว่ามันกำลังเริ่มต้นการกระทำและเริ่มต้นในรัฐที่ฉันอยู่

02:55.100 --> 03:01.310
จากนั้นคุณเห็นว่าฉันกดขึ้นเอาการกระทำ Norf และครั้งแรกที่ฉันสิ้นสุดในศูนย์เมื่อฉันขึ้นไป

03:01.490 --> 03:05.000
แต่ครั้งที่สองที่ฉันลงมือทำนอร์ฟและฉันก็จบลงด้วยความโศกเศร้าไม่ขยับ

03:05.000 --> 03:08.440
คุณรู้ว่ามีการสุ่มเกิดขึ้นฉันก็ไปทางซ้ายหรือขวา

03:08.780 --> 03:10.910
และโดยค่าเริ่มต้นพารามิเตอร์จะถูกตั้งค่า

03:10.910 --> 03:18.250
คุณสามารถดูได้ที่นี่โดยค่าเริ่มต้นพวกเขาถูกตั้งค่าเป็นสิ่งที่เรากล่าวถึงว่าบ่อยครั้งที่ผลลัพธ์ในทิศทางที่ไม่ได้ตั้งใจ

03:18.270 --> 03:20.960
ร้อยละ 20 ของเวลาถึงร้อยละ 10 ไปทางซ้ายบางไปทางขวา

03:21.230 --> 03:23.520
ดังนั้นถ้าฉันขึ้นไปและพูดว่าฉันขึ้นไปฉันจะไปทางขวา

03:23.520 --> 03:26.810
ฉันไปทางขวาตอนนี้ไม่ได้เกิดขึ้น

03:26.810 --> 03:29.790
ถูกแล้วอีกครั้งและฉันเสร็จแล้ว

03:29.790 --> 03:37.140
แต่ในการใช้งานนี้คุณต้องคลิกอีกครั้งเพื่อออกจากผลลัพธ์สุดท้ายดังนั้นออกไปจากที่นั่นเพียงคลิกอีกครั้งและคุณทำเสร็จแล้ว

03:37.190 --> 03:40.700
นั่นคือสถานะเทอร์มินัลเพื่อให้เราสามารถเรียกใช้คู่มือของเรา

03:40.730 --> 03:45.620
คุณจะเห็นว่าถ้าฉันไปทางขวาขวาซ้ายขึ้น

03:45.740 --> 03:50.060
ดังนั้นที่นี่สิ่งที่เราเห็นก่อนหน้านี้ว่าตัวแทนจะไม่ตรงขึ้น

03:50.060 --> 03:53.300
อะไรคือจุดที่จะขึ้นไปหากมีโอกาสลงหลุม

03:53.300 --> 03:54.580
ดังนั้นเรามาดูสิ่งที่ตัวแทนจะทำ

03:54.610 --> 03:56.780
มันจะไปทางซ้ายและไปทางตะวันตกที่นี่จะไปทางตะวันตก

03:56.780 --> 04:00.820
และคุณเห็นฉันคลิกซ้าย แต่มันก็ขึ้นไปและที่นี่ฉันจะคลิกขวา

04:00.860 --> 04:05.390
และฉันลงเอยในขั้นตอนสุดท้ายและคุณเห็นรางวัลของพระเจ้าเท่ากับหนึ่ง

04:05.390 --> 04:07.190
นั่นคือสิ่งที่ดูเหมือนด้วยตนเอง

04:07.190 --> 04:12.520
ทีนี้เรามาลอง AI กับเรื่องนี้กันก่อน

04:12.510 --> 04:16.800
ลองทำ H ที่นี่และเพิ่ม Brandner กัน

04:16.820 --> 04:25.370
ขอผมดูสิ่งที่ผมพิมพ์ตรงนี้หวังว่าคุณจะได้เห็นโลกกริดทำไมถึงลบด้วยค่าเฉลี่ยของเรา

04:25.370 --> 04:27.980
นั่นคือรางวัลสำหรับการใช้ชีวิต

04:27.980 --> 04:31.840
ฉันมีสองอันแล้วดังนั้นฉันควรลบอันนี้ออก

04:32.190 --> 04:35.050
ลบ k เป็นจำนวนซ้ำ

04:35.060 --> 04:36.690
เป็นวิธีซ้ำมากเกินไป

04:36.690 --> 04:41.180
มาทำกันให้น้อยลงลองทำอีก 10 ซ้ำน่าจะพอ

04:41.180 --> 04:42.710
ลบ a เป็น Agent

04:42.710 --> 04:47.040
ตัวแทนประเภทใดที่ไม่ต้องการให้เกียรติและรูปภาพและคุณค่าบางอย่างหรือถาม

04:47.060 --> 04:49.120
ถามดังนั้นฉันต้องการถาม

04:49.190 --> 04:57.090
ถามตัวแทนการเรียนรู้ที่ทำเครื่องหมายลบนี่คือความเร็วคืออะไรนั่นเป็นวิธีที่มีขนาดใหญ่เกินกว่าแรงที่เพิ่งใช้ความเร็วเต็มที่ตอนนี้ลบ R

04:57.090 --> 05:04.780
คือโทษของการมีชีวิตดังนั้นค่าเริ่มต้นจึงเป็นศูนย์

05:04.820 --> 05:11.000
ดังนั้นจำไว้ว่าตอนเริ่มรีสตาร์ท 0 การมีชีวิตอยู่ดังนั้นลองเรียกมันว่า 0 0

05:11.000 --> 05:16.040
และสามารถลบพารามิเตอร์นี้และ D คือส่วนลด

05:16.040 --> 05:20.660
ดังนั้นฉันจึงเป็นปัจจัยให้ลองเก็บไว้ที่จุดศูนย์และคล้ายกับสิ่งที่เราเริ่มออกในส่วนนี้ในหลักสูตรเพื่อให้เรียกใช้วิธีที่ตกลงเร็วเกินไปอีกครั้งจริง

05:20.660 --> 05:30.130
ๆ แล้วสวยตกลงดังนั้นคุณสามารถดูว่าเขา การสำรวจ

05:30.580 --> 05:36.690
จนถึงตอนนี้เขากดค่าลบได้สามครั้งแล้วคุณจะเห็นว่าค่า q นั้นได้รับการปรับปรุงในสี่เหลี่ยมเหล่านี้อย่างไร

05:36.700 --> 05:37.860
ดังนั้นนี่คือค่าสำคัญ

05:37.870 --> 05:39.310
มันเป็นศูนย์

05:39.320 --> 05:40.740
คุณสามารถดูค่า Q ได้แล้วตอนนี้

05:40.740 --> 05:46.560
ดังนั้นเขาจึงได้เรียนรู้ว่าสิ่งนี้แตกต่างกันเล็กน้อยเพราะเมื่อคุณไปถึงขั้นตอนสุดท้ายคุณจะต้องออกไปจากมัน

05:46.660 --> 05:48.990
คุณต้องคลิกอีกหนึ่งปุ่มเพื่อออก

05:49.000 --> 05:51.740
ดังนั้นมันจึงอยู่ใกล้กับที่หนึ่ง แต่ไม่ใช่ที่ที่แน่นอน

05:51.760 --> 05:57.530
แต่ในเวลาเดียวกันคุณจะเห็นได้ว่าที่นี่คุณรู้ว่ามือที่ตกผลึกแบบช้า

05:57.520 --> 06:05.470
ๆ เป็นจุดที่อดีตเพื่อนร่วมงานเดินทางไปที่ไหนสักแห่ง เข้าใจว่าเกิดอะไรขึ้น

06:05.470 --> 06:08.710
ตกลงดังนั้นเรามาดูกันว่าเกิดอะไรขึ้นที่นี่

06:10.180 --> 06:13.620
สำรวจสำรวจสำรวจสิ่งที่จะเกิดขึ้น

06:13.710 --> 06:15.300
ตอนนี้ก็กำลังดี

06:15.670 --> 06:17.940
และเราได้สิ่งนี้มาจากการสุ่มที่เกี่ยวข้อง

06:18.100 --> 06:20.100
ดังนั้นจึงเป็นสิ่งที่ดีเพียงไม่กี่ครั้ง

06:20.110 --> 06:22.500
ตอนนี้เขาได้รับซ้ำ 10 ครั้งเท่านั้น

06:22.510 --> 06:26.780
ดังนั้นเขาจะต้องเรียนรู้อย่างรวดเร็วตกลงฉันต้องการคุณที่นั่น

06:27.220 --> 06:29.280
เรามาดูกันว่าเกิดอะไรขึ้น

06:29.320 --> 06:30.050
มาเลย

06:30.060 --> 06:31.820
ออกไปจากเขาวงกตแล้ว

06:32.840 --> 06:38.450
และใช่ 10 ตอนดังนั้นโดยเฉลี่ยมันกลับกลายเป็นว่า

06:38.590 --> 06:40.430
นั่นไม่ได้สนใจจริงๆ

06:40.460 --> 06:41.760
ดังนั้นที่นี่เรามาดูกัน

06:41.760 --> 06:43.060
ฉันไม่เคยเห็นการคลิกมามากพอ

06:43.100 --> 06:43.460
ขวา.

06:43.460 --> 06:43.810
เราจะไปที่นั่น.

06:43.820 --> 06:47.780
ดังนั้นคุณจะเห็นได้ว่านี่เป็นนโยบายที่เขาทำขึ้นมา

06:48.020 --> 06:50.860
แม้ผ่านไปเพียงแค่ 10 ตอนเขาก็จะได้ชีพจร

06:50.890 --> 06:58.320
ฉันจะขึ้นไปวางระเบิดและที่นี่ฉันจะลงไปที่นี่ฉันจะลงไปที่นี่ฉันจะเข้าไปในกำแพงแล้วฉันจะเด้งเราอยู่ที่นี่

06:58.550 --> 06:59.620
มันเท่ห์มาก

07:00.000 --> 07:00.250
ตกลง.

07:00.260 --> 07:02.530
ดังนั้นตอนนี้เรามาเพิ่มความเร็ว

07:02.650 --> 07:04.220
พารามิเตอร์คืออะไร

07:04.220 --> 07:06.240
และนั่นก็เหมือนกับความไร้ระเบียบสองชั้น

07:06.260 --> 07:16.390
นั่นคือความเร็วสี่เท่าและเพิ่มจำนวนการวนซ้ำดังนั้นสมมุติว่า 20 ปันส่วนในเวลานี้และลองดูว่าเขาจะผ่านได้มากกว่านี้อีกหรือไม่

07:16.790 --> 07:18.700
ดังนั้นคุณจะเห็นว่าเขากำลังเร็วขึ้นเล็กน้อย

07:19.600 --> 07:25.900
และเขากำลังเรียนรู้ว่าเขากำลังเรียนรู้ว่าไม่ใช่คุณรู้จริง ๆ จากรัฐนี้ว่าไม่มีการกระทำที่ดีมากมาย

07:25.900 --> 07:30.220
Orio การกระทำเหล่านี้ที่ถูกและตรงไปตรงมานั้นไม่ดี

07:30.250 --> 07:32.400
แน่นอนว่านี่ไม่ดีอย่างแน่นอน

07:32.410 --> 07:34.680
เขายังต้องเรียนรู้ว่าจากที่นี่ก็ดีเช่นกัน

07:34.680 --> 07:36.820
คุณจะเห็นได้ว่าการกระทำนี้ค่อนข้างดี

07:36.820 --> 07:37.330
เอาล่ะ

07:37.330 --> 07:38.380
เขาได้อะไร

07:38.530 --> 07:39.100
ตกลง.

07:39.100 --> 07:42.200
นโยบายที่น่าสนใจดังนั้นที่นี่คุณเราตัดสินใจที่จะขึ้นไป

07:42.330 --> 07:43.270
ข้อมูลไม่เพียงพอ

07:43.270 --> 07:45.610
งั้นลองทำกันดู

07:46.850 --> 07:50.370
และเพิ่มความเร็วเป็น 100

07:50.630 --> 07:56.570
เร็วสุด ๆ

07:56.570 --> 08:02.930
และจำนวนการทำซ้ำจะทำให้เขาได้ 100 ครั้งในเวลานี้มันวิ่งฉากนั้นอย่างรวดเร็วและคุณจะเห็นว่าเพราะมีการทำซ้ำหลายครั้งมากขึ้นเขาได้รับข้อมูลเพิ่มเติมโอกาสในการทดสอบ

08:02.930 --> 08:10.240
ค่าเหล่านี้สำหรับทุก ๆ สถานะ

08:10.250 --> 08:13.220
ตอนนี้เขารู้ว่าคุณจะเห็นว่าจุดศูนย์แปดสิบเก้า

08:13.250 --> 08:16.050
เราพูดอะไรในจุดศูนย์ของเรา 86

08:16.120 --> 08:20.660
สิ่งที่ต้องจำก็คือค่าของรัฐใดก็ตาม

08:20.720 --> 08:24.230
โปรดจำไว้ว่าสูตรที่เรามีคือค่าสูงสุดของคิวบ์

08:24.230 --> 08:27.160
จำไว้ว่าสิ่งที่เราคิดสูตรทางลัด

08:27.170 --> 08:30.690
ดังนั้นสิ่งที่มีค่าในสถานะนี้คือ V ของสิ่งนี้

08:30.900 --> 08:32.060
มันจะเป็น 0 18

08:32.060 --> 08:38.180
เพราะนั่นคือค่าสูงสุดของสี่ในค่านี้ของสถานะนี้ 0 7 คุณต้องการคุณค่าของวันนี้

08:38.210 --> 08:40.260
มีจุดหกสิบเอ็ดและอื่น ๆ

08:40.400 --> 08:41.480
นั่นคือสิ่งที่ต้องจำ

08:41.490 --> 08:45.590
ฉันจำได้ว่าเมื่อฉันขึ้นฉันคิดว่าเรามีเช่นศูนย์จุด 86 หรืออะไรบางอย่างดังนั้น praecox

08:45.770 --> 08:55.060
ดังนั้นถ้าเราไปในปีหน้าฉันจะหายไปหรือหายไปอีกครั้งและนี่จะทำให้มันกลับมา

08:55.170 --> 08:55.750
ตกลง.

08:55.760 --> 08:56.210
ตกลง.

08:56.210 --> 09:00.680
ค่อยๆเติมช่องว่างอย่างช้าๆ

09:00.970 --> 09:01.450
ฉันเห็น.

09:01.490 --> 09:06.170
และมันก็ค่อนข้างสุ่มเพราะไม่เพียง แต่สภาพแวดล้อมที่มีการสุ่ม

09:06.170 --> 09:10.750
แต่ยังวิธีที่เขาสำรวจว่าดาวไม่ทราบนโยบายจริงๆคือเขากำลังสำรวจโดยสุ่ม

09:11.190 --> 09:12.150
เพิ่งหายไป

09:12.170 --> 09:13.420
ฉันไม่เข้าใจว่าทำไม

09:13.680 --> 09:23.060
ต่อไปเรามาดูกันว่าจะเกิดอะไรขึ้นถ้าคุณเพิ่มจำนวนที่นี่และที่นี่น่าจะใช้เวลาเท่ากันถ้าความเร็วไม่มีแคปอยู่

09:23.480 --> 09:27.610
ตกลงดังนั้นเขาเหมือนเขามีโอกาสมากขึ้นในการสำรวจสิ่งต่าง ๆ

09:27.650 --> 09:30.850
ตกลงเรามาดูกันว่ามันเป็นอย่างไร

09:31.260 --> 09:35.010
และคุณสามารถเห็นค่าต่าง ๆ

09:35.010 --> 09:38.640
ที่มาบรรจบกันมันขึ้นและลงตามที่คุณรู้เพราะมีการสุ่มและเขาอาจจะลงเอยเหมือนในหลุมแม้ว่าเขาจะเป็นแบบนี้

09:38.640 --> 09:44.940
แต่ในขณะเดียวกันพวกเขาก็ค่อยๆเริ่มที่จะรวมกันเป็นค่าบางอย่างและค่าคิว

09:44.950 --> 09:48.540
ตกลงอาจเป็นพันเป็นบิตมากเกินไปในแง่ของเวลา

09:48.540 --> 09:53.250
ดูเหมือนว่าความเร็วจะเพิ่มขึ้นตามสัดส่วนเช่นกัน

09:53.610 --> 09:55.560
ดังนั้นมันอาจตัดส่วนนั้น

09:55.650 --> 09:57.560
ฉันหมายถึงชอบลดความเร็ว

09:57.600 --> 10:02.850
คุณรู้ไหมว่าตอนนี้มันต่ำมากคุณไม่ต้องคอยดูจนจบบทช่วยสอนนี้ฉันแค่อยากทดลองกับมันสักหน่อยเพื่อให้คุณมีตัวอย่างของสิ่งที่เราได้ทำงานมา

10:02.850 --> 10:10.920
แต่คุณก็เข้าใจแล้ว ผ่านทุกสิ่งนี้

10:10.950 --> 10:14.800
มันมีการสุ่มบางอย่างเช่น Rambler ที่สร้างขึ้นในพฤติกรรมของเขา

10:14.820 --> 10:23.420
ดังนั้นแม้ว่ามันจะมีนโยบายเหมือนกัน แต่ก็จะยังคงสำรวจต่อไปดังนั้นมันจะไม่เหมือนเมื่อมีนโยบายพื้นฐาน

10:23.460 --> 10:29.130
มันจะยังคงทดสอบกับรูปแบบอื่น ๆ เป็นระยะ ๆ

10:29.130 --> 10:31.350
เพื่อปรับปรุงนโยบายของมันบางทีมันอาจไม่พบนโยบายที่ดีที่สุดในทันที

10:31.350 --> 10:33.240
อาจปรับปรุงนโยบายได้

10:33.360 --> 10:40.080
และนั่นคือเหตุผลที่ว่าแม้หลังจากการทำซ้ำหลายครั้งคุณยังสามารถเห็นเอฟเฟกต์แบบสุ่มบางครั้งมันก็กระโดดเข้าสู่สถานะการสุ่มไม่เพียงเพราะการสุ่มในสภาพแวดล้อม แต่ยังเพราะมีระดับเหมือนพารามิเตอร์ที่คุณสามารถควบคุมได้ สำหรับตัวแทนของคุณที่บอกว่าคุณรู้ว่าส่วนใหญ่

10:40.080 --> 10:45.060
80

10:45.060 --> 10:50.750
เปอร์เซ็นต์ของเวลาทำสิ่งที่นโยบายของคุณบอกให้คุณทำ แต่

10:50.820 --> 10:56.040
20 เปอร์เซ็นต์ของเวลาที่คุณมีการทดลองสนุก

10:56.040 --> 11:03.410
ๆ และดูว่าเกิดอะไรขึ้นและใช้ข้อมูลที่คุณรวบรวมเพื่ออัปเดต นโยบายของคุณ

11:03.410 --> 11:05.300
ตกลงนี่ใช้เวลานานเกินไป

11:05.310 --> 11:06.360
ลองอีกครั้ง

11:06.560 --> 11:11.640
ใช่นั่นคือวิธีที่ตัวแทนเรียนรู้ในรัฐต่าง ๆ

11:11.640 --> 11:14.270
บางทีเราแค่เรียกใช้อีกครั้งหนึ่งจากความอยากรู้

11:14.280 --> 11:16.590
มีอะไรอีกบ้างที่เราสามารถเปลี่ยนแปลงได้

11:18.420 --> 11:20.110
ซ้ำ

11:21.630 --> 11:22.400
ตกลง.

11:22.430 --> 11:24.280
ตกลงมาดูกัน

11:24.550 --> 11:26.680
ใช่เราสามารถเปลี่ยนการสนทนาเป็นตัวอย่างได้

11:26.680 --> 11:39.860
ดังนั้นในกรณีนี้เราสามารถพูดได้ว่า K ลบหนึ่งร้อยลบ a Q ลบสองและลบเป็น OK พัน

11:39.920 --> 11:41.380
รางวัลดังนั้น

11:41.390 --> 11:49.270
เราต้องการเก็บมันไว้บางทีเก็บมันไว้ที่ 0 04 แต่สมมุติว่าเรื่องนี้ให้รางวัลที่ศูนย์ทะเลทรายของฉันทุกครั้ง

11:49.280 --> 11:59.030
แล้วตรงนี้เราจะบอกว่าส่วนลดไม่ใช่ศูนย์จุดเก้า แต่มันเหมือนกับศูนย์จุดห้า

11:59.060 --> 12:02.300
ดังนั้นมันจึงได้รับส่วนลดค่อนข้างมากเมื่อคุณเล่นเกมนี้

12:02.600 --> 12:08.960
ดังนั้นตอนนี้จริง ๆ

12:08.960 --> 12:15.400
แล้วมันจะถูกกระตุ้นให้เข้าใกล้ถึงจุดจบมากกว่าเส้นทางเพิ่มเติมที่รัฐใกล้จะเสร็จสิ้นจะได้รับค่าสูงเพื่อให้คุณเห็นว่าค่าจริง ๆ ลดลงไม่เป็นสีเขียวเหมือนเดิม

12:16.360 --> 12:20.190
ดังนั้นที่นี่คุณจะเห็นได้ว่านี่เป็นนโยบายตอนนี้

12:20.380 --> 12:28.830
มันจะเป็นแบบนั้นแบบนั้นคล้าย ๆ กับที่เราเห็นมาก่อนอาจจะมีเพียงแค่ความแตกต่างจากที่นี่กระโดดตรงเข้าไปที่นี่

12:28.840 --> 12:29.980
นั่นคือหนึ่ง

12:30.000 --> 12:32.500
และตกลงลองอีกหนึ่ง

12:32.500 --> 12:33.510
มันสนุกมาก

12:33.580 --> 12:39.020
ลองเพิ่มอีกหนึ่ง k k ลบ k 100 a q ทิ้ง

12:39.130 --> 12:48.960
เก็บไว้เหมือนเดิมดังนั้นเรามารัน vanilla พื้นฐานนี้กันดีกว่า ok ok ok

12:49.110 --> 12:51.110
มันจะดูว่ามันจะแสดงให้เรานโยบาย

12:51.210 --> 12:54.820
และใช่เรามีนโยบาย

12:54.840 --> 12:55.150
ใช่.

12:55.150 --> 12:56.350
ดีมาก

12:56.350 --> 12:58.820
ดังนั้นที่นี่เรามีนโยบาย

12:58.900 --> 12:59.830
คุณรู้ว่าสิ่งนี้เป็นที่คุ้นเคย

12:59.830 --> 13:05.260
โปรดจำไว้ว่าเวลาที่เราเห็นว่า AI

13:05.290 --> 13:08.530
ฉลาดกว่าการทิ้งระเบิดของมนุษย์เข้าไปในผนังเพื่อไปที่นั่นและพุ่งเข้าไปในผนังเพื่อไปเช่นนั้นเพื่อเพิ่มปัญหา

13:08.530 --> 13:09.270
ดังนั้นเราไปกันเลย

13:09.280 --> 13:18.190
นั่นเป็นตัวอย่างของการไม่ทำปัญญาประดิษฐ์ขั้นพื้นฐานที่ง่ายมาก ๆ รายได้จากการฆ่าดังนั้นจึงไม่มีการเรียนรู้อย่างลึกซึ้งในขั้นตอนนี้

13:18.610 --> 13:23.810
แต่ในเวลาเดียวกันมันก็ค่อนข้างสมาร์ทและฉันหวังว่าคุณจะสนุกกับการสอนของวันนี้

13:23.810 --> 13:29.630
และขอขอบคุณอีกครั้งกับ UC Berkeley และฉันหวังว่าคุณจะสนุกกับการสอนวันนี้และฉันหวังว่าจะได้ดูพวกเขา

13:29.650 --> 13:31.120
จนกว่าจะสนุกกับ AI