WEBVTT

00:00.630 --> 00:03.850
สวัสดีและยินดีต้อนรับกลับสู่หลักสูตรเกี่ยวกับปัญญาประดิษฐ์

00:03.990 --> 00:09.260
ในแบบฝึกหัดวันนี้เราจะเริ่มจากส่วนการเรียนรู้ที่ซับซ้อนอย่างลึกซึ้ง

00:09.420 --> 00:11.010
ดังนั้นเรามาดูสิ่งที่มันเกี่ยวกับ

00:11.010 --> 00:14.040
ก่อนหน้านี้เราพูดคุยเกี่ยวกับการเรียนรู้ที่ยอดเยี่ยม

00:14.040 --> 00:21.270
ดังนั้นเราจึงมีสภาพแวดล้อมที่ตัวแทนและเรามีเวกเตอร์ที่อธิบายถึงสภาพแวดล้อมที่ถูกป้อนเข้าสู่เครือข่ายประสาทและในตอนท้ายเราได้ค่า q

00:21.270 --> 00:26.310
เป็นผลลัพธ์ของเรา

00:26.310 --> 00:29.970
และแน่นอนเราพบวิธีที่จะยับยั้งส่วนการเรียนรู้

00:29.970 --> 00:34.650
เราพบว่าการตัดสินใจกระทำนั้นขึ้นอยู่กับค่าเหล่านั้นซึ่งเป็นส่วนหนึ่งของการกระทำอย่างไร

00:34.650 --> 00:42.380
และเราได้พูดคุยเกี่ยวกับนโยบายการคัดเลือกการกระทำและสิ่งต่าง ๆ เกี่ยวกับวิธีการเรียนรู้อย่างลึกซึ้ง

00:42.420 --> 00:54.450
แต่ที่นี่แนวคิดสำคัญสำหรับทั้งหมดนี้คือวิธีที่เราได้รับจากสิ่งนี้จากสภาพแวดล้อมที่เกิดขึ้นจริงและรัฐไปยังเครือข่ายประสาท

00:54.480 --> 00:56.190
ทรานสิชันจะอยู่ตรงนี้

00:56.220 --> 01:02.250
เวกเตอร์อินพุตดังนั้นอินพุต Lehre ของโครงข่ายประสาทของเราและมันคือเวกเตอร์

01:02.250 --> 01:06.570
ดังนั้นสิ่งที่เรากำลังดูอยู่ก็โอเคดังนั้นเราจึงขอบบนเส้นโค้ง

01:06.600 --> 01:08.830
นั่นไม่ใช่คำที่ถูกต้องที่เราไม่ได้มองอะไร

01:08.940 --> 01:12.330
ตัวแทนโดยทั่วไปมีข้อมูลนี้

01:12.330 --> 01:18.490
ดังนั้นสภาพแวดล้อมจึงแยกวิเคราะห์ข้อมูลนี้ว่าตกลงคุณตัวแทนที่คุณอยู่ในสถานะนี้ของคุณจะถูกอธิบายโดยภาคในตัวอย่างที่ง่ายนี้ซึ่งอธิบายโดยเวกเตอร์นี้ X-1 ของ 1

01:18.560 --> 01:26.160
x 2 ของ 2 ดังนั้นพิกัดของคุณคือ

01:26.160 --> 01:31.410
1 2 และนั่นคือสถานะทั้งหมดของคุณในสภาพแวดล้อมที่ซับซ้อนมากขึ้น

01:31.410 --> 01:39.040
คำแถลงและสิ่งอื่น ๆ ทั้งหมดที่เอเจนต์สามารถสังเกตได้ แต่จุดที่นี่คือมันถูกครอบครองเป็นเวกเตอร์

01:39.240 --> 01:46.470
และสิ่งที่ไม่ได้เกิดขึ้นในชีวิตจริงในชีวิตจริงยกเว้นระบบ GPS และสิ่งอื่น ๆ เช่นนั้น

01:46.530 --> 01:51.830
แต่ในชีวิตจริงเราใช้อะไรเป็นส่วนใหญ่เวลาที่เราใช้ประสาทสัมผัสเราใช้สายตาแม้ใน GPS

01:51.930 --> 01:53.670
มันไม่ได้สร้างขึ้นในสมองของเรา

01:53.670 --> 01:56.420
มันไม่ได้บอกพิกัดผ่านสมองของเรา

01:56.430 --> 02:02.880
ดังนั้นเราจึงยังใช้สายตามอง GPS และเข้าใจสิ่งที่เกิดขึ้น

02:02.910 --> 02:09.620
และนี่ก็เป็นการโกงสำหรับ AI ที่จะได้รับข้อมูลเกี่ยวกับสภาพแวดล้อมในฐานะเวกเตอร์

02:09.620 --> 02:12.030
มันง่ายเกินไปไม่ใช่วิธีการทำงานในชีวิตจริง

02:12.030 --> 02:23.310
นั่นไม่ใช่วิธีที่เราเป็นมนุษย์ทำงานและท้ายที่สุดเราต้องการสร้างปัญญาประดิษฐ์ที่สามารถทำงานในแบบเดียวกันกับมนุษย์ซึ่งเป็นสิ่งที่ท้าทายความสามารถเดียวกับมนุษย์

02:23.320 --> 02:28.740
และในโลกมนุษย์เราไม่มีที่เราไม่มีว่าเราไม่มีพิกัดเหล่านี้หรือเวกเตอร์ชนิดอื่น ๆ

02:28.740 --> 02:33.870
ที่ส่งถึงเราซึ่งอธิบายสถานะที่เราอยู่ในสภาพแวดล้อมนั้น

02:33.870 --> 02:37.350
ดังนั้นเราจะต้องลบมันออกเพื่อทำให้สมจริงยิ่งขึ้น

02:37.410 --> 02:42.180
แล้วเราสามารถแทนที่มันด้วยสิ่งที่เราเห็นหรือสิ่งที่เราทำในฐานะมนุษย์เพื่อรับข้อมูล

02:42.180 --> 02:51.300
เวลาส่วนใหญ่ที่เราเห็นแน่นอนความรู้สึกทั้งหมดของเรา แต่ข้อมูลส่วนใหญ่ที่เราได้รับเกี่ยวกับโลกรอบตัวเรามาจากสายตาของเรา

02:51.510 --> 03:00.090
และนั่นคือเหตุผลที่เราจะเปลี่ยนลูกศรเล็ก ๆ ที่เรามีให้เป็นโครงข่ายประสาทเทียมทั้งหมด

03:00.090 --> 03:02.700
ดังนั้นนี่คือจาก Onix ของเรา

03:02.700 --> 03:08.400
อันดับสองเราได้รับการโน้มน้าวจาก

03:08.460 --> 03:14.910
Larry และนั่นเป็นเหตุผลว่าทำไมจึงเป็นเรื่องสำคัญที่จะต้องรู้สึกสะดวกสบายกับเครือข่ายประสาทเงื่อนไขที่วิวัฒนาการและคุณทำงานอย่างไรถ้าคุณได้มีเพศสัมพันธ์แบบ ODP

03:14.930 --> 03:20.490
หรือคุณสามารถดูหมายเลขสองต่อไปที่เราได้รับแบบฝึกหัดที่ดีมาก

03:20.670 --> 03:27.330
ดังนั้นที่นี่เรามีการผ่าตัดที่เกิดขึ้นดังนั้นเราจะต้องมองว่านี่เป็นภาพ

03:27.330 --> 03:31.350
นี่คือภาพของสภาพแวดล้อมสุทธิ

03:31.350 --> 03:33.990
ดังนั้นตัวแทนจึงดูสภาพแวดล้อมจริง ๆ

03:33.990 --> 03:39.870
ดังนั้นในกรณีนี้ไม่ใช่ว่าเขาชอบมองจากข้างในนั่นเขาก็ดูเหมือนเป็นอย่างนั้น

03:39.930 --> 03:48.480
สมมติว่าเขาเล่นสิ่งนี้บนคอมพิวเตอร์และเขาสามารถเห็นสภาพแวดล้อมนี้ดังนั้นเขาจึงสามารถเห็นได้ว่าตัวเลขนี้แสดงถึงตัวแทนจริง ๆ

03:48.480 --> 03:54.270
คุณสามารถเห็นทั้งหมดของเขาในไวรัสหรือสิ่งที่มนุษย์จะดูว่าเขาวงกตที่เกิดขึ้นจริงและมนุษย์จะเห็นเขาวงกตจากภายใน

03:54.270 --> 03:56.480
และดังนั้นตัวแทนควรจะสามารถในสิ่งเดียวกัน

03:56.700 --> 04:03.000
ดังนั้นสิ่งที่เขาพูดจะทำผ่านถ้ำแห่งความโกลาหลที่คุณไปคนโง่ดึงขาไปที่นั่นแบนอีกครั้งคุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับส่วนต่าง

04:03.030 --> 04:12.680
ๆ เหล่านี้ของเครือข่ายประสาทเทียมในภาคผนวกแล้วเจ้าหน้าที่บี้

04:12.690 --> 04:31.590
จากนั้นเรามีอินพุตที่เข้าสู่เครือข่ายประสาทและนี่เป็นวิธีที่สมจริงมากขึ้นเนื่องจากเอเจนต์ต้องใช้ไซต์ของพวกเขาและหรือต้องประมวลผลภาพที่สภาพแวดล้อมกำลังส่งมอบให้กับตัวแทนเช่นเดียวกับที่มนุษย์กำลังประมวลผลภาพ

04:31.590 --> 04:37.410
และความงามของสิ่งนี้ไม่เพียงแค่มันสมจริงมากขึ้นและเป็นเหมือนเว้

04:37.410 --> 04:43.280
อายุเป็นจริงมากขึ้นตามที่มนุษย์จะเป็น แต่มันช่วยให้เราสามารถประมวลผลสภาพแวดล้อมที่ซับซ้อนมากขึ้น

04:43.380 --> 04:49.050
ตัวอย่างเช่นนี่คือวิธีที่เราสามารถเล่น

04:49.050 --> 04:55.980
Doom หรือเกมอื่น ๆ

04:56.080 --> 05:02.230
เช่นนั้นเพราะแทนที่จะได้รับข้อมูลเวกเตอร์ที่เหมือนใครบางคนสร้างขึ้นมาเพื่อเราในสภาพแวดล้อมนี้เราสามารถเพียงแค่เชื่อมปัญญาประดิษฐ์เข้ากับสภาพแวดล้อมใด ๆ ของเป็นและ

05:02.430 --> 05:12.450
ในฐานะมนุษย์เมื่อคุณกำลังเล่นเกมนี้คุณสามารถเห็นภาพนี้ได้อย่างชัดเจนและนั่นคือสิ่งที่เครือข่ายประสาทเทียมหรือตัวแทนมองเห็น

05:12.540 --> 05:22.890
ดังนั้นในส่วนนี้ของหลักสูตรเมื่อคุณกำลังตรวจสอบ Tournelles ที่ใช้งานได้จริงตัวแทนจะเห็นภาพที่แน่นอนนี้มันจะเห็นพิกเซลมันจะได้ภาพที่แน่นอนนี้ซึ่งเต็มไปด้วยพิกเซลของบุคคลนี้ที่เราได้ไปแล้ว

05:22.890 --> 05:30.710
เมื่อใช้หน้านี้พร้อมเปอร์เซ็นต์นี้กับทุกสิ่งที่เราเห็นตรงนี้นั่นคือสิ่งที่ตัวแทนเห็น

05:30.870 --> 05:37.470
จากนั้นมันก็จะต้องผ่าออกมาโดยการดึงขุนอ้วนและจากนั้นมันก็จะเข้าสู่โครงข่ายประสาท

05:37.650 --> 05:42.780
และไม่จำเป็นต้องบอกว่าเครือข่ายประสาทมีความซับซ้อนมากกว่านั้นจริง ๆ ดังนั้นลองเปลี่ยนมันเป็นแบบนี้

05:42.780 --> 05:44.480
มันไม่ซับซ้อนกว่านี้อีกแล้ว

05:44.520 --> 05:54.140
มันดูซับซ้อนกว่านี้เล็กน้อย แต่ในความเป็นจริงแล้วโครงข่ายประสาทจะทำงานและสร้างถ้าคุณจะน่าสนใจและมีความซับซ้อนมากกว่านี้

05:54.150 --> 06:04.380
แต่อย่างที่คุณเห็นอยู่แล้วที่นี่แม้ว่าคุณจะมีเพียงห้าอินพุตและการเรียงลำดับของสองสิ่งกลายเป็นสิ่งที่ซับซ้อนมากขึ้นและที่นี่คุณจะเห็นว่าเรามีการกระทำอีกมากมายที่เอเจนต์สามารถทำได้

06:04.380 --> 06:10.850
ดังนั้นในเกมแห่งความพินาศเลี้ยวซ้ายและขวามองลงมาเงยหน้าขึ้นมองยิงของรอน

06:10.890 --> 06:16.290
หรือคุณรู้ว่าการกระทำที่แตกต่างเหล่านั้นที่เป็นไปได้ในคนแรกที่ควรจะชอบทำ

06:16.290 --> 06:19.430
และยิ่งกว่านั้นไม่จำเป็นต้องเป็นอย่างที่คุณสามารถทำได้

06:19.430 --> 06:23.190
คุณสามารถสัมผัสตัวแทนนี้กับเกมประเภทอื่น

06:23.190 --> 06:29.940
นั่นคือความสวยงามของมันที่รู้แล้วว่าตอนนี้มันสามารถใช้งานสภาพแวดล้อมใด

06:29.940 --> 06:39.940
ๆ ที่คุณแนบไว้เพราะตราบใดที่มีภาพที่เป็นตัวแทนของสภาพแวดล้อมของสภาพแวดล้อมนั้นมันมีโครงสร้างพื้นฐานทั้งหมดแล้วโครงสร้างทั้งหมดพร้อมที่จะดำเนินการ ที่.

06:39.960 --> 06:43.980
นั่นคือสิ่งที่การเรียนรู้ CULE เชิงลึกเป็นเรื่องเกี่ยวกับ

06:43.980 --> 06:51.120
ดังนั้นเราจึงนำมันไปสู่ขั้นตอนต่อไปที่เราเพิ่ม convolutions

06:51.120 --> 07:01.260
ลงใน Lares convolutional หรือในตัวแทนของเราตอนนี้และเราจะทำให้มันซับซ้อนยิ่งขึ้นและดังนั้นเราจึงสามารถเบื่อกับความสามารถในการแก้ปัญหาที่ซับซ้อนมากขึ้น ความท้าทาย

07:01.410 --> 07:10.460
ดังนั้นฉันหวังว่าคุณจะตื่นเต้นมากเกี่ยวกับสิ่งนี้จะอยู่ในหมวดมหากาพย์และเราจะสร้างสิ่งที่น่าอัศจรรย์และฉันแทบรอไม่ไหวที่จะพบคุณในบทต่อไป

07:10.480 --> 07:12.130
และจนกว่าจะสนุกกับ AI
