WEBVTT

00:00.450 --> 00:02.670
สวัสดีและยินดีต้อนรับสู่รูปแบบนี้มันเป็นเรื่องสยองขวัญ

00:02.850 --> 00:06.890
เอาล่ะเราเพิ่งอัพเดทหน่วยความจำหลังจากถึงสถานะใหม่

00:06.900 --> 00:09.010
และตอนนี้เรามาดูแลในวันถัดไป

00:09.330 --> 00:12.810
ตามที่คุณพูดตอนนี้สิ่งที่จะเป็นปรับปรุงต่อไป

00:12.810 --> 00:20.960
โดยพื้นฐานแล้วเราทำการเปลี่ยนแปลงหนึ่งครั้งเราได้ลงวันที่องค์ประกอบสุดท้ายของการเปลี่ยนแปลงซึ่งเป็นสถานะใหม่

00:21.150 --> 00:23.340
ตอนนี้มันเหมือนว่าเรากำลังเริ่มต้นใหม่อีกครั้ง

00:23.520 --> 00:25.530
และเมื่อเราเริ่มต้นใหม่อีกครั้ง

00:25.650 --> 00:31.320
มันเหมือนกับที่คุณรู้ว่าเราอยู่ในสภาพแวดล้อมใหม่นี้และดังนั้นสิ่งที่เราต้องทำตอนนี้เป็นธรรมชาติ

00:31.500 --> 00:37.170
แน่นอนว่ามันเป็นการเล่นเพราะเราได้สังเกตการณ์ข่าวแล้ว

00:37.410 --> 00:46.960
ตอนนี้สิ่งที่เราต้องทำคือเล่นแอคชั่นและสิ่งที่เราต้องทำตอนนี้แน่นอนว่าใช้ฟังก์ชั่นการเลือกเพื่อเล่นแอ็คชั่น

00:47.010 --> 00:55.240
ลองสร้างแอคชั่น Voivode ใหม่กันเถอะเล่นแอคชั่นที่เลือกไว้

00:55.380 --> 01:04.300
ด้วยตนเองก่อนเพื่อระบุว่าฟังก์ชั่นการกระทำที่เลือกเป็นวิธีการของวัตถุของชั้นเรียนที่จะถูกสร้างขึ้น

01:04.470 --> 01:08.610
ดังนั้นตัวเองที่เลือกการกระทำ

01:08.640 --> 01:09.520
ไปเลย.

01:09.560 --> 01:11.090
นั่นคือการกระทำต่อไป

01:11.310 --> 01:25.220
และแน่นอนว่าเนื่องจากฟังก์ชั่นการกระทำที่เลือกใช้สถานะเป็นอินพุตเพราะแน่นอนว่าฟังก์ชั่นการดำเนินการเลือกจะส่งกลับผลลัพธ์ของเครือข่ายประสาท

01:25.500 --> 01:40.070
ดังนั้นเราต้องป้อนข้อมูลในขั้นตอนการป้อนข้อมูลที่นี่และเนื่องจากเป็นสถานะที่เราเพิ่งมาถึงในสภาพแวดล้อมในขณะนี้ที่รัฐอินพุตเป็นของรัฐที่คุณแน่นอนเพราะรัฐที่เราเพิ่งมาถึงในเวลาที่เราตอนนี้คือ Newstead

01:40.290 --> 01:45.140
ดังนั้นในฟังก์ชั่นการกระทำที่เลือกฉันหมายถึงการวางแท่งไม้ใหม่

01:45.150 --> 01:51.710
เอาล่ะด้วยรหัสบรรทัดนี้เราเพียงแค่เล่นแอ็คชั่นใหม่หลังจากถึงสถานะใหม่

01:52.140 --> 01:58.780
ตกลงและตอนนี้เราเล่นการกระทำได้ดีเราได้รับรางวัลดังนั้นเราจึงได้รับผลตอบรับกับรางวัล

01:59.010 --> 02:04.550
และถ้าเรามีองค์ประกอบในหน่วยความจำมากกว่า 100 รายการมันคงถึงเวลาเรียนแล้ว

02:04.860 --> 02:10.830
ดังนั้นสิ่งที่เราต้องทำตอนนี้คือสิ่งที่มีเหตุผลหลังจากเลือกการกระทำซึ่งแน่นอนว่าเพื่อลดค่า AI

02:10.830 --> 02:13.830
ต้องเริ่มเรียนรู้

02:13.950 --> 02:15.620
ถ้ามันทำสิ่งที่ถูกต้อง

02:15.870 --> 02:23.940
และตอนนี้เนื่องจากมันเพิ่งเล่นได้ดีเราจะทำให้ AI เรียนรู้จากการกระทำใน 100 เหตุการณ์ล่าสุด

02:24.130 --> 02:31.320
แต่ก่อนที่เราจะใช้ฟังก์ชั่นที่เรียนรู้นี้เราต้องทำเงื่อนไขนี้เพื่อให้แน่ใจว่าเราได้มาถึงกว่า 100

02:31.320 --> 02:37.380
เหตุการณ์แล้วเพราะคุณรู้ว่าเรากำลังเรียนรู้จากตัวอย่างสุ่มของหน่วยความจำ

02:37.530 --> 02:41.110
คุณรู้ไหมว่าเรามีหน่วยความจำขนาดใหญ่ 10,000 ชิ้น

02:41.190 --> 02:48.930
เราทำการสุ่มตัวอย่างหน่วยความจำ 100 ชิ้นและ AI กำลังเรียนรู้จากข้อมูลที่มีอยู่ในตัวอย่างการเปลี่ยนสุ่ม

02:48.990 --> 02:52.850
100 ครั้ง

02:52.860 --> 03:12.380
งั้นลองทำสิ่งนี้ถ้าเงื่อนไขเพื่อให้แน่ใจว่าจำนวนองค์ประกอบของหน่วยความจำของหน่วยความจำนั้นแล้วระวังเพียงเล็กน้อยที่นี่ความจำที่สอนด้วยตนเองคือวัตถุของคลาสหน่วยความจำของคุณ คุณลักษณะซึ่งเป็นหน่วยความจำ

03:12.510 --> 03:28.170
ดังนั้นในความเป็นจริงเราจำเป็นต้องใช้หน่วยความจำบางส่วนที่หน่วยความจำหน่วยความจำแรกเป็นวัตถุของคลาสหน่วยความจำเล่นซ้ำและหน่วยความจำที่สองคือคุณลักษณะที่นี่ตัวเองว่าหน่วยความจำ

03:28.200 --> 03:38.800
ดังนั้นหากจำนวนองค์ประกอบในหน่วยความจำดีเราต้องการให้มันมีค่ามากกว่า 100 ดังนั้น Cullin แล้วจะเกิดอะไรขึ้น

03:38.970 --> 03:46.320
ทีนี้เราสามารถเรียนรู้ได้ แต่สำหรับการเรียนรู้เราต้องได้ตัวอย่างสุ่ม 100

03:46.320 --> 03:48.840
ช่วงการเปลี่ยนภาพและเราสามารถใช้ฟังก์ชันง่าย

03:48.840 --> 03:55.140
และเนื่องจากฟังก์ชั่นอย่างง่ายส่งกลับแบทช์ที่แตกต่างกันไปยังสถานะ ณ เวลาที่ข้อมูลนี้ 20 บวกหนึ่งการกระทำของเวลา t

03:55.290 --> 03:57.950
และเราอยู่ที่ 20

03:58.200 --> 04:16.030
สิ่งที่เราต้องทำตอนนี้คือสร้างการฟื้นฟูใหม่ซึ่งจะเป็นแบทช์ของรัฐในเวลานั้นแบทช์ของวันที่ถัดไปแบทช์ของคำและแบทช์ของการกระทำ ตามที่เราได้ให้ข้อโต้แย้งที่นี่และพวกเขาอยู่ที่นี่

04:16.200 --> 04:28.320
และตัวแปรเหล่านี้จะเท่ากับสิ่งที่ฟังก์ชั่นที่เรียบง่ายกลับมาเพราะมันจะส่งกลับชุดงานเหล่านี้อย่างแน่นอนและรัฐต่อไปใช้คำและการกระทำ

04:28.320 --> 04:40.300
ดังนั้นสิ่งที่เราต้องทำตอนนี้คือรับวัตถุหน่วยความจำก่อนแล้วจากวัตถุหน่วยความจำนี้เราจะใช้วิธีการง่ายๆซึ่งจะใช้เป็นอินพุต

04:40.500 --> 04:46.370
จำนวนช่วงการเปลี่ยนภาพที่เราต้องการให้ AI ของเราเรียนรู้จากสิ่งนั้นคือ 100

04:46.620 --> 04:50.540
นั่นเป็นเหตุผลที่เราตรวจสอบให้แน่ใจว่าเรามีการเปลี่ยนมากกว่าหนึ่งร้อยครั้ง

04:50.610 --> 04:54.780
มันจะเรียนรู้จากการเปลี่ยนหน่วยความจำ 100 ครั้ง

04:54.840 --> 04:56.500
ดังนั้นการเรียนรู้จะดีขึ้นมาก

04:56.610 --> 04:59.560
ตอนนี้เรามาทำให้สิ่งนี้เกิดขึ้นจริง

04:59.700 --> 05:04.560
เนื่องจากวิธีการเรียนรู้เป็นวิธีการของเราในชั้นเรียน

05:04.830 --> 05:14.300
เราจำเป็นต้องเข้าถึงวิธีการเรียนรู้นี้จากวัตถุในอนาคตที่จะถูกสร้างขึ้นจากชั้นเรียนที่แตกต่างกันและดังนั้นสิ่งที่เราต้องใช้คือตัวเอง

05:14.430 --> 05:30.530
ตนเองหมายถึงจุดประสงค์ที่จะทำในระหว่างเรียนและจากนั้นเรียนรู้วิธีการเรียนรู้วิธีการเรียนรู้ซึ่งเมื่อใส่แน่นอนคนเหล่านี้ที่นี่รัฐที่ไม่ดีรัฐเบลเยียมโลกธรรมชาติและการกระทำ Bachche

05:30.630 --> 05:38.730
เหล่านี้คือแบทช์ของเราเก็บตัวอย่างจากความทรงจำของเราและเราได้ 100 อันเพราะเรามีการเปลี่ยน 100 ครั้งจากการเปลี่ยน 100

05:39.330 --> 05:47.750
ครั้งนี้เราใช้ 100 สถานะ 100 สถานะถัดไป 100 รางวัลและการกระทำ

05:47.780 --> 05:51.530
100 ครั้งเรามาที่นี่แล้ว

05:51.850 --> 05:54.490
มันจะเกิดขึ้นจากชุดสุ่มเหล่านี้ทั้งหมด

05:54.520 --> 05:55.850
สมบูรณ์

05:55.960 --> 06:04.140
และตอนนี้สิ่งที่เราต้องทำคือการอัปเดตครั้งล่าสุดหลังจากที่คุณรู้ถึงสถานะใหม่และเล่นจริง

06:04.330 --> 06:08.890
เราให้คุณเล่นจริง แต่เราก็ยังไม่มีปฏิกิริยา

06:08.920 --> 06:11.590
นั่นคือตัวเราเองที่กระทำ voivode สุดท้าย

06:11.770 --> 06:13.730
ดังนั้นขอให้แน่ใจว่าเราจะไม่ลืมสิ่งนี้

06:13.780 --> 06:15.160
มาทำกันตอนนี้

06:15.190 --> 06:27.020
เราจะอัปเดตตัวเองของการกระทำล่าสุดที่การกระทำครั้งสุดท้ายเท่ากับและแน่นอนการกระทำที่เราเพิ่งอยู่ที่นี่ด้วยฟังก์ชั่นการกระทำที่เลือกนี้

06:27.020 --> 06:30.520
ตอนนี้ส่วนสุดท้ายก็อัพเดทแล้ว

06:30.520 --> 06:31.890
เหมือนกันสำหรับสถานะใหม่

06:31.930 --> 06:40.590
เรามาถึงสถานะใหม่แล้ว แต่เรายังไม่ได้อัปเดตวันที่ล่าสุดเนื่องจากแน่นอนว่าสถานะล่าสุดนั้นอยู่ก่อนรัฐในเวลา t

06:40.750 --> 06:44.870
แต่ตั้งแต่ตอนนี้เรามาถึงสถานะใหม่ที่เกินดุลเมื่อถึงเวลาผ่าน

06:45.070 --> 06:48.180
สุดท้ายมันก็กลายเป็นสิ่งที่คุณพูดที่นี่

06:48.190 --> 06:50.290
ดังนั้นเราต้องมีการปรับปรุง

06:50.290 --> 06:57.070
ตนเองว่าสถานะสุดท้ายเท่ากับรัฐใหม่ของเรา

06:57.280 --> 06:58.020
เราจะไปที่นั่น.

06:58.210 --> 06:59.620
และตอนนี้สิ่งที่เราต้องการวันที่

06:59.830 --> 07:01.640
เหลืออีกสิ่งเดียวเท่านั้น

07:01.660 --> 07:08.070
แน่นอนว่าคำและคำนั้นเป็นคำที่เราได้รับในความเป็นจริง

07:08.290 --> 07:17.160
นั่นจะเป็นอาร์กิวเมนต์ของฟังก์ชันนี้ซึ่งถ้าเราทำการเชื่อมต่อกับแผนที่ของเราจะเป็นคำสุดท้าย

07:17.200 --> 07:23.250
นั่นคือคำที่เราได้รับหลังจากเล่นการกระทำในรัฐใหม่นี้ถึง

07:23.470 --> 07:35.580
ดังนั้นถ้าเราไปฟังเสียงคำสุดท้ายนี้จะเป็นลบหนึ่งถ้าเราไปไกลกว่าจากไปเราจะได้คำที่ไม่ดีลบ 0

07:35.580 --> 07:35.580
2 ถ้าเราเข้าใกล้เป้าหมายมากขึ้น

07:35.660 --> 07:38.680
เราจะได้รับรางวัลที่ดีเล็กน้อย 0 1

07:38.830 --> 07:43.370
และถ้าเราเข้าใกล้ขอบแผนที่ดีเกินไปนั่นจะเป็นการลงโทษ

07:43.510 --> 07:45.330
เราจะได้หนึ่งลบสำหรับแต่ละอัน

07:45.440 --> 07:47.110
นั่นคือคำสุดท้ายที่เราได้รับ

07:47.110 --> 07:50.700
ในความเป็นจริงนั่นคือเมื่อสิ่งนั้นเกิดขึ้นจริงบนแผนที่

07:50.830 --> 07:53.550
และนี่จะเป็นอาร์กิวเมนต์ของฟังก์ชัน

07:53.600 --> 07:54.690
คำสุดท้ายที่นี่

07:54.700 --> 07:56.200
นั่นคือสิ่งนี้

07:56.250 --> 08:20.570
และเนื่องจากนี่คืออาร์กิวเมนต์ของฟังก์ชั่นอัพเดทที่สอดคล้องกับสิ่งนี้เราไม่ได้อยู่ที่นี่ดังนั้นตัวเราเองที่ตัวแปรคำสุดท้ายที่เริ่มต้นที่จุดเริ่มต้นในฟังก์ชั่นนี้กลายเป็นคำใหม่ที่เราได้รับ คำสุดท้ายเดียวกัน

08:20.730 --> 08:21.360
เอาล่ะ

08:21.410 --> 08:23.680
ตอนนี้เราปรับปรุงคำสุดท้ายของเรา

08:23.990 --> 08:27.240
และตอนนี้เนื่องจากเราเพิ่งได้คำสุดท้าย

08:27.500 --> 08:29.470
ทีนี้เราสามารถเดทกับโลกใบนี้ได้แล้ว

08:29.850 --> 08:37.140
คุณจำสงครามเมื่อพวกเราเริ่มต้นที่นี่เป็นหนึ่งในตัวแปรของวัตถุในชั้นเรียนของเรา

08:37.190 --> 08:44.270
นั่นคือหน้าต่างที่จะติดตามว่ารถไฟขบวนนี้ดำเนินไปอย่างไรโดยรับค่าเฉลี่ยของ 100 รางวัลล่าสุด

08:44.300 --> 08:50.180
ดังนั้นคุณจะรู้ว่ามันเป็นเหมือนหน้าต่างบานเลื่อนที่แสดงให้เราเห็นว่าค่าเฉลี่ยของโลกกำลังพัฒนา

08:50.180 --> 08:52.730
และเนื่องจากเราเพิ่งได้คำสุดท้าย

08:52.910 --> 08:56.910
ทีนี้เราสามารถอัพเดทหน้าต่างของเราให้เป็นปัจจุบันได้อย่างไร

08:57.080 --> 09:12.350
ทีนี้เราก็ต้องต่อท้ายคำสุดท้ายนี้ไปที่หน้าต่างและสิ่งที่ฉันจะทำคือเอาตัวเองไปที่หน้าต่างสงครามของฉันที่เราพูดเมื่อพวกเขาได้ยินสิ่งนี้และฉันจะใช้ฟังก์ชั่นผนวก

09:12.530 --> 09:21.480
และภายในฟังก์ชั่นเปิดเราต้องใส่องค์ประกอบที่เราต้องการผนวกเข้ากับเราเมื่อเราทำอย่างนั้น

09:21.500 --> 09:22.610
ถูกต้องสมบูรณ์แบบ

09:22.610 --> 09:35.300
และเนื่องจากหน้าต่างสงครามนี้จะมีขนาดคงที่คุณรู้ว่ามันไม่ใช่หน้าต่างที่กำลังเติบโตมันจะเป็นหน้าต่างขนาดคงที่เลื่อนไปตามเวลาเพื่อแสดงวิวัฒนาการของโลก

09:35.500 --> 09:38.590
ดังนั้นตอนนี้เราต้องตัดสินใจขนาดของฤดูหนาวนี้

09:38.750 --> 09:43.600
และมันก็แค่จำนวนของรางวัลที่เราจะได้รับในหน้าต่างนี้

09:43.900 --> 09:49.330
ตัวอย่างเช่นลองทำความเข้าใจให้คุณรู้ 1,000 ตัวสุดท้ายของ 100 คำ

09:49.340 --> 10:05.810
เพื่อให้แน่ใจว่ามันจะเพิ่มถ้าเราวางแผนแล้วเราจะเอาหน้าต่างการทำงานของเราและเราเพิ่มที่นี่ถ้าจำนวนองค์ประกอบในหน้าต่างมีขนาดใหญ่กว่า 1,000

10:05.990 --> 10:19.070
สิ่งที่เราต้องการทำคือลบองค์ประกอบแรกของสิ่งนี้ที่หน้าต่างของเราและองค์ประกอบแรกของหน้าต่างนี้มีดัชนีศูนย์

10:19.150 --> 10:19.550
เอาล่ะ

10:19.550 --> 10:24.620
ตอนนี้เราตรวจสอบให้แน่ใจว่าหน้าต่างสงครามนี้จะไม่ได้รับองค์ประกอบมากกว่า 1,000 รายการ

10:24.620 --> 10:34.360
มีหนึ่งพันคำจาก 100 คำสุดท้ายที่สมบูรณ์แบบนี่จะเป็นหน้าต่างขนาดคงที่เพื่อให้เราสามารถดูว่าค่าเฉลี่ยของคำเพิ่มขึ้นหรือไม่

10:34.460 --> 10:39.560
ดังนั้นถ้าการฝึกอบรมเป็นไปด้วยดีศาลก็ทำตามที่เราต้องการ

10:39.800 --> 10:40.760
สมบูรณ์

10:41.000 --> 10:46.010
และตอนนี้สิ่งเล็ก ๆ น้อย ๆ ที่เหลืออยู่ตามที่คุณจะทำคืออะไร

10:46.190 --> 10:52.130
อย่าลืมว่าฟังก์ชั่นอัพเดทนี้ไม่เพียง แต่อัพเดทองค์ประกอบต่าง ๆ

10:52.140 --> 10:57.960
ของการเปลี่ยนแปลงในหน้าต่างสงคราม

10:58.190 --> 11:10.760
นั่นเป็นสาเหตุที่เรามีแล้วการกระทำนั้นเท่ากับทำให้วันนั้นที่เราส่งสัญญาณน้อยลงดังนั้นจึงควรส่งคืนบางสิ่ง

11:10.820 --> 11:20.180
ดังนั้นสิ่งสุดท้ายที่เรียบง่ายที่เราต้องทำที่นี่คือแค่กลับมาดำเนินการแอ็คชั่นที่เพิ่งเล่นเมื่อมาถึงเวทีใหม่

11:20.600 --> 11:23.670
และนั่นคือฟังก์ชั่นการอัพเดทของเราพร้อม

11:23.840 --> 11:29.110
มันจะทำการอัพเดทที่จำเป็นทั้งหมดและมันจะเปลี่ยนการกระทำเมื่อถึงขั้นตอนใหม่

11:29.480 --> 11:30.650
มันสมบูรณ์แบบ

11:30.650 --> 11:35.230
นั่นคือการกระทำที่ยากลำบากครั้งสุดท้ายที่จะทำให้กระบวนการนี้ทั้งหมด

11:35.240 --> 11:37.120
ตอนนี้ส่วนที่เหลือจะเป็นสิ่งที่ดี

11:37.220 --> 11:42.170
เราจะสร้างฟังก์ชั่นหลักเพื่อส่งคืนค่าเฉลี่ยที่เราต้องการในหน้าต่าง

11:42.200 --> 11:48.840
จากนั้นเราจะสร้างฟังก์ชั่นที่ปลอดภัยเพื่อช่วยรักษาสมองของรถเมื่อใดก็ตามที่คุณต้องการออกจากแอปพลิเคชันและกลับไปที่มัน

11:48.890 --> 11:54.730
และแน่นอนว่าคุณต้องการโหลดสมองของรถเมื่อคุณกลับไปที่แอป

11:55.040 --> 12:02.800
เราจะจบลงด้วยการทำฟังก์ชั่นโหลดซึ่งจะโหลดโมเดลของคุณหลังจากคุณบันทึกโมเดลของคุณด้วยฟังก์ชั่นเดียวกัน

12:02.840 --> 12:06.470
ฟังก์ชั่นสามอย่างที่ต้องทำ แต่มันจะง่าย

12:06.500 --> 12:13.840
และจากนั้นเราจะมีส่วนที่น่าตื่นเต้นที่สุดของโมดูลแรกนั่นคือการสาธิตที่เราจะดูว่าอากาศทำงานหรือไม่

12:13.850 --> 12:21.980
เราจะดูว่ารถไปถึงเป้าหมายได้หรือไม่และเราจะดูว่าเราสามารถปรับปรุงได้อย่างไรและในที่สุดคุณจะต้องสร้าง AI เครื่องแรกของคุณ

12:22.160 --> 12:24.010
ดังนั้นฉันไม่สามารถรอที่จะเริ่มต้นการสาธิต

12:24.140 --> 12:27.580
ลองทำฟังก์ชั่นทั้งสามนี้ก่อนแล้วจึงค่อย I
