WEBVTT

00:00.300 --> 00:02.280
Xin chào và chào mừng đến với hướng dẫn này.

00:02.310 --> 00:04.500
Được rồi, bây giờ chúng ta có mắt của mình.

00:04.530 --> 00:06.090
Nó đã sẵn sàng để được đào tạo.

00:06.090 --> 00:09.610
Và bước đầu tiên của quá trình đào tạo là thiết lập chơi lại trải nghiệm.

00:09.630 --> 00:11.220
Vì vậy, chúng tôi đang dần đến đó.

00:11.220 --> 00:16.580
Khóa đào tạo và tin tốt là chúng tôi có một phiên bản phát lại trải nghiệm được triển khai.

00:16.590 --> 00:23.430
Bên cạnh đó, nó được điều chỉnh để theo dõi tính đủ điều kiện, mà tôi nhắc nhở là một kỹ thuật mà thay vì học các giá trị

00:23.430 --> 00:27.060
gợi ý, mỗi lần chuyển đổi sẽ học nó, cứ mỗi 10 lần chuyển đổi.

00:27.060 --> 00:29.340
Vì vậy, về cơ bản đó là hoàn toàn giống như trước đây.

00:29.340 --> 00:34.740
Nhưng thay vì có một mục tiêu duy nhất, một phần thưởng duy nhất cho mỗi bước, chúng ta sẽ có một

00:34.740 --> 00:40.710
mục tiêu tích lũy trên mười bước và phần thưởng tích lũy trên mười bước, và chúng ta sẽ học trên mười bước mỗi lần.

00:40.710 --> 00:44.900
Vì vậy, chúng ta đang học về mười chuyển đổi, mười bước thay vì một như trước đây.

00:44.910 --> 00:50.250
Và với điều này mắt của chúng ta sẽ hoạt động kỳ diệu và điều đó sẽ tạo nên một số điều kỳ diệu cho quá trình luyện tập.

00:50.250 --> 00:53.730
Bạn biết đấy, việc đào tạo sẽ mất ít thời gian hơn rất nhiều nhờ vào kỹ thuật này.

00:53.730 --> 00:58.740
Nhưng chúng ta phải chỉ định một kinh nghiệm, hãy phát lại mà chúng ta đang học sau mỗi mười bước.

00:58.740 --> 01:04.710
Vì vậy, đó là lý do tại sao việc phát lại trải nghiệm này không phải là cách triển khai cổ điển của việc phát lại trải nghiệm như cách

01:04.710 --> 01:06.000
chơi dành cho xe tự lái.

01:06.030 --> 01:12.390
Đây là một triển khai phát lại trải nghiệm có tính đến việc học mười bước này và do đó bạn sẽ

01:12.390 --> 01:18.810
tìm thấy trong tệp phát lại trải nghiệm này hai lớp, một lớp giúp mắt bạn tiến bộ trong mười bước để nó

01:18.810 --> 01:23.220
có thể tổng hợp các phần thưởng quan sát được trên mười bước này.

01:23.220 --> 01:24.390
Đó là lớp học đầu tiên.

01:24.390 --> 01:29.490
Và chúng ta cần lớp này vì chúng ta cần bao gồm mười bước này trong lớp bộ nhớ phát lại, là lớp mà

01:29.490 --> 01:31.560
chúng ta triển khai để phát lại trải nghiệm.

01:31.560 --> 01:36.960
Và đó là cách chúng tôi đảm bảo rằng bộ nhớ cũng tính đến thực tế là chúng tôi đang học

01:36.960 --> 01:37.770
trên mười bước.

01:37.770 --> 01:41.610
Vì vậy, đó là lý do tại sao bạn sẽ tìm thấy hai lớp trong việc triển khai phát lại trải nghiệm này.

01:41.610 --> 01:47.130
Nhưng đó chỉ là tính đến việc chúng ta đang học trên mười bước, và điều đó cũng phải được

01:47.130 --> 01:48.870
tính đến trong bộ nhớ.

01:49.140 --> 01:51.780
Vì vậy, nói về trí nhớ của chúng ta, hãy tạo ra nó.

01:51.780 --> 01:54.600
Chúng ta sẽ gọi bộ nhớ của chúng ta.

01:55.140 --> 02:00.270
Và như vậy bộ nhớ sẽ là một đối tượng của lớp bộ nhớ phát lại.

02:00.270 --> 02:04.740
Và lớp bộ nhớ phát lại là một lớp của tệp P phát lại trải nghiệm này.

02:04.740 --> 02:08.880
Và vì vậy, trước tiên tôi sẽ thực hiện lần phát lại tệp có kinh nghiệm này.

02:10.100 --> 02:10.370
Sau đó.

02:10.370 --> 02:15.770
Dutt Và đó là nơi tôi học lớp bộ nhớ phát lại.

02:15.770 --> 02:16.610
Hoàn hảo.

02:16.610 --> 02:19.720
Và bây giờ, như bạn thấy, chúng ta có hai đầu vào, hai đối số.

02:19.730 --> 02:25.580
Đối số đầu tiên là và các bước tương ứng chính xác với số bước mà chúng ta sẽ tìm

02:25.580 --> 02:27.320
hiểu các giá trị Q.

02:27.320 --> 02:31.910
Vì vậy, bạn biết đấy, số bước mà chúng tôi tích lũy mục tiêu và phần thưởng.

02:31.910 --> 02:35.630
Vì vậy, chúng ta sẽ có một mục tiêu tích lũy và phần thưởng tích lũy.

02:35.630 --> 02:39.620
Và đối số thứ hai là dung lượng là kích thước của bộ nhớ.

02:39.620 --> 02:42.560
Ví dụ, ở đây chúng ta có thể thấy 10.000.

02:42.560 --> 02:47.600
Vì vậy, nếu dung lượng bằng 10.000, điều đó có nghĩa là bộ nhớ sẽ có kích thước 10.000.

02:47.600 --> 02:54.140
Và do đó, điều đó có nghĩa là chúng ta sẽ nhận được bộ nhớ ít hơn 10.000 bước được thực hiện bởi AI.

02:54.170 --> 02:57.170
Nhưng một lần nữa, chúng ta sẽ không tìm hiểu mọi quá trình chuyển đổi.

02:57.170 --> 03:01.700
Chúng ta sẽ học mười bước một trong số 10.000 bước cuối cùng của bộ nhớ.

03:01.700 --> 03:05.960
Và đó chính xác là tính năng mới này mà chúng tôi giới thiệu ở đây so với trước đây.

03:05.960 --> 03:08.990
Trước đây, chúng tôi chỉ có thủ thuật bộ nhớ phát lại này.

03:08.990 --> 03:13.940
Và ở đây chúng tôi có thủ thuật ghi nhớ phát lại này, cùng với mẹo học mười bước một lần này.

03:13.940 --> 03:18.710
Và chúng ta sẽ học mười bước một lần và chúng ta sẽ làm điều đó trong bộ nhớ bao

03:18.710 --> 03:19.940
gồm 10.000 bước cuối cùng.

03:19.940 --> 03:27.290
Và điều này được thực hiện lại theo kinh nghiệm kết hợp với một dấu vết đủ điều kiện với mười bước sẽ cải thiện

03:27.290 --> 03:29.090
đáng kể hiệu suất đào tạo.

03:29.240 --> 03:31.040
Vì vậy, hãy nhập hai đối số này.

03:31.040 --> 03:38.540
Bước đầu tiên là một bước và nó sẽ bằng với những gì hiện tại, giả sử và các bước.

03:38.540 --> 03:44.810
Chúng tôi sẽ chỉ định bước nào và bước nào ngay sau đó nó thực sự sẽ là một đối tượng của lớp

03:44.810 --> 03:50.960
khác của tệp phát lại trải nghiệm này, là lớp Tiến trình Bước MN và cho phép thực hiện tiến trình AI

03:50.960 --> 03:52.070
trong mười bước.

03:52.070 --> 03:57.920
Và hãy nhớ rằng, trong mười bước, chúng tôi sẽ tổng hợp phần thưởng dưới mười bước để nhận phần thưởng tích

03:57.920 --> 04:01.970
lũy trong mười bước và đó chính xác là dấu vết đủ điều kiện.

04:01.970 --> 04:08.930
Vì vậy, bây giờ những gì chúng ta phải làm là tạo cái này và các bước ở đây và chúng ta tạo nó bằng lớp thứ hai mà

04:08.930 --> 04:12.830
chúng ta có trong tệp phát lại trải nghiệm này, đang trong quá trình thực hiện.

04:12.830 --> 04:15.050
Vì vậy, bây giờ chúng ta sẽ tạo các bước kết thúc.

04:16.170 --> 04:16.980
Như thế này.

04:17.220 --> 04:28.200
Và đây sẽ là một đối tượng của lớp MN Step Progress mà chúng tôi lấy lại từ kinh nghiệm của mình.

04:28.620 --> 04:30.450
Phát lại tệp.

04:30.720 --> 04:31.570
Chúng ta bắt đầu.

04:31.590 --> 04:32.570
Vậy là xong bước cuối cùng.

04:32.580 --> 04:33.480
Tiến trình lớp học.

04:33.480 --> 04:35.490
Và bây giờ chúng ta phải nhập ba đối số.

04:35.520 --> 04:40.920
Như bạn có thể thấy, chúng tôi phải nhập môi trường, đó là môi trường diệt vong ở đây mà chúng tôi đã nhập.

04:40.950 --> 04:47.520
Sau đó, đối số thứ hai là AI của chúng tôi và đây tất nhiên sẽ là AI mà chúng tôi đã xây dựng ngay tại đây

04:47.520 --> 04:48.600
trong phần xem trước.

04:48.840 --> 04:51.270
Và đối số cuối cùng là bước kết thúc.

04:51.270 --> 04:57.060
Và đây, đó là nơi chúng tôi sẽ chỉ định rằng chúng tôi muốn có mười bước, bạn biết đấy, để học mỗi mười bước.

04:57.060 --> 04:58.740
Tức là cứ mười lần chuyển đổi.

04:58.950 --> 05:01.050
Vì vậy, hãy nhập các đối số này.

05:01.050 --> 05:04.230
Điều đầu tiên là môi trường, và đó là sự diệt vong.

05:04.740 --> 05:11.590
Và được rồi, cái thứ hai là AI của chúng tôi và chúng tôi gọi nó là AI.

05:11.610 --> 05:12.620
Đó là một trong những ở đây.

05:12.630 --> 05:16.530
Vì vậy, đây chỉ là tên của đối số của lớp tiến trình bước cuối.

05:16.530 --> 05:20.850
Và AI này ở đây là AI của chúng tôi, AI mà chúng tôi đã xây dựng.

05:21.060 --> 05:26.610
Và sau đó đối số cuối cùng là bước kết thúc, và đó là bằng mười.

05:27.000 --> 05:27.690
Được rồi.

05:27.690 --> 05:33.270
Vì vậy, ngay bây giờ, chúng tôi chỉ ghi nhớ trong ký ức rằng có một sự học hỏi về mười bước.

05:33.270 --> 05:36.780
Và việc học qua mười bước này được gọi là theo dõi tính đủ điều kiện.

05:36.960 --> 05:39.450
Vì vậy, chúng tôi thực sự đang nghiên cứu những thứ nâng cao ở đây.

05:39.450 --> 05:44.060
Nhưng hãy nhớ rằng vì chúng ta đang cố gắng trở nên ngu ngốc, điều đó chẳng khác gì làm một miếng bánh.

05:44.070 --> 05:47.310
Vì vậy, chúng tôi cần những kỹ thuật tiên tiến này để làm cho nó hoạt động.

05:47.430 --> 05:53.370
Vì vậy, bây giờ chúng ta gần như đã sẵn sàng trước khi chuyển sang bước tiếp theo, thực sự sẽ là về việc triển khai theo

05:53.370 --> 05:54.610
dõi tính đủ điều kiện.

05:54.630 --> 06:01.590
Điều duy nhất mà chúng ta phải bao gồm tất nhiên là dung lượng, và đó là 10.000.

06:01.980 --> 06:09.210
Bộ nhớ sẽ có kích thước 10.000, có nghĩa là bộ nhớ sẽ chứa 10.000 bước cuối cùng được thực hiện bởi AI

06:09.210 --> 06:13.740
và điều đó sẽ cho phép chúng tôi tạo một số lô nhỏ.

06:13.740 --> 06:19.470
Như bạn nhớ, với hàm mẫu, bạn biết đấy, bộ nhớ chứa 10.000 chuyển đổi, nhưng để đào tạo

06:19.470 --> 06:25.560
AI, chúng tôi sẽ lấy mẫu một số lô nhỏ gồm mười chuyển đổi, không phải một so với trước mười

06:25.590 --> 06:27.000
chuyển đổi lần này.

06:27.000 --> 06:32.790
Và chúng tôi sẽ lấy mẫu các lô nhỏ gồm mười quá trình chuyển đổi trong bộ nhớ bao gồm 10.000 bước cuối cùng.

06:33.300 --> 06:33.720
Được rồi.

06:33.720 --> 06:38.730
Vì vậy, bây giờ tôi đoán chúng ta đã sẵn sàng chuyển sang bước tiếp theo, đó là về việc triển khai theo dõi tính đủ

06:38.730 --> 06:39.330
điều kiện.

06:39.330 --> 06:41.490
Vì vậy, chúng ta sẽ có một số cuộc phiêu lưu ở đây.

06:41.490 --> 06:43.560
Đây sẽ không phải là một thực hiện đơn giản.

06:43.560 --> 06:45.090
Vì vậy, có một thời gian nghỉ ngơi tốt.

06:45.090 --> 06:47.580
Và khi bạn đã sẵn sàng, chúng tôi có thể tấn công điều này.

06:47.700 --> 06:48.860
Cho đến lúc đó, hãy tận hưởng.

06:48.870 --> 06:49.260
TÔI.