WEBVTT

00:00.780 --> 00:03.990
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:04.020 --> 00:04.380
Được rồi.

00:04.380 --> 00:06.960
Vì vậy, tôi hy vọng bạn sẽ thích các hướng dẫn cho đến nay.

00:06.960 --> 00:08.460
Chúng tôi gần như hoàn thành với trực giác.

00:08.460 --> 00:09.000
Bạn sẽ sớm.

00:09.000 --> 00:09.340
Rất sớm.

00:09.360 --> 00:10.470
Nhìn vào khía cạnh thực tế của mọi thứ.

00:10.470 --> 00:13.290
Chúng tôi chỉ có một vài điều nhỏ cần phải che đậy.

00:13.290 --> 00:20.220
Được rồi, trước đây chúng ta đã nói về cách chúng ta thêm mạng nơ-ron vào toàn bộ phương trình học chính này

00:20.310 --> 00:25.140
và đưa việc học của bạn sang bước tiếp theo và biến nó thành học sâu.

00:25.380 --> 00:32.880
Và hôm nay chúng ta sẽ thêm một tính năng quan trọng bổ sung, mà bạn sẽ viết mã trong khía cạnh thực tế của mọi

00:32.880 --> 00:33.330
thứ.

00:33.330 --> 00:39.450
Vì vậy, Hudlin và tôi quyết định rằng điều quan trọng là chúng ta phải che đậy nó trong khía cạnh trực giác của mọi thứ để bạn chuẩn bị tốt

00:39.450 --> 00:42.120
hơn cho nó khi nói đến khía cạnh mã hóa của mọi thứ.

00:42.120 --> 00:46.410
Vì vậy, như chúng ta đã thảo luận, chúng ta đã có mạng ở đó.

00:46.410 --> 00:47.880
Có hai phần xảy ra.

00:47.880 --> 00:49.080
Trước hết, đó là sự học hỏi.

00:49.080 --> 00:52.860
Vì vậy, mạng thực sự học hỏi với mọi trạng thái mới.

00:53.190 --> 00:58.590
Nó từ từ cập nhật các trọng số của nó để ngày càng tốt hơn và ngày càng tốt hơn trong việc xử lý môi trường này.

00:58.590 --> 01:01.890
Và sau đó là hành động bên trong trạng thái.

01:01.890 --> 01:07.980
Vì vậy, sau khi các giá trị Q đã được đếm ở trạng thái, thì một giá trị khóa được chọn.

01:07.980 --> 01:11.700
Vì vậy, hôm nay chúng ta vẫn sẽ nói về phần học.

01:11.700 --> 01:17.370
Chúng tôi sẽ đưa ra một tính năng thú vị sẽ hoạt động tốt, chúng tôi

01:17.370 --> 01:25.860
sẽ không tự nghĩ ra tính năng này, nhưng chúng tôi sẽ nói về một tính năng rất quan trọng đối với học sâu.

01:25.860 --> 01:29.310
Và tính năng đó được gọi là Experience Replay.

01:29.520 --> 01:31.770
Được rồi, đây là mạng của chúng tôi.

01:31.770 --> 01:34.500
Vì vậy, chúng tôi vừa sao chép nó ở đây.

01:34.500 --> 01:38.820
Chúng tôi nhận thấy rằng một khoản lỗ được tính ở dưới cùng được lan truyền trở lại thông qua mạng của chúng tôi.

01:38.820 --> 01:44.700
Và chúng ta hãy xem một ví dụ về những gì sẽ xảy ra để hiểu vấn đề mà chúng ta đang giải quyết tốt hơn

01:44.700 --> 01:45.390
một chút.

01:45.390 --> 01:49.050
Vì vậy, đây là một ví dụ thực sự từ khóa học này.

01:49.050 --> 01:53.010
Đây là ảnh chụp màn hình chính xác từ khóa học này.

01:53.010 --> 01:54.600
Đây là những gì bạn sẽ lập trình.

01:54.750 --> 02:02.880
Đây là một chiếc ô tô tự lái đang chạy qua con đường này và nó phải học cách điều hướng con đường

02:02.880 --> 02:03.600
này.

02:03.600 --> 02:09.180
Và vì vậy, như chúng ta đã thảo luận trước đây, điều này là gì trong trạng thái này?

02:09.180 --> 02:12.030
Và tất nhiên, trạng thái sẽ không chỉ là X một và x hai.

02:12.030 --> 02:18.450
Alan sẽ mô tả chi tiết hơn một chút về trạng thái sẽ là một vài thông số

02:18.750 --> 02:26.400
liên quan đến góc của chiếc xe và một số thông số tương đối, những gì các cảm biến đang đọc, v.v.

02:26.400 --> 02:30.480
Vì vậy, sẽ có nhiều tham số hơn thế để mô tả trạng thái, nhưng tuy nhiên, nó sẽ là

02:30.480 --> 02:31.530
một vectơ giá trị.

02:31.530 --> 02:33.690
Nó sẽ đi qua một mạng nơ-ron.

02:33.690 --> 02:36.390
Và sau đó trên đầu ra, bạn sẽ có một số giá trị Q.

02:36.390 --> 02:42.600
Một lần nữa, sẽ có một khác nhau tùy thuộc vào môi trường, có thể có một số hành động khác nhau, các

02:42.600 --> 02:44.280
hành động có thể xảy ra.

02:44.280 --> 02:48.960
Nhưng chúng tôi sẽ chỉ, vì đơn giản, hãy để nó ở chỉ để chúng tôi có thể hiểu rõ hơn một chút về

02:49.020 --> 02:50.550
những gì đang xảy ra ở đây.

02:50.550 --> 02:58.470
Vì vậy, trong trường hợp này, câu hỏi là cho đến nay, đầu vào này là gì vào mạng nơ-ron này?

02:58.470 --> 03:03.450
Hay cụ thể hơn, tần suất chúng ta kích hoạt mạng nơ-ron này như thế nào?

03:03.450 --> 03:05.070
Mạng nơ-ron này trải qua bao lâu một lần?

03:05.070 --> 03:10.620
Vâng, mỗi khi chiếc xe kết thúc ở trạng thái mới, vì vậy chiếc xe di chuyển, nó kết thúc ở trạng thái mới.

03:10.620 --> 03:12.600
Và rồi mọi thứ trôi qua.

03:12.600 --> 03:17.910
Tất cả dữ liệu đó, tất cả thông tin về trạng thái đi qua mạng là một sai số được tính toán.

03:17.910 --> 03:22.380
Lỗi này được tính dựa trên những gì chúng ta đã thảo luận trong các bài hướng dẫn trước đây.

03:22.800 --> 03:25.260
Lỗi này được lan truyền trở lại thông qua mạng.

03:25.260 --> 03:30.570
Trọng lượng được cập nhật, sau đó chiếc xe sẽ chọn hành động sẽ thực hiện để chuyển động đó kết thúc ở

03:30.570 --> 03:31.530
trạng thái mới.

03:31.530 --> 03:34.050
Ở trạng thái mới mọi thứ bắt đầu lại từ đầu.

03:34.230 --> 03:38.040
Và về cơ bản điều này xảy ra mỗi khi chiếc xe ở trạng thái mới.

03:38.160 --> 03:39.780
Vâng, hãy xem ví dụ này.

03:39.780 --> 03:46.860
Tôi đặc biệt chụp ảnh màn hình vì có vẻ như nó minh họa rất tốt vấn đề được giải quyết thông qua trải

03:46.860 --> 03:48.960
nghiệm, phát lại và trải nghiệm.

03:48.960 --> 03:52.590
Phát lại không chỉ là thứ mà chúng tôi sử dụng trong khóa học này hoặc trong vấn đề cụ thể này.

03:52.590 --> 04:00.330
Nó là thứ mà bạn sẽ thấy được sử dụng xuyên suốt, giống như lặp đi lặp lại trong các thuật toán

04:00.330 --> 04:05.010
trí tuệ nhân tạo, bởi vì nó rất mạnh và rất quan trọng.

04:05.010 --> 04:09.540
Vì vậy, hãy nhìn vào chiếc xe này, chiếc xe này trong vấn đề này hoặc trong môi trường này.

04:09.540 --> 04:12.330
Mục tiêu của nó là đi từ đây đến đây và quay lại.

04:12.330 --> 04:17.400
Mục tiêu của nó là điều hướng đến đây, ở đây mà không cần băng qua những bức tường làm bằng cát này.

04:17.610 --> 04:24.750
Và thế là chiếc xe bắt đầu từ đây, nó lao xuống và giống như phần thưởng của nó dựa trên mức độ gần đến mục tiêu của

04:24.750 --> 04:25.050
nó.

04:25.050 --> 04:26.910
Vì vậy, chiếc xe đã đi từ đây.

04:26.910 --> 04:29.400
Nó đi xuống và cứ tiếp tục như thế này, thế này, thế này, như thế này.

04:29.450 --> 04:31.320
Dọc theo bức tường này, dọc theo bức tường này.

04:31.320 --> 04:32.580
Và nó sẽ làm gì tiếp theo?

04:32.580 --> 04:34.830
Nó sẽ rẽ và nó sẽ tiếp tục đi.

04:34.830 --> 04:37.410
Chà, những gì chúng tôi muốn nó làm là tiếp tục ở đây.

04:37.410 --> 04:39.330
Nhưng chúng ta hãy nghĩ về nó một chút.

04:39.330 --> 04:44.160
Khi nó đã đến bức tường này, mỗi khi nó di chuyển về phía trước, nó sẽ di chuyển về phía trước.

04:44.160 --> 04:47.640
Nó tiến về phía trước, nó tiến về phía trước, tiến lên phía trước, nó tiến lên phía trước, nó tiến lên và cứ như vậy

04:47.640 --> 04:48.360
nó tiến về phía trước.

04:48.360 --> 04:53.700
Vì vậy, chúng có thể giống như tùy thuộc vào môi trường cấu trúc, nó có thể giống như 100 lần di chuyển ở đây hoặc 50 lần

04:53.700 --> 04:54.540
di chuyển ở đây.

04:54.840 --> 04:57.510
Họ chỉ tiếp tục tiến về phía trước, phía trước, phía trước, phía trước trong bốn.

04:57.510 --> 04:58.920
Và không có gì thay đổi.

04:58.920 --> 04:59.520
Không.

04:59.620 --> 05:00.310
Thực sự thay đổi.

05:00.310 --> 05:03.280
Có, nó càng xa mục tiêu này, càng gần mục tiêu này.

05:03.280 --> 05:03.970
Thật đáng yêu.

05:03.970 --> 05:08.350
Nhưng xét về môi trường xung quanh, không có nhiều thứ đang thay đổi.

05:08.350 --> 05:09.870
Vẫn là bức tường đó.

05:09.880 --> 05:15.220
Nếu bạn đang ngồi trong ô tô, chắc chắn bạn đã từng thấy tình huống này khi bạn đang lái xe trong

05:15.220 --> 05:20.860
bất cứ thứ gì bạn thấy giống như môi trường quá đơn điệu đến mức bạn chỉ nhìn thấy một thứ giống như vừa

05:20.860 --> 05:21.760
lướt qua .

05:21.760 --> 05:26.080
Nhưng giống như, hãy tưởng tượng bạn đang lái xe qua sa mạc và bạn cũng đang nhìn thấy điều tương tự.

05:26.080 --> 05:27.670
Đó là cùng một âm thanh, đó là cùng một âm thanh.

05:27.670 --> 05:30.250
Không có gì đang xảy ra, không có gì là thay đổi.

05:30.250 --> 05:37.450
Và về cơ bản, nhưng mỗi khi chúng ta đưa trạng thái đó, trạng thái mới đó vào đây, vâng, tất nhiên, điều gì đó

05:37.450 --> 05:38.890
có thể đang thay đổi.

05:38.890 --> 05:43.330
Ví dụ: bạn đang lái ô tô và GPS của bạn đang hiển thị rằng bạn đang ở gần điểm đến của mình hơn.

05:43.330 --> 05:45.910
Vì vậy, một trong những yếu tố đầu vào này là sự thay đổi.

05:45.910 --> 05:51.820
Nhưng rất nhiều đầu vào khác, chẳng hạn như cảm biến, trên xe hơi, chúng không thay đổi.

05:51.820 --> 05:53.260
Và do đó, khi bạn đang lái xe.

05:53.260 --> 05:56.530
Vì vậy, ở trạng thái này, bạn đặt đầu vào các đầu vào vào mạng nơ-ron của mình.

05:56.530 --> 06:00.430
Đây, đây, đây, đây, đây, đây, đây và đây và đây.

06:00.730 --> 06:03.040
Tất cả các đầu vào đều giống nhau.

06:03.040 --> 06:10.390
Và vì vậy nếu bạn tiếp tục nhập các đầu vào giống nhau, cùng giá trị, cùng một vectơ hoặc các vectơ rất

06:10.390 --> 06:16.570
giống nhau vào mạng của bạn, bởi vì không có sự đa dạng, chiếc xe sẽ học rất tốt.

06:16.570 --> 06:21.490
Một điều bạn sẽ học rất tốt cách lái xe dọc theo bức tường này, nằm bên phải của nó.

06:21.490 --> 06:24.870
Và đó là cách mạng sẽ cập nhật và nó sẽ nhận được phần thưởng.

06:24.870 --> 06:27.370
Nó sẽ từ từ bắt đầu nhận được phần thưởng cho việc lái xe.

06:27.370 --> 06:32.140
Vì vậy, nó sẽ giống như, được, vì vậy từ đây nó sẽ bắt đầu học, Ồ, tôi làm rất tốt.

06:32.140 --> 06:32.950
Tôi thậm chí còn làm tốt hơn.

06:32.950 --> 06:33.760
Tôi đang làm nó tốt hơn.

06:33.760 --> 06:40.750
Nó sẽ có điều này, nhận thức sai lầm rằng nó thực sự đang hoạt động rất tốt, mặc dù nó chỉ học

06:40.750 --> 06:43.270
cách lái xe dọc theo bức tường này.

06:43.270 --> 06:47.470
Và do đó, mạng lưới thần kinh sẽ trở nên rất thích nghi với việc lái xe dọc theo bức tường này.

06:47.470 --> 06:52.960
Và rồi đột nhiên có một khúc cua này và chiếc xe không biết phải làm gì và nó hoàn toàn không

06:52.960 --> 06:55.180
phù hợp với mạng lưới thần kinh này.

06:55.180 --> 07:01.480
Và ngay cả khi nó điều chỉnh bằng cách nào đó, hãy giả sử rằng nó vượt qua phần này và sau đó nó kết thúc ở bức tường

07:01.480 --> 07:03.130
này, điều tương tự sẽ xảy ra.

07:03.130 --> 07:05.170
Nó sẽ lái từ đây, đây, đây.

07:05.500 --> 07:10.780
Bây giờ, mạng nơ-ron đang tự tái cấu trúc để thích ứng với bức tường này và sau đó, bạn ơi, điều này sẽ xảy ra.

07:10.780 --> 07:14.590
Và sau đó, ngay cả khi bằng cách nào đó nó vượt qua điều đó, nó sẽ vượt qua điều này.

07:14.590 --> 07:16.180
Và sau đó điều tương tự dọc theo những dòng này.

07:16.180 --> 07:22.120
Vì vậy, về cơ bản nó giống như một ví dụ rất sinh động về một vấn đề mà chúng ta gặp phải.

07:22.120 --> 07:28.150
Đó là bởi vì cách chúng ta đang sử dụng mạng nơ-ron, cập nhật nó với mọi trạng thái đơn lẻ, một khi chúng ta có nhiều

07:28.150 --> 07:30.790
bước liên tiếp, chúng thậm chí không cần phải giống nhau.

07:30.790 --> 07:40.720
Nhưng trong các môi trường, điều bình thường là các trạng thái liên tiếp tương quan hoặc phụ thuộc lẫn nhau bằng cách nào đó.

07:40.720 --> 07:45.490
Và chúng tôi không muốn sự phụ thuộc lẫn nhau đó làm sai lệch mạng lưới của chúng tôi.

07:45.490 --> 07:52.830
Chúng tôi không muốn chiếc xe chỉ học cách lái xe như một đường thẳng hay một đường cong dài hoặc giống như bất cứ

07:54.000 --> 08:01.330
điều gì mà bạn nghĩ rằng bạn có thể nghĩ đến trong cuộc sống, nơi một nhân viên sẽ điều hướng một môi trường bất

08:01.330 --> 08:07.810
cứ nơi nào bạn có thể nghĩ đến trạng thái tương quan hoặc phụ thuộc lẫn nhau xuất hiện sau trạng

08:07.810 --> 08:15.190
thái khác, điều đó thực sự có thể làm rối loạn mạng nơ-ron của bạn nếu bạn chỉ để cho tác nhân học hỏi từ đó.

08:15.190 --> 08:17.560
Và đó là lúc trải nghiệm phát lại xuất hiện.

08:17.560 --> 08:21.790
Những gì xảy ra trong trải nghiệm chơi lại là những trải nghiệm này.

08:21.790 --> 08:29.440
Vì vậy, những trạng thái này nói rằng đó là từ 1 đến 3, tuy nhiên ở đây có nhiều 50 trạng thái liên tiếp, chúng không được đưa

08:29.440 --> 08:30.760
vào mạng ngay lập tức.

08:31.330 --> 08:34.990
Chúng thực sự được lưu vào bộ nhớ của tác nhân.

08:35.920 --> 08:40.990
Và vì vậy, ví dụ, nó được lưu tất cả những thứ này và lưu tất cả những thứ này và một số vào một

08:40.990 --> 08:45.940
thời điểm nào đó khi nó đạt đến một ngưỡng nhất định mà bạn sẽ có thể viết mã và Atlan sẽ chỉ cho

08:45.940 --> 08:50.290
bạn cách làm điều đó khi nó đạt đến một ngưỡng nhất định, sau đó đại lý tự quyết định.

08:50.290 --> 08:51.220
Được rồi, đã đến lúc học.

08:51.220 --> 08:56.500
Tôi có Tôi có lô kinh nghiệm này mà tôi có, và bây giờ tôi sẽ học hỏi từ lô đó.

08:56.500 --> 09:03.520
Và do đó, nó chọn ngẫu nhiên một phân bố đồng đều và đồng nhất là điều quan trọng ở đây vì đó là điều mà chúng ta

09:03.520 --> 09:05.860
sẽ nói đến trong trang trình bày tiếp theo.

09:06.670 --> 09:08.050
Chúng tôi sẽ đề cập đến điều đó.

09:08.050 --> 09:11.650
Nhưng nó cần một mẫu phân bố đồng đều.

09:12.280 --> 09:15.520
Vì vậy, về cơ bản tất cả các trải nghiệm được coi là ngang nhau.

09:15.520 --> 09:20.050
Nó lấy một mẫu được phân phối đồng đều từ lô trải nghiệm mà nó có.

09:20.320 --> 09:24.640
Và sau đó nó đi qua họ và nó học hỏi từ họ.

09:24.640 --> 09:26.710
Vì vậy, nó không mất tất cả kinh nghiệm.

09:26.710 --> 09:28.270
Nó chỉ lấy một mẫu được phân phối đồng đều.

09:28.270 --> 09:31.180
Vì vậy, nó có thể mất một vài từ đây, một vài từ đây, một vài từ đây.

09:31.180 --> 09:34.840
Và mỗi trải nghiệm được đặc trưng bởi trạng thái.

09:34.840 --> 09:42.970
Đó là trong hành động mà nó đã thực hiện, trạng thái mà nó đã đạt được và phần thưởng nó đạt được thông qua hành động đó

09:42.970 --> 09:44.740
trong trạng thái cụ thể đó.

09:44.740 --> 09:49.750
Vì vậy, đối với các yếu tố trong mỗi trạng thái kinh nghiệm, một trạng thái hành động và phần thưởng.

09:49.870 --> 09:54.580
Và vì vậy nó lấy tất cả những kinh nghiệm đó và sau đó nó chuyển chúng qua mạng và nó học hỏi.

09:54.580 --> 09:59.170
Và theo cách đó, nó phá vỡ khuôn mẫu của điều đó.

09:59.210 --> 10:06.320
Elias, xuất phát từ bản chất tuần tự của các trải nghiệm, nếu bạn đặt chúng lần

10:06.320 --> 10:07.970
lượt qua mạng.

10:08.060 --> 10:11.820
Vì vậy, đó là trọng tâm chính của trải nghiệm chơi lại.

10:11.840 --> 10:14.300
Đó là vấn đề mà địa chỉ đó gặp phải.

10:14.300 --> 10:20.090
Và một lợi ích khác của việc chơi lại trải nghiệm là đôi khi trong môi trường như thế này, bạn có thể có

10:20.090 --> 10:22.160
những trải nghiệm rất quý giá, hiếm có.

10:22.160 --> 10:25.940
Ví dụ, tôi không biết, hãy nói chúng ta hãy nhìn vào góc này.

10:25.940 --> 10:26.270
Đúng?

10:26.270 --> 10:28.280
Đây là một góc bên phải.

10:28.310 --> 10:28.550
Đúng.

10:28.640 --> 10:29.690
Và một cái rất sắc nét.

10:29.690 --> 10:30.770
Có bao nhiêu là sắc nét?

10:30.770 --> 10:34.970
Vì vậy, nó sẽ đến từ đây, giả sử nó sẽ ôm lấy góc này.

10:35.450 --> 10:39.190
Vậy toàn bộ căn phòng này có bao nhiêu góc nhọn bên phải?

10:39.230 --> 10:42.260
Chúng tôi chỉ có một góc bên phải ở đây và một góc bên phải ở đây.

10:43.580 --> 10:43.850
Đúng?

10:43.850 --> 10:46.130
Vì vậy, khi nó đến theo hướng này, đó là góc bên phải.

10:46.130 --> 10:48.530
Và sau đó khi nó quay trở lại, nó là góc nhọn bên phải ở đây.

10:48.530 --> 10:49.610
Vì vậy, và cái này không sắc nét.

10:49.610 --> 10:50.120
Cái này là sắc nét.

10:50.120 --> 10:56.450
Vì vậy, chỉ có một cơ hội trong toàn bộ môi trường để học hỏi từ một góc phải sắc bén.

10:56.660 --> 11:02.720
Và đó là một trải nghiệm quan trọng bởi vì nó có thể thực sự thành thạo khi lái xe dọc theo đường thẳng, thực

11:02.720 --> 11:06.350
sự thành thạo khi thực hiện những góc cua mềm, tương tự như vậy.

11:06.350 --> 11:13.820
Nhưng và sau đó nó sẽ tiếp tục lộn xộn góc nhọn bên phải này đơn giản vì đơn giản vì nó không có nhiều cơ hội

11:13.820 --> 11:15.470
để học hỏi từ nó.

11:15.470 --> 11:19.520
Và do đó, nó sẽ học mọi thứ khác khá nhanh, nhưng sẽ mất nhiều thời gian để tìm hiểu góc bên

11:19.520 --> 11:20.000
phải này.

11:20.030 --> 11:21.830
Đó là một ví dụ rất đơn giản.

11:21.830 --> 11:28.250
Đó là một lời giải thích rất đơn giản, nhưng nó minh họa khái niệm rằng đôi khi chúng là những trải nghiệm hiếm

11:28.250 --> 11:29.990
hoi có thể có giá trị.

11:29.990 --> 11:35.930
Và nếu bạn chỉ đang thực hiện một mạng nơ-ron đơn giản, nơi bạn đang đưa các giá trị của mình vào đây và chúng sẽ trải qua và,

11:35.930 --> 11:40.970
bạn biết đấy, giống như ngay cả khi chúng ta quên vấn đề đó về bản chất tuần tự của trải nghiệm và cách

11:40.970 --> 11:46.250
chúng có thể phụ thuộc lẫn nhau và hoặc tương quan và thậm chí quên điều đó trong một giây, điều xảy ra là khi

11:46.640 --> 11:51.800
bạn đưa một trải nghiệm vào, trải nghiệm đó đi qua các mạng được cập nhật, sau đó bạn ngay lập tức quên nó

11:51.800 --> 11:53.270
đi, quên đi trải nghiệm đó.

11:53.270 --> 11:54.320
Bạn chuyển sang phần tiếp theo.

11:54.320 --> 11:56.000
Đó chỉ là cách mạng nơ-ron hoạt động.

11:56.000 --> 11:59.150
Sau đó, bạn chuyển sang trạng thái tiếp theo, trạng thái tiếp theo, trạng thái tiếp theo, trải nghiệm

11:59.150 --> 12:00.980
tiếp theo, trải nghiệm tiếp theo, trải nghiệm tiếp theo, v.v.

12:00.980 --> 12:05.690
Vì vậy, góc bên phải này, ngay sau khi nó đi qua một mạng, nó đã biến mất và bạn không còn nhớ

12:05.690 --> 12:07.340
gì về trải nghiệm quý giá đó.

12:07.340 --> 12:14.150
Trong khi với việc chơi lại có kinh nghiệm, vì bạn đang đưa những trải nghiệm này vào các đợt, bạn có thể sắp xếp đợt của mình dưới

12:14.150 --> 12:15.590
dạng cửa sổ luân phiên.

12:15.590 --> 12:20.270
Ví dụ: bạn có thể có 100 lô, 100 kinh nghiệm trong lô của bạn.

12:20.270 --> 12:26.900
Vì vậy, khi nó quay trở lại từ đây, nó sẽ sớm ghi lại trải nghiệm này trong lô của nó.

12:27.110 --> 12:33.680
Sau đó, giống như tại một thời điểm nào đó, nó chạy, nó sẽ có sự phân bổ đồng đều từ loạt trải nghiệm của nó và sau đó có

12:33.680 --> 12:35.000
một cửa sổ luân phiên.

12:35.000 --> 12:39.560
Vì vậy, nó quên những kinh nghiệm này, nhưng sau đó nó giữ lại những kinh nghiệm này và sau đó nó lại

12:39.560 --> 12:42.200
học được từ một lần ở đây, nó học từ đợt này.

12:42.320 --> 12:47.600
Và sau đó một khi nó ở đây, nếu nó đi đến tận đây, nhưng sau đó nó có một loạt các trải nghiệm như

12:47.600 --> 12:47.930
vậy.

12:47.930 --> 12:50.450
Vì vậy, bây giờ nó học hỏi từ những kinh nghiệm này.

12:50.450 --> 12:58.670
Và theo cách đó những gì bạn nhận được là góc bên phải này có thể xuất hiện nhiều lần trong quá trình học tập của nó vì nó

12:58.670 --> 13:02.990
nằm trong đợt đó khi đợt này giống như thế này xung quanh đó.

13:02.990 --> 13:05.090
Sau đó, nó nằm trong lô ở đây, trong lô ở đây.

13:05.090 --> 13:11.390
Vì vậy, nó xuất hiện thành nhiều đợt vì đợt này có thể được cập nhật dưới dạng cửa sổ trải nghiệm luân phiên.

13:11.390 --> 13:15.680
Vì vậy, những trải nghiệm cũ hơn bị loại bỏ, những trải nghiệm mới hơn được thêm vào, và sau đó một lần nữa trải nghiệm cũ lại

13:15.680 --> 13:16.150
được khởi động.

13:16.160 --> 13:23.000
Vì vậy, một kinh nghiệm, nó sẽ nằm trong lô khá lâu và nhà xe hoặc đại lý có thể rút kinh

13:23.000 --> 13:23.990
nghiệm vài lần.

13:23.990 --> 13:27.320
Vì vậy, đó là một lợi thế khác của trải nghiệm chơi lại.

13:27.320 --> 13:29.750
Và tất nhiên lợi thế cuối cùng là kinh nghiệm.

13:29.750 --> 13:35.510
Phát lại mang đến cho bạn cơ hội học hỏi từ nhiều kinh nghiệm hơn là nếu bạn chỉ học từ một người cùng một

13:35.510 --> 13:40.040
lúc, bởi vì bạn có lô đó và do đó và đó là một cửa sổ luân phiên.

13:40.040 --> 13:47.120
Và do đó, ngay cả khi môi trường của bạn bị giới hạn trải nghiệm, thì cách tiếp cận phát lại trải nghiệm của bạn

13:47.120 --> 13:49.130
có thể giúp bạn học nhanh hơn.

13:49.130 --> 13:54.830
Và thay vì chỉ làm lại môi trường nhiều, nhiều lần, bạn có thể học nhanh hơn vì bạn không phải làm

13:54.830 --> 13:55.640
lại nó.

13:55.640 --> 13:57.230
Bạn đã lưu lại những kinh nghiệm đó.

13:57.590 --> 13:59.510
Vì vậy, đó là những lợi thế chính của kinh nghiệm.

13:59.510 --> 13:59.840
Phát lại.

13:59.840 --> 14:00.560
Hãy tóm tắt lại điều đó.

14:00.560 --> 14:03.860
Chúng tôi đã phá vỡ mô hình độc lập và.

14:04.770 --> 14:07.230
Tương quan của các trải nghiệm tuần tự.

14:07.680 --> 14:12.540
Chúng tôi lưu lại những trải nghiệm hiếm hoi có thể quan trọng và do đó chúng tôi có thể học hỏi từ chúng thường xuyên hơn.

14:12.870 --> 14:16.770
Và chúng ta có thể học trong các môi trường.

14:16.770 --> 14:24.900
Chúng ta có thể học hỏi những môi trường nuôi dưỡng vốn là kinh nghiệm, những môi trường thiếu kinh nghiệm, những môi trường không có nhiều kinh nghiệm mà

14:24.900 --> 14:29.100
người đại diện phải trải qua và chúng ta vẫn có thể học hỏi được.

14:29.100 --> 14:31.740
Vì vậy, đó là tất cả những gì trải nghiệm chơi lại.

14:32.310 --> 14:38.220
Nếu bạn muốn đọc nhiều hơn một chút, có một bài báo thú vị được xuất bản bởi DeepMind vào

14:38.220 --> 14:38.900
năm 2016.

14:38.910 --> 14:44.300
Nó được gọi là Phát lại trải nghiệm được ưu tiên và nói về lý do.

14:44.310 --> 14:50.420
Tại sao chúng tôi sử dụng phân phối đồng nhất để chọn trải nghiệm của mình từ lô trải nghiệm?

14:50.430 --> 14:55.470
Tại sao chúng ta không tìm cách tốt hơn để chọn lọc những trải nghiệm của mình và ưu tiên một số trải nghiệm mà chúng

14:55.470 --> 14:56.640
ta cảm thấy là quan trọng?

14:56.880 --> 14:58.110
Và vì vậy đó là một điều khá thú vị.

14:58.110 --> 15:07.650
Vì vậy, trong trường hợp này, bạn sẽ không chỉ củng cố, không chỉ củng cố kiến thức của mình về phát lại trải nghiệm, mà

15:07.650 --> 15:12.570
còn thực sự có thể di chuyển với công nghệ tiên tiến.

15:12.570 --> 15:14.970
Đây là năm 2016 và được xuất bản bởi Deep Mind.

15:14.970 --> 15:17.460
Vì vậy, nó là một bài báo rất gần đây, rất mạnh mẽ.

15:17.460 --> 15:23.520
Vì vậy, bạn sẽ có thể thực sự khám phá các giới hạn hoặc khám phá sâu hơn nữa thuật toán này và đưa nó lên cấp

15:23.520 --> 15:24.330
độ tiếp theo.

15:24.330 --> 15:30.810
Vì vậy, tôi sẽ giao việc đó cho bạn để tìm hiểu lý do và cách chúng tôi có thể thay đổi phân phối đồng đều sang một cách tiếp cận khác

15:30.810 --> 15:35.580
để trải nghiệm phát lại từ bài báo này, nếu bạn muốn, và tôi hy vọng bạn thích hướng dẫn hôm nay.

15:35.580 --> 15:41.160
Và bây giờ chúng tôi biết trải nghiệm chơi lại là gì và chúng tôi có thể tự tin sử dụng nó trong các hướng dẫn thực tế của mình.

15:41.160 --> 15:42.810
Và tôi mong được gặp bạn lần sau.

15:42.810 --> 15:44.130
Cho đến lúc đó, hãy tận hưởng.

15:44.130 --> 15:44.670
TÔI.