WEBVTT

00:00.930 --> 00:03.840
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:03.840 --> 00:09.780
Hôm nay chúng ta tiếp tục cuộc hành trình vào thế giới của 83 C và chúng ta đang nói về mặt không đồng bộ của C

00:09.780 --> 00:14.190
để chúng ta có tên viết tắt của mình, một lợi thế đồng bộ, một nhà phê bình tích cực.

00:14.190 --> 00:18.900
Và hôm nay chúng ta sẽ tìm hiểu xem đồng bộ ở đây là viết tắt của từ gì, nghĩa là gì.

00:18.900 --> 00:20.940
Và hãy quay lại một bước.

00:20.940 --> 00:23.730
Hãy xem chúng tôi đã bắt đầu toàn bộ khóa học này với những gì.

00:23.730 --> 00:28.890
Chúng tôi bắt đầu với việc học tập củng cố và tất cả những gì về việc người đại diện đang ở một trạng thái nhất định.

00:29.160 --> 00:34.260
Họ quan sát trạng thái, họ đưa ra quyết định nhất định, họ thực hiện các hành động trong trạng thái đó.

00:34.260 --> 00:36.660
Và sau đó trạng thái được thay đổi.

00:36.660 --> 00:38.910
Vì vậy, họ có được một trạng thái mới, cộng với họ nhận được một phần thưởng.

00:38.910 --> 00:45.570
Vì vậy, họ nhận được phần thưởng khi thực hiện hành động đó hoặc một phần thưởng nào đó cũng có thể là một hình phạt.

00:45.840 --> 00:47.670
Và chúng kết thúc ở một trạng thái mới.

00:47.670 --> 00:52.350
Và dựa trên cơ sở đó, bây giờ họ lại thực hiện một hành động khác, họ nhận được phần thưởng và kết thúc ở trạng thái mới

00:52.350 --> 00:53.910
và họ thực hiện một hành động khác, v.v.

00:54.390 --> 00:59.580
Và đó là cơ sở đằng sau tất cả việc học tăng cường.

00:59.580 --> 01:05.820
Và đó là những gì chúng tôi đã và đang sử dụng trong học tập, trong học sâu và học tích hợp sâu.

01:05.820 --> 01:10.560
Và điều đó đã cho phép các đặc vụ của chúng tôi đánh bại dần những môi trường phức tạp hơn và phức tạp hơn.

01:10.560 --> 01:16.340
Nhưng bây giờ chúng tôi sẽ giới thiệu một khái niệm thậm chí còn tốt hơn nữa.

01:16.350 --> 01:23.130
Đưa điều này lên cấp độ cao hơn nữa những gì a3c giới thiệu thông qua yếu tố đồng bộ và

01:23.130 --> 01:31.080
này, thay vì có một tác nhân tấn công môi trường, chúng có ba tác nhân hoặc bất cứ điều gì, số lượng tác nhân.

01:31.080 --> 01:34.110
Vì vậy, một số tác nhân tấn công cùng một môi trường.

01:34.110 --> 01:39.300
Và điều quan trọng ở đây là cái được gọi là đồng bộ là bởi vì chúng được khởi tạo khác nhau.

01:39.300 --> 01:40.860
Vì vậy xuất phát điểm của họ khác nhau.

01:40.860 --> 01:46.470
Vì vậy, ví dụ, như bạn sẽ thấy từ các điều khoản thực tế, bạn đặt một hạt giống ngẫu nhiên và bạn đặt nó khác

01:46.470 --> 01:47.790
nhau cho từng tác nhân.

01:47.790 --> 01:53.100
Và theo cách đó, bởi vì họ xuất phát điểm khác nhau, trước tiên họ sẽ đi qua các môi trường theo những cách khác nhau

01:53.100 --> 01:55.710
và sau đó họ sẽ khám phá theo những cách khác nhau.

01:55.710 --> 01:58.530
Và sau đó trong lần lặp tiếp theo, nó cũng sẽ khám phá theo những cách khác nhau.

01:58.530 --> 02:03.540
Và vì vậy, chẳng hạn, nếu bạn có ba tác nhân, bạn sẽ đột nhiên nhận được

02:03.540 --> 02:09.510
lượng kinh nghiệm gấp ba lần thay vì chỉ một tác nhân đi qua và khám phá môi trường và cố

02:09.510 --> 02:12.330
gắng hiểu cách hoạt động trong môi trường đó.

02:12.330 --> 02:17.670
Bây giờ bạn có ba hoặc tuy nhiên nhiều người trong số họ đã trải qua điều đó và nhận được kinh nghiệm này.

02:17.670 --> 02:21.690
Và ở đó để mỗi người trong số họ học hỏi thông qua trải nghiệm lớn hơn này.

02:21.690 --> 02:29.280
Và ngoài việc chỉ mang lại nhiều trải nghiệm hơn, nó còn làm giảm khả năng một nhân viên bị mắc kẹt ở

02:29.280 --> 02:31.260
mức tối đa cục bộ.

02:31.260 --> 02:37.470
Vì vậy, ví dụ, nếu một tác nhân tìm ra cách nào đó để đánh bại môi trường, cách không phải là tối ưu nhất, bởi

02:37.470 --> 02:42.210
vì nếu nó lệch sang trái hoặc sang phải so với giải pháp mà nó tìm thấy, nó sẽ luôn

02:42.210 --> 02:43.380
bị phạt nhiều hơn.

02:43.380 --> 02:45.450
Nó có thể bị kẹt ở mức tối đa cục bộ đó.

02:45.460 --> 02:49.080
Nó có thể tiếp tục làm điều đó, nghĩ rằng đó là giải pháp tối ưu trong khi thực tế không

02:49.080 --> 02:49.440
phải vậy.

02:49.440 --> 02:58.770
Vâng, khả năng một số đại lý bị mắc kẹt trong cùng một địa phương tối đa sẽ giảm hoặc giảm theo số lượng

02:58.770 --> 02:59.640
đại lý.

02:59.640 --> 03:06.330
Vì vậy, xác suất của một tác nhân bị mắc kẹt trong một mức tối đa cục bộ nhất định có thể cao, nhưng hoặc có thể

03:06.330 --> 03:07.920
có một giá trị nhất định.

03:07.920 --> 03:11.670
Nhưng xác suất khi bạn có ba người trong số họ, cả ba người trong số họ bị mắc kẹt trong mức tối đa cục

03:11.670 --> 03:12.600
bộ đó thấp hơn nhiều.

03:12.690 --> 03:17.850
Và miễn là họ chia sẻ kinh nghiệm với nhau, họ có thể giúp đỡ lẫn nhau.

03:17.850 --> 03:20.970
Vì vậy, nếu một trong số chúng bị kẹt, chẳng hạn, nó bị kẹt ở mức tối đa cục bộ.

03:20.970 --> 03:24.960
Chỉ đơn giản nghĩ rằng đó là giải pháp tốt nhất, đó là giải pháp tốt nhất mọi lúc và tiếp

03:24.960 --> 03:28.020
tục làm tốt điều đó miễn là nó tương tác với các tác nhân khác.

03:28.020 --> 03:32.670
Vì vậy, giả sử anh chàng này bị mắc kẹt trong mức tối đa cục bộ và miễn là nó tương tác với

03:32.670 --> 03:37.530
các tác nhân khác thông qua cách chúng tôi xây dựng toàn bộ thuật toán của mình, thông qua thuật toán, họ sẽ giúp anh ta.

03:37.530 --> 03:42.930
Họ sẽ cung cấp cho anh ta kiến thức mà thực sự biết, Này, bạn nên khám phá điều này hoặc anh ta sẽ có nhiều

03:42.930 --> 03:44.550
khả năng thoát ra khỏi điều đó.

03:44.550 --> 03:49.740
Và nhìn chung, môi trường sẽ biết rằng, này, mặc dù đây là mức tối đa tuyệt vời, nhưng những tác nhân khác này đã

03:49.740 --> 03:54.510
thấy các lựa chọn tốt hơn và chúng ta nên tiếp tục khám phá vì chúng có vẻ như là lựa chọn

03:54.510 --> 03:54.990
tốt hơn.

03:54.990 --> 04:00.690
Vì vậy, trong một cách hiểu rất ngắn gọn, trực quan rằng đó là một số lợi thế của việc có những

04:00.690 --> 04:02.430
tác nhân không đồng bộ này.

04:02.430 --> 04:05.910
Trước hết, bạn muốn có thêm kinh nghiệm để lựa chọn và học hỏi.

04:06.000 --> 04:08.070
Bạn có thể đi đến giải pháp nhanh hơn.

04:08.130 --> 04:16.410
Và nói chung, có ít khả năng bị mắc kẹt trong một mức tối đa cục bộ nhất định.

04:16.410 --> 04:20.670
Vì vậy, hãy xem tất cả điều này diễn ra như thế nào trong mô hình mà chúng tôi đã xây dựng cho đến nay.

04:20.670 --> 04:24.930
Vì vậy, như bạn nhớ, đây là những gì chúng tôi đã nhận được cho đến nay thông qua các nhà phê bình bổ sung.

04:24.930 --> 04:26.670
Và điều này giống như nơi mà tất cả mọi thứ gắn liền với nhau.

04:26.670 --> 04:31.230
Điều này cho đến nay như bạn còn nhớ từ hướng dẫn trước mà chúng tôi đã giới thiệu về điều này, bạn biết đấy, chúng tôi đã có

04:31.230 --> 04:35.100
điều này ngay cả trong quá trình học Q tích chập sâu, vì vậy chúng tôi chỉ đặt tên cho nó thêm bây giờ.

04:35.460 --> 04:38.670
Nhưng bây giờ chúng tôi đã giới thiệu phê bình, nhưng cho đến nay nó không thực sự có ý nghĩa.

04:38.670 --> 04:43.770
Có ích gì khi có bài phê bình này và đo lường giá trị của trạng thái hoặc dự đoán giá trị

04:43.770 --> 04:48.060
của trạng thái bằng cách sử dụng cùng một mạng nơ-ron, cùng một cách tiếp cận này?

04:48.330 --> 04:51.870
Nhưng bây giờ đây là phần mà nó sẽ bắt đầu có ý nghĩa hơn.

04:52.260 --> 04:56.820
Những gì chúng tôi sẽ làm là chúng tôi sẽ lặp lại điều này bởi vì bây giờ chúng tôi có nhiều tác nhân.

04:56.820 --> 04:58.320
Vì vậy, với nhiều tác nhân, đây là.

04:58.320 --> 04:59.310
Đây là những gì nó sẽ như thế nào.

04:59.310 --> 04:59.910
Vì thế.

05:00.530 --> 05:05.120
Cách hình dung đầu tiên là bây giờ chúng ta có ba thứ này.

05:05.120 --> 05:09.170
Chà, hãy nhớ những gì chúng ta đã nói về việc họ chia sẻ kinh nghiệm lẫn nhau.

05:09.170 --> 05:11.000
Vì vậy, điều này thực sự đúng.

05:11.000 --> 05:12.200
Hiện giờ tất cả đều độc lập.

05:12.200 --> 05:15.350
Bạn có một người chơi trò chơi, một người khác chơi trò chơi, một người chơi khác trong trò chơi.

05:15.350 --> 05:19.400
Nó giống như việc khởi chạy tác nhân của bạn trên ba máy tính khác nhau.

05:19.400 --> 05:21.740
Bạn đặt ba máy tính khác nhau cạnh nhau và khởi chạy chúng.

05:21.740 --> 05:22.970
Và, bạn biết đấy, điều đó thật tuyệt.

05:22.970 --> 05:27.260
Thật vậy, bạn thích bạn sẽ nhận được nhiều kinh nghiệm hơn.

05:27.290 --> 05:29.750
Bạn sẽ thích nhiều loại hơn, đặc biệt nếu chúng được khởi tạo khác nhau.

05:29.750 --> 05:32.840
Vì vậy, từ đây chúng ta sẽ giả định rằng tất cả chúng đều được khởi tạo ban đầu, luôn được khởi tạo khác nhau.

05:32.990 --> 05:37.820
Mặc dù chúng ta có cùng một bức tranh ở đây, chúng ta sẽ biết rằng chúng thực sự được khởi tạo khác nhau.

05:37.820 --> 05:43.220
Vì vậy, nó sẽ không giống như đào tạo giống hệt nhau, học tập giống hệt nhau từ trò chơi này.

05:43.670 --> 05:47.540
Và vì vậy, ngay cả khi bạn đặt ba máy tính cạnh nhau

05:47.540 --> 05:55.610
và khởi chạy chúng, vâng, bạn sẽ có nhiều kinh nghiệm hơn bởi vì bạn sẽ có ba đại lý chơi và bạn cũng sẽ có một

05:55.610 --> 05:58.490
máy tính lớn hơn nhiều giải pháp khả thi.

05:58.490 --> 06:00.020
Vì vậy, đó là sự thật.

06:00.020 --> 06:02.540
Nhưng vấn đề là họ không chia sẻ kinh nghiệm đó với chúng ta.

06:02.570 --> 06:04.010
Họ không học hỏi lẫn nhau.

06:04.010 --> 06:06.740
Vì vậy, chúng không có sức mạnh tổng hợp đó.

06:06.740 --> 06:11.390
Họ không có lợi thế hoặc sức mạnh bổ sung mà họ sẽ có được nếu họ hợp tác.

06:11.390 --> 06:16.850
Bạn biết đấy, giống như nếu bạn có nếu bạn có một nhóm người, họ làm việc tốt hơn với nhau, sau đó mỗi người trong

06:16.850 --> 06:17.840
số họ riêng biệt.

06:17.840 --> 06:21.140
Vì vậy, giống như trong một đội ở đây, bạn có một cộng một cộng một, đó là ba.

06:21.140 --> 06:23.120
Nhưng trong một đội, một cộng một cộng một không phải là ba.

06:23.120 --> 06:28.220
Nó giống như 33 vì chúng tận dụng điểm mạnh của nhau và giảm thiểu điểm yếu của nhau.

06:28.220 --> 06:29.180
Và điều tương tự ở đây.

06:29.180 --> 06:33.260
Vì vậy, nếu bạn đặt ba máy tính này cạnh nhau, vâng, bạn sẽ có nhiều kinh nghiệm hơn, đa dạng hơn

06:33.260 --> 06:36.080
và có thể ai đó sẽ tìm ra giải pháp tốt hơn máy tính kia.

06:36.080 --> 06:39.500
Điều đó thật tuyệt, nhưng sẽ còn tốt hơn nếu họ bắt đầu chia sẻ trải nghiệm đó.

06:39.500 --> 06:41.030
Và làm thế nào để họ làm điều đó?

06:41.030 --> 06:43.880
Chà, thông qua V này mà chúng ta tính toán được.

06:43.880 --> 06:49.310
Vì vậy, giá trị V này là đầu ra của mạng của chúng tôi thực sự là như vậy.

06:49.310 --> 06:57.980
Vì vậy, họ có cùng một chữ V nên mỗi khi tất cả các tác nhân này, họ đều đóng góp cho cùng một nhà phê bình.

06:57.980 --> 06:59.870
Họ không có các nhà phê bình riêng biệt.

06:59.870 --> 07:01.190
Họ có một nhà phê bình chung.

07:01.190 --> 07:06.020
Và đó là chìa khóa của cách mà nhà phê bình diễn viên liên kết với sự đồng bộ.

07:06.020 --> 07:09.650
Vì vậy, có một nhà phê bình đang theo dõi khi họ rút ra kinh nghiệm.

07:09.650 --> 07:15.980
Vì vậy, làm thế nào để chúng ta tính V vì chúng ta tính V thông qua như bạn nhớ, chúng ta tính V thông qua các giá trị

07:16.370 --> 07:17.510
mà chúng ta nhận được.

07:17.510 --> 07:20.660
Vì vậy, phần thưởng mà chúng ta nhận được thông qua môi trường.

07:20.660 --> 07:28.580
Và khi các tác nhân khám phá môi trường của họ, họ đang tính toán, họ dự đoán chữ V cộng với chữ V

07:28.580 --> 07:30.620
mà họ có thể tính được.

07:30.630 --> 07:35.000
Đây là tất cả các mối liên hệ trở lại với những gì chúng ta đã thảo luận trong các phần trước của khóa

07:35.000 --> 07:35.390
học này.

07:35.600 --> 07:43.100
Vì vậy, họ đã có một chữ V mà họ có thể dự đoán như mong đợi thông qua phần thưởng mà họ biết

07:43.100 --> 07:47.090
rằng tồn tại trong mê cung này và họ đã khám phá.

07:47.090 --> 07:51.860
Và khi họ khám phá và tất nhiên, giá trị đó có thể thay đổi, nhưng họ cũng có V rằng V

07:51.860 --> 07:53.390
này là đầu ra của mạng nơ-ron.

07:53.390 --> 08:00.230
Vì vậy, khi họ đang trải qua điều này, họ sẽ điều chỉnh mạng lưới thần kinh của mình để phù hợp hơn với những

08:00.230 --> 08:01.340
gì mong đợi.

08:01.340 --> 08:09.650
V Vì vậy, về cơ bản điều này được chia sẻ, phần quan trọng được chia sẻ giữa các tác nhân và đó là cách họ chia sẻ

08:09.650 --> 08:11.120
thông tin giữa nhau.

08:11.120 --> 08:16.250
Đó là cách họ có thể biết những gì đang diễn ra trong môi trường được chia sẻ với nhau và

08:16.250 --> 08:20.840
sau đó sử dụng điều đó khi chúng ta sẽ thấy rõ hơn trong phần tiếp theo.

08:21.200 --> 08:25.280
Sử dụng điều đó để tối ưu hóa cách chúng hoạt động trong môi trường đó.

08:25.460 --> 08:32.690
Và điều khác cần lưu ý ở đây là đây là a3c, đây giống như cốt lõi của a3c cho đến nay.

08:32.990 --> 08:39.800
Đây là một loại phiên bản của a3c, nhưng có một cách triển khai thậm chí còn tốt hơn của điều này, a3c, mà bạn

08:40.250 --> 08:46.040
sẽ thực sự nghe Adland nói về một trong những hướng dẫn đầu tiên về khía cạnh thực tế của

08:46.040 --> 08:46.640
mọi thứ.

08:46.640 --> 08:54.050
Và những gì anh ấy sẽ nói đến là cách người tạo ra PyTorch thực sự điều chỉnh một trong những mã được chia

08:54.050 --> 08:58.310
sẻ trên GitHub, nơi anh ấy đã lấy tất cả những thứ này.

08:58.310 --> 09:01.880
Như bạn có thể thấy ngay bây giờ, chúng có các mạng nơ-ron riêng biệt và chỉ chúng chia sẻ V.

09:02.060 --> 09:07.970
Điều chỉnh đó được thực hiện thực sự là lấy tất cả các mạng nơ-ron này và ghép chúng thành một, lấy chúng và

09:07.970 --> 09:09.260
ghép chúng lại với nhau.

09:09.260 --> 09:14.990
Vì vậy, cuối cùng, chỉ có một mạng nơ-ron ở đây được chia sẻ giữa các tác nhân.

09:14.990 --> 09:21.020
Vì vậy, trước khi có, mỗi người trong số họ có một mạng thần kinh được chia sẻ cho diễn viên và nhà

09:21.020 --> 09:21.620
phê bình.

09:21.620 --> 09:25.340
Một mạng thần kinh được chia sẻ cho diễn viên đối với một mạng thần kinh quan trọng được chia sẻ cho hình diễn viên.

09:25.490 --> 09:30.830
Bây giờ tất cả đều có một mạng nơ-ron được chia sẻ cho diễn viên, nhà phê bình, diễn viên, nhà phê bình, diễn viên, nhà

09:30.830 --> 09:31.340
phê bình.

09:31.790 --> 09:35.030
Và sau đó người chỉ trích ở đây là điểm chung.

09:35.030 --> 09:38.390
Vì vậy, chúng ta hãy xem chúng ta hãy chuyển những hình ảnh này sang bên trái ở đây.

09:38.390 --> 09:39.350
Vì vậy, hãy tạo ra một số không gian.

09:39.800 --> 09:47.390
Và đây về cơ bản là kiến trúc hoặc cấu trúc mà chúng ta sẽ sử dụng trong các hướng dẫn thực

09:47.390 --> 09:48.050
hành.

09:48.050 --> 09:53.570
Tôi biết rằng như thế này, điều này nghe có vẻ hơi áp đảo ở giai đoạn này, nhưng chúng tôi có một điều

09:53.570 --> 09:55.730
nữa để nói về nó, đó là lợi thế.

09:55.730 --> 10:00.260
Và ở đó, chúng ta sẽ thấy tốt hơn một chút trong hành động như thế nào.

10:00.260 --> 10:00.380
Vì thế.

10:00.480 --> 10:02.670
Chúng ta sẽ nói về trực giác hoạt động ở đó.

10:02.670 --> 10:05.570
Nhưng nói chung, đây là những gì nó là.

10:05.580 --> 10:10.560
Đây là một mạng lưới mà mỗi tác nhân sử dụng để họ chia sẻ.

10:10.560 --> 10:13.020
Về cơ bản điều đó có nghĩa là chúng chia sẻ trọng lượng.

10:13.020 --> 10:16.080
Trọng số của mạng được chia sẻ giữa các tác nhân.

10:16.080 --> 10:19.590
Và khi chúng được cập nhật, chúng cập nhật toàn bộ mạng, không chỉ mạng riêng của chúng.

10:20.250 --> 10:21.600
Và sau đó họ có đầu ra.

10:21.600 --> 10:27.030
Họ có những hành động như thế này đối với từng tác nhân, và sau đó họ có người chỉ trích được chia sẻ, điều này sẽ được

10:27.030 --> 10:27.630
theo dõi.

10:27.630 --> 10:34.410
Vì vậy, tôi biết tất cả những điều này giống như có rất nhiều thứ ngay bây giờ, nhưng hy vọng rằng nó đang dần kết hợp lại

10:34.770 --> 10:35.460
với nhau.

10:35.460 --> 10:42.000
Ít nhất thì rút ra chính từ đây là người chỉ trích, bởi vì nó được chia sẻ, đó là cách

10:42.000 --> 10:48.540
các đại lý có thể đảm bảo rằng họ hợp tác với nhau để đạt được kết quả nhanh hơn nhiều.

10:48.540 --> 10:53.160
Và sau đó trong hướng dẫn tiếp theo, chúng ta sẽ xem thêm cách tất cả những điều này cộng lại như thế nào, tất cả những điều này kết hợp với nhau

10:53.160 --> 10:53.610
như thế nào.

10:53.610 --> 11:01.140
Và hiện tại, tôi muốn giới thiệu hoặc chúng tôi muốn giới thiệu cho bạn một, một bài đọc bổ sung.

11:01.140 --> 11:06.690
Vì vậy, đây là một blog của Jaromir Jaenisch.

11:06.720 --> 11:08.560
Nó được gọi là Hãy thực hiện một triển khai ba chìa khóa.

11:08.560 --> 11:11.280
Thực tế có hai phần thực hiện và lý thuyết.

11:11.670 --> 11:12.450
Có liên kết.

11:12.450 --> 11:19.320
Và nó rất giống với những gì Alan sẽ triển khai trong phần thực tế của hướng dẫn.

11:19.320 --> 11:24.810
Vì vậy, nó không dành riêng cho hướng dẫn này, không chỉ dành riêng cho hướng dẫn, mà nó dành cho toàn

11:24.810 --> 11:30.360
bộ phần này với sự khuyến khích ở đó, một số thông tin bổ sung, một số hiểu biết bổ sung ở

11:30.360 --> 11:30.840
đó.

11:30.840 --> 11:33.120
Và đó là lý do tại sao chúng tôi đưa nó lên đây.

11:33.120 --> 11:38.280
Nhưng tuy nhiên, trong hướng dẫn tiếp theo, chúng ta sẽ bắt đầu tập hợp tất cả những điều này lại với nhau, mọi thứ chúng ta đã thảo

11:38.280 --> 11:38.940
luận trước đây.

11:39.000 --> 11:40.440
Và tôi mong được gặp bạn lần sau.

11:40.440 --> 11:41.760
Và cho đến khi đó, hãy tận hưởng.

11:41.760 --> 11:42.300
TÔI.