WEBVTT

00:00.580 --> 00:03.550
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.550 --> 00:09.310
Trong câu chuyện hôm nay, chúng ta đang nói về điểm A cuối cùng trong a3c, chúng ta đang nói về lợi thế.

00:09.310 --> 00:10.240
Vì vậy, nó là đó.

00:10.240 --> 00:17.200
Chúng tôi đã nói về diễn viên, nhà phê bình và không đồng bộ trước đây và từ từ xây dựng theo cách của chúng tôi để những gì chúng ta

00:17.200 --> 00:18.550
sẽ xem xét ngày hôm nay.

00:18.550 --> 00:21.460
Và với lợi thế, chúng tôi sẽ kết hợp mọi thứ lại với nhau.

00:21.460 --> 00:23.590
Vì vậy, đây là những gì chúng tôi có cho đến nay.

00:23.590 --> 00:30.460
Chúng tôi có một mạng nơ-ron được chia sẻ giữa các tác nhân, tác nhân không đồng bộ, và sau đó chúng tôi có người chỉ

00:30.460 --> 00:33.160
trích, cũng được chia sẻ giữa các tác nhân.

00:33.160 --> 00:36.400
Vậy tất cả điều này diễn ra như thế nào và tại sao lời phê bình này lại được chia sẻ giữa các tác nhân?

00:36.430 --> 00:37.390
Chúng ta hãy xem xét điều đó.

00:37.390 --> 00:38.830
Vâng, hiểu điều này tốt hơn.

00:38.830 --> 00:39.790
Chúng ta sẽ xem xét một ví dụ.

00:39.790 --> 00:44.680
Ví dụ, chúng ta sẽ xem xét tác nhân này và xem điều gì sẽ xảy ra khi anh ta ở một trạng thái nhất định và anh ta

00:44.680 --> 00:46.570
cần đưa ra quyết định hành động nào để chơi.

00:46.570 --> 00:48.700
Vì vậy, đại lý này đang ở trong tình trạng.

00:48.700 --> 00:50.110
Anh ta nhìn thấy hình ảnh này.

00:50.680 --> 00:55.840
Và sau đó những gì sẽ xảy ra là thông tin này đi vào mạng nơ-ron, nó đi

00:55.840 --> 01:00.310
qua lớp chập, sau đó đi vào lớp gộp, rồi đi vào lớp làm phẳng.

01:00.580 --> 01:03.790
Và từ đó nó đi vào các lớp ẩn của mạng nơ-ron.

01:03.790 --> 01:10.930
Và sau đó như một đầu ra, anh ta nhận được tất cả các giá trị chính sách này, các giá trị hoặc chính sách, và

01:10.930 --> 01:14.110
anh ta cũng nhận được giá trị, giá trị phê bình.

01:14.110 --> 01:21.010
Và vì vậy, như chúng ta đã biết, mạng nơ-ron, để hoạt động, chúng cần truyền lại một số lỗi hoặc tổn thất

01:21.010 --> 01:22.660
nhất định thông qua mạng.

01:22.660 --> 01:28.660
Vì vậy, theo cách này, để cập nhật trọng số, vậy trọng số hoặc vì vậy những tổn thất nào chúng ta sẽ giải

01:28.660 --> 01:29.440
quyết ở đây?

01:29.440 --> 01:30.460
Chà, chúng ta đã có hai lần thua lỗ.

01:30.460 --> 01:32.800
Chúng tôi đã bị mất giá trị và mất chính sách.

01:32.800 --> 01:36.490
Vì vậy, tổn thất giá trị được liên kết với tổn thất chính sách giá trị được liên kết với chính sách.

01:36.730 --> 01:40.570
Và giá trị của sự mất mát, chúng tôi đã xử lý nó trước đây.

01:40.570 --> 01:46.360
Chúng tôi biết rằng chúng tôi có phần thưởng và chúng tôi biết rằng chúng tôi có hệ số chiết khấu.

01:46.360 --> 01:54.580
Vì vậy, về cơ bản, điều này rất giống với những gì chúng ta đã nói trong phần hướng dẫn học sâu.

01:54.580 --> 02:02.830
Về cơ bản, mạng lưới dự đoán một giá trị V nhất định và đồng thời chúng ta có thể ước tính những gì nên dựa trên những gì

02:02.830 --> 02:05.440
chúng ta biết về môi trường cho đến nay.

02:05.440 --> 02:10.990
Chúng ta có thể ước tính giá trị V nên ở trạng thái nào và bằng cách so sánh hai giá trị, chúng ta có thể tính toán sự

02:10.990 --> 02:13.660
mất giá trị và sau đó truyền lại mạng, cập nhật trọng số.

02:13.660 --> 02:15.070
Vì vậy, đó là khá đơn giản.

02:15.070 --> 02:17.350
Cái mới ở đây là chính sách thất thu.

02:17.470 --> 02:21.490
Và như vậy mất mát chính sách này là gì và nó hoạt động như thế nào?

02:21.490 --> 02:28.420
Chà, đây là phần mà toàn bộ tình huống này, nơi mà những lời chỉ trích được chia sẻ giữa các diễn

02:28.420 --> 02:32.320
viên hoặc giữa các đặc vụ cuối cùng sẽ xuất hiện.

02:32.320 --> 02:38.560
Vì vậy, để hiểu mất chính sách, chúng ta cần giới thiệu một giá trị được gọi là lợi thế, do đó tên của

02:38.560 --> 02:42.520
phần này của hướng dẫn này và toàn bộ phần này của thuật toán.

02:42.520 --> 02:47.650
Lợi thế và lợi thế được tính bằng Q của S và A trừ đi V của S.

02:47.650 --> 02:54.490
Vì vậy, về cơ bản, giá trị Q mà bạn chọn để chơi của hành động mà bạn đã chọn để chơi ở trạng thái bạn đang

02:54.490 --> 02:57.340
ở, chẳng hạn, trừ đi giá trị của trạng thái đó.

02:57.340 --> 03:00.640
Vì vậy, đây là sự khác biệt giữa hai và đó được gọi là lợi thế.

03:00.640 --> 03:04.690
Và lợi thế được sử dụng trong việc tính toán tổn thất của chính sách.

03:04.720 --> 03:09.340
Bây giờ, chúng ta sẽ không đi sâu vào công thức tính toán tổn thất chính sách vì nó khá phức tạp.

03:09.340 --> 03:12.520
Nó sử dụng entropy hoặc nó có thể sử dụng entropy không cần thiết.

03:12.880 --> 03:16.960
Chúng tôi sẽ không mổ xẻ công thức đó, nhưng chúng tôi sẽ hiểu điều này ở mức độ trực quan.

03:16.960 --> 03:17.740
Tại sao chúng ta lại làm việc này?

03:17.740 --> 03:21.430
Tại sao chúng ta lại tính toán lợi thế này và nó sẽ giúp chúng ta như thế nào?

03:21.430 --> 03:23.950
Vâng, chúng ta hãy nhìn vào điều này trong một giây.

03:23.950 --> 03:30.250
Giá trị Q ở đây đến từ những gì mạng nơ-ron đã dự đoán cho tác nhân này.

03:30.820 --> 03:36.430
Vì vậy, nó đã dự đoán trong hành động cụ thể này, trong trạng thái cụ thể này cho hành động mà nó có thể chơi.

03:36.430 --> 03:41.650
Vì vậy, nó có những hành động này và nó có thể chọn một trong số chúng và nó có thể chơi tốt.

03:41.650 --> 03:46.390
Trong khi giá trị V là giá trị được quy định bởi nhà phê bình.

03:46.390 --> 03:49.990
Đó là giá trị mà chúng tôi có ở đây trong phần chia sẻ này.

03:49.990 --> 03:52.240
Và đó là chìa khóa ở đây, rằng phần này được chia sẻ.

03:52.240 --> 03:58.660
Vì vậy, nhà phê bình bởi vì đây là cách nhà phê bình phát huy tác dụng, bởi vì chúng tôi có một giá trị mà chúng tôi chọn hoặc hành động

03:58.660 --> 04:01.750
mà chúng tôi chọn để chơi cho tác nhân này trong trạng thái đó.

04:01.750 --> 04:07.090
Nhưng sau đó nhà phê bình có thể cho chúng ta biết giá trị đã biết của trạng thái đó là gì không?

04:07.090 --> 04:13.960
Giá trị tổng thể đã biết cho toàn bộ nhóm tác nhân đang hoạt động cùng nhau này là bao nhiêu?

04:13.960 --> 04:18.340
Bởi vì họ đang chia sẻ không chỉ bởi vì họ đang chia sẻ bản chất, mà bởi vì họ đang chia sẻ những lời chỉ trích.

04:18.340 --> 04:23.170
Tất cả đều đóng góp vào điều này cho những giá trị này đang được tính toán cho các trang web khác nhau.

04:23.170 --> 04:28.930
Vì vậy, toàn bộ thuật toán a3c cho biết, được, vì vậy nhà phê bình biết một giá trị V.

04:28.960 --> 04:35.230
Giá trị Q mà bạn đang chọn tốt hơn bao nhiêu so với giá trị V đã biết?

04:35.230 --> 04:36.370
Đó là những gì nó đang nói.

04:36.370 --> 04:37.840
Vì vậy, về cơ bản đó là nó.

04:37.840 --> 04:44.800
Vậy được rồi, tôi sẽ chọn một giá trị Q ở đây dựa trên chính sách của tôi, dựa trên việc chúng tôi sử dụng bất cứ

04:44.800 --> 04:50.710
thứ gì như hàm max mềm hay chính sách tham lam của epsilon hoặc những thứ tương tự như vậy, và tất

04:50.740 --> 04:56.950
nhiên sẽ có thăm dò cộng với khai thác được kết hợp trong đó, nhưng chúng tôi chọn một giá trị Q và bây

04:56.950 --> 04:59.170
giờ câu hỏi là phần thêm là gì?

04:59.170 --> 04:59.640
Đó là gì?

04:59.740 --> 05:00.880
Lợi thế để có cơ hội chạy.

05:00.910 --> 05:07.630
Lợi thế mà hành động đã chọn của bạn mang lại so với giá trị đã biết của trạng thái đó là gì?

05:07.630 --> 05:09.370
Và đó là bản chất của lợi thế.

05:09.370 --> 05:16.450
Và về cơ bản sau đó được sử dụng để tính toán tổn thất chính sách và sau đó tổn thất chính sách sau đó được truyền ngược trở lại

05:16.450 --> 05:17.860
thông qua mạng trở lại.

05:17.860 --> 05:23.830
Vì vậy, cả hai đều được truyền ngược lại qua mạng và trọng số được điều chỉnh để mạng thể hiện tốt

05:23.830 --> 05:26.080
hơn giá trị của người chỉ trích.

05:26.080 --> 05:28.180
Và đó cũng là phần trên cùng này.

05:28.180 --> 05:34.450
Nhưng rồi đây cũng là một phần mấu chốt ở đây là giá trị, trọng số quay trở lại khi chính sách thua lỗ này được truyền bá

05:34.450 --> 05:35.020
trở lại.

05:35.020 --> 05:41.170
Các trọng lượng được điều chỉnh theo cách sao cho lợi thế này được phát huy tối đa.

05:41.170 --> 05:46.540
Vì vậy, đó là khía cạnh trực quan của sự hiểu biết trực quan về nó, rằng chúng tôi đang trở lại

05:46.540 --> 05:51.820
tuyên truyền sự mất mát chính sách này thông qua mạng lưới để giúp tối đa hóa lợi thế này.

05:51.970 --> 05:57.580
Và điều đó có nghĩa là về cơ bản khi một tác nhân bắt gặp các hành động xấu, chẳng hạn như các hành động

05:57.580 --> 06:00.850
mà giá trị Q nhỏ hơn giá trị đã biết cho trạng thái này.

06:00.850 --> 06:07.150
Vì vậy, về cơ bản toàn bộ thuật toán biết rằng giá trị của trạng thái là một cái gì đó X và sau đó đột nhiên bạn

06:07.150 --> 06:11.620
bắt gặp một hành động rất xấu và bạn đã làm một, bạn đã chọn một hành động xấu.

06:11.620 --> 06:16.480
Và điều đó có nghĩa là gì đối với thuật toán a3c có nghĩa là, tại sao chúng ta lại làm điều gì đó

06:16.480 --> 06:21.430
như vậy khi nó tồi tệ hơn những gì chúng ta đã biết về toàn bộ môi trường này và những gì chúng ta có thể

06:21.430 --> 06:21.850
đã làm.

06:21.850 --> 06:23.380
Vì vậy, chúng ta không nên làm nhiều hơn thế.

06:23.380 --> 06:25.810
Và do đó trọng lượng được điều chỉnh theo một cách.

06:25.810 --> 06:29.590
Vì vậy, điều đó xảy ra hiếm hơn để nó xảy ra ít hiếm hơn.

06:30.130 --> 06:33.310
Vì vậy, đó là trường hợp ít xảy ra hơn mà chúng ta chọn hành động xấu đó.

06:33.310 --> 06:38.260
Mặt khác, nếu bạn chọn một hành động rất tốt trong đó giá trị Q lớn hơn V hoặc lớn hơn nhiều

06:38.260 --> 06:42.640
so với giá trị đã xảy ra trong quá trình lan truyền ngược lại sự mất mát chính sách

06:42.640 --> 06:50.320
thông qua mạng, trọng số sẽ được cập nhật theo cách để củng cố điều đó , để khuyến khích, trấn an rằng sẽ xảy ra một lần nữa để các quả cân sẽ

06:50.320 --> 06:52.150
được điều chỉnh theo hướng như vậy.

06:52.420 --> 06:55.060
Vì vậy, thuật toán ba C sẽ nghĩ rằng, Ồ, thật tuyệt.

06:55.060 --> 06:56.680
Lợi thế là rất cao ở đó.

06:56.680 --> 07:03.670
Tôi nên làm nhiều việc đó hơn và do đó nó sẽ cập nhật trọng số theo cách mà hành động đó sẽ có nhiều khả năng

07:03.670 --> 07:05.440
xảy ra hơn trong tương lai.

07:05.440 --> 07:13.540
Vì vậy, đó là cách mạng từ từ, dần dần thích ứng và từ từ tự xây dựng thành một thứ

07:13.840 --> 07:19.690
mà một mặt tính toán giá trị một cách chính xác và mặt khác, hoặc

07:19.690 --> 07:21.790
càng chính xác càng tốt.

07:21.790 --> 07:28.120
Và mặt khác, nó khuyến khích hoặc nó có những hành động có lợi thế cao.

07:28.120 --> 07:29.200
Vậy là xong.

07:29.200 --> 07:30.490
Đó là phần này.

07:30.490 --> 07:34.600
Và bây giờ chúng ta hãy xem xét một cái khác chỉ để củng cố những gì chúng ta vừa thảo luận.

07:34.600 --> 07:35.710
Vì vậy, chúng ta hãy nhìn vào một trong những hàng đầu.

07:35.710 --> 07:37.180
Vì vậy, điều tương tự ở đây.

07:37.180 --> 07:40.870
Các đại lý hàng đầu nhìn thấy một tình huống.

07:40.870 --> 07:44.140
Một trạng thái đang ở trong một trạng thái và sau đó cần phải quyết định những gì cần làm.

07:44.140 --> 07:46.540
Vì vậy, gửi thông tin này đến mạng.

07:46.540 --> 07:50.970
Vì vậy, hình ảnh này đi vào mạng, đi đến lớp tổng hợp lớp phức hợp, lớp làm

07:50.980 --> 07:52.960
phẳng, nó đi vào các lớp ẩn.

07:52.960 --> 07:58.480
Và sau đó từ đây chúng ta nhận được một đầu ra, chúng ta nhận được các giá trị Q của chính sách, chúng ta nhận lại các giá trị,

07:58.480 --> 07:59.080
điều tương tự.

07:59.080 --> 08:00.850
Chúng tôi đã có hai tổn thất.

08:00.850 --> 08:05.110
Chúng ta đã có sự mất giá trị ở đây, hãy đánh bóng sự mất mát mà ở đây là sự mất giá trị.

08:05.110 --> 08:09.850
Chúng tôi đã biết cách tính toán của nó và chúng tôi đã thảo luận về vấn đề này trong nghiên cứu sâu và cũng vừa mới thảo

08:09.850 --> 08:10.720
luận về vấn đề này.

08:10.720 --> 08:12.730
Vì vậy, đó là cách giá trị được tính toán.

08:12.730 --> 08:18.340
Và sau đó là sự mất mát về chính sách, một lần nữa, để tính toán điều mà chúng tôi sẽ không đưa vào diễn

08:18.340 --> 08:25.450
đàn, nhưng ở mức độ trực quan, chúng tôi đang tính toán lợi thế là OC Vì vậy, chúng tôi đã thực hiện một hành động nhất định, chúng tôi đã chọn một

08:25.450 --> 08:30.700
hành động nhất định dựa trên chính sách lựa chọn của chúng tôi, cho dù đó là mềm, tối đa hay epsilon, tham lam

08:30.700 --> 08:34.210
hoặc bất kỳ chính sách lựa chọn nào khác mà chúng tôi đang sử dụng.

08:34.300 --> 08:37.720
Và sau đó hành động chúng tôi đã thực hiện là gì?

08:37.720 --> 08:44.500
Bây giờ chúng ta hãy so sánh nó với giá trị đã biết của trạng thái, giá trị này đến từ nhà phê bình được chia sẻ.

08:44.500 --> 08:49.450
Vì vậy, nhà phê bình này giống như, nếu bạn nghĩ về nó, anh ta đang quan sát tất cả các tác nhân này

08:49.450 --> 08:50.080
cùng một lúc.

08:50.080 --> 08:51.910
Anh ấy đang nhìn cái này, nhìn cái này, cái này.

08:51.910 --> 08:56.920
Tất cả họ đều đang đóng góp về phía nhà phê bình để khiến nhà phê bình

08:56.920 --> 09:02.650
bắt nhịp nhanh hơn với môi trường, để đảm bảo rằng nhà phê bình là đại diện cho những

09:02.650 --> 09:08.440
gì đang diễn ra trong môi trường thực tế để cân nhắc rằng đây là nơi dẫn đến mất giá

09:08.440 --> 09:16.450
trị. để trọng số của mạng nơ-ron thực tế mà chúng phản ánh rất tốt, tình hình thực tế của sự vật trong môi trường để sau

09:16.450 --> 09:20.020
đó dựa vào giá trị này rồi sử dụng tại đây.

09:20.020 --> 09:26.770
Và về cơ bản, tất cả những tác nhân này, tất cả những tác nhân này đều đóng góp vào nhà phê bình này.

09:26.770 --> 09:32.350
Nhưng đồng thời, thông qua sự mất mát giá trị này, nhưng đồng thời, nhà phê bình đang quan sát các quyết định

09:32.350 --> 09:38.140
hoặc chính sách của các tác nhân này giống như việc quay lại nhìn lại giống như tôi đang cố gắng vẽ như một mũi

09:38.140 --> 09:40.630
tên để chính sách, một mũi tên, một mũi tên.

09:40.630 --> 09:43.330
Đó là nhìn lại họ, vào những quyết định mà họ đang đưa ra.

09:43.330 --> 09:46.120
Nó chỉ trích những quyết định này thông qua lợi thế.

09:46.120 --> 09:50.140
Nó nói rằng, được rồi, bạn đã đưa ra quyết định, bạn đã chọn điều này, bạn đã chọn hành động này.

09:50.140 --> 09:51.010
Thật tuyệt.

09:51.010 --> 09:53.350
Bây giờ chúng ta hãy tính toán lợi thế hoặc bất lợi của nhánh.

09:53.350 --> 09:58.840
Đây là một bằng giá trị Q của quyết định tôi đã đưa ra hoặc lựa chọn tôi đã thực hiện.

09:59.260 --> 10:04.960
Hành động mà tôi đã chọn thực hiện trừ đi giá trị đã biết đối với nhà phê bình.

10:04.960 --> 10:06.220
Giá trị đã biết đối với nhà phê bình.

10:06.220 --> 10:07.630
Vì vậy, hãy tính toán sự khác biệt.

10:07.630 --> 10:13.870
Nếu đó là sự khác biệt thấp trong chính sách của bạn, thì khi lỗi chính sách của bạn được truyền lại thông qua mạng, cách

10:14.050 --> 10:17.890
nó sẽ được điều chỉnh sẽ khuyến khích các trọng số được điều chỉnh theo cách

10:17.890 --> 10:19.750
không xảy ra nữa, điều đó .

10:19.750 --> 10:21.160
Giá trị Q hoặc cái đó.

10:21.160 --> 10:22.780
Giá trị Q sẽ thấp hơn.

10:22.780 --> 10:28.960
Vì vậy, do chính sách của chúng tôi chọn các hành động dựa trên giá trị Q, giá trị Q càng cao thì càng có

10:28.960 --> 10:30.460
nhiều khả năng được chọn.

10:30.460 --> 10:34.930
Vì vậy, nếu chúng tôi đang sử dụng như chính sách ARG tối đa, thì chúng tôi sẽ luôn chọn chính sách có giá trị cao nhất.

10:35.010 --> 10:38.950
Như bạn còn nhớ, chúng tôi đã thảo luận về vấn đề này, sau đó chúng tôi sẽ luôn chọn cái có

10:38.950 --> 10:43.750
giá trị cao nhất, nhưng chúng tôi thực sự đang sử dụng phương pháp tiếp cận theo xác suất, trong khi họ đang sử dụng chính sách soft

10:43.750 --> 10:44.350
max hay epsilon?

10:44.350 --> 10:47.440
Và sau đó, về cơ bản chúng tôi đang chọn nơi chúng tôi có thể chọn bất kỳ một trong số chúng.

10:47.440 --> 10:49.150
Nhưng giá trị Q càng cao thì càng tốt.

10:49.150 --> 10:55.240
Vì vậy, nếu chúng ta chọn một thứ gì đó và khi đó lợi thế rất thấp, thì hãy nói, mạng sẽ được cập

10:55.240 --> 11:01.240
nhật theo cách mà lần sau giá trị Q này của thứ đó, hành động nhất định sẽ ít hơn và có thể

11:01.240 --> 11:02.740
sẽ có thứ khác hơn.

11:02.740 --> 11:05.980
Vì vậy, đó là cách mà điều đó được diễn ra.

11:05.980 --> 11:11.890
Và mặt khác, nếu chúng ta chọn thứ gì đó mà lợi thế sẽ cao, thì điều này sẽ đi vào lỗ hổng

11:11.890 --> 11:14.980
chính sách và sau đó mạng lưới sẽ được cập nhật.

11:14.980 --> 11:19.510
Vì vậy, điều đó thường được quan sát giống như kịch bản.

11:19.510 --> 11:26.620
Và về cơ bản, toàn bộ chính sách mất mát này giúp mạng thích nghi hoặc thay đổi theo cách mà chúng ta làm được nhiều

11:26.620 --> 11:31.570
thứ tốt hơn, tốt, hành động tốt và những điều tốt và ít làm những điều xấu hơn.

11:31.570 --> 11:34.840
Và đó là cách mà hai trận thua này phát huy tác dụng và đó là cách chúng lan truyền trở lại.

11:34.840 --> 11:39.160
Vì vậy, hy vọng rằng điều đó sẽ sáng tỏ theo một cách rất trực quan.

11:39.160 --> 11:44.680
Tất nhiên, chúng tôi đã không đi sâu vào các công thức vào toán học phức tạp đằng sau tất cả những điều này và

11:44.680 --> 11:46.840
thích đi vào các chi tiết rất phức tạp.

11:46.840 --> 11:52.000
Nhưng đồng thời, hy vọng theo một cách trực quan và trực quan, tất cả những điều này làm

11:52.000 --> 12:00.070
sáng tỏ lý do tại sao chúng ta có tác nhân và nhà phê bình và cách họ tương tác với nhau, rằng bạn có những tác nhân này

12:00.190 --> 12:01.030
đồng bộ.

12:01.030 --> 12:03.820
Vì vậy, đây là mặt đồng bộ của mọi thứ sau đó.

12:03.970 --> 12:07.690
Bạn biết đấy, đây là diễn viên của bạn và là nhà phê bình của bạn và đây là lợi thế của bạn và tất cả điều đó phát huy

12:07.690 --> 12:08.410
tác dụng như thế nào.

12:08.410 --> 12:10.720
Vì vậy, đây là những tác nhân đồng bộ.

12:10.720 --> 12:16.030
Họ đang chơi trò chơi này hoặc khám phá môi trường và làm việc thông qua môi trường.

12:16.030 --> 12:23.560
Và tất cả họ đều đang đóng góp cho một nhà phê bình, sau đó họ đang quan sát các chính

12:23.560 --> 12:30.430
sách của họ, quan sát các tác nhân, đó được gọi là cái gì, và thông qua lợi thế.

12:30.430 --> 12:35.560
Và do đó, dẫn đến mất chính sách này, sau đó là mất chính sách và mất

12:35.560 --> 12:43.450
giá trị, chúng được tuyên truyền trở lại để điều chỉnh mạng lưới để một mặt thể hiện cách thức thực sự của mọi thứ trong môi

12:43.450 --> 12:47.380
trường, mặt khác, để nâng cao hiệu suất của các diễn viên.

12:47.680 --> 12:48.370
Vậy là xong.

12:48.370 --> 12:52.630
Đó là bản tóm tắt nhanh về trực giác mà chúng ta đã thảo luận.

12:52.630 --> 12:56.920
Và một lần nữa, hy vọng rằng tất cả điều này sẽ kết hợp lại với nhau ở mức độ trực quan.

12:56.920 --> 13:02.530
Và tất nhiên, trong phần hướng dẫn thực hành, chúng ta sẽ nói nhiều hơn về cách hoạt động của tất cả những điều này.

13:02.530 --> 13:07.690
Và Adlon sẽ hướng dẫn bạn về điều này, quá trình xây dựng điều này, nhưng có hình ảnh này trong tâm trí bạn

13:07.690 --> 13:12.760
và loại này giống như một lộ trình của mọi thứ, cách nó kết hợp với nhau sẽ tốt, nên như vậy.

13:12.760 --> 13:18.010
Tôi hy vọng nó sẽ rất hữu ích cho bạn để điều hướng tốt hơn khía cạnh thực tế của mọi thứ.

13:18.010 --> 13:23.260
Và về cách đọc bổ sung cho ngày hôm nay, chúng tôi có hai yếu tố.

13:23.260 --> 13:25.600
Vì vậy, người đầu tiên là có lợi thế.

13:25.600 --> 13:31.900
Vì vậy, ở đây chúng tôi đã kiểm soát chiều cao, liên tục, sử dụng ước tính lợi thế tổng

13:31.990 --> 13:33.280
quát của John Shulman.

13:33.280 --> 13:38.740
Và đây là hình ảnh một hình cây gậy đang đứng dậy, giống như đang đứng lên.

13:38.740 --> 13:43.930
Và tại đây, bạn có thể tìm thấy nhiều hơn nữa về lợi thế và lợi thế và bạn sẽ tìm ra các loại

13:43.930 --> 13:44.800
lợi thế khác nhau.

13:44.800 --> 13:50.920
Vì vậy, bạn đã có ước tính lợi thế chung, bạn đã có những lợi thế mà bạn thực sự sử dụng trong, trong các

13:50.950 --> 13:52.210
công thức, trong tính toán.

13:52.210 --> 13:57.790
Vì vậy, nếu bạn muốn tìm hiểu thêm về lợi thế và chính xác cách nó hoạt động,

13:57.790 --> 14:07.780
các công thức đằng sau nó và một số phần tử hoặc công thức hàng đầu, hàng đầu và biết cách sử dụng lợi thế này mà chúng ta đã thảo luận, thì đây

14:08.080 --> 14:10.060
là bài viết để đi đến.

14:10.180 --> 14:19.960
Và một yếu tố khác nữa mà chúng tôi muốn nhắc bạn là blog, một loạt các bài đăng trên blog của Arthur Giuliani, mà

14:19.990 --> 14:23.800
chúng tôi đã đề cập đến một vài lần.

14:24.220 --> 14:27.790
Đây là phần tám, cụ thể là về a3c.

14:28.150 --> 14:33.070
Vì vậy, ở đây bạn có thể nhận được một lời giải thích khác.

14:33.490 --> 14:38.980
Vì vậy, với một chút toán học hơn về những gì đang xảy ra và có thể bạn có thể thu thập thêm một số điều từ

14:38.980 --> 14:39.340
đây.

14:39.370 --> 14:41.260
Chỉ cần ghi nhớ hai điều.

14:41.260 --> 14:45.880
Trước hết, như mọi khi, blog này nằm trong TensorFlow, trong khi chúng tôi đang sử dụng PyTorch.

14:45.880 --> 14:46.750
Vì vậy, hãy ghi nhớ điều đó.

14:46.750 --> 14:53.470
Và điều thứ hai là cách chúng tôi cấu trúc phương pháp tiếp cận của mình là trước tiên chúng tôi nói về nhà phê bình tích cực,

14:53.830 --> 14:58.300
sau đó chúng tôi nói về sự đồng bộ và sau đó chúng tôi nói về lợi thế.

14:58.480 --> 15:03.820
Trong khi đó trong blog của mình, Arthur lần đầu tiên nói về một nhà phê bình đồng bộ và thực tế và lợi thế.

15:03.820 --> 15:05.470
Vì vậy, hãy ghi nhớ điều đó.

15:05.470 --> 15:07.150
Vì vậy, hy vọng rằng điều đó không làm bạn thất vọng.

15:07.150 --> 15:12.610
Nhưng ngoài ra, tất nhiên, đó là một phần nội dung tuyệt vời và chúng tôi thực sự khuyên bạn nên xem nó

15:12.610 --> 15:14.380
để biết thêm một số thông tin.

15:14.500 --> 15:15.180
Vậy là xong.

15:15.190 --> 15:18.560
Hy vọng rằng bạn sẽ thích hướng dẫn hôm nay và tôi mong được gặp bạn lần sau.

15:18.580 --> 15:20.620
Cho đến lúc đó, hãy tận hưởng tôi.
