WEBVTT

00:00.500 --> 00:03.800
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.800 --> 00:06.920
Và cuối cùng, chúng tôi đang đến với những thứ thú vị.

00:06.920 --> 00:09.080
Chúng tôi đang học sâu.

00:09.200 --> 00:09.650
Được rồi.

00:09.650 --> 00:10.520
Vì vậy, chúng ta hãy xem xét.

00:10.550 --> 00:14.030
Trước đây, chúng tôi đã nói về học chính và tất cả về nó.

00:14.030 --> 00:20.840
Và chúng tôi đã tìm hiểu về độ tuổi và môi trường cũng như cách mà người đại diện sẽ nhìn vào trạng thái ở đây hoặc cô

00:20.840 --> 00:21.680
ấy đang ở.

00:21.710 --> 00:24.620
Thực hiện một hành động, nhận phần thưởng, vào trạng thái mới.

00:24.620 --> 00:29.360
Và dựa trên vòng lặp phản hồi đó, họ sẽ tiếp tục thực hiện các hành động và họ sẽ học hỏi

00:29.360 --> 00:32.000
từ đó, hiểu đâu là hành động tốt hơn cần thực hiện.

00:32.000 --> 00:34.880
Và vì vậy chúng tôi đã xem xét ví dụ cơ bản về mê cung này.

00:34.880 --> 00:40.370
Chúng tôi hiểu rằng khi người đại diện khám phá môi trường, hiểu giá trị của các trạng thái là gì.

00:40.400 --> 00:45.050
Sau đó, chúng tôi chuyển từ xử lý các giá trị của trạng thái sang xử lý các giá trị của các hành

00:45.050 --> 00:46.490
động hoặc các giá trị Q.

00:46.490 --> 00:53.450
Và dựa trên đó, chúng tôi hiểu cách các kế hoạch trong môi trường phi ngẫu nhiên hoạt động như thế nào và các chính sách hoạt động như

00:53.450 --> 00:55.190
thế nào trong môi trường ngẫu nhiên.

00:55.190 --> 00:56.690
Và đây là một ví dụ về một chính sách.

00:56.870 --> 01:01.160
Vì vậy, đó là bản tóm tắt nhanh mọi thứ chúng ta đã thảo luận trong phần học cơ bản.

01:01.160 --> 01:06.860
Và bây giờ chúng ta hãy xem cách này có thể được đưa lên cấp độ tiếp theo thông qua học sâu, thông qua

01:06.860 --> 01:08.060
việc bổ sung học sâu.

01:08.450 --> 01:16.040
Vì vậy, đây là môi trường của chúng ta và những gì chúng ta sẽ làm bây giờ là chúng ta sẽ thêm vào, thay vì chỉ thực hiện các phép tính cơ

01:16.040 --> 01:22.490
bản trong ma trận mà chúng ta có, điều này khá đơn giản, những gì chúng ta sẽ làm là chúng ta ' sẽ thêm vào các

01:22.490 --> 01:28.370
trục, chúng ta sẽ thêm trục X và y, hoặc chúng ta sẽ gọi chúng là x một và x hai, chỉ để làm cho

01:28.400 --> 01:30.200
mọi thứ trở nên tổng quát hơn.

01:30.230 --> 01:33.500
Và ở đây chúng tôi có chúng tôi sẽ đánh số các cột.

01:33.500 --> 01:35.930
Một, hai, ba, bốn, gót chân ở đây chúng ta sẽ đánh số các hàng.

01:35.930 --> 01:36.650
Một hai ba.

01:36.650 --> 01:43.730
Và vì vậy bây giờ mọi trạng thái đơn lẻ đều có thể được mô tả bằng một cặp hai giá trị x một và x hai.

01:43.730 --> 01:50.870
Vì vậy, bất kỳ một trong các ô vuông này mà tác nhân có thể nằm trong đó có thể được mô tả bằng x1x2.

01:50.870 --> 01:58.250
Vì vậy, chẳng hạn, ngay bây giờ anh ta đang ở trong hình vuông với x một bằng một và x hai bằng hai.

01:58.250 --> 02:03.020
Và do đó, đó là tổng mà chúng ta có thể thoát khỏi bất kỳ ô vuông nào, nghĩa là chúng ta có thể mô tả bất kỳ trạng

02:03.020 --> 02:03.350
thái nào.

02:03.350 --> 02:08.870
Và tất nhiên, đây là một phiên bản rất đơn giản của một môi trường mô tả các trạng thái, nhưng tuy nhiên, nó hoạt

02:08.870 --> 02:10.070
động trong trường hợp này.

02:10.070 --> 02:17.240
Và điều đó có nghĩa là bây giờ chúng ta có thể đưa những trạng thái này vào một mạng nơ-ron.

02:17.240 --> 02:21.620
Và nhân tiện, ở đây tôi chỉ muốn đề cập rằng vào cuối khóa học, chúng ta đã có các phụ lục,

02:21.620 --> 02:24.020
chúng ta có phụ lục số một và phụ lục số hai.

02:24.110 --> 02:28.490
Để tiến hành thành công phần này, chúng tôi khuyên bạn nên xem Phụ lục số một, về

02:28.490 --> 02:33.740
mạng nơ-ron nhân tạo, để bạn hiểu cách hoạt động của chúng để chúng ta có thể không phải đi sâu

02:34.070 --> 02:35.840
vào vấn đề đó ở đây.

02:35.840 --> 02:40.550
Và chúng ta chỉ có thể sử dụng những lợi ích của kiến thức về cách mạng nơ-ron nhân tạo hoạt động.

02:40.550 --> 02:49.160
Và do đó, chúng tôi cung cấp thông tin này về trạng thái vào một mạng nơ-ron, và sau đó nó sẽ xử lý thông tin

02:49.160 --> 02:49.670
này.

02:49.670 --> 02:54.470
Vì vậy, X, Y, x hai, tùy thuộc vào cấu trúc của mạng nơ-ron, nó có thể có nhiều

02:54.470 --> 02:55.290
lớp ẩn, v.v.

02:55.310 --> 02:58.670
Vì vậy, đó là một cái gì đó mà bạn sẽ tìm ra trong các hướng dẫn thực hành.

02:58.670 --> 03:04.520
Nhưng cuối cùng, chúng ta sẽ cấu trúc theo cách mà nó tạo ra bốn giá trị, và bốn giá trị này thực sự sẽ

03:04.520 --> 03:06.500
là giá trị gợi ý của chúng ta.

03:06.500 --> 03:09.830
Vì vậy, các giá trị quyết định hành động nào chúng ta cần thực hiện.

03:09.830 --> 03:14.420
Và sâu hơn trong hướng dẫn này, chúng ta sẽ xem chính xác cách các giá trị Q này được sử dụng để quyết định hành động nào

03:14.420 --> 03:14.990
được thực hiện.

03:14.990 --> 03:22.430
Nhưng điểm chính ở đây là chúng ta không còn chỉ nhìn mê cung này từ góc độ học tập nữa.

03:22.430 --> 03:29.720
Bây giờ chúng tôi đang lấy các trạng thái của mê cung và chúng tôi đang đưa chúng vào một mạng nơ-ron sâu để nhận được các giá

03:29.720 --> 03:30.830
trị gợi ý này.

03:30.830 --> 03:33.860
Và vào cuối ngày, chúng tôi vẫn sẽ đưa ra một hành động.

03:33.860 --> 03:36.920
Chúng tôi vẫn sẽ hiểu cách chúng tôi cần thực hiện hành động nào.

03:36.920 --> 03:38.900
Và chúng ta sẽ thảo luận chi tiết hơn về tất cả những điều này.

03:38.900 --> 03:40.340
Nhưng câu hỏi ngay bây giờ là tại sao?

03:40.340 --> 03:41.870
Tại sao chúng ta làm tất cả những điều này?

03:41.870 --> 03:42.900
Tại sao chúng tôi tuân thủ?

03:42.950 --> 03:47.690
Tại sao chúng ta lại khiến mọi thứ trở nên phức tạp hơn nhiều khi cách tiếp cận học tập ban đầu đó đã hoạt động

03:47.690 --> 03:48.140
hiệu quả?

03:48.320 --> 03:54.440
Chà, lý do cho điều đó là việc học đã hoạt động trong môi trường rất đơn giản này, và hiện tại chúng tôi

03:54.440 --> 03:59.750
đang tiếp tục xử lý với môi trường rất đơn giản này để hiểu rõ hơn về các khái niệm.

03:59.750 --> 04:05.930
Nhưng đồng thời, cách học đơn giản đó sẽ không còn hiệu quả trong những môi trường phức tạp hơn.

04:05.930 --> 04:12.020
Và chúng tôi đang nói về ví dụ, những chiếc xe tự lái sẽ tạo ra hoặc chơi trò diệt

04:12.260 --> 04:18.590
vong khi trí tuệ nhân tạo đang chơi trò diệt vong hoặc các trò chơi Atari khác như Breakout hoặc thậm

04:18.590 --> 04:26.480
chí xe tự lái và những thứ học tập củng cố nâng cao hơn như rô bốt đi bộ xung quanh và thực hiện các hành động.

04:26.480 --> 04:30.380
Trong tất cả những trường hợp đó, học căn bản chưa đủ, chưa vững.

04:30.380 --> 04:34.610
Nó không đủ mạnh để có thể làm chủ những thử thách đó.

04:34.610 --> 04:39.980
Và cũng giống như chúng ta đã thấy trong khóa học học sâu, nếu bạn đã tham gia khóa học triển

04:39.980 --> 04:45.680
khai của chúng tôi hoặc nếu bạn đã thực hiện các phần phụ lục, phụ lục số một và hai, bạn sẽ thực

04:45.680 --> 04:51.560
sự biết rằng học sâu vượt trội hơn nhiều so với bất kỳ loại học máy nào, chứ đừng nói đến học đơn giản.

04:51.560 --> 04:54.140
Và đó là lý do tại sao chúng tôi đang tận dụng sức mạnh của học sâu ở đây.

04:54.140 --> 04:58.430
Vì vậy, chúng tôi đang cung cấp thông tin về môi trường dưới dạng véc tơ các giá trị.

04:58.430 --> 04:59.330
Vì vậy, trong trường hợp này, chỉ để.

04:59.380 --> 05:01.270
Các giá trị trong một mạng nơ-ron sâu.

05:01.270 --> 05:06.460
Và sau đó chúng tôi sử dụng nó để thực hiện các hành động mà chúng tôi muốn quyết định hành động nào mà các tác nhân

05:06.460 --> 05:07.170
sẽ thực hiện.

05:07.180 --> 05:11.590
Vì vậy, đó giống như một tổng quan cấp cao về lý do tại sao chúng tôi làm điều này.

05:11.590 --> 05:17.860
Và bây giờ chúng ta hãy xem xét chi tiết hơn một chút điều gì sẽ xảy ra với các khái niệm về học chính khi

05:17.860 --> 05:23.860
chúng ta chuyển đổi, khi chúng ta thực hiện chuyển đổi này từ hoặc chuyển đổi từ học đơn giản sang học sâu.

05:23.860 --> 05:31.180
Vì vậy, như bạn đã thấy trong các hướng dẫn về trực giác trước, chúng ta đã có một slide như thế này, đây là nền tảng

05:31.180 --> 05:33.520
của việc học khác biệt theo thời gian.

05:33.520 --> 05:37.390
Đây là công thức cho sự khác biệt theo thời gian và về cơ bản, chúng ta hãy xem xét nó.

05:37.390 --> 05:45.520
Vì vậy, về cơ bản chúng tôi đã có một đại lý ở trạng thái này ở đây, được chỉ ra bởi Blue Arrow, và chúng tôi đang hiểu

05:45.520 --> 05:51.340
cách thức hoạt động của chênh lệch thời gian đối với giá trị gợi ý này, chẳng hạn, tăng lên.

05:51.520 --> 05:56.410
Và vì vậy những gì chúng ta thấy ở đây là trước đây là trong học tập đơn giản, không phải học sâu.

05:56.410 --> 05:57.550
Điều này trong học tập đơn giản.

05:57.580 --> 06:05.710
Những gì chúng tôi thấy là trước khi người đại diện có một giá trị sắc thái nhất định mà anh ta đã biết về hành động đi lên

06:05.710 --> 06:06.130
này.

06:06.130 --> 06:08.620
Và vì vậy, sau đó anh ta quyết định thực hiện hành động này để đi lên.

06:08.620 --> 06:15.520
Và ngay sau khi anh ta thực hiện hành động này, anh ta sẽ nhận được phần thưởng cho hành động này trong trạng thái này, và đó chính là

06:15.520 --> 06:16.420
phần thưởng đó.

06:16.420 --> 06:22.720
Ngoài ra, bây giờ anh ta có thể đánh giá giá trị của trạng thái hiện tại mà anh ta đang ở, đây là giá trị tối đa của tất cả các giá trị

06:22.720 --> 06:25.780
dấu hiệu mới, của tất cả các giá trị dấu hiệu, của các hành động mới.

06:25.780 --> 06:32.170
Anh ta có thể lấy một số nguyên tố ở trạng thái mới làm số nguyên tố và chúng ta nhân nó với hệ số phân rã của gamma.

06:32.170 --> 06:40.420
Vì vậy, về cơ bản đó là tín hiệu, giá trị tín hiệu mới hoặc loại tương tự như giá trị tín hiệu thực nghiệm mà anh ta vừa

06:40.420 --> 06:43.000
nhận được khi thực hiện hành động đó.

06:43.000 --> 06:45.550
Và lý tưởng nhất là hai cái này phải giống nhau.

06:45.550 --> 06:51.010
Vì vậy, đó thực sự là giá trị gợi ý mà anh ta có trong trí nhớ về hành động này ở

06:51.010 --> 06:57.370
trạng thái này, nó sẽ tương đương với phần thưởng thực tế, cộng với gamma lần, giá trị của trạng thái mà anh ta đã kết thúc.

06:57.370 --> 06:59.800
Và do đó, đó là cách chúng tôi tính toán sự khác biệt theo thời gian.

06:59.800 --> 07:05.110
Chúng tôi lấy những gì anh ấy nhận được sau khi trừ đi những gì anh ấy nhận được, những gì anh ấy có trong đầu, những gì anh ấy đang mong đợi.

07:05.110 --> 07:07.600
Bạn sẽ trừ một cái khỏi cái kia, và đó là sự khác biệt về thời gian của bạn.

07:07.600 --> 07:14.860
Và sau đó, bạn sử dụng alpha tốc độ học tập của mình để điều chỉnh giá trị Q của bạn Giá trị tín hiệu mới của bạn theo chênh

07:14.860 --> 07:16.840
lệch thời gian, nhưng với hệ số alpha.

07:16.840 --> 07:20.260
Vì vậy, đó là bản chất của việc học dấu hiệu đơn giản.

07:20.260 --> 07:24.310
Bây giờ chúng ta hãy xem nó thay đổi như thế nào trong học sâu.

07:24.310 --> 07:29.350
Và vì vậy chúng tôi vẫn sẽ làm việc với slide, nhưng chúng tôi sẽ chỉ xem chính xác những gì đang xảy ra.

07:29.350 --> 07:35.440
Vì vậy, trong học tập sâu, mạng nơ-ron sẽ dự đoán bốn giá trị, như chúng ta đã thấy trong trang trình bày trước.

07:35.440 --> 07:40.870
Và như chúng ta sẽ xem thêm trong hướng dẫn này, mạng nơ-ron sẽ dự đoán bốn giá trị hoặc nó có thể dự đoán nhiều

07:40.870 --> 07:44.710
giá trị hơn nếu có nhiều hành động khả thi hơn trong một trạng thái nhất định.

07:44.710 --> 07:48.430
Nhưng trong trường hợp này, chúng ta biết rằng chỉ có bốn hành động thẳng đứng, sang trái hoặc hướng xuống.

07:48.430 --> 07:53.080
Và do đó mạng nơ-ron sẽ dự đoán bốn giá trị trong số này.

07:53.080 --> 07:56.710
Vì vậy, sẽ không có trong một tình huống học sâu.

07:56.710 --> 07:58.750
Điều quan trọng là phải hiểu không có trước hay sau.

07:58.750 --> 08:01.510
Và đây là cách chúng ta sẽ biết điều này tốt hơn một chút.

08:01.510 --> 08:08.050
Vì vậy, mạng nơ-ron sẽ dự đoán bốn trong số các giá trị này, và nó sẽ không so sánh với những gì sẽ xảy ra

08:08.050 --> 08:11.740
sau đó, nhưng mạng nơ-ron sẽ so sánh với giá trị chính xác này.

08:11.740 --> 08:17.530
Nhưng đó là giá trị này đã được tính toán ở bước trước.

08:17.530 --> 08:22.870
Vì vậy, trong thời gian trước khi đại lý ở chính xác hình vuông này.

08:22.870 --> 08:30.400
Vì vậy, giả sử, tôi không biết, một thời gian trước đây, tác nhân cũng đã ở trong ô vuông chính xác

08:30.400 --> 08:34.210
này, và nó đã tính toán giá trị này trước đó.

08:34.210 --> 08:40.270
Vì vậy, trong thời gian trước, rất lâu, đại lý tính toán giá trị này, sau đó đại lý lưu trữ giá trị

08:40.270 --> 08:43.510
này cho tương lai và bây giờ tương lai đã đến.

08:43.510 --> 08:48.580
Vì vậy, bây giờ anh ta lại ở trong hình vuông và bây giờ anh ta có những giá trị Q này, được dự đoán và một trong

08:48.580 --> 08:50.410
số đó là cho bốn giá trị tăng lên.

08:50.410 --> 08:57.160
Vì vậy, bây giờ những gì anh ta sẽ làm là so sánh giá trị dự đoán của Q với giá trị này mà anh ta đã

08:57.160 --> 08:58.600
ghi lại từ lần trước.

08:58.930 --> 09:01.840
Và chúng tôi sẽ hiểu chính xác lý do tại sao điều này lại quan trọng ngay bây giờ.

09:01.840 --> 09:06.910
Vì vậy, điều quan trọng cần hiểu ở đây là không có một sĩ quan nào trong hình vuông

09:06.910 --> 09:13.540
cụ thể này, lần này chúng tôi đang lấy giá trị Q mà anh ta dự đoán bằng cách sử dụng mạng nơ-ron lần này.

09:13.540 --> 09:20.170
Và chúng tôi đang so sánh nó với giá trị này mà anh ta có được từ lần trước, từ lần trước khi anh ta ở trong

09:20.170 --> 09:22.930
quảng trường này để đánh giá tất cả tình hình.

09:22.930 --> 09:28.060
Và, bạn biết đấy, giống như lần trước anh ấy thực sự thực hiện hành động này.

09:28.060 --> 09:29.230
Vậy là xong.

09:29.230 --> 09:33.280
Bây giờ chúng ta hãy xem tất cả điều này hoạt động như thế nào trong mạng nơ-ron và tại sao.

09:33.280 --> 09:35.110
Tại sao nó lại như vậy?

09:35.110 --> 09:39.520
Tôi biết nó có vẻ hơi phức tạp ngay bây giờ, nhưng chúng ta sẽ chia nó thành các thuật ngữ đơn giản, đúng, chỉ trong

09:39.520 --> 09:39.940
giây lát.

09:39.940 --> 09:44.500
Vì vậy, mạng nơ-ron này mà chúng ta đang cung cấp trong các trạng thái của môi trường vào mạng nơ-ron đang

09:44.500 --> 09:45.550
đi qua các lớp ẩn.

09:45.550 --> 09:47.200
Sau đó, nó sẽ xuất hiện với những kết quả đầu ra này.

09:47.230 --> 09:48.760
Q1, Q2, Q3, Q4.

09:48.760 --> 09:56.770
Trong trạng thái cụ thể đó, đây là các giá trị gợi ý mà mạng nơ-ron dự đoán cho các hành động có thể xảy

09:56.770 --> 09:57.310
ra.

09:57.310 --> 09:58.180
Đó là các giá trị Q.

09:58.180 --> 09:59.260
Vì vậy, sau đó chúng tôi.

09:59.360 --> 10:04.610
So sánh với mục tiêu và các mục tiêu này là chính xác nên nếu chúng ta quay lại đây, đây là mục tiêu.

10:04.610 --> 10:07.100
Vì vậy, đây là giá trị đã được dự đoán.

10:07.100 --> 10:11.600
Và sau đó, nhưng chúng tôi cũng biết rằng chúng tôi có một mục tiêu từ lần cuối cùng chúng tôi ở quảng trường.

10:11.600 --> 10:16.430
Ví dụ, chúng tôi có một mục tiêu cho cùng một hành động này.

10:16.430 --> 10:18.770
Vì vậy, ở đây chúng tôi có một mục tiêu và chúng tôi sẽ so sánh.

10:18.770 --> 10:20.750
Vì vậy, chúng tôi đang so sánh Q1 với mục tiêu đó.

10:20.750 --> 10:24.890
Chúng tôi đang so sánh Q Two với mục tiêu đó, mục tiêu mà chúng tôi đã có từ trước đó.

10:25.310 --> 10:26.480
Q Ba so với mục tiêu.

10:26.480 --> 10:28.070
Q Bốn so với mục tiêu.

10:28.070 --> 10:36.530
Và đây là phần mà mạng nơ-ron hoặc tác nhân hiện đang học thông qua học sâu về cách đi xuyên

10:36.530 --> 10:38.580
không gian tốt hơn.

10:38.600 --> 10:41.950
Và điểm mấu chốt ở đây là chúng tôi vẫn đang áp dụng.

10:41.960 --> 10:47.180
Q Học, nhưng các khái niệm trong, trong cách học đơn giản, bạn học thông qua những khác biệt về thời gian, điều này khá

10:47.180 --> 10:50.630
đơn giản, mà chúng ta đã thảo luận và chúng ta đã biết khá rõ.

10:50.630 --> 10:54.530
Nhưng đồng thời, trong học sâu, mạng nơ-ron học như thế nào?

10:54.530 --> 10:56.870
Chà, mạng nơ-ron học thông qua việc điều chỉnh trọng lượng của chúng.

10:56.870 --> 11:07.040
Vì vậy, chúng ta phải điều chỉnh các khái niệm củng cố các khái niệm của khóa học đơn giản với cách mạng nơ-ron thực

11:07.040 --> 11:08.450
sự hoạt động.

11:08.450 --> 11:10.820
Và đó là thông qua việc cập nhật trọng lượng của chúng.

11:10.820 --> 11:12.500
Và đây là những gì chúng tôi đang cố gắng tìm ra ở đây.

11:12.500 --> 11:19.130
Làm thế nào để chúng ta điều chỉnh khái niệm về sự khác biệt theo thời gian đó với mạng nơ-ron để chúng tôi có thể tận dụng

11:19.130 --> 11:20.960
toàn bộ sức mạnh của mạng nơ-ron?

11:20.990 --> 11:22.160
Và cho đến nay chúng tôi đã nhận được điều này.

11:22.160 --> 11:28.610
Vì vậy, chúng tôi nhập trạng thái môi trường của chúng tôi ở đây khi một vectơ đi qua một mạng nơ-ron, chúng tôi nhận được các dự đoán về

11:28.610 --> 11:29.360
giá trị Q.

11:29.360 --> 11:34.340
Và sau đó từ lần trước đại lý ở trạng thái đó, chúng tôi có những thứ này.

11:34.340 --> 11:35.090
Mục tiêu Q.

11:35.090 --> 11:39.230
Q Nhắm mục tiêu một, hai, ba và bốn cho mỗi hành động tương ứng này.

11:39.230 --> 11:43.040
Và vì vậy bây giờ chúng ta đã ổn, hãy so sánh từng cái với từng cái.

11:43.340 --> 11:50.360
Và từ đây, nó trở nên khá đơn giản nếu bạn bắt kịp tốc độ với mạng nơ-ron.

11:50.360 --> 11:52.350
Một lần nữa, đó là tất cả trong một phụ lục.

11:52.370 --> 11:57.890
Thứ nhất, chúng ta sẽ tính toán một khoản lỗ, đó là L ở đây và chúng ta sẽ như vậy.

11:57.890 --> 12:01.400
Q Nhắm mục tiêu cái này trừ đi Q trừ cái này.

12:01.700 --> 12:02.900
Chúng ta sẽ giải quyết vấn đề đó.

12:02.900 --> 12:06.500
Vì vậy, sự khác biệt bình phương của mỗi một trong số này và chúng tôi sẽ tính tổng chúng.

12:06.500 --> 12:11.840
Vì vậy, chúng tôi sẽ lấy tổng bình phương chênh lệch của các giá trị Q này và mục tiêu của chúng, và chúng tôi sẽ tổng hợp chúng

12:11.840 --> 12:13.760
lại và đó sẽ là tổn thất của chúng tôi.

12:13.760 --> 12:19.160
Và rất lý tưởng, giống như chúng ta đã học trong quá trình học về sự khác biệt theo thời gian, vì vậy nếu chúng ta quay lại một giây,

12:19.160 --> 12:24.770
hãy nhớ rằng chúng ta đã nói một cách lý tưởng rằng chúng ta muốn điều này bằng với điều này, vì vậy chúng ta muốn chênh lệch thời gian bằng

12:24.770 --> 12:25.100
0.

12:25.100 --> 12:32.420
Vì vậy, điều đó có nghĩa là về cơ bản tác nhân dự đoán chính xác giá trị Q mà tác

12:32.420 --> 12:34.610
nhân dự đoán là chính xác.

12:34.610 --> 12:38.060
Hoặc rằng anh ta có một trí nhớ mô tả chính xác về môi trường.

12:38.360 --> 12:42.650
Và do đó, tác nhân có thể điều hướng điều hướng môi trường khá tốt.

12:42.650 --> 12:42.920
Đúng.

12:42.920 --> 12:43.940
Không có gì ngạc nhiên.

12:43.940 --> 12:49.700
Sẽ không có nếu sự khác biệt theo thời gian này là tích cực hoặc tiêu cực cao, thì chúng ta sẽ

12:49.700 --> 12:51.260
có một số bất ngờ.

12:51.260 --> 12:55.400
Nhưng nếu sự khác biệt về thời gian bằng 0, thì anh ta hiểu rất rõ về môi trường nên anh ta có thể dự đoán điều gì đang xảy

12:55.400 --> 12:56.510
ra và anh ta có thể làm được.

12:56.510 --> 13:01.070
Và do đó chính sách của anh ấy sẽ rất tốt và anh ấy sẽ có thể điều hướng nó.

13:01.070 --> 13:02.630
Vì vậy, ở đây, cùng một điều.

13:02.630 --> 13:07.400
Vì vậy, chúng tôi muốn khoản lỗ này càng gần bằng 0 cộng với càng nhỏ càng tốt.

13:07.400 --> 13:14.600
Và đó là lý do tại sao bây giờ chúng ta đi đến đây là phần mà chúng ta sẽ tận dụng sức mạnh thực sự thực sự

13:14.600 --> 13:15.590
của mạng nơ-ron.

13:15.590 --> 13:21.410
Vì vậy, chúng ta sẽ nhận sự mất mát này và chúng ta sẽ sử dụng sự lan truyền ngược hoặc gốc gradient ngẫu

13:21.410 --> 13:27.650
nhiên để lấy sự mất mát này và chuyển nó qua mạng, chuyển nó trở lại hoặc quay trở lại, truyền qua mạng và thông

13:27.650 --> 13:29.360
qua nguồn gốc gradient ngẫu nhiên.

13:29.420 --> 13:36.950
Cập nhật trọng số của các tóm tắt này trong mạng để lần sau chúng ta xem qua mạng này, trọng số đã mô tả tốt hơn

13:36.950 --> 13:41.000
một chút về môi trường và đó chính xác là cách nó hoạt động.

13:41.000 --> 13:47.630
Vì vậy, ở đây bạn có nếu bạn quay trở lại, điều này được tính toán, tổn thất được tính toán và nó được truyền cho

13:47.630 --> 13:48.020
mạng.

13:48.020 --> 13:49.100
Các trọng lượng được cập nhật.

13:49.100 --> 13:55.280
Sau đó, lần sau khi chúng ta đến đây, điều này lại xảy ra và chúng ta đến đây, điều này lặp lại, vân vân và vân vân và

13:55.280 --> 13:56.600
nó tiếp tục xảy ra.

13:56.600 --> 13:59.900
Và đó là cách mà đại lý này học hỏi.

13:59.900 --> 14:06.890
Hoặc về cơ bản bây giờ đó là mạng lưới thần kinh mà bộ não của tác nhân đang học hỏi, ngày càng trở nên

14:06.890 --> 14:11.960
mô tả môi trường nhiều hơn và do đó tác nhân có thể điều hướng môi trường.

14:12.140 --> 14:17.900
Khi chúng tôi nói môi trường mô tả về cơ bản có nghĩa là khi chúng tôi đặt các trạng thái của

14:17.900 --> 14:24.830
môi trường mà tác nhân đang ở đó, chúng tôi có nhiều khả năng tiến gần hơn và gần hơn với các giá trị tín hiệu thực tế.

14:24.830 --> 14:29.120
Và điều đó xảy ra bởi vì các giá trị quan trọng mà chúng ta muốn và để tìm ra hành động phù hợp.

14:29.120 --> 14:33.530
Và điều đó xảy ra bởi vì những mục tiêu Q này thực sự được lấy theo kinh nghiệm.

14:33.530 --> 14:36.680
Vậy anh ấy làm cách nào để tìm được những mục tiêu dễ thương này?

14:36.680 --> 14:38.390
Đó thực sự là điều này.

14:38.390 --> 14:40.240
Vì vậy, anh ấy thực sự quan sát, được.

14:40.250 --> 14:42.800
Vì vậy, một khi tôi thực hiện bước này, phần thưởng tôi nhận được là gì?

14:42.800 --> 14:44.870
Và sau đó giá trị của trạng thái này là gì?

14:44.870 --> 14:48.620
Vì vậy, điều tương tự như chúng ta đã thấy trước đây trong Q Learning trong trực giác học tập đơn giản.

14:48.620 --> 14:54.190
Vì vậy, anh ta học được điều này thông qua thử và sai, sau đó anh ta xây dựng mạng của mình hoặc cập nhật

14:54.500 --> 14:59.140
mạng trọng số theo cách sao cho các giá trị tín hiệu dự đoán ngày càng gần nhau hơn.

14:59.220 --> 15:01.260
Xấp xỉ mục tiêu.

15:01.260 --> 15:07.350
Q Các giá trị rất giống với khái niệm mà chúng ta đã thảo luận ở đây trong quá trình học chênh lệch thời gian

15:07.350 --> 15:09.330
đơn giản của thuật toán học đơn giản.

15:09.690 --> 15:10.380
Vậy là xong.

15:10.380 --> 15:12.360
Đó là cách học của đại lý.

15:12.360 --> 15:13.590
Vì vậy, chúng tôi đến đây.

15:14.280 --> 15:15.390
Đó là phần học.