WEBVTT

00:00.600 --> 00:02.490
Xin chào và chào mừng đến với hướng dẫn này.

00:02.580 --> 00:09.980
Vì vậy, bây giờ người đại diện đã thực hiện thăm dò và sau đó những gì anh ta sắp làm là cập nhật mạng chia sẻ.

00:09.990 --> 00:14.770
Vì vậy, điều đầu tiên chúng tôi sẽ làm là khởi tạo phần thưởng tích lũy.

00:14.790 --> 00:22.320
Chúng tôi sẽ gọi nó là chữ viết hoa của chúng tôi R, và chúng tôi sẽ khởi tạo nó dưới dạng một bó đuốc.

00:22.470 --> 00:25.920
Nhưng điều đó sẽ có kích thước từng thứ một bởi vì nó chỉ là một giá trị.

00:25.920 --> 00:27.590
Nhưng chúng tôi muốn nó là một tensor.

00:27.600 --> 00:33.330
Và vì vậy tôi đang sử dụng ở đây chấm các số không và sau đó là một.

00:33.510 --> 00:41.820
Vì vậy, về cơ bản phần thưởng tích lũy được khởi tạo bằng 0 OC sau đó tương tự nếu chúng tôi chưa hoàn thành.

00:41.820 --> 00:43.590
Đó là nếu trò chơi chưa kết thúc.

00:43.590 --> 00:50.160
Những gì chúng tôi muốn ngay bây giờ là phần thưởng tích lũy bằng với giá trị của tập hợp cuối cùng mà mạng chia

00:50.160 --> 00:51.240
sẻ đạt được.

00:51.630 --> 00:58.590
Vì vậy, chúng tôi sẽ nhận được đầu ra giá trị, giá trị của đầu ra hàm V của mô hình của chúng tôi và đây là giá trị

00:58.590 --> 01:01.410
mà chúng tôi sẽ cung cấp cho phần thưởng tích lũy.

01:01.500 --> 01:03.810
Vì vậy, trước tiên chúng ta hãy lấy giá trị này.

01:04.110 --> 01:11.400
Chúng tôi có thể lấy nó theo cách này giá trị sau đó, bạn biết đấy, vì chúng tôi chỉ muốn giá trị chúng tôi có thể thêm vào đây, gạch dưới và

01:11.400 --> 01:18.150
sau đó gạch dưới một lần nữa, và sau đó chúng tôi nhận được mô hình của mình vì nó sẽ xuất ra giá trị này, nhưng chỉ là đầu ra

01:18.150 --> 01:19.590
đầu tiên của mô hình .

01:19.620 --> 01:25.260
Nhờ dấu gạch dưới kép này ở đây và ở đây, chúng tôi có thể sao chép, dán những gì chúng tôi có ở đây.

01:25.290 --> 01:32.340
Đó là đầu vào của mô hình với các đầu vào, hình ảnh và tất cả các trạng thái ẩn và trạng

01:32.340 --> 01:32.990
thái ô.

01:33.000 --> 01:37.320
Vì vậy, tôi chỉ dán nó và chúng tôi đi, chúng tôi sẽ nhận được giá trị.

01:37.620 --> 01:43.140
Và bây giờ những gì chúng tôi sẽ làm là mang lại cho giá trị này của chúng tôi.

01:43.260 --> 01:47.670
Vì vậy, tất cả sẽ bằng giá trị và để truy cập vào giá trị.

01:47.670 --> 01:49.350
Chúng tôi thêm dữ liệu này ở đây.

01:49.590 --> 01:50.220
Được rồi.

01:50.220 --> 01:57.240
Bây giờ điều kiện if đã xong và bây giờ chúng ta sẽ làm gì, vì chúng ta vừa có một giá trị mới bằng cách, bạn

01:57.240 --> 02:03.000
biết đấy, nhận đầu ra của mô hình, đầu ra đầu tiên của mô hình, tốt, chúng ta hãy thêm giá

02:03.030 --> 02:05.250
trị mới này vào danh sách giá trị.

02:05.250 --> 02:13.440
Do đó, chúng tôi có thể lấy trực tiếp danh sách giá trị của mình, sau đó chấm thêm phần nối và chúng tôi nhập biến.

02:14.560 --> 02:19.630
Ah, bởi vì của chúng tôi chứa giá trị cuối cùng này rất tuyệt vời nên đã được thực hiện.

02:19.630 --> 02:25.090
Bây giờ chúng ta sẽ khởi tạo các khoản lỗ và ghi nhớ các bài giảng về trực giác.

02:25.090 --> 02:26.200
Bạn có hai lỗ.

02:26.200 --> 02:28.150
Bạn có sự mất mát của chính sách.

02:28.150 --> 02:31.630
Đó là điều cuối cùng liên quan đến dự đoán của đại lý.

02:31.630 --> 02:36.010
Và sau đó bạn có sự mất giá trị, đó là sự mất mát liên quan đến dự đoán của nhà phê bình.

02:36.010 --> 02:39.640
Vì vậy, chúng tôi sẽ giới thiệu hai biến này và khởi tạo chúng bằng 0.

02:39.640 --> 02:46.420
Và do đó, tôi sẽ nói ở đây chính sách biến mất chính sách đầu tiên, khởi tạo nó bằng 0 và sau đó

02:46.420 --> 02:51.130
là mất giá trị, mất giá trị và tương tự, khởi tạo nó bằng 0.

02:51.700 --> 02:57.820
Sau đó, chúng ta đừng quên đặt phần thưởng tích lũy làm biến ngọn đuốc vì chúng ta sẽ cần nó là một biến

02:57.820 --> 03:02.740
tổng vì chúng ta sẽ tính toán độ dốc liên quan đến nó, bởi vì phần thưởng tích lũy

03:02.740 --> 03:05.650
sẽ là một thuật ngữ của sự mất mát giá trị.

03:05.650 --> 03:09.670
Vì vậy, với biến này, bây giờ nó được gắn vào các đồ thị động với gradient.

03:10.300 --> 03:15.610
Và bây giờ, điều cuối cùng chúng ta cần làm trước khi bắt đầu vòng đào tạo lớn, bạn biết

03:15.610 --> 03:20.590
đấy, khi chúng ta áp dụng lưới ngẫu nhiên theo nghĩa này để giảm sự mất mát

03:20.590 --> 03:28.120
này giữa các dự đoán và mục tiêu, chúng ta cần khởi tạo lợi thế tổng quát ước tính và không nhận được nó tự động mã hóa.

03:28.120 --> 03:29.170
Hãy cẩn thận với điều đó.

03:29.170 --> 03:35.320
J Biến mà chúng ta sắp khởi tạo ngay bây giờ là ước tính lợi thế tổng quát.

03:35.320 --> 03:42.460
Vì vậy, xin nhắc lại, ước tính lợi thế tổng quát theo định nghĩa là lợi thế của việc thực hiện hành động

03:42.460 --> 03:45.010
A bằng cách quan sát trạng thái.

03:45.010 --> 03:46.720
Vì vậy, nó là một chức năng của hành động.

03:46.720 --> 03:47.560
A Và trạng thái.

03:47.560 --> 03:54.610
S Và nó bằng hiệu giữa các giá trị Q q a s và giá trị của hàm V.

03:54.610 --> 03:56.680
Vì vậy, thực sự tôi có thể viết nó ở đây.

03:57.400 --> 04:04.690
Ước tính lợi thế tổng quát là một hàm a của hành động và trạng thái s và bằng với

04:04.690 --> 04:07.330
các giá trị Q của hành động.

04:07.330 --> 04:08.260
A Và Nhà nước.

04:08.260 --> 04:12.580
S trừ đi giá trị của hàm V được áp dụng cho trạng thái.

04:12.580 --> 04:18.940
S Đó là ước tính lợi thế tổng quát và đó là những gì chúng tôi muốn khởi tạo ngay bây giờ.

04:18.940 --> 04:20.770
Và chúng tôi sẽ khởi tạo nó bằng 0.

04:21.280 --> 04:22.930
Nhưng nó phải là một người múa đuốc.

04:22.930 --> 04:27.410
Vì vậy, chúng tôi sẽ sử dụng thủ thuật tương tự như những gì chúng tôi vừa làm ngay tại đây.

04:27.430 --> 04:35.260
Chúng ta sẽ sử dụng thư viện ngọn đuốc và áp dụng hàm số 0 để đặt nó làm hàng chục chỉ có một giá trị, giá

04:35.260 --> 04:36.640
trị này bằng 0.

04:36.970 --> 04:44.490
Và chúng tôi sẽ giới thiệu biến mới này, G, và giá trị đó sẽ bằng với ngọn đuốc có các số không một

04:44.500 --> 04:46.510
khi được khởi tạo bằng 0.

04:46.510 --> 04:48.550
Vì vậy, điều này sẽ được khởi tạo bằng không.

04:48.550 --> 04:50.710
Và do đó giá trị Q của hành động.

04:50.710 --> 04:55.120
A Và trạng thái sẽ bằng giá trị của hàm V của trạng thái.

04:55.660 --> 04:56.170
Được rồi.

04:56.170 --> 04:58.630
Và bây giờ chúng ta đã sẵn sàng để bắt đầu vòng lặp for.

04:58.630 --> 05:00.340
Vì vậy, chúng ta sẽ có một số cuộc phiêu lưu ở đây.

05:00.340 --> 05:04.570
Vì vậy, hãy nghỉ ngơi thật tốt và tôi sẽ gặp lại bạn trong phần hướng dẫn tiếp theo để tấn công điều đó.

05:04.570 --> 05:05.710
Cho đến lúc đó, hãy tận hưởng.

05:05.710 --> 05:06.150
TÔI.
