WEBVTT

00:01.400 --> 00:03.230
Xin chào và chào mừng trở lại.

00:03.260 --> 00:08.990
Trong bài giảng cuối cùng, chúng ta đã hoàn thành hoặc hoàn thiện định nghĩa thực tế về môi trường của chúng ta, sự thể hiện

00:08.990 --> 00:14.330
các giá trị của chúng ta, hình phạt và phần thưởng của chúng ta cũng như hành động của chúng ta trong môi trường.

00:14.360 --> 00:20.600
Trong bài giảng này, điều tôi muốn làm là giới thiệu khóa đào tạo, ý tưởng đằng sau cách đào tạo

00:20.600 --> 00:22.880
mô hình và giúp bạn bắt đầu.

00:22.880 --> 00:28.520
Và sau đó trong bài giảng tiếp theo cung cấp giải pháp và nhiều hơn nữa về phân tích cho các bước liên quan.

00:28.520 --> 00:32.960
Vì vậy, chúng ta cần đào tạo mô hình những gì sẽ được yêu cầu đào tạo.

00:33.620 --> 00:38.840
Đây là một cách tiếp cận mà chúng ta có thể sử dụng cho các bước sau để đào tạo mô hình.

00:38.840 --> 00:44.240
Chúng tôi muốn chọn một trạng thái không phải trạng thái cuối ngẫu nhiên, đó sẽ là hình vuông màu trắng của tác nhân của chúng tôi và đó

00:44.240 --> 00:47.210
là cách chúng tôi muốn bắt đầu trong tập của mình cho khóa đào tạo.

00:47.210 --> 00:50.360
Sau đó, tất nhiên chúng tôi muốn chọn một hành động cho trạng thái hiện tại.

00:50.360 --> 00:53.120
Chúng tôi cần phải có đại lý của chúng tôi có thể di chuyển xung quanh môi trường.

00:53.120 --> 00:59.450
Vì vậy, các hành động đối với chúng tôi và đại diện của chúng tôi trong thử thách này sẽ được lựa chọn bằng cách sử dụng Epsilon Greedy.

00:59.660 --> 01:04.790
Thuật toán này thường sẽ chọn hành động hứa hẹn nhất cho tác nhân, nhưng đôi khi chọn một tùy chọn

01:04.790 --> 01:05.870
ít hứa hẹn hơn.

01:05.870 --> 01:10.850
Để khuyến khích đại lý tìm hiểu môi trường, chúng tôi rất muốn tìm ra chính sách tối ưu.

01:11.210 --> 01:15.140
Sau đó, chúng tôi muốn thực hiện hành động đã chọn và chuyển sang trạng thái tiếp theo.

01:15.140 --> 01:16.490
Di chuyển đến địa điểm tiếp theo.

01:16.490 --> 01:21.200
Và tại sao tôi nói điều này là tôi muốn các bạn suy nghĩ về cách bạn có thể chia nó thành

01:21.200 --> 01:23.060
các hàm để giải quyết vấn đề này.

01:23.480 --> 01:29.660
Tiếp theo, chúng ta cần nhận được phần thưởng khi chuyển sang trạng thái mới và sau đó tính toán chênh lệch thời gian.

01:29.660 --> 01:34.940
Chúng ta phải cập nhật giá trị Q cho cặp trạng thái trước đó trong hành động và nếu trạng thái mới hoặc trạng thái hiện tại là

01:34.970 --> 01:37.550
trạng thái đầu cuối, thì chúng ta sẽ chuyển đến một trạng thái.

01:37.550 --> 01:39.380
Nếu không, chúng ta sẽ chuyển sang bước số hai.

01:39.380 --> 01:43.610
Vì vậy, toàn bộ quá trình, chúng tôi sẽ đặt mục tiêu chạy trong 1000 tập để đào tạo.

01:43.610 --> 01:50.810
Điều này sẽ cho chúng tôi đủ cơ hội hoặc đại lý của chúng tôi có đủ cơ hội để tính toán con đường ngắn nhất giữa

01:50.810 --> 01:55.790
khu vực đóng gói mặt hàng và các địa điểm khác trong thành phố mẫu của chúng tôi.

01:56.570 --> 01:57.260
Đáng kinh ngạc.

01:57.440 --> 02:02.600
Vì vậy, hãy nghĩ về cách bạn sẽ tiếp cận vấn đề này và tôi muốn giúp bạn đưa ra ý tưởng để thử và giải quyết vấn

02:02.600 --> 02:02.990
đề này.

02:02.990 --> 02:08.240
Vì vậy, chúng tôi sẽ xem xét giải pháp của mình, chúng tôi sẽ sử dụng các chức năng sau.

02:08.540 --> 02:10.700
Tôi thực sự có thể nhận xét điều này vì nó là một ô mã.

02:10.730 --> 02:11.840
Lời xin lỗi của tôi.

02:11.840 --> 02:13.250
Chúng tôi không muốn một ký hiệu đô la.

02:13.250 --> 02:18.230
Chúng tôi muốn bình luận những điều này và tôi sẽ giúp bạn bắt đầu từ đầu tiên.

02:19.020 --> 02:24.600
Nhìn chung, chúng ta sẽ có những hàm này xác định các bước của chúng ta để đào tạo mô hình.

02:24.900 --> 02:29.910
Và để giúp bạn bắt đầu, chúng ta hãy xem cách chúng ta sẽ tiếp cận trạng thái đầu cuối

02:29.910 --> 02:35.370
trong việc tạo một hàm trong python vì điều đầu tiên này, trước tiên, tất nhiên chúng ta muốn xác định hàm của

02:35.370 --> 02:36.450
mình như hiện tại.

02:37.610 --> 02:39.530
Trạng thái đầu cuối.

02:40.640 --> 02:44.690
Và đây là tên của các chức năng mà bạn sẽ thấy để cung cấp cho bạn một ý tưởng có thể giúp bạn

02:44.690 --> 02:45.320
phá vỡ nó.

02:45.350 --> 02:51.170
Những gì chúng ta muốn làm là lấy chỉ mục hàng hiện tại và chỉ mục cột hiện tại.

02:52.980 --> 03:01.470
Điều này sẽ giúp cung cấp cho chúng tôi vị trí đại lý của chúng tôi và chúng tôi có thể thêm vào đây cho phần thưởng của chúng tôi là đúng

03:01.470 --> 03:02.010
hay sai.

03:02.010 --> 03:03.210
Vì vậy, chúng tôi cần nó nếu câu lệnh.

03:03.210 --> 03:05.790
Vì vậy, hãy đặt nếu phần thưởng của chúng tôi.

03:07.490 --> 03:08.630
Của chúng tôi hiện tại.

03:09.410 --> 03:11.600
Chỉ mục hàng.

03:12.480 --> 03:20.190
Và chỉ số cột hiện tại bằng chỉ số âm nếu chúng ở trạng thái đó.

03:24.300 --> 03:28.500
Chúng tôi sẽ trả về false hoặc bằng cách khác hoặc bằng cách khác.

03:29.850 --> 03:30.990
Chúng tôi sẽ trở lại.

03:31.470 --> 03:32.100
ĐÚNG VẬY.

03:33.590 --> 03:35.030
Khá đơn giản, đủ.

03:35.360 --> 03:41.390
Và đây là cách chúng ta sẽ có được ý tưởng của chúng ta về trạng thái đầu cuối của chúng ta sau khi chúng ta có nếu nó đang tồn tại ở

03:41.390 --> 03:44.240
trạng thái đầu cuối, sau đó chúng ta muốn có được vị trí bắt đầu.

03:44.240 --> 03:50.750
Như một gợi ý, bạn có thể xem xét bằng cách sử dụng chỉ mục hàng hiện tại và chỉ mục cột hiện

03:50.750 --> 03:52.820
tại và đặt số liệu ngẫu nhiên.

03:52.820 --> 03:57.200
Chúng tôi muốn khởi tạo ngẫu nhiên đó cho các cột môi trường hàng hàng môi trường.

03:57.200 --> 04:00.620
Nhưng trong bài giảng tiếp theo, bạn sẽ thấy một sự cố.

04:00.620 --> 04:04.790
Bạn sẽ thấy phần còn lại của các chức năng với một số ghi chú để giúp bạn đưa ra ý tưởng.

04:04.790 --> 04:09.020
Tôi thực sự hy vọng rằng các bạn có cơ hội thử nghiệm điều này vì nó chỉ là một cách tuyệt vời để học hỏi

04:09.020 --> 04:10.700
và giúp đưa ra cho bạn một ý tưởng.

04:10.700 --> 04:12.200
Và đây là để giúp bạn bắt đầu.

04:12.200 --> 04:15.260
Vì vậy, đừng lo lắng, bạn sẽ có lời giải trong bài giảng tiếp theo.

04:15.260 --> 04:21.860
Và sau đó chúng ta sẽ kết thúc mọi thứ bằng cách thực sự chỉ định hệ số chiết khấu Epsilon, tỷ lệ học

04:21.860 --> 04:25.760
tập, những thứ đó để đào tạo, chạy đào tạo và xem kết quả.

04:26.060 --> 04:26.900
Đáng kinh ngạc.

04:27.260 --> 04:29.660
Hãy dừng lại ở đây một lần nữa.

04:29.660 --> 04:30.890
Cố gắng giải quyết vấn đề này.

04:30.890 --> 04:35.390
Nhưng nếu không, nếu bạn chỉ muốn nâng cao, hãy chuyển sang bài giảng tiếp theo và bạn sẽ nhận được

04:35.390 --> 04:38.180
giải pháp cho khóa đào tạo để xác định các hàm này.

04:38.420 --> 04:40.340
Được rồi, tôi sẽ gặp lại các bạn trong bài giảng tiếp theo.