WEBVTT

00:00.490 --> 00:01.990
Xin chào, tất cả mọi người, và chào mừng trở lại.

00:02.020 --> 00:05.350
Trong bài giảng cuối cùng, chúng tôi đã kết thúc việc bắt đầu xây dựng môi trường của mình.

00:05.350 --> 00:13.330
Về cơ bản, chúng tôi có một lưới 11 x 11 ở đây mà chúng tôi muốn người đưa thư của chúng tôi lặp lại để giải quyết thách thức của chúng tôi.

00:13.960 --> 00:18.490
Bây giờ chúng tôi muốn bắt đầu nghĩ về một khi chúng tôi có lưới điện.

00:18.490 --> 00:23.890
Chúng tôi cũng cần có các hành động đối với người đại diện của mình và tôi sẽ xóa chúng thực sự nhanh chóng.

00:23.890 --> 00:24.970
Chúng ta không cần những tế bào này.

00:24.970 --> 00:27.790
Tôi chỉ muốn có nó trong một số khoảng cách.

00:27.790 --> 00:29.490
Chỉ làm cho nó dễ dàng hơn để xem nó.

00:29.500 --> 00:35.530
Cho tôi 1/2, để tôi xóa những cái này và chúng ta có thể để cái này ở đây.

00:35.890 --> 00:36.520
Vì thế.

00:37.420 --> 00:43.330
Tôi đã để lại một văn bản mà chúng tôi có và chúng tôi muốn thiết lập các hành động của mình như một hành động thẳng đứng xuống và sang trái.

00:43.570 --> 00:45.580
Với Python, nó khá đơn giản.

00:45.580 --> 00:48.270
Chúng tôi có thể xây dựng danh sách và thiết lập các hành động của mình.

00:48.280 --> 00:51.400
Hành động của chúng ta sẽ bình đẳng.

00:52.140 --> 00:55.310
Hai là chúng ta có lên phải, xuống trái.

00:55.320 --> 01:01.310
Vì vậy, hãy thiết lập nó từ bên phải xuống và bên trái.

01:01.320 --> 01:07.290
Chúng tôi cần cho người đại diện của chúng tôi thứ lỗi cho tôi một số khả năng để điều động những hành động này qua mê cung.

01:08.270 --> 01:12.000
Ngoài ra, chúng tôi cũng phải bắt đầu thiết lập phần thưởng.

01:12.020 --> 01:18.050
Bây giờ, đây là lúc nó sẽ bắt đầu trở nên phức tạp hơn một chút vì chúng ta

01:18.050 --> 01:25.010
phải đặt các trạng thái khác nhau của môi trường, các trạng thái khác nhau theo nghĩa chúng ta muốn có thể gán các

01:25.010 --> 01:31.930
-100 này và phủ định một trong các bước này hoặc các giá trị trạng thái này cho mỗi ô vuông trong lưới.

01:31.940 --> 01:39.320
Vì vậy, chúng tôi muốn giúp đại lý của mình tìm hiểu từng tiểu bang hoặc vị trí trong thành phố của chúng tôi, chúng tôi muốn có giá trị phần thưởng.

01:39.320 --> 01:40.910
Đó là cách mà đại lý của chúng tôi sẽ tìm hiểu.

01:40.910 --> 01:45.290
Vì vậy, tác nhân có thể bắt đầu ở bất kỳ ô trắng nào, nhưng mục tiêu của nó luôn giống nhau.

01:45.290 --> 01:49.460
Tôi muốn tối đa hóa tổng phần thưởng của nó trong Q Phần thưởng bản địa học tập.

01:49.460 --> 01:51.980
Chúng tôi biết rằng chúng được gọi là hình phạt.

01:51.980 --> 01:54.110
Chúng được sử dụng cho tất cả các trạng thái ngoại trừ mục tiêu.

01:54.110 --> 01:59.870
Đó là cách chúng tôi sẽ thiết lập chính sách tối ưu đó, khuyến khích con mắt xác định con đường ngắn nhất dẫn

01:59.870 --> 02:02.780
đến mục tiêu bằng cách giảm thiểu các hình phạt của nó.

02:03.200 --> 02:03.860
Được rồi.

02:04.460 --> 02:09.830
Ngoài ra, để tối đa hóa phần thưởng tích lũy, nhân viên AI sẽ cần tìm con đường ngắn nhất giữa khu vực đóng gói

02:09.830 --> 02:14.060
vật phẩm, Quảng trường Xanh của chúng tôi, hãy nhớ và các địa điểm khác của thành phố nơi người

02:14.060 --> 02:15.590
đưa thư có thể đi lại.

02:15.590 --> 02:20.480
Các đặc vụ White Squares sẽ học cách tránh va chạm vào bất kỳ ranh giới nào của thành phố.

02:20.480 --> 02:23.180
Đó là những hình vuông màu đen, như chúng ta thấy với -100.

02:23.180 --> 02:24.440
Chúng tôi muốn tránh xa chúng.

02:24.440 --> 02:26.720
Họ có nhiều hình phạt hơn.

02:26.810 --> 02:33.050
Vì vậy, để làm điều này, chúng tôi có lưới của chúng tôi, môi trường mà chúng tôi đã tạo ở trên với các hàng của chúng

02:33.050 --> 02:36.290
tôi, nhưng chúng tôi cũng muốn gán các giá trị này cho nó.

02:36.290 --> 02:42.050
Vì vậy, để làm được điều đó, chúng ta hãy thử nghĩ về cách chúng ta có thể thiết lập rằng chúng ta có thể sử dụng

02:42.050 --> 02:47.060
NumPy và chúng ta cũng có thể bắt đầu đặt nó thành Native 100 cho các hàng môi trường và cột môi trường.

02:47.060 --> 02:49.490
Vì vậy, chúng tôi có các hàng môi trường và cột môi trường.

02:49.490 --> 03:04.280
Vì vậy, chúng ta hãy gọi phần thưởng này bằng num pi đầy đủ và hãy chuyển vào các cột môi trường hàng trong môi trường của chúng ta và để đặt

03:04.280 --> 03:10.370
giá trị của chúng ta, chúng ta có thể bắt đầu bằng -100.

03:11.890 --> 03:18.610
Ngoài ra, chúng tôi cũng muốn đặt cửa sổ phần thưởng của mình thành.

03:20.150 --> 03:23.780
Sử dụng các chỉ số 0 và 5.

03:24.290 --> 03:25.880
Bằng 100.

03:26.620 --> 03:28.530
Và điều này sẽ có ý nghĩa trong giây lát.

03:28.540 --> 03:30.190
Vì vậy, chúng tôi đang xem xét Quảng trường Xanh của chúng tôi.

03:30.190 --> 03:31.330
Chúng tôi có số 0 và năm của chúng tôi.

03:31.330 --> 03:37.330
Chúng tôi đặt Hình vuông xanh của chúng tôi là 100, lấy những vị trí này hoặc vị trí này để đặt giá trị.

03:37.420 --> 03:41.680
Bây giờ, tôi sẽ dán đoạn mã tiếp theo để chúng ta có thể xem qua.

03:41.680 --> 03:44.770
Vì vậy, bạn không cần phải xem tôi viết từng bước ra vì nó hơi lặp đi lặp lại.

03:44.770 --> 03:47.690
Và bây giờ chúng ta có khoảng trắng của chúng ta.

03:47.710 --> 03:51.820
Hãy đặt ghi chú của chúng tôi cho điểm thưởng của chúng tôi.

03:52.030 --> 03:57.490
Và trong đoạn mã này, chúng tôi đang sử dụng từ điển và đặt từng giá trị của chúng tôi trong từ điển của chúng tôi.

03:57.490 --> 03:58.480
Vì vậy, chúng tôi có lối đi của chúng tôi.

03:58.480 --> 04:05.290
Chúng tôi đang nghĩ về điều đó với từng hàng riêng lẻ và chúng tôi có thể thiết lập bằng cách cắt của chúng tôi, với chỉ mục của chúng

04:05.290 --> 04:06.550
tôi từ một đến chín.

04:06.550 --> 04:11.470
Và chúng tôi muốn sử dụng một phép lặp với vòng lặp for của chúng tôi để đặt các giá trị này.

04:11.860 --> 04:17.650
Khi làm như vậy, bạn sẽ thấy nếu chúng tôi xem xét từ một đến mười, một, bảy và chín và bằng cách sử dụng điều này, chúng tôi

04:17.650 --> 04:22.540
thực sự có thể đặt chỉ mục hàng trong phạm vi từ một đến mười, mà chúng tôi đang làm việc trong môi trường

04:22.540 --> 04:23.320
của mình .

04:23.410 --> 04:25.570
Chúng ta có thể đặt chỉ số cột.

04:26.530 --> 04:33.310
Trong các lối đi của chỉ mục hàng với từ điển của chúng tôi, chỉ mục hàng và chỉ mục cột phần thưởng của chúng tôi, chúng tôi có

04:33.310 --> 04:34.720
thể đặt nó thành âm.

04:34.720 --> 04:41.650
Vì vậy, những gì điều này đang làm về cơ bản là nếu chúng ta xem xét từng cụ thể, nếu chúng ta lấy một phạm vi ở đây, ví dụ, lối

04:41.650 --> 04:48.160
đi số chín cho tôi trong phạm vi của chúng ta, chúng ta có một tập hợp tiêu cực trong toàn bộ môi trường hoặc từng trạng thái trong

04:48.160 --> 04:49.300
môi trường của chúng ta.

04:49.450 --> 04:52.450
Đối với tám, chúng tôi có ba và bảy.

04:52.450 --> 04:57.700
Vì vậy, nếu chúng ta có thể cuộn lên, chúng ta có thể thấy rằng trong ba và bảy, chúng ta đang đặt một

04:57.700 --> 05:03.340
số âm vì tất cả chúng sẽ là số âm, 100 được đặt thành một trăm âm và với sự lặp lại này, chúng tôi có thể đặt

05:03.340 --> 05:08.830
các phần thưởng đó hoặc đặt từng trạng thái mà chúng tôi đang xác định trong các lối đi của mình thành một lối đi tiêu cực.

05:08.830 --> 05:10.420
Nó làm cho nó rất dễ dàng.

05:10.420 --> 05:17.260
Thay vì phải viết thêm logic hoặc có thể là các hàm hoặc câu lệnh chi tiết hơn, chúng ta có thể lặp lại và

05:17.260 --> 05:18.880
đặt các giá trị này.

05:18.880 --> 05:23.980
Tôi thực sự khuyên bạn nên dành một phút để khám phá thử nghiệm nếu bạn muốn thay đổi môi trường sau

05:23.980 --> 05:24.310
này.

05:24.310 --> 05:29.440
Sau khi chúng tôi chạy giải pháp này, đó là một cách tuyệt vời để giúp tìm hiểu và củng cố các chính sách này.

05:29.440 --> 05:35.050
Nhưng điều này đang bắt đầu thành hình và một điều thú vị mà chúng ta có thể làm là chúng ta có thể thực sự hình dung ra nó.

05:35.050 --> 05:38.680
Vì vậy, chúng ta hãy làm bốn hàng trong phần thưởng.

05:39.990 --> 05:46.650
In hàng và hãy in cái này và chúng ta có thể thấy tôi có thể phải thực sự chạy lại các ô.

05:46.650 --> 05:47.640
Lời xin lỗi của tôi.

05:47.640 --> 05:50.190
Tôi đã không kết nối với sổ ghi chép làm việc ở đây.

05:50.220 --> 05:51.270
Cho nó 1/2.

05:51.270 --> 05:52.520
Nó sẽ tạo ra một lỗi.

05:52.530 --> 05:55.290
Tôi cần quay lại và chạy lại các ô.

05:55.290 --> 05:57.240
Vì vậy, hãy để tôi chỉ cần chạy nó thực sự nhanh chóng.

05:57.240 --> 05:58.770
Tôi muốn nhập NumPy.

05:58.770 --> 06:00.300
Tôi thực sự có thể chỉ.

06:00.420 --> 06:01.710
Ôi, tôi xin lỗi.

06:02.130 --> 06:04.890
Hãy để tôi nói qua điều này ở đây và chúng ta sẽ đi xuống.

06:04.890 --> 06:07.080
Chúng tôi muốn điều hành môi trường của chúng tôi.

06:07.080 --> 06:08.580
Chúng tôi muốn thực hiện các hành động của mình.

06:08.580 --> 06:10.710
Những cái khác chỉ là văn bản nên chúng tôi không cần chúng.

06:10.710 --> 06:14.670
Nhưng tôi muốn có cái đó để các bạn có thể tham khảo.

06:14.700 --> 06:18.750
Chúng tôi muốn điểm thưởng của mình và cuối cùng chúng tôi muốn hình dung điều này.

06:18.810 --> 06:25.920
Chúng ta có thể thấy trực quan, biểu diễn số thực tế trong môi trường của chúng ta.

06:25.920 --> 06:26.970
Thật là tuyệt.

06:26.970 --> 06:29.160
Vì vậy, chúng tôi đã thiết lập môi trường của mình.

06:29.190 --> 06:30.210
Công việc tuyệt vời.

06:30.240 --> 06:31.740
Hy vọng các bạn đang tìm thấy điều này hữu ích.

06:31.740 --> 06:36.750
Bây giờ chúng ta sẽ tóm tắt nó ở đây vì trong bài giảng tiếp theo, chúng ta sẽ bắt đầu đào tạo mô hình.

06:36.750 --> 06:42.840
Vì vậy, điều này là để thiết lập các hành động của các đại lý của chúng tôi, thiết lập môi trường của chúng tôi, thiết lập phần thưởng của chúng tôi, hình phạt của chúng tôi.

06:42.840 --> 06:46.650
Điều này sẽ giúp đại lý thiết lập chính sách tối ưu trong Q learning.

06:46.650 --> 06:53.340
Nhìn chung, chúng tôi có hình ảnh đại diện này hoặc hình ảnh này được xây dựng và chúng tôi có thể thấy nó ở đây nếu chúng

06:53.340 --> 06:54.960
tôi in ra hàng của mình.

06:56.060 --> 06:56.840
Kinh ngạc.

06:56.930 --> 06:57.560
Được rồi.

06:57.710 --> 06:59.000
Tôi sẽ không tiếp tục lan man.

06:59.000 --> 07:00.680
Hãy tóm tắt nó ở đây trong bài giảng tiếp theo.

07:00.710 --> 07:02.300
Hãy bắt đầu đào tạo người mẫu.

07:02.600 --> 07:04.070
Hẹn gặp lại các bạn trong bài giảng tiếp theo.
