WEBVTT

00:00.710 --> 00:02.530
Xin chào tất cả mọi người, và chào mừng trở lại.

00:02.540 --> 00:07.910
Trong bài giảng này, chúng ta sẽ thiết lập môi trường của mình và tôi muốn giới thiệu tổng quan ở cấp

00:07.910 --> 00:11.420
độ cao hơn này cho những bạn muốn thử và tự giải quyết nó.

00:11.420 --> 00:14.270
Và điều này có thể trông quen thuộc trong bài giảng trước, bạn đã thấy điều này.

00:14.270 --> 00:15.770
Vì vậy, nếu bạn đọc qua nó, tôi xin lỗi.

00:15.770 --> 00:17.510
Chúng ta sẽ vượt qua nó một cách thực sự nhanh chóng.

00:17.840 --> 00:19.070
Những điều đầu tiên trước tiên.

00:19.070 --> 00:24.320
Trong dự án này, chúng tôi thực sự muốn giữ cho nó càng đơn giản càng tốt theo nghĩa là chúng tôi không cần

00:24.320 --> 00:25.430
nhập quá nhiều thư viện.

00:25.430 --> 00:27.920
Về cơ bản, chúng tôi sẽ sử dụng NumPy cho việc đó.

00:27.920 --> 00:33.260
Chúng ta chỉ cần nhập NumPy dưới dạng NP, thường là tham chiếu chung cho numpy.

00:33.260 --> 00:37.490
Và chúng tôi cũng muốn thiết lập môi trường của mình như bạn sẽ thấy ở đây.

00:37.490 --> 00:40.580
Và chúng ta sẽ xem xét lại vấn đề này một cách thực sự nhanh chóng như một cái nhìn tổng quan.

00:40.610 --> 00:46.250
Bước đầu tiên cho quá trình học Q của chúng tôi là chúng tôi muốn xác định một môi trường mà người đưa thư phải điều hướng.

00:46.250 --> 00:50.210
Chúng tôi cần môi trường đó được thiết lập để chúng tôi thực sự có thể lặp lại và thực hiện nó.

00:50.510 --> 00:55.580
Trong bài giảng này, môi trường sẽ bao gồm các trạng thái, hành động và phần thưởng.

00:55.580 --> 01:01.160
Trạng thái và hành động là đầu vào cho tác nhân học Q, trong khi các hành động có thể là tác nhân, đầu

01:01.160 --> 01:06.620
ra là trạng thái mà chúng ta có thể nghĩ đến và xem hình ảnh này như là đại diện của chúng ta.

01:06.620 --> 01:11.420
Các tiểu bang trong môi trường của chúng ta là tất cả các địa điểm có thể có trong thành phố mà chúng ta có thể gọi là thành phố

01:11.420 --> 01:11.870
mẫu này.

01:11.870 --> 01:17.840
Một số địa điểm này là ranh giới thành phố sẽ là hình vuông đen của chúng tôi, trong khi các địa điểm khác là các hòn

01:17.840 --> 01:21.110
đảo mà người đưa thư có thể sử dụng để đi qua thành phố.

01:21.110 --> 01:22.580
Đó sẽ là những hình vuông màu trắng.

01:22.670 --> 01:27.020
Hình vuông màu xanh lá cây cho biết khu vực đóng gói và vận chuyển mặt hàng.

01:27.020 --> 01:31.520
Các hình vuông màu đen và xanh lá cây là những gì chúng ta sẽ gọi là trạng thái đầu cuối.

01:31.520 --> 01:36.050
Vì vậy, về tổng thể, mục tiêu của chúng tôi hoặc mục tiêu của đại lý, chúng tôi muốn sử dụng con đường ngắn nhất.

01:36.050 --> 01:41.870
Chúng tôi muốn nhân viên của chúng tôi tìm hiểu con đường ngắn nhất giữa khu vực đóng gói vật phẩm, lọ, cây xanh và tất

01:41.870 --> 01:45.260
cả các địa điểm khác trong thành phố mà bưu tá được phép đi lại.

01:49.360 --> 01:55.750
Trong hình trên, chúng ta có 121 tiểu bang hoặc địa điểm có thể có trong thành phố.

01:55.780 --> 01:58.690
Các trạng thái này được sắp xếp trong một lưới 11 x 11.

01:58.720 --> 02:02.400
Do đó, mỗi vị trí có thể được xác định bằng chỉ số hàng và cột của nó.

02:02.410 --> 02:04.510
Vậy bước đầu tiên của chúng ta sẽ là gì?

02:04.510 --> 02:07.870
Và điều này thực sự muốn các bạn bắt đầu suy nghĩ về cách bạn có thể định nghĩa nó.

02:08.380 --> 02:10.420
Chúng ta cần xác định môi trường của chúng ta.

02:10.420 --> 02:13.180
Đây là một ví dụ điển hình về hình ảnh của chúng tôi và cách chúng tôi sẽ tiếp cận nó.

02:13.180 --> 02:14.580
Vì vậy, làm thế nào bạn sẽ mô hình đó?

02:14.590 --> 02:20.890
Hãy nhớ rằng, chúng ta đang sử dụng NumPy, vì vậy chúng ta cần xác định các ranh giới này và chúng ta có thể xác định mảng

02:20.920 --> 02:27.310
numpy a3d để giữ các giá trị Q hiện tại của chúng ta cho từng trạng thái và cặp hành động khi chúng ta thấy biểu diễn của mình.

02:27.400 --> 02:32.440
Và đối với những bạn chưa quen, hoặc có thể là mới hoặc các bạn muốn ôn

02:32.440 --> 02:38.320
luyện lại, thì cẩm nang i a z từ khóa học này cực kỳ hữu ích, rất được khuyến khích.

02:38.320 --> 02:40.080
Vậy chúng ta phải làm gì ở đây?

02:40.090 --> 02:41.420
Chúng tôi thực sự có thể.

02:41.440 --> 02:45.100
Hãy để tôi mở rộng điều này thực sự nhanh chóng cho chúng tôi để chúng tôi có thể xem nó dễ dàng hơn một chút.

02:45.100 --> 02:46.630
Hãy để tôi chỉ thêm một số ô mã.

02:46.630 --> 02:49.060
Chúng ta sẽ xác định mảng ba d numpy của chúng ta.

02:49.360 --> 02:51.070
Làm thế nào bạn sẽ đi về điều này?

02:51.190 --> 02:56.590
Vì vậy, chúng tôi có một số tùy chọn, nhưng tùy chọn thực sự đơn giản và dễ hiểu nhất, hãy gọi nó là các

02:56.590 --> 02:57.370
hàng môi trường.

02:59.820 --> 03:01.500
Rose Và hãy đặt nó thành 11.

03:01.500 --> 03:02.640
Bây giờ là 11 giờ 11.

03:02.690 --> 03:06.960
Sau đó, chúng ta cũng có thể làm một môi trường, gạch dưới các cột.

03:08.890 --> 03:10.870
Và chúng ta cũng có thể đặt giá trị này thành 11.

03:11.200 --> 03:17.980
Cuối cùng, chúng ta có thể đặt giá trị Q của mình vì chúng ta cần thêm numpy của mình với các hàng môi trường, cột

03:17.980 --> 03:18.610
môi trường.

03:19.910 --> 03:30.560
Và chúng ta có thể đặt giá trị này là Q bằng các số không NumPy và chúng ta cần sử dụng các hàng môi trường, cột

03:30.920 --> 03:32.030
môi trường.

03:32.760 --> 03:40.260
Và chúng tôi có mảng numpy 3D, bộ biểu diễn môi trường 3D của chúng tôi với môi trường của chúng tôi.

03:41.100 --> 03:41.760
Đáng kinh ngạc.

03:42.240 --> 03:46.500
Bây giờ và chúng ta sẽ tạm dừng nó ở đây, nhưng tôi muốn các bạn bắt đầu suy nghĩ về cách giải quyết vấn đề

03:46.500 --> 03:48.340
này vì các bạn đã thiết lập môi trường của mình.

03:48.360 --> 03:52.820
Điều tiếp theo mà bạn sẽ muốn làm như một gợi ý là thiết lập các hành động của bạn.

03:52.830 --> 03:55.620
Tác nhân của bạn cần phải có khả năng di chuyển trong môi trường.

03:55.620 --> 03:57.330
Vì vậy, làm thế nào bạn sẽ đại diện cho điều đó?

03:57.330 --> 04:00.750
Bạn sẽ viết nó như thế nào cho vấn đề này?

04:00.930 --> 04:01.950
Hãy để nó ra khỏi đây.

04:01.950 --> 04:04.950
Trong video tiếp theo, chúng ta sẽ xem lại các thao tác đó.

04:05.100 --> 04:05.790
Đáng kinh ngạc.

04:05.970 --> 04:07.170
Hẹn gặp lại các bạn trong video tiếp theo.
