WEBVTT

00:00.520 --> 00:03.860
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:03.880 --> 00:05.860
Trong hướng dẫn hôm nay, chúng ta sẽ có một số điều thú vị.

00:05.860 --> 00:11.680
Chúng ta sẽ xem xét một trí tuệ nhân tạo thực sự đi xuyên qua mê cung mà chúng ta đã

00:11.680 --> 00:13.270
nói đến từ rất lâu.

00:13.480 --> 00:18.340
Và nó sẽ sử dụng phương pháp học chính để điều hướng và tìm ra lối thoát.

00:18.340 --> 00:24.250
Và chúng ta sẽ xem điều gì sẽ xảy ra với các giá trị gợi ý, điều gì sẽ xảy ra với chính sách, v.v.

00:24.250 --> 00:25.810
Vì vậy, chúng ta hãy xem xét.

00:26.080 --> 00:31.780
Chúng tôi sẽ sử dụng một số tài liệu do Đại học Berkeley cung cấp.

00:31.780 --> 00:41.110
Vì vậy, nếu bạn truy cập I, Berkeley, B, r k e l e y edu, nếu bạn chỉ vào liên kết đó, hãy nhập, bạn sẽ thấy trang

00:41.110 --> 00:41.920
web này.

00:42.160 --> 00:49.720
Và đây những gì chúng ta sẽ xem xét là chúng ta sẽ đi đến các dự án Pacman, tôi nghĩ vậy.

00:50.440 --> 00:50.700
Ừ.

00:50.710 --> 00:51.930
Dự án Pokemon.

00:51.940 --> 00:59.020
Và ở đây nếu bạn cuộn xuống và nhìn vào phần học tăng cường, đây là những gì chúng tôi đang làm việc.

00:59.020 --> 01:01.630
Vì vậy, ở đây bạn có thể tải xuống kho lưu trữ zip.

01:01.630 --> 01:04.960
Vì vậy, đó là nếu bạn muốn, vì vậy bạn không cần phải làm thế.

01:04.960 --> 01:08.020
Đây là chúng ta sẽ không cùng nhau xem xét giải pháp trong hướng dẫn này.

01:08.020 --> 01:12.910
Tôi chỉ cho bạn biết tất cả điều này đến từ đâu bởi vì chúng tôi rất thích, chúng tôi thực sự

01:12.910 --> 01:16.120
đánh giá cao rằng UC Berkeley đã cung cấp những tài liệu này.

01:16.120 --> 01:20.830
Nhưng nếu bạn muốn tự mình thử nghiệm điều này, hãy nhớ rằng đây không phải là một phần mà nó sẽ không nằm trong

01:20.830 --> 01:21.790
khóa học của chúng tôi.

01:21.790 --> 01:23.140
Đây là một phần của khóa học Berkeley.

01:23.140 --> 01:26.050
Tôi sẽ chỉ cho bạn cách nó hoạt động với mục đích minh họa.

01:26.050 --> 01:30.460
Nhưng nếu bạn muốn thử nghiệm điều này, bạn có thể tìm thấy nó ở đây, kho lưu trữ zip và tất cả

01:30.460 --> 01:31.060
các hướng dẫn.

01:31.180 --> 01:34.780
Và chúng ta sẽ đi vào Python ngay lập tức.

01:34.810 --> 01:41.050
Và điều đầu tiên tôi muốn cho bạn thấy là ở đây chúng tôi có thông tin cấp phép.

01:41.050 --> 01:42.700
Vì vậy, đây là những gì tôi muốn nói.

01:42.700 --> 01:47.650
Chúng tôi rất may mắn khi họ nói rằng chúng tôi có thể tự do sử dụng hoặc mở rộng các dự án này cho các mục

01:47.650 --> 01:50.860
đích giáo dục, bạn biết đấy, các giải pháp phân phối, mà chúng tôi sẽ không làm.

01:50.890 --> 01:56.440
Bạn giữ lại thông báo này mà chúng tôi có và bạn cung cấp ghi công rõ ràng cho UC Berkeley, bao gồm một liên

01:56.440 --> 01:57.790
kết mà chúng tôi cũng có.

01:57.790 --> 02:01.660
Vì vậy, một lần nữa, nếu bạn muốn tìm hiểu thêm, có một liên kết mà bạn có thể xem qua.

02:01.660 --> 02:05.380
Và xin gửi lời cảm ơn chân thành nhất đến tất cả những người đã làm việc trong dự án này.

02:05.380 --> 02:08.170
Vì vậy, đây là thế giới lưới mà chúng tôi sẽ làm việc với.

02:08.170 --> 02:09.280
Có một giải pháp ở đó.

02:09.280 --> 02:13.870
Bạn sẽ phải làm cho nó hoạt động, bạn phải tự cô lập mình hoặc có thể tìm

02:13.870 --> 02:14.650
ra giải pháp.

02:14.950 --> 02:20.140
Có thể một số người trong số bạn hoặc một số người, ai đó bạn biết có thể giúp bạn thoát khỏi điều đó nếu một lần nữa, bạn muốn.

02:20.140 --> 02:24.850
Bạn không cần phải làm như vậy, vì chúng ta sẽ xem xét nó trên màn hình này ngay bây giờ.

02:24.850 --> 02:29.440
Vì vậy, sau khi chúng tôi đã tạo tất cả các tệp đó, chúng tôi có thể khởi chạy nó ở đây.

02:29.440 --> 02:34.450
Vì vậy, có một số thông số liên quan đến toàn bộ thế giới này.

02:34.570 --> 02:39.010
Và bây giờ tôi sẽ chỉ cho bạn thấy nó trông như thế nào nếu chúng tôi khởi chạy nó.

02:39.010 --> 02:41.470
Vì vậy, hãy thử khởi chạy nó ở chế độ thủ công.

02:41.470 --> 02:46.990
Vì vậy, nếu tôi trừ đi một trong các thông số này ở đây bằng tay để tôi có thể điều khiển tác nhân theo cách thủ công.

02:46.990 --> 02:48.190
Vì vậy, ở đây bạn có thể thấy lưới của chúng tôi.

02:48.190 --> 02:50.110
Vì vậy, tôi có thể đi lên, đi lên.

02:50.110 --> 02:54.910
Vì vậy, bạn có thể thấy rằng nó đang hành động, bắt đầu và bắt đầu ở các trạng thái mà tôi đã ở đó.

02:54.910 --> 03:00.100
Và sau đó bạn thấy bạn thấy rằng tôi đã ép lên, thực hiện hành động về phía bắc và lần đầu tiên tôi kết thúc bằng con số không.

03:00.100 --> 03:00.970
Vì vậy, tôi đã đi lên.

03:01.270 --> 03:04.510
Nhưng lần thứ hai tôi thực hiện hành động và kết thúc ở trạng thái tương tự.

03:04.510 --> 03:04.930
Tôi không di chuyển.

03:04.930 --> 03:06.160
Vì vậy, một cái gì đó đã xảy ra.

03:06.370 --> 03:07.180
Sự ngẫu nhiên đã xảy ra.

03:07.180 --> 03:10.810
Tôi đã đi sang trái hoặc phải, và theo mặc định, các thông số được thiết lập.

03:10.810 --> 03:17.080
Bạn có thể thấy ở đây theo mặc định, chúng được đặt thành chính xác những gì chúng ta đã thảo luận rằng tần suất hành động dẫn đến

03:17.080 --> 03:20.800
theo hướng không mong muốn là 20% thời gian, 10% ở bên trái, 10% ở bên phải.

03:20.950 --> 03:23.350
Vì vậy, nếu tôi đi lên, bạn thấy đấy, tôi đi lên, tôi đi đúng.

03:23.350 --> 03:25.570
Tôi đã đi ngay bây giờ.

03:25.570 --> 03:29.080
Đã không xảy ra đúng một lần nữa và đúng.

03:29.080 --> 03:29.680
Và tôi đã hoàn thành.

03:29.680 --> 03:34.210
Nhưng trong quá trình triển khai này, bạn phải nhấp lại để thoát ra khỏi kết quả cuối cùng này.

03:34.210 --> 03:37.000
Vì vậy, ra khỏi lối ra, bạn chỉ cần nhấp lại một lần nữa và bạn đã hoàn thành.

03:37.000 --> 03:40.630
Đó là trạng thái đầu cuối để chúng tôi có thể chạy hướng dẫn sử dụng.

03:40.630 --> 03:45.520
Bạn có thể thấy điều đó nếu tôi đi sang phải, sang phải, sang trái, lên trên.

03:45.520 --> 03:49.990
Vì vậy, ở đây những gì chúng ta đã thấy trước đây rằng đại lý sẽ không đi thẳng lên, phải không?

03:49.990 --> 03:53.230
Đi lên có ích gì nếu có cơ hội xuống hố?

03:53.230 --> 03:54.370
Vì vậy, chúng ta hãy xem những gì các đại lý sẽ làm.

03:54.490 --> 03:56.680
Bạn sẽ đi sang trái, bạn sẽ đi về phía Tây ở đây, vì vậy hãy đi về phía Tây.

03:56.680 --> 04:01.930
Và bạn thấy đấy, tôi đã nhấp chuột trái, nhưng nó tăng lên và ở đây tôi sẽ nhấp chuột phải và tôi kết thúc

04:01.930 --> 04:04.780
ở trạng thái thoát cuối cùng và bạn thấy phần thưởng bằng một.

04:05.170 --> 04:06.910
Vì vậy, đó là những gì nó trông giống như thủ công.

04:06.910 --> 04:12.460
Bây giờ chúng ta hãy thực sự kết nối một AI với điều này và để nó diễn ra.

04:12.460 --> 04:16.720
Vì vậy, chúng ta hãy làm một H ở đây và chúng ta hãy thêm một số tham số.

04:16.720 --> 04:18.970
Vì vậy, hãy để tôi chỉ xem những gì tôi đã nhập ở đây.

04:18.970 --> 04:27.430
Vì vậy, hy vọng bạn có thể nhìn thấy thế giới lưới của trăn chấm P, sau đó ở đây trừ đi R có nghĩa đó là phần thưởng cho cuộc

04:27.430 --> 04:27.910
sống.

04:27.910 --> 04:31.630
Vì vậy, tôi đã có hai trong số chúng, vì vậy tôi có lẽ nên xóa cái này.

04:31.960 --> 04:34.510
Vậy trừ đi K được bao nhiêu lần lặp?

04:34.840 --> 04:36.610
Đó là cách quá nhiều lần lặp lại.

04:36.610 --> 04:37.390
Hãy làm ít hơn.

04:37.390 --> 04:39.850
Hãy làm như mười lần lặp lại.

04:39.850 --> 04:40.690
Như vậy là đủ.

04:40.960 --> 04:48.100
Trừ a là tác nhân mà tôi muốn thực hiện loại tác nhân nào đối với tác nhân ngẫu nhiên, tác nhân giá trị nào đó

04:48.100 --> 04:54.850
hoặc Q Q Vì vậy, tôi muốn tác nhân học Q Q thực hiện điều này trừ đi s là tốc độ của s.

04:54.850 --> 04:56.530
Vì vậy, đó là cách quá nhanh.

04:56.530 --> 04:58.810
Bây giờ hãy chỉ sử dụng tốc độ mặc định.

04:58.810 --> 05:02.440
Điểm trừ R là hình phạt sống.

05:02.440 --> 05:04.690
Vì vậy, theo mặc định là số không.

05:04.690 --> 05:07.630
Vì vậy, hãy nhớ rằng ngay từ đầu chúng ta đã bắt đầu với án phạt bằng không.

05:07.630 --> 05:10.000
Vì vậy, chúng ta hãy gọi nó cũng là số không.

05:10.000 --> 05:15.760
Ở đây chúng ta chỉ có thể loại bỏ tham số này và dx là chiết khấu DX là gì.

05:15.760 --> 05:16.990
Vì vậy, hệ số chiết khấu của chúng tôi.

05:16.990 --> 05:18.310
Vì vậy, hãy giữ nó ở mức 0. 9.

05:18.310 --> 05:21.580
Rất giống với những gì chúng ta đã bắt đầu trong phần này của khóa học.

05:21.580 --> 05:25.420
Vì vậy, chúng ta hãy chạy lại theo cách đó quá nhanh.

05:26.300 --> 05:26.500
Tôi nghĩ.

05:26.580 --> 05:27.420
Ồ, thực ra, nó rất đẹp.

05:27.630 --> 05:29.280
Vì vậy, bạn có thể thấy cách anh ấy khám phá.

05:30.410 --> 05:33.350
Và cho đến nay anh ấy đã đạt mức tiêu cực ba lần.

05:33.350 --> 05:36.410
Và bạn có thể thấy các giá trị Q đang được cập nhật như thế nào trong các ô vuông này.

05:36.410 --> 05:37.810
Vì vậy, đây là những giá trị.

05:37.820 --> 05:38.990
Chúng bắt đầu bằng con số không.

05:39.020 --> 05:40.640
Bây giờ bạn có thể thấy các giá trị Q.

05:40.640 --> 05:44.840
Vì vậy, anh ấy đã học được một lần nữa, điều này được thực hiện hơi khác một chút bởi vì khi bạn đi đến giai đoạn

05:44.840 --> 05:46.220
cuối cùng, bạn phải thoát ra khỏi nó.

05:46.370 --> 05:48.890
Bạn chỉ cần nhấp vào một nút nữa để thoát.

05:48.890 --> 05:51.350
Và vì vậy nó rất gần với một, nhưng không chính xác là một.

05:51.530 --> 05:57.290
Nhưng đồng thời, bạn có thể thấy rằng ở đây, bạn biết đấy, giá trị

05:57.290 --> 06:02.360
đang dần kết tinh ở 0. 8 rõ ràng đang đến một nơi nào đó, nhưng phần còn lại cho đến nay chúng là số

06:02.360 --> 06:04.520
không vì anh ta không có đủ thông tin để hiểu chuyện gì đang xảy ra.

06:05.360 --> 06:05.520
Được chứ.

06:05.660 --> 06:08.600
Vì vậy, chúng ta hãy xem chúng ta hãy xem những gì sẽ xảy ra ở đây.

06:10.080 --> 06:13.590
Khám phá, khám phá, khám phá những gì sắp xảy ra.

06:13.620 --> 06:14.850
Đã được một thời gian.

06:15.540 --> 06:17.610
Và đừng quên, có một số ngẫu nhiên liên quan ở đây.

06:17.850 --> 06:20.580
Vì vậy, có một hit tốt đó một vài lần bây giờ.

06:20.910 --> 06:24.090
Anh ấy chỉ có mười lần lặp lại, vì vậy anh ấy phải học nhanh.

06:25.640 --> 06:26.630
Tôi cần bạn ở đó.

06:27.140 --> 06:28.670
Hãy xem những gì đang xảy ra.

06:29.180 --> 06:29.980
Nào.

06:29.990 --> 06:31.790
Ra khỏi mê cung đó rồi.

06:32.760 --> 06:40.200
Và có mười tập phim thu về mức trung bình đến mức chúng tôi không thực sự quan tâm đến điều đó.

06:40.200 --> 06:42.510
Vì vậy, ở đây hãy xem tôi chưa bao giờ nhìn thấy chúng trước đây.

06:42.510 --> 06:43.770
Nếu tôi nhấp chuột phải vào đó, chúng tôi sẽ đi.

06:43.770 --> 06:49.530
Vì vậy, bạn có thể thấy đây là chính sách mà anh ấy đã đưa ra dù chỉ qua mười tập phim.

06:49.530 --> 06:50.610
Anh ấy đã có một chính sách.

06:50.610 --> 06:52.290
Được rồi, tôi sẽ đi ba ba ba bùm.

06:52.380 --> 06:54.030
Và đây, tôi sẽ đi xuống đây.

06:54.030 --> 06:55.440
Tôi sẽ đi xuống đây.

06:55.440 --> 06:58.230
Tôi sẽ đi vào bức tường và sau đó tôi sẽ bật ra đây.

06:58.440 --> 06:59.250
Điều đó khá tuyệt.

07:00.180 --> 07:02.100
Vì vậy, bây giờ chúng ta hãy tăng tốc độ.

07:02.430 --> 07:05.520
Tham số sx ở đó là gì và hãy giống như nhân đôi.

07:05.520 --> 07:11.220
Vâng, chúng ta hãy tăng gấp bốn lần tốc độ và tăng số lần lặp lại.

07:11.220 --> 07:13.440
Vì vậy, giả sử 20 lần lặp lại lần này.

07:13.830 --> 07:18.660
Hãy xem liệu anh ấy có thể vượt qua một chút nữa không để bạn có thể thấy anh ấy sẽ nhanh hơn một chút.

07:19.580 --> 07:20.960
Và anh ấy đang học.

07:20.960 --> 07:24.080
Anh ấy đang biết rằng nó không thực sự thoát khỏi trạng thái này.

07:24.440 --> 07:29.990
Không có nhiều hành động tốt hoặc những hành động đúng và thẳng là không tốt.

07:30.020 --> 07:30.530
Chắc chắn.

07:30.530 --> 07:31.910
Điều này chắc chắn là không tốt.

07:32.300 --> 07:33.380
Anh ấy vẫn cần phải học điều đó.

07:33.380 --> 07:34.550
Vì vậy, từ đây nó cũng tốt.

07:34.640 --> 07:36.290
Bạn có thể thấy rằng hành động này là khá tốt.

07:36.710 --> 07:37.220
Được rồi.

07:37.220 --> 07:38.390
Anh ta đã nhận được gì?

07:38.430 --> 07:40.340
Được rồi, chính sách rất thú vị ở đây.

07:40.640 --> 07:42.020
Anh ấy quyết định đi lên.

07:42.050 --> 07:43.190
Chỉ là không đủ thông tin.

07:43.190 --> 07:44.360
Vậy hãy.

07:44.420 --> 07:45.530
Hãy làm lại điều đó.

07:46.780 --> 07:50.140
Và hãy tăng tốc độ lên 100 like.

07:50.230 --> 07:51.310
Vì vậy, nó siêu nhanh.

07:51.310 --> 07:57.160
Và số lần lặp lại sẽ cung cấp cho họ 100 lần lặp lại STEM để chạy cảnh đó một CS nhanh

07:57.160 --> 07:57.940
như điên.

07:57.940 --> 08:00.700
Và bạn có thể thấy điều đó bởi vì có rất nhiều lần lặp lại.

08:01.000 --> 08:07.360
Anh ấy có nhiều thông tin hơn, nhiều cơ hội hơn để thử nghiệm và thực sự xây dựng ra cái này, ma trận này hoặc ma trận này, những

08:07.360 --> 08:10.750
giá trị hàng đợi này cho mọi trạng thái đơn lẻ mà anh ấy biết.

08:10.930 --> 08:13.070
Bạn có thể thấy rằng 0. 89.

08:13.090 --> 08:15.730
Những gì chúng tôi đã nói trong ví dụ của chúng tôi giống như 0. 86.

08:15.880 --> 08:20.080
Một điều cần nhớ điều này rằng giá trị của bất kỳ trạng thái nhất định.

08:20.620 --> 08:24.130
Hãy nhớ rằng công thức chúng ta có là giá trị Q lớn nhất.

08:24.130 --> 08:26.930
Hãy nhớ rằng điều mà chúng tôi đã đưa ra công thức phím tắt.

08:26.950 --> 08:29.370
Vậy giá trị trong trạng thái này sẽ là bao nhiêu?

08:29.380 --> 08:34.390
V của trạng thái này, nó sẽ là 0. 89 vì đó là cao nhất trong số bốn.

08:34.540 --> 08:37.030
Ở đây, giá trị của trạng thái này là 0. 71.

08:37.030 --> 08:40.150
Giá trị của trạng thái này là 0. 61 và như vậy.

08:40.150 --> 08:41.350
Vì vậy, đó là điều cần ghi nhớ.

08:41.350 --> 08:45.130
Vì vậy, tôi nhớ trong ví dụ của chúng tôi, tôi nghĩ rằng chúng tôi đã có như 0. 86 hoặc cái gì đó, rất gần.

08:45.670 --> 08:51.130
Và vì vậy nếu chúng ta tiếp tục đến đây, nó sẽ biến mất hoặc biến mất.

08:51.580 --> 08:54.490
Hãy làm điều đó một lần nữa và hãy làm cho nó trở lại.

08:55.090 --> 08:55.660
Được chứ?

08:55.670 --> 08:56.060
Được chứ.

08:56.140 --> 08:57.250
Từ từ, từ từ, từ từ.

08:57.250 --> 09:00.310
Đang lấp đầy một số khoảng trống.

09:01.060 --> 09:01.420
Tôi thấy.

09:01.420 --> 09:06.100
Và nó cũng khá ngẫu nhiên vì không chỉ môi trường có sự ngẫu nhiên, mà còn cả cách anh ta khám phá lúc

09:06.100 --> 09:10.150
bắt đầu khi anh ta không biết chính sách mà anh ta đang khám phá một cách ngẫu nhiên.

09:10.960 --> 09:12.020
Nó cứ biến mất.

09:12.040 --> 09:13.180
Tôi không hiểu tại sao.

09:13.510 --> 09:18.580
Dù sao, vì vậy hãy xem điều gì sẽ xảy ra nếu chúng ta tăng số lượng ở đây và ở đây sẽ mất

09:18.580 --> 09:19.660
khá nhiều thời gian.

09:20.700 --> 09:22.800
Nếu tốc độ không có giới hạn.

09:23.820 --> 09:26.880
Vì vậy, bạn có thể thấy anh ấy có nhiều cơ hội hơn để khám phá mọi thứ.

09:27.740 --> 09:32.490
OC Hãy xem mọi thứ diễn ra như thế nào và bạn có thể thấy các giá trị đang hội tụ.

09:32.500 --> 09:36.240
Chúng lên xuống tùy thuộc, bạn biết đấy, bởi vì có một số ngẫu nhiên và anh ta

09:36.240 --> 09:40.740
có thể kết thúc như ở trong hố, mặc dù anh ta đi như thế này, nhưng đồng thời chúng bắt đầu

09:40.740 --> 09:43.050
hội tụ lại một số loại kết thúc giá trị và.

09:43.050 --> 09:44.130
Giá trị Q?

09:44.900 --> 09:48.450
OC Có lẽ 1000 là một chút quá nhiều về mặt thời gian.

09:48.450 --> 09:53.010
Có vẻ như tốc độ cũng đang tăng lên một cách tương xứng.

09:53.460 --> 09:55.110
Vì vậy, nó có thể cắt phần đó.

09:55.470 --> 09:57.090
Ý tôi là, như giảm tốc độ.

09:57.420 --> 09:57.610
Ừ.

09:57.720 --> 09:59.070
Trong khi điều này là rất dài.

09:59.900 --> 10:01.970
Bạn không cần phải xem qua phần cuối của hướng dẫn này.

10:01.970 --> 10:03.320
Tôi chỉ muốn thử nghiệm một chút.

10:03.320 --> 10:09.380
Vì vậy, để cung cấp cho bạn một số ví dụ về những gì chúng tôi đã làm việc, nhưng bạn có thể hiểu được rằng nó đã trải qua

10:09.380 --> 10:10.490
tất cả những điều này.

10:10.670 --> 10:14.600
Nó có một số tính ngẫu nhiên, giống như Ram được tích hợp sẵn trong hành vi của nó.

10:14.600 --> 10:18.560
Vì vậy, ngay cả khi nó có một chính sách thích hợp, nó vẫn sẽ tiếp tục khám phá.

10:18.560 --> 10:23.240
Vì vậy, nó sẽ không giống như một khi nó có một chính sách cơ bản, nó sẽ không chỉ tiếp tục tuân theo chính sách của nó.

10:23.240 --> 10:28.760
Nó vẫn sẽ thử nghiệm với các biến thể khác một lần để cải thiện chính sách của mình.

10:28.760 --> 10:31.280
Có thể nó chưa tìm được chính sách tốt nhất ngay lúc đó.

10:31.280 --> 10:33.140
Có thể nó có thể cải thiện chính sách.

10:33.140 --> 10:38.720
Và đó là lý do tại sao, ngay cả sau rất nhiều lần lặp lại, bạn vẫn có thể thấy một số hiệu ứng ngẫu nhiên.

10:39.030 --> 10:43.640
Đôi khi nó chuyển sang trạng thái ngẫu nhiên, không chỉ vì tính ngẫu nhiên trong môi trường, mà còn

10:43.640 --> 10:49.040
vì có một số cấp độ giống như một thông số mà bạn có thể kiểm soát, mà bạn có thể thiết lập cho tác

10:49.040 --> 10:55.430
nhân của mình, nói rằng hầu hết thời gian, 80% vào thời điểm đó, hãy làm bất cứ điều gì mà chính sách của bạn yêu cầu bạn phải làm.

10:55.430 --> 11:00.620
Nhưng 20% thời gian, bạn biết đấy, chỉ cần có một số thử nghiệm thú vị và xem điều gì sẽ xảy ra và sử dụng thông

11:00.620 --> 11:03.140
tin bạn thu thập được để cập nhật chính sách của mình.

11:03.200 --> 11:03.400
Được chứ.

11:03.500 --> 11:05.150
Điều này mất quá nhiều thời gian.

11:05.180 --> 11:06.270
Hãy thử lại lần nữa.

11:06.290 --> 11:06.680
Ừ.

11:06.680 --> 11:11.540
Vì vậy, đó là cách đại lý học ở các trạng thái khác nhau.

11:11.540 --> 11:11.780
Có lẽ.

11:11.780 --> 11:14.000
Hãy chạy thêm một cái nữa chỉ vì tò mò.

11:14.000 --> 11:16.520
Vậy có điều gì khác chúng ta có thể thay đổi về nó không?

11:18.390 --> 11:20.540
Lặp lại chúng.

11:21.600 --> 11:22.800
OC OC.

11:22.810 --> 11:24.060
Chúng ta hãy có một cái nhìn.

11:24.360 --> 11:26.610
Ví dụ, chúng ta có thể thay đổi chiết khấu.

11:26.610 --> 11:29.280
Vì vậy, trong trường hợp này, chúng tôi có thể nói.

11:30.640 --> 11:39.780
K -100, trừ đi một q đến số trừ chỉ là nghìn.

11:39.790 --> 11:41.260
Vì vậy, phần thưởng.

11:41.260 --> 11:42.100
Chúng tôi muốn giữ nó.

11:42.100 --> 11:45.610
Có lẽ chúng ta hãy giữ nó ở mức 0. 04, nhưng hãy nói lại lần nữa.

11:46.030 --> 11:49.210
Hãy giữ phần thưởng ở mức -0. 04 mỗi lần.

11:49.210 --> 11:53.470
Và sau đây chúng ta sẽ nói rằng D.

11:54.250 --> 11:58.900
Mức chiết khấu không phải là 0. 9, nhưng nó giống như 0. 5.

11:58.900 --> 12:02.140
Vì vậy, nó được giảm giá khá nhiều khi bạn trải qua trò chơi.

12:02.350 --> 12:09.190
Vì vậy, thực tế bây giờ nó sẽ được khuyến khích để gần kết thúc hơn là xa hơn nữa các trạng thái gần kết thúc, chúng tôi sẽ nhận

12:09.190 --> 12:10.360
được giá trị cao hơn.

12:10.360 --> 12:12.790
Vì vậy, bạn có thể thấy rằng giá trị nhanh chóng giảm xuống.

12:12.790 --> 12:15.340
Nó không còn xanh như trước nữa.

12:16.130 --> 12:20.100
Vì vậy, ở đây bạn có thể thấy rằng đây là chính sách bây giờ.

12:20.120 --> 12:23.180
Vì vậy, nó diễn ra như thế, như thế, như vậy, như thế.

12:23.180 --> 12:24.950
Rất giống với những gì chúng ta đã thấy trước đây.

12:24.980 --> 12:28.430
Chỉ có lẽ sự khác biệt duy nhất từ đây là nhảy thẳng vào đây.

12:28.580 --> 12:29.840
Vì vậy, đó là một trong những.

12:29.840 --> 12:32.420
Và hãy chạy thêm một cái nữa.

12:32.450 --> 12:33.390
Điều này thật sự rất vui.

12:33.410 --> 12:34.430
Hãy chỉ chạy một nữa.

12:34.430 --> 12:34.880
Vì thế.

12:34.910 --> 12:38.940
K trừ k giảm 100 a q.

12:38.960 --> 12:41.720
Giữ nó như ban đầu.

12:41.720 --> 12:45.620
Vì vậy, hãy để tôi chỉ cần chạy thiết lập vani cơ bản này.

12:46.690 --> 12:49.540
OC oc oc nó đi.

12:49.540 --> 12:51.730
Hãy xem liệu nó có hiển thị cho chúng ta chính sách ở phần cuối hay không.

12:53.300 --> 12:53.840
Đúng.

12:53.840 --> 12:54.770
Chúng tôi có chính sách.

12:54.770 --> 12:55.060
Đúng.

12:55.070 --> 12:55.880
Kết thúc tốt.

12:56.180 --> 12:58.610
Vì vậy, ở đây chúng tôi có chính sách.

12:58.730 --> 12:59.740
Bạn biết đấy, điều này là quen thuộc.

12:59.750 --> 13:04.580
Hãy nhớ rằng khi chúng ta thấy rằng AI vượt trội hơn con người, lao vào bức tường để đi

13:04.580 --> 13:08.510
đến đó và lao vào bức tường để đi như vậy, để tăng xác suất.

13:08.510 --> 13:09.190
Vậy là xong.

13:09.200 --> 13:13.760
Đó là một ví dụ về trí tuệ nhân tạo đang hoạt động.

13:13.760 --> 13:16.250
Rất, rất cơ bản, học giết đơn giản.

13:16.250 --> 13:18.050
Vì vậy, không có học sâu ở giai đoạn này.

13:18.440 --> 13:21.830
Nhưng đồng thời, nó cũng khá thông minh.

13:21.830 --> 13:23.540
Và tôi hy vọng bạn thích hướng dẫn hôm nay.

13:23.540 --> 13:28.790
Và một lần nữa, xin cảm ơn UC Berkeley và tôi hy vọng bạn thích bài hướng dẫn hôm nay và tôi mong được gặp

13:28.790 --> 13:29.540
bạn lần sau.

13:29.540 --> 13:30.680
Cho đến lúc đó, hãy tận hưởng.

13:30.680 --> 13:31.220
TÔI.
