WEBVTT

00:00.980 --> 00:04.520
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:04.520 --> 00:07.490
Hôm nay chúng ta sẽ thảo luận về kế hoạch tấn công của phần này.

00:07.490 --> 00:11.120
Chúng tôi đang nói về học chính và chúng tôi đã có khá nhiều hướng dẫn.

00:11.120 --> 00:19.460
Vì vậy, tôi nghĩ chúng ta nên nhanh chóng lướt qua chúng để hiểu nội dung mong đợi trong các video sắp

00:19.460 --> 00:20.180
tới.

00:20.300 --> 00:21.260
Vì vậy, chúng ta bắt đầu.

00:22.010 --> 00:22.490
Được rồi.

00:22.490 --> 00:24.770
Chúng ta sẽ học gì trong phần này.

00:25.040 --> 00:31.610
Điều đầu tiên, chúng ta sẽ nói về học tăng cường thực sự là gì và triết lý đằng sau việc học tăng cường là gì

00:31.610 --> 00:37.850
và cách học tăng cường thực sự có thể được nhìn thấy trong cuộc sống thực và nó liên quan như thế nào đến

00:37.850 --> 00:43.910
những thứ mà chúng ta quan sát được trong cuộc sống thực sự là những thứ mà chúng ta làm. chính chúng ta.

00:44.540 --> 00:51.320
Chúng ta sẽ nói về Phương trình Belmont, một khái niệm rất cơ bản làm nền tảng cho mọi thứ hoặc nhiều thứ

00:51.320 --> 00:56.720
đang diễn ra trong học tập củng cố, đặc biệt là trong không gian học tập này.

00:56.720 --> 01:01.610
Và những gì chúng ta sẽ thảo luận trong phần này của khóa học và trong

01:01.610 --> 01:10.100
các phần tiếp theo, sau đó chúng ta sẽ nói về kế hoạch và phương án mà trí tuệ nhân tạo đưa ra để điều hướng bên trong môi

01:10.100 --> 01:11.540
trường của chúng ta.

01:11.540 --> 01:14.530
Và chúng ta sẽ xem điều đó làm thế nào mà điều đó kết hợp với nhau.

01:14.540 --> 01:17.220
Hướng dẫn rất nhanh, nhưng khá thú vị.

01:17.480 --> 01:21.080
Sau đó, chúng ta sẽ nói về các quy trình quyết định thị trường và khái niệm mới.

01:21.080 --> 01:29.030
Chúng tôi sẽ giới thiệu một khái niệm rất mới, từ từ thậm chí sẽ bổ sung thêm một lớp phức tạp cho phương trình Belmont của chúng tôi,

01:29.030 --> 01:34.850
cho toàn bộ quá trình học tăng cường của chúng tôi, cho các khái niệm học chính của chúng tôi.

01:34.850 --> 01:39.650
Và đó là cách phần này được cấu trúc, chúng tôi giới thiệu Phương trình Belmont ở dạng rất đơn

01:39.650 --> 01:40.070
giản.

01:40.070 --> 01:47.060
Và sau đó từ từ trong suốt các hướng dẫn, chúng tôi thêm các lớp tinh vi vào nó để đi đến

01:47.060 --> 01:48.470
phiên bản cuối cùng.

01:48.470 --> 01:55.010
Đó là điểm đến được chỉ định của chúng tôi về màu sắc, nhưng chúng tôi sẽ đến đó từ từ để chúng tôi có đủ thời

01:55.010 --> 01:58.760
gian xử lý tất cả thông tin đó và để thông tin ổn định.

01:58.760 --> 02:04.790
Và các quy trình ra quyết định của Markov là một lớp phức tạp bổ sung bên trên những gì chúng ta đã thảo luận

02:04.790 --> 02:07.400
hoặc những gì chúng ta sẽ thảo luận sau đó.

02:08.240 --> 02:10.700
Sau đó, chúng ta sẽ nói về chính sách so với kế hoạch.

02:11.090 --> 02:13.760
Một hướng dẫn thú vị khác, tất cả chúng đều thú vị.

02:13.760 --> 02:19.520
Chỉ là một hướng dẫn nhanh khác về cách chính sách khác với các kế hoạch và sự khác biệt đó là gì.

02:19.520 --> 02:24.470
Và đây là những thuật ngữ mà bạn có thể sẽ nghe hoặc đọc trong các tài liệu khác.

02:24.470 --> 02:30.020
Nếu bạn đang đi sâu vào nó để có thêm thông tin về việc học tăng cường, thì chúng ta

02:30.020 --> 02:34.490
sẽ nói về việc thêm một hình phạt sống vào môi trường của chúng ta.

02:34.490 --> 02:41.780
Và đó là một cách khác để tăng thêm sự phức tạp vào môi trường mà các đại lý của chúng tôi

02:41.780 --> 02:42.950
sẽ hoạt động.

02:43.040 --> 02:46.160
Sau đó, chúng ta sẽ nói về trực giác đằng sau việc học chính.

02:46.160 --> 02:51.530
Vì vậy, cho đến phần hướng dẫn đó, chúng ta sẽ nói về giá trị của các trạng thái, và cuối

02:51.530 --> 02:59.210
cùng chúng ta sẽ chuyển sang nói về giá trị của hành động hoặc giá trị Q, và sau đó chúng ta sẽ giới thiệu sự khác biệt theo thời

02:59.210 --> 02:59.690
gian.

02:59.690 --> 03:05.810
Vì vậy, đây là hướng dẫn mà tất cả mọi thứ chúng ta đã học sẽ được kết hợp với nhau để giải

03:05.810 --> 03:11.090
thích chính xác cách mà các tác nhân hoặc nhân tạo trí tuệ nhân tạo học như thế nào?

03:11.090 --> 03:16.160
Làm thế nào để nó cập nhật các giá trị của nó trong suốt quá trình lặp đi lặp lại mà nó đang trải qua?

03:16.610 --> 03:21.470
Và cuối cùng, chúng ta sẽ xem xét hình dung về việc học chính.

03:21.470 --> 03:26.960
Vì vậy, chúng tôi sẽ lấy mọi thứ chúng tôi đã học và chúng tôi sẽ nhìn nó xảy ra trước

03:26.960 --> 03:34.070
mắt chúng tôi và xem một trí tuệ nhân tạo thực sự thực hiện việc học chính và làm tất cả những điều mà chúng tôi

03:34.070 --> 03:37.880
sẽ thảo luận trực quan sẽ thực sự làm được trong thực tế.

03:37.880 --> 03:44.240
Và điều đó sẽ giúp chúng tôi nắm bắt thêm kiến thức mà chúng tôi sẽ đề cập trong phần này.

03:44.240 --> 03:47.360
Vì vậy, hy vọng bạn rất hào hứng với những hướng dẫn sắp tới này.

03:47.360 --> 03:48.740
Tôi chắc chắn là như vậy.

03:48.740 --> 03:51.800
Và có một số trang trình bày rất thú vị sắp ra mắt.

03:51.800 --> 03:56.990
Và quan trọng hơn, bản thân các khái niệm này rất, rất thú vị và tôi chắc rằng

03:56.990 --> 04:01.280
bạn sẽ thích chúng rất nhiều và tôi mong được gặp bạn lần sau.

04:01.280 --> 04:02.570
Cho đến lúc đó, hãy tận hưởng.

04:02.570 --> 04:03.170
TÔI.