WEBVTT

00:00.950 --> 00:03.650
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.650 --> 00:07.640
Và hôm nay chúng ta đang nói về các quy trình quyết định Markov hoặc MDP.

00:08.570 --> 00:10.880
Hãy xem những gì chúng ta có ngày hôm nay.

00:11.210 --> 00:13.970
Vì vậy, lần trước chúng ta đã dừng lại ở khái niệm bản đồ.

00:13.970 --> 00:19.400
Vì vậy, bởi vì chúng tôi đã tính toán các giá trị dựa trên phương trình Belmont, chúng tôi có thể lấy bản đồ này

00:19.400 --> 00:20.930
cho tác nhân của mê cung này.

00:20.930 --> 00:27.080
Và về cơ bản điều đó có nghĩa là bất cứ nơi nào tác nhân thay đổi bắt đầu, vì vậy hãy nói rằng nó bắt đầu từ đó.

00:27.260 --> 00:30.800
Nó biết chính xác những bước cần thực hiện để về đích.

00:30.800 --> 00:32.210
Vì vậy, nó chỉ tăng lên.

00:32.210 --> 00:33.800
Lên, đúng, đúng.

00:33.800 --> 00:34.750
Và thực hiện.

00:34.760 --> 00:39.710
Và câu hỏi đặt ra ở đây là nó có thực sự đơn giản như vậy không?

00:39.710 --> 00:44.630
Bạn biết đấy, việc học tăng cường có thực sự nhàm chán không?

00:44.630 --> 00:47.390
Đó là khi bạn có bản đồ, thế là xong.

00:47.390 --> 00:49.280
Tất cả những gì bạn phải làm là bạn đã hoàn thành.

00:49.640 --> 00:50.660
Bạn chỉ cần làm theo bản đồ.

00:50.810 --> 00:55.400
Thực tế là nó không đơn giản như vậy.

00:55.400 --> 01:00.950
Và đó là một điều tốt, bởi vì nó làm cho khóa học này trở nên thú vị hơn đối với chúng tôi và chúng tôi thực sự có thể giải quyết

01:00.950 --> 01:02.360
những vấn đề phức tạp hơn nhiều.

01:02.360 --> 01:05.390
Vì vậy, đây là nơi các quy trình Markov xuất hiện.

01:05.390 --> 01:07.640
Nhưng trước tiên, chúng ta sẽ nói về hai điều.

01:07.640 --> 01:11.300
Chúng ta sẽ nói về tìm kiếm xác định so với tìm kiếm không xác định.

01:11.390 --> 01:14.330
Vì vậy, chúng ta hãy nói về khái niệm tìm kiếm xác định.

01:14.510 --> 01:16.430
Đây là đại lý của chúng tôi trong mê cung.

01:16.430 --> 01:24.320
Và tìm kiếm xác định có nghĩa là nếu tác nhân quyết định đi lên, thì điều gì sẽ xảy ra với xác suất

01:24.320 --> 01:26.660
100% là nó sẽ đi lên.

01:26.780 --> 01:28.610
Đó chính xác là những gì sẽ xảy ra.

01:28.610 --> 01:29.630
Không có lựa chọn nào khác.

01:29.630 --> 01:33.590
Một lần, khi nó nói đi lên hoặc nhấp vào mũi tên lên, nó sẽ đi lên.

01:33.590 --> 01:34.640
Không có lựa chọn nào khác.

01:35.060 --> 01:41.450
Mặt khác, tìm kiếm không xác định là khi đại diện của chúng tôi nói rằng nó muốn tăng lên.

01:41.930 --> 01:44.210
Chúng thực sự là một vài lựa chọn.

01:44.210 --> 01:48.500
Ví dụ: có thể có ba tùy chọn và chúng ta sẽ xem xét một ví dụ trong đó có ba tùy chọn,

01:48.500 --> 01:50.180
nhưng không nhất thiết phải giới hạn ở ba.

01:50.180 --> 01:54.200
Nó có thể là bốn hoặc nó có thể khác nhau tùy thuộc vào vấn đề.

01:54.200 --> 02:00.530
Sự ngẫu nhiên có thể khác nhau, nhưng trong trường hợp của chúng tôi, nó có thể là ba lựa chọn với 80% cơ hội

02:00.530 --> 02:07.400
anh ta đi lên, nhưng sau đó với 10% cơ hội khi anh ta muốn đi lên, anh ta thực sự sẽ đi bên trái chỉ vì

02:07.400 --> 02:09.230
đó là cách môi trường hoạt động.

02:09.230 --> 02:10.820
Đó là thế giới mà anh ấy đang sống.

02:11.180 --> 02:14.690
Và với 10% cơ hội nữa anh ấy sẽ thực sự đi đúng.

02:14.690 --> 02:17.090
Và trong trường hợp này, anh ta sẽ rơi vào vòi rồng.

02:17.660 --> 02:20.600
Vì vậy, đó là cách tất cả hoạt động.

02:20.660 --> 02:24.830
Đó là một ví dụ về tìm kiếm không xác định, một quá trình ngẫu nhiên.

02:24.830 --> 02:33.370
Và mục đích của điều này là tạo ra một mô hình thực tế hơn về những gì thực sự có thể xảy ra trong thế giới thực,

02:33.380 --> 02:36.290
trong một dạng vấn đề của thế giới thực.

02:36.290 --> 02:40.940
Bởi vì rất hiếm khi bạn gặp phải những tình huống như thế này khi bạn làm một việc gì đó và nó diễn ra đúng như ý

02:40.940 --> 02:41.270
muốn.

02:41.270 --> 02:46.430
Và ngay cả khi bạn nghĩ về nó về mặt trò chơi, giả sử bạn có một đặc vụ chơi Pac-Man.

02:46.430 --> 02:48.410
Chà, không phải lúc nào cũng vậy.

02:48.410 --> 02:53.000
Có phải trường hợp anh ta đang đứng trong quảng trường, anh ta đi lên, anh ta sẽ nhận được cùng một kết

02:53.000 --> 02:59.090
quả chính xác mỗi khi anh ta thực sự đi lên, nhưng có thể trong một trường hợp anh ta sẽ không bị ma ăn thịt, và trong một trường hợp

02:59.090 --> 03:01.340
khác, anh ta sẽ bị ăn thịt bởi một con ma.

03:01.340 --> 03:05.870
Vì vậy, như bạn có thể thấy, nó có một số ngẫu nhiên vì nó phụ thuộc vào cách các con ma di chuyển và chúng không phải lúc

03:05.870 --> 03:07.280
nào cũng di chuyển theo cùng một cách.

03:07.280 --> 03:09.260
Không phải lúc nào chúng cũng bắt đầu ở những vị trí giống nhau.

03:09.260 --> 03:11.060
Vì vậy, nó rất hợp lý.

03:11.060 --> 03:14.270
Rất công bằng rằng có một số ngẫu nhiên.

03:14.270 --> 03:19.760
Có điều gì đó không nằm trong tầm kiểm soát của tác nhân, và đó chỉ là một cách để chúng tôi trình bày điều đó

03:19.760 --> 03:25.310
để chúng tôi tìm hiểu cách chúng tôi có thể đối phó với nó và điều đó ảnh hưởng đến phương trình bellman như thế nào,

03:25.310 --> 03:28.070
nó ảnh hưởng đến toàn bộ quá trình học tập củng cố.

03:28.970 --> 03:33.680
Nhưng đồng thời, sự ngẫu nhiên tất nhiên không giới hạn ở việc nếu bạn đi lên thì có 10% khả năng bạn đi

03:33.680 --> 03:35.510
đúng hoặc 10% cơ hội đi sang trái.

03:35.510 --> 03:38.300
Hoặc nếu bạn đi xuống, có 10% khả năng bạn đi sang phải hoặc trái.

03:38.300 --> 03:40.490
Hoặc nếu bạn đi đúng, có 10% cơ hội đi lên hoặc đi xuống.

03:40.500 --> 03:42.890
Nó không giới hạn ở nơi bạn sẽ đến.

03:42.890 --> 03:44.420
Đôi khi bạn có thể gặp vấn đề.

03:44.420 --> 03:47.180
Đó chính xác là đôi khi xác suất có thể khác nhau.

03:47.180 --> 03:51.050
Đôi khi sự ngẫu nhiên có thể chuyển sang một thứ khác.

03:51.050 --> 03:55.610
Nó có thể được nhắc đến như trong ví dụ về Pacman, về những con ma ăn thịt bạn hoặc không ăn thịt bạn.

03:55.610 --> 03:58.760
Hoặc nó có thể sôi lên thành một thứ gì đó khác.

03:58.760 --> 04:05.510
Ví dụ, giống như có, giống như nếu đặc vụ đang chơi trò diệt vong và sau đó có một cái gì đó giống như một con quái

04:05.510 --> 04:08.900
vật sẽ bắn anh ta trong một trường hợp, một trò chơi khác.

04:08.990 --> 04:14.840
Giống như có khả năng nó bị bắn và có khả năng nó sẽ không bị bắn, v.v.

04:14.840 --> 04:19.460
Vì vậy, một cái gì đó nằm ngoài tầm kiểm soát của các tác nhân, một cái gì đó mà nó không thể dự đoán.

04:19.460 --> 04:22.790
Đó là những gì chúng tôi đang mô hình hóa ở đây trong tìm kiếm không xác định.

04:22.790 --> 04:30.320
Và đây là nơi chúng tôi đã tiếp cận trực tiếp với hai khái niệm mới, quy trình Markov và hay quy trình markov và quy

04:30.320 --> 04:32.720
trình quyết định Markov được đánh dấu.

04:32.720 --> 04:38.600
Vì vậy, chúng ta hãy nhìn vào những điều này và bạn biết tôi không thích đưa các định nghĩa và nhiều văn bản lên các trang trình

04:38.600 --> 04:42.230
bày như thế nào, nhưng trong trường hợp này, chúng ta cần phải xem qua chúng.

04:42.230 --> 04:43.250
Vì vậy, chúng ta hãy xem xét.

04:43.280 --> 04:46.160
Một quá trình ngẫu nhiên có dấu ấn của tài sản.

04:46.160 --> 04:51.710
Nếu phân phối xác suất có điều kiện của các trạng thái tương lai của quá trình có điều kiện cho cả

04:51.710 --> 04:57.710
trạng thái quá khứ và hiện tại, chỉ phụ thuộc vào trạng thái hiện tại, không phụ thuộc vào chuỗi sự kiện xảy ra trước

04:57.710 --> 04:58.040
nó.

04:58.070 --> 05:00.320
Quá trình thuộc tính này được gọi là quá trình đánh dấu.

05:00.820 --> 05:06.670
Định nghĩa rất phức tạp và nó giống như thậm chí một chút không mâu thuẫn với chính nó, nhưng nó có cảm giác như nó

05:06.670 --> 05:07.840
mâu thuẫn với chính nó.

05:07.840 --> 05:11.950
Vì vậy, ở đây nó nói rằng điều kiện đối với cả trạng thái quá khứ và hiện tại của tôi chỉ phụ thuộc

05:11.950 --> 05:14.250
vào, nhưng đồng thời nó chỉ phụ thuộc vào trạng thái hiện tại.

05:14.260 --> 05:17.530
Vì vậy, đừng quá sa lầy vào điều đó.

05:17.590 --> 05:19.270
Tôi sẽ chia nhỏ nó trong những thuật ngữ đơn giản.

05:19.270 --> 05:22.930
Vì vậy, một dấu hiệu của tài sản là khi tương lai của bạn trạng thái.

05:22.930 --> 05:26.920
Vì vậy, không chỉ sự lựa chọn của bạn, mà là toàn bộ sự lựa chọn của bạn và môi trường.

05:27.130 --> 05:33.250
Nó sẽ chỉ giống như kết quả của hành động bạn thực hiện trong môi trường đó sẽ chỉ phụ thuộc vào vị trí hiện tại

05:33.250 --> 05:33.850
của bạn.

05:33.850 --> 05:35.650
Nó sẽ không phụ thuộc vào cách bạn đến đó.

05:35.860 --> 05:36.460
Và đó là nó.

05:36.460 --> 05:40.510
Vì vậy, đó là một thị trường cho tài sản và một quá trình có đặc tính này được gọi là quá trình thị trường.

05:40.600 --> 05:47.230
Vì vậy, để đưa nó vào một ví dụ, vì vậy nếu người đại diện của bạn ở đây và nếu anh ta đi, nếu anh ta quyết định đi lên, anh ta

05:47.230 --> 05:47.950
có thể đi.

05:47.950 --> 05:52.810
Anh ta trong trường hợp của chúng tôi, trong ví dụ tìm kiếm không xác định của chúng tôi, anh ta thực sự có thể đi sang trái và phải.

05:52.810 --> 05:53.560
Được rồi.

05:53.560 --> 05:57.490
Đó là bởi vì chúng ta có lý thuyết ngẫu nhiên đó bên trong môi trường của chúng ta.

05:57.490 --> 05:59.560
Chúng ta có sự ngẫu nhiên đó bên trong môi trường của chúng ta.

05:59.560 --> 06:01.630
Vì vậy, bất kỳ một trong ba điều này có thể xảy ra.

06:01.630 --> 06:07.030
Nhưng mấu chốt ở đây là đây là một dấu ấn của quá trình bởi vì chúng tôi không quan tâm làm thế nào anh ta đến được đây.

06:07.030 --> 06:10.060
Anh ta có thể đến từ phía trên, kết thúc ở đây, anh ta có thể đến từ bên trái.

06:10.060 --> 06:12.190
Và sau đó ở trên đây anh ta có thể đã từ dưới lên, cuối cùng đã đến đây.

06:12.190 --> 06:16.420
Anh ấy có thể đã di chuyển quanh đây 100.000 lần và sau đó đến đây.

06:16.420 --> 06:18.670
Nó không quan trọng những gì đã xảy ra trước đó.

06:18.670 --> 06:22.120
Chỉ có điều quan trọng là anh ta đang ở trạng thái nào.

06:22.210 --> 06:30.790
Và do đó, xác suất đi sang trái hoặc sang phải hoặc đi lên, chúng sẽ luôn bằng nhau nếu anh ta ở trạng thái

06:30.790 --> 06:31.960
này bây giờ.

06:32.530 --> 06:37.480
Và về cơ bản đó chỉ là nói rằng nó không quan trọng những gì đã xảy ra trước khi chúng ta ở đây bây giờ.

06:37.570 --> 06:39.040
Đây là trạng thái bạn đang ở.

06:39.040 --> 06:42.250
Và đừng quên, trạng thái đó không chỉ có nghĩa là nơi anh ấy đang đứng.

06:42.250 --> 06:46.570
Trạng thái là trạng thái của tổng thể của tổng thể của tác nhân trong môi trường.

06:46.570 --> 06:49.900
Vậy có giống như quái vật ở bên phải hay là quái vật ở bên trái?

06:49.900 --> 06:52.660
Hay là ma từ trên xuống dưới?

06:52.660 --> 06:55.480
Dù hiện tại bạn đang ở trạng thái nào, không quan trọng bằng cách nào bạn đến đó.

06:55.480 --> 06:58.720
Không quan trọng bằng cách nào mà tất cả đều diễn ra khi bạn ở đó trong trạng thái đó.

06:58.720 --> 07:03.730
Bây giờ, những gì sẽ xảy ra trong tương lai chỉ được xác định bởi trạng thái hiện tại của bạn, cộng với những hành động

07:03.730 --> 07:07.030
bạn sẽ thực hiện sau đó, và tất nhiên, sự ngẫu nhiên được phủ lên trên đó.

07:07.210 --> 07:14.650
Vì vậy, đó là một dấu của quá trình và dấu của quá trình quyết định hoặc quá trình quyết định MDP hoặc Markov cung cấp một khuôn khổ toán

07:14.650 --> 07:20.320
học để mô hình hóa việc ra quyết định trong các tình huống mà kết quả một phần là ngẫu nhiên và một

07:20.320 --> 07:23.290
phần nằm dưới sự kiểm soát của người ra quyết định.

07:23.290 --> 07:29.470
Vì vậy, điều quan trọng cần hiểu là các quy trình ra quyết định Markov khác hoặc khác với toàn bộ khái niệm

07:29.470 --> 07:34.210
đối với quy trình Markov, đối với quy trình markov, chúng giống như một khung toán học.

07:34.210 --> 07:38.770
Vì vậy, nhưng đồng thời, tôi nghĩ rằng điều quan trọng là chúng ta phải hiểu quy trình markov là gì,

07:38.770 --> 07:43.060
bởi vì tôi nghĩ rằng nó vẫn giúp ích cho việc hiểu về một quy trình quyết định.

07:43.060 --> 07:48.730
Vì vậy, một dấu hiệu của quá trình quyết định là đây chính xác là những gì chúng tôi đã thảo luận cho đến bây giờ

07:48.730 --> 07:52.060
để tác nhân sống trong môi trường này mà nó có quyền kiểm soát.

07:52.060 --> 07:56.320
Giống như, hãy nhớ rằng, trước đây nó có toàn quyền kiểm soát những gì đang xảy ra, nhưng bây giờ nó có ít

07:56.320 --> 07:57.400
quyền kiểm soát hơn một chút.

07:57.400 --> 08:00.160
Nó có thể quyết định đi lên, nhưng nó thực sự biết.

08:00.160 --> 08:03.490
Được rồi, vì vậy nếu tôi đi lên, có 80% khả năng tôi sẽ đi lên.

08:03.490 --> 08:05.950
Có 10% khả năng tôi đi bên trái, 10% khả năng tôi sẽ đi bên phải.

08:05.950 --> 08:08.860
Vì vậy, không phải mọi thứ đều hoàn toàn nằm trong tầm kiểm soát của nó.

08:08.860 --> 08:10.660
Có một số ngẫu nhiên trong môi trường này.

08:10.660 --> 08:12.970
Đó chính xác là dấu ấn của quá trình quyết định.

08:12.970 --> 08:18.670
Quy trình ra quyết định markov là khuôn khổ mà tác nhân sẽ sử dụng để hiểu những việc cần làm trong môi

08:18.670 --> 08:19.330
trường này.

08:19.330 --> 08:23.740
Vì vậy, chúng ta có một môi trường với một số ngẫu nhiên, một số ngẫu nhiên, và bây

08:23.740 --> 08:28.480
giờ tác nhân phải chọn, ví dụ, nên đi lên hoặc xuống, trái hoặc phải, phải đưa ra quyết định đó.

08:28.480 --> 08:29.680
Nó không biết phải làm gì.

08:29.830 --> 08:36.130
Và để đưa ra quyết định đó, sẽ áp dụng một khuôn khổ sẽ sử dụng quy trình quyết định Markov để

08:36.130 --> 08:40.690
đưa ra quyết định đó, điều gì sẽ xảy ra, nó sẽ đi đến đâu.

08:40.810 --> 08:47.530
Và về cơ bản, môi trường đặt ra vấn đề này, nó được coi là dấu ấn của quá trình quyết định.

08:47.530 --> 08:49.900
Vì vậy, đó là khuôn khổ mà đại lý sử dụng.

08:49.900 --> 08:54.790
Đồng thời, môi trường được gọi là tác nhân đang hoạt động trong môi trường quá trình ra quyết

08:54.790 --> 08:55.450
định markov.

08:56.110 --> 08:57.910
Và về cơ bản ở đây chúng ta có hai khái niệm.

08:57.910 --> 09:04.450
Chúng tôi có quy trình Markov là cách môi trường này được thiết kế, để nó thực hiện những gì xảy ra từ vị trí hiện

09:04.450 --> 09:06.820
tại của bạn không phụ thuộc vào quá khứ.

09:06.820 --> 09:11.080
Và cùng lúc đó, chúng tôi có dấu ấn của quá trình quyết định là khuôn khổ mà tác

09:11.080 --> 09:13.510
nhân sẽ sử dụng để giải quyết môi trường này.

09:13.720 --> 09:18.760
Và tin tốt là dấu hiệu của quá trình quyết định hoặc khuôn khổ mà chúng ta đang nói đến thực

09:18.760 --> 09:24.670
sự chỉ là một phần bổ sung cho phương trình bellman của chúng ta là phương trình bellman, nhưng chỉ phức tạp hơn một chút.

09:24.670 --> 09:26.500
Vì vậy, chúng ta hãy xem xét điều đó.

09:26.890 --> 09:28.180
Đây là phương trình bellman của chúng tôi.

09:28.180 --> 09:30.970
Cho đến nay, đó là mức tối đa của tất cả các hành động có thể.

09:30.970 --> 09:35.080
Vì vậy, giá trị của trạng thái là giá trị tối đa của tất cả các hành động có thể có mà bạn có thể thực hiện từ

09:35.080 --> 09:35.620
trạng thái đó.

09:36.100 --> 09:41.500
Số tiền tối đa được lấy từ phần thưởng mà bạn sẽ nhận được khi thực hiện hành động đó ở trạng thái đó, cộng với hệ

09:41.500 --> 09:45.160
số chiết khấu nhân với giá trị của trạng thái tiếp theo, là trạng thái nguyên tố.

09:45.160 --> 09:50.380
Vì vậy, đó là những gì chúng tôi đã có cho đến nay bởi vì chúng tôi có một số ngẫu nhiên trong toàn bộ quá trình của mình.

09:50.380 --> 09:54.790
Điều này, phần này sẽ thay đổi bởi vì chúng tôi không thực sự biết trạng thái nào sẽ kết thúc và chúng tôi không

09:54.790 --> 09:56.050
biết số nguyên tố sẽ là gì.

09:56.050 --> 09:59.170
Sẽ là nếu chúng ta đi lên, nó sẽ đi lên hay chúng ta sẽ bị bỏ lại?

09:59.170 --> 09:59.770
Chúng ta sẽ đúng chứ?

09:59.830 --> 10:04.660
Vì vậy, chúng ta thực sự phải đặt giá trị này với giá trị mong đợi của trạng thái tiếp theo.

10:04.660 --> 10:06.340
Vì vậy, ở đây chúng tôi sẽ thay thế điều này.

10:06.340 --> 10:08.350
Vì vậy, có ba trạng thái có thể xảy ra mà chúng ta có thể kết thúc.

10:08.530 --> 10:12.340
Và vì vậy chúng tôi sẽ thay thế nó bằng một số giá trị.

10:12.670 --> 10:19.450
Trạng thái đó có giá trị là một số nguyên tố, trạng thái đó có một số nguyên tố, hai là hai số nguyên tố và trạng thái này

10:19.450 --> 10:22.180
có giá trị là V của S ba số nguyên tố.

10:22.420 --> 10:28.690
Vì vậy, bây giờ chúng ta sẽ nhân trạng thái mà chúng ta thực sự dự định đi vào với 80%, bởi vì đó là xác suất

10:28.690 --> 10:33.970
của chúng ta để đạt được trạng thái đó, cộng với xác suất vào trạng thái này 10% cộng với mỗi hóa

10:33.970 --> 10:35.260
đơn đạt được trạng thái.

10:35.260 --> 10:37.960
Vì vậy, đây chỉ là giá trị mong đợi của chúng tôi.

10:37.960 --> 10:45.220
Vì vậy, nếu từ số liệu thống kê, nếu chúng ta lấy giá trị mong đợi của việc đưa vào trạng thái, thì chúng ta sẽ nhận được.

10:45.790 --> 10:50.650
Giống như mức trung bình là trung bình của những gì chúng ta sẽ nhận được và sau đó chúng ta thay thế

10:50.650 --> 10:51.370
nó ở đây.

10:51.790 --> 10:52.870
Sau đó, chúng tôi nhận được phương trình này.

10:52.870 --> 10:55.570
Bây giờ nó nhảy rất nhanh chỉ vì phương trình này lớn hơn.

10:55.570 --> 10:57.850
Nhưng nếu bạn xem xét nó một cách cẩn thận, bạn sẽ thấy nó giống hệt nhau.

10:57.850 --> 11:04.570
Vì vậy, bạn có Mac ở đây, Mac tốt ở đây, sau đó bạn có R of S và A, bạn có R của SE và ở đây

11:04.570 --> 11:06.220
bạn có gamma, bạn có gamma.

11:06.220 --> 11:08.530
Và cuối cùng ở đây bạn đã có V.

11:08.530 --> 11:11.590
Vì vậy, bạn biết chính xác đó là một tìm kiếm xác định.

11:11.590 --> 11:13.360
Bạn đã biết mình sẽ vào trạng thái nào.

11:13.390 --> 11:15.010
Bây giờ bạn không biết mình sẽ vào trạng thái nào.

11:15.010 --> 11:20.530
Vì vậy, thay vì lấy V, bạn đang lấy giá trị kỳ vọng của trạng thái bạn sẽ đến hoặc trạng thái trong tương

11:20.530 --> 11:25.790
lai, hay nói một cách đơn giản hơn, bạn chỉ lấy giá trị trung bình của những gì bạn sẽ nhận được.

11:25.810 --> 11:31.810
Vì vậy, nếu nó là một trong một tương tự là 33% cơ hội nó sẽ như thế này, cộng với điều này cộng với số chia này về

11:31.810 --> 11:32.830
cơ bản cho ba.

11:32.830 --> 11:37.060
Nhưng trong trường hợp này, nó không hoàn toàn giống mức trung bình.

11:37.060 --> 11:40.120
Đó là mức trung bình có trọng số vì xác suất của bạn ở đây.

11:40.120 --> 11:46.000
Vì vậy, ở đây bạn đã có xác suất để khi ở trạng thái này, bạn thực hiện hành động này để chuyển sang trạng thái nhân

11:46.000 --> 11:50.590
với giá trị của số nguyên tố và tính tổng trên tất cả các số nguyên tố này mà bạn có

11:50.590 --> 11:51.760
thể đạt được ở đây.

11:51.760 --> 11:53.590
Vì vậy, chính xác những gì chúng tôi đã có ba ở đây.

11:53.590 --> 11:54.640
Một hai ba.

11:54.640 --> 11:56.470
Cộng chúng nhân với xác suất.

11:56.470 --> 11:57.130
Thêm chúng lên.

11:57.130 --> 11:57.790
Ở đây cũng vậy.

11:57.790 --> 11:58.750
Một hai ba.

11:58.750 --> 12:01.480
Nhân chúng với xác suất và cộng chúng lại.

12:01.840 --> 12:04.930
Và đó là phương trình Belmont mới của bạn.

12:05.020 --> 12:06.220
Xin chúc mừng.

12:06.220 --> 12:12.280
Đây là những gì chúng tôi sẽ làm việc trong tương lai và đó là khuôn khổ được sử dụng trong các quy trình ra

12:12.280 --> 12:13.510
quyết định của Markov.

12:13.510 --> 12:20.710
Vì vậy, đó là khuôn khổ giải quyết vấn đề này mà các đại lý sử dụng để giải quyết toàn bộ vấn đề tìm kiếm ngẫu nhiên, không xác

12:20.710 --> 12:25.300
định này, nơi có các sự kiện ngẫu nhiên đang xảy ra mà họ không thể kiểm soát.

12:25.300 --> 12:26.830
Vì vậy, nó phức tạp hơn nhiều.

12:26.830 --> 12:32.680
Nhưng như bạn có thể thấy, bởi vì chúng tôi đã xây dựng từ từ cho đến nay chúng tôi đã biết về điều này, chúng tôi đang đọc về

12:32.680 --> 12:36.670
điều này, chúng tôi đọc về điều này, chúng tôi biết về điều này, chúng tôi biết về điều này.

12:36.670 --> 12:42.700
Vì vậy, tất cả những gì chúng tôi đã làm là chúng tôi chỉ giới thiệu phần này ở đây vì có những xác suất liên quan

12:42.880 --> 12:45.520
đến hành động hoặc hậu quả của hành động của bạn.

12:46.030 --> 12:48.550
Và về mặt xác định, chúng dựa trên các xác suất nhất định.

12:49.060 --> 12:50.470
Và vậy là xong.

12:50.470 --> 12:57.820
Đó là cách thức hoạt động của một quy trình quyết định thị trường và phương trình cơ bản đằng sau nó.

12:58.240 --> 13:04.600
Một lần nữa, nó là một cái gì đó gần giống với các vấn đề trong thế giới thực, kịch bản thế giới thực hoặc thậm

13:04.600 --> 13:08.650
chí là kịch bản trò chơi, bởi vì không phải mọi thứ đều đơn giản.

13:08.650 --> 13:15.670
Có một số ngẫu nhiên của tất cả liên quan và không phải lúc nào cũng sẽ thực hiện một hành động trong một trạng thái nhất định.

13:15.670 --> 13:16.360
Sẽ luôn luôn không.

13:16.360 --> 13:18.610
Chà, không phải lúc nào nó cũng dẫn đến kết quả giống nhau.

13:18.610 --> 13:23.080
Và đây là những gì chúng ta sẽ giải quyết trong tương lai, và điều đó sẽ khiến mọi thứ trở

13:23.080 --> 13:24.100
nên thú vị hơn.

13:24.100 --> 13:29.170
Vì vậy, hy vọng rằng bạn vui mừng vì điều đó và vui mừng xem điều gì sẽ xảy ra tiếp theo.

13:29.410 --> 13:35.800
Và trong khi chờ đợi, tôi đã tìm thấy một tờ giấy thực sự thú vị để bạn có thể xem xét vào thời điểm này.

13:35.800 --> 13:39.820
Đó là một bài báo rất ứng dụng, vì vậy bài báo này thực sự rất thú vị khi đọc qua.

13:40.000 --> 13:46.000
Nó được gọi là Khảo sát về Ứng dụng của các Quy trình xử lý Quyết định Markov, và nó được

13:46.000 --> 13:47.890
viết bởi White vào năm 1993.

13:47.890 --> 13:55.900
Có một liên kết và nó sẽ hiển thị cho bạn các ví dụ về nơi các quy trình quyết định của Markov thực sự được sử dụng để mô hình hóa các

13:55.900 --> 13:56.950
tình huống thực tế.

13:56.950 --> 13:59.470
Tôi nghĩ rằng tôi đã rất vui mừng bởi điều này.

13:59.470 --> 14:00.940
Tôi đã bị ấn tượng bởi một số ví dụ.

14:00.940 --> 14:03.430
Vì vậy, thu hoạch dân số, chẳng hạn.

14:03.610 --> 14:09.220
Vì vậy, giả sử bạn có một số cá và dân số của cá là bao nhiêu, bạn cần quyết định xem

14:09.220 --> 14:13.210
chúng ta có thể đánh bắt bao nhiêu con trong năm nay và con gì?

14:13.210 --> 14:14.260
Vì vậy, đó là trạng thái hiện tại của bạn.

14:14.260 --> 14:15.550
Đó là hành động mà bạn đang thực hiện.

14:15.550 --> 14:19.930
Chúng ta có thể quay được bao nhiêu trong năm nay để kết quả có thể xảy ra của việc đó là gì?

14:20.470 --> 14:22.000
Năm tới chúng ta sẽ có bao nhiêu con cá?

14:22.000 --> 14:24.850
Chúng ta sẽ có bao nhiêu con cá vào năm sau và năm sau và cứ thế tiếp tục?

14:24.850 --> 14:30.490
Và nó không mang tính xác định bởi vì nó không giống như nếu bạn loại bỏ 90% dân số

14:30.490 --> 14:32.800
vào năm sau, bạn sẽ trở lại 100%.

14:32.800 --> 14:34.570
Nó không phải là xác định chính xác.

14:34.570 --> 14:37.600
Có một số yếu tố ngẫu nhiên liên quan nằm ngoài tầm kiểm soát của chúng tôi.

14:37.600 --> 14:41.230
Và do đó chúng ta phải hiểu điều gì sẽ xảy ra.

14:41.230 --> 14:42.580
Chúng tôi phải mô hình hóa những gì sẽ xảy ra.

14:42.580 --> 14:44.490
Đó là nơi mà quy trình quyết định Markov được sử dụng.

14:44.800 --> 14:48.160
Nông nghiệp, có một ví dụ tương tự như thu hoạch mùa màng.

14:48.160 --> 14:49.330
Chúng ta thu hoạch được bao nhiêu cây trồng?

14:49.330 --> 14:49.900
Bao nhiêu?

14:49.900 --> 14:51.220
Chúng ta không thu hoạch được bao nhiêu?

14:51.220 --> 14:57.910
Một cái khác, mà tôi xem xét tài chính và đầu tư giống như một công ty bảo hiểm cần phải quyết định xem họ sẽ đầu tư bao

14:57.910 --> 14:59.710
nhiêu tiền vào bất kỳ khoản nào.

14:59.770 --> 15:02.860
Tôi cho rằng, ngày hoặc năm hoặc một khoảng thời gian nào đó.

15:02.860 --> 15:06.400
Và có một số yếu tố nằm ngoài tầm kiểm soát của nó.

15:06.400 --> 15:09.130
Ví dụ, các chuyển động của thị trường, nó không biết điều gì có thể xảy ra.

15:09.130 --> 15:14.080
Vì vậy, nó cần thực sự mô hình hóa điều đó bằng cách nào đó và quy trình quyết định thị trường được sử dụng cho điều đó.

15:14.080 --> 15:19.780
Vì vậy, ở đây bạn có thể thấy rất nhiều ví dụ và đây là số lượng ví dụ được đưa ra mà tôi nghĩ cho mỗi

15:19.780 --> 15:20.260
ví dụ.

15:20.380 --> 15:27.970
Và ngay cả thể thao, hai ví dụ cho thể thao và dịch bệnh và yêu cầu bảo hiểm xe máy, kiểm tra và bảo

15:27.970 --> 15:29.500
trì và sửa chữa, v.v.

15:29.500 --> 15:30.940
Vì vậy, rất thú vị.

15:30.970 --> 15:31.810
Hãy nhìn vào đó.

15:31.810 --> 15:39.790
Chỉ để bạn hiểu, này, đây không chỉ là tất cả những thứ được tạo thành, giả thuyết, kiểu

15:39.790 --> 15:40.960
ma trận.

15:40.960 --> 15:42.520
Đây thực sự là một kịch bản trong thế giới thực.

15:42.520 --> 15:44.710
Vì vậy, nó sẽ cung cấp cho bạn một sự hiểu biết tốt hơn.

15:44.710 --> 15:49.240
Và đây là những gì chúng tôi đã nói trong video quảng cáo cho khóa học này hoặc mô tả về khóa

15:49.240 --> 15:55.300
học mà chúng tôi sẽ truyền cảm hứng cho bạn và trực giác của bạn để cung cấp cho bạn ý tưởng về cách sử dụng AI trong cuộc

15:55.300 --> 15:55.810
sống thực.

15:55.810 --> 15:57.490
Đây là cơ hội của bạn.

15:57.760 --> 16:01.960
Hãy xem bài báo này để hiểu, được rồi, vì vậy chúng ta sẽ giải quyết các quy trình quyết định của Markov

16:01.960 --> 16:02.680
trong tương lai.

16:02.680 --> 16:03.790
Điều đó thực sự tuyệt vời.

16:03.790 --> 16:05.170
Họ trông như thế nào trong cuộc sống thực?

16:05.170 --> 16:10.090
Và điều này có thể kích hoạt một số ý tưởng cho bạn về cách bạn có thể áp dụng AI trong tương lai để biến thế giới

16:10.090 --> 16:11.110
trở nên tốt đẹp hơn.

16:11.500 --> 16:13.600
Và chúng tôi sẽ rất vui vì điều đó.

16:13.600 --> 16:18.220
Sẽ thật hạnh phúc nếu bạn có thể sử dụng những gì bạn học được trong khóa học này để biến thế giới trở thành một nơi tốt đẹp hơn

16:18.220 --> 16:18.640
với AI.

16:18.670 --> 16:19.870
Điều đó sẽ tuyệt vời như thế nào?

16:20.170 --> 16:23.050
Vì vậy, trên lưu ý đó, tôi hy vọng bạn thích hướng dẫn hôm nay.

16:23.050 --> 16:24.460
Tôi mong được gặp bạn lần sau.

16:24.460 --> 16:26.470
Và cho đến khi đó, hãy tận hưởng tôi.