WEBVTT

00:00.910 --> 00:04.540
Xin chào và chào mừng bạn trở lại khóa học về Trí tuệ nhân tạo.

00:04.810 --> 00:12.100
Trước đây, chúng tôi đã có một hướng dẫn khá vất vả và dài về các quy trình ra quyết định của Markov, hy vọng

00:12.130 --> 00:18.950
bạn hiểu rõ điều đó và hy vọng tôi có thể giải thích mọi thứ theo cách dễ hiểu và hấp dẫn.

00:18.970 --> 00:22.630
Và hôm nay chúng ta sẽ nói về chính sách so với kế hoạch.

00:22.660 --> 00:27.160
Đây sẽ là một hướng dẫn nhanh chóng và thú vị vì bây giờ chúng ta đang bước vào một thế giới mới.

00:27.160 --> 00:33.160
Chúng ta đang bước vào thế giới của tìm kiếm ngẫu nhiên, tìm kiếm không xác định, khi nó không chỉ là để vượt qua mê

00:33.160 --> 00:37.630
cung mà còn tính đến các yếu tố ngẫu nhiên có thể đập vào đầu bạn khi bạn đi

00:37.660 --> 00:41.050
qua mê cung này và bạn cần phải hãy chuẩn bị cho họ.

00:41.050 --> 00:44.440
Đó là thế giới mà đại lý của chúng tôi đang sống.

00:44.440 --> 00:46.750
Và nó vui hơn, nhưng nó cũng nguy hiểm hơn.

00:46.750 --> 00:47.260
Nó tốt hơn rồi.

00:47.260 --> 00:48.460
Nó ít dự đoán hơn.

00:48.460 --> 00:50.800
Vì vậy, đại lý của chúng tôi sẽ hành xử như thế nào?

00:50.830 --> 00:51.670
Chúng ta hãy có một cái nhìn.

00:52.000 --> 00:57.730
Có khung quy trình quyết định Markov của chúng tôi, đây một lần nữa là phương trình bellman yêu thích của chúng tôi.

00:58.090 --> 01:01.960
Tuy nhiên, phiên bản nâng cao hơn của phương trình bellman mà chúng tôi đang làm việc.

01:01.960 --> 01:04.360
Vì vậy, từ bây giờ, chúng ta sẽ gọi phương trình phát triển này.

01:04.480 --> 01:07.810
Và ở đây, chúng tôi có mức tối đa cho tất cả các hành động.

01:07.810 --> 01:12.790
Vì vậy, giá trị của một trạng thái và các trạng thái là giá trị lớn nhất trên tất cả các hành động mà một tác nhân có thể

01:12.790 --> 01:13.960
thực hiện trong trạng thái đó.

01:13.960 --> 01:21.160
Và số tiền tối đa được lấy từ phần thưởng mà nhân viên sẽ nhận được khi thực hiện hành động a ở các trạng thái, cộng

01:21.160 --> 01:25.570
với hệ số chiết khấu nhân với giá trị kỳ vọng của trạng thái mới.

01:25.570 --> 01:31.090
Nó sẽ ở trong và các giá trị mong đợi được lấy ở đây vì chúng không biết chính xác trạng thái cuối cùng sẽ ở

01:31.090 --> 01:31.810
trạng thái nào.

01:31.810 --> 01:40.420
Có một số hiệu ứng ngẫu nhiên xuất hiện trong môi trường có thể làm thay đổi trạng thái và không phải bạn có thể không đạt

01:40.600 --> 01:42.550
được trạng thái mong muốn.

01:42.550 --> 01:44.080
Bạn có thể kết thúc ở một trạng thái khác.

01:44.080 --> 01:47.380
Và đó là lý do tại sao chúng tôi đang lấy giá trị mong đợi ở đây, tổng này ở đây.

01:47.830 --> 01:53.590
Vì vậy, hãy xem đây là ví dụ của chúng tôi hoặc trong ví dụ của chúng tôi về mê cung.

01:53.590 --> 01:56.650
Vì vậy, đây là những gì chúng tôi đã có trước đây.

01:56.650 --> 02:01.780
Vì vậy, trước đây chúng tôi đang xử lý tìm kiếm xác định, vì vậy chúng tôi biết điều đó.

02:01.780 --> 02:04.750
Được rồi, vì vậy nếu tôi ở đây, tôi chắc chắn cần phải đến đây.

02:04.750 --> 02:06.550
Nếu tôi ở đây, tôi chắc chắn cần phải đến đây.

02:06.550 --> 02:08.120
Nếu tôi ở đây, tôi chắc chắn cần phải đến đây.

02:08.140 --> 02:08.920
Nếu tôi ở đây, tôi ở đây.

02:08.920 --> 02:11.230
Vì vậy, tất cả đều khá đơn giản.

02:11.230 --> 02:14.560
Khi bạn có bản đồ này và nhớ rằng chúng tôi đã gọi nó, chúng tôi gọi nó là một kế hoạch.

02:14.560 --> 02:17.350
Khi bạn đã có kế hoạch, việc bạn cần làm là khá đơn giản.

02:17.830 --> 02:18.930
Có lỗi.

02:18.940 --> 02:20.380
Vì vậy, đó là kế hoạch với các mũi tên.

02:20.380 --> 02:23.140
Và từ đây, rất dễ hiểu đây là đâu.

02:23.140 --> 02:24.700
Đây là những con đường mà đại lý sẽ thực hiện.

02:24.700 --> 02:27.850
Bất cứ nơi nào bạn bắt đầu trên đường màu xanh này, đó chính xác là con đường bạn sẽ đi.

02:28.510 --> 02:31.060
Tuy nhiên, bây giờ chúng tôi không có kế hoạch nữa.

02:31.060 --> 02:36.490
Chúng ta không thể có kế hoạch bởi vì, bạn biết đấy, bất cứ điều gì chúng ta lên kế hoạch đều có thể không xảy ra.

02:36.490 --> 02:37.600
Nó không nằm trong tầm kiểm soát của chúng tôi.

02:37.600 --> 02:40.840
Kế hoạch là khi bạn biết chính xác những gì bạn cần làm tiếp theo.

02:40.840 --> 02:41.710
Bạn biết các bước.

02:41.710 --> 02:46.300
Vì vậy, bạn có một điểm xuất phát, bạn có một mục tiêu, và bạn biết từng bước một để bạn có thể lập kế

02:46.300 --> 02:46.990
hoạch cho chúng.

02:46.990 --> 02:48.850
Bạn giống như, tôi sẽ làm cái này, tôi sẽ làm cái này, tôi sẽ làm cái này.

02:49.000 --> 02:50.350
Giống như cuộc sống của bạn, như một kế hoạch.

02:50.350 --> 02:54.790
Nhưng đồng thời, có quá nhiều sự ngẫu nhiên đang diễn ra.

02:54.790 --> 03:00.010
Bạn không thể có một kế hoạch vì điều gì sẽ xảy ra nếu bạn đến đây và sau đó bạn nhấp vào bên phải và thực sự hạ

03:00.010 --> 03:00.490
gục bạn?

03:00.490 --> 03:01.990
Vì vậy, đó không phải là một phần trong kế hoạch của bạn.

03:02.050 --> 03:03.880
Vì vậy, đó là lý do tại sao nó không được gọi là kế hoạch nữa.

03:03.880 --> 03:08.440
Và ở đây chúng ta sẽ tính toán các giá trị hoặc chúng ta thực sự sẽ chỉ xem

03:08.440 --> 03:11.800
xét các giá trị được tính toán cho cùng một vấn đề này.

03:11.800 --> 03:18.220
Nhưng dựa trên cơ bản, cho rằng chúng ta có sự ngẫu nhiên bên trong, vì vậy đây là các giá trị mới.

03:18.610 --> 03:21.040
Và tại sao những giá trị này lại khác nhau?

03:21.040 --> 03:22.810
Vì vậy, chúng ta hãy so sánh nó với những gì chúng ta đã có trước đây.

03:22.810 --> 03:24.220
Đây là những gì chúng tôi đã có trước đây.

03:24.550 --> 03:25.600
Đây là những giá trị mới.

03:25.600 --> 03:33.850
Vì vậy, một lần nữa, trước đây bạn có thể thấy 10. 9, 0. 81, 73, 66 và đây là những gì chúng ta có bây giờ, 86.

03:33.850 --> 03:36.650
Vì vậy, bài một, 74, 71, 63, v.v.

03:36.670 --> 03:43.540
Và nhân tiện, đây không phải là những giá trị chính xác mà tôi nghĩ, nhưng nếu chúng ta chạy một đại lý,

03:43.540 --> 03:46.300
các giá trị sẽ tương tự như thế này.

03:46.810 --> 03:51.850
Và các giá trị có thể thay đổi vì tùy thuộc vào gamma mà chúng ta chọn 0. 9 hoặc giá trị khác.

03:51.850 --> 03:56.230
Nhưng tuy nhiên, vì lý do tranh luận, đây là những giá trị mà chúng ta đang xử lý hiện nay.

03:56.350 --> 03:57.730
Và chúng gần đúng.

03:57.730 --> 04:00.970
Họ truyền đạt toàn bộ khái niệm theo cách chính xác.

04:00.970 --> 04:02.200
Vì vậy, chúng ta hãy xem xét chúng.

04:02.200 --> 04:03.160
Tại sao họ lại thay đổi?

04:03.160 --> 04:05.620
Chà, tại sao lại ở đây, hãy bắt đầu với cái này.

04:05.620 --> 04:07.210
Ở đây giá trị là một.

04:07.210 --> 04:09.400
Tại sao tự nhiên lại là con số 0. 86?

04:09.400 --> 04:10.240
Tại sao nó ít hơn một?

04:10.240 --> 04:11.140
Chúng ta có thể đi từ đây không?

04:11.140 --> 04:11.650
Nơi đây?

04:11.650 --> 04:18.280
Chà, chúng tôi thực sự gọi nó là vì từ đây, nếu chúng tôi đi đúng, đó là ý định của chúng tôi, nếu chúng tôi đúng, chúng

04:18.280 --> 04:22.270
tôi có thể thực sự với 10% cơ hội chúng tôi sẽ kết thúc ở đây.

04:22.270 --> 04:27.190
Vì vậy, chúng tôi sẽ gặp bức tường và chúng tôi sẽ trở lại trạng thái này và hãy nhớ rằng, chúng tôi có một gamma

04:27.190 --> 04:32.080
nên giá trị sẽ được chiết khấu và hoặc có hoặc với 10% cơ hội sẽ kết thúc ở đây trong trạng thái này.

04:32.080 --> 04:34.870
Vì vậy, không phải 100% khả năng tôi sẽ đến được đây.

04:34.870 --> 04:37.360
Vì vậy, do đó giá trị này có thể không còn là một.

04:37.360 --> 04:41.290
Đó là một cái gì đó ít hơn và nó, giả sử bằng 0. 86.

04:41.290 --> 04:43.720
Vì vậy, đó là một ví dụ về lý do tại sao nó như thế này.

04:43.720 --> 04:48.940
Và bạn có thể nhận được giá trị chính xác nếu bạn tính toán phương trình Belmont, phương trình Belmont đầy đủ mà chúng ta

04:48.940 --> 04:49.660
có bây giờ.

04:49.690 --> 04:54.160
Vấn đề duy nhất là sẽ có một số đệ quy vì bạn sẽ cần biết giá trị cho điều này và sau đó

04:54.160 --> 04:55.780
bạn cần biết giá trị cho điều này.

04:55.810 --> 04:59.050
Nó khá phức tạp và đó là lý do tại sao chúng tôi không thực hiện các phép tính theo cách thủ công ở đây.

04:59.050 --> 05:00.160
Đó là lý do tại sao a nhưng.

05:00.420 --> 05:03.000
Tôi có thể làm chúng vì nó đang trải qua tất cả những điều này.

05:03.050 --> 05:07.650
Nó giống như không có gì quá phức tạp để AI tính toán những thứ này.

05:08.400 --> 05:09.990
Vì vậy, đó là giá trị của chúng tôi ở đây.

05:09.990 --> 05:11.460
Nhưng chúng ta hãy nhìn vào những cái khác nhau.

05:11.460 --> 05:14.520
Vì vậy, ở đây nó từng là 0. 9 chỉ vì hệ số chiết khấu.

05:14.520 --> 05:19.770
Hãy nhớ rằng, từ đây đến đây một lần nữa, bây giờ từ đây, chúng ta không thể chỉ nhảy từ đây sang đây đơn giản bởi vì

05:19.770 --> 05:23.720
ngay cả khi chúng ta nhảy nếu chúng ta đi như thế này, chúng ta có thể sẽ quay lại đây.

05:23.730 --> 05:24.870
Quay lại đây, phải.

05:24.870 --> 05:29.640
Có 20% khả năng chúng ta vẫn ở lại quảng trường bởi vì chúng ta sẽ va phải một bức tường và cứ thế tiếp tục.

05:29.670 --> 05:32.640
Vì vậy, giá trị của ở đây là 0. 71.

05:32.640 --> 05:38.580
Một lần nữa, đây là hệ số chiết khấu, điều này có thể trông kỳ lạ đối với bạn rằng đây là ngay cả với hệ số chiết khấu,

05:38.580 --> 05:39.780
điều này là quá cao.

05:39.810 --> 05:44.550
Có thể hệ số chiết khấu trong ví dụ này không phải là 0. 9, có thể là 0. 99 hoặc cái gì đó tương tự.

05:44.550 --> 05:46.230
Vì vậy, đừng lo lắng về điều đó.

05:46.230 --> 05:48.420
Cũng giống như tập trung vào điều đó.

05:48.420 --> 05:56.850
Các giá trị đã thực sự thay đổi và các giá trị bây giờ ít hơn, chủ yếu là vì nó không phải là xác suất 100% để đạt

05:56.850 --> 05:58.860
được trạng thái mà bạn muốn.

05:58.980 --> 06:04.440
Và điều bạn sẽ thấy thú vị là ở đây nó từng là 0. 9 và nó thực sự đã giảm

06:04.440 --> 06:05.220
rất nhiều.

06:05.230 --> 06:06.420
Nó đã giảm đáng kể.

06:06.420 --> 06:07.020
Tại sao vậy?

06:07.020 --> 06:12.090
Chà, bởi vì nếu bạn đi từ đây lên, đó là ý định của chúng tôi, thì có

06:12.090 --> 06:18.600
10% khả năng va vào tường, nhưng có 10% khả năng thực sự rơi vào vòi rồng và thua trừ đi một phần thưởng.

06:18.600 --> 06:22.620
Và về cơ bản, điều đó có nghĩa là đối với đặc vụ, đó là kết thúc của trò chơi.

06:22.980 --> 06:25.530
Và vì vậy đây là một trạng thái rất tồi tệ.

06:25.530 --> 06:28.670
Vì vậy, đột nhiên, hãy nhớ rằng, chúng tôi đã có 0. 9 ở đây một điểm.

06:28.680 --> 06:29.810
Vì vậy, chúng tương đương nhau.

06:29.830 --> 06:34.200
Không quan trọng bạn ở đây hay ở đây, chúng khá bình đẳng về giá trị của việc tồn tại ở mỗi trạng

06:34.200 --> 06:34.710
thái này.

06:34.710 --> 06:41.340
Nhưng bây giờ đột nhiên, bam, trạng thái này giống như tốt gần gấp đôi trạng thái này.

06:41.340 --> 06:46.800
Đơn giản chỉ vì ở đây, nếu bạn đi thẳng đến bạn, đi đúng nơi bạn muốn.

06:46.800 --> 06:51.180
Hậu quả của sự ngẫu nhiên xảy ra là bạn cứ ở đây.

06:51.180 --> 06:51.510
Nơi đây.

06:51.750 --> 06:54.600
Một trong những hậu quả, 10% khả năng là bạn sẽ rơi xuống hố.

06:54.810 --> 07:02.100
Vì vậy, như bạn có thể thấy, đây không còn là trạng thái tốt như vậy nữa, đơn giản là vì một điều gì đó biến động

07:02.100 --> 07:03.180
có thể xảy ra.

07:03.270 --> 07:09.090
Như bạn có thể thấy, cái này cũng rất tệ vì nó tệ như cái này ở chỗ chỉ có 10% khả

07:09.090 --> 07:12.390
năng kết thúc cuối cùng, 10% khả năng kết thúc trong tường.

07:12.390 --> 07:14.940
Nhưng đồng thời, có một yếu tố chiết khấu.

07:14.940 --> 07:20.220
Vì vậy, trước hết, yếu tố chiết khấu và cũng là sau này, bạn phải đi đến đây.

07:20.400 --> 07:23.820
Và ngay cả khi theo giả thuyết, bạn đã đến đây, bạn vẫn có thể rơi xuống hố một lần nữa.

07:23.820 --> 07:28.620
Vì vậy, cơ hội đó cũng sẽ được tính đến bởi vì hãy nhớ rằng, giá trị này được bắt nguồn từ

07:28.620 --> 07:32.190
giá trị này và giá trị này được bắt nguồn từ giá trị này, phải không?

07:32.190 --> 07:34.020
Và do đó nó nhỏ.

07:34.020 --> 07:37.290
Nhưng trên thực tế, những gì tôi nói đã sai.

07:37.290 --> 07:39.540
Giá trị này không bắt nguồn từ giá trị này.

07:39.540 --> 07:46.740
Vì vậy, nếu bạn chỉ cần xem xét bây giờ, bạn sẽ nhận thấy rằng giá trị V0 này ở đây thực sự lớn hơn giá trị

07:46.740 --> 07:47.190
này.

07:47.340 --> 07:53.670
Bạn sẽ nhận thấy rằng đối với đại lý, tốt hơn là nên đi theo cách này hơn là cách này.

07:53.670 --> 07:54.690
Và nó có ý nghĩa, phải không?

07:54.690 --> 07:56.970
Vì cách này không ăn thua.

07:57.150 --> 07:58.530
Không có cơ hội nhận được hố.

07:58.530 --> 07:59.700
Vâng, nó lâu hơn một chút.

07:59.700 --> 08:03.300
Và do đó, yếu tố chiết khấu có ảnh hưởng lớn hơn.

08:03.300 --> 08:07.410
Nhưng đồng thời, đơn giản vì ở đây có cơ hội lọt vào hố, nếu đi thẳng thì

08:07.410 --> 08:09.000
sẽ có cơ hội nhảy qua.

08:09.180 --> 08:14.790
Vì vậy, nó sẽ mất nhiều thời gian hơn và nó sẽ chỉ quanh quẩn vì theo cách đó, cơ hội đạt được nó sẽ

08:14.790 --> 08:15.480
thấp hơn nhiều.

08:15.630 --> 08:16.350
Vẫn còn đó.

08:16.350 --> 08:18.090
Vì vậy, từ đây nó đi đến đó.

08:18.570 --> 08:19.530
Từ đây nó đi đến đó.

08:19.530 --> 08:23.340
Nó có khả năng đi vào hố bởi vì nó có thể kết thúc ở đó và sau đó có thể kết

08:23.460 --> 08:25.590
thúc trong hố, nhưng tuy nhiên, đó là cơ hội ít hơn.

08:25.590 --> 08:27.270
Vì vậy, nó sẽ chỉ xoay quanh như vậy.

08:27.270 --> 08:30.150
Vì vậy, rất thú vị để xem tất cả chúng thay đổi như thế nào.

08:30.150 --> 08:32.370
Hãy nhớ trước đây từ đây bạn sẽ đi như vậy.

08:32.370 --> 08:34.710
Từ đây bạn sẽ đi như thế, và từ đây bạn đi như vậy.

08:34.710 --> 08:36.750
Và bây giờ đột nhiên bạn có thể thấy nó thay đổi.

08:36.750 --> 08:38.580
Vì vậy, chúng ta hãy vẽ các mũi tên và xem nó trông như thế nào bây giờ.

08:39.300 --> 08:43.680
Và thì đấy, bạn còn thấy một điều ngẫu nhiên hơn nữa, phải không?

08:43.680 --> 08:45.180
Vì vậy, có, điều này là đúng.

08:45.180 --> 08:46.440
Nhưng hãy nhìn những gì đã xảy ra ở đây.

08:46.440 --> 08:47.520
Nhìn cái này.

08:47.550 --> 08:48.600
Nhìn cái này.

08:48.810 --> 08:50.400
Bạn có mong đợi điều đó không?

08:50.400 --> 08:54.480
Đó là điều chắc chắn giống như khi tôi nhìn thấy nó lần đầu tiên, tôi đã rất ấn tượng.

08:54.480 --> 08:55.320
Tôi không ngạc nhiên.

08:55.320 --> 08:57.120
Tôi không ngạc nhiên.

08:57.120 --> 08:59.430
Và tôi đã không mong đợi điều này ở tất cả.

08:59.700 --> 09:04.620
Và đây là một ví dụ về thời điểm tôi có thể thông minh hơn một con người.

09:05.070 --> 09:08.250
Nó không giống như một cái gì đó mà bạn thậm chí không thể đoán trước được.

09:08.250 --> 09:12.210
Nhưng chữ A. TÔI. , thông qua học tập củng cố,

09:12.210 --> 09:18.660
hãy nhớ rằng ví dụ về những con chó đôi khi thực sự có thể hoạt động tốt hơn những con chó bình thường trong đời thực hoặc những con chó robot được lập trình trước, hoặc có thể chơi

09:18.660 --> 09:22.200
bóng đá đơn giản chỉ vì chúng nảy ra những ý tưởng mà ngay cả chúng ta cũng không thể nhìn thấy.

09:22.200 --> 09:23.580
Và đó là một ví dụ tuyệt vời.

09:23.580 --> 09:23.730
Đúng.

09:23.730 --> 09:28.800
Vì vậy, bạn có thể cũng không mong đợi điều đó, rằng đại lý, thay vì đi lên, nó giống như, tại

09:28.800 --> 09:33.060
sao tôi muốn nếu tôi đi lên thì có 10% khả năng tôi sẽ nhảy xuống vực.

09:33.060 --> 09:35.040
Nhưng nó đạt được gì bằng cách đi vào tường?

09:35.040 --> 09:40.350
Chà, 80% thời gian nó sẽ quay trở lại và giữ nguyên trạng thái này, nhưng 10% thời gian nó sẽ ở đây và

09:40.350 --> 09:41.910
10% thời gian nó sẽ ở đây.

09:42.090 --> 09:48.930
Vì vậy, đột nhiên bạn có thể thấy rằng bây giờ nó thực sự nằm trong cách tiếp cận mới này là nhảy vào tường.

09:48.930 --> 09:52.980
Có 0% khả năng nó sẽ đi vào hố lửa từ vị trí này.

09:52.980 --> 09:55.500
Vì vậy, và nó giống như thực sự không muốn đi vào hố lửa.

09:55.500 --> 09:59.610
Vì vậy, nó kéo liên kết nảy vào tường một vài lần và sau đó nó sẽ.

09:59.880 --> 10:03.000
Đi sang phải hoặc trái tại một thời điểm nào đó bởi vì sự ngẫu nhiên đó sẽ xảy ra.

10:03.000 --> 10:05.640
Và vì vậy nó đã học được điều đó thông qua thử nghiệm.

10:05.640 --> 10:11.310
Nó học được rằng khi tôi đi về phía trước, kết quả không tốt bằng khi tôi đi đến bức tường.

10:11.310 --> 10:15.770
Và nếu bạn nghĩ về nó, nó giống như con rô bốt này, nếu bạn nghĩ về nó giống như một cái hố

10:15.780 --> 10:19.470
lửa, nó rất giống nó, nó giống như một hình vuông này giống như một cái gờ rất nhỏ.

10:19.590 --> 10:21.510
Và sau đó điều này giống như một ngọn núi, như một vách đá.

10:21.510 --> 10:27.330
Và con robot này chỉ đang ôm lấy vách đá và cố gắng chờ đợi cho đến khi nó, như, đẩy nó sang phải hoặc sang

10:27.330 --> 10:31.080
trái bởi vì, với tư cách là con người, bạn có thể cũng làm như vậy.

10:31.080 --> 10:32.400
Bạn sẽ không đứng đối diện với cách đó.

10:32.400 --> 10:34.890
Theo cách đó, bạn sẽ ôm vào vách đá, đúng không.

10:34.890 --> 10:35.760
Hay đại loại thế.

10:35.760 --> 10:39.510
Và hy vọng rằng bạn không bao giờ cần phải kết thúc, bạn sẽ không bao giờ rơi vào tình huống như thế.

10:39.510 --> 10:43.500
Nhưng giống như trực quan, chỉ là trực quan, nếu bạn nghĩ về nó, điều tương tự ở đây.

10:43.500 --> 10:46.380
Và vì vậy điều đó khá dữ dội, phải không?

10:46.380 --> 10:51.630
Vì vậy, tôi đã nảy ra ý tưởng này và tương tự ở đây rằng thay vì đi sang trái và mạo hiểm đánh

10:51.630 --> 10:56.040
nhau, nhưng tôi sẽ thử bật khỏi tường, như ôm tường, cố gắng nhảy vào tường vào một lúc

10:56.120 --> 10:56.850
nào đó .

10:56.850 --> 11:00.840
Tôi biết rằng chỉ cần có xác suất là có 10% cơ hội.

11:00.840 --> 11:04.350
Mỗi lần như vậy, tôi sẽ đến đây và đôi khi nó sẽ xảy ra và tôi sẽ kết thúc ở đây và tôi sẽ an toàn

11:04.350 --> 11:05.700
và sau đó tôi sẽ cứ tiếp tục như vậy.

11:06.570 --> 11:13.020
Cách tiếp cận rất, rất thú vị mà tôi đã thực hiện ở đây và như bạn có thể thấy, gốc rễ là như thế này.

11:13.020 --> 11:17.370
Vì vậy, từ đây nó có thể đi sang phải và sau đó nó sẽ đi phải đến lối ra hoặc ở đây

11:17.370 --> 11:22.140
nó sẽ đi sang trái như vậy và ở đây một lúc nào đó nó sẽ đi sang trái và nó sẽ lại đi như vậy.

11:22.140 --> 11:23.340
Điều này là quan trọng để hiểu.

11:23.340 --> 11:24.030
Nó không phải là một chính sách.

11:24.030 --> 11:28.110
Vì vậy, ngay cả khi nó nhảy từ đây, nó có thể sẽ đến đây.

11:28.110 --> 11:31.770
Và từ đây nó có thể thực sự, thay vì đi thẳng, nó thực sự có thể quay trở lại bên phải và

11:31.770 --> 11:33.930
sau đó từ đây có thể đi sang bên trái nó sẽ đi.

11:33.930 --> 11:34.290
Được rồi.

11:34.290 --> 11:36.390
Vì vậy, có rất nhiều tùy chọn khác nhau cho nó.

11:36.390 --> 11:37.710
Vì vậy, nó có thể không tuân theo chính xác điều này.

11:37.710 --> 11:38.640
Tôi có thể đi theo hướng khác.

11:38.670 --> 11:42.360
Đây chỉ là tuyến đường mong muốn mà nó được thiết kế cho chính nó.

11:42.360 --> 11:44.610
Nhưng cách nó sẽ diễn ra thực sự có thể khác.

11:44.610 --> 11:46.050
Nó phụ thuộc vào thế giới thực.

11:46.050 --> 11:46.860
Vậy là xong.

11:46.860 --> 11:50.010
Đó là thế giới của trí tuệ nhân tạo.

11:50.010 --> 11:52.350
Chính sách so với kế hoạch là như vậy.

11:52.470 --> 12:00.000
Và hy vọng rằng bạn đang dần trở nên hào hứng với những gì AI có thể làm, đặc biệt là với những gì chúng ta

12:00.000 --> 12:01.170
đã thấy ở đây.

12:01.170 --> 12:07.410
Đây là một số loại quyết định rất điêu luyện mà AI đang đưa ra.

12:07.410 --> 12:12.720
Và như bạn thấy, khi áp dụng AI, ngay từ ví dụ nhỏ này, bạn có thể thấy rằng khi chơi

12:12.720 --> 12:18.900
AI trong thế giới thực, có thể bạn sẽ nảy ra những ý tưởng và quyết định mà đôi khi con người không nghĩ ra

12:18.900 --> 12:19.170
được.

12:19.170 --> 12:25.890
Và đó chính xác là những gì đã xảy ra trong những ván đấu mà AlphaGo của Google đang đấu với

12:25.890 --> 12:32.250
Lee Sedol, nhà vô địch cờ vây ở Hàn Quốc, trở lại nhà vô địch cờ vây thế giới.

12:32.250 --> 12:36.870
Và họ đã chơi ở Hàn Quốc hồi năm 2016, tôi nghĩ đó là tháng 3 năm 2016.

12:36.870 --> 12:42.300
Nó đưa ra một số chiêu thức mà con người chưa bao giờ chơi trong 3000 năm hoặc con người không quen chơi.

12:42.300 --> 12:45.450
Và đây chính xác là một ví dụ về điều đó.

12:45.450 --> 12:49.620
Vì vậy, một lần nữa, tôi hy vọng bạn sẽ hào hứng và hứng thú với khóa học này và về những gì chúng tôi

12:49.620 --> 12:50.160
sẽ tạo ra.

12:50.160 --> 12:52.590
Và tôi mong được gặp bạn lần sau.

12:52.590 --> 12:54.150
Cho đến lúc đó, hãy tận hưởng.

12:54.180 --> 12:54.720
TÔI.
