WEBVTT

00:00.430 --> 00:03.900
Xin chào và chào mừng bạn trở lại khóa học về trí tuệ nhân tạo.

00:03.910 --> 00:05.350
Tôi hy vọng bạn thích khóa học cho đến nay.

00:05.350 --> 00:08.500
Và hôm nay chúng ta đang nói về các chính sách lựa chọn hành động.

00:08.890 --> 00:09.310
Được rồi.

00:09.310 --> 00:10.570
Hãy đi thẳng vào nó.

00:10.870 --> 00:15.940
Trước đây, chúng ta đã nói về việc thêm mạng nơ-ron vào việc học đơn giản của chúng ta.

00:15.940 --> 00:21.000
Và cho đến nay chúng tôi đang bắt đầu học sâu.

00:21.010 --> 00:26.530
Chúng ta đã nói về phần học khá nhiều, bao gồm cả việc thêm một số yếu tố vào nó.

00:26.530 --> 00:28.750
Và hôm nay chúng ta đang nói về phần này.

00:28.750 --> 00:29.880
Chúng ta đang nói về diễn xuất.

00:29.890 --> 00:30.880
Vì vậy, chúng ta hãy xem xét.

00:31.060 --> 00:38.410
Vì vậy, ở đây chúng ta có những gì chúng ta đã thảo luận về hành động khi bạn nhập các giá trị, tham số hoặc vectơ

00:38.410 --> 00:44.260
mô tả trạng thái mà tác nhân hiện đang ở, trong môi trường đó, sau đó, việc học được thực hiện

00:44.260 --> 00:47.290
hoặc thậm chí trước khi việc học được thực hiện.

00:47.290 --> 00:49.420
Về cơ bản, chúng tôi nhận được tất cả các giá trị cue.

00:49.420 --> 00:51.040
Vì vậy, chúng tôi không quan tâm đến việc học ngay bây giờ.

00:51.040 --> 00:51.940
Chúng tôi quan tâm đến việc diễn xuất.

00:51.940 --> 00:57.060
Vì vậy, một khi chúng ta có các giá trị gợi ý này, làm thế nào để chúng ta hiểu chúng ta cần sử dụng giá trị nào?

00:57.070 --> 01:01.870
Chà, nếu bạn nghĩ về nó, giá trị cue chỉ đơn giản là những dự đoán cho các giá trị khối lập phương.

01:01.870 --> 01:05.950
Vì vậy, như chúng ta đã làm trong thuật toán học đơn giản, chúng ta đã làm gì?

01:05.950 --> 01:10.320
Chúng tôi chỉ chọn một trong những tốt nhất, với giá trị gợi ý cao nhất.

01:10.330 --> 01:15.310
Khi chúng tôi có một cái có giá trị cao nhất, chúng tôi chỉ thực hiện hành động đó vì nó chỉ mang lại cho chúng tôi giá

01:15.310 --> 01:16.000
trị cao nhất.

01:16.240 --> 01:17.050
Và chúng tôi biết điều đó.

01:17.050 --> 01:21.970
Giá trị Q được tính là phần thưởng ngay lập tức mà chúng ta mong đợi nhận được, cộng với hệ số nhân với giá trị

01:21.970 --> 01:23.020
của trạng thái tiếp theo.

01:23.020 --> 01:24.700
Và đó là một phép tính đệ quy.

01:24.700 --> 01:25.360
Vậy tại sao không?

01:25.360 --> 01:28.300
Tại sao bạn không lấy giá trị hàng đợi tốt nhất?

01:28.300 --> 01:30.550
Và đó là kiểu kết thúc của nó.

01:30.550 --> 01:32.860
Nhưng như bạn có thể thấy ở đây, nó không đơn giản như vậy.

01:32.890 --> 01:37.660
Ở đây chúng ta đang sử dụng hàm soft max và đây là nơi chúng ta sẽ nói về các chính sách lựa chọn hành động.

01:37.660 --> 01:41.110
Vì vậy, ở đây, trong thực tế, chúng ta không nhất thiết phải có một hàm self max.

01:41.110 --> 01:44.290
Chúng tôi có thể có các chính sách lựa chọn hành động khác nhau.

01:44.650 --> 01:51.730
Ví dụ: chúng ta có epsilon tham lam, epsilon mềm và chúng ta có max mềm và những thứ đó giống như các chính sách

01:51.730 --> 01:54.880
lựa chọn hành động được sử dụng phổ biến nhất.

01:54.880 --> 01:56.200
Tất nhiên là có những người khác.

01:56.200 --> 02:00.520
Ví dụ, điều cơ bản nhất là đây là một chính sách lựa chọn hành động rất đơn giản.

02:00.520 --> 02:03.730
Chỉ cần chọn cái tốt nhất, cái có giá trị Q cao nhất.

02:03.730 --> 02:06.250
Nhưng tại sao chính sách hành động đó không bay?

02:06.250 --> 02:10.300
Và tại sao chúng ta lại có các loại chính sách hành động, chính sách lựa chọn hành động?

02:10.300 --> 02:19.000
Chà, tất cả tóm lại là khám phá so với khai thác và đó là cốt lõi của việc học tăng cường, bởi vì chúng ta đã nói về điều này

02:19.000 --> 02:24.280
một chút, rằng tác nhân của bạn, khi nó hoạt động trong một môi trường, nó có thể

02:24.280 --> 02:30.220
dự đoán một số giá trị chính nhất định , cái nào có thể tốt, và nó có thể và nó

02:30.430 --> 02:31.780
có thể không tốt.

02:31.780 --> 02:34.900
Có thể những giá trị đó không tốt và chúng tôi sẽ buộc phải khám phá.

02:34.900 --> 02:39.460
Vì vậy, nếu chúng ta, chẳng hạn, trong trường hợp này, dự đoán rằng Q hai là câu tốt nhất, và

02:39.460 --> 02:45.820
sau đó bạn sẽ nhận được hai, thực hiện hành động hai, và từ đây nó thực hiện hành động hai và sau đó, nó sẽ nhận được

02:45.820 --> 02:46.720
rất thưởng âm.

02:46.720 --> 02:51.910
Sau đó, môi trường buộc người đại diện phải đi và khám phá bởi vì bây giờ họ sẽ học được điều

02:51.910 --> 02:56.260
đó, ồ, thực ra tôi đã nghĩ Quý 2 sẽ rất tốt, nhưng hóa ra lại rất tệ.

02:56.620 --> 02:58.270
Vì vậy, kết quả trở nên rất tệ.

02:58.270 --> 02:59.830
Vì vậy, mạng sẽ tự cập nhật.

02:59.830 --> 03:02.950
Vì vậy, lần tới khi anh ấy ở trong trạng thái này, anh ấy có thể sẽ vẫn chọn.

03:02.950 --> 03:06.760
Câu hỏi hai, nếu có, bạn biết đấy, như thể nó rất, rất thuận lợi.

03:06.760 --> 03:11.800
Vì vậy, bạn có thể nghĩ rằng điều đó giống như, bạn biết đấy, anh ta có thể cần một vài lần một vài hình

03:11.920 --> 03:14.800
phạt hoặc hình phạt để biết rằng Q2 là một hành động xấu.

03:14.800 --> 03:17.410
Nhưng có lẽ anh ấy sẽ sớm biết được điều đó.

03:17.410 --> 03:18.430
Được rồi, tôi sẽ thực hiện một hành động khác.

03:18.430 --> 03:21.910
Tôi sẽ thực hiện hành động này vì bây giờ nó có giá trị Q tốt nhất.

03:21.910 --> 03:28.960
Vì vậy, đôi khi môi trường buộc tác nhân phải thực hiện các hành động khác nhau để khám phá các hành động khác nhau, nhưng đôi

03:28.960 --> 03:33.340
khi tác nhân có thể thấy mình bị mắc kẹt trong mức tối đa cục bộ.

03:33.340 --> 03:37.870
Nó có thể thấy rằng nó tiếp theo giống như thông qua khám phá ban đầu của nó.

03:37.870 --> 03:42.970
Nó phát hiện ra rằng, ồ, đây là một hành động khá hay, giống như tôi sẽ đi ngay đây và đó là một hành

03:42.970 --> 03:43.750
động khá hay.

03:43.810 --> 03:48.970
Nhưng vấn đề là nó nghĩ rằng đó là hành động tốt nhất đơn giản vì nó chưa khám phá ra.

03:48.970 --> 03:53.770
Nó được khám phá đi lên sẽ khám phá đi bên trái, người thám hiểm của nó đi bên phải, nhưng nó

03:53.770 --> 03:57.310
đã không khám phá đi xuống từ trạng thái cụ thể mà nó đang ở đó.

03:57.310 --> 04:01.840
Và bây giờ nó giống như thiên vị đối với hành động này, nó nghĩ rằng đó là một hành động tốt sẽ tiếp

04:01.840 --> 04:03.370
tục thực hiện, sẽ tiếp tục nhận được.

04:03.730 --> 04:06.340
Anh ấy tiếp tục thực hiện hành động này sẽ tiếp tục nhận được phần thưởng xứng đáng.

04:06.340 --> 04:10.300
Nhưng điều gì sẽ xảy ra nếu hành động này thậm chí còn tốt hơn?

04:10.300 --> 04:16.330
Nếu hành động này sẽ tốt hơn nhiều nếu nó biết về hành động này, nó sẽ thực sự chuyển sang

04:16.330 --> 04:17.230
hành động này.

04:17.230 --> 04:22.180
Nhưng vì nó bị mắc kẹt trong mức tối đa cục bộ và nó đang nhận được những phần thưởng tốt này,

04:22.210 --> 04:23.500
nó sẽ được củng cố.

04:23.500 --> 04:27.400
Nó chỉ tiếp tục củng cố bản thân nó hoặc môi trường sẽ củng cố nó rằng đây là một hành động

04:27.400 --> 04:28.270
tốt để thực hiện.

04:28.270 --> 04:29.170
Cứ làm thế.

04:29.230 --> 04:35.320
Nhưng thực tế là thực tế là có một hành động khác mà nó chưa tìm thấy hoặc thậm chí chưa khám

04:35.320 --> 04:36.850
phá sẽ tốt hơn nhiều.

04:36.850 --> 04:43.120
Và vì vậy những gì chúng tôi muốn làm là chúng tôi muốn đưa ra chính sách lựa chọn hành động cho phép đại lý của chúng

04:43.120 --> 04:45.760
tôi không bị mắc kẹt trong mức tối đa cục bộ.

04:45.760 --> 04:48.400
Vâng, điều quan trọng là phải tiếp tục thực hiện các hành động tốt.

04:48.400 --> 04:49.990
Đó là phần khai thác.

04:49.990 --> 04:53.860
Chúng tôi muốn khai thác những gì chúng tôi đã tìm thấy, nhưng đồng thời chúng tôi vẫn muốn khám phá.

04:53.860 --> 04:55.480
Chúng tôi không bao giờ muốn ngừng khám phá.

04:55.480 --> 04:57.730
Giống như trong cuộc sống, bạn không bao giờ muốn ngừng học hỏi.

04:57.790 --> 04:58.930
Bạn ngừng học, bạn chết.

04:58.930 --> 04:59.220
Đó là.

04:59.580 --> 05:03.300
Có một câu nói đại loại như thế khi bạn không trưởng thành, bạn đang chết hoặc đại loại như vậy.

05:03.300 --> 05:07.470
Vì vậy, bạn muốn tiếp tục học hỏi và đại lý của bạn muốn tiếp tục học hỏi.

05:07.470 --> 05:10.110
Và đó là nơi các chính sách lựa chọn hành động này ra đời.

05:10.110 --> 05:12.270
Vì vậy, chúng tôi có ba được liệt kê ở đây.

05:12.270 --> 05:14.100
Vì vậy, người đầu tiên là Epsilon Greedy.

05:14.100 --> 05:15.540
Nó rất đơn giản.

05:15.540 --> 05:21.450
Nó nghe có vẻ khá phức tạp theo nghĩa giống như nó có một cái tên hay ho và thông thường những thứ có những cái tên hay ho như vậy

05:21.450 --> 05:22.060
rất phức tạp.

05:22.240 --> 05:23.040
Nó thực sự không phải.

05:23.100 --> 05:31.340
Vì vậy, về cơ bản những gì nó làm là nó sẽ chọn một cái có giá trị Q tốt nhất và epsilon giống như epsilon trong tiếng Hy Lạp.

05:31.350 --> 05:32.670
Bạn có thể nghe thấy nó ở những nơi khác.

05:32.670 --> 05:34.920
Nó giống như một chính sách lựa chọn.

05:34.920 --> 05:39.870
Vì vậy, trong trường hợp này, chúng tôi đang sử dụng nó để chọn trong số các giá trị Q của chúng tôi, không hoạt động.

05:39.870 --> 05:45.750
Vì vậy, bạn sẽ chọn cái có giá trị Q cao nhất mọi lúc, trừ phần trăm Epsilon.

05:45.750 --> 05:52.170
Vì vậy, ví dụ: nếu bạn đặt Epsilon thành 10%, thì bạn sẽ đến hoặc 0. 1.

05:52.170 --> 05:56.460
Sau đó, 10% thời gian hành động sẽ được chọn ngẫu nhiên.

05:56.460 --> 06:01.890
Vì vậy, 90% thời gian bạn vẫn sẽ chọn hành động tốt nhất dựa trên giá trị Q cao nhất.

06:01.890 --> 06:07.620
Nhưng 10% thời gian sẽ là chọn một bộ đồng phục hành động ngẫu nhiên, tức là sẽ hoàn toàn ngẫu

06:07.620 --> 06:09.390
nhiên thực hiện một hành động.

06:09.390 --> 06:17.700
Hoặc nếu bạn đặt epsilon thành 0. 540. 05, điều đó có nghĩa là 95% thời gian đại lý sẽ thực hiện

06:17.700 --> 06:19.140
hành động với giá trị cao nhất.

06:19.140 --> 06:22.290
Nhưng 5% thời gian, nó vẫn sẽ chọn một hành động ngẫu nhiên.

06:22.290 --> 06:25.470
Vì vậy, nó sẽ được ra ngoài đó và khám phá.

06:25.470 --> 06:28.140
Vì vậy, Epsilon Soft rất giống nhau.

06:28.410 --> 06:34.920
Nhân tiện, đó là lý do tại sao nó được gọi là Epsilon tham lam, bởi vì bạn đang tham lam

06:34.920 --> 06:40.230
lựa chọn hành động, hành động tốt, ngoại trừ phần trăm thời gian epsilon nhỏ đó.

06:40.230 --> 06:46.920
Vì vậy, epsilon càng thấp, epsilon càng thấp, bạn càng tham lam chọn loại hành

06:46.920 --> 06:48.180
động đó.

06:48.180 --> 06:50.280
Đó là hành động tối ưu.

06:50.280 --> 06:54.630
Và bạn càng ít rời đi, bạn càng ít có cơ hội đi khám phá.

06:54.630 --> 06:55.920
Epsilon Soft thì ngược lại.

06:55.920 --> 07:01.950
Vì vậy, về cơ bản bạn đang chọn ngẫu nhiên, bạn đang chọn một phần trăm epsilon trừ đi.

07:01.950 --> 07:09.460
Vì vậy, nếu epsilon của bạn là 0. 1, vì vậy 10%, sau đó chỉ 10% thời gian bạn thực hiện hành động này và

07:09.750 --> 07:12.120
90% thời gian bạn chọn một hành động ngẫu nhiên.

07:12.120 --> 07:18.740
Tôi sẽ nói rất, rất đơn giản, chỉ là các thuật toán đảo ngược và soft max giống như bước tiếp theo hoặc đó là một

07:18.960 --> 07:24.000
phiên bản nâng cao hơn của Epsilon của thuật toán tham lam Epsilon, mặc dù cả hai đều có giá

07:24.000 --> 07:30.390
trị và cả hai đều có những nơi chúng tôi sẽ sử dụng soft max trong mã hóa và bộ điều thực tế của chúng

07:30.390 --> 07:30.810
tôi.

07:30.810 --> 07:34.920
Vì vậy, đó là lý do tại sao chúng ta sẽ nói chi tiết hơn một chút về Soft Max.

07:35.040 --> 07:36.300
Vì vậy, chúng ta hãy xem xét.

07:36.300 --> 07:37.770
Vì vậy, hãy chuyển sang Soft Max.

07:37.770 --> 07:40.580
Hy vọng rằng nó khá rõ ràng về các thành phần Epsilon.

07:40.720 --> 07:42.720
Đó là một thuật toán khá đơn giản.

07:42.720 --> 07:47.640
Chọn cái này hầu hết thời gian ngoại trừ đôi khi đi và khám phá.

07:47.640 --> 07:53.760
Và bây giờ chúng tôi cũng thấy lý do tại sao điều quan trọng là phải thực hiện khám phá đó để chúng tôi không kết thúc với mức tối đa

07:53.760 --> 07:55.950
cục bộ trong quá trình tối ưu hóa của chúng tôi.

07:55.950 --> 07:57.960
Vì vậy, bây giờ chúng ta sẽ nói thêm một chút về soft max.

07:58.680 --> 08:02.700
Có một hướng dẫn về Soft Max ở cuối khóa học.

08:02.700 --> 08:08.340
Tôi nghĩ đó là phụ lục số hai, nơi chúng ta nói về khái niệm đằng sau Soft Max.

08:08.340 --> 08:09.900
Tôi sẽ làm mới một chút ở đây.

08:09.900 --> 08:12.780
Vì vậy, họ đang nói về mạng nơ-ron tích tụ.

08:12.780 --> 08:16.560
Và nhân tiện, tất cả chúng ta sẽ đề cập đến tính chập, chúng ta sẽ không đề cập

08:16.560 --> 08:18.780
đến mạng nơ-ron tích tụ trong phần này của khóa học.

08:18.930 --> 08:21.360
Trong phần này, chúng tôi vẫn đang sử dụng một vector.

08:21.570 --> 08:27.510
Nhưng trong phần tiếp theo của khóa học, khi chúng tôi tạo ra một AI để chơi trò diệt vong, chúng tôi sẽ sử

08:27.510 --> 08:29.310
dụng các mạng nơ-ron phức hợp.

08:29.310 --> 08:35.940
Vì vậy, nó có thể có lợi cho bạn khi xem xét các mạng nơ-ron tích tụ và sau đó sử dụng hàm soft

08:35.940 --> 08:36.240
max.

08:36.240 --> 08:41.820
Hoặc bạn có thể tìm hiểu thêm một chút về SOF Max sau khi bạn tham gia khóa học về mạng nơ-ron tích tụ và X

08:41.820 --> 08:42.990
của khóa học sau này.

08:42.990 --> 08:45.060
Nhưng đây là một giải pháp nhanh chóng.

08:45.060 --> 08:48.870
Vì vậy, ở đây chúng tôi có một mạng nơ-ron phức hợp quyết định xem đó là một con chó hay một con mèo.

08:48.870 --> 08:53.370
Vì vậy, ở đây chúng tôi có quá trình bỏ phiếu giữa các tế bào thần kinh này.

08:53.370 --> 08:59.700
Và điều này nói rằng nó là một nó có các đặc điểm, bạn biết đấy, đôi tai mềm mại,

08:59.700 --> 09:01.980
kiểu khuôn mặt nhọn, nhọn là gì.

09:02.220 --> 09:08.850
Và loại giống như các đặc điểm mà các loại mắt khác, con mắt, cách nhìn của mắt, tất cả những đặc điểm này đều thuộc

09:08.850 --> 09:09.870
về một con chó.

09:09.870 --> 09:13.620
Vì vậy, 95% khả năng đó là một con chó và 5% khả năng đó là một con mèo.

09:13.620 --> 09:18.930
Nhưng câu hỏi là, làm thế nào chúng ta có được và trong hướng dẫn mà chúng ta đang nói đến, làm thế nào chúng ta có được những giá

09:18.930 --> 09:20.310
trị này để cộng lại thành một?

09:20.610 --> 09:25.890
Chà, bất kể là mạng phức hợp hay toàn bộ mạng nơ-ron của chúng ta.

09:25.890 --> 09:30.630
Vì vậy, mạng nơ-ron tích tụ cộng với các lớp được kết nối đầy đủ, bất kể nó được phun ra, bất kể giá

09:30.630 --> 09:33.810
trị nào được phun ra, chúng tôi đã áp dụng một hàm soft max ở đây.

09:33.810 --> 09:37.560
Và đây là nơi chúng tôi giới thiệu công thức cho hàm soft max.

09:37.560 --> 09:38.640
Đây là những gì nó trông như thế này.

09:38.640 --> 09:40.140
Và sau đó chúng tôi nhận được những giá trị này.

09:40.320 --> 09:43.380
Và về cơ bản đó là một sự làm mới nhanh chóng.

09:43.380 --> 09:45.810
Đây là công thức cho giá trị tối đa mềm.

09:45.810 --> 09:49.440
Những gì nó làm là nó cần nhiều kết quả đầu ra mà bạn có.

09:49.470 --> 09:50.370
Không thành vấn đề.

09:50.820 --> 09:57.930
Nó sẽ lấy chúng và nó sẽ dồn tất cả chúng thành các giá trị từ 0 đến 1, bất kể chúng lớn như thế

09:57.930 --> 09:58.380
nào.

09:58.380 --> 09:58.890
Chỉ.

09:59.290 --> 10:02.500
Nhìn vào điều này cho tôi, bạn có thể thấy rằng có một tổng số tiền ở dưới cùng.

10:02.500 --> 10:04.780
Vì vậy, các giá trị này sẽ bằng 0 giữa 0 và 1.

10:04.780 --> 10:08.170
Và tất cả các giá trị này sẽ luôn cộng lại thành một.

10:08.440 --> 10:16.720
Và điều đó rất có lợi cho chúng tôi vì khi chúng tôi sử dụng hàm soft max, điều xảy ra là chúng tôi nhận được

10:16.720 --> 10:21.340
các giá trị Q này, chúng tôi chọn giá trị tốt nhất này.

10:21.340 --> 10:26.650
Nhưng trong thực tế, điều gì sẽ xảy ra là những giá trị Q mà chúng ta nhận được, chúng, chúng là những con số thực tế, phải không?

10:26.650 --> 10:28.510
Vì vậy, chúng là một số loại số.

10:28.840 --> 10:32.560
Chúng không cần phải cộng đến một và không cần phải nằm trong khoảng từ 0 đến một, chỉ là một số con số.

10:32.980 --> 10:36.040
Nhưng khi chúng tôi áp dụng soft max, chúng tôi không chỉ chọn cái tốt nhất.

10:36.040 --> 10:38.140
Chúng tôi thực sự nhận được những con số như thế.

10:38.140 --> 10:44.230
Vì vậy, chúng tôi nhận được các số trong phạm vi từ 0 đến một và đó cũng là số cộng với một.

10:44.230 --> 10:47.140
Và vì vậy điều gì khác mà chúng ta biết rằng nó cộng lại thành một?

10:47.140 --> 10:50.110
Chúng ta biết rằng các xác suất luôn phải cộng với một.

10:50.110 --> 10:56.560
Vì vậy, đó là lý do tại sao chúng ta có thể nói ở đây chúng ta có giá trị Q, nhưng đột nhiên ở đây chúng ta bị mềm

10:56.560 --> 10:57.910
hoặc chúng ta có xác suất.

10:57.910 --> 11:02.620
Vì vậy, chúng tôi có thể nói rằng khả năng đây là hành động tốt nhất là 90%.

11:02.620 --> 11:05.770
Điều này tốt nhất trong phần tốt nhất, 5%, 2%, 3%.

11:05.770 --> 11:09.220
Vì chúng tôi biết giá trị Q của bạn càng cao thì hành động càng tốt.

11:09.220 --> 11:14.710
Và vì vậy nếu chúng ta ép chúng xuống 0-1, thì chúng sẽ trở thành xác suất và chúng ta có thể giải quyết chúng như vậy.

11:14.920 --> 11:20.200
Và do đó bây giờ là khi hành động được chọn.

11:20.200 --> 11:22.570
Và đó là cách chúng tôi đến với Câu hỏi hai.

11:22.630 --> 11:28.280
Nhưng nếu bạn xem xét kỹ, đây không phải là 100% nghiêm ngặt và đây không phải là 0%.

11:28.300 --> 11:30.550
Vì vậy, đây là 5%, 2%, 3%.

11:30.550 --> 11:41.230
Vì vậy, cách tự nhiên nhất để áp dụng soft max nhằm duy trì khả năng khám phá trong thuật toán là sử dụng các

11:41.230 --> 11:48.520
xác suất chính xác này như tần suất chúng ta sẽ thực hiện hành động đó.

11:48.520 --> 11:54.400
Vì vậy, những xác suất này thực sự đại diện cho sự phân bổ của những hành động mà chúng tôi đang thực hiện.

11:54.400 --> 12:01.660
Vì vậy, về cơ bản soft Max giúp chúng tôi rất dễ dàng tìm ra cách kết hợp giữa khai thác và thăm dò.

12:01.660 --> 12:06.490
Vì vậy, hành động tốt nhất sẽ luôn có xác suất cao nhất vì nó có giá trị Q cao nhất.

12:06.490 --> 12:10.720
Và do đó, ở đây chúng ta sẽ chỉ là chúng ta sẽ sử dụng những thứ này làm phân phối của

12:10.720 --> 12:15.640
mình và chúng ta sẽ nói, được rồi, chúng ta sẽ sử dụng Q đến 90% thời gian, nhưng 5% thời gian mà chúng ta vẫn đang

12:15.640 --> 12:16.030
sử dụng.

12:16.030 --> 12:20.380
Q một và 2% thời gian chúng ta sẽ làm ba, và 3% thời gian chúng ta sẽ làm.

12:20.380 --> 12:20.950
Câu hỏi bốn.

12:21.220 --> 12:27.040
Và vẻ đẹp ở đây là khi các giá trị này cập nhật, khi tác

12:27.040 --> 12:35.140
nhân đi qua mạng, ngày càng nhiều, nó trở nên quen thuộc hơn với môi trường và do đó các cập nhật này.

12:35.140 --> 12:41.200
Vì vậy, giá trị này, chẳng hạn, có thể trở nên giống như nó có thể chắc chắn rằng giá trị này thực sự nhỏ hơn hoặc giá

12:41.200 --> 12:42.610
trị này thực sự cao hơn.

12:42.610 --> 12:46.840
Và do đó, những xác suất này cũng sẽ thay đổi khi tác nhân trải qua.

12:46.840 --> 12:52.930
Vì vậy, mặc dù ở đây chúng tôi có hai bạn, nhưng không ai nói rằng đôi khi 5% thời gian, chính xác hơn, chúng

12:52.930 --> 12:59.290
tôi sẽ chọn Q một làm hành động để thực hiện và đôi khi hoặc hành động một người sẽ thực hiện hành động một. đôi

12:59.290 --> 13:05.110
khi chúng tôi sẽ thực hiện hành động thông qua hai hành động ba chiếm 2% thời gian và hành động bốn sẽ chiếm

13:05.110 --> 13:06.370
khoảng 3% thời gian.

13:06.370 --> 13:13.540
Vì vậy, mọi hành động đều có cơ hội chơi trong quá trình này miễn là chúng ta có đủ số lần lặp lại và

13:13.540 --> 13:17.860
tác nhân trải qua rất nhiều lần qua những trạng thái mà chúng đang ở.

13:17.860 --> 13:23.830
Và đó là cách đây là cách hoạt động của bất kỳ loại thuật toán học sâu nào mà bạn muốn

13:23.830 --> 13:27.100
thực hiện điều này nhiều lần để bạn rút kinh nghiệm.

13:27.100 --> 13:33.040
Và do đó, như bạn có thể thấy ở đây, đó là một sự chuyển đổi rất tự nhiên để chúng ta không chỉ ngẫu nhiên giống như một

13:33.040 --> 13:34.120
thuật toán tham lam epsilon.

13:34.120 --> 13:37.330
Chúng tôi không chỉ lựa chọn ngẫu nhiên các hành động.

13:37.330 --> 13:43.990
Chúng tôi đang chọn chúng dựa trên giá trị tối đa mềm của chúng, điều này làm cho nó giống như có một số logic đằng sau

13:43.990 --> 13:45.730
nó, không chỉ là ngẫu nhiên.

13:45.730 --> 13:49.930
10% thời gian chúng tôi chọn một hành động ngẫu nhiên, nhưng có một số logic đằng sau cách chúng tôi thực hiện nó.

13:49.930 --> 13:52.690
Và dựa trên các giá trị Q mà chúng tôi đã khám phá.

13:53.020 --> 13:58.540
Và đó là chính sách lựa chọn hành động mà chúng tôi sẽ sử dụng trong khóa học này.

13:58.540 --> 14:04.180
Bạn chắc chắn nên xem chính sách Lựa chọn hành động tham lam của Epsilon, nếu bạn muốn, nhưng chúng

14:04.180 --> 14:08.470
tôi sẽ chủ yếu sử dụng chính sách lựa chọn hành động tối đa mềm.

14:08.470 --> 14:11.320
Và tôi có một bài đọc thú vị dành cho bạn.

14:11.320 --> 14:17.350
Vì vậy, đây được gọi là Khám phá sự tham lam thích ứng Epsilon trong học tập củng cố dựa trên sự khác biệt về giá trị.

14:17.350 --> 14:18.700
Đó là một bài báo năm 2010.

14:18.700 --> 14:24.010
Và thật thú vị vì Mike, Michelle, tôi không chắc cách phát âm nó.

14:24.010 --> 14:31.450
Michelle và Michael đang nói chuyện giới thiệu một loại thuật toán khác, vì vậy thuật toán tham

14:31.450 --> 14:38.950
lam epsilon được điều chỉnh và được gọi là thuật toán VD VB hoặc thuật toán VB tham lam epsilon.

14:38.950 --> 14:39.880
Bạn có thể xem nó ở đây.

14:40.270 --> 14:44.080
Và anh ấy thực sự so sánh nó với các thành phần EPS của Max.

14:44.080 --> 14:53.140
Và đó là một thuật toán tham lam epsilon, về cơ bản, ý tưởng chính đằng sau nó là điều chỉnh giá trị của epsilon tùy

14:53.140 --> 14:56.470
thuộc vào trạng thái mà tác nhân đang ở.

14:56.470 --> 14:58.830
Vì vậy, nếu đại lý rất quan tâm về điều này.

14:59.000 --> 15:02.630
Tám trong đó epsilon nên nhỏ hơn, vì vậy sẽ ít thăm dò hơn.

15:02.630 --> 15:06.110
Nếu tác nhân không chắc chắn, Epsilon nên cao hơn, nên thăm dò nhiều hơn.

15:06.110 --> 15:08.120
Vì vậy, nó là một bài báo năm 2010.

15:09.020 --> 15:17.900
Tôi không chắc liệu thuật toán đề xuất mới này có được sử dụng rộng rãi hay đang được chấp nhận trong cộng đồng hay

15:17.900 --> 15:23.030
không, hay liệu trí tuệ nhân tạo đã loại bỏ đề xuất này.

15:23.030 --> 15:29.360
Nhưng tuy nhiên, nó chắc chắn sẽ giúp bạn củng cố kiến thức của mình về các chính sách lựa chọn hành động mà chúng ta đã

15:29.360 --> 15:30.020
thảo luận.

15:30.020 --> 15:32.090
Thành phần epsilon, soft max sẽ giúp bạn.

15:32.090 --> 15:36.200
Nó sẽ cho bạn cơ hội để so sánh chúng cạnh nhau và cũng có thể xem mọi người thực sự

15:36.200 --> 15:39.230
nghĩ theo hướng nào khi họ muốn cải thiện trí thông minh nhân tạo.

15:39.230 --> 15:47.360
Vì vậy, nếu bạn đã từng lên kế hoạch tạo ra các thuật toán thực sự thú vị đang thúc đẩy giới hạn của trí tuệ nhân tạo

15:47.360 --> 15:54.560
và đẩy phong bì trong không gian này, thì đây có thể là một cách tốt để bạn biết mọi người đôi khi nghĩ

15:54.560 --> 16:01.250
theo hướng nào khi họ đang cố gắng để cải thiện các tiêu chuẩn của trí thông minh nhân tạo hoặc các

16:01.250 --> 16:03.470
tiêu chuẩn tồn tại vào năm 2010.

16:03.800 --> 16:04.670
Vậy là xong.

16:04.700 --> 16:09.860
Hy vọng rằng bạn thích hướng dẫn hôm nay về các chính sách lựa chọn hành động.

16:10.040 --> 16:15.890
Chúng tôi đã tìm hiểu về Epsilon Greedy, Epsilon Soft và soft max, và bây giờ bạn thậm chí còn chuẩn bị tốt hơn

16:15.890 --> 16:18.050
cho khía cạnh thực tế của mọi thứ.

16:18.050 --> 16:20.720
Và trên ghi chú đó, tôi mong được gặp bạn lần sau.

16:20.720 --> 16:22.130
Và cho đến khi đó, hãy tận hưởng.

16:22.130 --> 16:22.670
TÔI.