WEBVTT

00:00.550 --> 00:02.770
Xin chào và chào mừng bạn trở lại khóa học về AI.

00:03.040 --> 00:06.910
Trong phần trước, chúng ta đã nói về trực giác của kẻ giết người học sâu.

00:06.910 --> 00:14.320
Chúng tôi đã bắt đầu từ đó và thực tế là chúng tôi thực sự đã đến được phần này và nơi chúng tôi nói về việc học

00:14.320 --> 00:17.980
và bây giờ chúng tôi sẽ chuyển sang phần diễn xuất thực tế.

00:18.160 --> 00:22.180
Vì vậy, có hai phần, hai phần riêng biệt mà chúng ta phải nhớ.

00:22.180 --> 00:23.440
Vì vậy, đó là phần học tập.

00:23.440 --> 00:25.420
Nhưng bây giờ anh ấy thực sự đã làm tất cả những điều này.

00:25.420 --> 00:26.230
Đẹp quá.

00:26.230 --> 00:27.820
Bây giờ anh ta thực sự phải hành động.

00:27.820 --> 00:31.570
Anh ta phải quyết định những gì anh ta sẽ làm là sẽ thực hiện hành động một, hai, ba hoặc bốn.

00:31.570 --> 00:32.770
Và vậy làm thế nào để anh ta làm điều đó?

00:32.770 --> 00:37.090
Chà, cách anh ấy làm bây giờ cũng được đưa ra những giá trị gợi ý tương tự.

00:37.090 --> 00:41.080
Vì vậy, các giá trị tín hiệu không thay đổi sau khi chúng ta có các giá trị tín hiệu này để so sánh chúng với tính

00:41.080 --> 00:45.310
toán tổn thất mà chúng ta đã truyền lỗi, chúng tôi đã cập nhật trọng số, nhưng các giá trị tín hiệu không thay đổi trong toàn bộ quá

00:45.310 --> 00:45.670
trình đó.

00:45.670 --> 00:49.270
Vì vậy, sau khi chúng tôi có các giá trị gợi ý ở đó, chúng đã được sửa, chúng tôi biết chúng là gì.

00:49.270 --> 00:53.710
Vì vậy, tất cả điều này xảy ra, các mạng được cập nhật và hiện đang sử dụng các giá trị chính đó mà chúng tôi đã có.

00:53.710 --> 00:58.390
Những gì chúng ta sẽ làm là chuyển chúng qua một hàm soft max.

00:58.390 --> 01:01.900
Và một lần nữa, tôi nghĩ rằng mức tối đa mềm được mô tả trong Phụ lục hai.

01:01.900 --> 01:09.160
Và chúng ta sẽ nói thêm một chút về soft max ở phần sau hoặc chúng ta sẽ nói thêm về chính sách lựa chọn hành

01:09.160 --> 01:12.010
động này trong phần còn lại của phần này.

01:12.010 --> 01:16.870
Vì vậy, chỉ trong một vài hướng dẫn, nhưng bây giờ chúng ta sẽ nói rằng chúng ta đang chuyển nó qua một hàm soft

01:16.870 --> 01:17.140
max.

01:17.140 --> 01:22.060
Và về cơ bản những gì nó làm là nó cho phép nó giúp chọn cái tốt nhất, nó chọn hành động tốt nhất có thể.

01:22.060 --> 01:23.590
Và có một cảnh báo nhỏ cho điều đó.

01:23.590 --> 01:25.750
Nó không chỉ là cái tốt nhất có thể.

01:25.990 --> 01:28.870
Chúng tôi sẽ nói về điều đó trong hướng dẫn chính sách lựa chọn hành động.

01:28.870 --> 01:31.720
Nhưng hiện tại, hãy nói rằng nó chọn hành động tốt nhất từ đây.

01:31.720 --> 01:32.500
Nó nói, được rồi, vậy.

01:32.500 --> 01:37.540
Q một, khả năng về cơ bản chúng ta biết các giá trị Q.

01:37.600 --> 01:38.770
Vì vậy, nó được dự đoán các giá trị Q.

01:38.770 --> 01:43.840
Vì vậy, nó có thể nhìn vào chúng và nói, được rồi, vì vậy giá trị Q cao nhất trong số này, giống như chúng ta đã làm trong

01:43.840 --> 01:48.610
thuật toán học Q đơn giản, nó sẽ chỉ xem xét tất cả những thứ này, chẳng hạn, giá trị Q cao nhất trong số này

01:48.610 --> 01:48.880
.

01:48.880 --> 01:50.080
Và tôi sẽ chọn hành động đó.

01:50.080 --> 01:50.770
Tôi sẽ lấy chúng.

01:50.770 --> 01:51.970
Và đó là khá nhiều.

01:51.970 --> 01:53.800
Đó là cách nó chọn hành động nào cần thực hiện.

01:54.070 --> 01:55.150
Nó thực hiện hành động.

01:55.150 --> 02:00.730
Và sau đó tất cả quá trình này xảy ra một lần nữa đối với trạng thái tiếp theo mà tác nhân bổ sung kết thúc trong trường hợp của chúng ta, trong

02:00.730 --> 02:02.050
hình vuông tiếp theo của mê cung.

02:02.050 --> 02:04.240
Nhưng nói chung, đó là trạng thái tiếp theo.

02:04.330 --> 02:05.350
Vậy là xong.

02:05.350 --> 02:14.590
Đó là cách chúng tôi đưa vấn đề học tập củng cố vào mạng nơ-ron thông qua một vectơ mô tả trạng thái mà chúng

02:14.590 --> 02:15.880
tôi đang ở.

02:15.880 --> 02:20.050
Và một khi chúng tôi đưa nó vào, có hai phần của quá trình sẽ xảy ra.

02:20.470 --> 02:22.210
Phần một là việc học.

02:22.240 --> 02:26.770
Vì vậy, hãy nhớ rằng phần mà chúng tôi so sánh từng giá trị Q với các mục tiêu và sau

02:26.770 --> 02:32.290
đó chúng tôi tuyên truyền lại sự mất mát thông qua mạng để cập nhật trọng số để mạng của chúng tôi học hỏi khi chúng

02:32.290 --> 02:34.720
tôi đi qua mê cung này hoặc qua môi trường này.

02:34.990 --> 02:40.750
Và phần thứ hai, tất nhiên, chúng ta phải hành động, chúng ta phải chọn một hành động và đó là nơi chúng ta

02:40.750 --> 02:46.720
chuyển các giá trị Q cho hàm soft max và về cơ bản là một chính sách lựa chọn hành động, mà chúng ta sẽ

02:46.720 --> 02:48.220
nói về tiếp tục xuống.

02:48.220 --> 02:52.780
Và sau đó, chúng tôi chỉ cần chọn hành động mà chúng tôi muốn thực hiện và chúng tôi thực hiện hành động đó.

02:52.780 --> 02:57.130
Và sau đó toàn bộ quá trình này bắt đầu lại, và sau đó có thể tác nhân đạt được điều đó

02:57.130 --> 02:59.230
có thể tác nhân không vượt qua được trò chơi.

02:59.230 --> 03:05.470
Trong mọi trường hợp, trò chơi kết thúc và sau đó một lần nữa, toàn bộ, toàn bộ quá trình lặp lại, tác nhân chơi

03:05.470 --> 03:08.200
lại toàn bộ trò chơi, và sau đó dừng lại.

03:08.200 --> 03:14.470
Vì vậy, về cơ bản đó là một kỷ nguyên khác mỗi khi tác nhân mỗi khi trò chơi kết thúc, cho dù thuận lợi vào tháng Hai, thì

03:14.470 --> 03:16.600
đó là sự kết thúc của một kỷ nguyên.

03:16.600 --> 03:20.350
Và sau đó anh ta bắt đầu lại và sau đó anh ta bắt đầu lại và sau đó anh ta bắt đầu lại và cứ tiếp tục như vậy.

03:20.350 --> 03:21.520
Vì vậy, điều đó xảy ra.

03:21.520 --> 03:26.470
Và quá trình này xảy ra mỗi khi tác nhân ở trạng thái mới.

03:26.470 --> 03:28.300
Vì vậy, trạng thái được mã hóa ở đây.

03:28.300 --> 03:29.290
Vì vậy, đó là điều quan trọng.

03:29.290 --> 03:32.950
Vì vậy, không chỉ cho mỗi trò chơi mà anh ấy chơi, mà cho mọi trạng thái.

03:32.950 --> 03:37.960
Vì vậy, anh ấy ở trong một trạng thái, nó trải qua quá trình này và cập nhật, vân vân và xảy ra mọi lúc.

03:37.960 --> 03:41.200
Và vì vậy việc học diễn ra và sau đó diễn xuất cũng diễn ra.

03:41.560 --> 03:46.930
Vì vậy, đó là học sâu trong trực giác đằng sau học sâu.

03:46.940 --> 03:49.510
Chúng tôi có rất nhiều thứ khác để che đậy.

03:49.510 --> 03:51.220
Và tất nhiên, chúng tôi có thực tế.

03:51.220 --> 03:57.580
Và trong thời gian chờ đợi, nếu bạn muốn biết thêm một số thông tin về học sâu, chúng tôi có một bài

03:58.090 --> 03:59.530
đọc được đề xuất.

03:59.530 --> 04:05.020
Vì vậy, chúng tôi đã nói về loạt bài đăng trên blog của Arthur Giuliani.

04:05.020 --> 04:12.160
Nếu bạn xem cách học tăng cường đơn giản với TensorFlow Phần bốn, bạn sẽ thấy phần có liên quan đến những gì chúng ta đã

04:12.160 --> 04:13.840
thảo luận ngày hôm nay.

04:14.140 --> 04:18.130
Lưu ý rằng ở đây anh ấy nói về sự phức tạp.

04:18.130 --> 04:20.860
Chúng tôi không đề cập đến các cuộc cách mạng trong phần này.

04:20.860 --> 04:23.500
Chúng ta sẽ nói về chúng trong phần tiếp theo của khóa học.

04:23.500 --> 04:28.810
Vì vậy, sự khác biệt ở đây là vì vậy bạn chỉ cần bỏ qua phần chập và chúng ta sẽ nói về chúng

04:28.810 --> 04:30.550
trong phần tiếp theo của khóa học.

04:30.550 --> 04:37.150
Nhưng sự khác biệt là ở sự phức tạp, bạn giống như người đại diện của bạn đang nhìn vào hình ảnh và do đó anh ta

04:37.150 --> 04:38.800
phải xử lý một hình ảnh.

04:38.800 --> 04:40.630
Vì vậy, một sự phức tạp bổ sung cho bây giờ.

04:40.630 --> 04:43.360
Chúng tôi đang từ từ, dần dần xây dựng đến điều đó.

04:43.360 --> 04:47.530
Hiện tại, chúng tôi đang mã hóa môi trường của mình thông qua.

04:47.530 --> 04:53.170
Vì vậy, nếu bạn nhìn vào đây, chúng tôi đang mã hóa môi trường của chúng tôi hoặc có thể giống như xem xét môi trường này,

04:53.170 --> 04:58.630
có thể mã hóa môi trường của chúng tôi dưới dạng một hoặc mã hóa một trạng thái mà tác nhân đang ở dưới dạng vectơ.

04:58.630 --> 04:59.920
Vì vậy, trong trường hợp của chúng tôi, có một điều rất đơn giản.

04:59.990 --> 05:05.390
Hình ảnh của hai giá trị đôi khi mọi người thậm chí trong đó đơn giản đôi khi có thể hoặc như bạn sẽ thấy từ

05:05.390 --> 05:10.100
bài đăng blog này, đôi khi mọi người thích một phiên bản nóng và được mã hóa của trạng thái đó.

05:10.100 --> 05:15.710
Vì vậy, về cơ bản, nơi mỗi hộp đơn lẻ của mê cung có một để bạn có một vectơ của một trường hợp khác sẽ

05:15.710 --> 05:17.450
là 12 giá trị ba nhân bốn.

05:17.750 --> 05:22.820
Vì vậy, nó giống như một hoặc một số không tùy thuộc vào phần tử bạn đang ở trong hộp nào, trong môi trường.

05:22.820 --> 05:29.810
Vì vậy, bất kỳ cách nào bạn quyết định mã hóa môi trường và trạng thái môi trường của bạn, đó là cách chúng tôi mã

05:29.810 --> 05:30.380
hóa nó.

05:30.380 --> 05:31.430
Vì vậy, về cơ bản nó là một vector.

05:31.460 --> 05:36.110
Chìa khóa ở đây là nó không phải là tích chập, vì vậy nó không giống như một hình ảnh và không có tích chập theo

05:36.110 --> 05:36.350
vôn.

05:36.350 --> 05:38.090
Vì vậy, phần này sẽ đến sau cho chúng tôi.

05:38.090 --> 05:43.310
Nó bắt đầu từ đây và điều đó chỉ đơn giản hóa quá trình để chúng tôi dần dần hiểu rõ hơn.

05:43.310 --> 05:48.890
Và tất nhiên, đừng quên rằng bài đăng blog này được viết bằng TensorFlow và chúng tôi đang sử dụng PyTorch trong các hướng

05:48.890 --> 05:49.760
dẫn của mình.

05:49.880 --> 05:57.620
Vì vậy, hy vọng bạn sẽ thích phần giới thiệu nhanh này về cách học sâu, đầy đủ, sâu, không phức tạp

05:57.800 --> 05:59.000
nhưng sâu sắc.

05:59.000 --> 06:02.840
Và trên ghi chú đó, tôi mong được gặp bạn lần sau.

06:02.840 --> 06:05.570
Và cho đến lúc đó, hãy tận hưởng trí tuệ nhân tạo.