Toán cho học máy

Ngày đăng: 29/02/2024

Học máy - Machine Learning là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể.

Khi học máy trở nên phổ biến hơn và các gói phần mềm có sẵn để thiết kế cũng như đào tạo các hệ thống học máy phong phú, linh hoạt. Và toán học đóng một vai trò quan trọng trong lĩnh vực học máy để hiểu các nguyên tắc cơ bản mà các hệ thống học máy phức tạp hơn được xây dựng. Việc hiểu những nguyên tắc này có thể tạo điều kiện thuận lợi cho việc tạo ra các giải pháp máy học mới, hiểu và gỡ lỗi các phương pháp tiếp cận hiện có cũng như tìm hiểu về các giả định và hạn chế vốn có của các phương pháp mà chúng ta đang làm việc.

Dưới đây là một số điểm quan trọng của toán học để giải quyết bốn vấn đề cốt lõi của học máy: hồi quy, giảm kích thước , ước tính mật độ và phân lớp.

Đại số tuyến tính.

Toán cho học máy

Đại số tuyến tính đóng một vai trò quan trọng trong học máy và toán học nói chung. Các phép toán như nhân ma trận, giải hệ phương trình tuyến tính đều xuất hiện trong quá trình huấn luyện và dự đoán. Lý thuyết về không gian véc-tơ đặc biệt là phép chiếu dùng để giảm kích thước dữ liệu bằng phân tích thành phần chính (principal component analysis - PCA). Các mô hình hồi quy tuyến tính, trong đó đại số tuyến tính đóng vai trò trung tâm để giải các bài toán bình phương tối thiểu. Các ánh xạ tuyến tính, ánh xạ affine dùng để giải quyết bài toán phân lớp.

Xác suất và phân phối xác suất

Chúng ta thường định lượng độ không chắc chắn trong dữ liệu, độ không chắc chắn trong mô hình học máy và độ không chắc chắn trong các dự đoán do mô hình tạo ra. Việc định lượng độ không chắc chắn đòi hỏi ý tưởng về một biến ngẫu nhiên, là một hàm ánh xạ kết quả của các thử nghiệm ngẫu nhiên tới một tập hợp các thuộc tính mà chúng ta quan tâm. Liên kết với biến ngẫu nhiên là một hàm đo xác suất mà một kết quả (hoặc tập hợp) cụ thể sẽ xảy ra; đây được gọi là phân bố xác suất. Thuật ngữ như entropy, KL divergence, và phân phối xác suất thường xuyên xuất hiện trong học máy.

Giải tích và Tối ưu hóa.

Các thuật toán học máy được thực hiện trên máy tính nên các công thức toán học được thể hiện dưới dạng phương pháp tối ưu hóa số. Các phương pháp số cơ bản để huấn luyện các mô hình học máy. Việc đào tạo một mô hình học máy thường tập trung vào việc tìm ra một bộ tham số phù hợp. Với một hàm mục tiêu, việc tìm giá trị tốt nhất được thực hiện bằng thuật toán tối ưu hóa. Giải tích và tối ưu hóa được sử dụng để điều chỉnh các tham số của mô hình sao cho mô hình đạt được hiệu suất tốt nhất.

Đại số Bool và Logic.

Đại số Bool và logic đóng một vai trò quan trọng trong xây dựng mô hình học máy, đặc biệt là trong phân lớp và quyết định.

Tóm lại, toán học không chỉ là một công cụ hỗ trợ trong học máy mà còn là cơ sở lý thuyết, giúp hiểu rõ về cơ chế hoạt động của các mô hình, tạo ra các phương pháp hiệu quả, và đảm bảo tính độ tin cậy của các kết quả dự đoán. Sự kết hợp giữa toán học và học máy chính là yếu tố quyết định trong sự thành công của nhiều ứng dụng học máy hiện đại.

Nguồn bài viết:

https://www.google.com.vn/books/edition/Mathematics_for_Machine_Learning/pFjPDwAAQBAJ?hl=vi&gbpv=1&dq=MATHEMATICS+FOR+MACHINE+LEARNING&printsec=frontcover

BM Khoa học cơ bản- K CNTT