Thống kê và Trí tuệ nhân tạo

Ngày đăng: 10/05/2023

Thống kê là một yếu tố cốt lõi của AI và là đối tác tự nhiên của các ngành khác trong giảng dạy, nghiên cứu và thực hành. Do đó, các khía cạnh thống kê được khuyến nghị kết hợp vào giảng dạy AI và thu hẹp khoảng cách giữa hai ngành này.

Ngày nay, AI ngày càng đóng vai trò quan trọng trong nhiều lĩnh vực của đời sống. Các tổ chức quốc tế và chính phủ quốc gia hiện đã định vị hoặc đưa ra các khung pháp lý mới cho AI. Ví dụ, vào năm 2018, chức năng đo điện tâm đồ của Apple Watch là ứng dụng AI đầu tiên được FDA chấp thuận (MedTechIntelligence 2018). Và thống kê là một lĩnh vực khoa học liên ngành, đóng một vai trò quan trọng trong cả sự hiểu biết lý thuyết và thực tiễn về AI và sự phát triển trong tương lai của nó. Vậy thống kê có những đóng góp như thế nào trong lĩnh vực trí tuệ nhân tạo liên quan đến phát triển phương pháp, lập kế hoạch và thiết kế nghiên cứu; đánh giá chất lượng dữ liệu và thu thập dữ liệu; phân biệt quan hệ nhân quả và mối liên hệ cũng như đánh giá độ không chắc chắn trong kết quả.

Giới thiệu về thống kê

Thuật ngữ thống kê có hai nghĩa [1]. Theo nghĩa thứ nhất, thống kê là những con số được ghi chép để phản ánh các hiện tượng của tự nhiên, kỹ thuật, kinh tế, xã hội, ... Chẳng hạn như số liệu ghi chép về lượng mưa, nhiệt độ, dân số, lao động, … Theo nghĩa thứ hai, thống kê là hệ thống các phương pháp thu thập và phân tích các con số về những hiện tượng nói trên để tìm hiểu bản chất và tính quy luật vốn có của nó. Chẳng hạn qua số liệu về chiều cao, đường kính, năm tuổi, độ che phủ … của một loại cây trồng, ta có thể tìm hiểu được mức độ quan hệ giữa các đại lượng, dự báo chiều cao hoặc độ che phủ của cây qua năm tuổi và đường kính của nó, … từ đó giúp người quản lý quyết định về mật độ trồng, kế hoạch chăm sóc, khai thác, … một cách hợp lý.

Hơn nữa, thống kê đóng một vai trò quan trọng trong nhiều lĩnh vực khoa học, tài chính và công nghiệp [3]. Dưới đây là một số ví dụ liên quan như:

• Dự đoán nếu một người nhập viện vì một cơn đau tim sẽ có một cơn đau tim khác. Các dự đoán sẽ dựa trên các phép đo nhân khẩu học, chế độ ăn uống và lâm sàng của bệnh nhân này.

• Dự báo giá cổ phiếu sau 6 tháng dựa trên các chỉ số hiệu suất của công ty và dữ liệu kinh tế.

• Xác định các số trong mã zip viết tay từ hình ảnh kỹ thuật số.

• Ước tính lượng glucose trong máu của bệnh nhân tiểu đường dựa trên phổ hấp thụ hồng ngoại của máu.

• Xác định các yếu tố nguy cơ ung thư tuyến tiền liệt dựa trên các biến số lâm sàng và nhân khẩu học.

Giới thiệu về Trí tuệ nhân tạo (AI)

Theo cha đẻ của Trí tuệ nhân tạo John McCarthy, đó là “"khoa học và kỹ thuật để tạo ra các máy thông minh, đặc biệt là các chương trình máy tính thông minh". Trí tuệ nhân tạo là một phương pháp cho phép máy tính, robot hoặc phần mềm điều khiển bằng máy tính suy nghĩ thông minh theo cách tương tự như con người thông minh. Trí tuệ nhân tạo được thực hiện bằng cách nghiên cứu cách não bộ con người suy nghĩ cũng như cách con người học hỏi, quyết định và làm việc trong khi cố gắng giải quyết vấn đề, sau đó sử dụng kết quả của nghiên cứu này làm cơ sở để phát triển phần mềm và hệ thống thông minh.

Lịch sử phát triển trí tuệ nhân tạo (AI)

Theo Sarah Friedrich [2], đã tóm tắt lịch sử phát triển của trí tuệ nhân tạo (AI) như sau:

Trí tuệ nhân tạo (Moor 2006; Solomonoff 1985) đã được đề cập tại hội nghị Dartmouth vào năm 1956, và các thuật toán dựa trên dữ liệu đầu tiên như Perceptron (Rosenblatt 1958), Backpropagation (Kelley 1960) và cái gọi là "Lernmatrix", một hệ thống thần kinh ban đầu (Steinbuch 1961; Hilberg 1995), đã được phát triển trong những năm 1950 và 1960. Báo cáo Lighthill năm 1973 đã đưa ra những đánh giá tiêu cực chủ yếu về nghiên cứu AI ở Anh và dẫn đến sự chấm dứt gần như hoàn toàn hỗ trợ tài chính cho nghiên cứu AI (cái gọi là Mùa đông AI đầu tiên). Năm 1987, giai đoạn phát triển dựa trên tri thức đã kết thúc với cái gọi là mùa đông AI thứ hai. Sự quan tâm và tài trợ của công chúng đối với AI bắt đầu giảm. Tuy nhiên, vào năm 1988, Judea Pearl xuất bản cuốn sách 'Lý luận xác suất trong các hệ thống thông minh' của ông, cuốn sách mà ông đã nhận được Giải thưởng Turing năm 2011 (Pearl 1988). Từ đầu những năm 1990, AI đã phát triển trở lại với những bước đột phá lớn như Support Vector Machines (Cortes và Vapnik 1995), Random Forest (Breiman 2001), Bayesian Methods (Zhu et al. 2017), Boosting and Bagging (Freund và Schapire 1997; Breiman 1996), Deep Learning (Schmidhuber 2015) và Extreme Learning Machines (Huang et al. 2006).

Những ứng dụng của trí tuệ nhân tạo (AI)

Theo Sarah Friedrich (2022) [2], AI đã đạt được những tiến bộ vượt bậc trong nhiều lĩnh vực ứng dụng khác nhau. Chúng bao gồm nhận dạng khuôn mặt tự động, nhận dạng giọng nói và dịch thuật tự động (Barrachina et al. 2009), theo dõi đối tượng trong tài liệu phim, lái xe tự động và lĩnh vực trò chơi chiến lược như cờ vua hoặc cờ vây.

+ Đặc biệt đối với các nhiệm vụ nhận dạng giọng nói cũng như phân tích văn bản và dịch thuật, các mô hình Hidden Markov từ số liệu thống kê được sử dụng và phát triển thêm với thành công lớn (Juang và Rabiner 1991; Kozielski et al. 2013) vì chúng có khả năng biểu diễn ngữ pháp.

+ Một lĩnh vực đang phát triển khác cho các ứng dụng AI là y học. Ở đây, AI được sử dụng, ví dụ, để cải thiện khả năng phát hiện bệnh sớm, chẩn đoán chính xác hơn hoặc để dự đoán các sự kiện cấp tính (Burt et al. 2018; Chen et al. 2018, Friedrich et al. 2021). Các hướng phát triển trong tương lai bao gồm y học cá nhân hóa nhằm điều chỉnh các phương pháp điều trị cho các phân nhóm bệnh nhân (tầng lớp) hoặc thậm chí cho từng bệnh nhân (Hamburg và Collins 2010; Blasiak và cộng sự 2020; Schork 2019).

Vai trò của thống kê trong trí tuệ nhân tạo

Mặc dù nhiều đóng góp của các hệ thống AI đến từ khoa học máy tính, nhưng thống kê luôn đóng một vai trò quan trọng. Các nhà thống kê đã phát triển các phương pháp học máy quan trọng như support vector machines (SVM) (Cortes and Vapnik 1995) hay Networks (Chen et al. 1991), cũng có thể được xem xét và nghiên cứu như một mô hình hồi quy phi tuyến trong thống kê. Những phát triển gần đây như Extreme Learning Machine hoặc General Learning System (Chen và Liu 2018) có mối liên hệ chặt chẽ với các phương pháp thống kê như hồi quy đa biến. Giá trị lý thuyết của các phương pháp học máy như thông qua các giới hạn tổng quát hóa (Györfi et al. 2002; Vapnik 1998), cũng đòi hỏi kiến thức đáng kể về thống kê toán học và lý thuyết xác suất.

Thống kê và Trí tuệ nhân tạo

Hơn nữa, thống kê có thể giúp thu thập và xử lý dữ liệu để sử dụng sau này trong AI. Các kỹ thuật thống kê cơ bản liên quan đến khía cạnh này bao gồm, mô hình hóa quá trình tạo dữ liệu, các giới hạn trên các bộ dữ liệu (Rubin 2008) và các thiết kế nhân tố trong các thí nghiệm. Ngoài ra, các giai đoạn phát triển xét nghiệm chẩn đoán được biết đến trong thống kê (Pepe 2003) và đóng một vai trò quan trọng trong việc xác minh (bên ngoài) dữ liệu độc lập. Ngoài ra, các phép đo thống kê về chất lượng, chẳng hạn như độ nhạy, độ đặc hiệu, đường cong ROC và hiệu chuẩn, được sử dụng trong việc đánh giá các phương pháp AI.

Cuối cùng, thống kê có thể giúp đánh giá sự không chắc chắn. Theo Bühlmann và Geer (2018) đã nói: "Lý thuyết thống kê có thể ngăn chặn gian lận dữ liệu: bạn không thể đánh bại nguyên tắc không chắc chắn." Các phương pháp thuật toán có thể được nhúng trong các mô hình thống kê. Mặc dù có thể ít linh hoạt hơn, nhưng chúng có thể định lượng tốt hơn sự không chắc chắn tiềm ẩn hoặc có thể giải thích kết quả tốt hơn bằng cách chỉ định các dự báo và khoảng tin cậy hợp lệ. Ví dụ, trong bối cảnh dự đoán chuỗi thời gian, sự kết hợp lai giữa mạng thần kinh nhân tạo (ANN) với mô hình ARIMA hoặc trong cấu trúc phân cấp cho phép giải thích tốt hơn (Aburto và Weber 2007; Wickramasuriya và cộng sự 2019). Vì vậy, thống kê có thể đóng góp vào việc định lượng sự không chắc chắn, do đó giúp cải thiện hiệu quả và khả năng giải thích của các phương pháp AI. Cuối cùng, nó cho phép phân tích chi tiết các tiêu chuẩn chất lượng cho các thuật toán AI.

Những đóng góp của thống kê trong lĩnh vực AI [2] có thể được tóm tắt như sau:

Phát triển phương pháp luận: Sự phát triển của các hệ thống AI và nền tảng lý thuyết từ nghiên cứu về khoa học máy tính và thống kê, và nhiều quy trình đã được các nhà thống kê phát triển. Những tiến bộ gần đây như Extreme Learning Machine cho thấy thống kê cũng đóng góp đáng kể vào việc thiết kế các hệ thống AI. Chẳng hạn, bằng các thuật toán học tập được cải thiện dựa trên các phương pháp ước lượng mạnh mẽ.
Lập kế hoạch và thiết kế: Thống kê có thể giúp tối ưu hóa việc thu thập hoặc chuẩn bị dữ liệu (cỡ mẫu, thiết kế lấy mẫu, trọng số, giới hạn tập dữ liệu, … để đánh giá tiếp theo bằng các phương pháp AI. Hơn nữa, các phép đo chất lượng của thống kê và các phương pháp suy luận liên quan của chúng có thể giúp đánh giá các mô hình AI. Ngoài ra, thống kê vẫn có thể được sử dụng để đánh giá, chẳng hạn bằng cách đưa ra dự đoán và so sánh độ chính xác của chúng với dữ liệu quan sát được.
Đánh giá chất lượng dữ liệu và thu thập dữ liệu: Phân tích dữ liệu khám phá cung cấp nhiều công cụ để trực quan hóa phân phối dữ liệu theo kinh nghiệm và rút ra các số liệu thích hợp, có thể được sử dụng để phát hiện sự bất thường hoặc xác định phạm vi giá trị điển hình, để sửa lỗi đầu vào, để xác định các giá trị chuẩn và gán các giá trị còn thiếu. Kết hợp với tiêu chuẩn trong lưu trữ dữ liệu, các lỗi trong quá trình đo lường có thể được phát hiện và sửa chữa ngay từ giai đoạn đầu. Với sự trợ giúp của các phương pháp thống kê dựa trên mô hình, cũng có thể điều chỉnh tham số toàn diện, ngay cả đối với các tập dữ liệu nhỏ
Phân biệt quan hệ nhân quả và các mối liên hệ: Trong thống kê, người ta đã biết các phương pháp xử lý các tác động đồng biến. Ở đây, điều quan trọng là phải phân biệt được thông tin về mặt lý thuyết giữa các mối quan hệ khác nhau mà các đồng biến có thể có đối với việc xử lý kết quả để tránh sai lệch trong ước tính các tác động nhân quả.
Đánh giá mức độ chắc chắn hoặc không chắc chắn trong kết quả: Thống kê có thể giúp kích hoạt hoặc cải thiện việc định lượng độ không chắc chắn và khả năng diễn giải của các phương pháp AI. Bằng cách áp dụng các mô hình thống kê cụ thể, bằng chứng toán học phù hợp cũng có thể được cung cấp. Ngoài ra, những hạn chế của các phương pháp có thể được khám phá thông qua các thiết kế mô phỏng (ngẫu nhiên).
Giáo dục, đào tạo nghề nâng cao và quan hệ công chúng: Thống kê là đối tác tự nhiên của các ngành khác trong giảng dạy và đào tạo. Đặc biệt là trong sự phát triển hơn nữa của phương pháp AI, thống kê có thể tăng cường trao đổi khoa học.

Kết luận:

Theo Sarah Friedrich (2022), AI đã là một lĩnh vực nghiên cứu đang phát triển trong nhiều năm và sự phát triển của nó có thể sẽ tiếp tục trong những thập kỷ tới. Các phương pháp thống kê phải được coi là một phần không thể thiếu của các hệ thống AI, từ việc xây dựng các câu hỏi nghiên cứu, phát triển thiết kế nghiên cứu, thông qua phân tích cho đến diễn giải kết quả. Thống kê là một yếu tố cốt lõi của AI và là đối tác tự nhiên của các ngành khác trong giảng dạy, nghiên cứu và thực hành. Do đó, các khía cạnh thống kê được khuyến nghị kết hợp vào giảng dạy AI và thu hẹp khoảng cách giữa hai ngành này. Điều này bắt đầu với giáo dục trường học, nơi thống kê và khoa học máy tính nên là một phần không thể thiếu của chương trình giảng dạy và tiếp tục với giáo dục đại học cũng như phát triển chuyên môn và đào tạo. Thống kê là một lĩnh vực rộng và liên ngành khoa học. Các nhà thống kê cung cấp kiến thức và kinh nghiệm trong tất cả các khía cạnh của việc đánh giá dữ liệu: bắt đầu với các câu hỏi nghiên cứu và được giải thích thông qua thiết kế và phân tích.

Tài liệu tham khảo

[1] Tai, V. V., & Loc, T. P. (2015). Xử lý số liệu thống kê. NXB Đại học Cần Thơ.

[2] Friedrich, S., Antes, G., Behr, S., Binder, H., Brannath, W., Dumpert, F., ... & Friede, T. (2022). Is there a role for statistics in artificial intell igence?. Advances in Data Analysis and Classification, 16(4), 823-846.

[3] Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.

Ths. Nguyễn Hoàng Yến_ K.CNTT