Phân tích dữ liệu so với Khoa học dữ liệu

Ngày đăng: 15/05/2024

Khoa học dữ liệu (Data science) được định nghĩa là “một tập hợp các nguyên tắc cơ bản hỗ trợ và hướng dẫn việc khai thác thông tin và kiến ​​thức từ dữ liệu theo nguyên tắc”


Tốc độ dữ liệu được tạo ra và tích lũy ngày nay lớn hơn bất kỳ thời điểm nào trong lịch sử và có rất ít khả năng chậm lại. Khi các tổ chức cố gắng thu thập và phân tích dữ liệu này, sẽ có một nhu cầu rất lớn chưa được đáp ứng đối với những người lao động tri thức có kỹ năng phù hợp. Để đáp ứng nhu cầu xã hội hiện nay, các trường đại học đang phát triển các chương trình đào tạo về “Phân tích dữ liệu” và “Khoa học dữ liệu”. Bài viết sẽ trình bày một số điểm tương đồng và khác biệt giữa “Phân tích dữ liệu” và “Khoa học dữ liệu”.

  1. Khái niệm về “Phân tích dữ liệu” và “Khoa học dữ liệu”

Phân tích dữ liệu (Data Analysis) là quá trình điều tra và hiểu rõ về dữ liệu để rút ra thông tin hữu ích, từ đó đưa ra quyết định hoặc đưa ra dự đoán. Quá trình này thường bao gồm việc thu thập, xử lý, kiểm tra, và tìm hiểu về các mẫu, xu hướng hoặc mối quan hệ trong dữ liệu. Phân tích dữ liệu có thể được thực hiện thông qua nhiều phương pháp và kỹ thuật khác nhau tùy thuộc vào mục tiêu cụ thể của việc nghiên cứu hoặc quyết định. Các phương pháp phân tích dữ liệu bao gồm thống kê mô tả, thống kê suy luận, mô hình hóa dữ liệu, khai phá dữ liệu, và machine learning. Phân tích dữ liệu có thể áp dụng cho nhiều lĩnh vực như kinh doanh, khoa học dữ liệu, y tế, marketing, và nhiều lĩnh vực khác để hỗ trợ quyết định và đưa ra thông tin hữu ích.

Khoa học dữ liệu (Data science) được định nghĩa là “một tập hợp các nguyên tắc cơ bản hỗ trợ và hướng dẫn việc khai thác thông tin và kiến thức từ dữ liệu theo nguyên tắc” (Provost và Fawcett, 2013). Khoa học dữ liệu áp dụng cách tiếp cận đa ngành đối với vấn đề dữ liệu lớn: nhà khoa học dữ liệu không chỉ có kỹ năng phân tích dữ liệu mà còn có thể phát triển các thuật toán, hệ thống và ứng dụng phân tích (code/chương trình) (Dumbill et al., 2013).

Phân tích dữ liệu so với Khoa học dữ liệu

2. Quá trình phát triển của “Phân tích dữ liệu” và “Khoa học dữ liệu”

Sự phát triển của phân tích dữ liệu và khoa học dữ liệu là một quá trình phát triển mạnh được thúc đẩy bởi những tiến bộ trong công nghệ, thay đổi cảnh quan dữ liệu và nhu cầu ngày càng tăng để trích xuất những hiểu biết có ý nghĩa từ một lượng lớn thông tin. Dưới đây là tổng quan về sự phát triển trong các lĩnh vực này:

  • Những năm đầu - Phân tích và tính toán thống kê (1950 đến 1960): Nền tảng của phân tích dữ liệu được đặt ra nhờ việc áp dụng các phương pháp và tính toán thống kê. Phân tích thống kê và sử dụng máy tính để xử lý dữ liệu đã xuất hiện trong những năm đầu. Máy chủ và các máy tính ban đầu đã tạo điều kiện thuận lợi cho các tính toán thống kê cơ bản.

  • Hệ thống quản lý cơ sở dữ liệu (thập niên 1970): Sự xuất hiện của các hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) và Ngôn ngữ truy vấn có cấu trúc (SQL) cho phép lưu trữ, truy xuất và quản lý dữ liệu hiệu quả hơn.

  • Hệ thống hỗ trợ quyết định và trí tuệ kinh doanh (1980 - 1990): Các hệ thống hỗ trợ quyết định (DSS) và các công cụ thông minh kinh doanh (BI) ngày càng phổ biến. Những công cụ này cho phép các tổ chức đưa ra quyết định sáng suốt dựa trên dữ liệu và xu hướng lịch sử.

  •  Kho dữ liệu và ETL (những năm 1990 - 2000): Trọng tâm chuyển sang kho dữ liệu, bao gồm việc hợp nhất dữ liệu từ các nguồn khác nhau để truy vấn và phân tích hiệu quả. Các quy trình Trích xuất, Chuyển đổi, Tải (ETL) trở nên cần thiết để chuẩn bị dữ liệu cho phân tích.

  • Sự trỗi dậy của Dữ liệu lớn (những năm 2000): Với sự tăng trưởng theo cấp số nhân của dữ liệu, đặc biệt là dữ liệu phi cấu trúc và bán cấu trúc, khái niệm Dữ liệu lớn ngày càng nổi bật. Các công nghệ như Apache Hadoop nổi lên để xử lý việc xử lý dữ liệu quy mô lớn.

  • Sự nổi lên của khoa học dữ liệu (những năm 2010): Thuật ngữ "khoa học dữ liệu" đã trở nên phổ biến, bao gồm cách tiếp cận đa ngành kết hợp thống kê, toán học, khoa học máy tính và chuyên môn về lĩnh vực. Các nhà khoa học dữ liệu bắt đầu sử dụng phân tích nâng cao và học máy để rút ra những hiểu biết sâu sắc. 

  • Học máy và Trí tuệ nhân tạo (những năm 2010 - nay): Học máy (ML) và trí tuệ nhân tạo (AI) đã trở thành một phần không thể thiếu đối với khoa học dữ liệu. Các thuật toán và mô hình được phát triển để tự động hóa quá trình dự đoán và ra quyết định, mang đến những phân tích phức tạp và chính xác hơn.

  • Mở rộng ứng dụng khoa học dữ liệu (2010 - nay): Khoa học dữ liệu tìm thấy các ứng dụng trong nhiều ngành khác nhau, bao gồm chăm sóc sức khỏe, tài chính, tiếp thị và an ninh mạng. Phân tích thời gian thực và Internet vạn vật (IoT) đã mở rộng hơn nữa phạm vi phân tích dữ liệu.

  • Tập trung vào việc sử dụng dữ liệu có đạo đức và AI có trách nhiệm (Hiện tại): Khi tác động của phân tích dữ liệu và AI đối với xã hội ngày càng tăng, người ta tập trung cao độ vào các cân nhắc về đạo đức, quyền riêng tư dữ liệu và thực hành AI có trách nhiệm. Đảm bảo các thuật toán công bằng và không thiên vị đã trở thành một khía cạnh quan trọng của khoa học dữ liệu.

  • Những tiến bộ liên tục (Tương lai): Các lĩnh vực phân tích dữ liệu và khoa học dữ liệu tiếp tục phát triển. Những tiến bộ đang diễn ra có thể bao gồm các thuật toán cải tiến, tăng cường tự động hóa và tích hợp các công nghệ mới nổi như điện toán lượng tử. Những phát triển trong tương lai có thể bao gồm những tiến bộ trong AI có thể giải thích được, tích hợp điện toán lượng tử và tăng cường nhấn mạnh vào khả năng diễn giải và tính minh bạch trong các mô hình.

    3. Một số điểm tương đồng và khác biệt giữa “Phân tích dữ liệu” và “Khoa học dữ liệu”
  • Một số điểm tương đồng:

Phản ánh sự phát triển đã thảo luận trước đây của thống kê truyền thống sang phân tích dữ liệu và khoa học dữ liệu, cả hai loại chương trình đều nhấn mạnh vào toán học và thống kê. Đối với cả hai loại chương trình, số lượng khóa học toán và thống kê yêu cầu lớn hơn bình thường ở ngành tương ứng nơi chương trình được cung cấp. Ngoài ra, có xu hướng bao quát thêm về quản lý dữ liệu truyền thống, khai thác dữ liệu, trực quan hóa dữ liệu cũng như các kỹ thuật phân tích và lập mô hình khác.

  • Một số điểm khác biệt:

Theo Aasheim et al. (2014), các chương trình khoa học dữ liệu khác với các chương trình phân tích dữ liệu ở ít nhất hai khía cạnh liên quan đến yêu cầu khóa học truyền thống.  Đầu tiên, các chương trình khoa học dữ liệu yêu cầu các khóa học toán bổ sung - ít nhất là thông qua đại số tuyến tính, thường là sau Giải tích II và hầu hết đều yêu cầu toán rời rạc. Thứ hai, tất cả đều yêu cầu ít nhất chín giờ khóa học lập trình và ít nhất hai khóa học thống kê.

Trong các chương trình phân tích dữ liệu người ta chú trọng nhiều hơn đến việc đánh giá các công cụ và kỹ thuật, trong khi các chương trình khoa học dữ liệu có xu hướng nhấn mạnh việc triển khai các công cụ và kỹ thuật (lập trình).

Khóa học về trực quan hóa trong các chương trình phân tích dữ liệu nhấn mạnh trực quan hóa như một phương tiện giao tiếp hiệu quả, trong khi các khóa học về khoa học dữ liệu có xu hướng nhấn mạnh các loại trực quan hóa đã học và dữ liệu được sử dụng. Các khóa học khai thác dữ liệu trong các chương trình phân tích dữ liệu tập trung vào ứng dụng các kỹ thuật khai thác dữ liệu, trong khi các chương trình khoa học dữ liệu tập trung vào các thuật toán được dạy trong khóa học.


Tài liệu tham khảo

[1] Dumbill, E., Liddy, E. D., Stanton, J., Mueller, K., & Farnham, S. (2013). Educating the next generation of data scientists. Big Data1(1), 21-27.

[2] Provost, F., & Fawcett, T. (2013). Data science and its relationship to big data and data-driven decision making. Big data1(1), 51-59.

[3] Aasheim, C., Williams, S. R., Rutner, P., & Gardiner, A. (2014). Big Data Analytics and Data Science  Undergraduate Degree Programs. 2014 Annual Meeting of the Decision Sciences Institute Proceedings (DSI 2014), 1-22, Tampa, Florida

[4] Aasheim, C. L., Williams, S., Rutner, P., & Gardiner, A. (2015). Data analytics vs. data science: A study of similarities and differences in undergraduate programs based on course descriptions. Journal of Information Systems Education26(2), 103.


ThS. Nguyễn Hoàng Yến.  KCNTT


Các tin khác