logo xDuLieu.com

Trang trướcKhái quát về Xử lý dữ liệuTrang sau

Dữ liệu

 

Một cách tổng quát, dữ liệu (data) là tập hợp các thông tin thu được từ một đối tượng hay một số đối tượng (gọi chung là đối tượng). Như vậy tùy thuộc vào đối tượng và phương pháp thu thập thông tin, dữ liệu có thể đơn giản hay phức tạp, có khối lượng ít hay nhiều, có cấu trúc hay không, được tổ chức hay không. Thí dụ dữ liệu chứa các thông tin về sông Cửu Long được trình bày trong một quyển sách vài trăm trang chứa rất nhiều thông tin rời rạc, không được tổ chức. Ngược lại dữ liệu về nhân viên trong một công ty nhỏ chứa trong một bảng tính chỉ vài kB nhưng được sắp xếp một cách thứ tự, theo một cấu trúc chặt chẽ. Trong chuyên đề này, chúng ta tập trung vào các dữ liệu được tổ chức, có cấu trúc.

Dữ liệu có cấu trúc thường gồm hai thành phần chính là các phần tử và các thuộc tính. Tuy nhiên hai thành phần này có thể có những tên gọi khác, như mẩu tin, thực thể, trường. Thí dụ dữ liệu về sản phẩm của một công ty gồm các sản phẩm (phần tử) và những thông tin liên quan đến các sản phẩm ấy (thuộc tính) như thành phần, khối lượng, thể tích, định mức nguyên liệu, định mức năng lượng, sản lượng trong tháng, lượng sản phẩm bán được trong tháng.

Thông thường, giá trị thuộc tính của những phần tử không giống nhau, vì thế ta còn gọi thuộc tính là "biến". Giữa các biến trong một dữ liệu thường có tương quan với nhau và một trong các mục tiêu của xử lý dữ liệu là tìm ra các tương quan ấy.

Dữ liệu có cấu trúc thường được trình bày dưới dạng một bảng liệt kê. Trong bảng này, mỗi dòng dành cho một phần tử, mỗi cột dành cho một biến. Dòng đầu tiên của bảng thường được dùng để ghi tên của biến (dòng tiêu đề, header). Người ta cũng thường dành một cột để "định danh" phần tử (identification, ghi tắt là ID), không có hai phần tử nào có giá trị định danh này giống nhau. Trong một số chương trình xử lý dữ liệu (như R), cột định danh này không được xem là một biến mà chỉ có chức năng là làm tên gọi cho phần tử (row.names). Điều này cần được lưu ý khi chuyển (import) bảng dữ liệu vào chương trình xử lý.


Tổng thể & Mẫu

 

Dữ liệu thu thập được có thể từ toàn bộ các phần tử của đối tượng (tổng thể) hay chỉ từ một phần của đối tượng ấy (mẫu). Trong trường hợp thứ nhất, việc xử lý thường dễ dàng hơn. Trong trường hợp thứ hai, câu hỏi thường được đặt ra là liệu kết quả có thể mở rộng, áp dụng cho toàn bộ tổng thể hay không, đặc biệt là khi mẫu chỉ là một phần nhỏ, thậm chí rất nhỏ của tổng thể.

Để kết quả xử lý cũng có hiệu lực cho tổng thể, mẫu phải có tính đại diện, phải thể hiện các nét đặc trưng của tổng thể. Thí dụ tổng thể có 48% là nam, có 32% trong độ tuổi từ 25 đến 40, thì những đặc điểm này phải có trong mẫu. Bản thân việc lấy mẫu cũng là một vấn đề được xem xét trong một số chuyên đề về xử lý số liệu. Một số kỹ thuật giúp ta nâng cao độ tin cậy của xử lý số liệu bằng cách chọn lựa mẫu thích hợp như kiểm định chéo (cross-validation) hay tự lấy mẫu lại (bootstrap).

Trong một số trường hợp, mục đích xử lý không phải là toàn bộ đối tượng mà chỉ là một phần nào đó. Thí dụ ta quan tâm đến doanh số của công ty trong dịp Tết, khi ấy, chỉ một phần của đối tượng liên quan đến mục đích này mới được đưa vào khảo sát.

Mặt khác, trong một số phương pháp xử lý dữ liệu liên quan đến lĩnh vực học máy (machine learning), dữ liệu cũng bị tách làm hai phần: một phần dùng để phân tích (training data), một phần để kiểm định, đánh giá kết quả phân tích (test data). Như vậy mỗi phần ấy của dữ liệu liên quan đến một mẫu, khi ấy ta cần biết cách chọn mẫu, chia mẫu cho phù hợp với phương pháp phân tích.


Mô hình

 

Nói chung, mô hình là sự thể hiện lại thực tế dưới dạng đơn giản hơn nhưng vẫn duy trì được bản chất, những đặc điểm cơ bản của thực tế. Mô hình chứa đựng những thông tin cốt lõi của thực tế, giúp ta nắm bắt được thực tế dễ dàng hơn. Trong nhiều trường hợp, chúng ta có thể tác động lên mô hình, tiến hành các thử nghiệm mô phỏng trên đó để rút ra những kết luận và ứng dụng vào thực tế.

Một trong các công việc quan trọng khi xử lý dữ liệu là tìm ra các mô hình. Đó có thể là các thông số đặc trưng, các phương trình tương quan, các nhóm phần tử, các mối liên hệ nào đó giữa các biến. Sau khi tìm ra, ta phải kiểm tra lại độ chính xác, tin cậy của mô hình để có thể ứng dụng nó vào thực tế.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 23/11/2018