Như trên đã trình bày, một trong các mục tiêu quan trọng xử lý dữ liệu là khảo sát sự thay đổi của các thuộc tính trong đối tượng khảo sát. Vì vậy biến đóng một vai trò rất quan trọng trong thống kê. Các tính chất, đặc điểm của biến quyết định một phần tiến trình xử lý dữ liệu.
Dữ liệu là tập hợp các thông tin sơ cấp, rời rạc, thô, đã được tổ chức lại theo một phương thức nào đó về một đối tượng hay một số đối tượng. Hai thành phần chính của dữ liệu là các phần tử và các thuộc tính. Mỗi phần tử thường có nhiều thuộc tính khác nhau.
Thí dụ : một sản phẩm thịt nào đó lấy ra từ dây chuyền sản xuất lúc 9 giờ 30 phút, có mầu đỏ hồng, chứa 31% protein, có pH là 6,2, Aw là 0,98, cấu trúc mềm mịn, độ chắc là 1,45 kG/m2 , được đánh giá là an toàn cho người sử dụng, khối lượng tổng cộng là 153 g, chi phí sản xuất là 12 462 đồng, thời gian bảo quản là 175 ngày, có giá trị dinh dưỡng tốt, . . .
Tùy theo mục đích của khảo sát, ta thường chỉ chọn ra một số thuộc tính để xem xét kỹ hơn như mầu, pH, cấu trúc, Aw, khối lượng, thời gian bảo quản, chi phí sản xuất. Với mỗi phần tử, mỗi thuộc tính có một giá trị xác định.
Đổi với một thuộc tính cụ thể, giá trị của các phần tử thường khác nhau. Vì thế trong nhiều trường hợp, người ta còn gọi thuộc tính là “BIẾN” (variable). Chúng ta sẽ sử dụng thuật ngữ ấy trong website này.
Tập hợp tất cả giá trị của các biến hình thành nên phần cốt lõi của DỮ LIỆU và cũng là đối tượng chủ yếu của xử lý dữ liệu.
Tùy thuộc vào đặc điểm của giá trị mà biến có thể là định tính hay định lượng:
Trong một số trường hợp, sự phân biệt này chỉ mang tính tương đối và có thể có sự biến đổi qua lại. Thí dụ như:
Trong một số trường hợp, các biến định tính được mã hóa bằng số để xử lý dữ liệu được thuận tiện hơn. Thí dụ trong ngôn ngữ R có biến kiểu "Yếu tố". Tuy nhiên ta không thể dùng các số này để thực hiện các phép tính số học thông thường.
Theo đề xuất của Stanley Smith Stevens năm 1946 và 1951, giá trị của các dữ liệu trong thống kê thuộc về bốn kiểu sau:
Khi biến chỉ có thể lấy một số hữu hạn (hay vô hạn đếm được) các giá trị thì biến được gọi là rời rạc. Thí dụ: số sản phẩm sản xuất trong một ca.
Ngược lại, nếu biến có thể lấy vô số giá trị trong các khoảng đã định thì biến được gọi là liên tục. Thí dụ: trọng lượng của một sản phẩm.
Ta cũng nên lưu ý thêm các trường hợp thực tế sau:
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R