logo xDuLieu.com

Trang trướcDữ liệu & BiếnTrang sau

Như trên đã trình bày, một trong các mục tiêu quan trọng xử lý dữ liệu là khảo sát sự thay đổi của các thuộc tính trong đối tượng khảo sát. Vì vậy biến đóng một vai trò rất quan trọng trong thống kê. Các tính chất, đặc điểm của biến quyết định một phần tiến trình xử lý dữ liệu.

Khái niệm "Dữ liệu" & "Biến"

 

Dữ liệu là tập hợp các thông tin sơ cấp, rời rạc, thô, đã được tổ chức lại theo một phương thức nào đó về một đối tượng hay một số đối tượng. Hai thành phần chính của dữ liệu là các phần tử và các thuộc tính. Mỗi phần tử thường có nhiều thuộc tính khác nhau.

Thí dụ : một sản phẩm thịt nào đó lấy ra từ dây chuyền sản xuất lúc 9 giờ 30 phút, có mầu đỏ hồng, chứa 31% protein, có pH là 6,2, Aw là 0,98, cấu trúc mềm mịn, độ chắc là 1,45 kG/m2 , được đánh giá là an toàn cho người sử dụng, khối lượng tổng cộng là 153 g, chi phí sản xuất là 12 462 đồng, thời gian bảo quản là 175 ngày, có giá trị dinh dưỡng tốt, . . .

Tùy theo mục đích của khảo sát, ta thường chỉ chọn ra một số thuộc tính để xem xét kỹ hơn như mầu, pH, cấu trúc, Aw, khối lượng, thời gian bảo quản, chi phí sản xuất. Với mỗi phần tử, mỗi thuộc tính có một giá trị xác định.

Đổi với một thuộc tính cụ thể, giá trị của các phần tử thường khác nhau. Vì thế trong nhiều trường hợp, người ta còn gọi thuộc tính là “BIẾN” (variable). Chúng ta sẽ sử dụng thuật ngữ ấy trong website này.

Tập hợp tất cả giá trị của các biến hình thành nên phần cốt lõi của DỮ LIỆU và cũng là đối tượng chủ yếu của xử lý dữ liệu.


Biến định lượng & Biến định tính

 

Tùy thuộc vào đặc điểm của giá trị mà biến có thể là định tính hay định lượng:

  • Biến là định lượng khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng số như khối lượng, chiều dài, hàm lượng protein, chi phí sản xuất.
  • Biến là định tính khi giá trị của nó không thể đo, đếm, hay tính được. Giá trị của biến loại này thường đươc xác định thông qua cảm giác của các giác quan hay qua nhận định, đánh giá của con người như mầu, chủng loại, mức độ an toàn (đạt, không đạt).

Trong một số trường hợp, sự phân biệt này chỉ mang tính tương đối và có thể có sự biến đổi qua lại. Thí dụ như:

  • Dùng thang điểm để đánh giá mức độ ưa thích một sản phẩm: chuyển từ định tính sang định lượng.
  • Dựa vào giá trị của chỉ số thể trọng BMI (Body Mass Index) để phân loại mức độ gầy hay béo của người: chuyển từ định lượng sang định tính

Trong một số trường hợp, các biến định tính được mã hóa bằng số để xử lý dữ liệu được thuận tiện hơn. Thí dụ trong ngôn ngữ R có biến kiểu "Yếu tố". Tuy nhiên ta không thể dùng các số này để thực hiện các phép tính số học thông thường.


Các kiểu dữ liệu của biến

 

Theo đề xuất của Stanley Smith Stevens năm 1946 và 1951, giá trị của các dữ liệu trong thống kê thuộc về bốn kiểu sau:

  • Kiểu “định danh” (nominal hay categorical) : các phần tử được xếp vào một số nhóm, các phần tử trong một nhóm có cùng tính chất khảo sát (cùng giá trị của biến tương ứng) và giá trị này do con người gán cho nó. Như vậy giá trị chỉ cho ta biết phần tử thuộc nhóm hay loại nào. Thí dụ: mầu: xanh, đỏ, vàng; mức độ an toàn: đạt, không đạt; vật liệu: thép, thủy tinh, nhựa; chất làm sệt: agar-agar, carrageenan, CMC, alginate. Để thuận tiện các giá trị này có thể được mã hóa (Thí dụ: Xanh: 1; Đỏ: 2; Vàng: 3). Cần lưu ý là khi sử dụng số để mã hóa, ta không thể thực hiện các phép tính toán thông thường trên các giá trị đó.
  • Kiểu “có thứ tự” (ordinal) : Ta có thể sắp xếp các giá trị theo một thứ tự nào đấy. Thí dụ như kết quả của đánh giá cảm quan trong phương pháp so hàng: rất thích, khá thích, thích, . . .; thứ bậc trong lớp của học sinh. Tuy vậy sự khác biệt giữa các giá trị khó xác định, hiệu số giữa hai giá trị (nếu có) không có ý nghĩa.
  • Kiểu “có hiệu số” (interval) : Thuộc loại định lượng, giá trị được biểu diễn bằng số. Tuy vậy tỷ số giữa hai số đo của một đại lượng kiểu này không có ý nghĩa mà chỉ hiệu số của chúng mới có ý nghĩa mà thôi. Thí dụ nhiệt độ bách phân; sự chia độ của thang đo căn cứ vào độ chênh lệch (hay “hiệu số”) của hai điểm: điểm sôi (lấy là 100°C) và điểm đông đặc của nước (lấy là 0°C). Ngoài ra, giá trị “0” chỉ mang tính quy ước. Ta chỉ có thể thực hiện được một số phép tính nhất định cho các giá trị kiểu này.
  • Kiểu “có tỷ số” (rational) : Rất nhiều đại lượng dùng trong khoa học tự nhiên, kỹ thuật, kinh tế, ... thuộc nhóm này như khối lượng, khoảng cách, thời gian, năng lượng, chi phí sản xuất, sản lượng. Tên của kiểu dựa vào nguyên tắc đo: chiều dài một vật có số đo là tỷ số giữa chiều dài vật đó và chiều dài của một vật lấy làm chuẩn. Mặt khác, tỷ số giữa hai đại lượng này có ý nghĩa rõ ràng, dùng để so sánh. Ngoài ra giá trị “0” trong thang đo có ý nghĩa rõ ràng. Ta có thể thực hiện hầu như bất kỳ phép tính đại số, giải tích nào cho giá trị kiểu này.

Biến rời rạc & Biến liên tục

 

Khi biến chỉ có thể lấy một số hữu hạn (hay vô hạn đếm được) các giá trị thì biến được gọi là rời rạc. Thí dụ: số sản phẩm sản xuất trong một ca.

Ngược lại, nếu biến có thể lấy vô số giá trị trong các khoảng đã định thì biến được gọi là liên tục. Thí dụ: trọng lượng của một sản phẩm.

Ta cũng nên lưu ý thêm các trường hợp thực tế sau:

  • Do giới hạn bởi độ chính xác của dụng cụ đo nên số lượng giá trị của biến liên tục cũng có giới hạn. Trong trường hợp này biến liên tục bị rời rạc hóa (discretization).
  • Cũng có khi một số lượng đáng kể các phần tử của biến có giá trị thay đổi trong một khoảng rộng và khoảng cách giữa các phần tử có giá trị gần nhau lại bé hơn nhiều so với khoảng này (Thí dụ: thu nhập của một cá nhân). Trong một số trường hợp ta có thể xem biến này là liên tục để kháo sát cho thuận tiện.


Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018