Liên quan đến việc phân nhóm trong xử lý dữ liệu, ta thường gặp ba dạng vấn đề chính:
Trong thực tế ta còn có thể gặp các vấn đề là hỗn hợp của các dạng trên.
Trong nhiều bài toán về phân nhóm trong lĩnh vực xử lý dữ liệu, để làm cơ sở trong việc đánh giá sự giống nhau hay khác nhau giữa các phần tử hay các nhóm phần tử, ta không sử dụng các biến có sẵn trong dữ liệu mà phải tạo ra một thông số mới được gọi là chỉ tiêu phân nhóm.
Thí dụ để phân nhóm các nhà máy (cùng ngành) về lĩnh vực tiết kiệm nhiên liệu, ta không sử dụng lượng năng lượng mà nhà máy sử dụng vì quy mô các nhà máy có thể khác nhau đáng kể. Vì vậy hợp lý hơn là sử dụng "định mức tiêu hao năng lượng" là lượng năng lượng cần dùng để sản xuất một đơn vị sản phẩm.
Như vậy ta thấy chỉ tiêu phân nhóm là một đại lượng (nghĩa là có giá trị số), được tạo ra bằng cách liên kết các biến có sẵn trong dữ liệu theo một cách nào đó. Như trong trường hợp trên là tỷ số giữa năng lượng sử dụng và số sản phẩm tạo ra từ lượng năng lượng ấy.
Trong xử lý dữ liệu đa biến, chỉ tiêu phân nhóm thường được tạo ra bằng tổ hợp tuyến tính của các biến (theo nghĩa rộng). Ngoài ra trong một số trường hợp, ta phải sử dụng nhiều hơn một chỉ tiêu phân nhóm.
Một cách tổng quát, việc phân nhóm phải thỏa mãn hai yêu cầu cơ bản sau:
Sự khác biệt mà ta đề cập ở trên được thể hiện bằng khoảng cách (suy rộng), phương sai hay tổng phương sai.
Ngoài ra nếu việc phân nhóm được thực hiện có liên quan đến các chỉ tiêu phân nhóm thì các chỉ tiêu này nên có ý nghĩa thực tế, không chỉ là một công thức toán.
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R