Khái quát về phân nhóm

Các dạng vấn đề phân nhóm

Liên quan đến việc phân nhóm trong xử lý dữ liệu, ta thường gặp ba dạng vấn đề chính:

Các nhóm đã được hình thành sẵn. Sự phân nhóm thể hiện bằng một biến, thường ở dạng định danh (chẳng hạn như giới tính). Khi ấy vấn đề đặt ra là ta cần tìm một hay một số chỉ tiêu để thể hiện sự khác biệt giữa các nhóm. Các chỉ tiêu này thường thể hiện ở dạng hàm có tương quan với các biến có sẵn trong dữ liệu. Thí dụ tìm sự khác biệt giữa người mắc bệnh (dạng tiềm ẩn) và người bình thường.
Các nhóm đã được hình thành sẵn và vấn đề là ta xếp một phần tử nào đó vào một trong các nhóm ấy. Chỉ tiêu dùng để phân nhóm có thể đã có hay vẫn chưa có. Thí dụ ứng viên V có thể là nhà quản lý hiệu quả hay không?
Phân nhóm các phần tử. Vấn đề là ta phải tìm một số điểm tương đồng cũng như đặc thù của các phần từ và sau đó phân nhóm các phần tử dựa vào các điểm tương đồng và các điểm đặc thù ấy. Thí dụ như phân nhóm 10000 khách hàng thân thiết của siêu thị S.

Trong thực tế ta còn có thể gặp các vấn đề là hỗn hợp của các dạng trên.

Các chỉ tiêu phân nhóm

Trong nhiều bài toán về phân nhóm trong lĩnh vực xử lý dữ liệu, để làm cơ sở trong việc đánh giá sự giống nhau hay khác nhau giữa các phần tử hay các nhóm phần tử, ta không sử dụng các biến có sẵn trong dữ liệu mà phải tạo ra một thông số mới được gọi là chỉ tiêu phân nhóm.

Thí dụ để phân nhóm các nhà máy (cùng ngành) về lĩnh vực tiết kiệm nhiên liệu, ta không sử dụng lượng năng lượng mà nhà máy sử dụng vì quy mô các nhà máy có thể khác nhau đáng kể. Vì vậy hợp lý hơn là sử dụng "định mức tiêu hao năng lượng" là lượng năng lượng cần dùng để sản xuất một đơn vị sản phẩm.

Như vậy ta thấy chỉ tiêu phân nhóm là một đại lượng (nghĩa là có giá trị số), được tạo ra bằng cách liên kết các biến có sẵn trong dữ liệu theo một cách nào đó. Như trong trường hợp trên là tỷ số giữa năng lượng sử dụng và số sản phẩm tạo ra từ lượng năng lượng ấy.

Trong xử lý dữ liệu đa biến, chỉ tiêu phân nhóm thường được tạo ra bằng tổ hợp tuyến tính của các biến (theo nghĩa rộng). Ngoài ra trong một số trường hợp, ta phải sử dụng nhiều hơn một chỉ tiêu phân nhóm.

Các yêu cầu trong phân nhóm

Một cách tổng quát, việc phân nhóm phải thỏa mãn hai yêu cầu cơ bản sau:

sự khác biệt giữa các phần tử trong cùng một nhóm phải nhỏ,
sự khác biệt giữa các nhóm phải lớn.

Sự khác biệt mà ta đề cập ở trên được thể hiện bằng khoảng cách (suy rộng), phương sai hay tổng phương sai.

Ngoài ra nếu việc phân nhóm được thực hiện có liên quan đến các chỉ tiêu phân nhóm thì các chỉ tiêu này nên có ý nghĩa thực tế, không chỉ là một công thức toán.

Trang web này được cập nhật lần cuối ngày 26/11/2018

Dữ liệu đa biến

Sơ đồ site