Trong phần này, chúng ta sẽ làm quen với một số khái niệm cơ bản thường được dùng trong dữ liệu đa biến. Việc nắm vững các khái niệm này giúp chúng ta nắm bắt các nội dung, các phương pháp dễ dàng hơn, tốt hơn.
Một cách khái quát, dữ liệu là tập hợp các thông tin về một đối tượng hay một số đối tượng. Các thông tin này có thể được tổ chức, sắp xếp theo một phương thức nào đó (dữ liệu có cấu trúc) hay không (dữ liệu phi cấu trúc). Trong chuyên đề này, chúng ta chỉ xem xét các dữ liệu có cấu trúc.
Hai thành phần chính của các dữ liệu có cấu trúc là phần tử và thuộc tính. Mỗi phần tử thường có một số thuộc tính.
Thí dụ : Dữ liệu về các nhà phân phối của một công ty có thể gồm các thông tin sau: tên nhà phân phối, tên người phụ trách, địa chỉ, khu vực, doanh số trong năm 2015 của các sản phẩm A, B, ... , tỷ lệ hoa hồng của các sản phẩm A, B, ... , mức độ gắn kết, ...
Thông thường giá trị một thuộc tính nào đó của các phần tử không giống nhau. Vì thế ta còn gọi thuộc tính là "biến".
Dữ liệu có cấu trúc thường được trình bày dưới dạng một bảng liệt kê. Trong bảng này, mỗi dòng dành cho một phần tử, mỗi cột dành cho một biến. Dòng đầu tiên của bảng thường được dùng để ghi tên của biến (dòng tiêu đề, header). Người ta cũng thường dành một cột để "định danh" phần tử (identification, ghi tắt là ID), không có hai phần tử nào có giá trị của biến định danh này giống nhau.
Đối với các dữ liệu trong xử lý đa biến, giữa một số biến có mối tương quan nào đó với nhau. Điều này làm quá trình xử lý phức tạp hơn một cách đáng kể.
Như đã đề cập ở trên, biến là tên khác của thuộc tính, dùng để ghi nhận giá trị của thuộc tính. Tùy theo các đặc điểm về giá trị, ta có thể phân loại biến theo một số cách khác nhau.
Trong một số trường hợp ta có thể chuyển đổi giữa hai loại này với nhau: sử dụng thang điểm để đánh giá mức độ gắn kết (chuyển từ định tính sang định lượng), phân loại khách hàng theo doanh số (chuyển từ định lượng sang định tính).
Theo đề xuất của Stevens (1946 và 1951), giá trị của dữ liệu thuộc 4 kiểu sau:
Tuy nhiên, ta cũng nên lưu ý thêm các trường hợp thường gặp sau trong thực tế:
Trong xử lý đa biến, ý nghĩa của biến độc lập và biến phụ thuộc có một vài điểm khác biệt so với một số lĩnh vực khác của thống kê (như thiết kế thí nghiệm).
Như vậy tính độc lập hay phụ thuộc của biến chỉ có tính tương đối, tùy theo vai trò của nó trong quá trình xử lý dữ liệu. Biến có thể là độc lập trong trường hợp này, nhưng lại là phụ thuộc trong trường hợp khác.
Thí dụ : Mức độ gắn kết của khách hàng là biến độc lập khi ta phân tích ảnh hưởng của các yếu tố đến doanh số mua hàng của khách hàng; nhưng nó lại là biến phụ thuộc khi ta muốn phân loại khách hàng theo mức độ gắn kết.
Thường ta nhận được dữ liệu ở dạng bảng liệt kê, trong đó giá trị của các biến thu được từ thực tế, ở dạng nguyên thể. Trong một số trường hợp việc xử lý biến ở dạng nguyên thể làm kết quả xử lý không thể hiện đúng thực chất. Đặc biệt khi giá trị (bằng số) của các biến có sự khác biệt đáng kể. Khi ấy ta cần biến đổi để biến có giá trị phù hợp với việc xử lý. Ta có thể sử dụng các cách biến đổi sau:
`tilde x_i=x_i-bar x ` | (1) |
`z_i=(x_i-bar x)/s` | (2) |
Ghi chú : Nếu dữ liệu ta thu được là toàn bộ một tổng thể, thì trong các công thức (1) và (2), ta thay `bar x` bằng `mu` là trung bình của tổng thể, `s` bằng `sigma` là độ lệch chuẩn của tổng thể.
Thông thường, quá trình xử lý dữ liệu sẽ dễ dàng hơn nếu biến có giá trị số. Thậm chí, một số phương pháp như hồi quy không thể xử lý các dữ liệu phi số. Trong một số trường hợp, để đáp ứng yêu cầu của phương pháp xử lý, ta phải chuyển đổi từ các biến có giá trị không phải là số (gọi tắt là biến phi số) thành các biến, được gọi là biến nộm (dummy variable), có giá trị số (phương pháp này còn gọi là mã hóa).
Lấy thí dụ một cửa hàng C muốn thực hiện một phân tích hồi quy để xác định doanh số mua hàng của khách hàng dựa vào ba biến là tuổi, thu nhập và mức độ gắn kết. Hai biến tuổi và thu nhập có giá trị số và mức độ gắn kết là một biến định tính có 3 giá trị là Cao, Trung bình và Thấp. Nếu ta sử dụng biến mức độ gắn kết ở dạng nguyên thể, ta không thể tính hồi quy được. Vì thế ta có thể làm như sau:
Như vậy bảng dữ liệu có thêm hai cột mới tương ứng với hai biến nộm mới. Khi phân tích hồi quy, ta xác định doanh số dựa vào các biến tuổi, thu nhập, GK_Cao và GK_TB và ta có kết quả mong muốn.
Qua thí dụ trên, ta thấy biến nộm có các đặc điểm sau:
Để tạo ra biến nộm, ta có hai phương pháp mã hóa chính:
Tuy nhiên, kết quả xử lý dữ liệu của hai phương pháp mã hóa đều như nhau.
Ghi chú
Đối với biến định tính, biến định danh hay biến có thứ tự, chúng tôi sử dụng thuật ngữ "mức" (level) thay cho thuật ngữ "giá trị" trong một số trường hợp. Điều này sẽ làm việc trình bày rõ ràng hơn, không bị lẫn lộn và bạn dễ nắm bắt nội dung hơn.
Một số phương pháp xử lý đa biến được sử dụng rộng rãi trong lĩnh vực học máy (machine learning). Vì thế ta xem xét qua một số khái niệm có liên quan đến lĩnh vực này.
Theo Arthur Samuel, một trong những người đi tiên phong trong lĩnh vực này, thì học máy là quá trình học tự động của máy tính thông qua việc xử lý dữ liệu mà không cần phải lập trình sẵn. Như vậy một trong những công việc chính trong học máy là xử lý dữ liệu.
Người ta chia các phương pháp học máy làm hai nhóm chính:
Để thực hiện một quá trình học máy ta cần hai bộ dữ liệu, một dùng để phân tích, rút ra các kết quả (training data), một dùng để kiểm định lại các kết quả ấy (test data). Hai bộ dữ liệu này thường là hai phần của bộ dữ liệu ban đầu, được tách riêng ra một cách ngẫu nhiên hoặc theo một quy luật hay phương pháp nào đó.
Mô hình
Trong xử lý dữ liệu, mô hình (model) là những thông tin cốt lõi dùng để thể hiện bản chất của sự vật hay hiện tượng. Một trong những dạng khá phổ biến là mô hình toán, trong đó mối quan hệ giữa các đại lượng được thể hiện dưới dạng các phương trình hay công thức toán học.
Thông thường, một trong những kết quả quan trọng nhất của xử lý dữ liệu là mô hình.
Tuy nhiên, ta cũng cần lưu ý là mô hình chỉ cố gắng phản ảnh thực tế nên trong đại đa số trường hợp, sự phản ảnh chỉ là gần đúng. Về điểm này, Box (1987) đã có một phát biểu rất nổi tiếng như sau: "Essentially, all models are wrong, but some are useful", tạm dịch là "Thực chất, tất cả mô hình đều sai, nhưng một số lại hữu dụng". Vì vậy, trong thống kê, có một công thức diễn tả điều này như sau:
Data = Model + Residual(3)
tạm dịch là :
Dữ liệu = Mô hình + Phần dư(3)
Likelihood
Đây là một khái niệm tương đối trừu tượng nên chúng ta sẽ xem xét hơi dài dòng một chút.
Ta bỏ vào một bình 7 viên bi xanh và 3 viên bi đỏ và cả 10 viên này đều có chất liệu như nhau, đều là hình cầu, có kích thước và khối lượng như nhau. Ta lẫy ngẫu nhiên có hoàn lại 5 viên bi. Xác suất để có 3 viên mầu xanh là bao nhiêu? Theo phân phối nhị thức, ta có:
`P(X=3)=(5!)/(3!xx(5-3)!)xx(0,7)^3xx(1-0,7)^(5-3)=0,1323`(5)
Như vậy, ta chỉ có thể sử dụng công thức (5) khi đã có các thông tin về các viên bi trong bình: 7 viên xanh, 3 viên đỏ, các viên đồng chất, ... nói cách khác ta biết "mô hình" của các viên bi trong bình và thông số quan trọng nhất của mô hình này trong trường hợp chúng ta đang khảo sát là `p=0,7`. Ta ký hiệu mô hình này là M.
Như vậy, nếu trình bày một cách chặt chẽ thì xác suất để 3 viên bi có mầu xanh trong số 5 viên bi lấy ra trong điều kiện ta đã biết mô hình M là 0,1323. Như vậy khi trình bày một cách chặt chẽ, ta viết lại công thức (5) như sau:
`P(X=3 | M)=P(X=3 | p=0,7)=0,1323`(6)
Bây giờ có hai hộp bi A và B, trong hai hộp là các viên bi đồng chất có hai màu xanh và đỏ. Ta biết tỷ lệ các viên bi xanh trong hộp A là 50% và hộp B là 70%. Ta lấy ngẫu nhiên một hộp, từ hộp ấy lấy ngẫu nhiên có hoàn lại 5 viên và trong 5 viên đó, có 3 viên bi xanh. Vậy trong hai hộp A và B, ta đã dùng hộp nào để thử nghiệm ?
Như vậy ta có hai mô hình, mô hình thứ nhất có `p_A=0,5`; mô hình thứ hai có `p_B=0,7`; số viên bi xanh là `X=3`. Vậy kết quả thực tế phù hợp với mô hình nào hơn ?
Để đánh giá khả năng phù hợp của mô hình, đặc trưng bằng thông số `theta`, với số liệu thực tế `X`, người ta sử dụng một hàm số gọi tên là "likelihood", tạm dịch là "khả hợp", ký hiệu là `L(theta | X)` hay `L(theta, X)`. Hàm này có thể lấy một số giá trị khác nhau tùy theo định nghĩa nhưng luôn tỷ lệ với `P(X | theta)` và có quan hệ nhất định với đại lượng này. Như trong thí dụ trên, dựa vào công thức của phân phối nhị thức, ta có thể định nghĩa:
`L(p|x)=p^x (1-p)^(n-x)` | (7) |
Theo thí dụ trên, hộp A có khả hợp `L_A` là :
`L(p_A|3)=0.5^3 (1-0.5)^(5-3)=0,3125`
Và hộp B có khả hợp LB là :
`L(p_B|3)=0,7^3 (1-0,7)^(5-3)=0,03087`
Vì `L_A>L_B` nên khả năng dùng hộp A để thử nghiệm cao hơn dùng hộp B.
Nếu ban đầu ta có thêm một hộp bi C và tỷ lệ các viên bi xanh trong hộp này là 60%. Khi ấy khả hợp `L_C` của hộp này là:
`L(p_C|3)=0,6^3 (1-0,6)^(5-3)=0,.03456`
Trong trường hợp này, khả năng sử dụng hộp C để thử nghiệm là cao nhất.
Khả hợp có nhiều ứng dụng trong việc tính toán mô hình, chọn lựa mô hình, đánh giá mô hình.
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R