Một số khái niệm cơ bản trong dữ liệu đa biến

Trong phần này, chúng ta sẽ làm quen với một số khái niệm cơ bản thường được dùng trong dữ liệu đa biến. Việc nắm vững các khái niệm này giúp chúng ta nắm bắt các nội dung, các phương pháp dễ dàng hơn, tốt hơn.

Dữ liệu đa biến

Một cách khái quát, dữ liệu là tập hợp các thông tin về một đối tượng hay một số đối tượng. Các thông tin này có thể được tổ chức, sắp xếp theo một phương thức nào đó (dữ liệu có cấu trúc) hay không (dữ liệu phi cấu trúc). Trong chuyên đề này, chúng ta chỉ xem xét các dữ liệu có cấu trúc.

Hai thành phần chính của các dữ liệu có cấu trúc là phần tử và thuộc tính. Mỗi phần tử thường có một số thuộc tính.

Thí dụ : Dữ liệu về các nhà phân phối của một công ty có thể gồm các thông tin sau: tên nhà phân phối, tên người phụ trách, địa chỉ, khu vực, doanh số trong năm 2015 của các sản phẩm A, B, ... , tỷ lệ hoa hồng của các sản phẩm A, B, ... , mức độ gắn kết, ...

Thông thường giá trị một thuộc tính nào đó của các phần tử không giống nhau. Vì thế ta còn gọi thuộc tính là "biến".

Dữ liệu có cấu trúc thường được trình bày dưới dạng một bảng liệt kê. Trong bảng này, mỗi dòng dành cho một phần tử, mỗi cột dành cho một biến. Dòng đầu tiên của bảng thường được dùng để ghi tên của biến (dòng tiêu đề, header). Người ta cũng thường dành một cột để "định danh" phần tử (identification, ghi tắt là ID), không có hai phần tử nào có giá trị của biến định danh này giống nhau.

Đối với các dữ liệu trong xử lý đa biến, giữa một số biến có mối tương quan nào đó với nhau. Điều này làm quá trình xử lý phức tạp hơn một cách đáng kể.

Biến

Như đã đề cập ở trên, biến là tên khác của thuộc tính, dùng để ghi nhận giá trị của thuộc tính. Tùy theo các đặc điểm về giá trị, ta có thể phân loại biến theo một số cách khác nhau.

Biến định lượng & Biến định tính

Biến là định lượng khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng số như sản lượng, năng suất, giá thành, chi phí năng lượng, định mức, thu nhập.
Biến là định tính khi giá trị của nó không thể đo, đếm, hay tính được. Giá trị của biến loại này thường đươc xác định thông qua cảm giác của các giác quan hay qua nhận định, đánh giá của con người dựa trên kinh nghiệm và/hay các chuẩn mực nào đó như mầu, giới tính, trình độ học vấn, mức độ gắn kết.

Trong một số trường hợp ta có thể chuyển đổi giữa hai loại này với nhau: sử dụng thang điểm để đánh giá mức độ gắn kết (chuyển từ định tính sang định lượng), phân loại khách hàng theo doanh số (chuyển từ định lượng sang định tính).

Các kiểu dữ liệu của biến

Theo đề xuất của Stevens (1946 và 1951), giá trị của dữ liệu thuộc 4 kiểu sau:

Kiểu “định danh” (nominal hay categorical) : các phần tử được xếp vào một số nhóm, các phần tử trong một nhóm có cùng tính chất khảo sát (cùng giá trị của biến tương ứng) và giá trị này do con người gán cho nó. Như vậy giá trị cho ta biết phần tử thuộc nhóm hay loại nào. Thí dụ: mầu: trắng xanh, vàng, đỏ, ... ; khu vực: Tây Nguyên, đồng bằng sông Cửu Long, vùng duyên hải ; vật liệu: thép, thủy tinh, nhựa. Trong kiểu này có kiểu đặc biệt là nhị phân (binary) trong đó chỉ có hai giá trị.
Kiểu “có thứ tự” (ordinal) : Ta có thể sắp xếp các giá trị theo một thứ tự nào đấy. Thí dụ như kết quả của đánh giá thị hiếu: rất thích, khá thích, thích, ... ; mức độ gắn kết của khách hàng: cao, trung bình, thấp; thứ bậc trong lớp của học sinh. Tuy vậy sự khác biệt giữa các giá trị khó xác định, hiệu số giữa hai giá trị (nếu có) không có ý nghĩa.
Kiểu “có hiệu số” (interval) : Thuộc loại định lượng, giá trị được biểu diễn bằng số. Tuy vậy tỷ số giữa hai số đo của một đại lượng kiểu này không có ý nghĩa mà chỉ hiệu số của chúng mới có ý nghĩa mà thôi. Thí dụ nhiệt độ bách phân ; sự chia độ của thang đo căn cứ vào độ chênh lệch (hay “hiệu số”) của hai điểm: điểm sôi (lấy là 100 °C) và điểm đông đặc của nước (lấy là 0 °C). Ngoài ra, giá trị “0” chỉ mang tính quy ước. Ta chỉ có thể thực hiện được một số phép tính nhất định cho các giá trị kiểu này.
Kiểu “có tỷ số” (rational) : Rất nhiều đại lượng dùng trong khoa học tự nhiên, kỹ thuật, kinh tế, ... thuộc nhóm này như khối lượng, khoảng cách, thời gian, năng lượng, chi phí sản xuất, sản lượng. Tỷ số giữa hai đại lượng này có ý nghĩa rõ ràng, có thể được dùng để so sánh. Ngoài ra giá trị “0” trong thang đo cũng có ý nghĩa rõ ràng. Ta có thể thực hiện hầu như bất kỳ phép tính đại số, giải tích nào cho giá trị kiểu này.

Biến rời rạc & Biến liên tục

Khi biến chỉ có thể lấy một số hữu hạn (hay vô hạn đếm được) các giá trị thì biến được gọi là rời rạc. Thí dụ: số sản phẩm bán được trong một tháng.
Ngược lại, nếu biến có thể lấy vô số giá trị (không đếm được) trong các khoảng đã định thì biến được gọi là liên tục. Thí dụ: trọng lượng của một sản phẩm.

Tuy nhiên, ta cũng nên lưu ý thêm các trường hợp thường gặp sau trong thực tế:

Do giới hạn bởi độ chính xác của dụng cụ đo nên số lượng giá trị của biến liên tục cũng có giới hạn. Trong trường hợp này biến liên tục bị rời rạc hóa (discretization).
Cũng có khi một số lượng đáng kể các phần tử của biến có giá trị thay đổi trong một khoảng rộng và khoảng cách giữa các phần tử có giá trị gần nhau lại bé hơn nhiều so với khoảng này (Thí dụ: thu nhập của một cá nhân). Trong nhiều trường hợp ta có thể xem các biến có đặc tính này là liên tục để kháo sát cho thuận tiện.

Biến độc lập & Biến phụ thuộc

Trong xử lý đa biến, ý nghĩa của biến độc lập và biến phụ thuộc có một vài điểm khác biệt so với một số lĩnh vực khác của thống kê (như thiết kế thí nghiệm).

Biến là phụ thuộc khi ta xem như giá trị của nó thay đổi phụ thuộc vào sự thay đổi của các biến khác (biến độc lập).
Biến là độc lập khi ta xem nó như là nguyên nhân của sự thay đổi giá trị biến phụ thuộc.

Như vậy tính độc lập hay phụ thuộc của biến chỉ có tính tương đối, tùy theo vai trò của nó trong quá trình xử lý dữ liệu. Biến có thể là độc lập trong trường hợp này, nhưng lại là phụ thuộc trong trường hợp khác.

Thí dụ : Mức độ gắn kết của khách hàng là biến độc lập khi ta phân tích ảnh hưởng của các yếu tố đến doanh số mua hàng của khách hàng; nhưng nó lại là biến phụ thuộc khi ta muốn phân loại khách hàng theo mức độ gắn kết.

Biến đổi biến

Thường ta nhận được dữ liệu ở dạng bảng liệt kê, trong đó giá trị của các biến thu được từ thực tế, ở dạng nguyên thể. Trong một số trường hợp việc xử lý biến ở dạng nguyên thể làm kết quả xử lý không thể hiện đúng thực chất. Đặc biệt khi giá trị (bằng số) của các biến có sự khác biệt đáng kể. Khi ấy ta cần biến đổi để biến có giá trị phù hợp với việc xử lý. Ta có thể sử dụng các cách biến đổi sau:

Định tâm : để số trung bình của tất cả các giá trị của biến (sau khi biến đổi) là 0.
`tilde x_i=x_i-bar x ` (1)
trong đó `x_i` là giá trị của biến trước khi biến đổi, `tilde x_i` là giá trị của biến sau khi biến đổi, `bar x` là số trung bình của `x_i`.
Chuẩn hóa : để biến sau khi biến đổi có số trung bình là 0 và đơn vị bằng `1//s` lần đơn vị cũ (`s` là độ lệch chuẩn của biến), hay nói cách khác có độ lệch chuẩn là 1.
`z_i=(x_i-bar x)/s` (2)
Sử dụng các hàm số như lũy thừa, căn số, logarit, hàm mũ. Chi tiết của cách biến đổi này có thể tham khảo tại phần biến đổi số liệu của website này.

Ghi chú : Nếu dữ liệu ta thu được là toàn bộ một tổng thể, thì trong các công thức (1) và (2), ta thay `bar x` bằng `mu` là trung bình của tổng thể, `s` bằng `sigma` là độ lệch chuẩn của tổng thể.

Biến nộm

Thông thường, quá trình xử lý dữ liệu sẽ dễ dàng hơn nếu biến có giá trị số. Thậm chí, một số phương pháp như hồi quy không thể xử lý các dữ liệu phi số. Trong một số trường hợp, để đáp ứng yêu cầu của phương pháp xử lý, ta phải chuyển đổi từ các biến có giá trị không phải là số (gọi tắt là biến phi số) thành các biến, được gọi là biến nộm (dummy variable), có giá trị số (phương pháp này còn gọi là mã hóa).

Lấy thí dụ một cửa hàng C muốn thực hiện một phân tích hồi quy để xác định doanh số mua hàng của khách hàng dựa vào ba biến là tuổi, thu nhập và mức độ gắn kết. Hai biến tuổi và thu nhập có giá trị số và mức độ gắn kết là một biến định tính có 3 giá trị là Cao, Trung bình và Thấp. Nếu ta sử dụng biến mức độ gắn kết ở dạng nguyên thể, ta không thể tính hồi quy được. Vì thế ta có thể làm như sau:

Ta tạo thêm hai biến nộm mới là GK_Cao và GK_TB.
GK_Cao có giá trị là 1 khi khách hàng có mức độ gắn kết cao; khi khách hàng có mức độ gắn kết trung bình và thấp, GK_Cao có giá trị là 0.
GK_TB có giá trị là 1 khi khách hàng có mức độ gắn kết trung bình; khi khách hàng có mức độ gắn kết cao và thấp, GK_TB có giá trị là 0.

Như vậy bảng dữ liệu có thêm hai cột mới tương ứng với hai biến nộm mới. Khi phân tích hồi quy, ta xác định doanh số dựa vào các biến tuổi, thu nhập, GK_Cao và GK_TB và ta có kết quả mong muốn.

Qua thí dụ trên, ta thấy biến nộm có các đặc điểm sau:

Nếu biến phi số có `k` giá trị thì số biến nộm được tạo ra là `k-1`, tương ứng với các giá trị thứ nhất đến giá trị thứ `k-1` của biến phi số.
Biến nộm thứ `i` có giá trị là 1 tương ứng với giá trị thứ `i` của biến phi số, ngoài ra biến nộm thứ `i` có giá trị là 0.
Vậy giá trị thứ `k` của biến phi số có giá trị của tất cả `k-1` các biến nộm bằng 0.

Để tạo ra biến nộm, ta có hai phương pháp mã hóa chính:

Trong phương pháp mã hóa bằng chỉ số (indicator coding), hai giá trị của biến nộm là 1 và 0.
Trong phương pháp mã hóa bằng tác động (effect coding), hai giá trị của biến nộm là 1 và − 1.

Tuy nhiên, kết quả xử lý dữ liệu của hai phương pháp mã hóa đều như nhau.

Ghi chú

Đối với biến định tính, biến định danh hay biến có thứ tự, chúng tôi sử dụng thuật ngữ "mức" (level) thay cho thuật ngữ "giá trị" trong một số trường hợp. Điều này sẽ làm việc trình bày rõ ràng hơn, không bị lẫn lộn và bạn dễ nắm bắt nội dung hơn.

Học máy

Một số phương pháp xử lý đa biến được sử dụng rộng rãi trong lĩnh vực học máy (machine learning). Vì thế ta xem xét qua một số khái niệm có liên quan đến lĩnh vực này.

Theo Arthur Samuel, một trong những người đi tiên phong trong lĩnh vực này, thì học máy là quá trình học tự động của máy tính thông qua việc xử lý dữ liệu mà không cần phải lập trình sẵn. Như vậy một trong những công việc chính trong học máy là xử lý dữ liệu.

Người ta chia các phương pháp học máy làm hai nhóm chính:

học có định hướng (supervised) : mục tiêu của quá trình học đã được liên kết trước với một hay một số biến đã có sẵn trong dữ liệu; thí dụ tìm mối quan hệ giữa doanh số của một khách hàng với một số thuộc tính nào đó của dữ liệu, hay tìm hiểu các đặc trưng của khách hàng (thông qua các thuộc tính) để biết được khi nào thì mức độ gắn kết của khách hàng là cao, trung bình hay thấp
học không có định hướng (unsupervised) : khi mục tiêu của quá trình học chưa được liên kết với bất kỳ biến nào trong dữ liệu. Thí dụ tìm kiếm một cấu trúc nào đó của biến hay của các phần tử.

Để thực hiện một quá trình học máy ta cần hai bộ dữ liệu, một dùng để phân tích, rút ra các kết quả (training data), một dùng để kiểm định lại các kết quả ấy (test data). Hai bộ dữ liệu này thường là hai phần của bộ dữ liệu ban đầu, được tách riêng ra một cách ngẫu nhiên hoặc theo một quy luật hay phương pháp nào đó.

Một số khái niệm khác

Mô hình

Trong xử lý dữ liệu, mô hình (model) là những thông tin cốt lõi dùng để thể hiện bản chất của sự vật hay hiện tượng. Một trong những dạng khá phổ biến là mô hình toán, trong đó mối quan hệ giữa các đại lượng được thể hiện dưới dạng các phương trình hay công thức toán học.

Thông thường, một trong những kết quả quan trọng nhất của xử lý dữ liệu là mô hình.

Tuy nhiên, ta cũng cần lưu ý là mô hình chỉ cố gắng phản ảnh thực tế nên trong đại đa số trường hợp, sự phản ảnh chỉ là gần đúng. Về điểm này, Box (1987) đã có một phát biểu rất nổi tiếng như sau: "Essentially, all models are wrong, but some are useful", tạm dịch là "Thực chất, tất cả mô hình đều sai, nhưng một số lại hữu dụng". Vì vậy, trong thống kê, có một công thức diễn tả điều này như sau:

Data = Model + Residual(3)

tạm dịch là :

Dữ liệu = Mô hình + Phần dư(3)

Likelihood

Đây là một khái niệm tương đối trừu tượng nên chúng ta sẽ xem xét hơi dài dòng một chút.

Ta bỏ vào một bình 7 viên bi xanh và 3 viên bi đỏ và cả 10 viên này đều có chất liệu như nhau, đều là hình cầu, có kích thước và khối lượng như nhau. Ta lẫy ngẫu nhiên có hoàn lại 5 viên bi. Xác suất để có 3 viên mầu xanh là bao nhiêu? Theo phân phối nhị thức, ta có:

`P(X=3)=(5!)/(3!xx(5-3)!)xx(0,7)^3xx(1-0,7)^(5-3)=0,1323`(5)

Như vậy, ta chỉ có thể sử dụng công thức (5) khi đã có các thông tin về các viên bi trong bình: 7 viên xanh, 3 viên đỏ, các viên đồng chất, ... nói cách khác ta biết "mô hình" của các viên bi trong bình và thông số quan trọng nhất của mô hình này trong trường hợp chúng ta đang khảo sát là `p=0,7`. Ta ký hiệu mô hình này là M.

Như vậy, nếu trình bày một cách chặt chẽ thì xác suất để 3 viên bi có mầu xanh trong số 5 viên bi lấy ra trong điều kiện ta đã biết mô hình M là 0,1323. Như vậy khi trình bày một cách chặt chẽ, ta viết lại công thức (5) như sau:

`P(X=3 | M)=P(X=3 | p=0,7)=0,1323`(6)

Bây giờ có hai hộp bi A và B, trong hai hộp là các viên bi đồng chất có hai màu xanh và đỏ. Ta biết tỷ lệ các viên bi xanh trong hộp A là 50% và hộp B là 70%. Ta lấy ngẫu nhiên một hộp, từ hộp ấy lấy ngẫu nhiên có hoàn lại 5 viên và trong 5 viên đó, có 3 viên bi xanh. Vậy trong hai hộp A và B, ta đã dùng hộp nào để thử nghiệm ?

Như vậy ta có hai mô hình, mô hình thứ nhất có `p_A=0,5`; mô hình thứ hai có `p_B=0,7`; số viên bi xanh là `X=3`. Vậy kết quả thực tế phù hợp với mô hình nào hơn ?

Để đánh giá khả năng phù hợp của mô hình, đặc trưng bằng thông số `theta`, với số liệu thực tế `X`, người ta sử dụng một hàm số gọi tên là "likelihood", tạm dịch là "khả hợp", ký hiệu là `L(theta | X)` hay `L(theta, X)`. Hàm này có thể lấy một số giá trị khác nhau tùy theo định nghĩa nhưng luôn tỷ lệ với `P(X | theta)` và có quan hệ nhất định với đại lượng này. Như trong thí dụ trên, dựa vào công thức của phân phối nhị thức, ta có thể định nghĩa:

`L(p|x)=p^x (1-p)^(n-x)`

(7)

Theo thí dụ trên, hộp A có khả hợp `L_A` là :

`L(p_A|3)=0.5^3 (1-0.5)^(5-3)=0,3125`

Và hộp B có khả hợp L_B là :

`L(p_B|3)=0,7^3 (1-0,7)^(5-3)=0,03087`

Vì `L_A>L_B` nên khả năng dùng hộp A để thử nghiệm cao hơn dùng hộp B.

Nếu ban đầu ta có thêm một hộp bi C và tỷ lệ các viên bi xanh trong hộp này là 60%. Khi ấy khả hợp `L_C` của hộp này là:

`L(p_C|3)=0,6^3 (1-0,6)^(5-3)=0,.03456`

Trong trường hợp này, khả năng sử dụng hộp C để thử nghiệm là cao nhất.

Khả hợp có nhiều ứng dụng trong việc tính toán mô hình, chọn lựa mô hình, đánh giá mô hình.

Trang web này được cập nhật lần cuối ngày 26/11/2018

Dữ liệu đa biến

Sơ đồ site