logo xDuLieu.com

Trang trướcMột số cơ sở về thống kê đa biếnTrang sau

Khái quát

 

Các khái niệm và phép tính thống kê là một phần quan trọng của xử lý dữ liệu. Am tường thống kê giúp ta nắm bắt các phương pháp xử lý dễ dàng hơn và sử dụng chúng có hiệu quả hơn. Đối với trường hợp một biến và trong chừng mực nào đó là hai biến, bạn có thể tham khảo thêm trong phần thống kê của website này.

Trong một số trường hợp, xử lý dữ liệu đa biến là sự mở rộng của xử lý dữ liệu một biến và/hay hai biến, đặc biệt là các khái niệm cơ bản như trung bình, phương sai, tương quan. Trong phần này, chúng tôi chỉ xem xét một số sự mở rộng như vậy; các sự mở rộng khác như tổng phương sai, phương sai gộp, được đề cập ở các nội dung có liên quan. Tất nhiên, khi mở rộng, mức độ trừu tượng và phức tạp sẽ tăng lên đáng kể; thí dụ thay vì là các số vô hướng, các khái niệm được trình bày lại dưới dạng vectơ và ma trận.

Chúng tôi cũng muốn nói thêm rằng kỹ thuật xử lý số liệu sử dụng rất nhiều đặc điểm và phương pháp tính toán của ma trận. Vì thế hiểu biết về ma trận sẽ giúp ta nắm vững hơn về xử lý số liệu. Bạn có thể tham khảo thêm về ma trận trong website này. Ở đây, chúng tôi chỉ trình bày một số điểm cốt yếu liên quan đến xử lý đa biến.


Ma trận dữ liệu

 

Trong xử lý dữ liệu, đối tượng xử lý thường là một bảng liệt kê với nhiều dòng và nhiều cột, mỗi cột tương ứng với một biến, mỗi dòng tương ứng với một phần tử. Nếu tất cả các phần tử của bảng là số (bảng số liệu) thì cấu trúc của bảng tương tự như ma trận trong toán học. Trong ma trận dữ liệu ấy, các cột (còn gọi là vectơ cột) biểu diễn các biến, các dòng (còn gọi là vectơ dòng) đại diện cho các phần tử. Thí dụ như ma trận sau:

    `mb(X) = [ [26, 4, 15, 0, 35], [57, 9, 62, 1, 63], [55, 7, 37, 0, 37], [28, 5, 22, 1, 40], [46, 8, 52, 1, 19] , [27, 3, 14, 0, 68], [31, 5, 15, 1, 45], [21, 2, 14, 0, 68], [38, 6, 36, 0, 42], [34, 4, 20, 0, 58] ] `

Ma trận `mb(X)` biểu diễn cho một bảng dữ liệu của 10 phần tử với 5 biến, trong đó `X_4` (tương ứng với cột 4) là một biến nộm.

Một số quy ước

Để thống nhất trong cách trình bày trong phần này và trong các phần, các chương khác có liên quan, chúng tôi sử dụng các quy ước sau về ký hiệu:

  • chữ IN HOA ĐẬM được dùng để ký hiệu cho ma trận, thí dụ `mb(X)`,
  • chữ thường đậm được dùng để ký hiệu cho vectơ, thí dụ `mb(x)`,
  • chữ IN HOA THƯỜNG được dùng để ký hiệu cho một biến, thí dụ `X`,
  • chữ thường, được dùng để ký hiệu cho giá trị của biến, thí dụ `x`.

Ngoài ra ta sử dụng một số quy ước sau :

  • Khi xem xét đến bảng dữ liệu hay ma trận một cách tổng quát, ta xem bảng dữ liệu ấy có `n` biến và `p` phần tử, hay ma trận đại diện cho bảng dữ liệu ấy có `n` cột (hay `n` vectơ cột) và `p` dòng (hay `p` vectơ dòng).
  • Ta xem như bảng dữ liệu được thu thập từ một mẫu, nên các đại lượng có liên quan (như số trung bình, phương sai) là của mẫu, ngoại trừ các trường hợp được ghi chú riêng.

Vectơ số trung bình

 

Khi dữ liệu chỉ gồm một biến `X`, ta đã biết rằng số trung bình `bar x` của biến này cho `p` phần tử được xác định theo công thức

`bar x=(x_1+x_2+...+x_p)/p=1/p sum_(j=1)^p x_j`(8)

Khi dữ liệu mở rộng gồm `n` biến, thì mỗi biến có một trung bình riêng. Vì thể toàn dữ liệu có `n` số trung bình cho `n` biến và ta sử dụng một vectơ, ký hiệu là `bar (bb"x")`, để chứa `n` số trung bình trên:

`bar(mb(x))=[[bar x_1], [bar x_2], [vdots], [bar x_n] ]`(9)

Người ta chứng minh được rằng :

`bar(mb(x))=1/n mb(X)^T mb(j)`(10)

Nhắc lại rằng `mb(j)` là vectơ cột có tất cả các phần tử bằng 1.

Trong trường hợp số liệu thu được từ tổng thể, ta thay `bar(mb(x))` bằng `mb(mu)`.


Ma trận hiệp phương sai

 

Khi dữ liệu chỉ gồm một biến `X`, để đặc trưng cho sự phân tán của biến ta dùng phương sai `s^2` được định nghĩa như sau:

`s^2=1/(p-1) sum_(i=1)^p (x_i-bar x)^2`(11)

`s` còn được gọi là độ lệch chuẩn.

Khi dữ liệu gồm hai biến `X_1` và `X_2`, để chỉ sự tương đồng về mức độ và chiều biến thiên của hai biến ấy, ta sử dụng hiệp phương sai (covariance) `Cov(X_1, X_2)` được định nghĩa như sau:

`Cov(X_1,X_2)=1/(p-1) sum_(i=1)^p (x_(1i)-bar x_1) (x_(2i)-bar x_2)`(12)

Nếu ta so sánh (11) và (12), ta thấy rằng phương sai chỉ là một trường hợp riêng của hiệp phương sai khi hai biến giống nhau, nghĩa là:

`Cov(X,X)=s^2`(13)

Nếu dữ liệu được mở rộng hơn nữa, ta có nhiều giá trị phương sai và hiệp phương sai. Để chứa các giá trị ấy, ta sử dụng một ma trận, được gọi là ma trận hiệp phương sai, thường được ký hiệu là `mb(S)` nếu dữ liệu thu được từ một mẫu, hay `mb(Sigma)` nếu dữ liệu thu được từ một tổng thể.

Thí dụ : Từ ma trận dữ liệu `mb(X)` ở trên, ta sử dụng hàm cov của R để tìm ma trận hiệp phương sai thì thu được kết quả sau:

> cov(X)
           X1          X2         X3         X4         X5
X1 156.011111  25.3444444 173.222222  1.8666667 -53.944444
X2  25.344444   4.9000000  34.777778  0.6444444 -16.722222
X3 173.222222  34.7777778 308.666667  6.2222222 -88.444444
X4   1.866667   0.6444444   6.222222  0.2666667  -2.555556
X5 -53.944444 -16.7222222 -88.444444 -2.5555556 262.500000

Ta có một số nhận xét sau về ma trận hiệp phương sai `mb(S)`:

  • Đó là một ma trận vuông có cấp bằng với số biến của `mb(X)`.
  • Phần tử ở dòng `i`, cột `j` có giá trị là `Cov(X_i,X_j)`.
  • Các phần tử trên đường chéo chính (dòng `i`, cột `i`) bằng phương sai của biến `X_i`.
  • Đây là một ma trận đối xứng vì `Cov(X_i,X_j)=Cov(X_j,X_i)`.

Từ ma trận `mb(S)`, người ta định nghĩa phương sai suy rộng (generalized variance) là định thức của `mb(S)`:

Phương sai suy rộng = `|mb(S)|`(14)


Ma trận tương quan

 

Xét hai biến `X_i` và `X_j` của dữ liệu `mb(X)`. Để đánh giá mối tương quan tuyến tính giữa hai biến này, ta sử dụng hệ số tương quan `r_(ij)` được định nghĩa như sau:

`r_(ij)=Cov(X_i,X_j)/(s_(X_i) s_(X_j))`(15)

`r` có giá trị trong khoảng từ − 1 đến 1 ; `r>0` cho biết tương quan thuận chiều ; `r<0` thể hiện tương quan ngược chiều ; `|r|` càng lớn, tương quan giữa hai biến càng chặt chẽ. Trong một số phương pháp xử lý thống kê, `r^2` được dùng để thể hiện mức độ chia sẻ phương sai (shared variance) giữa hai biến.

Ghi chú : Công thức (15) cho thấy mối liên hệ rất chặt chẽ giữa hệ số tương quan và hiệp phương sai. Vì thế ta có thể mở rộng các tính chất ở trên cho hiệp phương sai. Thí dụ nếu hiệp phương sai của hai biến bằng 0, hai biến hoàn toàn không có tương quan với nhau (độc lập với nhau hay trực giao với nhau).

Nếu ta mở rộng cho toàn bộ dữ liệu có n biến, thì ta có nhiều hệ số tương quan và ta sử dụng một ma trận, được gọi là ma trận tương quan, thường được ký hiệu là `mb(R)` nếu dữ liệu thu được từ một mẫu, hay `mb(P)` nếu dữ liệu thu được từ một tổng thể.

Thí dụ : Từ ma trận dữ liệu `mb(X)` ở trên, ta sử dụng hàm cor của R để tìm ma trận tương quan và ta có kết quả sau:

> cor(X)
           X1         X2         X3         X4         X5
X1  1.0000000  0.9166572  0.7893707  0.2894041 -0.2665657
X2  0.9166572  1.0000000  0.8942499  0.5637714 -0.4662634
X3  0.7893707  0.8942499  1.0000000  0.6858297 -0.3107142
X4  0.2894041  0.5637714  0.6858297  1.0000000 -0.3054473
X5 -0.2665657 -0.4662634 -0.3107142 -0.3054473  1.0000000

Ta có một số nhận xét sau về ma trận tương quan:

  • Đó là một ma trận vuông có cấp `n` bằng với số biến của `mb(X)`.
  • Phần tử ở dòng `i`, cột `j` có giá trị là `r_(ij)`.
  • Các phần tử trên đường chéo chính bằng 1. Vậy:
    `tr(mb(R))=n`(16)
    Nhắc lại rằng vết của `mb(R)`, được ký hiệu là `tr(mb(R))`, là tổng các phần tử nằm trên đường chéo chính của `mb(R)`.
  • Đây là một ma trận đối xứng vì `r_(ij)=r_(ji)`.

Quan hệ giữa ma trận tương quan và ma trận hiệp phương sai

Nếu ta gọi `mb(D)_S` là ma trận chéo được hình thành từ `mb(S)`, thì người ta chứng minh được rằng:

`mb(S)=mb(D)_S mb(R) mb(D)_S`(17)

và :

`mb(R)=mb(D)_S^(-1) mb(S) mb(D) _S^(-1)`(18)

Mặt khác, trong thống kê, ta biết rằng khi các biến được chuẩn hóa thì độ lệch chuẩn `s` bằng đơn vị, vì thế:

`r_(ij)=Cov(X_i,X_j)`(19)

Khi ấy hai ma trận `mb(S)` và `mb(R)` giống hệt nhau.


Phân phối chuẩn đa biến

 

Xét dữ liệu chỉ gồm 1 biến `X` có phân phối chuẩn với trung bình `mu` và độ lệch chuẩn là `sigma`, hàm mật độ phân phối biến này có dạng:

`f(x)=1/(sigma sqrt(2pi)) e^(-1/2((x-mu)/sigma)^2)`(20)

Nếu biến này ở dạng chuẩn hóa thì hàm phân phối có dạng:

`f(x)=1/sqrt(2pi) e^(-x^2/2)`(21)

Nếu ta mở rộng cho dữ liệu có `n` biến, các biến đều có phân phối chuẩn, vectơ trung bình là `mb(mu)` và ma trận hiệp phương sai là `mb(Sigma)`, thì hàm mật độ của các biến này có dạng:

`f(mb(x))=1/sqrt((2pi)^n |mb(Sigma)|) e^(-1/2 (mb(x-mu))^"T" mb(Sigma)^(-1) (mb(x-mu))` (22)

Trong trường hợp hai biến, phân phối này được biểu diễn trong không gian 3 chiều như Hình 1.

Hình 1 Phân phối chuẩn 2 biến

Biểu đồ đường đồng mức (contour) của phân phối chuẩn trên được thình bày ở Hình 2

Hình 2 Biểu đồ đường đồng mức của phân phối chuẩn 2 biến

Người ta đặt :

`D^2=(mb(x-mu))^"T" mb(Sigma)^(-1) (mb(x-mu))`(23)

`D` được gọi là khoảng cách suy rộng giữa phần tử và tâm (đại diện bởi `mb(mu)`), hay khoảng cách Mahalanobis.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 20/11/2018