Trong số các mô hình, hồi quy tuyến tính được sử dụng rộng rãi hơn cả do đơn giản, dễ sử dụng, dễ diễn giải, nhưng vẫn đáp ứng tốt nhiều quá trình trong thực tế. Trường hợp một biến độc lập đã được khảo sát trong chương "Tương quan và hồi quy" của phần Thống kê. Trong phần này ta xét trường hợp có nhiều biến độc lập.
Xét một dữ liệu có biến phụ thuộc là `Y` và `n` biến độc lập là `X_1,X_2,...,X_n`. Mô hình hồi quy tuyến tính mô tả mối quan hệ giữa `Y` và `X_i` được trình bày dưới dạng:
| `Y=b_0+b_1X_1+b_2X_2+...+b_nX_n+e=b_0+sum_(i=1)^n b_iX_i +e` | (1) |
trong đó :
Ta đã biết giá trị của `Y` và `X_i` cho tất cả các phần tử từ dữ liệu. Công việc quan trọng cần làm là xác định giá trị các hệ số `b_i`.
Về mặt lý thuyết, phương pháp thường dùng để xác định các hệ số của phương trình hồi quy cho trường hợp hồi quy đa biến là bình phương cực tiểu (least square) có nguyên tắc tương tự như trường hợp một biến độc lập.
Với mỗi phần tử `j`, ta có một bộ giá trị (`x_(j1), x_(j2), ... , x_(jn), y_j`) thu được từ dữ liệu, đồng thời ta cũng có giá trị ước tính `hat y_j` từ mô hình hồi quy:
`hat y_j=b_0+b_1x_(j1)+b_2x_(j2)+...+b_nx_(jn)`(2)
Vậy :
`y_j-hat y_j=e_j`(3)
`e_j` là sai lệch giữa giá trị thực tế và giá trị tính từ mô hình hồi quy của phần tử `j`.
Gọi `m` là số phần tử có trong dữ liệu và đặt :
| `SS_R=e_1^2+e_2^2+...+e_m^2=sum_(j=1)^m e_j^2` | (4) |
`SS_R` được gọi là tổng bình phương phần dư (residual sum of squares). Thông số này thể hiện phần biến động của biến phụ thuộc không thể giải thích bởi các biến độc lập. Ta có thể khai triển thêm như sau:
| `SS_R=sum_(j=1)^m(y_j-hat y_j)^2=sum_(j=1)^m ( y_j-b_0-b_1x_(j1)-b_2x_(j2)-...-b_nx_(jn) )^2` | (5) |
Trong phương trình (5), `y_j` và `x_(ji)` là những số liệu đã biết, và ta cần xác định các giá trị `b_i` của mô hình hồi quy.
Mô hình được chọn là mô hình có sai lệch với số liệu thực tế ít nhất, nghĩa là mô hình có `SS_R` nhỏ nhất. Điều này có nghĩa là ta phải có:
| `(del SS_R)/(del b_i) =0` | (6) |
(6) tương đương với một hệ có `n+1` phương trình và `n+1` biến số. Giải phương trình này ta xác định được giá trị các hệ số `b_i`. Tuy nhiên đây là một hệ phương trình phức tạp, đặc biệt với các dữ liệu có nhiều biến, nhiều phần tử. Vì thể việc giải hệ phương trình này thường được thực hiện bởi các phần mềm xử lý dữ liệu.
Khi tiến hành hồi quy, ta cần lưu ý một số điểm liên quan đến sự chuẩn bị dữ liệu cũng như tính chất của các biến.
Dữ liệu
Trong hồi quy, toàn bộ giá trị đều được đưa vào để xử lý nên không cho phép có dữ liệu thiếu. Vì thế ta cần kiểm tra dữ liệu về mặt này. Ngoài ra hồi quy khá nhạy cảm với các số ngoại lệch, đặc biệt là giá trị của biến phụ thuộc tương ứng các giá trị cao nhất hay thấp nhất của các biến độc lập. Để kiểm tra số ngoại lệch, người ta thường dùng biểu đồ phần dư. Nếu có biến độc lập nào có kiểu phi số, ta phải mã hóa để chuyển thành biến nộm.
Quan hệ tuyến tính của biến độc lập và phụ thuộc
Do mô hình là tuyến tính nên quan hệ phi tuyến giữa hai biến có thể làm ta đánh giá sai mối tương quan giữa chúng nếu chỉ dựa trên kết quả hồi quy. Ta cần kiểm tra điều này, chẳng hạn bằng biểu đồ XY.
Sự đồng nhất của phương sai
Khi phương sai của biến không đồng nhất (heteroscedasticity), kết quả xử lý bị sai lệch, đặc biệt tại các vùng phương sai có giá trị lớn. Ta thường dùng biểu đồ phần dư để kiểm tra sự đồng nhất của phương sai.
Sự cộng tuyến hay đa cộng tuyến
Sự cộng tuyến hay đa cộng tuyến xẩy ra khi giữa các biến độc lập có tương quan tuyến tính mạnh hay tương đối mạnh (`r` có giá trị lớn). Hiện tượng này ảnh hưởng đến giá trị và khoảng tin cậy của hệ số hồi quy. Trong trường hợp `r=1`, ma trận dùng để xác định hệ số hồi quy bị suy biến, ta không thể xác định được các hệ số hồi quy. Ngoài ra sự đa cộng tuyến có thể làm ta diễn giải sai tác động của biến độc lập đến biến phụ thuộc.
Khi xẩy ra sự đa cộng tuyến, ta có thể loại bớt một số biến độc lập, hay tiến hành phân tích thành tố (principal component analysis) trước, sau đó thực hiện hồi quy giữa biến phụ thuộc và các thành tố (xem như biến độc lập).
Sau khi thu được mô hình hồi quy, ta cần xem xét, đánh giá mô hình này.
Sự tương thích của mô hình
Để đánh giá mức độ tương thích của phương trình hồi quy, phương pháp phổ biến nhất là sử dụng hệ số `R^2` (coefficient of determination). Thông số này được định nghĩa như sau:
| `R^2=(SS_T-SS_R)/(SS_T)` | (7) |
trong đó `SS_T` là tổng bình phương chung (total sum of squares) và được định nghĩa là:
| `SS_T=sum_(j=1)^m (y_j-bar y)^2` | (8) |
với `bar y` là số trung bình của các giá trị `y_j`
Ta thấy `SS_T-SS_R` thể hiện phần biến động của `Y` có thể được giải thích bởi các biến độc lập. Vậy `R^2` thể hiện tỷ lệ biến động của biến phụ thuộc có thể giải thích bằng tác động của các biến độc lập. Vì thế, giá trị của `R^2` càng lớn, mức độ tương thích của mô hình hồi quy càng cao.
Tác động của biến độc lập
Để đánh giá tác động của một biến `X_i` nào đó đến biến phụ thuộc, ta thường dựa vào hệ số `p` (`p` value) của biến đó. Nếu giá trị này bé hơn mức ý nghĩa `alpha`, ta có thể xem tác động của biến đó có ý nghĩa về mặt thống kê.
Trong nhiều trường hợp, mục đích của chúng ta là chọn ra một mô hình tốt, không phức tạp lắm, chỉ chứa các biến độc lập có tác động mạnh đến biến phụ thuộc. Khi có ít biến độc lập, việc này không có gì khó khăn. Ta chỉ thực hiện quá trình hồi quy trên một số lần (`2^n`) và từ đó rút ra mô hình phù hợp. Tuy nhiên khi có nhiều biến độc lập, việc này không thể thực hiện được do khối lượng công việc quá lớn. Khi đó ta cần một cách hiệu quả hơn. Hiện nay, có 3 phương pháp chính :
Phương pháp giảm dần không thể sử dụng nếu số phần tử ít hơn số biến độc lập. Phương pháp tăng dần có thể gặp hiện tượng đa cộng tuyến khi đưa vào hai biến độc lập có tương quan tuyến tính mạnh và ta không thể bỏ đi một biến độc lập nào một khi đã đưa vào mô hình. Như vậy phương pháp kết hợp là phù hợp hơn cả, có thể áp dụng cho nhiều trường hợp khác nhau và mang lại kết quả tốt.
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R