Trong nhiều trường hợp, chúng ta muốn định lượng hóa mối quan hệ giữa hai hay nhiều biến có kiểu dữ liệu số, nghĩa là tìm phương trình hay hệ phương trình để mô tả mối quan hệ này. Khi ấy chúng ta phải sử dụng hồi quy (regression). Trong phần này, ta xét trường hợp đơn giản chỉ gồm hai biến `X` và `Y`.
Để xác định phương trình hồi quy `y=f(x)`, trước hết ta cần xác định dạng của phương trình như tuyến tính, bậc hai, hàm mũ, logarit. Dạng này được chọn thông qua kinh nghiệm của người xử lý dữ liệu, qua các khảo sát thăm dò, qua tham khảo tài liệu, ...
Sau khi chọn dạng phương trình hồi quy, bước tiếp theo là đi xác định các hệ số của phương trình ấy. Thí dụ :
Để xác định các hệ số của phương trình hồi quy (ký hiệu chung là `a_k`), ta sử dụng phương pháp "bình phương cực tiểu".
Trước hết, ta xét trường hợp đơn giản, với mỗi giá trị của `X`, ta có một giá trị của `Y`. Khi ấy, tương ứng với mỗi giá trị `x_i`, ta có hai giá trị của `y` (Hình 1).
Hình 1 Minh họa phương pháp bình phương cực tiểu
Đường cong được chọn lựa sẽ là đường cong gần các điểm M nhất, nghĩa là có tổng các khoảng cách đến các điểm M là nhỏ nhất, hoặc là tổng các bình phương khoảng cách `(y_i-y_(io))^2` là nhỏ nhất (bình phương cực tiểu).
Gọi tổng này là `SS_E` ta có :
`SS_E=sum_i (y_i-f(x_i))^2`(2)
Trong `SS_E`, ngoài các giá trị `x_i` và `y_i` đã biết, còn có các hệ số `a_k` của phương trình hồi quy mà ta chưa biết.
Để thỏa mãn điều kiện bình phương cực tiểu, ta phải có :
`(partial SS_E)/(partial a_k)=0` | (3) |
Giải hệ phương trình (3), ta sẽ xác định được các hệ số `a_k` và từ đó tìm được phương trình hồi quy.
Để đánh giá mức độ tương thích của phương trình hồi quy so với số liệu thực tế, ta sử dụng hệ số `R^2` (coefficient of determination). Phương pháp xác định hệ số này như sau.
Đặt `bar y` là trung bình của tất cả các giá trị `y_i`, và đặt :
`SS_T=sum_i (y_i-bar y)^2`(4)
Thì hệ số `R^2` được định nghĩa như sau:
`R^2=1-(SS_T)/(SS_E)` | (5) |
`R^2` có giá trị trong khoảng 0 đến 1. Thông số này càng lớn, mức độ tương thích càng cao. Khi `R^2=1`, ta có tương quan hàm số.
Tuy nhiên trong nhiều trường hợp người ta cho rằng hệ số này không thể hiện hoàn toàn chính xác bản chất của mối tương quan giữa các biến. Một trong các trường hợp là khi ta tăng bậc của phương trình hồi quy thì hệ số `R^2` tăng lên, nhưng điều đó không có nghĩa là phương trình bậc cao hơn diễn tả mối quan hệ giữa các biến trung thực hơn. Một thí dụ khác là nếu ta tăng số lần lặp thì hệ số `R^2` giảm đi; nhưng như ta đã biết rằng khi tăng số lần lặp thì độ chính xác lại tăng lên.
Vì thế người ta đưa ra hệ số `R_(hc)^2` hiệu chỉnh (adjusted) được định nghĩa là:
`R_(hc)^2=1-(SS_E)/(SS_T)\ (N-1)/(N-p)=1-(N-1)/(N-p)(1-R^2)` | (6) |
trong đó `N` là số cặp giá trị (`x,y`), `p` là số hệ số của phương trình hồi quy.
Nếu giữa `R^2` và `R_(hc)^2` có sự sai khác đáng kể, cần xem xét lại phương trình hồi quy. Thông thường là do có một số thừa số không có ý nghĩa đã được đưa vào.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R