logo xDuLieu.com

Trang trướcMột số cơ sở của hồi quyTrang sau

Trong nhiều trường hợp, chúng ta muốn định lượng hóa mối quan hệ giữa hai hay nhiều biến có kiểu dữ liệu số, nghĩa là tìm phương trình hay hệ phương trình để mô tả mối quan hệ này. Khi ấy chúng ta phải sử dụng hồi quy (regression). Trong phần này, ta xét trường hợp đơn giản chỉ gồm hai biến `X` và `Y`.

Phương trình hồi quy

 

Để xác định phương trình hồi quy `y=f(x)`, trước hết ta cần xác định dạng của phương trình như tuyến tính, bậc hai, hàm mũ, logarit. Dạng này được chọn thông qua kinh nghiệm của người xử lý dữ liệu, qua các khảo sát thăm dò, qua tham khảo tài liệu, ...

Sau khi chọn dạng phương trình hồi quy, bước tiếp theo là đi xác định các hệ số của phương trình ấy. Thí dụ :

  • phương trình bậc hai `y=ax^2+bx+c` : ta phải xác định `a,b,c` ;
  • phương trình dạng hàm mũ `y=m+n e^(px)` : ta phải xác định `m,n,p`

Để xác định các hệ số của phương trình hồi quy (ký hiệu chung là `a_k`), ta sử dụng phương pháp "bình phương cực tiểu".


Phương pháp bình phương cực tiểu

 

Trước hết, ta xét trường hợp đơn giản, với mỗi giá trị của `X`, ta có một giá trị của `Y`. Khi ấy, tương ứng với mỗi giá trị `x_i`, ta có hai giá trị của `y` (Hình 1).

XYxi MoyiyioM

Hình 1 Minh họa phương pháp bình phương cực tiểu

  • `y_i` : giá trị thực, thu được trong quá trình khảo sát, đo lường. Giá trị này được biểu diễn bằng điểm M.
  • `y_(io)` : giá trị dự đoán, thu được từ phương trình hồi quy dự đoán `y=f(x)` (`y_(io)=f(x_i))`. Trong giá trị `y_(io)` có chứa cả các hệ số hồi quy `a_k` mà ta chưa biết. Giá trị này được biểu diễn bằng điểm Mo.
  • Giữa hai giá trị này có độ chênh lệch `y_i-y_(io)` (thường được gọi là phần dư) được biểu diễn bằng đoạn MMo.

Đường cong được chọn lựa sẽ là đường cong gần các điểm M nhất, nghĩa là có tổng các khoảng cách đến các điểm M là nhỏ nhất, hoặc là tổng các bình phương khoảng cách `(y_i-y_(io))^2` là nhỏ nhất (bình phương cực tiểu).

Gọi tổng này là `SS_E` ta có :

`SS_E=sum_i (y_i-f(x_i))^2`(2)

Trong `SS_E`, ngoài các giá trị `x_i` và `y_i` đã biết, còn có các hệ số `a_k` của phương trình hồi quy mà ta chưa biết.

Để thỏa mãn điều kiện bình phương cực tiểu, ta phải có :

`(partial SS_E)/(partial a_k)=0`(3)

Giải hệ phương trình (3), ta sẽ xác định được các hệ số `a_k` và từ đó tìm được phương trình hồi quy.


Hệ số `R^2`

 

Để đánh giá mức độ tương thích của phương trình hồi quy so với số liệu thực tế, ta sử dụng hệ số `R^2` (coefficient of determination). Phương pháp xác định hệ số này như sau.

Đặt `bar y` là trung bình của tất cả các giá trị `y_i`, và đặt :

`SS_T=sum_i (y_i-bar y)^2`(4)

Thì hệ số `R^2` được định nghĩa như sau:

`R^2=1-(SS_T)/(SS_E)`(5)

`R^2` có giá trị trong khoảng 0 đến 1. Thông số này càng lớn, mức độ tương thích càng cao. Khi `R^2=1`, ta có tương quan hàm số.

Tuy nhiên trong nhiều trường hợp người ta cho rằng hệ số này không thể hiện hoàn toàn chính xác bản chất của mối tương quan giữa các biến. Một trong các trường hợp là khi ta tăng bậc của phương trình hồi quy thì hệ số `R^2` tăng lên, nhưng điều đó không có nghĩa là phương trình bậc cao hơn diễn tả mối quan hệ giữa các biến trung thực hơn. Một thí dụ khác là nếu ta tăng số lần lặp thì hệ số `R^2` giảm đi; nhưng như ta đã biết rằng khi tăng số lần lặp thì độ chính xác lại tăng lên.

Vì thế người ta đưa ra hệ số `R_(hc)^2` hiệu chỉnh (adjusted) được định nghĩa là:

`R_(hc)^2=1-(SS_E)/(SS_T)\ (N-1)/(N-p)=1-(N-1)/(N-p)(1-R^2)`(6)

trong đó `N` là số cặp giá trị (`x,y`), `p` là số hệ số của phương trình hồi quy.

Nếu giữa `R^2` và `R_(hc)^2` có sự sai khác đáng kể, cần xem xét lại phương trình hồi quy. Thông thường là do có một số thừa số không có ý nghĩa đã được đưa vào.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018