logo xDuLieu.com

Trang trướcHồi quyTrang sau

Trong trường hợp giá trị của yếu tố `X` và đáp ứng `Y` đều là các biến định lượng, kiểu “có hiệu số” hay “có tỷ số”, ta có thể xây dựng phương trình hồi quy (regression) để định lượng hóa mối tương quan giữa hai biến này.

Nguyên tắc chung

 

Thông thường phương trình hồi quy có dạng tổng quát `y=f(x)`. Công việc đầu tiên là xác định dạng cụ thể của phương trình ấy như tuyến tính, bậc hai, hàm mũ, logarit. Dạng này được chọn thông qua kinh nghiệm của người xử lý dữ liệu, qua các khảo sát thăm dò, qua tham khảo tài liệu, ...

Trong các phương trình ấy luôn chứa các hệ số. Thí dụ:

  • phương trình bậc hai `y=ax^2+bx+c` : chứa các hệ số `a,b,c`;
  • phương trình dạng `log y=m log(nx+p)+q` : chứa các hệ số `m,n,p,q`.

Trong hồi quy, ta phải đi xác định giá trị cụ thể cho các hệ số trên (ký hiệu chung là `a_k`) bằng phương pháp "bình phương cực tiểu".


Phương pháp bình phương cực tiểu

 

Tương ứng với mỗi giá trị `x_i`, ta có hai loại giá trị của `y` (Hình 1):

XYxi MoyiyioM

Hình 1 Minh họa phương pháp bình phương cực tiểu

  • `y_i` : giá trị thực, thu được trong quá trình khảo sát, đo lường. Khi nghiệm thức tương ứng với `x_i` được thực hiện với một số lần lặp, giá trị thực của mỗi đơn vị thí nghiệm là `y_(ij)`. Còn nếu thực hiện một lần, giá trị thực là `y_i`. Mỗi giá trị thực được biểu diễn bằng một điểm M.
  • `y_(io)` : giá trị dự đoán, thu được từ phương trình hồi quy dự đoán `y=f(x)` (`y_(io)=f(x_i)`). Trong giá trị `y_(io)` có chứa cả các hệ số hồi quy `a_k` mà ta chưa biết. Giá trị này được biểu diễn bằng điểm Mo.
  • Giữa hai giá trị này có độ chênh lệch `y_i-y_(io)` (thường được gọi là phần dư) được biểu diễn bằng đoạn MMo.

Đường cong được chọn lựa sẽ là đường cong gần các điểm M nhất, nghĩa là có tổng các khoảng cách đến các điểm M là nhỏ nhất, hoặc là tổng các bình phương khoảng cách `(y_i-y_(io))^2` là nhỏ nhất (bình phương cực tiểu).

Gọi tổng này là `SS_E` ta có :

`SS_E=sum_i sum_j (y_(ij)-y_(io))^2 `(32)

còn trong trường hợp không lặp :

`SS_E=sum_i (y_i-y_(io))^2`(33)

Trong `SS_E`, ngoài các giá trị `x_i` và `y_(ij)` (hoặc `y_i` khi không lặp) đã biết, còn có các hệ số `a_j` của phương trình hồi quy mà ta chưa biết.

Để thỏa mãn điều kiện bình phương cực tiểu, ta phải có:

`(del SS_E) / (del a_k)=0 `(34)

Giải hệ phương trình (34), ta sẽ xác định được các hệ số `a_k` và từ đó tìm được phương trình hồi quy.

Một trong các trường hợp cơ bản của hồi quy là hồi quy tuyến tính đơn.


Phân tích phương sai phương trình hồi quy

 

Để đánh giá tính tương thích của phương trình hồi quy, ta có thể sử dụng phân tích phương sai.

Đặt `bar y` là trung bình của tất cả các giá trị `y_(ij)` (hay các giá trị `y_i` cho trường hợp không lặp). Ta định nghĩa các thông số sau:

`SS_E=sum_i sum_j (y_(ij)-y_(io))^2`(32)
`SS_H=sum_i (y_(io)-bar y)^2`(33)
`SS_T=sum_i sum_j (y_(ij)-bar y)^2`(34)

trong đó `SS_T,SS_H,SS_E` lần lượt là tổng bình phương chung, tổng bình phương hồi quy và tổng bình phương sai số.

Người ta chứng minh được rằng :

`SS_T=SS_H+SS_E`(37)

Sau đó, ta cũng tiến hành tương tự như khi phân tích phương sai, nghĩa là định nghĩa `MS_H`, `MS_E`, `F=(MS_H)/(MS_E)` rồi so sánh `F_o` với `F"*"` để kết luận về tính tương thích của phương trình hồi quy. Điều cần lưu ý là giá trị các độ tự do là `df_H=1` và `df_E=N-2` (`N` là số đơn vị thí nghiệm).

Trong trường hợp không lặp, `SS_T` và `SS_E` được xác định từ các công thức:

`SS_T=sum_i (y_i-bar y)^2`(38)
`SS_E=sum_i (y_i-y_(io))^2`(39)

Hệ số `R^2`

 

Để đánh giá mức độ tương thích của phương trình hồi quy so với số liệu thí nghiệm, ta sử dụng hệ số `R^2` (coefficient of determination). Hệ số này được định nghĩa bằng công thức sau.

`R^2=(SS_H)/(SS_T)=1-(SS_E)/(SS_T) `(40)

`R^2` có giá trị trong khoảng 0 đến 1. Thông số này càng lớn, mức độ tương thích càng cao. Khi `R^2=1`, ta có tương quan hàm số.

Tuy nhiên trong nhiều trường hợp người ta cho rằng hệ số này không thể hiện hoàn toàn chính xác bản chất của mối tương quan giữa các biến. Một trong các trường hợp là khi ta tăng bậc của phương trình hồi quy thì hệ số `R^2` tăng lên, nhưng điều đó không có nghĩa là phương trình bậc cao hơn diễn tả mối quan hệ giữa các biến trung thực hơn. Một thí dụ khác là nếu ta tăng số lần lặp thì hệ số `R^2` giảm đi; nhưng như ta đã biết rằng khi tăng số lần lặp thì độ chính xác lại tăng lên.

Vì thế người ta đưa ra hệ số `R_(hc)^2` hiệu chỉnh (adjusted) được định nghĩa là:

`R_(hc)^2=1-(SS_E)/(SS_T)(N-1)/(N-p)=1-(SS_E)/(SS_T)(df_T)/(df_E)=1-(N-1)/(N-p)(1-R^2)`(41)

trong đó `N` là số đơn vị thí nghiệm, `p` là số hệ số của phương trình hồi quy.

Nếu giữa `R^2` và `R_(hc)^2` có sự sai khác đáng kể, cần xem xét lại phương trình hồi quy. Thông thường là do có một số thừa số không có ý nghĩa đã được đưa vào.


Thí dụ

 

Ta sử dụng tiếp thí dụ về ảnh hưởng của tỷ lệ nguyên liệu A đến năng suất máy ép đùn trong sản xuất vật dụng bằng nhựa. Trong đó nguyên liệu A được thử nghiệm ở 4 tỷ lệ là 10%, 12%, 14%, và 16%, mỗi tỷ lệ được thực hiện với 5 lần lặp, thí nghiệm có 4 nghiệm thức, 20 đơn vị thí nghiệm. Ta hãy tìm phương trình hồi quy để mô tả quan hệ giữa tỷ lệ nguyên liệu A (ký hiệu X, ở dạng phần trăm) và năng suất máy ép đùn (ký hiệu Y, đơn vị kg/h).

Nếu chúng ta tính toán thủ công thì tốn khá nhiều thời gian. Ở đây ta sẽ dùng R để tìm phương trình hồi quy và một số thông số có liên quan.

Trước hết ta tạo hai biến là Ty_le_ANang_suat để lưu trữ giá trị của các tỷ lệ nguyên liệu A và năng suất

Ty_le_A <- rep(c(10,12,14,16), each = 5)
Nang_suat <- c(111,106,118,115,109, 112,118,120,109,115, 117,124,122,114,112, 116,118,124,121,123)

Sau đó sử dụng hàm lm (linear modeling) để thực hiện phân tích hồi quy tuyến tính. Trong hàm này ta khai báo hai biến và vai trò của chúng: Nang_suat đóng vai trò biến phụ thuộc, bên tráii dấu ~ ; và Ty_le_A giữ vai trò biến độc lập, bên phải dấu ~.

Sau khi thực hiện, hàm lm sẽ tạo ra một đối tượng thuộc lớp lm chứa tất cả các kết quả của quá trình xử lý. Ta sử dụng hàm summary để quan sát các nội dung chủ yếu của kết quả này.

summary(lm(Nang_Suat~Ty_Le_A))

Ta có kết quả sau :

> summary(lm(Nang_Suat~Ty_Le_A))

Call:
lm(formula = Nang_Suat ~ Ty_Le_A)

Residuals:
   Min     1Q Median     3Q    Max 
 -5.88  -3.07  -0.20   3.30   6.36 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  97.4800     5.5604  17.531 9.24e-13 ***
Ty_Le_A       1.4400     0.4215   3.416  0.00308 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.215 on 18 degrees of freedom
Multiple R-squared:  0.3933,	Adjusted R-squared:  0.3596 
F-statistic: 11.67 on 1 and 18 DF,  p-value: 0.00308
	

Kết quả trên cho thấy phương trình hồi quy giữa tỷ lệ nguyên liệu A (`X`) và năng suất máy ép đùn (`Y`) có tương quan tuyến tính biểu diễn bởi phương trình:

    `y=1,44x+97,48`

Tương quan này có ý nghĩa thống kê ở độ tin cậy 95% vì giá trị `p` là 0,0038 bé hơn `alpha` (0,05). Mặt khác cả hai hệ số của phương trình cũng có ý nghĩa do `p` (Pr(>|t|)) của cả hai hệ số đều bé hơn `alpha`.

Tuy nhiên vì `R^2=0,3933`  nên mức độ tương thích của phương trình hồi quy này với số liệu thí nghiệm không cao lắm.

Số liệu thực nghiệm và đường thẳng hồi quy được trình bày trên Hình 2

Hình 2 Số liệu thực nghiệm và đường hồi quy



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018