Thí nghiệm có hiệp biến

Để có khái niệm rõ ràng hơn về hiệp biến, ta xem xét thí dụ sau.

Thí dụ : Người ta muốn so sánh tổn thất vitamin C của ba phương pháp bảo quản xoài (ký hiệu là M, N, và P) bằng cách đo hàm lượng vitamin C sau 15 ngày bảo quản. Đây là thí nghiệm một yếu tố, có ba nghiệm thức và ta dự định mỗi nghiệm thức có 6 lần lặp. Vì vậy ta cần sử dụng 18 quả xoài.

Tuy nhiên do không thể có 18 quả xoài đồng đều tuyệt đối được nên để so sánh chính xác hơn, người ta đo thêm khối lượng quả xoài. Kết quả được trình bày trong Bảng 1, trong đó hàm lượng vitamin C được ký hiệu là `Y` (đơn vị mg/100 g), khối lượng quả xoài được ký hiệu là `X` (đơn vị: g).

Bảng 1 Kết quả đo hàm lượng vitamin C và khối lượng xoài
	`X_M`	`Y_M`	`X_N`	`Y_N`	`X_P`	`Y_P`
1	320	8,0	324	8,2	363	16,3
2	341	11,0	367	13,4	337	11,9
3	329	8,4	337	7,8	329	8,9
4	376	15,8	380	17	350	13,2
5	354	14,1	354	14,3	311	8,4
6	363	16,3	371	15,6	333	13,2
Trung bình	347,2	12,3	355,5	12,7	337,2	12,0

Nếu ta không quan tâm gì đến khối lượng quả xoài và phân tích phương sai theo cách thông thường, ta thu được các kết quả sau:

`SS_T=186,0` ; `df_T=17`

`SS_A=2,15` ; `df_A=2` ; `MS_A=1,08`

`SS_E=183,8` ; `df_E` = 15 ; `MS_E=12,25`

`F_o=0,088` ; `F`*`=3,68` ; `p=0,916`

Qua đó ta kết luận rằng sự khác biệt về hàm lượng vitamin C của ba phương pháp này không có ý nghĩa thống kê với độ tin cậy 95%.

Tuy nhiên nếu ta xem xét thêm khối lượng quả xoài `X`, ta thấy ba nhóm này có điều kiện thí nghiệm không như nhau, mà ta thấy "hình như" hàm lượng vitamin C có lệ thuộc vào khối lượng.

Trong trường hợp này ngoài hai biến là phương pháp bảo quản và hàm lượng vitamin C, ta có thêm một biến nữa là khối lượng xoài. Biến này độc lập với yếu tố A (phương pháp bảo quản) và có thể có tác động đến đáp ứng (hàm lượng vitamin C). Một đặc điểm khác của biến này là ta rất khó khống chế được các mức của nó, và trong thực tế ta chỉ có thể ghi nhận được giá trị của nó mà thôi. Loại biến này được gọi là hiệp biến (covariate).

Như vậy ta tạm thời xem như sự biến đổi hàm lượng vitamin C của xoài phụ thuộc vào cả phương pháp bảo quản và khối lượng quả xoài. Để có thể đánh giá chính xác hơn tác động của phương pháp bảo quản bằng phân tích phương sai, ta phải tách riêng tác động của hiệp biến.

Hiệp phương sai (covariance) dùng để chỉ sự tương đồng về mức độ và chiều biến thiên của hai biến ngẫu nhiên ghép đôi `X` và `Y`, nghĩa là cho ta biết các giá trị của `X` và `Y` thay đổi cùng chiểu hay ngược chiều với nhau và mức độ tương đồng của sự thay đổi này. Hiệp phương sai đươc định nghĩa như sau:

`Cov(X,Y)=1/(n-1) sum (x_i-bar x)(y_i-bar y)`

(17)

Tương tự như tổng phương sai `SS` đối với phương sai, ta cũng có tổng hiệp phương sai `SC` cho hiệp phương sai với:

`SC= sum (x_i-bar x)(y_i-bar y)`

(18)

hay :

`SC=sum x_iy_i - 1/N sum_i x_i sum_i y_i`

(19)

Khi hiệp phương sai dương, hai biến ngẫu nhiên này biến thiên cùng chiều (cùng tăng hay cùng giảm), khi hiệp phương sai âm, hai biến ngẫu nhiên biến thiên ngược chiều. Khi hiệp phương sai bằng 0, hai biến ngẫu nhiên không có tương quan.

Phân tích hiệp phương sai (Analysis of Covariance - ANCOVA) được thực hiện qua một số giai đoạn như sau:

Từ các giá trị của biến `Y` của `a` nghiệm thức, `N` đơn vị thí nghiệm, ta tính `SS_(TY)`, `SS_(AY)`, `SS_(EY)` tương tự như giai đoạn đầu của phân tích phương sai.
Từ các giá trị của hiệp biến `X` của `a` nghiệm thức, `N` đơn vị thí nghiệm, ta tính `SS_(TX)` và `SS_(EX)` tương tự như trường hợp của biến `Y`.
Tính `XY` cho tất cả `a` nghiệm thức, `N` đơn vị thí nghiệm.
Tính các tổng hiệp phương sai sau :
- cho `a` nghiệm thức :
  `SC_T=sum sum x_iy_i - 1/N (sum sum x_i) (sum sum y_i)` (20)
- cho từng nghiệm thức `j` :
  `SC_(Ej)=(sum x_iy_i)_j - 1/n_j (sum x_i)_j (sum y_i)_j` (21)
- và :
  `SC_E=sum_j SC_E_j` (22)
Do tác động của hiệp biến nên ta phải điều chỉnh lại giá trị của các tổng phương sai `SS` và độ tự do `df`. Sự giảm giá trị này được gọi là chia xẻ phương sai (variance share).

`SS_(TYhc)=SS_(TY) - (SC_T)^2/(SS_(TX))` (23)

`SS_(EYhc)=SS_(EY) - (SC_E)^2/(SS_(EX))` (24)

`SS_(AYhc)=SS_(TYhc) - (SC_EYhc)` (25)

`df_(EYhc)=N-a-1` (26)
Với các giá trị phương sai và độ tự do mới này, ta tiếp tục phân tích phương sai như bình thường để đánh giả tác động của yếu tố A.

Phân tích số liệu của thí dụ trên, ta có :

`SS_(TY)=186,0` ; `SS_(AY)=2,15` ; `SS_(EY)=183,8`

`SS_(TX)=7156,3` ; `SS_(EX)=6145,2`

Để chuẩn bị phân tích hiệp phương sai, ta tính `XY` và một số đại lượng có liên quan. Kết quả được thể hiện trên Bảng 2.

Bảng 2 Kết quả tính `XY` và các đại lượng có liên quan
	`X_M`	`Y_M`	`X_MY_M`	`X_N`	`Y_N`	`X_NY_N`	`X_P`	`Y_P`	`X_PY_P`	`sum`
1	320	7,8	2496,0	324	8,2	2656,8	363	16,3	5916,9
2	341	10,6	3614,6	367	13,4	4917,8	337	11,9	4010,3
3	329	8,2	2697,8	337	7,8	2628,6	329	8,9	2928,1
4	376	15,4	5790,4	380	17,0	6460,0	350	13,2	4620,0
5	354	13,8	4885,2	354	14,3	5062,2	311	8,4	2612,4
6	363	16,1	5844,3	371	15,6	5787,6	333	13,2	4395,6
	2083			2133			2023			6239
		71,9			76,3			71,9		220,1
			25.328,3			27.513			24.483,3	77.324,6

Trong Bảng 2, ba dòng dưới cùng là tổng tương ứng của các 6 dòng bên trên. Cột cuối cùng của ba dòng cuối là tổng của các số hạng bên trái trên các dòng tương ứng. Từ Bảng 2, ta có:

`(sum x_i)_M = 2083` ; `(sum y_i)_M = 71,9` ; `(sum x_iy_i)_M = 25.328,3`

`(sum x_i)_N = 2133` ; `(sum y_i)_N = 76,3` ; `(sum x_iy_i)_M = 27.513`

`(sum x_i)_P = 2023` ; `(sum y_i)_P = 71,9` ; `(sum x_iy_i)_M = 24.483,3`

`sum sum x_i = 6329` ; `sum sum y_i = 220,1` ; `sum sum x_iy_i = 77.324,6`

Từ đó, ta có :

`SC_T=sum sum x_iy_i - 1/N (sum sum x_i)(sum sum y_i)`

`SC_T=77.324,6-(6239xx220,1)/18 = 1035,5`

Theo công thức (21)

`SC_(Ej)=(sum x_iy_i)_j - 1/n_j (sum x_i)_j (sum y_i)_j`

(21)

Vậy :

`SC_(EM) = 25.328,3 - (2083xx71,9)/6 = 367,0`

`SC_(EN) = 27.513 - (2133xx76,3)/6 = 388,4`

`SC_(EP) = 24.483,3 - (2073xx71,9)/6 = 241,0`

Và : `SC_E = SC_(EM)+SC_(EN)+SC_(EP) = 367,0 + 388,4 + 241,0 = 996,4`

Hiệu chỉnh lại `SS` và `df` :

`SS_(TYhc) = SS_(TY) - (SC_T)^2/(SS_(TX)) = 186,0 - (1035,5)^2/(7156,3) = 36,1`

`SS_(EYhc) = SS_(EY) - (SC_E)^2/(SS_(EX)) = 183,8 - (996,4)^2/(6145,2) = 22,3`

`SS_(AYhc) = SS_(TYhc) - SS_(EYhc) = 36,1 - 22,3 = 13,8`

`df_(EYhc) = N-a-1 = 18-3-1 = 14 `

Kết quả của phân tích phương sai được thể hiện trên Bảng 3.

Bảng 3 Kết quả phân tích phương sai
Nguồn biến động	`SS`	`df`	`MS`	`F`	`F`*
Phương pháp bảo quản	13,8	2	6,9	4,36	3,74
Sai số	22,3	14	1,59
Tổng	36,1	16

Kết quả này cho phép ta kết luận rằng phương pháp bảo quản có ảnh hưởng đến hàm lượng vitamin C với độ tin cậy 95%.

Sau khi kết luận được rằng yếu tố khảo sát có tác động đến đáp ứng, ta đi so sánh các nghiệm thức với nhau qua các bước sau:

Tính hệ số góc `b` của đường thẳng tương quan giữa `X` và `Y`:

`b=(SC_E)/(SS_(EX)` (27)
Hiệu chỉnh lại số trung bình của nghiệm thức `j` :
`bar y_(jhc) = bar y_j - b(bar x_j - bar x)`(28)
trong đó `bar x` là số trung bình của tất cả các giá trị của hiệp biến.
So sánh độ chênh lệch giữa các số trung bình hiệu chỉnh này với độ chênh lệch có ý nghĩa.

Tiếp tục khảo sát thí dụ ở trên, ta có :

`b = (SC_E)/(SS_(EX)) = (996,4)/(6145,2)=0,162`

Và : `bar x = 6239 / 18 = 346,6`

Vậy :

`bar y_(Mhc) = bar y_M - b(bar x_M - bar x) = 12,3 - 0,162(347,2 - 346,6) = 11,9`

`bar y_(Nhc) = bar y_N - b(bar x_N - bar x) = 12,7 - 0,162(355,5 - 346,6) = 11,3`

`bar y_(Phc) = bar y_P - b(bar x_P - bar x) = 12,0 - 0,162(337,2 - 346,6) = 13,5`

Kết quả này được thể hiện qua Bảng 4.

Bảng 4 Tổng hợp và so sánh kết quả `bar y`
	`bar x`	`bar y`	`bar y_(hc)`
Phương pháp M	347,2	12,3	11,9
Phương pháp N	355,5	12,7	11,3
Phương pháp P	337,2	12,0	13,5

Sử dụng LSD để xác định độ chênh lệch có ý nghĩa, ta có :

`LSD=t_(alpha//2, df_E) sqrt((2MS_E)/n)=t_(0,025, 14) sqrt((2xx1,59)/6)=1,56`

Trên Bảng 5 là hiệu số giũa các số trung bình hiệu chỉnh.

Bảng 5 Hiệu số giữa các số trung bình hiệu chỉnh
	`bar y_(Mhc)=11,9`	`bar y_(Nhc)=11,3`	`bar y_(Phc)=13,5`
`bar y_(Mhc)=11,9`	0	0,6	1,6
`bar y_(Nhc)=11,3`		0	2,1
`bar y_(Phc)=13,5`			0

Đối chiếu các số liệu trên Bảng 5 với LSD, ta thấy có sự khác biệt có ý nghĩa giữa phương pháp P với các phương pháp M và N. Còn giữa hai phương pháp M và N thì sự khác biệt không có ý nghĩa.

Thí nghiệm có hiệp biến

Khái niệm "hiệp biến"

Hiệp phương sai

Phân tích hiệp phương sai

So sánh các nghiệm thức

`SS_(TYhc)=SS_(TY) - (SC_T)^2/(SS_(TX))`	(23)
`SS_(EYhc)=SS_(EY) - (SC_E)^2/(SS_(EX))`	(24)
`SS_(AYhc)=SS_(TYhc) - (SC_EYhc)`	(25)
`df_(EYhc)=N-a-1`	(26)