Như phần trước đã đề cập, thực chất của phân tích phương sai là kiểm định cặp giả thuyết:
Như vậy khi kết quả cho phép ta bác bỏ Ho (chẳng hạn do `p < alpha`), ta cũng chỉ mới kết luận được "ít nhất hai nhóm có trung bình khác nhau". Để có thể đánh giá sự khác biệt giữa hai nhóm cụ thể, ta cần tiếp tục với các phương phác phân tích chuyên biệt.
Về mặt nguyên tắc, để so sánh sự khác biệt giữa hai nhóm `u` và `v`, ta đi so sánh trị số tuyệt đối của hiệu số `|bar y_u-bar y_v|` với một đại lượng được gọi là "độ chênh lệch có ý nghĩa", ký hiệu là `L`.
Giá trị của `L` tùy thuộc vào phương pháp dùng để so sánh.
Bạn có thể tìm hiểu chi tiết của những phương pháp trên tại các phần phân tích hậu phương sai hay phân tích hậu định (post hoc).
Ta tiếp tục với thí dụ về so sánh chiều cao cây dựa vào chế độ tưới. Ta đã có bảng số liệu sau:
Ít | Trung bình | Nhiều |
---|---|---|
92 | 88 | 130 |
115 | 110 | 147 |
87 | 94 | 139 |
104 | 105 | 134 |
66 | 115 | 155 |
73 | 88 | 113 |
64 | 91 | 107 |
57 | 96 | 110 |
62 | 104 | 102 |
58 | 92 | 100 |
Đơn vị : cm
Trong phần trước, ta đã nhập Bảng 1 vào R và có bảng dữ liệu ccao. Kết quả phân tích phương sai cho ta biết, chế độ tưới có ảnh hưởng đến chiều cao cây. Ta sẽ tiếp tục so sánh chiều cao cây ở các chế độ tưới khác nhau.
Trong R có hàm TukeyHSD
giúp ta so sánh trung bình giữa các nhóm, hơn nữa ta có thể dùng kết quả phân tích để dựng biểu đồ so sánh. Giả sử ta đã thực hiện phân tích phương sai bằng R và thu được kết quả bằng lệnh:
kq <- aov(Chieu_Cao ~ CD_Tuoi, data = ccao)
Ta tiếp tục so sánh ba chế độ tưới bằng các lệnh:
kt <- TukeyHSD(kq, ordered = TRUE)
kt
Trong đoạn lệnh trên, kết quả phân tích phương sai kq được đưa vào làm đối số, ordered = TRUE
được đưa vào để trong kết quả xuất ra, các chế độ tưới được xếp theo thứ tự từ thấp đến cao. Kết quả so sánh cho ta:
> kt
Tukey multiple comparisons of means
95% family-wise confidence level
factor levels have been ordered
Fit: aov(formula = Chieu_Cao ~ CD_Tuoi, data = ccao)
$CD_Tuoi
diff lwr upr p adj
Trung_Binh-It 20.5 1.268686 39.73131 0.0349448
Nhieu-It 45.9 26.668686 65.13131 0.0000077
Nhieu-Trung_Binh 25.4 6.168686 44.63131 0.0078990
Trong phần "$CD_Tuoi" của kết quả trên, cột "diff" cho ta hiệu số của trung bình các nhóm, lwr (lower) và upr (upper) là giá trị thấp và cao của khoảng ước lượng cho hiệu số trung bình này. Nếu khoảng này không chứa 0, sự khác biệt giữa hai nhóm là có ý nghĩa. Mặt khác, nếu giá trị của cột p adj (p adjusted) bé hơn mức ý nghĩa α, ta cũng có kết luận tương tự.
Như vậy bảng kết quả trên cho ta thấy sự khác biệt về chiều cao cây của cả 3 chế độ tưới đều có ý nghĩa.
Ta cũng có thể biểu diễn kết quả so sánh này dưới dạng biểu đồ bằng đoạn lệnh:
par(mar = c(5, 8, 4, 2)) plot(kt, las = 1, col = "red") abline(v = 0, lty = "64", col = "blue", lwd = 2)
Trong đoạn lệnh trên, câu lệnh thứ hai là quan trọng nhất, dùng để vẽ. Hai câu lệnh còn lại điều chỉnh một số chi tiết của biểu đồ để tăng tính mỹ thuật. Kết quả được trình bày trên Hình 1.
Hình 1 So sánh chiều cao của các chế độ tưới
Trong Hình 1, trục hoành biểu diễn độ chênh lệch của trung bình chiều cao cây của các nhóm, đường "0" thẳng đứng màu xanh tương ứng với độ chênh lệch bằng 0. Khoảng ước lượng cho hiệu số của trung bình chiều cao cây giữa các nhóm được biểu thị bằng các đoạn màu đỏ. Cả ba đoạn đều nằm bên phải của đường "0" màu xanh. Điều này cho thấy sự khác biệt về trung bình chiều cao cây của các chế độ tưới là có ý nghĩa.
Như đã trình bày trong phần trước, hiệp biến (covariate) là một biến độc lập, có thể có tác động đến đáp ứng, nhưng không phải là yếu tố mà ta quan tâm. Một tính chất khác của hiệp biến là có kiểu số và thường không thể tác động đến giá trị của hiệp biến mà chỉ có thể ghi nhận giá trị của nó.
Trong phân tích phương sai, để đánh giá chính xác hơn tác động của yếu tố chính, ta phải tách riêng tác động của hiệp biến đến đáp ứng. Chi tiết của phương pháp tách riêng này được trình bày trong phần thí nghiệm có hiệp biến.
Ta mở rộng thí dụ về chiều cao cây và chế độ tưới bằng cách bổ sung thêm một biến mới là chiều cao cây con (ChCao_0) là chiều cao cây ở ngày 0. Bảng 2 trình bày các số liệu của thử nghiệm mở rộng này.
Tưới ít | ChCao_0 | Tưới trung bình | ChCao_0 | Tưới nhiều | ChCao_0 | ||
---|---|---|---|---|---|---|---|
92 | 10 | 88 | 8 | 130 | 8 | ||
115 | 12 | 110 | 11 | 147 | 11 | ||
87 | 9 | 94 | 9 | 139 | 10 | ||
104 | 11 | 105 | 10 | 134 | 9 | ||
66 | 8 | 115 | 12 | 155 | 12 | ||
73 | 11 | 88 | 7 | 113 | 11 | ||
64 | 10 | 91 | 8 | 107 | 9 | ||
57 | 7 | 96 | 10 | 110 | 10 | ||
62 | 9 | 104 | 11 | 102 | 8 | ||
58 | 8 | 92 | 9 | 100 | 7 |
Đơn vị : cm
Ở đây, ta thấy chiều cao cây con không hoàn toàn giống nhau mà có sự khác biệt. Ở đây ta không quan tâm đến ảnh hưởng của thông số này đến chiều cao cây, nhưng chiều cao cây con có thể ảnh hưởng đến chiều cao cây, và ảnh hưởng này phải bị loại bỏ khi ta đánh giá tác động của chế độ tưới đến chiều cao cây.
Ta cũng dùng hàm aov
của R để phân tích phương sai nhưng ở đây, chúng ta khai báo thêm hiệp biến như cú pháp sau:
kqco <- aov(Chieu_Cao ~ ChCao_0 + CD_Tuoi, data = ccao)
summary(kqco)
Vì ChCao_0 có kiểu là số nên aov
xử lý biến này theo cách riêng. Kết quả là:
> summary(kqco)
Df Sum Sq Mean Sq F value Pr(>F)
ChCao_0 1 4304 4304 29.31 1.13e-05 ***
CD_Tuoi 2 10574 5287 36.01 3.22e-08 ***
Residuals 26 3818 147
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Nếu so sánh với khi xử lý không có hiệp biến, ta thấy `SS` của chế độ tưới không thay đổi (vẫn là 10.574), nhưng `SS` của sai lệch giảm đi đáng kể (3818 so với 8122). Do đó `MS` của sai lệch giảm đi, giá trị `F` của chế độ tưới tăng lên và giá trị `p` giảm xuống.
Ta có thể xem xét kỹ hơn nữa kết quả kqco bằng cách dùng phụ kiện "effects". Thí dụ như sử dụng hàm allEffects
trong đoạn lệnh sau:
cef <- allEffects(kqco)
summary(cef)
Kết quả thu được là :
> summary(cef)
model: Chieu_Cao ~ ChCao_0 + CD_Tuoi
ChCao_0 effect
ChCao_0
7 8 9 10 11 12
79.97037 87.95556 95.94074 103.92593 111.91111 119.89630
Lower 95 Percent Confidence Limits
ChCao_0
7 8 9 10 11 12
71.13143 81.52428 91.14715 99.13234 105.47984 111.05735
Upper 95 Percent Confidence Limits
ChCao_0
7 8 9 10 11 12
88.80931 94.38683 100.73433 108.71952 118.34239 128.73524
CD_Tuoi effect
CD_Tuoi
It Nhieu Trung_Binh
77.8 123.7 98.3
Lower 95 Percent Confidence Limits
CD_Tuoi
It Nhieu Trung_Binh
69.92333 115.82333 90.42333
Upper 95 Percent Confidence Limits
CD_Tuoi
It Nhieu Trung_Binh
85.67667 131.57667 106.17667
Ta thấy trong bảng trên kết quả chi tiết về tác động của chế độ tưới và chiều cao cây con.
Ta cũng có thể dùng lệnh plot
của phụ kiện này để thể hiện tác động của yếu tố và hiệp biến như dòng lệnh sau:
plot(cef)
Và thu được Hình 2.
Hình 2 Tác động của chiều cao cây con và chế độ tưới đến chiều cao cây
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R