logo xDuLieu.com

Trang trướcMột số vấn đề liên quan đến phân tích phương sai một yếu tốTrang sau

So sánh giữa các nhóm

 

Nguyên tắc

Như phần trước đã đề cập, thực chất của phân tích phương sai là kiểm định cặp giả thuyết:

  •   Ho : Tất cả trung bình của các nhóm đều bằng nhau.
  •   Ha : Ít nhất hai nhóm có trung bình khác nhau.

Như vậy khi kết quả cho phép ta bác bỏ Ho (chẳng hạn do `p < alpha`), ta cũng chỉ mới kết luận được "ít nhất hai nhóm có trung bình khác nhau". Để có thể đánh giá sự khác biệt giữa hai nhóm cụ thể, ta cần tiếp tục với các phương phác phân tích chuyên biệt.

Về mặt nguyên tắc, để so sánh sự khác biệt giữa hai nhóm `u` và `v`, ta đi so sánh trị số tuyệt đối của hiệu số `|bar y_u-bar y_v|` với một đại lượng được gọi là "độ chênh lệch có ý nghĩa", ký hiệu là `L`.

  • Nếu `|bar y_u-bar y_v|>L` : sự khác biệt giữa hai nhóm `u` và `v` có ý nghĩa.
  • Nếu `|bar y_u-bar y_v| < L` : sự khác biệt giữa hai nhóm `u` và `v` không có ý nghĩa thống kê.

Giá trị của `L` tùy thuộc vào phương pháp dùng để so sánh.

Bạn có thể tìm hiểu chi tiết của những phương pháp trên tại các phần phân tích hậu phương sai hay phân tích hậu định (post hoc).


Thí dụ

Ta tiếp tục với thí dụ về so sánh chiều cao cây dựa vào chế độ tưới. Ta đã có bảng số liệu sau:

Bảng 1 Chiều cao cây ở các chế độ tưới khác nhau
Ít Trung bình Nhiều
92 88 130
115 110 147
87 94 139
104 105 134
66 115 155
73 88 113
64 91 107
57 96 110
62 104 102
58 92 100

Đơn vị : cm

Trong phần trước, ta đã nhập Bảng 1 vào R và có bảng dữ liệu ccao. Kết quả phân tích phương sai cho ta biết, chế độ tưới có ảnh hưởng đến chiều cao cây. Ta sẽ tiếp tục so sánh chiều cao cây ở các chế độ tưới khác nhau.

Trong R có hàm TukeyHSD giúp ta so sánh trung bình giữa các nhóm, hơn nữa ta có thể dùng kết quả phân tích để dựng biểu đồ so sánh. Giả sử ta đã thực hiện phân tích phương sai bằng R và thu được kết quả bằng lệnh:

 kq <- aov(Chieu_Cao ~ CD_Tuoi, data = ccao)

Ta tiếp tục so sánh ba chế độ tưới bằng các lệnh:

 kt <- TukeyHSD(kq, ordered = TRUE)
kt

Trong đoạn lệnh trên, kết quả phân tích phương sai kq được đưa vào làm đối số, ordered = TRUE được đưa vào để trong kết quả xuất ra, các chế độ tưới được xếp theo thứ tự từ thấp đến cao. Kết quả so sánh cho ta:

> kt
  Tukey multiple comparisons of means
    95% family-wise confidence level
    factor levels have been ordered

Fit: aov(formula = Chieu_Cao ~ CD_Tuoi, data = ccao)

$CD_Tuoi
                 diff       lwr      upr     p adj
Trung_Binh-It    20.5  1.268686 39.73131 0.0349448
Nhieu-It         45.9 26.668686 65.13131 0.0000077
Nhieu-Trung_Binh 25.4  6.168686 44.63131 0.0078990

Trong phần "$CD_Tuoi" của kết quả trên, cột "diff" cho ta hiệu số của trung bình các nhóm, lwr (lower) và upr (upper) là giá trị thấp và cao của khoảng ước lượng cho hiệu số trung bình này. Nếu khoảng này không chứa 0, sự khác biệt giữa hai nhóm là có ý nghĩa. Mặt khác, nếu giá trị của cột p adj (p adjusted) bé hơn mức ý nghĩa α, ta cũng có kết luận tương tự.

Như vậy bảng kết quả trên cho ta thấy sự khác biệt về chiều cao cây của cả 3 chế độ tưới đều có ý nghĩa.

Ta cũng có thể biểu diễn kết quả so sánh này dưới dạng biểu đồ bằng đoạn lệnh:

 par(mar = c(5, 8, 4, 2))
 plot(kt, las = 1, col = "red")
 abline(v = 0, lty = "64", col = "blue", lwd = 2)

Trong đoạn lệnh trên, câu lệnh thứ hai là quan trọng nhất, dùng để vẽ. Hai câu lệnh còn lại điều chỉnh một số chi tiết của biểu đồ để tăng tính mỹ thuật. Kết quả được trình bày trên Hình 1.

Hình 1 So sánh chiều cao của các chế độ tưới

Trong Hình 1, trục hoành biểu diễn độ chênh lệch của trung bình chiều cao cây của các nhóm, đường "0" thẳng đứng màu xanh tương ứng với độ chênh lệch bằng 0. Khoảng ước lượng cho hiệu số của trung bình chiều cao cây giữa các nhóm được biểu thị bằng các đoạn màu đỏ. Cả ba đoạn đều nằm bên phải của đường "0" màu xanh. Điều này cho thấy sự khác biệt về trung bình chiều cao cây của các chế độ tưới là có ý nghĩa.


Hiệp biến

 

Khái quát

Như đã trình bày trong phần trước, hiệp biến (covariate) là một biến độc lập, có thể có tác động đến đáp ứng, nhưng không phải là yếu tố mà ta quan tâm. Một tính chất khác của hiệp biến là có kiểu số và thường không thể tác động đến giá trị của hiệp biến mà chỉ có thể ghi nhận giá trị của nó.

Trong phân tích phương sai, để đánh giá chính xác hơn tác động của yếu tố chính, ta phải tách riêng tác động của hiệp biến đến đáp ứng. Chi tiết của phương pháp tách riêng này được trình bày trong phần thí nghiệm có hiệp biến.


Thí dụ

Ta mở rộng thí dụ về chiều cao cây và chế độ tưới bằng cách bổ sung thêm một biến mới là chiều cao cây con (ChCao_0) là chiều cao cây ở ngày 0. Bảng 2 trình bày các số liệu của thử nghiệm mở rộng này.

Bảng 2 Chiều cao của cây tương ứng với các chế độ tưới
Tưới ít ChCao_0   Tưới trung bình ChCao_0   Tưới nhiều ChCao_0
92 10 88 8 130 8
115 12 110 11 147 11
87 9 94 9 139 10
104 11 105 10 134 9
66 8 115 12 155 12
73 11 88 7 113 11
64 10 91 8 107 9
57 7 96 10 110 10
62 9 104 11 102 8
58 8 92 9 100 7

Đơn vị : cm

Ở đây, ta thấy chiều cao cây con không hoàn toàn giống nhau mà có sự khác biệt. Ở đây ta không quan tâm đến ảnh hưởng của thông số này đến chiều cao cây, nhưng chiều cao cây con có thể ảnh hưởng đến chiều cao cây, và ảnh hưởng này phải bị loại bỏ khi ta đánh giá tác động của chế độ tưới đến chiều cao cây.

Ta cũng dùng hàm aov của R để phân tích phương sai nhưng ở đây, chúng ta khai báo thêm hiệp biến như cú pháp sau:

 kqco <- aov(Chieu_Cao ~ ChCao_0 + CD_Tuoi, data = ccao)
summary(kqco)

Vì ChCao_0 có kiểu là số nên aov xử lý biến này theo cách riêng. Kết quả là:

> summary(kqco)
            Df Sum Sq Mean Sq F value   Pr(>F)    
ChCao_0      1   4304    4304   29.31 1.13e-05 ***
CD_Tuoi      2  10574    5287   36.01 3.22e-08 ***
Residuals   26   3818     147                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Nếu so sánh với khi xử lý không có hiệp biến, ta thấy `SS` của chế độ tưới không thay đổi (vẫn là 10.574), nhưng `SS` của sai lệch giảm đi đáng kể (3818 so với 8122). Do đó `MS` của sai lệch giảm đi, giá trị `F` của chế độ tưới tăng lên và giá trị `p` giảm xuống.


Phụ kiện "effect"

Ta có thể xem xét kỹ hơn nữa kết quả kqco bằng cách dùng phụ kiện "effects". Thí dụ như sử dụng hàm allEffects trong đoạn lệnh sau:

 cef <- allEffects(kqco)
summary(cef)

Kết quả thu được là :

> summary(cef)
 model: Chieu_Cao ~ ChCao_0 + CD_Tuoi

 ChCao_0 effect
ChCao_0
        7         8         9        10        11        12 
 79.97037  87.95556  95.94074 103.92593 111.91111 119.89630 

 Lower 95 Percent Confidence Limits
ChCao_0
        7         8         9        10        11        12 
 71.13143  81.52428  91.14715  99.13234 105.47984 111.05735 

 Upper 95 Percent Confidence Limits
ChCao_0
        7         8         9        10        11        12 
 88.80931  94.38683 100.73433 108.71952 118.34239 128.73524 

 CD_Tuoi effect
CD_Tuoi
        It      Nhieu Trung_Binh 
      77.8      123.7       98.3 

 Lower 95 Percent Confidence Limits
CD_Tuoi
        It      Nhieu Trung_Binh 
  69.92333  115.82333   90.42333 

 Upper 95 Percent Confidence Limits
CD_Tuoi
        It      Nhieu Trung_Binh 
  85.67667  131.57667  106.17667

Ta thấy trong bảng trên kết quả chi tiết về tác động của chế độ tưới và chiều cao cây con.

Ta cũng có thể dùng lệnh plot của phụ kiện này để thể hiện tác động của yếu tố và hiệp biến như dòng lệnh sau:

plot(cef)

Và thu được Hình 2.

Hình 2 Tác động của chiều cao cây con và chế độ tưới đến chiều cao cây



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 26/11/2018