Trong phần này, ta xét trường hợp đơn giản nhất của phân tích phương sai, chỉ gồm 1 yếu tố A, không có tác động của hiệp biến và chủ thể không lặp.
Trong dữ liệu khảo sát, yếu tố A có `a` giá trị, từ đó hình thành `a` nhóm. Trong mỗi nhóm có một số chủ thể, để việc khảo sát được đơn giản, ta xem số chủ thể của các nhóm đều như nhau là `n` (trường hợp cân bằng). Do chủ thể không lặp nên ta có tổng cộng `N=an` chủ thể. Mỗi chủ thể thứ `j` thuộc nhóm `i` có giá trị đáp ứng `Y` là `y_(ij)`. Như vậy giá trị của `N` đáp ứng `Y` có thể được trình bày ở Bảng 1 sau:
Nhóm `1` | Nhóm `2` | . . . | Nhóm `i` | . . . | Nhóm `a` | ||
---|---|---|---|---|---|---|---|
Chủ thể | `1` | `y_11` | `y_21 | . . . | `y_(i1)` | . . . | `y_(a1)` |
`2` | `y_12` | `y_22` | . . . | `y_(i2)` | . . . | `y_(a2)` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`j` | `y_(1j)` | `y_(2j)` | . . . | `y_(ij)` | . . . | `y_(aj)` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`n` | `y_(1n)` | `y_(2n)` | . . . | `y_(i n)` | . . . | `y_(an)` | |
Trung bình | `bar y_1` | `bar y_2` | . . . | `bar y_i` | . . . | `bar y_a` |
Trên Bảng 1, ngoài `N` giá trị của đáp ứng `Y`, ta thêm một dòng cho giá trị trung bình `bar y_i` của `n` chủ thể thuộc nhóm `i`.
Trong đại đa số trường hợp, giá trị trung bình của các nhóm không giống nhau. Nhưng điều đó không có nghĩa là các nhóm thực sự có sự khác biệt (hay sự khác biệt đó có ý nghĩa), vì ta thấy rằng ngay trong một nhóm, giá trị của `Y` cũng đâu giống nhau. Vì vậy để kết luận rằng sự khác biệt giữa các nhóm có ý nghĩa hay không, ta cần có cách để so sánh giá trị trung bình giữa các nhóm. Một trong những cách đó là phân tích phương sai.
Vì vậy, về thực chất, phân tích phương sai là một dạng của kiểm định thống kê, trong đó cập giả thuyết được phát biểu như sau:
Khi xem xét sự khác biệt về giá trị `Y` của các chủ thể, ta thấy sự khác biệt này do hai nguyên nhân chính:
Nếu sự khác biệt giữa các nhóm lớn hơn đáng kể so với sụ khác biệt trong nội bộ nhóm, thì giữa các nhóm thực sự có sự khác biệt, yếu tố A thực sự có tác động đến đáp ứng `Y`. Còn ngược lại, ta xem sự khác biệt giữa các nhóm không có ý nghĩa về mặt thống kê, yếu tố A không thực sự tác động đến `Y`.
Về mặt lý thuyết, theo mô hình tuyến tính hay tuyến tính mở rộng (generalized linear model), người ta xem kết quả `y_(ij)` được thể hiện dưới dạng:
`y_(ij)=mu+tau_i+e_(ij)`(1)
trong đó `mu` là trung bình của an giá trị `y_(ij)` ; `tau_i` là tác động của yếu tố A ở mức `i`; và `e_(ij)` là sự khác biệt do ngẫu nhiên và tác động của nhiễu.
Khi tiến hành phân tích phương sai, ta có một số giả định (hoặc điều kiện sau):
`sum_(i=1)^a n_itau_i = 0` | (2) |
`sum_(i=1)^a tau_i = 0` | (3) |
Tuy vậy, nếu một vài giả định không hoàn toàn thỏa đáng thì phân tích phương sai vẫn có hiệu quả trong phân tích dữ liệu và vẫn được sử dụng.
Hình 1 minh họa đáp ứng `Y` của `N` chủ thể thuộc `a` nhóm, `bar y_i` là trung bình của nhóm `i`, `bar y` là số trung bình chung của toàn bộ `N` giá trị `y_(ij)`.
Hình 1 Đáp ứng `Y` của `N` chủ thể thuộc `a` nhóm
Trong phân tích phương sai, phương sai được hiểu là bình phương của sai lệch. Trong trường hợp đang khảo sát, ta cần xem xét 3 loại sai lệch sau:
Tương ứng với ba loại sai lệch ấy, ta định nghĩa các tổng phương sai (tổng bình phương sai lệch: sum of squares) sau:
`SS_T=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y)^2` | (4) |
`SS_A=n sum_(i=1)^a (bar y_i-bar y)^2` | (5) |
`SS_E=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y_i)^2` | (6) |
Người ta chứng minh được rằng :
`SS_T=SS_A+SS_E`(7)
Người ta còn định nghĩa thêm :
`MS_A=(SS_A)/(a-1)` | (8) |
`MS_E=(SS_E)/(a(n-1))` | (9) |
Trong các công thức (8) và (9), `MS` (mean of square) là trunng bình của bình phương các sai lệch, trong chương này được gọi tắt là trung bình phương sai. Mẫu số của `MS_A` và `MS_E` lần lượt là các độ tự do của nghiệm thức `df_A` và của sai số `df_E`.
Vậy ta thấy `SS_A` và `MS_A` đặc trưng cho sai lệch giữa các nghiệm thức, còn `SS_E` và `MS_E` đặc trưng cho sự sai lệch trong nội bộ nhóm. Để đặc trưng cho mức độ chênh lệch giữa hai loại khác biệt này, người ta định nghĩa tỷ số `F` như sau:
`F=(MS_A)/(MS_E)` | (10) |
Người ta cũng chứng minh được rằng tỷ số F có phân phối Fisher với các độ tự do `df_A` và `df_E`.
Do phân tích phương sai là một dạng của kiểm định thống kê một phía nên để đánh giá tác động của yếu tố A đến đáp ứng `Y` tương ứng với độ tin cậy `1-alpha`, ta so sánh giá trị `F_o`, đặc trưng cho dữ liệu thí nghiệm, với giá trị tới hạn `F"*"=F_(alpha, a-1, a(n - 1)`.
Nếu :
Ngoài ra ta cũng có thể so sánh giá trị `p` với mức ý nghĩa `alpha` để kết luận về tác động của yếu tố A. Nếu:
Khi ta sử dụng các phần mềm để xử lý dữ liệu, kết quả của phân tích phương sai thường được trình bày ở dạng tương tự như Bảng 2.
Nguồn biến động | Độ tự do | `SS` | `MS` | `F_o` | `F`* | Giá trị `p` |
---|---|---|---|---|---|---|
Yếu tố | `a-1` | `SS_A` | `MS_A` | `(MS_A)/(MS_E)` | `F_(alpha, a-1, a(n - 1))` | |
Sai lệch | `a(n - 1)` | `SS_E` | `MS_E` | |||
Tổng | `N-1` | `SS_T` |
Trong một số trường hợp, ta không có cột `F"*"`. Ngoài ra, thứ tự của các cột có thể thay đổi đôi chút.
Trong trường hợp phải tính toán bằng thủ công, bạn có thể tham khảo thêm trong phần thí nghiệm 1 yếu tố.
Trong một vườn cây, để khảo sát ảnh hưởng của chế độ tưới đến chiều cao của cây, người ta thử nghiệm với 3 chế độ tưới: ít , trung bình và nhiều. Sau ba tháng, kết quả đo chiều cao của cây cho ở Bảng 3 (tập tin chieu-cao-cay.csv).
Ít | Trung bình | Nhiều |
---|---|---|
92 | 88 | 130 |
115 | 110 | 147 |
87 | 94 | 139 |
104 | 105 | 134 |
66 | 115 | 155 |
73 | 88 | 113 |
64 | 91 | 107 |
57 | 96 | 110 |
62 | 104 | 102 |
58 | 92 | 100 |
Đơn vị : cm
Ta sẽ dùng R để phân tích phương sai. Trước hết nhập dữ liệu từ tập tin chieu-cao-cay.csv vào R để tạo bảng dữ liệu với tên ccao. Trong bảng này có hai biến mà ta quan tâm là CD_Tuoi (chế độ tưới) và Chieu_Cao (chiều cao cây sau ba tháng). Sau đó dùng hàm aov
của R để phân tích ảnh hưởng của chế độ tưới đến chiều cao cây, lưu kết quả vào R và dùng hàm summary
để xem kết quả theo đoạn lệnh sau:
kq <- aov(Chieu_Cao ~ CD_Tuoi, data = ccao)
summary(kq)
Kết quả xử lý thu được như sau :
> summary(kq)
Df Sum Sq Mean Sq F value Pr(>F)
CD_Tuoi 2 10574 5287 17.58 1.29e-05 ***
Residuals 27 8122 301
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ta thấy kết quả R xuất ra gần tương tự như Bảng 2 (không có dòng cuối). Qua đó ta có thể kết luận chế độ tưới có ảnh hưởng đáng kể đến chiều cao của cây với `p=0,0000129` bé hơn nhiều so với `alpha=0,05`.
Để biết thêm một vài chi tiết liên quan đến kết quả xử lý, ta có thể dùng lệnh model.tables
với đối số kq và thêm vào các đối số "mean"
và se
để có kết quả như sau:
> model.tables(kq, "mean", se = TRUE)
Tables of means
Grand mean
99.93333
CD_Tuoi
CD_Tuoi
It Nhieu Trung_Binh
77.8 123.7 98.3
Standard errors for differences of means
CD_Tuoi
7.756
replic. 10
Qua kết quả này, ta thấy chiều cao cây trung bình tương ứng với các chế độ tưới ít, trung bình và nhiều lần lượt là 77,8 cm, 98,3 cm, 123,7 cm. Chiều cao trung bình của toàn bộ 30 cây trong thử nghiệm là 99,93333 cm. Sai số chuẩn của độ chênh lệch chiều cao cây trung bình là 7,756 cm.
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R