Giả sử sau khi phân tích phương sai, ta kết luận được rằng yếu tố khảo sát có ảnh hưởng đến đáp ứng. Tuy nhiên ta vẫn chưa biết được tác động của hai nghiệm thức cụ thể có thực sự khác biệt hay không. Trong phần này chúng ta sẽ xem xét các phương pháp so sánh để thực hiện điều đó.
Sau khi phân tích phương sai, giả sử ta có `F_o > F`* hay `p < alpha`. Điều đó cho phép ta bác bỏ giả thuyết Ho (trung bình của mọi nghiệm thức đều như nhau) và chấp nhận Ha (có ít nhất hai nghiệm thức có trung bình khác nhau). Tuy nhiên điều đó không có nghĩa là trung bình mọi nghiệm thức đều khác nhau từng đôi một. Vì vậy ta cần so sánh trung bình của các nghiệm thức để đánh giá sự khác nhau giữa chúng có ý nghĩa thống kê hay không.
Để so sánh sự khác biệt giữa hai nghiệm thức `u` và `v`, ta đi so sánh trị số tuyệt đối của hiệu số `|bar y_u -bar y_v|`, ký hiệu là `D`, với một đại lượng được gọi là "độ chênh lệch có ý nghĩa", ký hiệu là `L`.
Giá trị của `L` tùy thuộc vào phương pháp dùng để so sánh.
Các phương pháp so sánh trung bình nghiệm thức có thể được xếp vào ba nhóm:
Thực ra, việc so sánh trị trung bình của các nghiệm thức thuộc về một nhóm kiểm định thống kê có quy mô rộng hơn gọi là trung thức (contrast). Trung thức là một biểu thức tuyến tính của các trị trung bình các nghiệm thức được định nghĩa là:
`C=sum_(i=1)^a c_i mu_i` | (19) |
Trong đó `c_i` là các hệ số của trung thức. Giữa các hệ số `c_i` này có sự ràng buộc sau:
`sum_(i=1)^a c_i=0` | (20) |
Thí dụ như khi đi so sánh trị trung bình giữa hai mức `u` và `v`, ta thực hiện kiểm định trung thức sau:
`C=mu_u-mu_v=0`
Trong đó `c_u=+1` ; `c_v=-1`
Một thí dụ khác, khi ta đi so sánh tổng của trị trung bình của hai mức 4 và 1 với tổng của trị trung bình của hai mức 2 và 3 thì ta thực hiện kiểm định trung thức sau:
`C=mu_4+mu_1-mu_2-mu_3=0`
Trong đó `c_4=c_1=+1` ; `c_2=c_3=-1`
Hay ta muốn so sánh nghiệm thức 2 và trung bình của các nghiệm thức 1, 3 và 4 thì ta kiểm định trung thức sau:
`C=mu_2-(mu_1+mu_3+mu_4)/3`
Trong đó `c_2=+1` ; `c_1=c_3=c_4=-1/3`
Trong nhóm các phương pháp so sánh không phân cấp, ta chỉ sử dụng một giá trị của "độ chênh lệch có ý nghĩa" `L` cho tất cả các cặp nghiệm thức.
LSD (least significant difference : sai biệt nhỏ nhất có ý nghĩa) do Fisher đề xuất. Đây là phương pháp khá thông dụng, đặc biệt trong lĩnh vực kỹ thuật. Trong phương pháp này, người ta so sánh trị số tuyệt đối của hiệu số `|bar y_u-bar y_v|` với giá trị `LSD` được xác định như sau:
`LSD=t_(alpha//2,a(n-1)) sqrt(MS_E (1/n_u+1/n_v))` | (21) |
trong đó `n_u` và `n_v` là số lần lặp lại của các nghiệm thức `u` và `v`. Nếu số lần lặp lại của các nghiệm thức đều là `n` như nhau thì:
`LSD=t_(alpha//2,a(n-1)) sqrt((2MS_E)/n)` | (22) |
Thí dụ : Ta sử dụng tiếp thí dụ về ảnh hưởng của tỷ lệ nguyên liệu A đến năng suất máy ép đùn trong sản xuất vật dụng bằng nhựa. Trong đó nguyên liệu A được thử nghiệm ở 4 tỷ lệ là 10%, 12%, 14%, và 16%, mỗi tỷ lệ được thực hiện với 5 lần lặp, thí nghiệm có 4 nghiệm thức, 20 đơn vị thí nghiệm. Trong phần phân tích phương sai, ta đã có kết luận là có ít nhất hai nghiệm thức có năng suất trung bình khác nhau. Ta hãy so sánh năng suất của các nghiệm thức.
Trong phần phân tích phương sai, ta đã có các kết quả sau :
`bar y_10=111,8\ ;\ bar y_12=114,8\ bar y_14=117,8\ ;\ bar y_16=120,4\ ;\ MS_E=19,975`.
Ngoài ra `t_(alpha//2, a(n-1))=t_(0,025, 16)=2,4729`
Vậy :
`LSD=2,4729xx sqrt((2xx19,975)/5) = 6,99`
Ta lập hiệu số của trung bình của tất cả các cặp nghiệm thức rồi trình bày trên Bảng 1.
`bar y_10=111,8` | `bar y_12=114,8` | `bar y_14=117,8` | `bar y_16=120,4` | |
---|---|---|---|---|
`bar y_10=111,8` | 3,0 | 6,0 | 8,6 | |
`bar y_12=114,8` | 3,0 | 5,6 | ||
`bar y_14=117,8` | 2,6 | |||
`bar y_16=120,4` |
Khi ta đối chiếu các giá trị trên Bảng 1 với `LSD`, ta thấy ngoại trừ hai nghiệm thức dùng 10% và 16% nguyên liệu A, còn sự khác biệt giữa các cặp nghiệm thức khác đều không có ý nghĩa thống kê ở độ tin cậy 95%.
Phương pháp này còn được gọi là HSD (honestly significant difference). Trong phương pháp này, độ chênh lệch có ý nghĩa `L` được tính như sau:
`L=(q_(alpha, a, df_E))/sqrt2 sqrt(MS_E (1/n_u+1/n_v))` | (23) |
Khi `n_u=n_v=n` thì :
`L=q_(alpha, a, df_E) sqrt((MS_E)/ n)` | (24) |
trong đó hệ số `q_(alpha, a, df_E)`` được xác định theo bảng Tukey-Kramer.
Phương pháp này được dùng nhiều trong các lĩnh vực y dược, khoa học xã hội, kinh tế.
Trong phương pháp này, độ chênh lệch có ý nghĩa `L` được xác định theo công thức:
`L=sqrt(MS_E (1/n_u+1/n_v)(a-1)F_(alpha, 1, N-a) )` | (25) |
Khi `n_u=n_v=n` thì :
`L=sqrt((2MS_E)/n (a-1)F_(alpha, 1, N-a) )` | (26) |
Khi so sánh ba phương pháp trên, ta có : `L_(LSD) < L_(HSD) < L_(Scheffé)`.
Vậy phương pháp LSD nhạy nhất do có khả năng phát hiện các độ sai lệch nhỏ, nhưng lại dễ mắc sai lầm loại I. Phương pháp Scheffé có `L` lớn nên có thể không phát hện được các khác biệt thực sự. Phương pháp HSD nằm ở vị trí trung gian của hai phương pháp trên.
Trong các phương pháp thuộc nhóm này, ta sắp xếp trung bình thành dãy thứ tự tăng dần. Sau đó tùy theo sự khác biệt về vị trí của hai nghiệm thức trong dãy trên (độ lệch cấp), ta sử dụng "độ chênh lệch có ý nghĩa" tương ứng.
Quá trình so sánh trung bình các nghiệm thức theo phương pháp Duncan được tiến hành theo trình tự sau:
`S=sqrt((2MS_E)/n)` | (27) |
`a/n_h = sum_(i=1)^a 1/n_i` | (28) |
`R_c=r_(alpha, c+1, df_E) S `(29)
trong công thức (29), `r_(alpha, c+1, df_E)` được xác định từ bảng Duncan.
Thí dụ : Sử dụng thí dụ về ảnh hưởng tỷ lệ nguyên liệu A đến năng suất máy ép đùn. Ta có:
Kết quả so sánh được thể hiện trên Bảng 2. Trong mỗi ô dùng để so sánh một cặp đôi trị trung bình, số liệu phía trên bên trái (màu đen) là hiệu số thu được từ kết quả thí nghiệm, số liệu phía dưới bên phải (màu xanh dương) là độ chênh lệch có ý nghĩa giữa hai cấp khảo sát. Qua đó ta thấy sự khác biệt giữa tất cả các cặp nghiệm thúc đều không có ý nghĩa thống kê theo phương pháp Duncan.
`bar y_1=111,8` | `bar y_2=114,8` | `bar y_3=117,8` | `bar y_4=120,4` | |
---|---|---|---|---|
`bar y_1=111,8` | 3,0 | 6,0 | 8,6 | |
8,474 | 8,887 | 9,144 | ||
`bar y_2=114,8` | 3,0 | 5,6 | ||
8,474 | 8,887 | |||
`bar y_3=117,8` | 2,6 | |||
8,474 | ||||
`bar y_4=120,4` | ||||
Cách tiến hành phương pháp này tương tự như phương pháp Duncan. Điểm khác biệt ở đây là độ chênh lệch có ý nghĩa `K_c` được xác định bởi công thức:
`K_c=q_(alpha, c+1, df_E) S`(29)
trong đó `q_(alpha, c+1, df_E)` được xác định theo bảng Tukey-Kramer.
Phương pháp này được dùng để so sánh `(a – 1)` nghiệm thức với nghiệm thức đối chứng. Trước hết ta đi tính toán `MS_E` cho toàn bộ `a` nghiệm thức. Sự khác biệt giữa nghiệm thức `i` và nghiệm thức đối chứng được thực hiện bằng cách so sánh hiệu số trị trung bình của hai nghiệm thức này với:
`L=d_(alpha, a-1, df_E) sqrt(MS_E(1/n_i+1/n_(dc)))` | (30) |
Nếu các nghiệm thức có số lần lặp lại như nhau là `n` thì so sánh hiệu số trị trung bình của hai nghiệm thức với:
`L=d_(alpha, a-1, df_E) sqrt((2MS_E)/n)` | (31) |
Trong các công thức (30) và (31), hệ số `d_(alpha, a-1, df_E)`` được xác định từ bảng Dunnet.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thiết kế thí nghiệm
Các chuyên đề
Xử lý dữ liệu
Ma trận
R