Xét thí nghiệm khảo sát ảnh hưởng của yếu tố A đến các đáp ứng `Y`. Yếu tố A được khảo sát ở `a` mức, tương ứng với `a` nghiệm thức. Trong mỗi nghiệm thức `i`, ta thực hiện một số lần lặp. Để đơn giản ta dùng số lần lặp `n` như nhau cho tất cả các nghiệm thức (thí nghiệm cân bằng). Như vậy ta có `N=an` đơn vị thí nghiệm. Kết quả xác định đáp ứng `Y` cho `N` đơn vị thí nghiệm này được trình bày ở Bảng 1.
Yếu tố A | |||||||
---|---|---|---|---|---|---|---|
Mức 1 | Mức 2 | . . . | Mức `i` | . . . | Mức `a` | ||
Lần lặp | 1 | `y_(11)` | `y_(21)` | . . . | `y_(i1)` | . . . | `y_(a1)` |
2 | `y_(12)` | `y_(22)` | . . . | `y_(i2)` | . . . | `y_(a2)` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`j` | `y_(1j)` | `y_(2j)` | . . . | `y_(ij)` | . . . | `y_(aj)` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`n` | `y_(1n)` | `y_(2n)` | `y_(i n)` | . . . | `y_(an)` | ||
Trung bình | `bar y_1` | `bar y_2` | . . . | `bar y_i` | . . . | `bar y_a` |
Trên Bảng 1, với mỗi đơn vị thí nghiệm `ij` tương ứng với mức `i` của yếu tố A và lần lặp thứ `j`, ta thu được đáp ứng `y_(ij)`. Với mỗi mức `i`, ta có số trung bình `bar y_i` của đáp ứng `Y` cho `n` lần lặp.
Khi giá trị trung bình của đáp ứng tại các mức không giống nhau, ta chưa thể kết luận được là yếu tố A có tác động đến `Y`, vì sự khác biệt đó có thể chỉ là ngẫu nhiên, do tác động của các sai số gặp phải trong quá trình thí nghiệm, đo đạc hay tính toán, hoặc do các yếu tố khác mà ta không khống chế được (nhiễu).
Khi xem xét sự thay đổi của đáp ứng `Y` qua các đơn vị thí nghiệm, ta thấy sự biến động này do hai nguyên nhân chính:
Nếu sự biến động giữa các nghiệm thức lớn hơn đáng kể so với biến động trong nội bộ nghiệm thức, thì giữa các nghiệm thức thực sự có sự khác biệt, yếu tố A thực sự có tác động đến đáp ứng `Y`. Còn ngược lại, ta xem sự khác biệt giữa các nghiệm thức không có ý nghĩa về mặt thống kê, yếu tố A không thực sự tác động đến `Y`.
Để đặc trưng cho sự biến động, ta sử dụng phương sai. Để đánh giá mức độ khác biệt giữa hai sự biến động ấy, ta cần một chỉ tiêu. Vì vậy, phân tích phương sai là một dạng của kiểm định thống kê trong đó cập giả thuyết được phát biểu như sau :
Về mặt lý thuyết theo mô hình tuyến tính, người ta xem kết quả `y_(ij)` được thể hiện dưới dạng:
`y_(ij)=mu+tau_i+epsilon_(ij)`(1)
trong đó `mu` là trung bình của `an` giá trị `y_(ij)` ; `tau_i` là tác động của yếu tố A ở mức `i` ; và `epsilon_(ij)` là sai số ngẫu nhiên và tác động của nhiễu.
Khi tiến hành phân tích phương sai, ta có một số giả định (hoặc điều kiện sau) :
`sum_(i=1)^a n_i tau_i=0 ` | (2) |
`sum_(i=1)^a tau_i=0` | (3) |
Tuy vậy, nếu một vài giả định không hoàn toàn thỏa đáng thì phân tích phương sai vẫn có hiệu quả trong phân tích dữ liệu và vẫn được sử dụng.
Hình 1 minh họa đáp ứng `Y` thu được trong `N` đơn vị thí nghiệm, trong đó `a` là số nghiệm thức, `bar y_i` là số trung bình tại nghiệm thức `i`, `bar y` là số trung bình chung của toàn bộ `N` giá trị `y_(ij)`.
Hình 1 Đáp ứng `Y` thu được trong `N` đơn vị thí nghiệm
Theo nghĩa thông thường, phương sai là bình phương của các sai lệch. Ở đây, chúng ta quan tâm đến các sai lệch sau:
Để đặc trưng cho sự biến động giữa các nghiệm thức, ta sử dụng `SS_A` được định nghĩa như sau:
`SS_A=n sum_(i=1)^a (bar y_i-bar y)^2` | (4) |
Để đặc trưng cho sự biến động trong nội bộ các nghiệm thức, ta sử dụng `SS_E` được định nghĩa như sau:
`SS_E=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y_i)^2` | (5) |
Ta cũng định nghĩa
`SS_T=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y)^2` | (6) |
Trong các công thức (4),(5) và (6), `SS` (sum of squares) là tổng của bình phương các sai lệch, trong chương này được gọi tắt là tổng bình phương.
Người ta cũng chứng minh được :
`SS_T=SS_A+SS_E`(7)
Người ta còn định nghĩa thêm :
`MS_A=(SS_A)/(a-1)` | (8) |
`MS_E=(SS_E)/(a(n-1))` | (9) |
Trong các công thức (8) và (9), `MS` (mean of square) là trunng bình của bình phương các sai lệch, trong chương này được gọi tắt là trung bình bình phương. Mẫu số của `MS_A` và `MS_E` lần lượt là các độ tự do của nghiệm thức `df_A` và của sai số `df_E`.
Vậy ta thấy `SS_A` và `MS_A` đặc trưng cho biến động giữa các nghiệm thức, còn `SS_E` và `MS_E` đặc trưng cho sự biến động trong nội bộ nghiệm thức. Để đặc trưng cho mức độ khác biệt giữa hai loại biến động này, người ta định nghĩa tỷ số `F` như sau:
`F=(MS_A)/(MS_E)` | (10) |
Người ta cũng chứng minh được rằng tỷ số `F` có phân phối Fisher với các độ tự do `df_A` và `df_E`.
Do phân tích phương sai là một dạng của kiểm định thống kê một phía nên để đánh giá tác động của yếu tố A đến đáp ứng `Y` tương ứng với độ tin cậy `1-alpha`, ta so sánh giá trị `F_o`, đặc trưng cho dữ liệu thí nghiệm, với giá trị tới hạn `F"*"=F_(alpha, a-1, a(n-1)`.
Nếu :
Khi ta sử dụng các phần mềm để xử lý dữ liệu, kết quả của phân tích phương sai thường được trình bày ở dạng tương tự như Bảng 2.
Nguồn biến động | Độ tự do | `SS` | `MS` | `F_o` | `F`* | Giá trị `p` |
---|---|---|---|---|---|---|
Yếu tố | `a-1` | `SS_A` | `MS_A` | `(MS_A)/(MS_E)` | `F_(alpha, a-1, a(n-1)` | |
Sai số | `a(n-1`) | `SS_E` | `MS_E` | |||
Tổng | `N-1` | `SS_T` |
Trong một số trường hợp, ta không có cột `F`*. Ngoài ra, thứ tự của các cột có thể thay đổi đôi chút.
Tính toán phân tích phương sai bằng thủ công tốn nhiều công sức. Đặc biệt là có thể có sự lan truyền sai số do làm tròn số trung bình nếu ta sử dụng các công thức (4), (5), (6). Để giảm nhẹ khối lượng tính toán cũng như nâng cao độ chính xác, người ta thường tính toán theo cách như dưới đây.
Để việc trình bày các công thức được ngắn gọn hơn, ta sử dụng các ký hiệu sau:
`y_(i•)=sum_(j=1)^n y_(ij)` | (11) |
`y_(••)=sum_(i=1)^a sum_(j=1)^n y_(ij)` | (12) |
Để tính `SS_T` và `SS_A` được thuận tiện hơn cũng như để giảm sai số, ta sử dụng các công thức sau:
`SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2-y_(••)^2/(an)` | (13) |
`SS_A=1/n sum_(i=1)^a y_(i•)^2-y_(••)^2/(an)` | (14) |
`HC=y_(••)^2/(an)` | (15) |
`HC` được gọi là số hiệu chỉnh (correction factor).
Khi số lần lặp `n_i` ở các nghiệm thức không giống nhau, ta có kiểu bố trí không cân bằng. Khi ấy tổng số đơn vị thí nghiệm `N` là:
`N=sum_(i=1)^a n_i ` | (16) |
và `SS_A` được tính theo công thức :
`SS_A=sum_(i=1)^a (y_(i•)^2)/(n_i) -y_(••)^2/(an)` | (17) |
Sau đó, tiến trình phân tích cũng tương tự như trường hợp cân bằng.
Theo Montgomery (2001), bố trí cân bằng cho thí nghiệm 1 yếu tố có lợi thế hơn ở hai điểm, thứ nhất, nếu phương sai giữa các nghiệm thức không hoàn toàn bằng nhau, phân tích phương sai vẫn không bị ảnh hưởng đáng kể. Thứ hai, độ nhạy khi bố trí cân bằng cao hơn. Một số tác giả khác cũng cho rằng khi bố trí cân bằng, tính bình ổn (robust) cũng cao hơn (Toutenburg, 2002).
Ta sử dụng lại thí dụ về ảnh hưởng của tỷ lệ nguyên liệu A đến năng suất máy ép đùn trong sản xuất vật dụng bằng nhựa đã đề cập ở đầu chương. Trong đó nguyên liệu A được thử nghiệm ở 4 tỷ lệ là 10%, 12%, 14%, và 16%, mỗi tỷ lệ được thực hiện với 5 lần lặp. Như vậy thí nghiệm có 4 nghiệm thức, 20 đơn vị thí nghiệm.
Ta sẽ phát triển thêm bảng số liệu đã có theo hướng tính toán thủ công bằng cách thêm dòng và thêm cột và tính toán trước các thừa số trong các công thức (11) đến (15). Kết quả được trình bày ở Bảng 3.
Tỷ lệ nguyên liệu A (%) | `Sigma` | ||||
---|---|---|---|---|---|
10 | 12 | 14 | 16 | ||
111 | 112 | 117 | 116 | ||
106 | 118 | 124 | 118 | ||
118 | 120 | 122 | 124 | ||
115 | 109 | 114 | 121 | ||
109 | 115 | 112 | 123 | ||
`y_(i•)` | 559 | 574 | 589 | 602 | 2324 |
`y_(i•)^2` | 312.481 | 329.476 | 346.921 | 362.404 | 1.351.282 |
`sum y_(ij)^2` | 62.587 | 65.974 | 69.489 | 72.526 | 270.576 |
Trung bình | 111,8 | 114,8 | 117,8 | 120,4 |
Từ Bảng 3 ta có các kết quả sau :
`y_(••)=sum_(i=1)^a sum_(j=1)^n y_(ij)=2324\ ; sum_(i=1)^a sum_(j=1)^n y_(ij)^2=270.576\ ; sum_(i=1)^a y_(i•)^2=1.351.282`
Vậy :
`HC=(y_(••)^2)/(an)=2324^2/(4xx5)=270.048,8`
`SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2-y_(••)^2/(an)=270.576-270.048,8=527,2`
`SS_A=1/n sum_(i=1)^a y_(i•)^2-y_(••)^2/(an)=(1.351.282)/5-270.048,8=207,6`
`SS_E=SS_T-SS_A=527,2-207,6=319,6`
`MS_A=(SS_A)/(a-1)=(207,6)/(4-1)=69,2`
`MS_E=(SS_E)/(a(n-1))=(319,6)/(4xx(5-1))=19,975`
`F_o=(MS_A)/(MS_E)=(69,2)/(19,975)=3,4643`
Giá trị tới hạn của F trong trường hợp này là :
`F`*`=F_(alpha, a-1, a(n-1))=F_(0,05, 3, 16)=3,2389`
Vì `F_o > F`* nên ta kết luận tỷ lệ nguyên liệu A có tác động đến năng suất của máy ép đùn.
Ghi chú : Bạn có thể tìm hiểu về cách sử dụng R để giải quyết vấn đề này tại chương "Phân tích phương sai một yếu tố" của phần "Dữ liệu đa biến".
Giả sử yếu tố A có tác động thực sự đến đáp ứng `Y` thì phân tích phương sai chưa cho ta biết được mức độ của tác động này là mạnh hay yếu. Để xác định được mức độ tác động này (effect size) ta sử dụng hệ số sau:
`eta^2=(SS_A)/(SS_T)` | (18) |
Giá trị của `eta^2` càng lớn, tác động của yếu tố A đến đáp ứng `Y` càng mạnh.
Trong thí dụ trên, ta có :
`eta^2=(207,6)/(527,2)=0,393`
Vậy tác động của tỷ lệ nguyên liệu A đến năng suất máy ép đùn chỉ ở mức trung bình.
Ghi chú : Nếu chúng ta đối chiếu định nghĩa của `eta^2` với định nghĩa của `R^2` trong hồi quy thì hai định nghĩa này tương đồng nhau. Vì thế, trong phần trình bày kết quả của nhiều phần mềm xử lý dữ liệu, ta thấy sử dụng ký hiệu `R^2` thay vì `eta^2`.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thiết kế thí nghiệm
Các chuyên đề
Xử lý dữ liệu
Ma trận
R