Thí nghiệm có chia khối

Khái quát

Trong một số thí nghiệm, ngoài yếu tố khảo sát chính, còn có một số yếu tố gây nhiễu khác cũng có thể ảnh hưởng đến đáp ứng, thí dụ như nguồn gốc của nguyên liệu. Các yếu tố đặc biệt này tương đối khó xác định một cách cụ thể các tính chất của nó, thậm chí ta cũng không biết chắc là nó có ảnh hưởng gì đến đáp ứng hay không. Trong trường hợp này, để có thể nâng cao độ chính xác của kết quả xử lý dữ liệu, người ta dùng phương pháp chia khối (blocking),

Chia khối giúp ta phát hiện được tác động của yếu tố gây nhiễu, mức độ của tác động này và tách ra khỏi sai số chung. Nhờ đó có thể đánh giá chính xác hơn tác động của yếu tố chính.

Phương pháp chia khối

Xem xét thí nghiệm khảo sát ảnh hưởng của yếu tố A (gồm `a` mức) đến đáp ứng `Y`. Bên cạnh đó, ta nghi ngờ yếu tố gây nhiễu B cũng có ảnh hưởng đến `Y`. Gọi `b` là số mức của yếu tố gây nhiễu B. Ta sẽ chia `N` đơn vị thí nghiệm làm `b` khối đều nhau, mỗi khối tương ứng với một mức của yếu tố B, trong mỗi khối đều có đủ `a` mức của yếu tố A. Như vậy thí nghiệm sẽ có `ab` "nghiệm thức" (ta đặt nghiệm thức trong dấu ngoặc kép vì ta không xem B như yếu tố tác động chính). Nếu mỗi "nghiệm thức" được thực hiện với `n` lần lặp thì thí nghiệm sẽ gồm `abn` đơn vị thí nghiệm.

Sau khi thực hiện thí nghiệm, ta thu được `abn` kết quả của đáp ứng `Y` và trình bày trong Bảng 1 sau:

Bảng 1 Giá trị của đáp ứng `Y` cho `abn` đơn vị thí nghiệm
		Yếu tố A						Trung bình
		Mức 1	Mức 2	. . .	Mức `i`	. . .	Mức `a`	Trung bình
Yếu tố B	Mức 1	`y_(11)`	`y_(21)`	. . .	`y_(i1)`	. . .	`y_(a1)`	`bar y_(b1)`
	Mức 2	`y_(12)`	`y_(22)`	. . .	`y_(i2)`	. . .	`y_(a2)`	`bar y_(b2)`
	. . .	. . .	. . .	. . .	. . .	. . .	. . .
	Mức `j`	`y_(1j)`	`y_(2j)`	. . .	`y_(ij)`	. . .	`y_(aj)`	`bar y_(bj)`
	. . .	. . .	. . .	. . .	. . .	. . .	. . .	. . .
	Mức `b`	`y_(1n)`	`y_(2n)`		`y_(i n)`	. . .	`y_(aa)`	`bar y_(b b)`
Trung bình		`bar y_(a1)`	`bar y_(a2)`	. . .	`bar y_(ai)`	. . .	`bar y_(aa)`

Mỗi ô `ij` trên Bảng 1 tương ứng với một "nghiệm thức" thực hiện ở mức `i` của yếu tố A và mức `j` của yếu tố nhiễu B. Trong ô này có `n` giá trị của `Y` tương ứng với `n` lần lặp, và mỗi giá trị có ký hiệu tổng quát là `y_(ijk)`. Trung bình của n giá trị này là `bar y_(ij)`.
Với mỗi mức `i` của yếu tố A (tương ứng với một cột `i` trên Bảng 1), ta có số trung bình `bar y_(ai)` cho `bn` giá trị của đáp ứng `Y`.
Với mỗi mức `j` của yếu tố B (tương ứng với một dòng `j` trên Bảng 1), ta có số trung bình `bar y_(bj)` cho `an` giá trị của đáp ứng `Y`.
Ta có số trung bình chung `bar y` cho toàn bộ `N=abn` giá trị của đáp ứng Y.

Phân tích phương sai cho thí nghiệm có chia khối

Về mặt lý thuyết, người ta xem kết quả `y_(ijk)` được thể hiện dưới dạng:

`y_(ijk)=mu+tau_i+beta_j+epsilon_(ijk)`(42)

trong đó `mu` là trung bình của `abn` giá trị `y_(ijk)`; `tau;_i` là tác động của yếu tố A ở mức `i`; `beta_j` là tác động của yếu tố nhiễu B ở mức `j`; và `epsilon_(ijk)` là sai số ngẫu nhiên và tác động của các nhiễu không kiểm soát được.

Do ta khảo sát trong điều kiện hiệu lực khu trú và xem số lần lặp `n` giống nhau cho mọi "nghiệm thức" nên:

`sum_(i=1)^a tau_i =0`	(43)
`sum_(j=1)^b beta_j =0`	(44)

Như vậy khi phân tích phương sai, ngoài `SS_A` và `SS_E` ta có thêm một thừa số mới thể hiện tác động của yếu tố nhiễu là `SS_B` với:

`SS_B=a sum_(j=1)^b (bar y_(bj)-bar y)^2`

(45)

Và người ta cũng chứng minh được rằng:

`SS_T=SS_A+SS_B+SS_E`(46)

Trung bình bình phương cũng thêm một thành phần mới là:

`MS_B=(SS_B)/(b-1)`

(47)

Trung bình bỉnh phương của sai số viết lại là:

`MS_E=(SS_E)/((a-1)(b-1))`

(48)

Và các độ tự do `df_B=b-1 ; df_E=(a-1)(b-1)`.

Để đánh giá ảnh hưởng của yếu tố nhiễu B lên đáp ứng `Y`, ta đi tính

`F_(Bo)=(MS_B)/(MS_E)`

(49)

và so sánh với giá trị tới hạn `F`*`=F_(alpha, b-1, (a-1)(b-1)`.

Tùy thuộc kết quả so sánh, ta kết luận về ảnh hưởng của yếu tố nhiễu đến đáp ứng `Y`.

Khi ta sử dụng các phần mềm để xử lý dữ liệu, kết quả của phân tích phương sai thường được trình bày ở dạng tương tự như Bảng 2.

Bảng 2 Kết quả của phân tích phương sai thí nghiệm có chia khối
Nguồn biến động	Độ tự do	`SS`	`MS`	`F_o`	`F`*
Yếu tố A	`a - 1`	`SS_A`	`MS_A`	`(MS_A)/(MS_E)`	`F_(alpha, a-1, (a-1)(b-1)`
Yếu tố nhiễu B	`b-1`	`SS_B`	`MS_B`	`(MS_B)/(MS_E)`	`F_(alpha, b-1, (a-1)(b-1)`
Sai số	`(a-1)(b-1)`	`SS_E`	`MS_E`
Tổng	`N-1`	`SS_T`

Thí dụ

Ta mở rộng thêm thí dụ về ảnh hưởng của tỷ lệ nguyên liệu A đến năng suất máy ép đùn trong sản xuất vật dụng bằng nhựa. Trong đó nguyên liệu A được thử nghiệm ở 4 tỷ lệ là 10%, 12%, 14%, và 16%. Nguyên liệu A được cung cấp bởi 5 nhà cung ứng là D, E, H, K và M và được thử nghiệm ở cả 4 tỷ lệ. Vậy ta có 20 "nghiệm thức". Để tiết kiệm nguyên liệu, mỗi nghiệm thức chỉ được thực hiện với 1 đơn vị thí nghiệm, không lặp. Kết quả của thí nghiệm được trình bày ở Bảng 3.

Bảng 3 Năng suất của máy ép đùn trong 20 đơn vị thí nghiệm (đơn vị kg/h)
		Tỷ lệ nguyên liệu A (%)
		10	12	14	16
Nhà cung ứng	D	111	115	117	121
	E	106	109	112	116
	H	118	120	124	124
	K	115	118	122	123
	M	109	112	114	118

Ta sẽ dùng R để phân tích phương sai cho hai trường hợp: không xét đến ảnh hưởng của nhà cung ứng và có xét đến ảnh hưởng này.

Trước hết ta tạo ba biến là Ty_le_A, Cung_ung và Nang_suat để lưu trữ giá trị của các tỷ lệ nguyên liệu A, nhà cung ứng và năng suất

Ty_le_A <- rep(c(10,12,14,16), each = 5)
Cung_ung <- rep(c("D","E","H","K","M"), 4)
Nang_suat <- c(111,106,118,115,109, 115,109,120,118,112, 117,112,124,122,114, 121,116,124,123,118)

Hiện giờ Ty_le_A có kiểu số. Để phân tích phương sai, ta chuyển sang kiểu yếu tố bằng cách đặt thêm biến mới Ty_le_F với khai báo:

Ty_le_F <- as.factor(Ty_le_A)

Để phân tích phương sai, ta sử dụng hàm aov. Khi không xét đến ảnh hưởng của nhà cung ứng, ta có kết quả sau:

> summary(aov(Nang_Suat~Ty_le_F))
            Df Sum Sq Mean Sq F value Pr(>F)  
Ty_le_F      3  207.6   69.20   3.464 0.0413 *
Residuals   16  319.6   19.98                 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ta có lại các kết quả mà ta đã thu được trong thí dụ của phần phân tích phương sai:

`MS_A= 69,2 ; MS_E=19,98 ; F_o=3,464`

Nếu xét đến cả ảnh hưởng của nhà cung ứng đến năng suất, ta có kết quả:

> summary(aov(Nang_Suat~Ty_le_F+Cung_ung))
            Df Sum Sq Mean Sq F value Pr(>F)  
Ty_le_F      3  207.6   69.20   4.350 0.0272 *
Cung_ung     4  128.7   32.18   2.023 0.1551  
Residuals   12  190.9   15.91                 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

So với khi không xét ảnh hưởng của nhà cung ứng ta thấy:

Các thông số đặc trưng cho tỷ lệ nguyên liệu A không thay đổi; `SS_A` vẫn là 207,6; `MS_A` vẫn là 69,20.
Các thông số đặc trưng cho sai số ngẫu nhiên giảm đi: `SS_E` từ 319,6 giảm còn 190,9; `MS_E` từ 19,98 giảm xuống 15,91.
vì thế `F_o` tăng lên (3,464 tăng đến 4,350) và `p` giảm đi (0,0413 giảm đến 0,0272): tác động của nguyên liệu A lên `Y` được đánh giá cao hơn.

Ta thấy mặc dù tác động của nhà cung ứng không có ý nghĩa thống kê (`p = 0,1551` lớn hơn `alpha`), nhưng phân tích phương sai đã loại bỏ tác động của yếu tố nhiễu này khỏi sai số chung, `SS_E` và `MS_E` giảm đi. Vì thế tác động của tỷ lệ nguyên liệu A đến `Y` được đánh giá chính xác hơn.

Trang web này được cập nhật lần cuối ngày 27/11/2018

Thiết kế thí nghiệm

Sơ đồ site