Hiểu một cách khái quát, phương sai là "bình phương" của "sai lệch". Trong phân tích phương sai:
Như vậy, với một bộ số liệu cho trước, ta có một số "loại" phương sai khác nhau.
Trong phân tích phương sai, ta so sánh, đối chiếu, tìm mối quan hệ giữa các loại phương sai. Từ đó rút ra các kết luận cần thiết về trung bình giữa các tổng thể.
Xét `a` tổng thể được phân biệt với nhau bằng yếu tố A (như tông màu yêu thích trong thí dụ). Lấy từ mỗi tổng thể một nhóm có `n` phần tử (để đơn giản, `n` là giống nhau cho cả `a` nhóm). Vậy số phần tử lấy ra là `an`. Gọi `Y` là biến mà ta quan tâm, giá trị của `Y` sẽ thay đổi cho `an` phần tử khảo sát. Gọi `y_(ij)` là giá trị của `y` cho phần tử thứ `j` của nhóm `i`. Với mỗi nhóm, ta có giá trị trung bình của nhóm `(bar y_1,bar y_2,\ ...)`; với toàn bộ `an` phần tử, ta có số trung bình chung `bar y`. Những điểm trên được thể hiện trên Bảng 1 và Hình 1.
Phần tử | Trung bình | |||||||
---|---|---|---|---|---|---|---|---|
thứ 1 | thứ 2 | . . . | thứ `j` | . . . | thứ `n` | |||
Nhóm | 1 | `y_(11)` | `y_(12)` | . . . | `y_(1i)` | . . . | `y_(1n)` | `bar y_1` |
2 | `y_(21)` | `y_(22)` | . . . | `y_(2i)` | . . . | `y_(2n)` | `bar y_2` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`i` | `y_(i1)` | `y_(i2)` | . . . | `y_(ij)` | . . . | `y_(in)` | `bar y_i` | |
. . . | . . . | . . . | . . . | . . . | . . . | . . . | . . . | |
`a` | `y_(a1)` | `y_(a2)` | . . . | `y_(ai)` | . . . | `y_(an)` | `bar y_a` |
Hình 1 là một thí dụ minh họa với 4 nhóm và 4 phần tử mỗi nhóm.
Hình 1 Sự phân phối của `y` trong các nhóm
Giá trị `y` thay đổi do hai nguyên nhân : do tác động của yếu tố A và do các sai số mang tính ngẫu nhiên E. Sự biến động của `y` do tác động của yếu tố A được đặc trưng bới :
`SS_A=nsum_(i=1)^a (bar y_i-bar y)^2`(1)
với `SS` (sum of squares) dùng để chỉ tổng bình phương sai lệch hay vắn tắt hơn "tổng bình phương".
Còn sự biến động của `y` do các sai số ngẫu nhiên được đặc trưng bởi :
`SS_E=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y_i)^2`(2)
Người ta cũng định nghĩa tổng bình phương sai lệch chung `SS_T` (gọi tắt là tổng bình phương chung) bằng công thức :
`SS_T=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y)^2`(3)
Vậy ta thấy có 3 loại sai lệch về mặt giá trị: giữa từng phần tử và số trung bình chung (thể hiện bằng `SS_T`), giữa phần tử và số trung bình của nhóm chứa phần tử đó (thể hiện bằng `SS_E`), và giữa số trung bình của nhóm và số trung bình chung (thể hiện bằng `SS_A`).
Người ta cũng chứng minh được rằng :
`SS_T=SS_A+SS_E`(4)
Người ta cũng định nghĩa thêm :
`MS_A=(SS_A)/(a-1)` | (5) |
`MS_E=(SS_E)/(a(n-1))` | (6) |
Trong đó `MS` (mean of square) là trung bình của các bình phương sai lệch, gọi tắt là trung bình bình phương; mẫu số của `MS_A` và `MS_E` là các độ tự do `df_A` và `df_E` theo thứ tự.
Người ta cũng chứng minh được rằng tỷ số `F` :
`F=(MS_A)/(MS_E)` | (7) |
có phân phối Fisher với các độ tự do `df_A` và `df_E`.
Như vậy `F` thể hiện mức độ khác biệt giữa độ biến động do yếu tố A và độ biến động do sai số ngẫu nhiên.
Từ các số liệu thu thập, ta xác định được giá trị `F_o` đặc trưng cho mẫu. Theo nguyên tắc của kiểm định giả thuyết thống kê, ta so sánh `F_o` với giá trị tới hạn `F`*.
Vì đây là kiểm định một phía với vùng bác bỏ bên phải với mức ý nghĩa `alpha` nên `F"*"=F_(alpha,a-1,a(n-1))`.
Nếu :
Khi ta sử dụng các phần mềm để xử lý dữ liệu, kết quả của phân tích phương sai thường được trình bày ở dạng tương tự như Bảng 2.
Nguồn biến động | Độ tự do | `SS` | `MS` | `F_o` | `F`* | Giá trị `p` |
---|---|---|---|---|---|---|
Yếu tố | `a-1` | `SS_A` | `MS_A` | `(MS_A)/(MS_E)` | `F_(alpha,\ a-1,\ a(n-1))` | |
Sai số | `a(n-1)` | `SS_E` | `MS_E` | |||
Tổng | `an-1` | `SS_T` |
Tính toán phân tích phương sai bằng thủ công tốn nhiều công sức. Đặc biệt là có thể có sự lan truyền sai số do làm tròn số trung bình nếu ta sử dụng các công thức (1), (2), (3). Để giảm nhẹ khối lượng tính toán cũng như nâng cao độ chính xác, người ta thường tính toán theo cách như dưới đây.
Để việc trình bày các công thức được ngắn gọn hơn, ta sử dụng các ký hiệu sau:
`y_(iꔷ)=sum_(j=1)^n y_(ij)`(8)
và `y_(ꔷꔷ)=sum_(i=1)^a sum_(j=1)^n y_(ij)`(9)
Để tính `SS_T` và `SS_A` được thuận tiện hơn cũng như để giảm sai số, ta sử dụng các công thức sau:
`SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)`(10)
`SS_A=1/nsum_(i=1)^a y_(iꔷ)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)`(11)
với : | `HC=y_(ꔷ ꔷ)^2/(an)` | (12) |
`HC` được gọi là số hiệu chỉnh.
Thí dụ dưới đây sẽ làm rõ thêm những điểm ta vừa xem xét.
Ta sẽ phân tích thí dụ về ảnh hưởng của màu sắc đến chỉ số `IQ` mà ta đã đề cập ở phần đầu chương này. Ta sẽ phát triển thêm bảng số liệu đã có theo hướng tính toán thủ công bằng cách thêm dòng và thêm cột như được trình bày ở Bảng 3.
Nhóm A | Nhóm B | Nhóm C | `sum` | |
---|---|---|---|---|
102 | 89 | 51 | ||
88 | 100 | 76 | ||
106 | 92 | 90 | ||
93 | 76 | 117 | ||
98 | 64 | 103 | ||
104 | 104 | 64 | ||
90 | 66 | 64 | ||
103 | 98 | 50 | ||
99 | 90 | 89 | ||
92 | 82 | 67 | ||
`y_(iꔷ)` | 975 | 861 | 771 | 2607 |
`y_(iꔷ)^2` | 950.625 | 741.321 | 594.441 | 2.286.387 |
`sum y_(ij)^2` | 95.427 | 75.857 | 63.877 | 235.161 |
Trung bình | 97,5 | 86,1 | 77,1 |
Từ Bảng 3, ta có các kết quả sau
`y_(ꔷ ꔷ)=sum_(i=1)^a sum_(j=1)^n y_(ij)=2607` `sum_(i=1)^a sum_(j=1)^n y_(ij)^2=235.161`
`sum_(i=1)^a y_(iꔷ)^2=2.286.387` `HC=y_(ꔷ ꔷ)^2/(an)=2607^2/(3xx10)=226.548,3`
Vậy :
`SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)=235.161-226.548,3=8612,7`
`SS_A=1/nsum_(i=1)^a y_(iꔷ)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)=2.286.387/10-226.548.3=2090,4`
`SS_E=SS_T-SS_A=8612,7-2090,4=6522,3`
`MS_A=(SS_A)/(a-1)=(2090,4)/(3-1)=1045,2`
`MS_E=(SS_E)/(a(n-1))=(6522,3)/(3xx(10-1))=241,567`
`F_o=(MS_A)/(MS_E)=(1045,2)/(241,567)=4,327`
Giá trị tới hạn của `F` trong trường hợp này là:
`F"*"=F_(alpha,a-1,a(n-1))=F_(0,05,2,27)=3,354`.
Vì `F_o>F"*"` nên ta kết luận màu sắc ưa thích có ảnh hưởng đến chỉ số `IQ`.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R