logo xDuLieu.com

Trang trướcCơ sở của phân tích phương saiTrang sau

Khái quát về phương sai

 

Hiểu một cách khái quát, phương sai là "bình phương" của "sai lệch". Trong phân tích phương sai:

  • "sai lệch" là hiệu số của một giá trị nào đó với một trung bình hay giữa hai trung bình với nhau.
  • ta có một số "loại" bình phương khác nhau : tổng bình phương, trung bình bình phương, . . .

Như vậy, với một bộ số liệu cho trước, ta có một số "loại" phương sai khác nhau.

Trong phân tích phương sai, ta so sánh, đối chiếu, tìm mối quan hệ giữa các loại phương sai. Từ đó rút ra các kết luận cần thiết về trung bình giữa các tổng thể.


Cơ sở của phân tích phương sai

 

Xét `a` tổng thể được phân biệt với nhau bằng yếu tố A (như tông màu yêu thích trong thí dụ). Lấy từ mỗi tổng thể một nhóm có `n` phần tử (để đơn giản, `n` là giống nhau cho cả `a` nhóm). Vậy số phần tử lấy ra là `an`. Gọi `Y` là biến mà ta quan tâm, giá trị của `Y` sẽ thay đổi cho `an` phần tử khảo sát. Gọi `y_(ij)` là giá trị của `y` cho phần tử thứ `j` của nhóm `i`. Với mỗi nhóm, ta có giá trị trung bình của nhóm `(bar y_1,bar y_2,\ ...)`; với toàn bộ `an` phần tử, ta có số trung bình chung `bar y`. Những điểm trên được thể hiện trên Bảng 1 và Hình 1.

Bảng 1 Giá trị của biến `Y` cho `an` phần tử khảo sát
Phần tử Trung
bình
thứ 1 thứ 2 . . . thứ `j` . . . thứ `n`
Nhóm 1 `y_(11)` `y_(12)` . . . `y_(1i)` . . . `y_(1n)` `bar y_1`
2 `y_(21)` `y_(22)` . . . `y_(2i)` . . . `y_(2n)` `bar y_2`
. . . . . . . . . . . . . . . . . . . . . . . .
`i` `y_(i1)` `y_(i2)` . . . `y_(ij)` . . . `y_(in)` `bar y_i`
. . . . . . . . . . . . . . . . . . . . . . . .
`a` `y_(a1)` `y_(a2)` . . . `y_(ai)` . . . `y_(an)` `bar y_a`

Hình 1 là một thí dụ minh họa với 4 nhóm và 4 phần tử mỗi nhóm.

AY y y1y2y3y4

Hình 1 Sự phân phối của `y` trong các nhóm

Giá trị `y` thay đổi do hai nguyên nhân : do tác động của yếu tố A và do các sai số mang tính ngẫu nhiên E. Sự biến động của `y` do tác động của yếu tố A được đặc trưng bới :

`SS_A=nsum_(i=1)^a (bar y_i-bar y)^2`(1)

với `SS` (sum of squares) dùng để chỉ tổng bình phương sai lệch hay vắn tắt hơn "tổng bình phương".

Còn sự biến động của `y` do các sai số ngẫu nhiên được đặc trưng bởi :

`SS_E=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y_i)^2`(2)

Người ta cũng định nghĩa tổng bình phương sai lệch chung `SS_T` (gọi tắt là tổng bình phương chung) bằng công thức :

`SS_T=sum_(i=1)^a sum_(j=1)^n (y_(ij)-bar y)^2`(3)

Vậy ta thấy có 3 loại sai lệch về mặt giá trị: giữa từng phần tử và số trung bình chung (thể hiện bằng `SS_T`), giữa phần tử và số trung bình của nhóm chứa phần tử đó (thể hiện bằng `SS_E`), và giữa số trung bình của nhóm và số trung bình chung (thể hiện bằng `SS_A`).

Người ta cũng chứng minh được rằng :

`SS_T=SS_A+SS_E`(4)

Người ta cũng định nghĩa thêm :

`MS_A=(SS_A)/(a-1)`(5)
`MS_E=(SS_E)/(a(n-1))`(6)

Trong đó `MS` (mean of square) là trung bình của các bình phương sai lệch, gọi tắt là trung bình bình phương; mẫu số của `MS_A` và `MS_E` là các độ tự do `df_A` và `df_E` theo thứ tự.

Người ta cũng chứng minh được rằng tỷ số `F` :

`F=(MS_A)/(MS_E)`(7)

có phân phối Fisher với các độ tự do `df_A` và `df_E`.

Như vậy `F` thể hiện mức độ khác biệt giữa độ biến động do yếu tố A và độ biến động do sai số ngẫu nhiên.

Từ các số liệu thu thập, ta xác định được giá trị `F_o` đặc trưng cho mẫu. Theo nguyên tắc của kiểm định giả thuyết thống kê, ta so sánh `F_o` với giá trị tới hạn `F`*.

Vì đây là kiểm định một phía với vùng bác bỏ bên phải với mức ý nghĩa `alpha` nên `F"*"=F_(alpha,a-1,a(n-1))`.

Nếu :

  •  `F_o>F`* : ta kết luận yếu tố A thực sự có ảnh hưởng đến `Y`.
  •  `F_o< F`* : ta kết luận ảnh hưởng của yếu tố A đến `Y` không có ý nghĩa về mặt thống kê.

Khi ta sử dụng các phần mềm để xử lý dữ liệu, kết quả của phân tích phương sai thường được trình bày ở dạng tương tự như Bảng 2.

Bảng 2 Kết quả của phân tích phương sai
Nguồn biến động Độ tự do `SS` `MS` `F_o` `F`* Giá trị `p`
Yếu tố `a-1` `SS_A` `MS_A` `(MS_A)/(MS_E)` `F_(alpha,\ a-1,\ a(n-1))`
Sai số `a(n-1)` `SS_E` `MS_E`
Tổng `an-1` `SS_T`

Phương pháp tính

 

Tính toán phân tích phương sai bằng thủ công tốn nhiều công sức. Đặc biệt là có thể có sự lan truyền sai số do làm tròn số trung bình nếu ta sử dụng các công thức (1), (2), (3). Để giảm nhẹ khối lượng tính toán cũng như nâng cao độ chính xác, người ta thường tính toán theo cách như dưới đây.

Để việc trình bày các công thức được ngắn gọn hơn, ta sử dụng các ký hiệu sau:

`y_(iꔷ)=sum_(j=1)^n y_(ij)`(8)

và   `y_(ꔷꔷ)=sum_(i=1)^a sum_(j=1)^n y_(ij)`(9)

Để tính `SS_T` và `SS_A` được thuận tiện hơn cũng như để giảm sai số, ta sử dụng các công thức sau:

`SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)`(10)

`SS_A=1/nsum_(i=1)^a y_(iꔷ)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)`(11)

với : `HC=y_(ꔷ ꔷ)^2/(an)`(12)

`HC` được gọi là số hiệu chỉnh.

Thí dụ dưới đây sẽ làm rõ thêm những điểm ta vừa xem xét.


Thí dụ

 

Ta sẽ phân tích thí dụ về ảnh hưởng của màu sắc đến chỉ số `IQ` mà ta đã đề cập ở phần đầu chương này. Ta sẽ phát triển thêm bảng số liệu đã có theo hướng tính toán thủ công bằng cách thêm dòng và thêm cột như được trình bày ở Bảng 3.

Bảng 3 Phân tích phương sai chỉ số `IQ` theo yếu tố màu ưa thích.
Nhóm A Nhóm B Nhóm C `sum`
102 89 51
88 100 76
106 92 90
93 76 117
98 64 103
104 104 64
90 66 64
103 98 50
99 90 89
92 82 67
`y_(iꔷ)` 975 861 771 2607
`y_(iꔷ)^2` 950.625 741.321 594.441 2.286.387
`sum y_(ij)^2` 95.427 75.857 63.877 235.161
Trung bình 97,5 86,1 77,1

Từ Bảng 3, ta có các kết quả sau

  `y_(ꔷ ꔷ)=sum_(i=1)^a sum_(j=1)^n y_(ij)=2607`   `sum_(i=1)^a sum_(j=1)^n y_(ij)^2=235.161`

  `sum_(i=1)^a y_(iꔷ)^2=2.286.387`   `HC=y_(ꔷ ꔷ)^2/(an)=2607^2/(3xx10)=226.548,3`

Vậy :

  `SS_T=sum_(i=1)^a sum_(j=1)^n y_(ij)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)=235.161-226.548,3=8612,7`

  `SS_A=1/nsum_(i=1)^a y_(iꔷ)^2\ -\ (y_(ꔷ ꔷ)^2)/(an)=2.286.387/10-226.548.3=2090,4`

  `SS_E=SS_T-SS_A=8612,7-2090,4=6522,3`

  `MS_A=(SS_A)/(a-1)=(2090,4)/(3-1)=1045,2`

  `MS_E=(SS_E)/(a(n-1))=(6522,3)/(3xx(10-1))=241,567`

  `F_o=(MS_A)/(MS_E)=(1045,2)/(241,567)=4,327`

Giá trị tới hạn của `F` trong trường hợp này là:

 `F"*"=F_(alpha,a-1,a(n-1))=F_(0,05,2,27)=3,354`.

Vì `F_o>F"*"` nên ta kết luận màu sắc ưa thích có ảnh hưởng đến chỉ số `IQ`.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018