Giả thuyết thống kê là một nhận định có liên quan đến tổng thể hay các tổng thể đang khảo sát. Đó có thể là trung bình, sự khác biệt của phương sai, dạng phân phối của tổng thể. Để có thể chấp nhận hay bác bỏ giả thuyết này ta phải kiểm định nó.
Để kiểm định, ta lấy mẫu từ tổng thể, sau đó tiến hành tính toán, phân tích dữ liệu từ mẫu đó, đối chiếu kết quả với giả thuyết rồi rút ra kết luận chấp nhận hay bác bỏ giả thuyết. Quy trình này được gọi là kiểm định giả thuyết thống kê, hay vắn tắt hơn, kiểm định giả thuyết hoặc kiểm định thống kê.
Do quá trình kiểm định dựa trên dữ liệu của mẫu nên kết quả có thể mắc phải sai lầm. Sai lầm này được phân thành hai hoại như được thể hiện trên Bảng 1.
Thực chất của giả thuyết | |||
---|---|---|---|
Đúng | Sai | ||
Quyết định | Chấp nhận | Quyết định đúng | Sai lầm loại 2 |
Bác bỏ | Sai lầm loại 1 | Quyết định đúng |
Qua Bảng 1 ta thấy khi kiểm định giả thuyết ta có thể mắc phải hai loại sai lầm sau :
Thí dụ : Sau khi kiểm tra 5000 hộp do công ty C sản xuất, phát hiện có 20 hộp không đạt tiêu chuẩn (tỷ lệ 0,4%). Công ty C công bố tỷ lệ đạt tiêu chuẩn là trên 99%.
Để đánh giá, chi cục tiêu chuẩn T kiểm tra 10 hộp thì thấy 1 hộp không đạt. Nếu chi cục T quyết định công bố của công ty C là sai thì chi cục T mắc phải sai lầm loại 1.
Thí dụ : Trường T có 1000 học sinh, trong đó có 80 học sinh thuộc diện xuất sắc (tỷ lệ 8%). Trường T công bố tỷ lệ học sinh xuất sắc của trường mình là trên 10%.
Bộ phận kiểm định chất lượng của sở giáo dục S kiểm tra ngẫu nhiên 20 học sinh của trường T. Kết quả là có 3 học sinh xuất sắc (tỷ lệ 15%). Nếu bộ phận kiểm định này chấp nhận công bố của trường T là đúng thì đã phạm sai lầm loại 2.
Để bác bỏ một nhận định, ta cho rằng nhận định này không xẩy ra bằng nguyên lý xác suất nhỏ sau:
"Một sự kiện có xác suất xuất hiện nhỏ thì ta xem như sự kiện này không xẩy ra"
Như vậy, để chấp nhận giả thuyết H, ta có thể làm theo những cách sau:
Trong kiểm định thống kê, cách 2 thường được sử dụng hơn.
Kiểm định giả thuyết thống kê thường qua một số giai đoạn sau:
Lưu ý : Khi xây dựng cặp giả thuyết Ho và Ha, ta phải lưu ý. Vì có những trường hợp Ho sai nhưng Ha cũng không đúng.
Thí dụ : Ho : `M=40` và Ha : `M!=40` : Nếu Ho sai thì Ha đúng
Nhưng : Ho : `M=40` và Ha : `M>40` : Nếu Ho sai thì chưa chắc Ha đúng (`M=30` chẳng hạn)
Những điểm trên sẽ được làm rõ thêm trong các phần kế tiếp.
Như trên ta biết `t`* sẽ chia các giá trị của `t` làm hai vùng : vùng chấp nhận và vùng bác bỏ. Tùy thuộc vào Ha mà vị trí tương đối của vùng bác bỏ có thể thuộc các trường hợp dưới đây.
Trường hợp 1
Vùng bác bỏ ở bên phải của `t`* (Hình 1). Khi ấy, để bác bỏ Ho, ta cần có `t_o>t"*"`, với `t"*"` là phân vị ứng với mức ý nghĩa `alpha`.
Hình 1 Vùng bác bỏ bên phải
Trường hợp này thường được dùng khi Ha có dạng `X>a` với `X` là thông số kiểm định, `a` là một giá trị nào đó.
Trường hợp 2
Vùng bác bỏ ở bên trái của `t`* (Hình 2). Khi ấy, để bác bỏ Ho, ta cần có `t_o< t"*"`, với `t"*"` là phân vị ứng với mức ý nghĩa `1-alpha`.
Hình 2 Vùng bác bỏ bên trái
Trường hợp này thường được dùng khi Ha có dạng `Y< b` với `Y` là thông số kiểm định, `b` là một giá trị nào đó.
Trường hợp 3
Vùng bác bỏ ở hai bên của `t_1`* và `t_2`* (Hình 3). Khi ấy, để bác bỏ Ho, ta cần có `t_o>t_2"*"` hay `t_o< t_1"*"`. `t_1"*"` là phân vị ứng với `1-alpha//2` và `t_2"*"` là phân vị ứng với `alpha//2`.
Hình 3 Vùng bác bỏ hai phía
Trường hợp này thường được dùng khi Ha có dạng `Z!=c` với `Z` là thông số kiểm định, `c` là một giá trị nào đó.
Các trường hợp 1 và 2 còn được gọi là kiểm định một phía, trường hợp 3 còn được gọi là kiểm định hai phía.
Ghi chú : Khi hàm mật độ của `t` là hàm số chẵn (Hình 4) ta có (với cùng độ tự do `nu`) :
`t_(1-alpha)=-t_(alpha)`(1)
Hình 4 Số phân vị khi hàm mật độ chẵn
Khi ấy, trong trường hợp kiểm định hai phía, ta có thể so sánh `|t_o|` với `t_(alpha//2)"*"`. Ta bác bỏ Ho khi `|t_o|>t_(alpha//2)"*"`.
Như trên đã xem xét, `t_o` là chỉ tiêu kiểm định được xác định từ dữ liệu của mẫu, nói cách khác `t_o` là giá trị đặc trưng cho mẫu. Xét trường hợp 1, khi vùng bác bỏ ở bên phải giá trị tới hạn `t"*"`, người ta định nghĩa giá trị `p` bằng công thức sau :
`p=int_(t_o)^oo f(t)dt`(2)
trong đó `f(t)` là hàm mật độ của phân phối tiêu chuẩn kiểm định.
Giá trị `p` cũng được biểu diễn như trên Hình 5.
Hình 5 Giá trị p trong kiểm định thống kê
Vậy `p` là xác suất cao nhất để ta có được kết quả của mẫu trong điều kiện giả thuyết Ho đúng. Giá trị `p` càng nhỏ, khả năng để bác bỏ Ho càng cao. Khi `t_o` thuộc vùng bác bỏ thì `p< alpha`.
Từ đó, ta có một cách khác để quyết định chấp nhận hay bác bỏ Ho là so sánh `p` với mức ý nghĩa `alpha`. Nếu `p` bé hơn `alpha`, ta bác bỏ Ho, nếu `p` lớn hơn `alpha`, ta chấp nhận Ho.
Ta cũng lưu ý là kết luận này áp dụng cho cả ba trường hợp chứ không riêng trường hợp 1.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R