logo xDuLieu.com

Trang trướcMột số cơ sở về Kiểm định Giả thuyết Thống kêTrang sau

Giả thuyết thống kê là một nhận định có liên quan đến tổng thể hay các tổng thể đang khảo sát. Đó có thể là trung bình, sự khác biệt của phương sai, dạng phân phối của tổng thể. Để có thể chấp nhận hay bác bỏ giả thuyết này ta phải kiểm định nó.

Để kiểm định, ta lấy mẫu từ tổng thể, sau đó tiến hành tính toán, phân tích dữ liệu từ mẫu đó, đối chiếu kết quả với giả thuyết rồi rút ra kết luận chấp nhận hay bác bỏ giả thuyết. Quy trình này được gọi là kiểm định giả thuyết thống kê, hay vắn tắt hơn, kiểm định giả thuyết hoặc kiểm định thống kê.

Hai loại sai lầm

 

Do quá trình kiểm định dựa trên dữ liệu của mẫu nên kết quả có thể mắc phải sai lầm. Sai lầm này được phân thành hai hoại như được thể hiện trên Bảng 1.

Bảng 1 Các trường hợp khi kiểm định giả thuyết thống kê
Thực chất của giả thuyết
Đúng Sai
Quyết định Chấp nhận Quyết định đúng Sai lầm loại 2
Bác bỏ Sai lầm loại 1 Quyết định đúng

Qua Bảng 1 ta thấy khi kiểm định giả thuyết ta có thể mắc phải hai loại sai lầm sau :

  • loại 1 : bác bỏ một giả thuyết đúng. Xác suất mắc sai lầm loại này được ký hiệu là `alpha`,
  • loại 2 : chấp nhận một giả thuyết sai. Xác suất mắc sai lầm loại này được ký hiệu là `beta`.

Thí dụ : Sau khi kiểm tra 5000 hộp do công ty C sản xuất, phát hiện có 20 hộp không đạt tiêu chuẩn (tỷ lệ 0,4%). Công ty C công bố tỷ lệ đạt tiêu chuẩn là trên 99%.

Để đánh giá, chi cục tiêu chuẩn T kiểm tra 10 hộp thì thấy 1 hộp không đạt. Nếu chi cục T quyết định công bố của công ty C là sai thì chi cục T mắc phải sai lầm loại 1.

Thí dụ : Trường T có 1000 học sinh, trong đó có 80 học sinh thuộc diện xuất sắc (tỷ lệ 8%). Trường T công bố tỷ lệ học sinh xuất sắc của trường mình là trên 10%.

Bộ phận kiểm định chất lượng của sở giáo dục S kiểm tra ngẫu nhiên 20 học sinh của trường T. Kết quả là có 3 học sinh xuất sắc (tỷ lệ 15%). Nếu bộ phận kiểm định này chấp nhận công bố của trường T là đúng thì đã phạm sai lầm loại 2.


Nguyên lý xác suất nhỏ

 

Để bác bỏ một nhận định, ta cho rằng nhận định này không xẩy ra bằng nguyên lý xác suất nhỏ sau:

"Một sự kiện có xác suất xuất hiện nhỏ thì ta xem như sự kiện này không xẩy ra"

Như vậy, để chấp nhận giả thuyết H, ta có thể làm theo những cách sau:

  • Cách 1 : chứng minh giả thuyết H đúng bằng cách chứng minh xác suất của giả thuyết này `P("H")` lớn (trên 95% chẳng hạn), rồi chấp nhận H. Khi ấy ta có thể mắc sai lầm loại 2.
  • Cách 2 : Ta đặt ra một giả thuyết đối nghịch Ha, rồi chứng minh xác suất của giả thuyết này `P("Ha")` nhỏ (dưới 5% chẳng hạn). Từ đó, ta sẽ bác bỏ Ha, nghĩa là chấp nhận H. Khi ấy ta có thể mắc sai lầm loại 1.

Trong kiểm định thống kê, cách 2 thường được sử dụng hơn.


Quy trình kiểm định giả thyết thống kê

 

Kiểm định giả thuyết thống kê thường qua một số giai đoạn sau:

  • Từ các thông tin ban đầu và yêu cầu cụ thể, ta chọn thông số hay thuộc tính cần kiểm định.
  • Lập ra "giả thuyết không" Ho (như không có ảnh hưởng, không có khác biệt) và giả thuyết đối nghịch Ha.
  • Chọm mức ý nghĩa `alpha`.
  • Từ thông số cần kiểm định, ta chọn tiêu chuẩn kiểm định `t` và xác định phân phối của tiêu chuẩn kiểm định này. Tiêu chuẩn kiểm định `t` là một thông số thể hiện khoảng cách giữa dữ liệu mẫu và giả thuyết không Ho. Trị số tuyệt đối của `t` càng lớn, sự khác biệt giữa dữ liệu mẫu và Ho càng nhiều.
  • Từ các thông tin ban đầu như độ tin cậy, số phần tử mẫu, ta tính được giá trị tới hạn `t`*. Giá trị này sẽ chia tất cả các giá trị của `t` ra làm 2 vùng: vùng chấp nhận Ho và vùng bác bỏ Ho.
  • Từ các dữ liệu của mẫu, tìm được `t_o`.
  • Đối chiếu, so sánh `t`* và `t_o`, ta xác định được `t_o` thuộc vùng chấp nhận hay vùng bác bỏ.
  • Nếu `t_o` thuộc vùng bác bỏ: ta bác bỏ Ho và chấp nhận Ha. Ngược lại nếu `t_o` thuộc vùng chấp nhận: ta chấp nhận Ho.

Lưu ý : Khi xây dựng cặp giả thuyết Ho và Ha, ta phải lưu ý. Vì có những trường hợp Ho sai nhưng Ha cũng không đúng.

Thí dụ :  Ho : `M=40` và Ha : `M!=40` : Nếu Ho sai thì Ha đúng

Nhưng :   Ho : `M=40` và Ha : `M>40` : Nếu Ho sai thì chưa chắc Ha đúng (`M=30` chẳng hạn)

Những điểm trên sẽ được làm rõ thêm trong các phần kế tiếp.


Vùng bác bỏ

 

Như trên ta biết `t`* sẽ chia các giá trị của `t` làm hai vùng : vùng chấp nhận và vùng bác bỏ. Tùy thuộc vào Ha mà vị trí tương đối của vùng bác bỏ có thể thuộc các trường hợp dưới đây.

Trường hợp 1

Vùng bác bỏ ở bên phải của `t`* (Hình 1). Khi ấy, để bác bỏ Ho, ta cần có `t_o>t"*"`, với `t"*"` là phân vị ứng với mức ý nghĩa `alpha`.

tt* αHat o Hot o

Hình 1 Vùng bác bỏ bên phải

Trường hợp này thường được dùng khi Ha có dạng `X>a` với `X` là thông số kiểm định, `a` là một giá trị nào đó.

Trường hợp 2

Vùng bác bỏ ở bên trái của `t`* (Hình 2). Khi ấy, để bác bỏ Ho, ta cần có `t_o< t"*"`, với `t"*"` là phân vị ứng với mức ý nghĩa `1-alpha`.

tt* αHat o Hot o

Hình 2 Vùng bác bỏ bên trái

Trường hợp này thường được dùng khi Ha có dạng `Y< b` với `Y` là thông số kiểm định, `b` là một giá trị nào đó.

Trường hợp 3

Vùng bác bỏ ở hai bên của `t_1`* và `t_2`* (Hình 3). Khi ấy, để bác bỏ Ho, ta cần có `t_o>t_2"*"` hay `t_o< t_1"*"`. `t_1"*"` là phân vị ứng với `1-alpha//2` và `t_2"*"` là phân vị ứng với `alpha//2`.

tt*1t*2 αHat oHat o Hot o

Hình 3 Vùng bác bỏ hai phía

Trường hợp này thường được dùng khi Ha có dạng `Z!=c` với `Z` là thông số kiểm định, `c` là một giá trị nào đó.

Các trường hợp 1 và 2 còn được gọi là kiểm định một phía, trường hợp 3 còn được gọi là kiểm định hai phía.

Ghi chú : Khi hàm mật độ của `t` là hàm số chẵn (Hình 4) ta có (với cùng độ tự do `nu`) :

`t_(1-alpha)=-t_(alpha)`(1)

t*1 - αt*α

Hình 4 Số phân vị khi hàm mật độ chẵn

Khi ấy, trong trường hợp kiểm định hai phía, ta có thể so sánh `|t_o|` với `t_(alpha//2)"*"`. Ta bác bỏ Ho khi `|t_o|>t_(alpha//2)"*"`.


Giá trị `p`

 

Như trên đã xem xét, `t_o` là chỉ tiêu kiểm định được xác định từ dữ liệu của mẫu, nói cách khác `t_o` là giá trị đặc trưng cho mẫu. Xét trường hợp 1, khi vùng bác bỏ ở bên phải giá trị tới hạn `t"*"`, người ta định nghĩa giá trị `p` bằng công thức sau :

`p=int_(t_o)^oo f(t)dt`(2)

trong đó `f(t)` là hàm mật độ của phân phối tiêu chuẩn kiểm định.

Giá trị `p` cũng được biểu diễn như trên Hình 5.

tt* pt o

Hình 5 Giá trị p trong kiểm định thống kê

Vậy `p` là xác suất cao nhất để ta có được kết quả của mẫu trong điều kiện giả thuyết Ho đúng. Giá trị `p` càng nhỏ, khả năng để bác bỏ Ho càng cao. Khi `t_o` thuộc vùng bác bỏ thì `p< alpha`.

Từ đó, ta có một cách khác để quyết định chấp nhận hay bác bỏ Ho là so sánh `p` với mức ý nghĩa `alpha`. Nếu `p` bé hơn `alpha`, ta bác bỏ Ho, nếu `p` lớn hơn `alpha`, ta chấp nhận Ho.

Ta cũng lưu ý là kết luận này áp dụng cho cả ba trường hợp chứ không riêng trường hợp 1.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018