Phân phối của các số thống kê

Với một mẫu thu được từ tổng thể, ta xác định được các đại lượng đặc trưng, thí dụ như trung bình. Những đại lượng dùng để đặc trưng cho mẫu được gọi là số thống kê. Do ta có thể lấy được nhiều mẫu từ một tổng thể, nên giá trị của số thống kê cũng thay đổi. Sự thay đổi của số thống kê cũng tuân theo quy luật nhất định thể hiện bằng phân phối số thống kê. Trong phần này, chúng ta khảo sát một số tính chất cơ bản của phân phối Student (cho trung bình), phân phối khi bình phương và phân phối Fisher (cho phương sai).

Phân phối t-Student

Xét tổng thể có trung bình của biến `X` là `mu`. Từ tổng thể này có thể rút ra được nhiều mẫu có kích thước giống nhau là `n`. Mỗi mẫu có trung bình là `bar x` và độ lệch chuẩn `s`. Người ta chứng minh được biến số:

`t=(bar x-mu)/(s/sqrt(n))`

(25)

thay đổi theo quy luật xác định được gọi là phân phối `t` hay phân phối Student. Hàm mật độ của phân phối này có công thức:

`f(t)=(Gamma ((nu+1)/2))/(sqrt(nupi)\ Gamma(nu/2))(1+t^2/nu)^(-(nu+1)//2)`

(1)

với :

`Gamma(x)=int_0^oo e^(-z)z^(x-1)dz`

(27)

Trong phân phối Student có thêm một thông số `nu=n-1` được gọi là độ tự do.

Đường biểu diễn của hàm mật độ phân phối này được thể hiện trên Hình 1.

Hình 1 Đường cong hàm mật độ của phân phối Student

Trên Hình 1 có ba đường cong tương ứng với các độ tự do `nu=1` (màu xanh), `nu=3` (màu đỏ), `nu=30` (màu xanh lá cây). Vì `f(t)` là hàm số chẵn nên đường biểu diễn nhận trục tung làm trục đối xúng. Khi độ tự do tăng, đường cong mật độ của phân phối Student tiến dần đến đường cong phân phối chuẩn.

Phân phối `t` có nhiều ứng dụng trong thống kê, đặc biệt là trong lĩnh vực ước lượng và kiểm định giả thuyết. Trong trường hợp ta chưa biết được `mu` và `sigma^2` của tổng thể, ta phải dùng `bar x` và `s^2` của mẫu để sử dụng. Khi ấy phân phối `t` thường được dùng thay cho phân phối chuẩn.

Bảng phân vị Student

Phân phối Student được sử dụng rộng rãi trong thống kê. Do đó người ta đã lập ra bảng phân vị Student để hỗ trợ cho các tính toán có liên quan. Bảng này cho ta giá trị của `t` khi đã biết độ tự do `nu` và giá trị `a` của tích phân sau:

`a=int_t^oo f(x)dx`

(28)

trong đó `f(x)` là hàm mật độ của phân phối Student.

Giá trị `a` còn được biểu diễn trên Hình 2.Trong thực tế, ta thường gặp các giá trị sau của `a`: 0,1; 0,05; 0,025; 0,01 và 0,005.

Hình 2 Giá trị `a` và điểm phân vị của phân phối Student

Bảng 1 cho phép ta xác định `t` với các giá trị thông dụng của độ tự do `nu` và `a`.

Bảng 1 Bảng phân vị của phân phối Student
	0,2	0,1	0,05	0,025	0,01	0,005	0,0025
1	1,3764	3,0777	6,3138	12,7062	31,8205	63,6567	127,3213
2	1,0607	1,8856	2,9200	4,3027	6,9646	9,9248	14,0890
3	0,9785	1,6377	2,3534	3,1824	4,5407	5,8409	7,4533
4	0,9410	1,5332	2,1318	2,7764	3,7469	4,6041	5,5976
5	0,9195	1,4759	2,0150	2,5706	3,3649	4,0321	4,7733
6	0,9057	1,4398	1,9432	2,4469	3,1427	3,7074	4,3168
7	0,8960	1,4149	1,8946	2,3646	2,9980	3,4995	4,0293
8	0,8889	1,3968	1,8595	2,3060	2,8965	3,3554	3,8325
9	0,8834	1,3830	1,8331	2,2622	2,8214	3,2498	3,6897
10	0,8791	1,3722	1,8125	2,2281	2,7638	3,1693	3,5814
11	0,8755	1,3634	1,7959	2,2010	2,7181	3,1058	3,4966
12	0,8726	1,3562	1,7823	2,1788	2,6810	3,0545	3,4284
13	0,8702	1,3502	1,7709	2,1604	2,6503	3,0123	3,3725
14	0,8681	1,3450	1,7613	2,1448	2,6245	2,9768	3,3257
15	0,8662	1,3406	1,7531	2,1314	2,6025	2,9467	3,2860
16	0,8647	1,3368	1,7459	2,1199	2,5835	2,9208	3,2520
17	0,8633	1,3334	1,7396	2,1098	2,5669	2,8982	3,2224
18	0,8620	1,3304	1,7341	2,1009	2,5524	2,8784	3,1966
19	0,8610	1,3277	1,7291	2,0930	2,5395	2,8609	3,1737
20	0,8600	1,3253	1,7247	2,0860	2,5280	2,8453	3,1534
21	0,8591	1,3232	1,7207	2,0796	2,5176	2,8314	3,1352
22	0,8583	1,3212	1,7171	2,0739	2,5083	2,8188	3,1188
23	0,8575	1,3195	1,7139	2,0687	2,4999	2,8073	3,1040
24	0,8569	1,3178	1,7109	2,0639	2,4922	2,7969	3,0905
25	0,8562	1,3163	1,7081	2,0595	2,4851	2,7874	3,0782
26	0,8557	1,3150	1,7056	2,0555	2,4786	2,7787	3,0669
27	0,8551	1,3137	1,7033	2,0518	2,4727	2,7707	3,0565
28	0,8546	1,3125	1,7011	2,0484	2,4671	2,7633	3,0469
29	0,8542	1,3114	1,6991	2,0452	2,4620	2,7564	3,0380
30	0,8538	1,3104	1,6973	2,0423	2,4573	2,7500	3,0298
35	0,8520	1,3062	1,6896	2,0301	2,4377	2,7238	2,9960
40	0,8507	1,3031	1,6839	2,0211	2,4233	2,7045	2,9712
45	0,8497	1,3006	1,6794	2,0141	2,4121	2,6896	2,9521
50	0,8489	1,2987	1,6759	2,0086	2,4033	2,6778	2,9370
55	0,8482	1,2971	1,6730	2,0040	2,3961	2,6682	2,9247
60	0,8477	1,2958	1,6706	2,0003	2,3901	2,6603	2,9146
70	0,8468	1,2938	1,6669	1,9944	2,3808	2,6479	2,8987
80	0,8461	1,2922	1,6641	1,9901	2,3739	2,6387	2,8870
90	0,8456	1,2910	1,6620	1,9867	2,3685	2,6316	2,8779
100	0,8452	1,2901	1,6602	1,9840	2,3642	2,6259	2,8707
120	0,8446	1,2886	1,6577	1,9799	2,3578	2,6174	2,8599
∞	0,8416	1,2816	1,6449	1,9600	2,3264	2,5758	2,8070

Trên Bảng 1, dòng đầu tiên ghi các giá trị của `a`, cột đầu tiên ghi các giá trị của độ tự do. Như vậy mỗi cột tương ứng với một giá trị của `a`, mỗi dòng tương ứng với một giá trị của độ tự do. Riêng dòng cuối cùng dành cho phân phối chuẩn.

Thí dụ : Ta có `a=0,05` và `nu=8`. Giá trị của `t` là nơi cắt nhau của dòng "8" và cột "0,05", và kết quả là 1,8595.

Phân phối khi bình phương

Xét tổng thể có phương sai của biến `X` là `sigma^2`. Từ tổng thể này có thể rút ra được nhiều mẫu có cùng kích thước `n`. Mỗi mẫu có phương sai là `s^2`. Người ta chứng minh được rằng biến số:

`chi^2=(nus^2)/sigma^2`

(29)

thay đổi theo quy luật xác định được gọi là phân phối `chi^2` (khi bình phương). Hàm mật độ của phân phối này có công thức:

`f(chi^2)=1/(2^(nu/2)\ Gamma(nu/2))\ chi^(nu-2)\ e^(-chi^2/2)`

(30)

Tương tự phân phối Student, phân phối khi bình phương cũng có thêm thông số độ tự do `nu=n-1`.

Đường biểu diễn của hàm mật độ phân phối này được thể hiện trên Hình 3.

Hình 3 Đường cong hàm mật độ của phân phối khi bình phương

Trên Hình 3 có bốn đường cong tương ứng với các độ tự do `nu=1` (màu xanh), `nu=2` (màu đỏ), `nu=3` (màu xanh lá cây) và `nu=5` (màu đen).

Bảng phân vị khi bình phương

Phân phối khi bình phương cũng thường được dùng trong nhiều lĩnh vực của thống kê. Do đó người ta đã lập ra bảng phân vị khi bình phương để hỗ trợ cho các tính toán có liên quan. Bảng này cho ta giá trị của `chi^2` khi đã biết độ tự do `nu` và giá trị `a` của tích phân sau:

`a=int_(chi^2)^oo f(x)dx`

(31)

trong đó `f(x)` là hàm mật độ của phân phối khi bình phương.

Giá trị `a` còn được biểu diễn trên Hình 4. Cũng như phân phối Student, các giá trị sau của `a` thường gặp trong thực tế tính toán: 0,1; 0,05; 0,025; 0,01 và 0,005.

Hình 4 Giá trị `chi^2` và điểm phân vị của phân phối khi bình phương

Các Bảng 2a và 2b cho phép ta xác định điểm phân vị `chi^2` khi đã biết độ tự do `nu` và giá trị `a`. Bảng 2a tương ứng với các giá trị thấp của `a` (`a<=0,20`) còn Bảng 2b tương ứng với các giá trị cao của `a` (`0,80<=a<1`).

Bảng 2a Bảng phân vị của phân phối `chi^2` (`a<=0,20`)
	0,2	0,1	0,05	0,025	0,01	0,005	0,0025
1	1,642	2,706	3,841	5,024	6,635	7,879	9,141
2	3,219	4,605	5,991	7,378	9,210	10,597	11,983
3	4,642	6,251	7,815	9,348	11,345	12,838	14,320
4	5,989	7,779	9,488	11,143	13,277	14,860	16,424
5	7,289	9,236	11,070	12,833	15,086	16,750	18,386
6	8,558	10,645	12,592	14,449	16,812	18,548	20,249
7	9,803	12,017	14,067	16,013	18,475	20,278	22,040
8	11,030	13,362	15,507	17,535	20,090	21,955	23,774
9	12,242	14,684	16,919	19,023	21,666	23,589	25,462
10	13,442	15,987	18,307	20,483	23,209	25,188	27,112
11	14,631	17,275	19,675	21,920	24,725	26,757	28,729
12	15,812	18,549	21,026	23,337	26,217	28,300	30,318
13	16,985	19,812	22,362	24,736	27,688	29,819	31,883
14	18,151	21,064	23,685	26,119	29,141	31,319	33,426
15	19,311	22,307	24,996	27,488	30,578	32,801	34,950
16	20,465	23,542	26,296	28,845	32,000	34,267	36,456
17	21,615	24,769	27,587	30,191	33,409	35,718	37,946
18	22,760	25,989	28,869	31,526	34,805	37,156	39,422
19	23,900	27,204	30,144	32,852	36,191	38,582	40,885
20	25,038	28,412	31,410	34,170	37,566	39,997	42,336
21	26,171	29,615	32,671	35,479	38,932	41,401	43,775
22	27,301	30,813	33,924	36,781	40,289	42,796	45,204
23	28,429	32,007	35,172	38,076	41,638	44,181	46,623
24	29,553	33,196	36,415	39,364	42,980	45,559	48,034
25	30,675	34,382	37,652	40,646	44,314	46,928	49,435
26	31,795	35,563	38,885	41,923	45,642	48,290	50,829
27	32,912	36,741	40,113	43,195	46,963	49,645	52,215
28	34,027	37,916	41,337	44,461	48,278	50,993	53,594
29	35,139	39,087	42,557	45,722	49,588	52,336	54,967
30	36,250	40,256	43,773	46,979	50,892	53,672	56,332
32	38,466	42,585	46,194	49,480	53,486	56,328	59,046
34	40,676	44,903	48,602	51,966	56,061	58,964	61,738
36	42,879	47,212	50,998	54,437	58,619	61,581	64,410
38	45,076	49,513	53,384	56,896	61,162	64,181	67,063
40	47,269	51,805	55,758	59,342	63,691	66,766	69,699
42	49,456	54,090	58,124	61,777	66,206	69,336	72,320
44	51,639	56,369	60,481	64,201	68,710	71,893	74,925
46	53,818	58,641	62,830	66,617	71,201	74,437	77,517
48	55,993	60,907	65,171	69,023	73,683	76,969	80,097
50	58,164	63,167	67,505	71,420	76,154	79,490	82,664
60	68,972	74,397	79,082	83,298	88,379	91,952	95,344
70	79,715	85,527	90,531	95,023	100,425	104,215	107,808
80	90,405	96,578	101,879	106,629	112,329	116,321	120,102
90	101,054	107,565	113,145	118,136	124,116	128,299	132,256
100	111,667	118,498	124,342	129,561	135,807	140,169	144,293

Bảng 2b Phân vị của phân phối `chi^2` (`0,80<=a< 1`)
	0,8	0,9	0,95	0,975	0,99	0,995	0,9975
1	0,064	0,016	0,004	0,001	0,000	0,000	0,000
2	0,446	0,211	0,103	0,051	0,020	0,010	0,005
3	1,005	0,584	0,352	0,216	0,115	0,072	0,045
4	1,649	1,064	0,711	0,484	0,297	0,207	0,145
5	2,343	1,610	1,145	0,831	0,554	0,412	0,307
6	3,070	2,204	1,635	1,237	0,872	0,676	0,527
7	3,822	2,833	2,167	1,690	1,239	0,989	0,794
8	4,594	3,490	2,733	2,180	1,646	1,344	1,104
9	5,380	4,168	3,325	2,700	2,088	1,735	1,450
10	6,179	4,865	3,940	3,247	2,558	2,156	1,827
11	6,989	5,578	4,575	3,816	3,053	2,603	2,232
12	7,807	6,304	5,226	4,404	3,571	3,074	2,661
13	8,634	7,042	5,892	5,009	4,107	3,565	3,112
14	9,467	7,790	6,571	5,629	4,660	4,075	3,582
15	10,307	8,547	7,261	6,262	5,229	4,601	4,070
16	11,152	9,312	7,962	6,908	5,812	5,142	4,573
17	12,002	10,085	8,672	7,564	6,408	5,697	5,092
18	12,857	10,865	9,390	8,231	7,015	6,265	5,623
19	13,716	11,651	10,117	8,907	7,633	6,844	6,167
20	14,578	12,443	10,851	9,591	8,260	7,434	6,723
21	15,445	13,240	11,591	10,283	8,897	8,034	7,289
22	16,314	14,041	12,338	10,982	9,542	8,643	7,865
23	17,187	14,848	13,091	11,689	10,196	9,260	8,450
24	18,062	15,659	13,848	12,401	10,856	9,886	9,044
25	18,940	16,473	14,611	13,120	11,524	10,520	9,646
26	19,820	17,292	15,379	13,844	12,198	11,160	10,256
27	20,703	18,114	16,151	14,573	12,879	11,808	10,873
28	21,588	18,939	16,928	15,308	13,565	12,461	11,497
29	22,475	19,768	17,708	16,047	14,256	13,121	12,128
30	23,364	20,599	18,493	16,791	14,953	13,787	12,765
32	25,148	22,271	20,072	18,291	16,362	15,134	14,056
34	26,938	23,952	21,664	19,806	17,789	16,501	15,368
36	28,735	25,643	23,269	21,336	19,233	17,887	16,700
38	30,537	27,343	24,884	22,878	20,691	19,289	18,050
40	32,345	29,051	26,509	24,433	22,164	20,707	19,417
42	34,157	30,765	28,144	25,999	23,650	22,138	20,799
44	35,974	32,487	29,787	27,575	25,148	23,584	22,196
46	37,795	34,215	31,439	29,160	26,657	25,041	23,606
48	39,621	35,949	33,098	30,755	28,177	26,511	25,029
50	41,449	37,689	34,764	32,357	29,707	27,991	26,464
60	50,641	46,459	43,188	40,482	37,485	35,534	33,791
70	59,898	55,329	51,739	48,758	45,442	43,275	41,332
80	69,207	64,278	60,391	57,153	53,540	51,172	49,043
90	78,558	73,291	69,126	65,647	61,754	59,196	56,892
100	87,945	82,358	77,929	74,222	70,065	67,328	64,857

Nguyên tắc sắp xếp các Bảng 2a và 2b tương tự như Bảng 1. Dòng đầu tiên ghi các giá trị của `a`, cột đầu tiên ghi các giá trị của độ tự do. Như vậy mỗi cột tương ứng với một giá trị của `a`, mỗi dòng tương ứng với một giá trị của độ tự do. Như vậy cách sử dụng các Bảng 2a và 2b cũng tương tự như Bảng 1.

Thí dụ : Ta có `a=0,05` và `nu=8`. Giá trị của `chi^2` là nơi cắt nhau của dòng "8" và cột "0,05" trên Bảng 2a. Kết quả là 15,507.

Thí dụ : Ta có `a=0,95` và `nu=8`. Giá trị của `chi^2` là nơi cắt nhau của dòng "8" và cột "0,95" trên Bảng 2b. Kết quả là 2,733.

Ta sử dụng phân phối khi bình phương trong một số phương pháp kiểm định thống kê

Phân phối Fisher

Ta xét hai tổng thể khác nhau có phương sai cho biến `X` lần lượt là `sigma_1^2` và `sigma_2^2`. Ta lấy ngẫu nhiên hai mẫu có kích thước là tương ứng `n_1` và `n_2` . Các mẫu này có phương sai là `s_1^2` và `s_2^2`. Người ta chứng minh được rằng biến số:

`F=(s_1^2/sigma_1^2)/(s_2^2/sigma_2^2)`

(32)

thay đổi theo quy luật xác định được gọi là phân phối Fisher. Hàm mật độ của phân phối này có công thức:

`f(F)=(Gamma((nu_1+nu_2)/2)(nu_1/nu_2)^(nu_1/2)F^(nu_1/2-1))/( Gamma(nu_1/2)Gamma(nu_2/2)(1+(nu_1F)/nu_2)^((nu_1+nu_2)/2))`

(33)

Phân phối này có hai thông số là các độ tự do `nu_1=n_1-1` và `nu_2=n_2-1` tương ứng với hai tổng thể hay hai mẫu. Trên Hình 5 là một số đường cong biểu diễn hàm mật độ của phân phối Fisher với một số giá trị của `nu_1` và `nu_2`.

Hình 5 Đường cong hàm mật độ của phân phối Fisher

Trên Hình 5, đường cong màu xanh ứng với `nu_1=2` và `nu_2=6` ; đường cong màu đỏ ứng với `nu_1=4` và`nu_2=6` ; và đường cong màu xanh lá cây ứng với `nu_1=10` và `nu_2=6`.

Bảng phân vị Fisher

Phân phối Fisher được dùng trong rộng rãi trong nhiều lĩnh vực của thống kê, đặc biệt là thống kê ứng dụng như phân tích phương sai, xử lý số liệu thí nghiệm. Do đó người ta đã lập ra bảng phân vị Fisher để hỗ trợ cho các tính toán có liên quan. Bảng này cho ta giá trị của `F` khi đã biết các độ tự do `nu_1`, `nu_2` và giá trị `a` của tích phân sau:

`a=int_F^oo f(x)dx`

(34)

trong đó `f(x)` là hàm mật độ của phân phối Student.

Giá trị `a` còn được biểu diễn trên Hình 6. Cũng như phân phối Student và khi bình phương, `a` thường có các giá trị sau trong thực tế tính toán: 0,1; 0,05; 0,025; 0,01 và 0,005.

Hình 6 Giá trị `F` và điểm phân vị của phân phối Fisher

Trong các tài liệu tra cứu, ta thường gặp một số bảng phân vị Fisher, mỗi bảng tương ứng với một giá trị `a`. Bảng 3 là phần trích trong một bảng phân vị với `a=0,05`.

Bảng 3 Một phần của bảng phân vị của phân phối Fisher tương ứng với `a=0,05`
	1	2	3	4	5	6	7	8	9	10
1	161,4	199,5	215,7	224,6	230,2	234,0	236,8	238,9	240,5	241,9
2	18,51	19,00	19,16	19,25	19,30	19,33	19,35	19,37	19,38	19,40
3	10,13	9,552	9,277	9,117	9,013	8,941	8,887	8,845	8,812	8,786
4	7,709	6,944	6,591	6,388	6,256	6,163	6,094	6,041	5,999	5,964
5	6,608	5,786	5,409	5,192	5,050	4,950	4,876	4,818	4,772	4,735
6	5,987	5,143	4,757	4,534	4,387	4,284	4,207	4,147	4,099	4,060
7	5,591	4,737	4,347	4,120	3,972	3,866	3,787	3,726	3,677	3,637
8	5,318	4,459	4,066	3,838	3,687	3,581	3,500	3,438	3,388	3,347
9	5,117	4,256	3,863	3,633	3,482	3,374	3,293	3,230	3,179	3,137
10	4,965	4,103	3,708	3,478	3,326	3,217	3,135	3,072	3,020	2,978
11	4,844	3,982	3,587	3,357	3,204	3,095	3,012	2,948	2,896	2,854
12	4,747	3,885	3,490	3,259	3,106	2,996	2,913	2,849	2,796	2,753
13	4,667	3,806	3,411	3,179	3,025	2,915	2,832	2,767	2,714	2,671
14	4,600	3,739	3,344	3,112	2,958	2,848	2,764	2,699	2,646	2,602
15	4,543	3,682	3,287	3,056	2,901	2,790	2,707	2,641	2,588	2,544
16	4,494	3,634	3,239	3,007	2,852	2,741	2,657	2,591	2,538	2,494
17	4,451	3,592	3,197	2,965	2,810	2,699	2,614	2,548	2,494	2,450
18	4,414	3,555	3,160	2,928	2,773	2,661	2,577	2,510	2,456	2,412
19	4,381	3,522	3,127	2,895	2,740	2,628	2,544	2,477	2,423	2,378
20	4,351	3,493	3,098	2,866	2,711	2,599	2,514	2,447	2,393	2,348

Bảng 3 giúp ta xác định điểm phân vị `F` khi đã biết độ tự do `nu_1` và `nu_2` tương ứng với giá trị `a=0,05`. Nguyên tắc sắp xếp của bảng này như sau: dòng đầu tiên ghi các giá trị của `nu_1`, cột đầu tiên ghi các giá trị của `nu_2`. Như vậy mỗi cột tương ứng với một giá trị của `nu_1`, mỗi dòng tương ứng với một giá trị của `nu_2`.

Thí dụ : Ta có `a=0,05` ; `nu_1=8` ; `nu_2=10`. Vì `a=0,05` nên ta có thể dùng Bảng 3. Giá trị của `F` là nơi cắt nhau của cột "8" và dòng "10" trên Bảng 3. Kết quả là 3,072.

Tuy nhiên ta cũng lưu ý rằng đại đa số các bảng tra cứu phân vị Fisher chỉ tương ứng với các giá trị thấp của `a` như 0,1 hay 0,05. Trong trường hợp `a` có giá trị lớn như 0,95 chẳng hạn, ta cũng sử dụng các bảng trên kết hợp với công thức sau:

`F_(1-alpha,\ nu_1,\ nu_2)=1/F_(alpha,\ nu_1,\ nu_2)`

(35)

Trang web này được cập nhật lần cuối ngày 27/11/2018

Thống kê

Sơ đồ site