logo xDuLieu.com

Trang trướcPhân phối chuẩnTrang sau

Về mặt lý thuyết cũng như thực tiến, phân phối chuẩn (normal distribution) là phân phối quan trọng nhất trong thống kê. Điều này là do có rất nhiều sự biến động trong thiên nhiên, trong công nghiệp, trong nhiều mặt của đời sống xã hội tuân thủ (hoặc tuân thủ một cách gần đúng) phân phối này. Vì vậy ta có thể tìm thấy ứng dụng của phân phối này ở khắp mọi nơi.

Phân phối chuẩn

 

Phân phối chuẩn, còn được gọi là phân phối Gauss, của một biến ngẫu nhiên liên tục có hàm mật độ được biểu diễn dưới dạng sau :

`f(x)=1/(sigmasqrt(2pi))\ e^(-1/2((x-mu)/sigma)^2)`(19)

trong đó `mu` là trung bình, `sigma^2` là phương sai của phân phối chuẩn. Đây là hai thông số đặc trưng của phân phối này. Vì thế người ta còn dùng ký hiệu `N(mu,sigma^2)` để biểu diễn cho phân phối chuẩn.

Đường cong biểu diễn hàm mật độ (19) có hình chuông như trên Hình 1.

x f(x)0,399/σσµ

Hình 1 Đường cong hàm mật độ của phân phối chuẩn

Ta thấy đường cong này có thể được chia thành hai nhánh tại số trung bình, và hai nhánh này đối xứng nhau. Người ta cũng thu được các kết quả sau :

  •   `P(mu-sigma<=X<=mu+sigma)=0,6827`
  •   `P(mu-2sigma<=X<=mu+2sigma)=0,9545`
  •   `P(mu-3sigma<=X<=mu+3sigma)=0,9973`

Các kết quả này có nhiều ứng dụng trong thực tiễn. Thí dụ khi ta biết đến 95,45% số liệu nằm trong khoảng `+-2sigma` chung quanh trị trung bình thì trong một số trường hợp, ta có thể loại bỏ các số liệu nằm ngoài khoảng này.


Phân phối chuẩn tiêu chuẩn

 

Trong khi ứng dụng phân phối chuẩn, để tiện tính toán và tra cứu, ta đặt:

`Z=(X-mu)/sigma`(20)

Khi ấy ta có phân phối chuẩn tiêu chuẩn hay phân phối chuẩn được chuẩn hóa (standardized normal distribution) với hàm mật độ:

`f(z)=1/sqrt(2pi)\ e^(-z^2//2)`(21)

Phân phối này có trung bình là 0 và độ lệch chuẩn là 1, do đó được ký hiệu là `N(0,1)`. Đồ thị hàm mật độ phân phối này cũng có hình chuông như trên Hình 2.

z f(z) F(z)

Hình 2 Đường cong hàm mật độ của phân phối chuẩn tiêu chuẩn hóa

Do `f(z)` là hàm số chẵn nên đường cong biểu diễn hàm mật độ nhận trục tung làm trục đối xứng. Trên Hình 2, phần diện tích bên dưới đường biểu diễn từ `-oo` đến `z` biểu diễn hàm phân phối tích lũy `F(z)`, nghĩa là biểu diễn giá trị của tích phân sau:

`F(z)=int_(-oo)^z f(t)\ dt=int_(-oo)^z 1/sqrt(2pi)\ e^(-t^2//2 )dt`(22)

Ngoài ra, do tính chất đối xứng của hàm mật độ nên ta có (Hình 3) :

`F(z)+F(-z)=1`(23)

z-z f(z)f(z) F(z)F(-z)

Hình 3 Hàm phân phối của hai số đối nhau

Như ta sẽ thấy, tính chất này rất hữu dụng trong các tính toán liên quan đến phân phối chuẩn.

Ghi chú : Theo công thức (20), ta thấy `z` là khoảng cách tương đối từ `x` đến trung bình `mu` với "đơn vị" là độ lệch chuẩn. Đây là đại lượng thường được sử dụng khi so sánh vị trí tương đối của các số liệu.


Bảng số phân phối chuẩn

 

Do phân phối chuẩn tiêu chuẩn hóa rất thường được sử dụng trong tính toán thống kê nên người ta đã lập sẵn các bảng số để ta tra cứu. Nhìn chung các bảng này cho ta biết mối quan hệ giữa giá trị `a` của biến ngẫu nhiên và giá trị của hàm phân phối tích lũy `F(a)` với:

`F(a)=int_(-oo)^a f(z)\ dz=int_(-oo)^a 1/sqrt(2pi)\ e^(-z^2//2)dz`(24)

Ta có hai loại bảng chính :

  • cho `a`, xác định `F(a)` (bảng phân phối)
  • cho `F(a)`, xác định `a` (bảng phân vị)

Bảng phân phối

Bảng 1 cho ta giá trị của hàm phân phối tích lũy của phân phối chuẩn tiêu chuẩn. Đây là một bảng số thông dụng mà ta có thể tìm thấy trong nhiều sách, tài liệu về thống kê.

Bảng 1 Giá trị của hàm phân phối tích lũy của phân phối chuẩn tiêu chuẩn
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

Trong bảng này, dòng đầu tiên có giá trị từ 0,00 đến 0,09, cột đầu tiên có giá trị từ 0,0 đến 2,9. Như vậy bảng này sẽ cho ta giá trị `F(a)` khi `a` trong khoảng từ 0,00 đến 2,99 với 2 chữ số thập phân

Để tìm `F(a)`, ta chuyển `a` về dạng số có hai chữ số thập phân như 1,48. Sau đó tách `a` làm 2 phần:

  • phần thứ nhất gồm phần nguyên và chữ số thập phân thứ nhất sau dấu phẩy. Thí dụ phần thứ nhất của 1,48 là 1,4.
  • phần thứ hai là số thập phân còn lại. Thí dụ phần thứ hai của 1,48 là 0,08

Điều đó có nghĩa là ta có :   1,48 = 1,4+0,08

Vậy `F(1,48)` là nơi cắt nhau của dòng 1,4 và cột 0,08, hay   `F(1,48)=0,9306`

Trường hợp `a< 0`

Khi `a` là số âm, ta không thể xác định trực tiếp `F(a)` từ Bảng 1. Thay vào đó ta sử dụng tính chất đối xứng của hàm mật độ để có :

`F(a)+F(-a)=1`(23)

Thí dụ :   Vì   `F(1,48)+F(-1,48)=1`
nên   `F(-1,48)=1-F(1,48)=1-0,9306=0,0694`


Bảng phân vị

Bảng phân vị có thể xem là bảng tra ngược của bảng phân phối, trong đó ta đi tìm `a` khi đã biết `F(a)`. Bảng 2 là bảng phân vị cho phân phối chuẩn tiêu chuẩn.

Bảng 2 Bảng phân vị cho phân phối chuẩn tiêu chuẩn
0,000 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,009
0,50 0,0000 0,0025 0,0050 0,0075 0,0100 0,0125 0,0150 0,0175 0,0201 0,0226
0,51 0,0251 0,0276 0,0301 0,0326 0,0351 0,0376 0,0401 0,0426 0,0451 0,0476
0,52 0,0502 0,0527 0,0552 0,0577 0,0602 0,0627 0,0652 0,0677 0,0702 0,0728
0,53 0,0753 0,0778 0,0803 0,0828 0,0853 0,0878 0,0904 0,0929 0,0954 0,0979
0,54 0,1004 0,1030 0,1055 0,1080 0,1105 0,1130 0,1156 0,1181 0,1206 0,1231
0,55 0,1257 0,1282 0,1307 0,1332 0,1358 0,1383 0,1408 0,1434 0,1459 0,1484
0,56 0,1510 0,1535 0,1560 0,1586 0,1611 0,1637 0,1662 0,1687 0,1713 0,1738
0,57 0,1764 0,1789 0,1815 0,1840 0,1866 0,1891 0,1917 0,1942 0,1968 0,1993
0,58 0,2019 0,2045 0,2070 0,2096 0,2121 0,2147 0,2173 0,2198 0,2224 0,2250
0,59 0,2275 0,2301 0,2327 0,2353 0,2378 0,2404 0,2430 0,2456 0,2482 0,2508
0,60 0,2533 0,2559 0,2585 0,2611 0,2637 0,2663 0,2689 0,2715 0,2741 0,2767
0,61 0,2793 0,2819 0,2845 0,2871 0,2898 0,2924 0,2950 0,2976 0,3002 0,3029
0,62 0,3055 0,3081 0,3107 0,3134 0,3160 0,3186 0,3213 0,3239 0,3266 0,3292
0,63 0,3319 0,3345 0,3372 0,3398 0,3425 0,3451 0,3478 0,3505 0,3531 0,3558
0,64 0,3585 0,3611 0,3638 0,3665 0,3692 0,3719 0,3745 0,3772 0,3799 0,3826
0,65 0,3853 0,3880 0,3907 0,3934 0,3961 0,3989 0,4016 0,4043 0,4070 0,4097
0,66 0,4125 0,4152 0,4179 0,4207 0,4234 0,4261 0,4289 0,4316 0,4344 0,4372
0,67 0,4399 0,4427 0,4454 0,4482 0,4510 0,4538 0,4565 0,4593 0,4621 0,4649
0,68 0,4677 0,4705 0,4733 0,4761 0,4789 0,4817 0,4845 0,4874 0,4902 0,4930
0,69 0,4959 0,4987 0,5015 0,5044 0,5072 0,5101 0,5129 0,5158 0,5187 0,5215
0,70 0,5244 0,5273 0,5302 0,5330 0,5359 0,5388 0,5417 0,5446 0,5476 0,5505
0,71 0,5534 0,5563 0,5592 0,5622 0,5651 0,5681 0,5710 0,5740 0,5769 0,5799
0,72 0,5828 0,5858 0,5888 0,5918 0,5948 0,5978 0,6008 0,6038 0,6068 0,6098
0,73 0,6128 0,6158 0,6189 0,6219 0,6250 0,6280 0,6311 0,6341 0,6372 0,6403
0,74 0,6433 0,6464 0,6495 0,6526 0,6557 0,6588 0,6620 0,6651 0,6682 0,6713
0,75 0,6745 0,6776 0,6808 0,6840 0,6871 0,6903 0,6935 0,6967 0,6999 0,7031
0,76 0,7063 0,7095 0,7128 0,7160 0,7192 0,7225 0,7257 0,7290 0,7323 0,7356
0,77 0,7388 0,7421 0,7454 0,7488 0,7521 0,7554 0,7588 0,7621 0,7655 0,7688
0,78 0,7722 0,7756 0,7790 0,7824 0,7858 0,7892 0,7926 0,7961 0,7995 0,8030
0,79 0,8064 0,8099 0,8134 0,8169 0,8204 0,8239 0,8274 0,8310 0,8345 0,8381
0,80 0,8416 0,8452 0,8488 0,8524 0,8560 0,8596 0,8633 0,8669 0,8705 0,8742
0,81 0,8779 0,8816 0,8853 0,8890 0,8927 0,8965 0,9002 0,9040 0,9078 0,9116
0,82 0,9154 0,9192 0,9230 0,9269 0,9307 0,9346 0,9385 0,9424 0,9463 0,9502
0,83 0,9542 0,9581 0,9621 0,9661 0,9701 0,9741 0,9782 0,9822 0,9863 0,9904
0,84 0,9945 0,9986 1,0027 1,0069 1,0110 1,0152 1,0194 1,0237 1,0279 1,0322
0,85 1,0364 1,0407 1,0450 1,0494 1,0537 1,0581 1,0625 1,0669 1,0714 1,0758
0,86 1,0803 1,0848 1,0893 1,0939 1,0985 1,1031 1,1077 1,1123 1,1170 1,1217
0,87 1,1264 1,1311 1,1359 1,1407 1,1455 1,1503 1,1552 1,1601 1,1650 1,1700
0,88 1,1750 1,1800 1,1850 1,1901 1,1952 1,2004 1,2055 1,2107 1,2160 1,2212
0,89 1,2265 1,2319 1,2372 1,2426 1,2481 1,2536 1,2591 1,2646 1,2702 1,2759
0,90 1,2816 1,2873 1,2930 1,2988 1,3047 1,3106 1,3165 1,3225 1,3285 1,3346
0,91 1,3408 1,3469 1,3532 1,3595 1,3658 1,3722 1,3787 1,3852 1,3917 1,3984
0,92 1,4051 1,4118 1,4187 1,4255 1,4325 1,4395 1,4466 1,4538 1,4611 1,4684
0,93 1,4758 1,4833 1,4909 1,4985 1,5063 1,5141 1,5220 1,5301 1,5382 1,5464
0,94 1,5548 1,5632 1,5718 1,5805 1,5893 1,5982 1,6072 1,6164 1,6258 1,6352
0,95 1,6449 1,6546 1,6646 1,6747 1,6849 1,6954 1,7060 1,7169 1,7279 1,7392
0,96 1,7507 1,7624 1,7744 1,7866 1,7991 1,8119 1,8250 1,8384 1,8522 1,8663
0,97 1,8808 1,8957 1,9110 1,9268 1,9431 1,9600 1,9774 1,9954 2,0141 2,0335
0,98 2,0537 2,0749 2,0969 2,1201 2,1444 2,1701 2,1973 2,2262 2,2571 2,2904
0,99 2,3263 2,3656 2,4089 2,4573 2,5121 2,5758 2,6521 2,7478 2,8782 3,0902

Trước hết ta có nhận xét rằng nguyên tắc sắp xếp của Bảng 1 và Bảng 2 tương tự nhau.

Trong Bảng 2, dòng đầu tiên có giá trị từ 0,000 đến 0,009, cột đầu tiên có giá trị từ 0,50 đến 0,99. Như vậy bảng này sẽ cho ta giá trị `a` khi `F(a)` trong khoảng từ 0,500 đến 0,999 với 3 chữ số thập phân

Như vậy, cách sử dụng Bảng 2 cũng tương tự như Bảng 1. Để tìm `a`, ta chuyển `F(a)` về dạng số có ba chữ số thập phân như 0,726. Sau đó tách `F(a)` làm 2 phần:

  • phần thứ nhất gồm hai chữ số thập phân thứ nhất và thứ hai sau dấu phẩy. Thí dụ phần thứ nhất của 0,726 là 0,72.
  • phần thứ hai là số thập phân còn lại. Thí dụ phần thứ hai của 0,726 là 0,006

Điều đó có nghĩa là ta có :   0,726 = 0,72 + 0,006

Vậy `a` là nơi cắt nhau của dòng 0,72 và cột 0,006, hay   `a=0,6008`

Trường hợp `F(a)< 0,500`

Khi `F(a)< 0,500`, ta không thể sử dụng trực tiếp Bảng 2 để tìm `a` được. Ta phải sử dụng tính chất của hàm mật độ đối xứng thể hiện trên công thức (21) để xác định `a`.

Thí dụ : Hãy tìm `a` biết `F(a)=0,264`.

Sử dụng công thức (23) ta có :   `F(- a)=1-F(a)=1-0,246=0,754`

Từ Bảng 2, ta có :  `-a=0,6871`

Vậy :   `a =-0,6871`


Phân phối nhị thức và phân phối chuẩn

Người ta chứng minh được rằng khi số phần tử `n` của mẫu trong phân phối nhị thức tăng lên thì phân phối này có xu hướng tiến đến phân phối chuẩn, và khi `n` khá lớn thì sự khác biệt giữa hai phân phối này không đáng kể nữa. Điều này làm việc tính xác suất được dễ dàng hơn vì khi `n` lớn, việc tính xác suất theo công thức (7) trở nên khó khăn.

Phân phối chuẩn tương đương với phân phối nhị thức có :

  •   `mu=np`
  •   `sigma^2=np(1-p)`

Điều cần lưu ý là ta chỉ có thể sử dụng sự tương đương này khi số phần tử `n` của mẫu đủ lớn để có `np>=5`   hay   `n(1-p)>=5`.

Thí dụ : Tỷ lệ sản phẩm xếp loại A của công ty C là 48%. Một lô hàng của công ty này có 800 sản phẩm. Tính xác suất để trong lô hàng ấy có không ít hơn 50% đạt loại A.

Về thực chất đây là một bài toán sử dụng phân phối nhị thức với  `p=0,48` ;  `n=800` và ta cần tính `P(X>=400)`. Như vậy `x` trong phân phối nhị thức sẽ thay đổi từ 400 đến 800.

Giải bài toán này bằng cách sử dụng phân phối nhị thức sẽ rất khó khân, tốn rất nhiều công sức. Vì vậy ta sử dụng phân phối chuẩn tương đương với :

  •   `mu=np=800xx0,48=384`
  •   `sigma^2=np(1-p)=800xx0,48xx0,52=199,68`   hay   `sigma=14,13`

Đặt   `Z=(X-mu)/sigma`

Vậy   `P(X>=400)=P(Z>=(400-384)/(14,13))=P(Z>=1,13)`

  `P(X>=400)=P(Z>=1,13)=1-P(Z< 1,13)`

  `P(X>=400)=1-F(1,13)=1-0,87=0,13`

Ghi chú : Từ mối quan hệ giữa phân phối nhị thức và phân phối siêu bội, ta cũng có thể xem phân phối chuẩn là xấp xỉ của phân phối siêu bội khi số phần tử `n` của mẫu bé hơn nhiều so với số phần tử của tổng thể.


Phân phối Poisson và phân phối chuẩn

Tương tự như phân phối nhị thức, khi số phần tử `n` của mẫu tăng lên thì phân phối Poisson cũng tương đương với phân phối chuẩn. Phân phối chuẩn tương đương có:

  •   `mu=lambda`
  •   `sigma^2=lambda`;

Ta chỉ có thể ứng dụng sự tương đương này khi   `lambda>5`

Thí dụ : Trung bình mỗi gam của sản phẩm S chứa 1040 vi sinh vật V. Lấy một mẫu để kiểm tra. Tính xác suất để trong mẫu này chứa ít hơn 1000 vi sinh vật mỗi gam.

Về thực chất đây là bài toán sử dụng phân phối Poisson với `lambda=1040`, `x` sẽ thay đổi từ 0 đến 999 và ta phải tính `P(X< 1000)` nghĩa là ta phải tính :

  `P(X< 1000)=sum_(x=0)^999 (e^(-1040)1040^x)/(x!)`

Tính toán theo cách này tốn rất nhiều thời gian. Vì vậy ta dùng phân phối chuẩn tương đương với :

  •   `mu=lambda=1040`
  •   `sigma^2=lambda=1040`   hay   `sigma=32,25`

Đặt   `Z=(X-mu)/sigma`

Vậy   `P(X< 1000)=P(Z<=(1000-1040)/(32,25))`

Vậy   `P(X< 1000)=P(Z<=-1,24)=0,11`



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018