Để đặc trưng cho số liệu, chỉ sử dụng các đại lượng thể hiện xu hướng tập trung chưa cho thấy được sự sắp xếp số liệu, ngay cả ở mức độ khái quát. Xét hai dãy số sau:
+ A : 6 7 8 9 10
và
+ B : 1 2 6 11 20
Ta thấy hai dãy số này có trung bình như nhau (đều là 8), nhưng khi phân tích số liệu, ta thấy chúng lại có nhiều điểm khác biệt nhau. Đó là do chúng có độ phân tán khác nhau.
Như vậy, bên cạnh các đại lượng thể hiện xu hướng tập trung, ta cần sử dụng thêm các đại lượng thể hiện mức độ phân tán.
Khoảng biến thiên
Khoảng biến thiên (range) của biến `x` là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất:
`R=x_max-x_min`(8)
Phương sai & Độ lệch chuẩn
Đối với tổng thể có `N` phần tử, có số trung bình là `mu`, phương sai (variance) được xác định theo công thức :
`sigma^2=(sum_(i=1)^N (x_i-mu)^2)/N` | (9) |
Tuy nhiên, phương sai của một mẫu gồm `n` số hạng `x_1,x_2,\ ...\ ,x_n` lại được xác định theo công thức :
`s^2=(sum_(i=1)^n (x_i-bar x)^2)/(n-1)` | (10) |
Trong đó, giá trị `n-1` còn được gọi là độ tự do (degree of freedom), `sigma` và `s` được gọi là độ lệch chuẩn. Như vậy ta có thể xem độ lệch chuẩn thể hiện khoảng cách trung bình giữa các giá trị `x_i` và `mu` (hay `bar x`).
Để tính toán phương sai và độ lệch chuẩn bằng các phương pháp thủ công dễ dàng hơn, ta có lưu ý rằng :
`sum_(i=1)^n (x_i-bar x)^2=sum_(i=1)^n x_i^2-1/n(sum_(i=1)^n x_i)^2` | (11) |
Ghi chú : Ta lưu ý rằng với cùng một số đặc trưng, như trung bình chẳng hạn, theo quy ước thông dụng thì ký hiệu dùng cho tổng thể và mẫu không giống nhau. Bảng 1 cho ta thấy sự khác biệt này.
Số đặc trưng | Tổng thể | Mẫu |
---|---|---|
Trung bình | `mu` | `bar x` |
Phương sai | `sigma^2` | `s^2` |
Độ lệch chuẩn | `sigma` | `s` |
Tỷ lệ | `pi` | `p` |
Hệ số biến động
Hệ số biến động (coefficient of variation) của một tập hợp số là tỷ số giữa độ lệch chuẩn và trị trung bình. Như vậy đối với tổng thể, ta có :
`CV=sigma/mu` | (12) |
Còn đối với mẫu thì :
`CV=s/(bar x)` | (13) |
Thông số này thường được dùng để so sánh mức độ biến động của các tập hợp số với nhau, đặc biệt khi giá trị trong những tập hợp này có sự sai khác đáng kể. Cần chú ý rằng đại lượng này chỉ nên sử dụng cho các giá trị thuộc kiểu “có tỷ số”. Ngoài ra việc so sánh sẽ có hiệu quả hơn đối với các tập hợp chỉ có giá trị dương, hay chỉ có giá trị âm.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R