Các đại lượng thể hiện xu hướng tập trung đóng một vai trò quan trọng trong việc trình bày dữ liệu. Nếu ta phải sử dụng một giá trị để đại diện cho một thuộc tính nào đấy của một tổng thể hay một mẫu thì trong đại đa số trường hợp, giá trị đó thể hiện xu hướng tập trung của thuộc tính ấy.
Trong phần này, ta khảo sát ba đại lượng là trung bình, trung vị và mốt.
Chúng ta có một số loại trung bình như trung bình cộng, trung bình nhân, trung bình điều hòa. Nhìn chung, trung bình cộng được dùng rộng rãi hơn cả.
Trung bình cộng
Xét `n` số hạng `x_1,x_2,\ ...\ ,x_n`. Trung bình cộng (arithmetic mean hay average) của `n` số hạng này là:
`bar x=(x_1+x_2+cdots+x_i+cdots+x_n)/n=1/n sum_(i=1)^n x_i` | (1) |
Trong trường hợp đi kèm số hạng `x_i` còn có trọng số (weight) `w_i` thì trung bình cộng có trọng số (weighted mean) được tính theo công thức :
`bar x=(w_1x_1+w_2x_2+cdots+w_ix_i+cdots+w_nx_n)/(w_1+w_2+cdots+w_i+cdots+w_n)=(sum_(i=1)^n w_ix_i)/(sum_(i=1)^n w_i)` | (2) |
Khi các trọng số này được chuẩn hóa, nghĩa là :
`sum_(i=1)^n w_i=1` | (3) |
thì : | `bar x=sum_(i=1)^n w_ix_i` | (4) |
Khi số liệu được gộp thành `n` nhóm với `x_i` là giá trị đại diện cho nhóm `i` và `f_i` là số phần tử của nhóm này thì :
`bar x=(sum_(i-1)^n f_ix_i)/(sum_(i-1)^n f_i)=1/N sum_(i=1)^n f_ix_i` | (5) |
Với `N` là tổng số phần tử của toàn bộ `n` nhóm.
Thí dụ : Từ dữ liệu về tình hình kinh doanh mặt hàng áo sơ mi của công ty may mặc MM (xem trong phần "Bảng liệt kê" hay tập tin Tinh_Hinh_KD.csv), ta có lượng sản phẩm trung bình của mỗi cửa hàng bán được là :
`bar ("San_Pham")=(sum_(i=1)^20 ("San_Pham"_i))/20=21108/20=1055,4`
Trung bình nhân
Trung bình nhân (geometric mean) của `n` số hạng dương `x_1,x_2,\ ...\ ,x_n` được xác định theo công thức :
`bar x=root(n)(x_1x_2\ cdots\ x_i \ cdots\ x_n)=root(n)(prod_(i=1)^n x_i)` | (6) |
Trung bình nhân được sử dụng trong trường hợp các số hạng cách biệt nhau rất đáng kể khiến trung bình cộng không còn ý nghĩa (như lượng vi sinh vật).
Trung bình điều hòa
Trung bình điều hòa (harmonic mean) của `n` số hạng `x_1,x_2,\ ...\ ,x_n` được xác định theo công thức :
`bar x=1/(1/(x_1)+1/(x_2)+cdots+1/(x_i)+cdots+1/(x_n))` | (7) |
Trong website này, trung bình cộng được dùng trong đại đa số trường hợp. Do đó để việc trình bày được ngắn gọn, chúng tôi sử dụng thuật ngữ "trung bình" thay cho "trung bình cộng", ngoại trừ các trường hợp cần chú thích thêm.
Một cách tổng quát, trung vị (median) là số ở giữa của một chuỗi số đã được xếp theo thứ tự tăng dần. Điều đó có nghĩa là số số hạng bé hơn trung vị và số số hạng lớn hơn trung vị bằng nhau.
Xét chuỗi số gồm `n` số hạng đã được xếp theo thứ tự tăng dần. Ta có hai trường hợp :
Mốt là giá trị có số lần xuất hiện (tần số) cao nhất.
Thí đụ vói chuỗi số C : 25 16 7 12 16 24 25 11 16 33
thì mốt là số 16 với tần số là 3.
Khác với trung bình và trung vị, mốt có một số đặc điểm sau :
Việc sử dụng đại lượng nào để đặc trưng cho xu hướng tập trung còn tùy thuộc tình hình cụ thể như lĩnh vực khảo sát, mục đích sử dụng. Trong khoa học và công nghệ, số trung bình được sử dụng rộng rãi nhất, đặc biệt là trung bình cộng. Tuy nhiên khi số liệu có giá trị phân phối không đồng đều, có một số ít phần tử có sự sai lệch quá lớn so với phần còn lại, ta cần xem xét thêm.
Ta hãy xét một tập thể có 1000 người, trong đó có 995 người có thu nhập 5 triệu đồng mỗi tháng, 5 người còn lại có thu nhập 1 tỷ đồng mỗi tháng. Như vậy thu nhập trung bình của tập thể này là 9,975 triệu đồng mỗi tháng. Trong một số trường hợp, ta sử dụng giá trị này để đại diện cho cả tập thể 1000 người thì không hợp lý bằng trung vị (5 triệu đồng mỗi tháng).
Trong trường hợp dữ liệu định danh, thì mốt là giá trị gần như bắt buộc mà ta sử dụng để đặc trưng cho xu hướng tập trung.
Trong một số trường hợp hiếm hoi, người ta còn dùng tâm điểm (midrange). Đó là trung bình của giá trị lớn nhất và giá trị nhỏ nhất.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R