Xu hướng tập trung của dữ liệu

Các đại lượng thể hiện xu hướng tập trung đóng một vai trò quan trọng trong việc trình bày dữ liệu. Nếu ta phải sử dụng một giá trị để đại diện cho một thuộc tính nào đấy của một tổng thể hay một mẫu thì trong đại đa số trường hợp, giá trị đó thể hiện xu hướng tập trung của thuộc tính ấy.

Trong phần này, ta khảo sát ba đại lượng là trung bình, trung vị và mốt.

Trung bình

Chúng ta có một số loại trung bình như trung bình cộng, trung bình nhân, trung bình điều hòa. Nhìn chung, trung bình cộng được dùng rộng rãi hơn cả.

Trung bình cộng

Xét `n` số hạng `x_1,x_2,\ ...\ ,x_n`. Trung bình cộng (arithmetic mean hay average) của `n` số hạng này là:

`bar x=(x_1+x_2+cdots+x_i+cdots+x_n)/n=1/n sum_(i=1)^n x_i`

(1)

Trong trường hợp đi kèm số hạng `x_i` còn có trọng số (weight) `w_i` thì trung bình cộng có trọng số (weighted mean) được tính theo công thức :

`bar x=(w_1x_1+w_2x_2+cdots+w_ix_i+cdots+w_nx_n)/(w_1+w_2+cdots+w_i+cdots+w_n)=(sum_(i=1)^n w_ix_i)/(sum_(i=1)^n w_i)`

(2)

Khi các trọng số này được chuẩn hóa, nghĩa là :

`sum_(i=1)^n w_i=1`

(3)

thì :

`bar x=sum_(i=1)^n w_ix_i`

(4)

Khi số liệu được gộp thành `n` nhóm với `x_i` là giá trị đại diện cho nhóm `i` và `f_i` là số phần tử của nhóm này thì :

`bar x=(sum_(i-1)^n f_ix_i)/(sum_(i-1)^n f_i)=1/N sum_(i=1)^n f_ix_i`

(5)

Với `N` là tổng số phần tử của toàn bộ `n` nhóm.

Thí dụ : Từ dữ liệu về tình hình kinh doanh mặt hàng áo sơ mi của công ty may mặc MM (xem trong phần "Bảng liệt kê" hay tập tin Tinh_Hinh_KD.csv), ta có lượng sản phẩm trung bình của mỗi cửa hàng bán được là :

`bar ("San_Pham")=(sum_(i=1)^20 ("San_Pham"_i))/20=21108/20=1055,4`

Trung bình nhân

Trung bình nhân (geometric mean) của `n` số hạng dương `x_1,x_2,\ ...\ ,x_n` được xác định theo công thức :

`bar x=root(n)(x_1x_2\ cdots\ x_i \ cdots\ x_n)=root(n)(prod_(i=1)^n x_i)`

(6)

Trung bình nhân được sử dụng trong trường hợp các số hạng cách biệt nhau rất đáng kể khiến trung bình cộng không còn ý nghĩa (như lượng vi sinh vật).

Trung bình điều hòa

Trung bình điều hòa (harmonic mean) của `n` số hạng `x_1,x_2,\ ...\ ,x_n` được xác định theo công thức :

`bar x=1/(1/(x_1)+1/(x_2)+cdots+1/(x_i)+cdots+1/(x_n))`

(7)

Trong website này, trung bình cộng được dùng trong đại đa số trường hợp. Do đó để việc trình bày được ngắn gọn, chúng tôi sử dụng thuật ngữ "trung bình" thay cho "trung bình cộng", ngoại trừ các trường hợp cần chú thích thêm.

Trung vị

Một cách tổng quát, trung vị (median) là số ở giữa của một chuỗi số đã được xếp theo thứ tự tăng dần. Điều đó có nghĩa là số số hạng bé hơn trung vị và số số hạng lớn hơn trung vị bằng nhau.

Xét chuỗi số gồm `n` số hạng đã được xếp theo thứ tự tăng dần. Ta có hai trường hợp :

Nếu `n` là số lẻ : trung vị là số hạng thứ `(n + 1)//2`.
Thí dụ với chuỗi số A : 3 6 7 9 12 28 55 71 86
thì trung vị là số hạng thứ năm (12)
Nếu `n` là số chẵn : trung vị là trung bình cộng của số hạng thứ `n//2` và thứ (`n//2+1`).
Thí dụ với chuỗi số B : 3 6 7 9 12 28 55 71 86 93
thì trung vị là trung bình của số hạng thứ năm (12) và số hạng thứ sáu (28). Vậy trung vị của chuỗi số B là 20.

Mốt

Mốt là giá trị có số lần xuất hiện (tần số) cao nhất.

Thí đụ vói chuỗi số C : 25 16 7 12 16 24 25 11 16 33

thì mốt là số 16 với tần số là 3.

Khác với trung bình và trung vị, mốt có một số đặc điểm sau :

mốt có thể sử dụng cho các dữ liệu định danh,
tùy theo giá trị của dữ liệu mà mốt có thể có một giá trị (như thí dụ trên), hai giá trị (bimodal), nhiều giá trị (multimodal) hay không có giá trị nào.

Ghi chú

Việc sử dụng đại lượng nào để đặc trưng cho xu hướng tập trung còn tùy thuộc tình hình cụ thể như lĩnh vực khảo sát, mục đích sử dụng. Trong khoa học và công nghệ, số trung bình được sử dụng rộng rãi nhất, đặc biệt là trung bình cộng. Tuy nhiên khi số liệu có giá trị phân phối không đồng đều, có một số ít phần tử có sự sai lệch quá lớn so với phần còn lại, ta cần xem xét thêm.

Ta hãy xét một tập thể có 1000 người, trong đó có 995 người có thu nhập 5 triệu đồng mỗi tháng, 5 người còn lại có thu nhập 1 tỷ đồng mỗi tháng. Như vậy thu nhập trung bình của tập thể này là 9,975 triệu đồng mỗi tháng. Trong một số trường hợp, ta sử dụng giá trị này để đại diện cho cả tập thể 1000 người thì không hợp lý bằng trung vị (5 triệu đồng mỗi tháng).

Trong trường hợp dữ liệu định danh, thì mốt là giá trị gần như bắt buộc mà ta sử dụng để đặc trưng cho xu hướng tập trung.

Trong một số trường hợp hiếm hoi, người ta còn dùng tâm điểm (midrange). Đó là trung bình của giá trị lớn nhất và giá trị nhỏ nhất.

Trang web này được cập nhật lần cuối ngày 27/11/2018

Thống kê

Sơ đồ site