Các số phân vị (quantile hay fractile) được dùng để xác định vị trí tương đối của một giá trị so với các giá trị khác trong một tập hợp số. Một cách tổng quát, các số phân vị sẽ chia một tập hợp số đã được xếp thứ tự thành nhiều phần có số số hạng bằng nhau (hay gần bằng nhau). Như vậy trung vị là một dạng của số phân vị. Hai loại số phân vị phổ biến nhất là bách phân vị (percentile) và tứ phân vị (quartile).
Bách phân vị còn được gọi là phân vị phần trăm. Bách phân vị thứ `p` (hay phân vị phần trăm thứ `p`) của một dãy số đã xếp theo thứ tự tăng dần là một số `A` có : (Hình 1)
Cần lưu ý rằng `A` có thể thuộc dãy số này hay không.
Hình 1 Phân vị phần trăm thứ `p` của một dãy số
Về mặt thực hành, để xác định phân vị phần trăm thứ `p` của một dãy số có `n` số hạng đã xếp thứ tự, ta làm như sau :
Thí dụ : Phân vị phần trăm thứ 90 của một dãy số có 345 số hạng đã xếp thứ tự là số hạng thứ mấy ?
Ta có : `k=(np)/100=(345xx90)/100=310,5`
Vì `k` không phải là số nguyên nên số phân vị phần trăm thứ 90 của dãy số đã cho là số hạng thứ 311.
Ghi chú
Các số tứ phân vị (thường được gọi tắt là số tứ phân) là các số chia dãy số đã được xếp thứ tự thành 4 phần có số số hạng bằng nhau (hay gần bằng nhau). Như vậy ta có 3 số tứ phân được ký hiệu là `Q_1`, `Q_2`, và `Q_3` (Hình 2).
Hình 2 Các số tứ phân
Như vậy, số tứ phân thứ nhất là số bách phân vị thứ 25, số tứ phân thứ hai là số bách phân vị thứ 50 hay trung vị, số tứ phân thứ ba là số bách phân vị thứ 75. Sự tương đương này giúp ta xác định được số tứ phân một cách dễ dàng.
Do đó với dãy số có 345 số hạng đã xếp thứ tự như thí dụ trên thì :
Khi sử dụng số các số tứ phân thì ta vừa có thể biết được xu hướng tập trung, vừa có thể biết được mức độ phân tán. Do đặc điểm này mà các số tứ phân được sử dụng rộng rãi trong khảo sát cũng như trình bày dữ liệu.
Biểu đồ hộp (boxplot) dùng để trình bày các số tứ phân và một vài giá trị khác có liên quan của dữ liệu. Biểu đồ này có thể ở dạng đứng (hình vẽ tại phần "Biểu đồ trong R") hay dạng ngang (Hình 3).
Hình 3 Các thành phần của biểu đồ hộp
Hình 3 là biểu đồ hộp của 150 số trong khoảng từ 0 đến 1000 được lấy một cách ngẫu nhiên. Qua hình này, ta thấy biểu đồ hộp gồm các thành phần chính sau:
Như vậy biểu đồ hộp đồng thời thể hiện được cả xu hướng tập trung và mức độ phân tán của số liệu. Do đó biểu đồ này thường được dùng trong khảo sát và phân tích dữ liệu, đặc biệt là trong giai đoạn tìm hiểu, thăm dò.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R