logo xDuLieu.com

Trang trướcCác số phân vị & Biểu đồ hộpTrang sau

Các số phân vị (quantile hay fractile) được dùng để xác định vị trí tương đối của một giá trị so với các giá trị khác trong một tập hợp số. Một cách tổng quát, các số phân vị sẽ chia một tập hợp số đã được xếp thứ tự thành nhiều phần có số số hạng bằng nhau (hay gần bằng nhau). Như vậy trung vị là một dạng của số phân vị. Hai loại số phân vị phổ biến nhất là bách phân vị (percentile) và tứ phân vị (quartile).

Bách phân vị

 

Bách phân vị còn được gọi là phân vị phần trăm. Bách phân vị thứ `p` (hay phân vị phần trăm thứ `p`) của một dãy số đã xếp theo thứ tự tăng dần là một số `A` có : (Hình 1)

  • `p` phần trăm số hạng của dãy số này có giá trị bé hơn hay bằng `A`,
  • `100-p` phần trăm số hạng của dãy số này có giá trị lớn hơn hay bằng `A`.

Cần lưu ý rằng `A` có thể thuộc dãy số này hay không.

p % số hạng(100 − p) % số hạng

Hình 1 Phân vị phần trăm thứ `p` của một dãy số

Về mặt thực hành, để xác định phân vị phần trăm thứ `p` của một dãy số có `n` số hạng đã xếp thứ tự, ta làm như sau :

  • tính `k=np//100`
  • nếu `k` là số nguyên, `A` là số trung bình cộng của số hạng thứ `k` và `k+1` của dãy số,
  • nếu `k` không là số nguyên, `A` là số hạng thứ `m` của dãy số, với `m` là số nguyên liền kề sau `k`

Thí dụ : Phân vị phần trăm thứ 90 của một dãy số có 345 số hạng đã xếp thứ tự là số hạng thứ mấy ?

Ta có : `k=(np)/100=(345xx90)/100=310,5`

Vì `k` không phải là số nguyên nên số phân vị phần trăm thứ 90 của dãy số đã cho là số hạng thứ 311.

Ghi chú

  • Ta có 99 số bách phân vị, được ký hiệu từ `P_1` đến `P_(99)`. Lưu ý là không có `P_0` và `P_(100)`.
  • Cho đến nay, vẫn chưa có một định nghĩa nào về số bách phân vị được sự chấp nhận của đa số người hoạt động trong lĩnh vực thống kê. Theo www.wessa.net, có 8 định nghĩa khác nhau về số bách phân vị. Như vậy cũng có một số phương pháp khác nhau để xác định đại lượng này, có kết quả tính toán có thể không giống nhau, đặc biệt khi dãy số có ít số hạng. Ở đây, chúng tôi chọn phương pháp tương đối đơn giản, thường được trình bày trong các giáo trình về thống kê (nếu có).

Tứ phân vị

 

Các số tứ phân vị (thường được gọi tắt là số tứ phân) là các số chia dãy số đã được xếp thứ tự thành 4 phần có số số hạng bằng nhau (hay gần bằng nhau). Như vậy ta có 3 số tứ phân được ký hiệu là `Q_1`, `Q_2`, và `Q_3` (Hình 2).

Q1Q2Q3 25 % số hạng25 % số hạng25 % số hạng25 % số hạng

Hình 2 Các số tứ phân

Như vậy, số tứ phân thứ nhất là số bách phân vị thứ 25, số tứ phân thứ hai là số bách phân vị thứ 50 hay trung vị, số tứ phân thứ ba là số bách phân vị thứ 75. Sự tương đương này giúp ta xác định được số tứ phân một cách dễ dàng.

Do đó với dãy số có 345 số hạng đã xếp thứ tự như thí dụ trên thì :

  • số tứ phân thứ nhất `Q_1` là số hạng thứ 87
  • số tứ phân thứ hai `Q_2` (hay trung vị) là số hạng thứ 173
  • số tứ phân thứ ba `Q_3` là số hạng thứ 259

Khi sử dụng số các số tứ phân thì ta vừa có thể biết được xu hướng tập trung, vừa có thể biết được mức độ phân tán. Do đặc điểm này mà các số tứ phân được sử dụng rộng rãi trong khảo sát cũng như trình bày dữ liệu.


Biểu đồ hộp

 

Biểu đồ hộp (boxplot) dùng để trình bày các số tứ phân và một vài giá trị khác có liên quan của dữ liệu. Biểu đồ này có thể ở dạng đứng (hình vẽ tại phần "Biểu đồ trong R") hay dạng ngang (Hình 3).


TVQ1Q3minmaxRâuNgoại lệchIQRR

Hình 3 Các thành phần của biểu đồ hộp

Hình 3 là biểu đồ hộp của 150 số trong khoảng từ 0 đến 1000 được lấy một cách ngẫu nhiên. Qua hình này, ta thấy biểu đồ hộp gồm các thành phần chính sau:

  • `min,max` : giá trị thấp nhất và giá trị cao nhất của tập hợp số,
  • `Q_1`, `Q_3` : số tứ phân thứ nhất và thứ ba,
  • `TV` : số tứ phân thứ hai hay trung vị,
  • Giữa số tứ phân thứ 1 và thứ 3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị. Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay `IQR`)
  • Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị "xa nhất".
  • Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so với các số liệu còn lại.
  • `R` là chiều dài cực đại của râu. Đó là tích của `IQR` với một hệ số được gọi là chiều dài tương đối của râu, Trong nhiều phần mềm máy tính, chiều dài tương đối này có giá trị là 1,5.

Như vậy biểu đồ hộp đồng thời thể hiện được cả xu hướng tập trung và mức độ phân tán của số liệu. Do đó biểu đồ này thường được dùng trong khảo sát và phân tích dữ liệu, đặc biệt là trong giai đoạn tìm hiểu, thăm dò.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 27/11/2018