Sau khi đã có bảng liệt kê, ta có thể tổng hợp lại bảng này để có thể nắm bắt tình hình chung dễ dàng hơn. Bảng phân phối tần số là một dạng như vậy. Ngoài ra ta có thể tạo một số dạng bảng khác từ bảng phân phối tần số.
Trong nhiều trường hợp, giá trị của một biến nào đó có sự lặp lại. Mặt khác khi điều ta quan tâm không chỉ là phần tử nào có giá trị là bao nhiêu mà ta còn muốn tìm hiểu có bao nhiêu phần tử có giá trị đã cho (phân phối của biến). Trong trường hợp đó bảng phân phối tần số và/hay tần suất có thể được sử dụng.
Trong Bảng Tinh_Hinh_KD, trong từng cột, ta thấy có sự lặp lại của một số giá trị. Số lần xuất hiện của một giá trị được gọi là tần số (frequency) của giá trị đó (thường được ký hiệu là `f`). Tỷ số giữa tần số và số phần tử được gọi là tần suất (relative frequency). Tần suất có thể được biểu diễn dưới dạng phân số, dạng số thập phân hay dưới dạng phần trăm.
Thí dụ : Trong cột đơn giá của Bảng Tinh_Hinh_KD, giá trị 125 lặp lại 5 lần. Vậy giá trị này có tần số là 5 và tần suất là 0,25 hay 25%.
Bảng phân phối tần số và/hay tần suất thường có 2 hay 3 cột. Cột đầu tiên ghi các giá trị của biến, (Các) cột còn lại ghi giá trị của tần số `f_i` và/hay tần suất ứng với giá trị của biến (Bảng 1).
Biến A | Tần số | Tần suất |
---|---|---|
`A_1` | `f_1` | `f_1//n` |
`A_2` | `f_2` | `f_2//n` |
. . . | . . . | . . . |
`A_i` | `f_i` | `f_i//n` |
. . . | . . . | . . . |
Thí dụ : Trên Bảng 2 là bảng phân phối tần số và tần suất của biến Nhan_Vien ứng với số liệu trong bảng Tinh_Hinh_KD.csv.
Nhan_Vien | Tần số | Tần suất (%) |
---|---|---|
3 | 3 | 15 |
4 | 9 | 45 |
5 | 6 | 30 |
6 | 2 | 10 |
Ta có thể chia các phần tử thành một số nhóm theo giá trị của biến. Khi đó, ta chia khoảng biến thiên của biến ra làm một số khoảng nhỏ, thường là đều nhau. Khi ấy khái niệm tần số và tần suất được mở rộng và được tính tương ứng với số phần tử có giá trị của biến thuộc khoảng đó.
Thí dụ : Từ số liệu của Bảng Tinh_Hinh_KD.csv, ta chia số sản phẩm bán được của các cửa hàng (biến San_Pham) thành 4 nhóm. Khi ấy ta có bảng phân phối tần số và tần suất của các nhóm (Bảng 3)
San_Pham | Tần số | Tần suất (%) |
---|---|---|
600 - 900 | 5 | 25 |
900 - 1200 | 11 | 55 |
1200 - 1500 | 3 | 15 |
1500 - 1800 | 1 | 5 |
Khi giá trị của các phần tử trong nhóm đều giống nhau, ta có nhóm thuần nhất.
Để tính toán được thuận tiện, ta có thể chọn một giá trị làm đại diện cho nhóm. Giá trị này thường là giá trị trung bình của các số liệu trong nhóm hoặc là giá trị trung bình của hai biên.
Quy ước "biên trái"
Trong phân nhóm, khi chia thành các khoảng, người ta thường sử dụng quy ước "biên trái", có nghĩa là biên trái thuộc về khoảng đã cho, còn biên phải thì không. Nói cách khác khoảng `a-b` gồm những giá trị `x` sao cho `a <= x < b` (ngoại trừ biên phải của khoảng cuối).
Nói nôm na, tích lũy là cộng dồn. Như vậy :
Thí dụ : Để đánh giá chất lượng hạt cà phê, ta lấy 200 g mẫu và chia mẫu này thành một số nhóm tùy thuộc kích thước hạt. Kết quả của sự phân nhóm này được trình bày trên Bảng 4.
Kích thước (mm) | Khối lượng (g) |
---|---|
5 - 6 | 17 |
6 - 7 | 52 |
7 - 8 | 94 |
8 - 9 | 31 |
9 - 10 | 6 |
Cộng | 200 |
Từ bảng phân phối tỷ lệ khối lượng (Bảng 4), ta có thể xác định được tỷ lệ của các nhóm (Bảng 5).
Kích thước (mm) | Khối lượng (g) | Tỷ lệ (%) |
---|---|---|
5 - 6 | 17 | 8,50 |
6 - 7 | 52 | 26,00 |
7 - 8 | 94 | 47,00 |
8 - 9 | 31 | 15,50 |
9 - 10 | 6 | 3,00 |
Cộng | 200 | 100 |
Từ Bảng 5, ta xác định được khối lượng tích lũy và tỷ lệ tích lũy cho các kích thước (Bảng 6).
Kích thước (mm) | Khối lượng tích lũy (g) | Tỷ lệ tích lũy (%) |
---|---|---|
< 6 | 17 | 8,50 |
< 7 | 69 | 34,50 |
< 8 | 163 | 81,50 |
< 9 | 194 | 97,00 |
≤ 10 | 200 | 100,00 |
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R