Người ta thường nói "một hình vẽ có giá trị bằng hằng ngàn lời nói". Điều này được minh chứng trong lĩnh vực dữ liệu. Thật là khó có thể kết luận điều gì khi ta có một bảng số liệu có vài ngàn dòng và vài chục cột. Các hình vẽ thường làm dữ liệu dễ được hình dung hơn, giúp ta có cái nhìn rõ ràng hơn, cụ thể hơn.
Trong lĩnh vực xử lý dữ liệu, ta thường dùng các loại biểu đồ sau: biểu đồ thanh, biểu đồ `xy`, biểu đồ tần số, biểu đồ tròn, biểu đồ dạng đường nối. Với sự trợ giúp của các phần mềm máy tính, ta có thể thực hiện các loại biểu đồ này một cách dễ dàng. Tuy nhiên ta cũng nên lưu ý là thường các biểu đồ chỉ được thực hiện sau khi đã có bảng dữ liệu.
Biểu đồ dạng thanh là một trong nhũng loại biểu đồ phổ biến nhất. Người ta thường dùng nó để thể hiện giá trị số của biến khảo sát của một số đối tượng hay nhóm đối tượng (Hình 1). Trong đó chiều cao của thanh (Hình 1a) hay chiều dài của thanh (Hình 1b) thể hiện giá trị số của biến.
Như ta thấy trên Hình 1, ta có hai loại biểu đồ thanh chính là biểu đồ thanh đứng (còn gọi là biểu đồ cột) và biểu đồ thanh ngang. Trong Biểu đồ thanh đứng, trục `y` trình bày giá trị số còn trục `x` thể hiện đối tượng hay nhóm đối tượng. Còn biểu đồ thanh ngang thì ngược lại.
Như vậy, mục đích thông thường của biểu đồ dạng thanh là dùng để đối chiếu, so sánh giá trị của biến khảo sát giữa các đối tượng hay các nhóm đối tượng với nhau. Trong hai loại nói trên thì biểu đồ thanh đứng được sử dụng nhiều hơn.
Thí dụ : Tình hình sản xuất kinh doanh của công ty X gồm 3 xí nghiệp là A, B và C trong 4 quý của năm 20xx được thể hiện trên Bảng 1.
| Quý 1 | Quý 2 | Quý 3 | Quý 4 | |
|---|---|---|---|---|
| Xí nghiệp A | 25 | 29 | 16 | 22 |
| Xí nghiệp B | 12 | 15 | 8 | 11 |
| Xí nghiệp C | 41 | 43 | 34 | 32 |
| Toàn công ty | 78 | 87 | 58 | 71 |
Để so sánh doanh số của toàn công ty trong 4 quý, ta lập biểu đồ thanh được thể hiện trên Hình 1.
Hình 1 Biểu đồ dạng thanh : thanh đứng (1a) và thanh ngang (1b)
Nếu ta muốn so sánh doanh số của 3 xí nghiệp trong cả 4 quý thì biểu đồ sẽ phức tạp hơn (Hình 2), trong đó doanh số mỗi xí nghiệp trong một quý được biểu diễn bằng một thanh và được ký hiệu riêng để có thể phân biệt được các xí nghiệp với nhau.
Để sắp xếp các thanh biểu diễn doanh số của các xí nghiệp, ta cũng có hai phương án: các thanh biểu diễn cho các xí nghiệp có thể được đặt cạnh nhau (Hình 2a) hay đặt chồng lên nhau (Hình 2b). Và tất nhiên ta có thể đặt các thanh theo phương đứng như Hình 2 hoặc đặt theo phương nằm ngang theo kiểu Hình 1b.
Hình 2 Biểu đồ dạng thanh : các thanh đặt cạnh nhau (2a) và các thanh đặt chồng lên nhau (2b)
Biểu đồ `xy` (scatterplot) thường được sử dụng để thể hiện mối tương quan giữa hai biến liên tục. Với mỗi giá trị của biến thứ nhất, có một giá trị tương ứng của biến thứ hai và cặp hai giá trị này được biểu diễn bằng một điểm trên biểu đồ `xy`. Trong những trường hợp đơn giản, ta có thể nối các điểm này lại bằng những đoạn thẳng. Ta cũng có thể vẽ thêm các đường thẳng hay đường cong (đường hồi quy) để thể hiện tính chất của mối tương quan giữa hai biến.
Biểu đồ `xy` có thể có các dạng sau :
Thí dụ : Người ta theo dõi sự phát triển của 3 cây cam (ký hiệu A, B, và C) bằng cách đo chu vi của thân cây tại 7 thời điểm khác nhau. Kết quả được ghi nhận tại tập tin cam.csv.
Sự tăng trưởng của cây cam A được trình bày trên Hình 3, với các dạng khác nhau như vừa xem xét ở trên.
Hình 3 Các dạng biểu đồ xy thể hiện sự tăng trường của thân cây cam A
Ta cũng có thể trình bày sự tăng trưởng của cả 3 cây cam A, B và C trên cùng một biểu đồ như trên Hình 4.
Hình 4 Các dạng biểu đồ xy thể hiện sự tăng trường của thân các cây cam A, B và C
Biểu đồ tần số được dùng để thể hiện sự phân phối của một biến có giá trị số liên tục (hoặc xem như liên tục). Ta sẽ chia tất cả các giá trị của biến làm một số khoảng, sau đó xác định số phần tử có giá trị trong các khoảng ấy để đưa lên biểu đồ. Để thuận tiện cho phần trình bày dưới đây, ta sẽ dùng dữ liệu về chỉ số thể trọng `BMI` (body mass index) của 129 học sinh (tập tin BMI.csv).
Biểu đồ tần số có một số dạng sau :
Biểu đồ tần số dạng thanh gần tương tự như biểu đồ thanh, nghĩa là mỗi khoảng được biểu diễn bằng một thanh, có thể đặt đứng hay nằm ngang. Trong trường hợp đặt đứng (Hình 5), chiều cao của thanh biểu diễn số phần tử của khoảng tương ứng.
Hình 5 Biểu đồ tần số thể hiện sự phân phối của chỉ số thể trọng `BMI`
Ta có nhận xét là các thanh đặt sát nhau chứ không rời nhau như ở biểu đồ thanh thông thường. Đây là đặc điểm của biều đồ tần số.
Đa giác tần số có dạng giống như biểu đồ `xy` thông thường, trong đó số phần tử của mỗi khoảng được biểu diễn bằng trục `y`, còn giá trị của biến dùng để đại diện cho một khoảng được biểu diễn bằng trục `x`. Như vậy mỗi khoảng được biểu diễn bằng một điểm trên hệ trục tọa độ `xy`. Một đường gẫy khúc nối tất cả những điểm này lại với nhau tạo thành đa giác tần số (frequency polygon) hay tần tuyến (Hình 6).
Hình 6 Đa giác tần số thể hiện sụ phân phối chỉ số thể trọng BMI
Dựa vào số liệu (thí dụ như chỉ số `BMI` và số học sinh tương ứng với chỉ số `BMI`), phần mềm máy tính sẽ xây dựng đường cong mật độ dựa trên mô hình toán cho trước (Hình 7). Ở đây, mật độ có ý nghĩa tương tự như tần suất (tỷ số giữa tần số và số phần tử).
Hình 7 Đường cong mật độ thể hiện sụ phân phối chỉ số thể trọng `BMI`
Đường cong mật độ có tính chất của các hàm mật độ phân phối là phần diện tích phía dưới đường cong có giá trị là 1. Mặt khác, ta cũng cần lưu ý là với số liệu giống nhau, nhưng nếu ta sử dụng các mô hình toán khác nhau, ta sẽ thu được các đường cong mật độ khác nhau.
Mặc dù không được các chuyên gia về xử lý dữ liệu và thống kê đánh giá cao nhưng biểu đồ tròn lại xuất hiện khá thường xuyên trên các phương tiện truyền thông. Lý do của sự phổ biến này là tính đơn giản, dễ hiểu của nó, và trong chừng mực nào đó, biểu đồ tròn trông dễ bắt mắt.
Trong loại biểu đồ này, mỗi giá trị của biến được thể hiện bằng một hình quạt tròn có diện tích tỷ lệ với giá trị của biến (Hình 8). Các giá trị khác nhau được phân biệt bởi tên và màu.
Thí dụ : Hình 8 biểu diễn doanh số toàn công ty X trong 4 quý bằng biểu đồ tròn (số liệu từ Bảng 1)
Hình 8 Biểu đồ tròn thể hiện doanh số 4 quý của công ty X
Qua đó ta thấy biểu đồ tròn cho ta thấy mức độ đóng góp của mỗi phần vào tổng thể, từ đó có thể so sánh, đối chiếu vai trò của mỗi phần (một cách tương đối). Tuy vậy, về mặt so sánh, đối chiếu các phần, biểu đồ thanh hiệu quả hơn. Mặt khác các ưu thể của biểu đồ tròn sẽ không còn khi số phần tăng lên hay sự sai khác giữa các phần không lớn.
Trang web này được cập nhật lần cuối ngày 27/11/2018
Thống kê
Các chuyên đề
Xử lý dữ liệu
Ma trận
R