logo xDuLieu.com

Trang trướcDữ liệu kiểu BảngTrang sau

Khái niệm "bảng dữ liệu"

 

Bảng dữ liệu, thường được gọi tắt là "bảng", thuật ngữ của R là data frame, là kiểu dữ liệu thông dụng nhất thường được dùng trong xử lý dữ liệu vì các dữ liệu thường được trình bày dưới dạng bảng với nhiều dòng và nhiều cột.

Theo quy ước, mỗi cột của bảng là một vectơ nghĩa là tất cả các ô trên cùng một cột phải có kiểu dữ liệu giống nhau. Tuy nhiên kiểu dữ liệu của các cột có thể giống nhau hay khác nhau. Để việc truy xuất dữ liệu được dễ dàng, cột thường được đặt tên và ta xem mỗi cột như một biến.

Mối dòng của bảng tương ứng với dữ liệu của một phần tử của đối tượng khảo sát. Thông thường phần tử định danh (identity, còn được viết tắt là id hay ID) của dòng được đặt ở cột đầu tiên. Nếu không thì R sẽ dùng số thứ tự của dòng làm phần tử định danh.

Bảng 1 dưới đây là một thí dụ cho dữ liệu kiểu bảng.

Bảng 1 Một số thông số của một vài loại trái cây

Loai Nuoc_g Protein_g Gluxit_g Lipit_g Khoang_g NangLuong_kcal
Bo 73 2 8.53 14.66 1.58 160
Buoi 89 0.76 9.62 0.04 0.48 38
Cam 87 0.94 11.75 0.12 0.44 47
ChanhDay 73 2.2 23.38 0.7 0.8 97
Chuoi 75 1.09 22.84 0.33 0.82 89
Dao 89 0.91 9.54 0.25 0.43 39
DuDu 88 0.47 10.82 0.26 0.39 43
Duwsa 86 0.54 13.12 0.12 0.22 50
DuaHau 91 0.61 7.55 0.15 0.25 30

Chú thích : các giá trị trong bảng này cho tương ứng với 100 g của trái cây. Số liệu được biên tập từ cơ sở dữ liệu về dinh dưỡng của Bộ Nông nghiệp Mỹ (USDA National Nutrient Database for Standard Reference, Release 27)

Ta cũng lưu ý là dòng đầu tiên của Bảng 1 là dòng tiêu đề (header) dùng để ghi tên của các cột (hay các biến). Dữ liệu dòng này không được xem là dữ liệu của bảng.


Tạo bảng bằng cách kết hợp các vectơ

 

Thí dụ ta muốn tạo dữ liệu kiểu bảng chứa các thông tin về trái cây. Bảng này gồm các thông tin về tên trái cây, hàm lượng nước, protein và gluxit của 5 loại trái cây là bơ, bưởi, cam, chanh dây và chuối.

Trước hết ta tạo 4 vectơ tương ứng với 4 loại thông tin trên, mỗi vectơ gồm 5 phần tử tương ứng với 5 loại trái cây.

Ten <- c("Bo", "Buoi", "Cam", "ChanhDay", "Chuoi")

Nuoc <- c(73, 89, 87, 73, 75)

Protein <- c(2, 0.76, 0.94, 2.2, 1.09)

Gluxit <- c(8.53, 9.62, 11.75, 23.38, 22.84)

Sau đó tạo bảng dữ liệu TraiCay bằng cách dùng hàm data.frame để kết hợp 4 vectơ trên:

TraiCay <- data.frame(Ten, Nuoc, Protein, Gluxit)

Ta có thể quan sát kết quả trên khung Tương tác:

> TraiCay
Ten Nuoc Protein Gluxit
1 Bo 73 2.00 8.53
2 Buoi 89 0.76 9.62 3 Cam 87 0.94 11.75
4 ChanhDay 73 2.20 23.38
5 Chuoi 75 1.09 22.84

Tạo bảng bằng Data Editor

 

Ta có thể nhập các thông tin trực tiếp vào cửa sổ Data Editor bằng cách sử dụng phối hợp hàm editdata.frame. Thí dụ để tạo bảng dữ liệu TrCay thì ta viết câu lệnh sau:

TrCay <- edit(data.frame())

Khi thực hiện câu lệnh này thì cửa sổ Data Editor xuất hiện với một bảng tính trông như Hình 1.

Hình 1 Cửa sổ Data Editor

Các thông tin của bảng dữ liệu sẽ được nhập vào cửa sổ này. Ta có thể bắt đầu với việc đặt tên biến bằng cách kích chuột vào ô trên cùng của một cột, thí dụ var1. Cửa sổ Variable Editor (Hình 2) sẽ xuất hiện để ta ghi tên biến mới và chọn kiểu dữ liệu.

Hình 2 Cửa sổ Variable Editor

Sau khi hoàn tất việc nhập dữ liệu, ta đóng cửa sổ Data Editor và thu được bảng dữ liệu tương ứng.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 25/11/2018

R