Theo nghĩa thông thường, dữ liệu là tập hợp các thông tin được sắp xếp, tổ chức về một đối tượng nào đó như một công ty, một quốc gia, một sản phẩm. Đối tượng này gồm nhiều phần tử, mỗi phần tử có một số thuộc tính nhất định. Thí dụ dữ liệu về trái cây của một quốc gia nào đó gồm các loại trái cây (phần tử), mỗi loại trái cây có tên, hàm lượng đường saccaroz, độ axit, pH, hàm lượng vitamin C, ... (thuộc tính).
Để thuận tiện trong việc xử lý, dữ liệu thường được thể hiện dưới dạng bảng gồm nhiều dòng và nhiều cột, mỗi dòng chứa các thông tin có liên quan đến một phần tử, mỗi cột thể hiện một thuộc tính. Giá trị của thuộc tính thường không giống nhau cho các phần tử, vì vậy trong thống kê và xử lý dữ liệu thường sử dụng thuật ngữ “biến” cho thuộc tính. Với sự phát triển của công nghệ thông tin, giá trị của thuộc tính có thể rất đa dạng: số, văn bản, hình vẽ, các liên kết, ...
Khi ta dùng bảng để trình bày dữ liệu, thông thường dòng đầu tiên (header) được dùng để ghi tên của biến và cột đầu tiên để ghi thông tin liên quan đến việc định danh phần tử (identity).
Dữ liệu trong R có thể được chia làm 2 nhóm lớn:
Dữ liệu đơn gồm 4 kiểu chính :
Để xác định kiểu của một biến x ta dùng lệnh mode.
Ta hãy làm quen với các kiểu dữ liệu này và lệnh mode qua các thí dụ sau.
Để biết kiểu của 2,5, ta dùng lệnh:
mode(2.5)
Kết quả là :
[1] "numeric"
Nhưng kết quả của :
mode(2 + 5i)
là :
[1] "complex"
Ta làm quen với kiểu luận lý qua đoạn lệnh ngắn sau:
h <- 2.5
a <- (h > 3)
và
mode(a)
có kết quả là :
[1} "logical"
và
a
có kết quả là :
[1] FALSE
Trong một số trường hợp, ta có yêu cầu phải chuyển đổi kiểu (coercion) của một biến. Khi đó ta dùng lệnh có dạng as.ten_kieu_moi. Ta xem xét đoạn lệnh sau:
h <- 2.5
b <- (h < 5)
b
Kết quả của đoạn lệnh trên là :
[1] TRUE
Chuyển kiểu của b thành số bằng lệnh sau:
c <- as.numeric(b)
Kết quả thu được là (trên khung Tương tác):
> c
[1] 1
Nếu ta muốn chuyển kiểu của b thành chữ, ta dùng lệnh sau:
d <- as.character(b)
Kết quả thu được là : (trên khung Tương tác)
> d
[1] "TRUE"
Khi làm việc với dữ liệu, đôi khi ta gặp các trường hợp sau:
sqrt(-4)rm.na = TRUE.
Trong một số trường hợp khác, ta phải đưa cả các giá trị NA vào để xử lý với khai báo:rm.na = FALSE
Trang web này được cập nhật lần cuối ngày 25/11/2018
R
Các chuyên đề
Xử lý dữ liệu
Ma trận
R