logo xDuLieu.com

Trang trướcKhái quát về dữ liệuTrang sau

Khái niệm "dữ liệu"

 

Theo nghĩa thông thường, dữ liệu là tập hợp các thông tin được sắp xếp, tổ chức về một đối tượng nào đó như một công ty, một quốc gia, một sản phẩm. Đối tượng này gồm nhiều phần tử, mỗi phần tử có một số thuộc tính nhất định. Thí dụ dữ liệu về trái cây của một quốc gia nào đó gồm các loại trái cây (phần tử), mỗi loại trái cây có tên, hàm lượng đường saccaroz, độ axit, pH, hàm lượng vitamin C, ... (thuộc tính).

Để thuận tiện trong việc xử lý, dữ liệu thường được thể hiện dưới dạng bảng gồm nhiều dòng và nhiều cột, mỗi dòng chứa các thông tin có liên quan đến một phần tử, mỗi cột thể hiện một thuộc tính. Giá trị của thuộc tính thường không giống nhau cho các phần tử, vì vậy trong thống kê và xử lý dữ liệu thường sử dụng thuật ngữ “biến” cho thuộc tính. Với sự phát triển của công nghệ thông tin, giá trị của thuộc tính có thể rất đa dạng: số, văn bản, hình vẽ, các liên kết, ...

Khi ta dùng bảng để trình bày dữ liệu, thông thường dòng đầu tiên (header) được dùng để ghi tên của biến và cột đầu tiên để ghi thông tin liên quan đến việc định danh phần tử (identity).


Kiểu của dữ liệu

 

Dữ liệu trong R có thể được chia làm 2 nhóm lớn:

  • dữ liệu đơn : khi dữ liệu chỉ gồm một giá trị,
  • dữ liệu hợp như vectơ, ma trận, bảng : dữ liệu gồm nhiều giá trị kết hợp lại với nhau theo một cấu trúc nào đó. Đây là loại dữ liệu thường gặp, thường phải xử lý trong thực tế

Dữ liệu đơn gồm 4 kiểu chính :

  • kiểu số (numeric hay num) như 2 ; 3,6.
  • kiểu chữ (character) như "dien tich". Lưu ý là giá trị của kiểu chữ phải đặt bên trong cặp dấu móc đơn ('dien tich') hay cặp dấu móc kép ("dien tich").
  • kiểu luận lý (logical) chỉ có hai giá trị là TRUE (hay T) là đúng và FALSE (hay F) là sai.
  • kiểu số phức (complex) có dạng a + bi với a và b là các số

Để xác định kiểu của một biến x ta dùng lệnh mode.

Ta hãy làm quen với các kiểu dữ liệu này và lệnh mode qua các thí dụ sau.

Để biết kiểu của 2,5, ta dùng lệnh:

mode(2.5)

Kết quả là :

[1] "numeric"

Nhưng kết quả của :

mode(2 + 5i)

là :

[1] "complex"

Ta làm quen với kiểu luận lý qua đoạn lệnh ngắn sau:

h <- 2.5

a <- (h > 3)

mode(a)

có kết quả là :

[1} "logical"

a

có kết quả là :

[1] FALSE

Trong một số trường hợp, ta có yêu cầu phải chuyển đổi kiểu (coercion) của một biến. Khi đó ta dùng lệnh có dạng as.ten_kieu_moi. Ta xem xét đoạn lệnh sau:

h <- 2.5

b <- (h < 5)

b

Kết quả của đoạn lệnh trên là :

[1] TRUE

Chuyển kiểu của b thành số bằng lệnh sau:

c <- as.numeric(b)

Kết quả thu được là (trên khung Tương tác):

> c

[1] 1

Nếu ta muốn chuyển kiểu của b thành chữ, ta dùng lệnh sau:

d <- as.character(b)

Kết quả thu được là : (trên khung Tương tác)

> d

[1] "TRUE"


Các trường hợp đặc biệt

 

Khi làm việc với dữ liệu, đôi khi ta gặp các trường hợp sau:

  • Inf (infinite) : dùng để chỉ một giá trị vô cùng lớn.
  • NaN (not a number) : giá trị của dữ liệu không thuộc các giá trị thông thường. Thí dụ như khi ta lấy căn bậc hai của một số âm như sqrt(-4)
  • NA (not available hay not applicable) : trường hợp này thường gặp nhất khi thiếu dữ liệu đơn tại một vị trí nào đó trong các dữ liệu hợp. Trong một số trường hợp, sự có mặt của NA làn sai lạc kết quả hay thậm chí không thể tính toán hay xử lý được. Lúc ấy ta phải loại bỏ NA bằng cách khai báo:

    rm.na = TRUE.

    Trong một số trường hợp khác, ta phải đưa cả các giá trị NA vào để xử lý với khai báo:

    rm.na = FALSE

  • NULL : thường là kết quả của một biểu thức hay một phát biểu trong R cho biết giá trị của dữ liệu không xác định được.


Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 25/11/2018

R