Kiểm tra & Kiểm định trong xử lý dữ liệu đa biến

Để có thể áp dụng một phương pháp phân tích nào đó, dữ liệu phải đáp ứng một số yêu cầu do phương pháp ấy đề ra. Vì vậy, trươc khi phân tích, ta cần kiểm tra xem các yêu cầu ấy có đạt được hay không, dữ liệu có cần hiệu chỉnh, sửa đổi gì không. Mặt khác, sau khi phân tích, thu được kết quả, ta cũng cần xem xét liệu kết quả ấy có khả năng ứng dụng rộng rãi hay không.

Một số phương pháp thực hiện hai nhiệm vụ trên sẽ được đề cập trong chương này.

Sử dụng biểu đồ để kiểm tra sơ bộ dữ liệu

Để kiểm tra sơ bộ, một trong những cách khá hiệu quả và thường được áp dụng là dùng các biểu đồ. Biểu đồ cho phép chúng ta đánh giá một cách trực quan các đặc điểm của dữ liệu, phát hiện các xu hướng chung cũng như những điểm bất thường. Các biểu đồ sau thường được dùng cho công đoạn này:

biểu đồ tần số (histogram) : thể hiện dạng phân bố của các giá trị,
biểu đồ XY (scatterplot) : cho ta đánh giá tương quan giữa hai biến,
biểu đồ hộp (boxplot) : giúp ta so sánh sự phân bố giá trị của các nhóm phần tử.

Thiếu dữ liệu

Thiếu dữ liệu (missing value) là một vấn đề khá gay go, trong một số trường hợp có thể ảnh hưởng đáng kể đến kết quả phân tích. Vì thế một số phương pháp không chấp nhận thiếu dữ liệu. Do đó trước khi phân tích, ta cần khắc phục thiếu sót này.

Trước khi tìm biện pháp khắc phục, ta cần phân tích tính chất của những dữ liệu thiếu. Một trong các trường hợp thường gặp là các dữ liệu thiếu tập trung trong một biến hay một số biến nào đó. Thí dụ như biến ấy liên quan đến một câu hỏi nhạy cảm trong phiếu điều tra, hoặc do dụng cụ đo bị hỏng trong một thời gian.

Nếu số dữ liệu bị thiếu không nhiều (dưới 5%), phân bố rải rác trong một số biến ta có thể loại bỏ dữ liệu ấy (loại bỏ phần tử có dữ liệu thiếu), chất lượng xử lý vẫn đạt yêu cầu. Tuy nhiên khi số dữ liệu thiếu của một biến khá lớn (trên 30%) ta nên loại bỏ biến ấy. Nếu giữ lại để khắc phục thì có ảnh hưởng không tốt đến kết quả.

Do dữ liệu thiếu là việc thường gặp trong thực tế, nên một số phần mềm cung cấp cho ta các công cụ để xử lý. Nhìn chung các công cụ này sử dụng các thuật toán phù hợp để xác định giá trị đưa vào vị trí của các dữ liệu thiếu. Tất nhiên việc phân tích sau đó có thể được điều chỉnh lại một ít (như giảm độ tự do).

Số ngoại lệch

Số ngoại lệch (outlier) của một biến nào đó là số có giá trị khác biệt một cách đáng kể so với các giá trị khác của biến ấy. Giá trị của số ngoại lệch có thể ảnh hưởng lớn đến kết quả xử lý.

Số ngoại lệch có thể xuất phát từ các nguồn gốc sau:

do sai sót trong khi đo đạc hay tính toán,
do là giá trị của một phần tử đặc biệt trong tổng thể (doanh số mua hàng của một khách hàng đặc biệt cao so với các khách hàng khác),
do mối quan hệ với các biến khác nên có giá trị khác biệt đáng kể (thí dụ như quan hệ ở dạng hàm mũ `y=3^x`),
sự khác biệt đáng kể đó không giải thích được.

Tùy theo nguồn gốc và phương pháp phân tích mà số ngoại lệch có thể bị loại bỏ, giữ lại, tách ra để xử lý riêng, hay thay thế bằng giá trị thích hợp (như trường hợp của dữ liệu thiếu).

Phân phối chuẩn của số liệu

Đây là một yêu cầu phổ biến của nhiều phương pháp phân tích vì các phương pháp ấy được xây dựng dựa trên giả thuyết là số liệu có phân phối chuẩn.

Phương pháp phổ biến dùng để kiểm tra tính chuẩn của số liệu là dùng biểu đổ xác suất chuẩn (normal probability plot).

Tuyến tính & Đa cộng tuyến

Trong một số phương pháp phân tích, yêu cầu phải có quan hệ tuyến tính (linearity) giữa hai biến nào đó với nhau. Ta có thể kiểm tra điều này bằng sử dụng biểu đồ XY hay dùng ma trận tương quan.

Tuy nhiên nếu trong một lần phân tích theo phương pháp "phụ thuộc", mối quan hệ tuyến tính này giữa hai biến độc lập quá mạnh (`r>0,9`) thì lại không tốt. Hiện tượng này được gọi là cộng tuyến hoặc đa cộng tuyến (collinearity hoặc multicollinearity). Điều đó nói lên rằng ý nghĩa của hai biến này là như nhau đối với biến phụ thuộc; ta chỉ cần một trong hai biến độc lập là đủ; biến còn lại là thừa. Trong trường hợp cộng tuyến hoàn toàn, ma trận dùng để xác định các hệ số của phương trình hồi quy trở thành suy biến (singular). Khi đó ta không thể xác định được các hệ số của phương trình hồi quy.

Kiểm định chéo

Như trong phần trước đã trình bày, để kiểm định kết quả ta cần một bộ dữ liệu (testing data) khác biệt với bộ dữ liệu dùng khi phân tích (training data). Trong các phương pháp kiểm định thông thường, hai bộ dữ liệu này tách biệt nhau, vì thế độ tin cậy của quá trình kiểm định bị ảnh hưởng. Để khác phục khuyết điểm này, hiện nay ta thường dùng phương pháp kiểm định chéo (cross-validation) hay tự lấy mẫu lại (bootstrap)

Trong kiểm định chéo, dữ liệu được chia làm nhiều phần và quá trình phân tích - kiểm định được thực hiện làm nhiều lần. Các phần của dữ liệu luân phiên thực hiện vai trò kiểm định và phân tích. Trong phương pháp K lần (K-fold) quá trình được thực hiện như sau:

chia dữ liệu thu được làm K phần, thí dụ K = 10, đánh số các phần từ 1 đến 10,
tách riêng phần 1 để dùng làm dữ liệu kiểm định lần 1, 9 phần còn lại (từ 2 đến 10) được dùng làm dữ liệu để xử lý, phân tích lần 1,
tiến hành xử lý, phân tích lần 1, thu được kết quả, dùng phần 1 để kiểm định,
tách riêng phần 2 để dùng làm dữ liệu kiểm định lần 2, 9 phần còn lại được dùng làm dữ liệu phân tích lần 2,
tiến hành phân tích lần 2, thu được kết quả, dùng phần 2 để kiểm định,
lần lượt làm tương tự thêm 8 lần nữa,
so sánh, đối chiếu 10 lần phân tích, chọn ra kết quả tốt nhất.

Ta thấy rằng kiểm định chéo có vẻ phức tạp, dài dòng, tốn nhiều công sức, đặc biệt khi K tăng cao. Tuy nhiên với sự phát triển của phần cứng máy tính, cùng với những thuật toán có hiệu quả cao, thời gian xử lý giảm xuống rất nhiều. Hơn nữa, theo ý kiến của các chuyên gia, chỉ cần chọn K trong khoảng từ 5 đến 10 là đủ.

Tự lấy mẫu lại

Phương pháp kiểm định bằng tự lấy mẫu lại (bootstrap) có một số đặc điểm sau:

Dữ liệu thu được, sau khi đã được hiệu chỉnh, được dùng làm dữ liệu gốc. Dữ liệu gốc này được dùng làm dữ liệu kiểm định.
Dữ liệu dùng để phân tích, có cùng số phần tử như dữ liệu gốc. Các phần tử của dữ liệu phân tích được lấy từ bộ dữ liệu gốc theo phương pháp lấy mẫu có hoàn trả.
Như vậy, có những phần tử của dữ liệu gốc có mặt một số lần trong dữ liệu phân tích, nhưng cũng có những phần tử không có mặt trong dữ liệu phân tích.

Quá trình phân tích - kiểm định được tiến hành như sau:

Từ dữ liệu gốc, tạo dữ liệu phân tích, có số phần tử bằng số phần tử của dữ liệu gốc, bằng cách lấy mẫu có hoàn trả.
Tiến hành phân tích, thu được kết quả.
Kiểm định lại kết quả này bằng dữ liệu gốc.
Lặp lại quá trình trên nhiều lần (có thể hằng ngàn lần).
So sánh, tính toán, lựa chọn kết quả phù hợp.

Trang web này được cập nhật lần cuối ngày 26/11/2018

Dữ liệu đa biến

Sơ đồ site