Để có thể áp dụng một phương pháp phân tích nào đó, dữ liệu phải đáp ứng một số yêu cầu do phương pháp ấy đề ra. Vì vậy, trươc khi phân tích, ta cần kiểm tra xem các yêu cầu ấy có đạt được hay không, dữ liệu có cần hiệu chỉnh, sửa đổi gì không. Mặt khác, sau khi phân tích, thu được kết quả, ta cũng cần xem xét liệu kết quả ấy có khả năng ứng dụng rộng rãi hay không.
Một số phương pháp thực hiện hai nhiệm vụ trên sẽ được đề cập trong chương này.
Để kiểm tra sơ bộ, một trong những cách khá hiệu quả và thường được áp dụng là dùng các biểu đồ. Biểu đồ cho phép chúng ta đánh giá một cách trực quan các đặc điểm của dữ liệu, phát hiện các xu hướng chung cũng như những điểm bất thường. Các biểu đồ sau thường được dùng cho công đoạn này:
Thiếu dữ liệu (missing value) là một vấn đề khá gay go, trong một số trường hợp có thể ảnh hưởng đáng kể đến kết quả phân tích. Vì thế một số phương pháp không chấp nhận thiếu dữ liệu. Do đó trước khi phân tích, ta cần khắc phục thiếu sót này.
Trước khi tìm biện pháp khắc phục, ta cần phân tích tính chất của những dữ liệu thiếu. Một trong các trường hợp thường gặp là các dữ liệu thiếu tập trung trong một biến hay một số biến nào đó. Thí dụ như biến ấy liên quan đến một câu hỏi nhạy cảm trong phiếu điều tra, hoặc do dụng cụ đo bị hỏng trong một thời gian.
Nếu số dữ liệu bị thiếu không nhiều (dưới 5%), phân bố rải rác trong một số biến ta có thể loại bỏ dữ liệu ấy (loại bỏ phần tử có dữ liệu thiếu), chất lượng xử lý vẫn đạt yêu cầu. Tuy nhiên khi số dữ liệu thiếu của một biến khá lớn (trên 30%) ta nên loại bỏ biến ấy. Nếu giữ lại để khắc phục thì có ảnh hưởng không tốt đến kết quả.
Do dữ liệu thiếu là việc thường gặp trong thực tế, nên một số phần mềm cung cấp cho ta các công cụ để xử lý. Nhìn chung các công cụ này sử dụng các thuật toán phù hợp để xác định giá trị đưa vào vị trí của các dữ liệu thiếu. Tất nhiên việc phân tích sau đó có thể được điều chỉnh lại một ít (như giảm độ tự do).
Số ngoại lệch (outlier) của một biến nào đó là số có giá trị khác biệt một cách đáng kể so với các giá trị khác của biến ấy. Giá trị của số ngoại lệch có thể ảnh hưởng lớn đến kết quả xử lý.
Số ngoại lệch có thể xuất phát từ các nguồn gốc sau:
Tùy theo nguồn gốc và phương pháp phân tích mà số ngoại lệch có thể bị loại bỏ, giữ lại, tách ra để xử lý riêng, hay thay thế bằng giá trị thích hợp (như trường hợp của dữ liệu thiếu).
Đây là một yêu cầu phổ biến của nhiều phương pháp phân tích vì các phương pháp ấy được xây dựng dựa trên giả thuyết là số liệu có phân phối chuẩn.
Phương pháp phổ biến dùng để kiểm tra tính chuẩn của số liệu là dùng biểu đổ xác suất chuẩn (normal probability plot).
Trong một số phương pháp phân tích, yêu cầu phải có quan hệ tuyến tính (linearity) giữa hai biến nào đó với nhau. Ta có thể kiểm tra điều này bằng sử dụng biểu đồ XY hay dùng ma trận tương quan.
Tuy nhiên nếu trong một lần phân tích theo phương pháp "phụ thuộc", mối quan hệ tuyến tính này giữa hai biến độc lập quá mạnh (`r>0,9`) thì lại không tốt. Hiện tượng này được gọi là cộng tuyến hoặc đa cộng tuyến (collinearity hoặc multicollinearity). Điều đó nói lên rằng ý nghĩa của hai biến này là như nhau đối với biến phụ thuộc; ta chỉ cần một trong hai biến độc lập là đủ; biến còn lại là thừa. Trong trường hợp cộng tuyến hoàn toàn, ma trận dùng để xác định các hệ số của phương trình hồi quy trở thành suy biến (singular). Khi đó ta không thể xác định được các hệ số của phương trình hồi quy.
Như trong phần trước đã trình bày, để kiểm định kết quả ta cần một bộ dữ liệu (testing data) khác biệt với bộ dữ liệu dùng khi phân tích (training data). Trong các phương pháp kiểm định thông thường, hai bộ dữ liệu này tách biệt nhau, vì thế độ tin cậy của quá trình kiểm định bị ảnh hưởng. Để khác phục khuyết điểm này, hiện nay ta thường dùng phương pháp kiểm định chéo (cross-validation) hay tự lấy mẫu lại (bootstrap)
Trong kiểm định chéo, dữ liệu được chia làm nhiều phần và quá trình phân tích - kiểm định được thực hiện làm nhiều lần. Các phần của dữ liệu luân phiên thực hiện vai trò kiểm định và phân tích. Trong phương pháp K lần (K-fold) quá trình được thực hiện như sau:
Ta thấy rằng kiểm định chéo có vẻ phức tạp, dài dòng, tốn nhiều công sức, đặc biệt khi K tăng cao. Tuy nhiên với sự phát triển của phần cứng máy tính, cùng với những thuật toán có hiệu quả cao, thời gian xử lý giảm xuống rất nhiều. Hơn nữa, theo ý kiến của các chuyên gia, chỉ cần chọn K trong khoảng từ 5 đến 10 là đủ.
Phương pháp kiểm định bằng tự lấy mẫu lại (bootstrap) có một số đặc điểm sau:
Quá trình phân tích - kiểm định được tiến hành như sau:
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R