Quy trình xử lý dữ liệu đa biến

Mặc dù có nhiều phương pháp xử lý khác nhau, cách xử lý dữ liệu của các phương pháp không giống nhau, mục đích của xử lý cũng không như nhau, nhưng cách tiến hành một quy trình xử lý lại có nhiều điểm tương đồng. Một cách khái quát, quy trình này có thể được tách thành 6 bước như được trình bày sau đây.

1 Xác định vấn đề, mục đích và phương pháp phân tích

Trước khi xử lý, ta cần biết thực chất của vấn đề là gì: Tìm cách nâng cao doanh số? Đánh giá chất lượng phục vụ khách hàng? Mở rộng địa bàn hay lĩnh vực kinh doanh? Nâng cao khả năng cạnh tranh? Vấn đề cần được trình bày một cách đơn giản và rõ ràng, không nên sử dụng những thuật ngữ quá chuyên môn.

Khi đã nắm bắt được vấn đề, ta đi xác định mục đích của xử lý dữ liệu. Thí dụ như tìm sự liên quan giữa doanh số với các thuộc tính khác; hay phân nhóm khách hàng; hoặc tìm kiếm các yếu tố ảnh hưởng đến sự gắn kết của khách hàng với công ty. Mục đích nên được phát biểu rõ ràng và cụ thể vì nó sẽ quyết định gần như toàn bộ các công đoạn tiếp theo như các phương pháp phân tích, khối lượng dữ liệu cần thu thập, các biến đưa vào phân tích.

Sau khi nắm bắt được vấn đề và xác định được mục đích, ta sẽ chọn ra phương pháp phân tích (hoặc những phương pháp phân tích). Như đã trình bày ở trên, phương pháp phân tích phụ thuộc rất nhiều vào mục đích ta cần đạt được.

2 Thiết kế quy trình xử lý

Trong bước này, ta cần xác định các chi tiết của quy trình xử lý trong các giai đoạn tiếp theo sau:

Về mặt dữ liệu : Ta cần những biến nào? Biến nào là độc lập và biến nào là phụ thuộc? Cần sử dụng bao nhiêu phần tử? Các phần tử được chọn lựa và sắp xếp ra sao?
Cần kiểm tra những thông số nào, những điều kiện nào?
Làm thế nào để đánh giá kết quả phân tích?
Kết quả sẽ được diễn giải như thể nào?
Sử dụng phương pháp nào để kiểm định? Dữ liệu kiểm định được chuẩn bị ra sao?
. . .

Thông thường các chi tiết của quy trình xử lý phụ thuộc chủ yếu vào phương pháp phân tích, và phần nào đó vào mục đích.

3 Kiểm tra lại các điều kiện

Sau khi đã có bảng dữ liệu, ta chưa sử dụng ngay các phương pháp phân tích mà cần phải kiểm tra lại xem bảng dữ liệu có phù hợp không. Thông thường mỗi phương pháp phân tích đều đòi hỏi dữ liệu phải đáp ứng một số điều kiện nhất định. Ta có thể liệt kê một số điều kiện tổng quát như sau:

Số giá trị thiếu (missing value) phải không có hay chỉ có ít.
Không có số ngoại lệch (outlier).
Các giá trị số của biến phải có phân phối chuẩn (normality).
Giá trị của biến phải được chuẩn hóa (standardization)
Phương sai phải đồng nhất (homoscedasticity).
Không có sự đa cộng tuyến (multicollinearity) giữa các biến độc lập.
. . .

Tùy theo phương pháp phân tích mà ta có những điều kiện cần phải đáp ứng. Dựa vào kết quả kiểm tra này, ta sẽ phải hiệu chỉnh, tổ chức lại hoặc chuẩn bị lại dữ liệu nếu cần thiết.

4 Phân tích dữ liệu & Xem xét kết quả

Sau khi có được dữ liệu đạt yêu cầu, ta tiến hành phân tích theo phương pháp (hay các phương pháp) đã được lựa chọn. Để việc phân tích được nhanh, chính xác, tin cậy, có chất lượng cao, công việc này thường được thực hiện với sự trợ giúp của các phần mềm, các công cụ chuyên dùng. Nhờ đó, kết quả thu được cũng đa dạng với nhiều thông số, nhiều loại bảng, biểu đồ với các thông tin cần thiết, thậm chí nhiều hơn mức cần thiết.

Tiếp theo, ta cần xem xét các kết quả một cách chi tiết : mức độ tương thích của phương trình hồi quy, khoảng tin cậy của các chỉ tiêu, so sánh tác động của các biến độc lập đến biến phụ thuộc, các phần tử hay nhóm phần tử nào có ảnh hưởng mạnh nhất đến thông số mà ta quan tâm, ... . Các phần mềm, các công cụ thường cũng cung cấp cho ta các phương tiện phù hợp cho nhiệm vụ này: giá trị `p` (`p` value), hệ số `R^2` hiệu chỉnh, phân tích Pareto, ...

Trong số các kết quả thu được, mô hình (hay các mô hình) được xem là quan trọng hơn cả, vì nó giúp ta đạt được mục đích đã đề ra ban đầu: doanh số phụ thuộc vào các thuộc tính như thế nào; khách hàng chúng ta có thể phân nhóm ra sao, đặc trưng của mỗi nhóm là gì; mức độ gắn kết của khách hàng tùy thuộc vào những điểm nào; các yếu tố nào có tác động mạnh nhất đến chỉ tiêu đề ra. Vì thế việc khảo sát mô hình (hay các mô hình) này cần được tiến hành rất kỹ lưỡng, chi tiết.

5 Kiểm định lại kết quả

Trong nhiều trường hợp, dữ liệu thu được chỉ là một mẫu (sample), một phần thu được từ một tổng thể (population). Như vậy số lượng phần từ được đưa vào khảo sát ít hơn, thậm chí ít hơn rất nhiều so với số phần tử của tổng thể. Như vậy một vấn đề được đặt ra là liệu kết quả ta thu được có thể áp dụng cho toàn bộ tổng thể hay không? Vì thế ta cần kiểm định lại kết quả.

Tất nhiên ta không thể kiểm định cho tất cả các phần tử của tổng thể được. Vì thế ta cần có những phương pháp phù hợp.

Để kiểm định, ta cần dữ liệu riêng (testing data), khác biệt với dữ liệu dùng để phân tích (training data). Mối quan hệ giữa hai dữ liệu này còn tùy thuộc chủ yếu vào phương pháp kiểm định, và phần nào đó, vào phương pháp phân tích dữ liệu.

Nhờ sự phát triển của phần cứng máy tính, ta có thể thực hiện một khối lượng tính toán lớn trong thời gian ngắn, nên các phương pháp kiểm định phức tạp, cần nhiều tính toán được áp dụng ngày càng rộng rãi. Hai trong số các phương pháp này hiện được dùng khá phổ biến là kiểm định chéo (cross validation) và tự lấy mẫu lại (bootstrap).

6 Diễn giải và trình bày kết quả

Sau khi quá trình kiểm định thành công cho thấy kết quả phân tích có thể áp dụng, ta cần diễn giải (interpret) kết quả. Việc diễn giải này phải giúp ta hiểu rõ hơn lời giải cho vấn đề được đặt ra lúc ban đầu. Ta cần biết cách chuyển hóa các từ các khái niệm toán học sang các khái niệm của thực tiễn đang khảo sát: tương tác giữa hai biến có nghĩa là gì trong đánh giá thị hiếu của khách hàng; log của biến trong phương trình hồi quy cho ta biết gì về sự biến động của giá nguyên liệu. Trong một số trường hợp, để có thể diễn giải được, ta phải sử dụng các mô hình đơn giản hơn, kém hoàn thiện hơn về mặt toán học.

Sau cùng, ta cần chọn cách trình bày thích hợp với người sử dụng kết quả xử lý. Các đại lượng, bảng số liệu, biểu đồ cần được chọn lựa, trình bày và thực hiện cẩn thận để người sử dụng có thể nắm bắt các ý tưởng một cách dễ dàng, đặc biệt là các ý tưởng quan trọng, chủ chốt.

Trang web này được cập nhật lần cuối ngày 26/11/2018

Dữ liệu đa biến

Sơ đồ site