Mặc dù có nhiều phương pháp xử lý khác nhau, cách xử lý dữ liệu của các phương pháp không giống nhau, mục đích của xử lý cũng không như nhau, nhưng cách tiến hành một quy trình xử lý lại có nhiều điểm tương đồng. Một cách khái quát, quy trình này có thể được tách thành 6 bước như được trình bày sau đây.
Trước khi xử lý, ta cần biết thực chất của vấn đề là gì: Tìm cách nâng cao doanh số? Đánh giá chất lượng phục vụ khách hàng? Mở rộng địa bàn hay lĩnh vực kinh doanh? Nâng cao khả năng cạnh tranh? Vấn đề cần được trình bày một cách đơn giản và rõ ràng, không nên sử dụng những thuật ngữ quá chuyên môn.
Khi đã nắm bắt được vấn đề, ta đi xác định mục đích của xử lý dữ liệu. Thí dụ như tìm sự liên quan giữa doanh số với các thuộc tính khác; hay phân nhóm khách hàng; hoặc tìm kiếm các yếu tố ảnh hưởng đến sự gắn kết của khách hàng với công ty. Mục đích nên được phát biểu rõ ràng và cụ thể vì nó sẽ quyết định gần như toàn bộ các công đoạn tiếp theo như các phương pháp phân tích, khối lượng dữ liệu cần thu thập, các biến đưa vào phân tích.
Sau khi nắm bắt được vấn đề và xác định được mục đích, ta sẽ chọn ra phương pháp phân tích (hoặc những phương pháp phân tích). Như đã trình bày ở trên, phương pháp phân tích phụ thuộc rất nhiều vào mục đích ta cần đạt được.
Trong bước này, ta cần xác định các chi tiết của quy trình xử lý trong các giai đoạn tiếp theo sau:
Thông thường các chi tiết của quy trình xử lý phụ thuộc chủ yếu vào phương pháp phân tích, và phần nào đó vào mục đích.
Sau khi đã có bảng dữ liệu, ta chưa sử dụng ngay các phương pháp phân tích mà cần phải kiểm tra lại xem bảng dữ liệu có phù hợp không. Thông thường mỗi phương pháp phân tích đều đòi hỏi dữ liệu phải đáp ứng một số điều kiện nhất định. Ta có thể liệt kê một số điều kiện tổng quát như sau:
Tùy theo phương pháp phân tích mà ta có những điều kiện cần phải đáp ứng. Dựa vào kết quả kiểm tra này, ta sẽ phải hiệu chỉnh, tổ chức lại hoặc chuẩn bị lại dữ liệu nếu cần thiết.
Sau khi có được dữ liệu đạt yêu cầu, ta tiến hành phân tích theo phương pháp (hay các phương pháp) đã được lựa chọn. Để việc phân tích được nhanh, chính xác, tin cậy, có chất lượng cao, công việc này thường được thực hiện với sự trợ giúp của các phần mềm, các công cụ chuyên dùng. Nhờ đó, kết quả thu được cũng đa dạng với nhiều thông số, nhiều loại bảng, biểu đồ với các thông tin cần thiết, thậm chí nhiều hơn mức cần thiết.
Tiếp theo, ta cần xem xét các kết quả một cách chi tiết : mức độ tương thích của phương trình hồi quy, khoảng tin cậy của các chỉ tiêu, so sánh tác động của các biến độc lập đến biến phụ thuộc, các phần tử hay nhóm phần tử nào có ảnh hưởng mạnh nhất đến thông số mà ta quan tâm, ... . Các phần mềm, các công cụ thường cũng cung cấp cho ta các phương tiện phù hợp cho nhiệm vụ này: giá trị `p` (`p` value), hệ số `R^2` hiệu chỉnh, phân tích Pareto, ...
Trong số các kết quả thu được, mô hình (hay các mô hình) được xem là quan trọng hơn cả, vì nó giúp ta đạt được mục đích đã đề ra ban đầu: doanh số phụ thuộc vào các thuộc tính như thế nào; khách hàng chúng ta có thể phân nhóm ra sao, đặc trưng của mỗi nhóm là gì; mức độ gắn kết của khách hàng tùy thuộc vào những điểm nào; các yếu tố nào có tác động mạnh nhất đến chỉ tiêu đề ra. Vì thế việc khảo sát mô hình (hay các mô hình) này cần được tiến hành rất kỹ lưỡng, chi tiết.
Trong nhiều trường hợp, dữ liệu thu được chỉ là một mẫu (sample), một phần thu được từ một tổng thể (population). Như vậy số lượng phần từ được đưa vào khảo sát ít hơn, thậm chí ít hơn rất nhiều so với số phần tử của tổng thể. Như vậy một vấn đề được đặt ra là liệu kết quả ta thu được có thể áp dụng cho toàn bộ tổng thể hay không? Vì thế ta cần kiểm định lại kết quả.
Tất nhiên ta không thể kiểm định cho tất cả các phần tử của tổng thể được. Vì thế ta cần có những phương pháp phù hợp.
Để kiểm định, ta cần dữ liệu riêng (testing data), khác biệt với dữ liệu dùng để phân tích (training data). Mối quan hệ giữa hai dữ liệu này còn tùy thuộc chủ yếu vào phương pháp kiểm định, và phần nào đó, vào phương pháp phân tích dữ liệu.
Nhờ sự phát triển của phần cứng máy tính, ta có thể thực hiện một khối lượng tính toán lớn trong thời gian ngắn, nên các phương pháp kiểm định phức tạp, cần nhiều tính toán được áp dụng ngày càng rộng rãi. Hai trong số các phương pháp này hiện được dùng khá phổ biến là kiểm định chéo (cross validation) và tự lấy mẫu lại (bootstrap).
Sau khi quá trình kiểm định thành công cho thấy kết quả phân tích có thể áp dụng, ta cần diễn giải (interpret) kết quả. Việc diễn giải này phải giúp ta hiểu rõ hơn lời giải cho vấn đề được đặt ra lúc ban đầu. Ta cần biết cách chuyển hóa các từ các khái niệm toán học sang các khái niệm của thực tiễn đang khảo sát: tương tác giữa hai biến có nghĩa là gì trong đánh giá thị hiếu của khách hàng; log của biến trong phương trình hồi quy cho ta biết gì về sự biến động của giá nguyên liệu. Trong một số trường hợp, để có thể diễn giải được, ta phải sử dụng các mô hình đơn giản hơn, kém hoàn thiện hơn về mặt toán học.
Sau cùng, ta cần chọn cách trình bày thích hợp với người sử dụng kết quả xử lý. Các đại lượng, bảng số liệu, biểu đồ cần được chọn lựa, trình bày và thực hiện cẩn thận để người sử dụng có thể nắm bắt các ý tưởng một cách dễ dàng, đặc biệt là các ý tưởng quan trọng, chủ chốt.
Trang web này được cập nhật lần cuối ngày 26/11/2018
Dữ liệu đa biến
Các chuyên đề
Xử lý dữ liệu
Ma trận
R