Tùy theo mục đích xử lý, tính chất dữ liệu, lĩnh vực hoạt động, quá trình xử lý dữ liệu có thể tiến hành theo nhiều cách khác nhau, bằng nhiều phương pháp khác nhau. Một cách tổng quát, ta có thể xem quá trình xử lý dữ liệu bao gồm các giai đoạn sau:
Trong thực tế đường ranh giới giữa các giai đoạn không hoàn toàn rõ ràng mà tương đối linh động, hai giai đoạn có thể gộp với nhau, giai đoạn này chưa chấm dứt vẫn có thể tiến hành giai đoạn khác. Ngoài ra kết quả một giai đoạn nào đó buộc ta phải xem xét, thực hiện lại một vài giai đoạn trước đó, thậm chí phải thu hẹp, hay mở rộng phạm vi xử lý.
Công việc đầu tiên là ta phải xác định thực chất của vấn đề là gì: giảm chi phí sản xuất? cải thiện hình ảnh công ty? tìm hiểu thị hiếu khách hàng? Xác định đúng vấn đề có tầm quan trọng đặc biệt, giúp chúng ta đi đúng hướng, giải quyết đúng trọng tâm. Đôi khi, vấn đề thực lại ở dạng tiềm ẩn, bị che lấp, khó xác định. Vấn đề cần được trình bày một cách cô đọng và rõ ràng, bằng ngôn ngữ thông thường, hạn chế sử dụng các thuật ngữ chuyên môn.
Sau khi nắm bắt được vấn đề, ta xác định mục đích cần đạt được: xác định các yếu tố có ảnh hưởng đến hình ảnh công ty, phân nhóm khách hàng, xác định yếu tố được khách hàng quan tâm hơn cả trong cách trình bày sản phẩm. Mục đích cũng cần được trình bày rõ ràng và cụ thể, tốt nhất là các mục đích có thể được lượng hóa, có thể đo lường, tính toán được.
Xác định mục đích là một phần quan trọng của quá trình xử lý dữ liệu vì mục đích ấy sẽ quyết định rất lớn đến việc tiến hành các giai đoạn sau này: mức độ phức tạp, chi phí, thời gian, ...
Sau khi xác định được vấn đề và mục đính, ta có thể hình dung được các công việc tiếp theo cần được thực hiện, phương pháp thực hiện các công việc ấy. Từ đó ta có thể quyết định được các đặc điểm của dữ liệu: cần có những thông tin gì, phương pháp thu thập, đo lường những thông tin ấy, khối lượng của dữ liệu cần có.
Dữ liệu cần để xử lý có thể được thu thập từ nhiều nguồn khác nhau, từ nội bộ công ty, từ tài liệu tham khảo, từ internet, và trong một số trường hợp phải mua từ các công ty hay tổ chức khác. Dù xuất xứ của dữ liệu ở đâu, khối lượng chất lượng phải đầy đủ, chất lượng dữ liệu phải được đảm bảo, có độ chính xác và tin cậy cần thiết, được đo đạc, tính toán theo các phương pháp thích hợp. Trong một số trường hợp, dữ liệu cần được thu thập trong thời gian dài như một số nghiên cứu về lâm nghiệp hay y học.
Trong trường hợp, đơn vị xử lý dữ liệu được thuê, thì việc thu thập dữ liệu có thể gặp một số khó khăn. Có một số dữ liệu nhạy cảm mà bên thuê không muốn chia sẻ. Khi ấy hai phía phải trao đổi, bàn bạc với nhau để tìm biện pháp phù hợp.
Thông thường, dữ liệu thu thập (dữ liệu thô) chưa đáp ứng được các yêu cầu của xử lý số liệu, đặc biệt là những số liệu thu thập từ thực địa. Một số dũ liệu bị thiếu, một số có chênh lệch rất đáng kể so với phần còn lại (outlier: ngoại lệch), dữ liệu lấy từ các nguồn khác nhau có đơn vị không giống nhau, cách sắp xếp không hợp lý, ... Vì vậy dữ liệu cần được chuẩn bị, biên tập lại.
Tùy theo phương pháp xử lý dữ liệu mà cách biên tập có thể khác nhau. Phần tử có dữ liệu thiếu có thể bị loại bỏ hay không, số ngoại lệch có thể bị loại hay không, các dữ liệu được sắp xếp lại theo cách phù hợp, các biến có thể được liên kết lại hay tách riêng ra, ... Có thể tiến hành một số kiểm tra để đánh giá độ chính xác hay tính phù hợp của dữ liệu (như kiểm tra chéo). Các thông tin nghi ngờ có thể cần được xem xét, đối chiếu lại ngay từ khi thu thập.
Trước hết, ta cần thực hiện một số khảo sát sơ bộ về dữ liệu để có một nhận định khái quát về đối tượng, như khoảng biến thiên,mức độ tập trung, phân tán của các giá trị, tương quan (khái quát) của các biến, các nét đặc thù.
Trong kháo sát thăm dò, các biểu đồ là phương tiện hiệu quả. Chúng giúp cho ta có một nhận định tương đối trực quan, rõ ràng về các đặc điểm của đối tượng, các điểm đặc thù, các biểu hiện bất thường.
Trong giai đoạn này, đôi khi ta cũng phải kiểm tra một số điều kiện của dữ liệu để phù hợp với phương pháp phân tích sẽ sử dụng trong bước kế tiếp: dữ liệu có phân phối chuẩn hay không? phương sai có đồng nhất hay không? ...
Phần lớn các phần mềm cung cấp cho ta các công cụ phù hợp để làm việc này. Các công cụ này thường đơn giản, dễ dùng, chỉ gồm một lệnh hay một vài lệnh.
Tùy theo mục đích của việc xử lý cũng như tính chất của dữ liệu mà ta sử dụng một hay một số phương pháp phân tích dữ liệu thích hợp. Hiện nay công việc này thường được thực hiện bằng máy tính với sự hỗ trợ của các phần mềm. Nhờ đó việc thực hiện được nhanh gọn, kết quả thu được phong phú với nhiều bảng số, biểu đồ có chất lượng tốt. Thậm chí ta có thể cho thực hiện một số phương án khác nhau và từ đó chọn ra phương án phù hợp nhất.
Khả năng ứng dụng của kết quả cần được xem xét. Mô hình thu được không nên đơn thuần là một hay một số phương trình toán học mà phải có ý nghĩa nhất định, có thể giải thích được, diễn giải được.
Kết quả thu được, thường là một hay một số mô hình, cần được kiểm định lại. Có hai nội dung kiểm định: tính tương thích với dữ liệu dùng để phân tích và khả năng ứng dụng kết quả ấy bên ngoài dữ liệu phân tích. Tùy theo đặc điểm của dữ liệu và phương pháp phân tích dữ liệu mà có cách kiểm định khác nhau. Dữ liệu kiểu số có cách kiểm định khác với dữ liệu định danh, phân tích phương sai có cách kiểm định khác với phân nhóm.
Khi kiểm định, ta thường dựa và một tiêu chuẩn, một số thống kê nào đó (như R2) để đánh giá kết quả. Trong nhiều trường hợp, các phương pháp đồ họa tỏ ra hữu ích để phát hiện các điểm không phù hợp của kết quả.
Kết quả (hay quá trình xử lý) cần được diễn giải & trình bày sao cho người tiếp nhận hay sử dụng có thể hiểu được, úng dụng được. Vì thê cách diễn giải & trình bày tùy thuộc đáng kể vào các đối tượng ấy, và đôi khi cần sử dụng một số phiên bản khác nhau để có thể đáp ứng từng yêu cầu cụ thể.
Nhìn chung, cần trình bày rõ ràng, có hình thức trình bày phù hợp, thẩm mỹ. Các phương tiện đồ họa (hình vẽ, màu sắc) nên được tận dụng (nhưng không lạm dụng) để bản trình bày thêm sinh động.
Trang web này được cập nhật lần cuối ngày 25/11/2018
Xử lý dữ liệu
Các chuyên đề
Xử lý dữ liệu
Ma trận
R