logo xDuLieu.com

Trang trướcKiểm định kết quảTrang sau

Sau khi phân tích dữ liệu, ta có được kết quả, thông thường là một hay một số mô hình, ta cần kiểm định lại kết quả ấy. Thường có hai nội dung kiểm định, kiểm định tính tương thích của kết quả với dữ liệu sử dụng để phân tích, và kiểm định khả năng mở rộng của kết quả cho các dữ liệu khác. Thông thường mỗi phương pháp sẽ có cách kiểm định riêng, kiểm định phân tích thành tố không giống kiểm định hồi quy. Dưới đây trình bày một số nét chung về kiểm định.

Kiểm định tính tương thích

 

Cách kiểm định tính tương thích của kết quả đối với dữ liệu phân tích phụ thuộc đáng kể vào kiểu dữ liệu của biến. Thí dụ:

  • với biến số liên tục (như hồi quy), ta dựa vào các số thống kê như R2, R2 hiệu chỉnh,
  • với biến số liên tục, ta cũng có thể dùng các loại biểu đồ thể hiện sự chênh lệch giữa giá trị tiên đoán từ kết quả và giá trị thực tế (thí dụ biểu đồ phần dư (residual plot))
  • với biến có kiểu định danh, ta có thể căn cứ vào tỷ lệ các trường hợp có kết quả sai (thí dụ kết quả cho phần tử X thuộc nhóm A trong khi thực tế X lại thuộc nhóm B),

Kiểm định khả năng mở rộng

 

Trong nhiều trường hợp, kết quả phân tích phải được mở rộng cho nhiều phần tử khác, cho các trường hợp trong tương lai. Vì thế ta cần phải kiểm định khả năng mở rộng của kết quả. Khi đó ta cần phải có dữ liệu dùng để kiểm định (test data) bên cạnh dữ liệu dùng để phân tích (training data). Sau khi có kết quả phân tích, ta kiểm định tính tương thích của kết quả ấy cho dữ liệu kiểm định (thí dụ bằng các phương pháp đã đề cập ở trên).

Để tạo bộ dữ liệu kiểm định (và thực hiện kiểm định) ta có một số cách chính sau:

  • Tách bộ dữ liệu ban đầu làm hai phần (cố định), một phần làm dữ liệu phân tích, một phần làm dữ liệu kiểm định. Tỷ lệ của hai phần này tùy thuộc vào phương pháp phân tích hay kinh nghiệm cá nhân (thí dụ dùng 70% làm dữ liệu phân tích). Một số phần mềm cung cấp cho ta các công cụ tách mẫu để có sự cân bằng giữa hai phần.
  • Kiểm định chéo (cross-validation) : dữ liệu được chia làm nhiều phần và quá trình phân tích - kiểm định được thực hiện làm nhiều lần. Các phần của dữ liệu luân phiên thực hiện vai trò kiểm định và xử lý. Trong phương pháp K lần (K-fold) quá trình được thực hiện như sau:
    • chia dữ liệu thu được làm K phần, thí dụ K = 10, đánh số các phần từ 1 đến 10,
    • tách riêng phần 1 để dùng làm dữ liệu kiểm định lần 1, dùng 9 phần còn lại (từ 2 đến 10) để làm dữ liệu phân tích lần 1,
    • tiến hành phân tích lần 1, thu được kết quả, dùng phần 1 để kiểm định,
    • tách riêng phần 2 để dùng làm dữ liệu kiểm định lần 2, dùng 9 phần còn lại làm dữ liệu phân tích lần 2,
    • tiến hành phân tích lần 2, thu được kết quả, dùng phần 2 để kiểm định,
    • lần lượt làm tương tự thêm 8 lần nữa,
    • so sánh, đối chiếu 10 lần phân tích, chọn ra kết quả tốt nhất.
  • Tự lấy mẫu lại (bootstrap) : dữ liệu phân tích có cùng số phần tử như dữ liệu gốc, được tạo từ dữ liệu gốc bằng cách lấy mẫu có hoàn trả. Dữ liệu gốc cũng đồng thời được sử dụng làm dữ liệu kiểm định. Quá trình phân tích - kiểm định tiến hành như sau:
    • từ dữ liệu gốc, tạo dữ liệu phân tích, có số phần tử bằng số phần tử của dữ liệu gốc, bằng cách lấy mẫu có hoàn trả,
    • tiến hành phân tích, thu được kết quả,
    • kiểm định lại kết quả này bằng dữ liệu gốc,
    • lặp lại quá trình trên nhiều lần (có thể hằng ngàn lần),
    • so sánh, tính toán, lựa chọn kết quả phù hợp.



Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 25/11/2018