logo xDuLieu.com

Trang trướcKhái quát về hồi quyTrang sau

Khái niệm "hồi quy"

 

Một cách tổng quát, hồi quy (regression) là nhóm các phương pháp đi tìm mối tương quan định lượng giữa hai nhóm biến và trình bày mối tương quan này dưới dạng các phương trình. Thí dụ như khi ta khảo sát nội dung hồi quy trong thống kê với trường hợp rất đơn giản là hồi quy tuyến tính giữa hai biến thì ta có phương trình:

`Y=b_0+b_1X`(1)

trong đó `Y` là biến phụ thuộc, `X` là biến độc lập, `b_0` và `b_1` là các hệ số.

Khi đã biết được mối tương quan này, chúng ta có thể tiến hành các hoạt động mang lại lợi ích cho mình và cho mọi người. Thí dụ khi ta biết ảnh hưởng của nhiệt độ lò nướng và tỷ lệ đường đến giá trị cảm quan của bánh quy thì ta có thể điều chỉnh các thông số này trong sản xuất để thu được các sản phẩm được nhiều người ưa chuộng.

Thuật ngữ "hồi quy" được Francis Galton sử dụng đầu tiên khi nghiên cứu về di truyền. Ông nhận thấy rằng kích thước của cây đậu hoa thế hệ con có mối quan hệ với kích thước của bố mẹ chúng và ông gọi mối quan hệ này là "regression" (ngược trở về, thoái lui).


Một số tính chất của hồi quy

 

Nhìn chung, các phương pháp xử lý thuộc nhóm hồi quy có các tính chất sau:

  • Phương trình tương quan giữa các biến thường được gọi là "mô hình".
  • Vì tương quan giữa các biến trong hồi quy là định lượng nên các biến này phải ở dạng số. Nếu ban đầu chúng không ở dạng số (chẳng hạn như biến định danh) thì ta phải chuyển đổi (dùng biến nộm).
  • Hồi quy thuộc nhóm các phương pháp phụ thuộc. Vì vậy trong hồi quy, ta phân biệt hai loại biến: "phụ thuộc" và "độc lập"; các biến độc lập có tác động đến biến phụ thuộc, giá trị của biến phụ thuộc tùy thuộc vào giá trị của các biến độc lập.
  • Để thuận tiện cho quá trình phân tích, mô hình hồi quy thường được trình bày dưới dạng:

    `Y=f(X_1,X_2,...,X_n)`(2)

    trong đó `Y` là biến phụ thuộc, `X_i` là các biến độc lập.
  • Trong mô hình ngoài các biến độc lập và phụ thuộc còn có các hệ số, thí dụ mô hình bậc hai với một biến độc lập có 3 hệ số. Xác định giá trị của các hệ số này để mô hình phù hợp với dữ liệu là nhiệm vụ quan trọng nhất trong hồi quy.

Phân loại

 

Dựa vào tiêu chí sử dụng để phân loại mà ta có thể chia các phương pháp hồi quy thành các loại khác nhau.

  • Cách phân loại thường dùng nhất là dựa vào dạng của phương trình hồi quy. Nếu phương trình này chỉ chứa các thừa số bậc nhất của các biến độc lập thì ta có các hồi quy tuyến tính, ngoài ra (đa thức bậc 2, logarit, hàm mũ, ...) thì ta có hồi quy phi tuyến.
  • Trong các phương pháp hồi quy thông thường, biến phụ thuộc có kiểu số. Nhưng hiện nay hồi quy đã phát triển để có thể áp dụng cho các biến phụ thuộc có kiểu phi số (hồi quy logistic, phân tích sự khác biệt, phân tích tương quan chính tắc, ... )
  • Trong các phương pháp hồi quy thông thường, chỉ có một biến phụ thuộc, nhưng trong phân tích tương quan chính tắc (canonical correlation), số biến phụ thuộc nhiều hơn 1.
  • Trong hồi quy, số hệ số của mô hình cần phải xác định có thể đã được biết trước (parametric regression) hay không (nonparametric regression). Thí dụ với một biến độc lập, trong mô hình đa thức bậc hai, ta biết phải xác định 3 hệ số, nhưng trong mô hình đường cong khớp (spline), số hệ số có thể thay đổi đáng kể phụ thuộc vào dữ liệu và ý định của người xử lý dữ liệu.


Trang trướcVề đầu chươngTrang sau


Trang web này được cập nhật lần cuối ngày 26/11/2018