280 likes | 421 Views
Chương 6: Đa cộng tuyến. 1. Bản chất và nguyên nhân 2. Hậu quả 3. Cách phát hiện 4. Cách khắc phục. 1. Bản chất và nguyên nhân. Ví dụ: Năng suất cây trồng chịu sự ảnh hưởng của Lượng phân bón và Công lao động. Hai biến giải thích này có quan hệ đồng biến với nhau
E N D
Chương 6: Đa cộng tuyến 1. Bản chất và nguyên nhân 2. Hậu quả 3. Cách phát hiện 4. Cách khắc phục
Ví dụ: • Năng suất cây trồng chịu sự ảnh hưởng của Lượng phân bón và Công lao động. Hai biến giải thích này có quan hệ đồng biến với nhau • Chi phí bảo trì xe chịu sự ảnh hưởng của số dặm xe đã chạy và số năm của chiếc xe. Có sự tương quan giữa số dặm và số năm.
Có 2 dạng đa cộng tuyến • Đa cộng tuyến hoàn hảo: • Đa cộng tuyến không hoàn hảo: Với vi là sai số ngẫu nhiên
Ví dụ: dữ liệu giả định cho các biến Ta thấy: X2 = 5X1 nên có đa cộng tuyến hoàn hảo giữa X1 và X2. X2* = 5X1 + V nên có đa cộng tuyến không hoàn hảo giữa X1, X2*
Nguyên nhân: • Mẫu không đặc trưng cho tổng thể • Do bản chất mối quan hệ giữa các biến Ví dụ: Hồi quy lượng điện năng tiêu thụ theo thu nhập và diện tích nhà ở. Trong mối quan hệ này ẩn chứa đa cộng tuyến vì những gia đình có thu nhập cao thường có nhà rộng hơn.
2. Hậu quả • Các ước lượng vẫn BLUE • Mô hình không thể ước lượng được nếu các biến độc lập quan hệ hoàn hảo. • Gia tăng sai số chuẩn => giảm trị thống kê t => giảm ý nghĩa của các hệ số
Trị thống kê t thấp nhưng R2 có thể rất cao • Không thể hiện được tác động riêng lẻ của từng biến giải thích • Không gây ảnh hưởng xấu đến việc thực hiện dự báo giá trị của biến phụ thuộc
Xét 3 mô hình: • Mô hình A: • Mô hình B: • Mô hình C: Trong đó: Why?
Nhận xét: • Mô hình A, B: hệ số ước lượng đúng với dấu kỳ vọng và có ý nghĩa về mặt thống kê. • Mô hình C: hệ số ước lượng của Miles không đúng với dấu kỳ vọng và trị thống kê t giảm đáng kể, R2 cao. • Hệ số tương quan giữa Age và Miles cao
3. Cách phát hiện • Giá trị R2 cao và trị thống kê t thấp • Hệ số tương quan cặp giữa các biến giải thích cao (theo kinh nghiệm > 0.8 thì có đa cộng tuyến). Tuy nhiên kinh nghiệm này không chính xác. • Hệ số hồi quy thay đổi khi thêm hay bớt biến giải thích.
Xét mô hình hồi quy phụ • Xây dựng mô hình hồi quy phụ giữa các biến X • Xác định R2 của từng mô hình hồi quy phụ • Nếu R2 phụ > R2 gốc thì có đa cộng tuyến
4. Cách khắc phục • Chung sống với lũ: khi ta ít (hoặc không quan tâm) đến việc diễn dịch từng hệ số hồi quy riêng lẻ mà chỉ chú ý đến việc dự báo. • Loại bỏ bớt những biến có trị thống kê t thấp để cải thiện mức ý nghĩa của các biến còn lại. • Tăng kích thước mẫu • Sử dụng thông tin tiên nghiệm
Ví dụ: Nghiên cứu tỷ lệ nghèo và các yếu tố ảnh hưởng • Povrate(tỷ lệ nghèo): tỷ lệ hộ nghèo (%) • Urb: tỷ lệ dân thành thị (%) • Famsize: Số người trong một hộ ga đình • Unemp: Tỷ lệ thất nghiệp (%)
Highschl: tỷ lệ dân số có trình độ trung học (%) • College: tỷ lệ dân số có trình độ cao đẳng trở lên (%) • Medinc: Thu nhập hộ gia đình(1000USD/hộ) Kỳ vọng: β3, β4 > 0, β2, β5 , β6, β7 < 0
Nhận xét • R2adj: khácaonhưngcónhiềuhệsốướclượngtrongmôhìnhkhôngcó ý nghĩathốngkê (Pvalue > 5%) • Hệsốkhôngđúngvớikỳvọng => cóhiệntượngđacộngtuyếntrongmôhình
Nhận xét: • : khôngđúngvớidấukỳvọng • SựảnhhưởngcủabiếnMedincđếntỷlệnghèocóthểđượcgiảithíchthông qua biếnHighschlvàbiến College => khiướclượngmôhìnhcóthểloạibỏbiếnMedinc
Nhận xét: • Hệ số ước lượng của biến Highschl và College có ý nghĩa thống kê và đúng với dấu kỳ vọng • Hệ số ước lượng của Famsize nghịch với dấu kỳ vọng • Giá trị R2adj giảm đáng kể
Nhận xét • Tất cả các hệ số đều rất có ý nghĩa và có dấu như kỳ vọng • R2adj: có giá trị cao => Đa cộng tuyến là lý do về dấu không như kỳ vọng của biến College trong mô hình tỷ lệ nghèo.