360 likes | 927 Views
CHAP2 多元迴歸分析. 游青霏. 運用迴歸的時機. 時機-自變項與依變項 均為 『 量 』 的變項. 迴歸的用途. 用途:. 說明自變項與依變項間的 關連強度 及 關連方向. 解釋:. 使用迴歸方程式, 利用已知的自變數預測未知的依變數. 預測:. Ex :自-國三數學模擬考成績 依-基測數學成績. 簡單迴歸. 簡單迴歸方程式: b :迴歸的 原始加權係數 ,又稱斜率 (slope) a : 常數項 (constant) ,又稱截距 (intercept)
E N D
CHAP2 多元迴歸分析 游青霏
運用迴歸的時機 • 時機-自變項與依變項均為『量』的變項
迴歸的用途 • 用途: 說明自變項與依變項間的關連強度及關連方向 解釋: 使用迴歸方程式,利用已知的自變數預測未知的依變數 預測: Ex:自-國三數學模擬考成績 依-基測數學成績
簡單迴歸 • 簡單迴歸方程式: b:迴歸的原始加權係數,又稱斜率 (slope) a:常數項 (constant),又稱截距 (intercept) :由X所預測的數值,與真正的Y變數有差距, 差距(殘差,residual) • 迴歸效果量:消減錯誤比例(PRE)
淨相關及部分相關 簡單相關不考慮社經地位 淨相關排除社經地位 部分相關只排除社經地位對智力影響
兩個預測變項的多元迴歸 兩者共同解釋的部分 社經地位單獨解釋的部分 智力單獨解釋的部分
三個以上預測變項的多元迴歸 • 多元迴歸的一般公式為: (公式2-1) Y:效標變項行向量 X:預測變項矩陣 b:迴歸參數行向量 :誤差行向量 由上式移項後可得:
三個以上預測變項的多元迴歸 迴歸分析的主要步驟有: • 獲得迴歸係數 • 估計誤差的標準誤 • 估計迴歸係數的標準誤 • 考驗係數的顯著性(整體-F考驗 ; 個別-t考驗) • 以所獲係數進行預測 • 診斷模式的適配度
迴歸分析之假設 • 變項間為線性關係 • 殘差的標準誤在各觀察體上保持恆定,此即為殘差之等分散性(homoscedasticity) • 殘差獨立性,即殘差間相關為0 • 殘差為常態分配,即殘差的期望值為0
預測變項的選取方法 • 全部進入法將所有自變項一次進入迴歸方程式,不考慮個別變數是否顯著。 • 前向選取法(向前法)以各解釋變項中,與依變項相關最高者首先被選入,其次為未被選入的解釋變項與依變項有最大的偏相關者,即是能夠增加最多的解釋力(R2)的自變項 • 後向選取法(向後法)先將所有的解釋變項投入迴歸模型,再將最沒有預測力的解釋變項(t值最小)依序排除,即是各解釋變項對依變項的淨解釋力顯著性考驗未能達到研究者所設定的顯著水準者,依序加以排除,以得到最佳方程式。
預測變項的選取方法 • 逐步迴歸分析法(逐步法)整合向前法與向後法兩種策略。 • 所有可能組合法將所有變數加以組合,然後根據 或MallowsCp等準則選擇最佳的組合當成預測變數。 • 階層迴歸依據理論,依序投入預測變項。後續進入的可以增加多少預測力。Ex:家庭社經指數、智力、學習動機、努力程度來預測學生學業成就。
樣本數之決定 • 多元迴歸分析:每個預測變項最少要有5個樣本,且最好有15~20個樣本。 • 逐步法:則需要增加到50個樣本,如此迴歸分析的結果才具有類推性。
虛擬變項的多元迴歸 • 轉換成虛擬變項時,虛擬變項必須是『水準數-1』,以避免線性相依。 • Ex:社經水準-高、中、低 3個水準 只要以2個虛擬變項(高、中)代表即可 虛 擬 變 項 1:可視為『是』 0:可視為『不是』 原 變 項
迴歸診斷 一、殘差的檢定 主要診斷其常態分配及獨立性 二、離群值 (outlier) 及具影響力觀察值 (influential observation) 的檢出 主要在發現特殊的觀察體 三、共線性的檢定 診斷自變項相依程度,避免迴歸係數標準誤、 預測值變異數膨脹
殘差值與預測值交叉分佈圖 一、殘差常態性及等分散性檢定 • 用迴歸殘差與預測值來畫交叉散佈圖 outlier • 檢定殘差是否具有等分散性 • 也可看出是否有極端值or具影響力的觀察值 圖2-1 殘差及預測值交叉散布圖 呈水平隨機分配
常態機率分布圖 一、殘差常態性及等分散性檢定 • 檢定殘差是否為常態分配 圖2-2 累積常態機率圖 圖2-3 去趨勢常態機率圖
殘差自我相關檢定 • 此最常利用Durbin-Watson之D檢定法 • 如果DW值在2上下,通常沒有違反假設。
二、極端值及具影響力觀察值檢定 • 極端值: • 和其他觀察值有顯著不同,因此根據迴歸方程得到的預測值與該觀察體的實際值有很大殘差。 • 影響力觀察值: • 對迴歸分析結果有很重大影響的觀察值 圖2-5 殘差去趨勢常態圖 圖2-4 極端值及具影響力觀察值
三、多元共線性檢定 診斷自變項相依程度,避免迴歸係數標準誤、預測值變異數膨脹 • 自變項間之積差相關:>0.8 • 決定係數極大,而個別迴歸係數多數或均不顯著。 • 容忍度及變異數波動因素(VIF): 容忍度: 愈小 愈大, >10 :以其他自變項預測第i個自變項所得 的決定係數;愈大,愈有共線性
三、多元共線性檢定 • (X’X) 之行列式值,接近 0,此時表示X矩陣可能是特異矩陣,也就是有線性相依的情形。 • 條件指數(conditional index; CI) :CI:30~100 中度共線性CI:100以上 高度共線性 • 變異數比例 :由(X’X)所求之特徵向量,若在任一列中有任兩變項以上之係數非常接近1者,表有共線性 λ是由(X’X)所求之特徵值