620 likes | 1.03k Views
量化研究與統計分析. 迴歸分析. 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw. 迴歸. 線性關係的分析 相關分析可以描述兩個連續變數的線性關係,若要進一步確認兩個變數之間的因果關係,則應採用迴歸分析 迴歸分析係用以由自變項(獨立變項)預測依變項,或是研究實驗控制(因)對被觀察的變項(果)的影響 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長 例2:由圖書館利用頻率,預測圖書館網站的利用頻率. 簡單迴歸. Simple Regression 利用單一的預測變數(自變數)去預測另一依變數
E N D
量化研究與統計分析 迴歸分析 謝寶煖 台灣大學圖書資訊學系 pnhsieh@ntu.edu.tw
迴歸 • 線性關係的分析 • 相關分析可以描述兩個連續變數的線性關係,若要進一步確認兩個變數之間的因果關係,則應採用迴歸分析 • 迴歸分析係用以由自變項(獨立變項)預測依變項,或是研究實驗控制(因)對被觀察的變項(果)的影響 • 例:由父母身高預測子女身高;用人口成長(自變項)預測(解釋)電話用戶數的成長 • 例2:由圖書館利用頻率,預測圖書館網站的利用頻率
簡單迴歸 • Simple Regression • 利用單一的預測變數(自變數)去預測另一依變數 • 簡單迴歸方程式: Y= a + bX • 以單一自變項X,預測依變項Y • b為迴歸係數(regression coefficient),代表以X預測Y,其預測力之大小 • 例:以智商預測學業表現的迴歸分析方程式為:Y(學業表現)y= a + b(智商)x
Y = a + bX • 在線性關係中,若兩變項之關係是完全相關時(r=1正相關或r=-1負相關),X與Y的關係呈一直線,兩變項之觀察值可以完全被方程式所涵蓋,其中b為斜率, a為截距,代入X可求得Y,代入Y可求得X,無須預測。 • 但是當兩變項間的關係未達到完全相關時(r±1),X與Y的關係是分佈在一個區域內,無法以一條直線來表示,而必須以最小平方法來求取一條最具代表性的線,此線稱為最適線(best-fit line)或迴歸線(regression line),再利用迴歸線來預測因果關係。
以X預測Y(X Y) • By.x是迴歸係數,表示每當X變動一個單位時,Y的變動量 • 例:以身高預測體重,Y= -165.35 +1.3426X,表示身高每變動一公分, 體重增加 1.3426公斤 • 標準化迴歸係數(standardized regression coefficient),去除特定單位
‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ ‧ 身高 vs. 體重
簡單迴歸分析 • 程序: • 分析>迴歸方法>線性
迴歸方法 • 強迫進入(enter):強制一次進入式迴歸分析法,為預設 • 逐步迴歸分析(stepwise) • 刪除(remove)::強制剔除式迴歸分析法 • 向後(backward) :後向剔除迴歸分析法 • 向前(forward)
Durbin-Watson統計量 • 檢定迴歸模型中殘差獨立的假設 • 如果相鄰殘差項間是相關,則其總差異必小或大 • 若殘差項間是正相關,則其差異必小 • 若殘差項間是負相關,則其差異必大 • 當DW值愈接近2時,殘差項間愈無相關 • 當DW值愈接近0時,殘差項間正相關愈強 • 當DW值愈接近4時,殘差項間負相關愈強
驗證常態分配 • 驗證誤差變項是否具常態分配,可繪殘差次數分配圖,概略判斷母群體的誤差變數是否是常態分配?平均數是否為零 • 利用常態點圖(normal plot),將每個殘差分別描繪在圖上,若誤差變數是常態分配,則圖上點之連線應近似一直線
期中考和期末考的Pearson相關係數為0.822,在0.01水準下達到顯著,進一步檢驗其影響關係期中考和期末考的Pearson相關係數為0.822,在0.01水準下達到顯著,進一步檢驗其影響關係
適合度檢定:期中考可以解釋期末考67.6%的變異。調整後的R平方為63.5%,F=16.66,p=0.004在0.01水準下達到顯著。 表示此模式適合,即期中考可以用來解釋或預測期末考。
簡單線性迴歸方程式為:Final = 49.369 + 0.434 Midterm 期中考成績能夠有效預測期末考成績,Beta係數達0.822(t=4.082, p=0.004),表示期中考成績愈高,期末考成績也愈高。
由上述分析可知,以期中考來解釋或預測期末考成績是相當合適的,而且所建立的模式也令人滿此,但是是否真能用該模式呢?由上述分析可知,以期中考來解釋或預測期末考成績是相當合適的,而且所建立的模式也令人滿此,但是是否真能用該模式呢? • 必須再進一步作殘差分析,以判定該模式是否符合簡單線性迴歸模型的假設。
殘差分析 由標準化殘差次數分配圖(左)和標準化殘差常態機率分配P-P圖(右),可看出殘差的機率分配並不接近常態機率分配
多元迴歸 • multiple regression • 複迴歸 • 利用多個預測變數(自變數)去預測另一依變數 • 例:以智商、閱讀時間和與他人討論頻率,三個變項來預測學業表現 • Y(學業表現)=b1X1(智商)+b2x2 (閱讀時間)+b3x3(討論頻率)+ • b1、b2、b3三個迴歸係數代表X1(智商)、 x2 (閱讀時間)、x3(討論頻率)三個變項對Y的預測能力 • 多元迴歸同時處理多個迴歸係數,必須考慮預測變項之間是否有共變關係存在,因為預測變項間之共變關係將影響迴歸係數之計算,必須加以控制
設有k+1個變數,Y和X1, X2 , … , Xk,其中Xi ,i=1,2,….,k,為k個自變數(或獨立變數),是一種能事先準確觀測的變量(即可忽略其誤差), 因此它們不是隨機變數,而無機率分配的性質。Y為依變數,或「被解釋變數」,是依Xi之值而改變的隨機變數,即當Xi之值為Xij時,Yj亦為一隨機變數,可表示為Yj(即Yj=y| X1j、X2j、… 、 Xkj)
多元迴歸模型的假設是:依變數Y之期望值為自變數Xi ,i=1,2,….,k,之線性函數 • 設有n 組資料, ( X11、X21、… 、 Xk1,Y1 ) ( X12、X22、… 、 Xk2,Y2 )….. ( X1n、X2n、… 、 Xkn,Yn ) • 則多元線性迴歸模型為: Y1=+1X11+ 2X21+… + kXk1+1 Y2=+1X12+ 2X22+… + kXk2 +2 (1) …. Yn=+1X1n+ 2X2n+… + kXkn +n 其中1 , i=1,2,….,n,為獨立的隨機殘差變數(即Cov(i, j)=0),每個均為一具有期望值為0,變異數為2的常態分配,即N(0,2)
多元迴歸的分析模式 • 同時分析法(simultaneous multiple regression) • 所有預測變項同時納入迴歸方程式中,對依變項進行預測。 • 強制進入法:在一定顯著水準下,將所有對依變項有解釋能力的預測變項全部納入迴歸方程式,不考慮變項間的關係,計算所有變項的迴歸係數 • 強制淘汰法:在一定顯著水準下,將所有對依變項沒有解釋力的預測變項,不考慮預測變項間的關係,一次全部排除在迴歸方程式之外,再計算所有保留在迴歸方程式中的預測變數的迴歸僄數。
多元迴歸的分析模式 • 逐步分析法(stepwise multiple regression) • 依據預測變項的解釋力的大小,逐步檢視每一個預測變項的影響。 • 順向進入法(forward):首先選用達到顯著水準且具有最大預測力的獨立變項,然後依序納入方程式中,直到所有達到顯著的預測變項全部被納入迴歸方程式中 • 反向淘汱法(backward):將所有預測變項以同時分析法納入迴歸方程式中,然後逐步的將未達到顯著性的預測變項,以最弱、次弱的順序自方程式中排除,直到所有未達顯著的預測變項都被淘汰完畢為止 • 逐步分析法(stepwise):以forward順序納入最具預測力的獨立變項,同時以 backward法檢驗留在方程式中的所有預測變項,若有任何未達顯著水準的預測變項便將其淘汰,是最常用的迴歸分析模式
多元迴歸的分析模式 • 階層分析法 • 預測變項間具有特定的先後關係時,應依研究者的設計,以特定順序來進行分析。 • 例:以性別、社經地位、自尊、焦慮感與努力程度,來預測學業成就時,性別與社經地位是人口統計變項,不受其他預測變項的影響;而自尊與焦慮是情意變項,彼此間具有高度相關,也可能受到其他變項的影饗;因此四個變項可以分成兩個階段,先將人口統計變項強制進入迴歸分析,計算迴歸係數,然後再將情意變項以逐步分析法計算自尊與焦慮的各自預測力。 • 路徑分析
分析程序 • 分析>迴歸方法>線性
由各變項之相關矩陣可知,除了性別與總平均外,各變項之相關達到顯著由各變項之相關矩陣可知,除了性別與總平均外,各變項之相關達到顯著
由模式摘要可知,所有自變項對依變項(學業總平均)的整體解釋力為94.7%;調整後的R平方為90.5%(小樣本)。由模式摘要可知,所有自變項對依變項(學業總平均)的整體解釋力為94.7%;調整後的R平方為90.5%(小樣本)。
由變異數分析表可知,整體迴歸模式達到顯著,F=22.544, p=0.002,表示前述96.7%的迴歸解釋力是具有統計意義。
再由係數分析表可知,缺席次數與期中考成績之B值達到顯著差異。再由係數分析表可知,缺席次數與期中考成績之B值達到顯著差異。
非線性迴歸分析 • 類別資料的迴歸分析 • 自變項為類別變項時,,原無法適用於線性關係分析,如性別、婚姻狀態等,為使類別變項也可以和其他連續變項一起納入迴歸分析模式中進行預測,迴歸分析發展出一套虛擬變項(dummy variable)的方式,在進行迴歸分析之前,將類別變項轉換成連續變項的型態,再依一般程序進行分析。 • 例:婚姻狀態
非線性迴歸分析 • 類別資料的迴歸分析 • 例:婚姻狀態 1:鰥寡 2:離異 3:未婚 4:已婚 因為1~4並非等距尺度,若直接以此類別變項進行迴歸分析,勢將違反線性關係之假設,因此,將性別變項依四個水準分成四個二分變項,每個變項是1表示是,0表示否
參照組(reference group) • 一個具有K個水準的類別變項,可以轉換成K個虛擬變項,然在實際執行迴歸分析時,第K組是K-1組的數值全部為0,故實際只要K-1組,以免造成變項的多元共線性問題 • 未經虛擬處理的水準,即稱為參照組 • 參照組不一定是最後一個水準,而宜取用內容明確清楚,樣本數適中的水準作為參照組。如「其他」就不適合做為參照組;有順序關係時,如教育水準,可以選擇最高等級、最低或中間等級,作為參照組
非線性迴歸分析 • 程序 分析 > 迴歸方法 >曲線估計
由上圖可知,線性估計(綠線)無法符合觀察值的分佈狀況;二次曲線的估計(紅線)最符合觀察值的分佈狀況。由上圖可知,線性估計(綠線)無法符合觀察值的分佈狀況;二次曲線的估計(紅線)最符合觀察值的分佈狀況。
由於二次曲線最符合觀察值的分佈,故焦慮變項應以二次式模型來解釋績效表現。由於二次曲線最符合觀察值的分佈,故焦慮變項應以二次式模型來解釋績效表現。 • 整體迴歸解釋力R2為0.852(R Square);換句話說,焦慮可以解釋績效表現達85.2%的變異量(F=20.1, P<0.01)。二次項的標準化迴歸係數(Beta)為-4.17,t=-4.395, p<0.01; 一次項的標準化迴歸係數(Beta)為3.46, t=3.64, p<0.01。
自我效能感 成就動機 學業表現 社會期待 路徑分析(Path Analysis) • 多重變項間之因果關係結構模式 • 變項必須是連續變數 • 路徑圖(Path diagram),用以描繪變項間之關係,如:
假設1:自我效能感與社會期待影響個人的成就動機假設1:自我效能感與社會期待影響個人的成就動機 自我效能感 成就動機 學業表現 社會期待 • 多元迴歸 • 依變項:成就動機 • 自變項:自我效能感、社會期待
假設2:自我效能感、社會期待與成就動機影響學業表現假設2:自我效能感、社會期待與成就動機影響學業表現 自我效能感 成就動機 學業表現 社會期待 • 多元迴歸 • 依變項:學業表現 • 自變項:自我效能感、社會期待、成就動機
假設3:自我效能感與社會期待具有相關 自我效能感 成就動機 學業表現 社會期待
外衍變項(exogenous variable),僅作為自變項者,如前例之社會期待,其不受其他變項的影響,其變異量由不屬於路徑模型的其他變項所決定。 • 外衍變項間可能具有相關,也可能相互獨立,但是其關係並不影響路徑模型內的因果關係
內衍變項(endogenous variable)僅作為依變項,如前例之學業表現,其變異量完全由路徑模型中的其他變項的線性組合所決定。 • 成就動機兼具自變項與依變項的雙重身份,然其變異量由路徑模式中的自我效能感和社會期待兩因素所決定,亦為內衍變項。
自我效能感 成就動機 學業表現 社會期待 • 直接效果與間接效果 .29** .63*** .21** .13* .02 .16* 自我效能對成就動機和學業表現,均有直接效果,路徑分數分別為0.29 (p<0.01)與0.63 (p<0.001);同時成就動機對學業表現亦有顯著的直接效果(beta=0.21, p<0.01)。因此,自我效能對學業表現的影響,除了具有直接效果之外,尚具有一由成就動機中介的間接效果,其強度為兩個直接效果的乘積(0.21*0.63=0.18)
至於社會期待,其對成就動機的預測力不足(beta=0.02, n.s.),直接效果不明顯,但是對於學業表現仍具有直接預測力(beta=0.16, p<0.05),但是社會期待無法藉由成就動機來間接影響學業成績