330 likes | 894 Views
第十八章 迴歸分析. 一般線性迴歸模型 (GLM). 資料: ( y i , x i1 , ……, x ip ) i=1,….,n 模式: Y i = β 0 + β 1 X i1 +…….+ β p X ip + ε i , i=1,….,n 其中 Y i 為依變數 (dependent var.) β 0 為截距 (intercept)
E N D
第十八章 迴歸分析 一般線性迴歸模型(GLM) 資料: (yi , x i1 , ……, x ip ) i=1,….,n 模式: Yi = β0+ β1X i1 +…….+ βpX ip+ εi, i=1,….,n 其中 Yi 為依變數 (dependent var.) β0 為截距 (intercept) β1, …, βp為係數 Xij為預測變數 (independent var.) εij為隨機誤差項 (error) 註解: 線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 , 可為數量或質性變數 。E(Y) = β0+ β1X 1 +…….+ βp X p 估計式:Y= b0+ b1X 1 +…….+ bp X p
特殊模式 • 兩個自變數的一階模式; 如: E(Y) =β0+β1X1+β2 X2 • 若 X1 對平均反應的效應和X2 無關, 而 X2對平均反應的效應和 X1 • 無關, 則稱此兩自變數無交互作用 (no interaction), • 即自變數對反應變數的效應是可加的 , 或無交互作用的。 • 迴歸係數的意義 • 參數β1:經過 X2調整,平均反應(Y)隨 X1之每一單位增加而改變的量。 • 參數β2:經過 X1調整,平均反應(Y)隨 X2之每一單位增加而改變的量。 • 兩個自變數含交互作用項的一階模式; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2
二次完全迴歸式; • 如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2 • E(Y)為一曲面, 稱為 regression surface 或 response surface • 多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12 • 轉換變數迴歸式; 如: E(log(Y)) =β0+β1X1+β2 X2 • E(Y) =β0+ β1 log(X1) + β2 X22
變異數分析表 變異來源 SS df MS F p-value 迴 歸 SSR p MSR F*=MSR / MSE p 誤 差 SSE n-p-1 MSE 合 計 SSTO n-1 註: F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯 p >α, 則結論為迴歸式不顯著。 p <α, 則結論為迴歸式顯著。
決定係數(coef. of determination, R2) 說明: 1. R2表示 Y 之總變異中由 X1,…,Xp解釋的比例 2. 0≦R2≦1 3. R2值的大小通常代表迴歸式解釋程度的多少。 • 評論 : • 增加 X 變數個數 , 一定使 R2值增加 。 • 高的 R2 值並不一定表示配套的模式適合 。 • 有些學者建議以 X 變數個數調整後的校正判定係數( Ra2) 為比較標準 。
預測變數相關性的影響: • 由簡單相關係數矩陣可以看出變數間相關性之強度。 • 由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關; 若 p-值 < α,結論為顯著相關。 • 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共線性的現象存在,此時迴歸式的不準度性很高,應做修正。(p483) 見例18.3b • 相關係數與決定係數: • 相關係數量測兩變數間單純的相關性強度。 • 決定係數量測一變數與其他多個變數間的相關性強度。 • 在一個自變數問題上,決定係數是相關係數的平方值。
係數之顯著性與區間估計: 檢定第 i自變數(Xi)對依變數 (Y) 影響之顯著性: H0 : βi = 0 Ha : βi ≠0 由 t-test 得到 p-值,若 p-值 < α,結論為經由其它變數的調整後,Xi 對 Y 影響顯著。 係數之區間估計: βi 估計範圍在bi ± tα/2;n-p-1 SE{bi}
【例 18.3b】研究某林區樹木之年齡(X1),株高(X2),以及單位面積上株數(X3) 對樹木直徑(Y)的影響。 Data : p481 SPSS_相關性:分析 → 相關 → 雙變數 選擇 Pearson相關係數 SPSS_迴歸:分析 → 迴歸方法 → 線性 指定 依變數 自變數 SAS_相關性: Analysis → Descriptive → Correlation Columns:指定 Correlations variables Correlation: ˇ Pearson SAS_迴歸: Analysis → Regression → Linear Columns:指定 Dependent variables Explanatory variables
變數間相關性 . age, high 對diam的影響較強;treeno 與diam相關性不顯著, age與 high 相關性很強,可能有共線性影響 。
Parameter Estimates Variable Label DF ParameterEstimate StandardError tValue Pr>|t| Intercept Intercept 1 4.33469 0.814 5.32 0.0002 age age 1 -0.13272 0.0869 -1.53 0.1549 high high 1 0.09306 0.0284 3.27 0.0074 treeno treeno 1 -0.000837 0.000919 -0.91 0.3820 考慮三個自變數的迴歸分析 high 的部分貢獻顯著 age 與treeno 的部分貢獻不顯著
Parameter Estimates Variable Label DF ParameterEstimate StandardError tValue Pr>|t| Intercept Intercept 1 3.82668 0.58865 6.50 <.0001 age age 1 -0.12565 0.08594 -1.46 0.1694 high high 1 0.08903 0.02789 3.19 0.0078 考慮 age,high 自變數的迴歸分析 high 的部分貢獻顯著 age 的部分貢獻不顯著
high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > |t| Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008 最終迴歸式: 直徑 = 3.59 + .0535 (株高) ,R2 = 0.589 (.0124) 每增高一單位,直徑平均增加0.0535單位。括號內為標準誤。 註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由 stepwise 法將得到相同結果。
模式是否適當 ? 以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸 上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。 殘差 (residual) 殘差, ei ,可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi} 若模式適合 ,則殘差應反映出 εi 的特性. t 化殘差 以 MSE 估計 ei的標準差, 將 ei標準化得到的值。 殘差的特性 : 1. 殘差的平均數 = 0。 2. 殘差的樣本變異數定義為 MSE,是 σ2的不偏估計量。 3. ei*應介於 -3 與 3 之間。
例18.3b 之殘差圖 (Forest Study – p481)
迴歸的模式配適性的檢定----- Lack-of-Fit F Test • 判斷X與Y的關係式是直線或非直線。 • 檢定前提一:對一或多個 X 水準有重複觀測值 (replicates) • 檢定前提二: • 對觀測值 Y 的假設:1、獨立,2、服從常態分佈, • 3、有相同變異數。 • H0:Yi =β0 + β1Xi + εi(呈直線關係) • H1:Yi ≠β0 + β1Xi + εi(未呈直線關係) .
ANOVA 表 註 : SSE = SSLF + SSPE, SSTO = SSR + SSE 使用 SAS 軟體執行欠合性檢定: 在data內增加一分組序號的變數 lof = 1 2 3 ….. Type I lof 的檢定即是缺失性的檢定,若檢定 結果是直線模式適合,可以迴歸得到估計的直線。
Lack-of-Fit Data for SAS
【Exp 18.6.b】研究年齡與血壓之關係 (p428) Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146 Root MSE 4.31514 R-Square 0.9409 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001
ANOVA 表 由 Lack-of-fit test 得到 F = 1.04,p-value = .4146 > 0.05, 結論為在α=.05 下,直線模式適合。 由迴歸得: 血壓 = 85.5 + 0.98 (年齡),R2 = 0.94, (.0536) 年齡增加一歲,估計血壓增加 0.98。
邏輯迴歸模式(Logistic Regression model) --- 以影響變因預估某狀況發生之機率 ( p487) 特性:依變數(Y) 為二分類的反應數,以 1及 0 代表。 Model: Yi = E{Yi} + εi 此 Model 稱為 logistic regression model
可由最大概似估計法估計β0 及β1,迴歸式之圖可能如下。
【Exp 18.6.1】研究年齡與患CHD之關係 (p489) 由年齡估計患病率
SPSS_邏輯迴歸:分析 → 迴歸→ 二元 Logistic 指定 依變數 共變數,或選項中的類別變數 SAS_邏輯迴歸: Analysis → Regression → Logistic Columns:指定 Dependent variables (可選擇目標項) Quantitative variables Classification variables Frequency variabl Statistics : ˇ logit
SAS 報表 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132
(1) 適合性測驗: Wald test 得 p-值 < 0.05,年齡的影響顯著。 (2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 (年齡) 58歲患病率估計 42歲患病率估計為 0.279 (3) 勝算比(odds ratio,OR ) 或相對危險率之估計: OR = exp(0.0881) = 1.092 . 年齡增加一歲患CHD之勝算(風險)是原來的1.09 倍
【Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮 (p498) Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621
(1) 適合度測驗: Wald test 得 p-值 < 0.05, X1 ,X2的影響顯著。 (2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2 發生率 (3) 勝算比: X1:OR = 48.1,經傳遞速率調整,空氣體積每增加一, 血管收縮之風險是原來的 48.1倍 X2:OR = 14.0,經空氣體積調整,傳遞速率每增加一, 血管收縮之風險是原來的14倍