1 / 27

一般線性迴歸模型 (GLM)

第十八章 迴歸分析. 一般線性迴歸模型 (GLM). 資料: ( y i , x i1 , ……, x ip ) i=1,….,n 模式:  Y i = β 0 + β 1 X i1 +…….+ β p X ip + ε i , i=1,….,n 其中 Y i 為依變數 (dependent var.) β 0 為截距 (intercept)

reidar
Download Presentation

一般線性迴歸模型 (GLM)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第十八章 迴歸分析 一般線性迴歸模型(GLM) 資料: (yi , x i1 , ……, x ip ) i=1,….,n 模式: Yi = β0+ β1X i1 +…….+ βpX ip+ εi, i=1,….,n 其中 Yi 為依變數 (dependent var.) β0 為截距 (intercept) β1, …, βp為係數 Xij為預測變數 (independent var.) εij為隨機誤差項 (error) 註解: 線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 , 可為數量或質性變數 。E(Y) = β0+ β1X 1 +…….+ βp X p 估計式:Y= b0+ b1X 1 +…….+ bp X p

  2. 特殊模式 • 兩個自變數的一階模式; 如: E(Y) =β0+β1X1+β2 X2 • 若 X1 對平均反應的效應和X2 無關, 而 X2對平均反應的效應和 X1 • 無關, 則稱此兩自變數無交互作用 (no interaction), • 即自變數對反應變數的效應是可加的 , 或無交互作用的。 • 迴歸係數的意義 • 參數β1:經過 X2調整,平均反應(Y)隨 X1之每一單位增加而改變的量。 • 參數β2:經過 X1調整,平均反應(Y)隨 X2之每一單位增加而改變的量。 • 兩個自變數含交互作用項的一階模式; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2

  3. 二次完全迴歸式; • 如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2 • E(Y)為一曲面, 稱為 regression surface 或 response surface • 多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12 • 轉換變數迴歸式; 如: E(log(Y)) =β0+β1X1+β2 X2 • E(Y) =β0+ β1 log(X1) + β2 X22

  4. 變異數分析表 變異來源 SS df MS F p-value 迴 歸 SSR p MSR F*=MSR / MSE p 誤 差 SSE n-p-1 MSE 合 計 SSTO n-1 註: F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯 p >α, 則結論為迴歸式不顯著。 p <α, 則結論為迴歸式顯著。

  5. 決定係數(coef. of determination, R2) 說明: 1. R2表示 Y 之總變異中由 X1,…,Xp解釋的比例 2. 0≦R2≦1 3. R2值的大小通常代表迴歸式解釋程度的多少。 • 評論 : • 增加 X 變數個數 , 一定使 R2值增加 。 • 高的 R2 值並不一定表示配套的模式適合 。 • 有些學者建議以 X 變數個數調整後的校正判定係數( Ra2) 為比較標準 。

  6. 預測變數相關性的影響: • 由簡單相關係數矩陣可以看出變數間相關性之強度。 • 由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關; 若 p-值 < α,結論為顯著相關。 • 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共線性的現象存在,此時迴歸式的不準度性很高,應做修正。(p483) 見例18.3b • 相關係數與決定係數: • 相關係數量測兩變數間單純的相關性強度。 • 決定係數量測一變數與其他多個變數間的相關性強度。 • 在一個自變數問題上,決定係數是相關係數的平方值。

  7. 係數之顯著性與區間估計: 檢定第 i自變數(Xi)對依變數 (Y) 影響之顯著性: H0 : βi = 0 Ha : βi ≠0 由 t-test 得到 p-值,若 p-值 < α,結論為經由其它變數的調整後,Xi 對 Y 影響顯著。 係數之區間估計: βi 估計範圍在bi ± tα/2;n-p-1 SE{bi}

  8. 【例 18.3b】研究某林區樹木之年齡(X1),株高(X2),以及單位面積上株數(X3) 對樹木直徑(Y)的影響。 Data : p481 SPSS_相關性:分析 → 相關 → 雙變數 選擇 Pearson相關係數 SPSS_迴歸:分析 → 迴歸方法 → 線性 指定 依變數 自變數 SAS_相關性: Analysis → Descriptive → Correlation Columns:指定 Correlations variables Correlation: ˇ Pearson SAS_迴歸: Analysis → Regression → Linear Columns:指定 Dependent variables Explanatory variables

  9. 變數間相關性 . age, high 對diam的影響較強;treeno 與diam相關性不顯著, age與 high 相關性很強,可能有共線性影響 。

  10. Parameter Estimates Variable Label DF ParameterEstimate StandardError tValue Pr>|t| Intercept Intercept 1 4.33469 0.814 5.32 0.0002 age age 1 -0.13272 0.0869 -1.53 0.1549 high high 1 0.09306 0.0284 3.27 0.0074 treeno treeno 1 -0.000837 0.000919 -0.91 0.3820 考慮三個自變數的迴歸分析 high 的部分貢獻顯著 age 與treeno 的部分貢獻不顯著

  11. Parameter Estimates Variable Label DF ParameterEstimate StandardError tValue Pr>|t| Intercept Intercept 1 3.82668 0.58865 6.50 <.0001 age age 1 -0.12565 0.08594 -1.46 0.1694 high high 1 0.08903 0.02789 3.19 0.0078 考慮 age,high 自變數的迴歸分析 high 的部分貢獻顯著 age 的部分貢獻不顯著

  12. high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > |t| Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008 最終迴歸式: 直徑 = 3.59 + .0535 (株高) ,R2 = 0.589 (.0124) 每增高一單位,直徑平均增加0.0535單位。括號內為標準誤。 註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由 stepwise 法將得到相同結果。

  13. 模式是否適當 ? 以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸 上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。 殘差 (residual) 殘差, ei ,可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi} 若模式適合 ,則殘差應反映出 εi 的特性. t 化殘差 以 MSE 估計 ei的標準差, 將 ei標準化得到的值。 殘差的特性 : 1. 殘差的平均數 = 0。 2. 殘差的樣本變異數定義為 MSE,是 σ2的不偏估計量。 3. ei*應介於 -3 與 3 之間。

  14. 例18.3b 之殘差圖 (Forest Study – p481)

  15. 迴歸的模式配適性的檢定----- Lack-of-Fit F Test • 判斷X與Y的關係式是直線或非直線。 • 檢定前提一:對一或多個 X 水準有重複觀測值 (replicates) • 檢定前提二: • 對觀測值 Y 的假設:1、獨立,2、服從常態分佈, • 3、有相同變異數。 • H0:Yi =β0 + β1Xi + εi(呈直線關係) • H1:Yi ≠β0 + β1Xi + εi(未呈直線關係) .

  16. ANOVA 表 註 : SSE = SSLF + SSPE, SSTO = SSR + SSE 使用 SAS 軟體執行欠合性檢定: 在data內增加一分組序號的變數 lof = 1 2 3 ….. Type I lof 的檢定即是缺失性的檢定,若檢定 結果是直線模式適合,可以迴歸得到估計的直線。

  17. Lack-of-Fit Data for SAS

  18. 【Exp 18.6.b】研究年齡與血壓之關係 (p428) Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146 Root MSE 4.31514 R-Square 0.9409 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001

  19. ANOVA 表 由 Lack-of-fit test 得到 F = 1.04,p-value = .4146 > 0.05, 結論為在α=.05 下,直線模式適合。 由迴歸得: 血壓 = 85.5 + 0.98 (年齡),R2 = 0.94, (.0536) 年齡增加一歲,估計血壓增加 0.98。

  20. 邏輯迴歸模式(Logistic Regression model) --- 以影響變因預估某狀況發生之機率 ( p487) 特性:依變數(Y) 為二分類的反應數,以 1及 0 代表。 Model: Yi = E{Yi} + εi 此 Model 稱為 logistic regression model

  21. 可由最大概似估計法估計β0 及β1,迴歸式之圖可能如下。

  22. 【Exp 18.6.1】研究年齡與患CHD之關係 (p489) 由年齡估計患病率

  23. SPSS_邏輯迴歸:分析 → 迴歸→ 二元 Logistic 指定 依變數 共變數,或選項中的類別變數 SAS_邏輯迴歸: Analysis → Regression → Logistic Columns:指定 Dependent variables (可選擇目標項) Quantitative variables Classification variables Frequency variabl Statistics : ˇ logit

  24. SAS 報表 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132

  25. (1) 適合性測驗: Wald test 得 p-值 < 0.05,年齡的影響顯著。 (2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 (年齡) 58歲患病率估計 42歲患病率估計為 0.279 (3) 勝算比(odds ratio,OR ) 或相對危險率之估計: OR = exp(0.0881) = 1.092 . 年齡增加一歲患CHD之勝算(風險)是原來的1.09 倍

  26. 【Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮 (p498) Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621

  27. (1) 適合度測驗: Wald test 得 p-值 < 0.05, X1 ,X2的影響顯著。 (2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2 發生率 (3) 勝算比: X1:OR = 48.1,經傳遞速率調整,空氣體積每增加一, 血管收縮之風險是原來的 48.1倍 X2:OR = 14.0,經空氣體積調整,傳遞速率每增加一, 血管收縮之風險是原來的14倍

More Related