1 / 28

Model building

Model building. Variable choice Residual analysis Form of model Build a model with qualitative variables. 一、 Variable Choice. 檢定 X k 是否可自模式中剔除的方法 :. H 0 : β k =0 ( 其它 β i ≠0) , H 1 : β k ≠0. 方法一 : t-test 參考報表 mreg_fat. 方法二 : Partial F-test.

anila
Download Presentation

Model building

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Model building • Variable choice • Residual analysis • Form of model • Build a model with qualitative variables

  2. 一、Variable Choice 檢定 Xk 是否可自模式中剔除的方法: H0: βk=0 ( 其它βi≠0) , H1: βk≠0. 方法一 : t-test 參考報表 mreg_fat 方法二 : Partial F-test 若檢定結果為不顯著,意指當模式含有其它 Xi時,Xk對 Y 的影響不顯著 註 : F-test 與 t-test 為等價的方法.

  3. PearsonCorrelationCoefficients,N=20 X1 X2 X3 Y X1表皮厚度 1.00000 0.92384 0.45778 0.84327 X2大腿周長 0.92384 1.00000 0.08467 0.87809 X3上臂粗 0.45778 0.08467 1.00000 0.14244 Y脂肪量 0.84327 0.87809 0.14244 1.00000 Multicollinearity 當預測變數間高度相關時,對迴歸式的估計可能造成誤判,則稱此現象為多元共線性現象。 例:尋求解釋人體脂肪成因之迴歸式 Correlation Matrix: 注意: X1與 X2高度相關

  4. 各模式的係數及顯著性 表皮厚度 大腿周長 上臂粗 注意:1. 加入X1至 X2 模式,顯著 p值 明顯改變 2. 加入X1至 (X2 ,X3) 模式,係數與 p值有明顯改變 3. 加入X2至 (X1, X3) 模式,係數與 p值有明顯改變

  5. 多元共線性存在的影響 : 1. 增加或刪除一預測變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。 選擇合適的預測變數,才能得到合適的迴歸式

  6. 選擇預測變數 目的:假設有 P 個與Y相關的潛在預測變數,希望由其中選取最少量個預測變數,得到一足以解釋 Y 變量的迴歸式 評估迴歸模式的測值 :Ra2, Cp, AIC, SBC, PRESS。 • AIC, SBC criterion • AICp = n ln(SSEp) – n ln(n) + 2p • SBCp = n ln(SSEp) – n ln(n) + ln(n) p ﹡ AIC: Akaike’s information criterion SBC: Schwarz infromation criterion AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳

  7. 自動搜尋程序: 前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression) 逐步迴歸 (Stepwise regession) 依據partial F-test加入潛在預測變數中對Y 有顯著影響者,在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯著者;直到模式中每一預測變數對Y的邊際影響顯著,模式外每一預測變數對 Y邊際影響不顯著為止。 前進選擇法只考慮增加X變數,不考慮剔除X變數。 後退選擇法只考慮剔除X變數,不考慮增加X變數。

  8. SAS/EG 使用:在 model 項中的 model selection 鉤選屬意的方法,詳細步驟參考SAS報表out,以下為 stepwise regression 步驟之一範例。 Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001 2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001 3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001 4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001 5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442

  9. 二、Residual analysis 以考慮的模式做推論之前,應先檢查模式對資料的適當性,通常以殘差為工具,稱為殘差分析。 • 此模式含有四項假設 : 線性、同變異性、獨立性、及常態性。 • 由差殘可檢視模式是否違背上列假設 • 檢視方法分為圖形觀察及統計檢定。 模式 Yi = β0 + β1 Xi + εi , εi ~ NID( 0, σ2)

  10. 殘差圖 以殘差或 t 化殘差為縱軸的分散圖,或分佈圖稱為的殘差圖。 (student residual:以 MSE 為標準差,將 ei標準化得到的值,應介於 -3 與 3之間) • 殘差圖種類 : • t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。 • 對Y、對 X的殘差圖。 2 0 -2 典型 t 化殘差圖:

  11. 社區相館例之殘差常態機率圖 :

  12. 殘差圖:

  13. 殘差圖分析 偏離情況 殘差圖形狀 範例 1. 非直線模式 X殘差圖呈曲線 fig1 2. 變異數非固定值 X殘差圖呈梯形 fig2 3. 離群值存在 X殘差圖, 及殘差盒 形圖出現離群值 fig3 4. 誤差項的不獨立 殘差順序圖分群呈現 (如:時間序列資料) fig4 5. 誤差項非常態性 殘差的常態機率圖 偏離直線

  14. fig1 fig2

  15. fig3 fig4

  16. 使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation),此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。(使用chap 6模式) 【例】 X:產品年銷售量,Y:某公司的年銷售量 X-Y 分散圖: R2=0.999

  17. 殘差圖 (此圖顯示殘差明顯違背獨立性假設)

  18. 資料的自相關現象對迴歸分析結果產生下列現象:資料的自相關現象對迴歸分析結果產生下列現象: • 係數的估計量仍為不偏,但無法達到最小變異數。 • MSE低估真實的誤差變異數。 • s.e.{bk}低估係數之標準差。 • t-test,F-test,及confidence interval 無法再直接應用。 Chap 6 的自相關迴歸模式,或 ARIMA模式會處理這現象

  19. 三、Form of model • 一些特殊曲線模式 • 多項式迴歸 ; 如: E(Y) =β0+β1X1+ β2 X12。 • 轉換變數; 如: E(log(Y)) =β0+β1X1+β2 X2 。 • 含交互作用項; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2 。 • 二次完全迴歸式; • 如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2 • 質性預測變數 ; 如: E(Y) =β0+β1X1+β2 X2,X1 = 0 或 1。

  20. 時間序列模式 1、Linear Trend model: Yt =β0+β1 t+ εt 2、Quadratic Trend model: Yt =β0+β1 t + β2 t2 + εt 3、Exponential model: 可利用ln轉換為線性 (將資料 Y, t 轉換為 ln(Y), ln(t),再執行迴歸分析) 4、S-Shaped Model logistic function 利用轉換可為線性模式

  21. 例:The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit?

  22. Parameter Estimates Variable Label DF ParameterEstimate StandardError t Value Pr > |t| Type I SS Intercept Intercept 1 17.4 0.308 56.53 <.0001 9743 time 時間 1 -0.157 0.129 -1.22 0.2339 136 tsq 平方 1 -0.0338 0.016 -2.11 0.0448 67.1 tcu 三次方 1 0.00327 0.000747 4.37 0.0002 2.40 t4 四次方 1 -0.00005882 0.00001159 -5.07 <.0001 2.01 先後執行直線,二次,三次及四次迴歸式 直線,二次,三次的殘差圖: 四次的參數估計及顯著性檢定:

  23. 直線,二次,三次及四次迴歸的判定係數 以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。若以四次式預估,得對一次的F檢定是不顯著的,且三次式的殘差圖並無曲線趨勢,由二次到四次,R2的增加率都不明顯,故以三次式預估年需求量是較適當的。

  24. Parameter Estimates Variable Label DF ParameterEstimate StandardError t Value Pr > |t| Intercept Intercept 1 18.5 0.315 58.67 <.0001 time 時間 1 -0.735 0.0840 -8.76 <.0001 tsq 平方 1 0.0445 0.00605 7.36 <.0001 tcu 三次方 1 -0.000497 0.000124 -4.00 0.0004 迴歸式為: Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807 配適圖:

  25. 四、Qualitative variable model 數量變數 Quantitative :所得、年齡、溫度、資產、…等。 質性變數 Qualitative :性別、購買狀態、職業分類、…等。 在迴歸分析中,必需將質性變數量化,以0或1的指標變數表示之。 註: 指標變數( Indicator variable )是以 0 或 1 識別一質性變數的各組,又稱為虛變數( Dummy variable) 一個具 c 項分組的質性變數可用 c-1 個指標變數表示,每一 指標變數均取值 0 或 1 。

  26. 季別時間序列應用 例 : 季別銷貨量 (Y)對季別廣告支出 (X1) 建立一迴歸模式。 需要三個指標變數,定義 : X2 = 1,若為第一季,X2 = 0,其他。 X3 = 1,若為第二季,X3 = 0,其他。 X4 = 1,若為第三季,X4 = 0,其他。

  27. 模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季:模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季: 相對於第四季,β2為第一季的影響,β3為第二季的影響,β4為第三季的影響。

More Related