280 likes | 482 Views
Model building. Variable choice Residual analysis Form of model Build a model with qualitative variables. 一、 Variable Choice. 檢定 X k 是否可自模式中剔除的方法 :. H 0 : β k =0 ( 其它 β i ≠0) , H 1 : β k ≠0. 方法一 : t-test 參考報表 mreg_fat. 方法二 : Partial F-test.
E N D
Model building • Variable choice • Residual analysis • Form of model • Build a model with qualitative variables
一、Variable Choice 檢定 Xk 是否可自模式中剔除的方法: H0: βk=0 ( 其它βi≠0) , H1: βk≠0. 方法一 : t-test 參考報表 mreg_fat 方法二 : Partial F-test 若檢定結果為不顯著,意指當模式含有其它 Xi時,Xk對 Y 的影響不顯著 註 : F-test 與 t-test 為等價的方法.
PearsonCorrelationCoefficients,N=20 X1 X2 X3 Y X1表皮厚度 1.00000 0.92384 0.45778 0.84327 X2大腿周長 0.92384 1.00000 0.08467 0.87809 X3上臂粗 0.45778 0.08467 1.00000 0.14244 Y脂肪量 0.84327 0.87809 0.14244 1.00000 Multicollinearity 當預測變數間高度相關時,對迴歸式的估計可能造成誤判,則稱此現象為多元共線性現象。 例:尋求解釋人體脂肪成因之迴歸式 Correlation Matrix: 注意: X1與 X2高度相關
各模式的係數及顯著性 表皮厚度 大腿周長 上臂粗 注意:1. 加入X1至 X2 模式,顯著 p值 明顯改變 2. 加入X1至 (X2 ,X3) 模式,係數與 p值有明顯改變 3. 加入X2至 (X1, X3) 模式,係數與 p值有明顯改變
多元共線性存在的影響 : 1. 增加或刪除一預測變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。 選擇合適的預測變數,才能得到合適的迴歸式
選擇預測變數 目的:假設有 P 個與Y相關的潛在預測變數,希望由其中選取最少量個預測變數,得到一足以解釋 Y 變量的迴歸式 評估迴歸模式的測值 :Ra2, Cp, AIC, SBC, PRESS。 • AIC, SBC criterion • AICp = n ln(SSEp) – n ln(n) + 2p • SBCp = n ln(SSEp) – n ln(n) + ln(n) p ﹡ AIC: Akaike’s information criterion SBC: Schwarz infromation criterion AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳
自動搜尋程序: 前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression) 逐步迴歸 (Stepwise regession) 依據partial F-test加入潛在預測變數中對Y 有顯著影響者,在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯著者;直到模式中每一預測變數對Y的邊際影響顯著,模式外每一預測變數對 Y邊際影響不顯著為止。 前進選擇法只考慮增加X變數,不考慮剔除X變數。 後退選擇法只考慮剔除X變數,不考慮增加X變數。
SAS/EG 使用:在 model 項中的 model selection 鉤選屬意的方法,詳細步驟參考SAS報表out,以下為 stepwise regression 步驟之一範例。 Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial Model Step Entered Removed In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001 2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001 3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001 4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001 5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442
二、Residual analysis 以考慮的模式做推論之前,應先檢查模式對資料的適當性,通常以殘差為工具,稱為殘差分析。 • 此模式含有四項假設 : 線性、同變異性、獨立性、及常態性。 • 由差殘可檢視模式是否違背上列假設 • 檢視方法分為圖形觀察及統計檢定。 模式 Yi = β0 + β1 Xi + εi , εi ~ NID( 0, σ2)
殘差圖 以殘差或 t 化殘差為縱軸的分散圖,或分佈圖稱為的殘差圖。 (student residual:以 MSE 為標準差,將 ei標準化得到的值,應介於 -3 與 3之間) • 殘差圖種類 : • t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。 • 對Y、對 X的殘差圖。 2 0 -2 典型 t 化殘差圖:
殘差圖分析 偏離情況 殘差圖形狀 範例 1. 非直線模式 X殘差圖呈曲線 fig1 2. 變異數非固定值 X殘差圖呈梯形 fig2 3. 離群值存在 X殘差圖, 及殘差盒 形圖出現離群值 fig3 4. 誤差項的不獨立 殘差順序圖分群呈現 (如:時間序列資料) fig4 5. 誤差項非常態性 殘差的常態機率圖 偏離直線
fig1 fig2
fig3 fig4
使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation),此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。(使用chap 6模式) 【例】 X:產品年銷售量,Y:某公司的年銷售量 X-Y 分散圖: R2=0.999
殘差圖 (此圖顯示殘差明顯違背獨立性假設)
資料的自相關現象對迴歸分析結果產生下列現象:資料的自相關現象對迴歸分析結果產生下列現象: • 係數的估計量仍為不偏,但無法達到最小變異數。 • MSE低估真實的誤差變異數。 • s.e.{bk}低估係數之標準差。 • t-test,F-test,及confidence interval 無法再直接應用。 Chap 6 的自相關迴歸模式,或 ARIMA模式會處理這現象
三、Form of model • 一些特殊曲線模式 • 多項式迴歸 ; 如: E(Y) =β0+β1X1+ β2 X12。 • 轉換變數; 如: E(log(Y)) =β0+β1X1+β2 X2 。 • 含交互作用項; 如: E(Y) =β0+β1X1+β2 X2 +β3X 1 X2 。 • 二次完全迴歸式; • 如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2 • 質性預測變數 ; 如: E(Y) =β0+β1X1+β2 X2,X1 = 0 或 1。
時間序列模式 1、Linear Trend model: Yt =β0+β1 t+ εt 2、Quadratic Trend model: Yt =β0+β1 t + β2 t2 + εt 3、Exponential model: 可利用ln轉換為線性 (將資料 Y, t 轉換為 ln(Y), ln(t),再執行迴歸分析) 4、S-Shaped Model logistic function 利用轉換可為線性模式
例:The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit?
Parameter Estimates Variable Label DF ParameterEstimate StandardError t Value Pr > |t| Type I SS Intercept Intercept 1 17.4 0.308 56.53 <.0001 9743 time 時間 1 -0.157 0.129 -1.22 0.2339 136 tsq 平方 1 -0.0338 0.016 -2.11 0.0448 67.1 tcu 三次方 1 0.00327 0.000747 4.37 0.0002 2.40 t4 四次方 1 -0.00005882 0.00001159 -5.07 <.0001 2.01 先後執行直線,二次,三次及四次迴歸式 直線,二次,三次的殘差圖: 四次的參數估計及顯著性檢定:
直線,二次,三次及四次迴歸的判定係數 以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。若以四次式預估,得對一次的F檢定是不顯著的,且三次式的殘差圖並無曲線趨勢,由二次到四次,R2的增加率都不明顯,故以三次式預估年需求量是較適當的。
Parameter Estimates Variable Label DF ParameterEstimate StandardError t Value Pr > |t| Intercept Intercept 1 18.5 0.315 58.67 <.0001 time 時間 1 -0.735 0.0840 -8.76 <.0001 tsq 平方 1 0.0445 0.00605 7.36 <.0001 tcu 三次方 1 -0.000497 0.000124 -4.00 0.0004 迴歸式為: Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807 配適圖:
四、Qualitative variable model 數量變數 Quantitative :所得、年齡、溫度、資產、…等。 質性變數 Qualitative :性別、購買狀態、職業分類、…等。 在迴歸分析中,必需將質性變數量化,以0或1的指標變數表示之。 註: 指標變數( Indicator variable )是以 0 或 1 識別一質性變數的各組,又稱為虛變數( Dummy variable) 一個具 c 項分組的質性變數可用 c-1 個指標變數表示,每一 指標變數均取值 0 或 1 。
季別時間序列應用 例 : 季別銷貨量 (Y)對季別廣告支出 (X1) 建立一迴歸模式。 需要三個指標變數,定義 : X2 = 1,若為第一季,X2 = 0,其他。 X3 = 1,若為第二季,X3 = 0,其他。 X4 = 1,若為第三季,X4 = 0,其他。
模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季:模式為四平行線,β1為斜率,代表廣告的影響,以下的基準線是第四季: 相對於第四季,β2為第一季的影響,β3為第二季的影響,β4為第三季的影響。