650 likes | 1.28k Views
第十三章 簡單線性迴歸分析 -3. Simple Linear Regression -3. 學習目標. 複習 ----- 2. 今日內容 -----. 簡單線性迴歸分析 - 1 、 2 簡單線性迴歸分析 - 3. 簡單線性迴歸分析 - 1 1. 簡單線性迴歸模型 ----- 迴歸模型參數之估計 模型各變異量的估計 ----- ANOVA 表. 簡單線性迴歸分析 - 2 3. 估計誤差項的變異情形 4. 決定係數的計算與解釋 ----- R 2 ( 或是 r 2 ). 學習目標 ( 複習 — 重點內容 ).
E N D
第十三章簡單線性迴歸分析-3 Simple Linear Regression -3
學習目標 • 複習 ----- • 2. 今日內容 ----- 簡單線性迴歸分析- 1 、 2 簡單線性迴歸分析- 3
簡單線性迴歸分析- 1 1. 簡單線性迴歸模型----- 迴歸模型參數之估計 模型各變異量的估計----- ANOVA 表 簡單線性迴歸分析- 2 3. 估計誤差項的變異情形 4. 決定係數的計算與解釋 ----- R2 (或是r2 ) 學習目標 (複習—重點內容)
學習目標 (今日內容) 評估衡量所建立的模型 簡單線性迴歸分析- 3 • 5. 驗證迴規模型成立的假設 • 6. 迴歸斜率係數的檢定 • 7. 電腦使用及報表的解讀
迴歸模型使用時的步驟Regression Modeling Steps • 1. 事先決定反應變數與獨立變數間的模式 • 2. 估計模式的參數 • 3. 模式中誤差項的機率分配之描述 • 5. 利用模式做估計或預測工作 • 4. 評估衡量所建立的迴歸模型 • 驗證迴規模型成立的假設 • 迴歸斜率係數的檢定 F
驗證迴規模型成立的假設 • (1)複習----- 簡單線性迴歸模型 • (2) 了解----- 線性迴歸成立的假設 • (3) 驗證----- 殘差分析
簡單線性迴歸模型 • 獨立變數X和反應變數Y之間為線性關係 截距參數 Y-intercept 斜率參數slope 自變數(Independent , explanatory variable) Y = b + b X + e i 0 1 i i 因變數(Dependent response variable) 隨機誤差Random error
簡單線性迴歸模型圖解 觀察值 ei= 隨機誤差 Random error 觀察值
簡單迴歸模型下的母體與樣本 隨機取樣 Random Sample 母體Population 假設母體關係:未知為參數 L $ J $ K $ J $ J $ K $ J $
簡單線性迴歸模型取樣後結果 未取到的觀察值 ei= 殘差 觀察到的誤差 ^ 觀察值 觀察值
隨機誤差的圖形表達 Y ^ e ^ 4 e 2 ^ e ^ e 1 3 X
隨機誤差機率分配示意圖Error Probability Distribution f(e) 不同X值所對應的Y值 均呈現常態分配,而且有相同的變異數 殘差 Y X 1 X 2 X 迴歸直線
線性迴歸成立的假設 • 1.常態 • 每一個X值所相對應的Y值,通常有許多值,這些值之間呈現的為常態分配 • 誤差項ei 的機率分配為常態 • 變異數為固定常數 • 誤差項的變異數為固定常數,通常命名為s2 • 3. 誤差項之間相互獨立
迴歸模型適用前滿足之假設 • 1. 隨機誤差機率分配的平均數為 0 • 2. 隨機誤差機率分配的變異數為固定常數 s2 • 3. 隨機誤差機率分配為常態分配 • 4. 任何隨機誤差間均相互獨立 i.i.d:獨立且為完全相同之分配
殘差分析Residual Analysis • 目的 • 檢驗自變數X值與所對應的因變數Y值是否為線性關係 • 評估是否合乎線性迴歸成立的假設 • 使用殘差的繪圖分析 ( ) • 繪製殘差圖 ( 殘差 vs X, 或Y )
Studentized 殘差 (SR) • 加入了自變數之間的差異考量 • 也考量了自變數與因變數的差異 • 調整了 殘差的大小,反應出樣本點在迴歸線附近的變動 • 可以用來驗證齊一性 -----『變異數是否一致』
【Excel的執行】 • 選項『工具』『資料分析』『迴歸』 • 在產生的對話窗口內,分別輸入所需要的相關資訊,則可以得到「迴歸分析」的結果。
殘差分析 (Excel 例題 一) 你是銘傳熊寶寶的行銷分析人員,根據過去所花廣告費用(千元)與實際銷售量(千個)的樣本,繪製廣告費用與銷售量間的殘差圖 • 【Excel 執行過程】 • 利用 Excel中選項『工具』『資料分析』『迴歸』,所產生的廣告預測費用及殘差如下表:
殘差分析圖 ( 例題二 ) Excel Output
殘差分析 (檢驗獨立性) • Durbin-Watson 統計量 • 檢驗獨立性 • 誤差項之間的獨立性質不成立,此時的現象,稱之為「誤差自我相關」,指的是前後觀察值有相互的影響 。 • DW值須接近2,否則要作『自我相關』的檢測。 • 因為DW附表的限制,n 必須大於 15。
殘差分析 ----- 例題三 由一直線迴歸估計式,所得到的16個殘差平方和 、一階殘差平方和之相關資料如下表 計算Durbin-Watson檢定統計量,並檢定:直線迴歸模型中,誤差項之間的相關性。(=0.05)
Durbin-Watson檢定統計量( 例題三 ) Durbin-Watson檢定統計量 的值 d = =2.8654
查尋Durbin-Watson表格 Finding critical values of Durbin-Watson Statistic
Using the Durbin-Watson Statistic Inconclusive Reject H0(positive autocorrelation) Reject H0(negative autocorrelation) Accept H0 (no autocorrelatin) 0 2 4 dL dU 4-dU 4-dL
DW例題結論 (例題三 ) Durbin-Watson檢定統計量 的值 d =2.8654 查尋Durbin-Watson表格 dL =1.10 dU =1.37 4-dU =2.63 4-dL =2.9 結論: 2.63 < DW (2.8654) < 2.9 無法判斷獨立與否
殘差分析圖 (檢驗獨立性) 誤差項沒有相互獨立 誤差項相互獨立 e e Time Time
學習目標 評估衡量所建立的模型 簡單線性迴歸分析- 3 • 5. 驗證迴規模型成立的假設 • 6. 迴歸斜率係數的檢定 • 7. 電腦使用及報表的解讀
簡單線性迴歸模型 • 獨立變數X和反應變數Y之間為線性關係 截距參數 Y-intercept 斜率參數slope 自變數(Independent , explanatory variable) Y = b + b X + e i 0 1 i i 因變數(Dependent response variable) 隨機誤差Random error
迴歸模型的母數與表達 (continued) bo 與b1為模型的母數(參數、Parameter) (有些課本表為bo) 與 (有些課本表為b1) 則為相對應的估計(統計) 為 bo之估計 為 b1之估計
註: 必在迴歸線上 迴歸模型各係數的預估求解 迴歸直線預估方程式 方程式截距的估計 方程式斜率的估計
迴歸斜率係數的檢定Test of Slope Coefficient • 1. 決定因變數Y與自變數X間是否線性相關 • 2. 檢定線性相關斜率b1 • 3. 虛無與對立假設Hypotheses • H0: b1 = 0 (無線性相關) • H1: b1≠0 (有線性相關) • 4. 以樣本斜率的抽樣分配為理論基礎
斜率係數的檢定統計量Slope Coefficient Test Statistic 檢定統計量 其中 檢定統計量 T具有之抽樣分配是t-分配,自由度= n-2
斜率係數的檢定決策 決策:檢定統計量的值是否落在拒絕域。當檢定統計值落在拒絕域,表示無法接受H0(拒絕H0)。
線性斜率係數檢定例 (例題四) • 你是銘傳熊寶寶的行銷分析人員, 已知 • b0 = -.1,b1 = .7 且MSE = 0.36667。 • 廣告費銷售量 1 1 2 1 3 2 4 2 5 4 • 以顯著水準.05下檢定銷售量與 • 廣告費間是否線性相關?
斜率係數檢定Test of Slope Parameter 5. 在Ho的Test Statistic: 6. Decision: • 1. H0: b1 = 0 • 2. H1: b1≠ 0 • 3. a=.05 • df =5 - 2 = 3 • 4. Critical Value(s): 在 a = .05拒絕H0 結論:兩者之間存在著顯著的線性相關
Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Param=0 Prob>|T| INTERCEP 1 -0.1000 0.6350 -0.1570.8849 ADVERT 1 0.7000 0.1914 3.6560.0354 使用電腦結果分析斜率的檢定 ^ ^ Sb ^ t* = bk/ Sb ^ bk k k p-value
斜率係數檢定例 (例題五) – 1/3 Data for Seven Stores: Estimated Regression Equation: Annual Store Square Sales Feet ($000) 1 1,726 3,681 2 1,542 3,395 3 2,816 6,653 4 5,555 9,543 5 1,292 3,318 6 2,208 5,563 7 1,313 3,760 Yi = 1636.415 +1.487Xi The slope of this model is 1.487. Q:店面大小是否會 影響年銷售量?
H0: 1 = 0 H1: 1 0 .05 df7 - 2 = 5 Critical Value(s): 斜率係數檢定例 (例題五) – 2/3 Test Statistic: Decision: Conclusion: From Excel Printout 拒絕H0 Reject Reject .025 .025 店面大小會影響銷售量 t -2.5706 0 2.5706
斜率係數檢定例 (例題五) – 3/3 斜率係數的信賴區間: Excel 執行結果 斜率係數的95%信賴區間 = (1.062, 1.911). 沒有包含 0; 結論: 拒絕H0,表示 店面大小會影響年銷售量
斜率係數檢定: F –檢定 • 探討問題:因變數Y受到自變數X的線性影響? • 統計假設 • H0: 1 = 0 (沒有線性關係) • H1: 1 0 (有線性關係) • F- 檢定統計量 • 分子 d.f.=1, 分母 d.f.=n-2
斜率係數檢定決策: F –檢定 • 利用F-統計量所作的決策如下:(在特定顯著水準之下) • F-臨界值= ,當檢定統計量f值> F-臨界值,則拒絕H0,表示迴歸模型適合描述此類自變數與依變數間的關係。另外,我們也可以計算P-值= P(F>f),並作決策:當P-值<,則拒絕H0;其中,f為F檢定統計量的樣本值。