840 likes | 1.45k Views
第十一章 . 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation. 迴歸模式的建立與檢定 決定係數的意義 簡單相關的意義 相關係數的性質與檢定 迴歸與相關的應用要點. * 迴歸分析的意義. 迴歸分析的意義. 簡單直線迴歸分析 (simple regression analysis) : 利用一個變數來預測 ( 或解釋 ) 另一個變數,並找出兩個變數間的關係模式。 如氮肥施用量與稻穀產量的關係、氣溫高低與飲料銷售量的關係、雨量與小麥產量的關係、成人年齡與血液中膽固醇含量的關係等。
E N D
第十一章. 簡單直線迴歸與簡單相關Simple Linear Regression and Simple Correlation 迴歸模式的建立與檢定 決定係數的意義 簡單相關的意義 相關係數的性質與檢定 迴歸與相關的應用要點 *迴歸分析的意義
迴歸分析的意義 • 簡單直線迴歸分析(simple regression analysis): 利用一個變數來預測(或解釋)另一個變數,並找出兩個變數間的關係模式。 • 如氮肥施用量與稻穀產量的關係、氣溫高低與飲料銷售量的關係、雨量與小麥產量的關係、成人年齡與血液中膽固醇含量的關係等。 • 主要是探討變數間的相關性(relationship)。
例2:成人年齡與血液中膽固醇含量 • 例1:氮肥用量與水稻穀收量表(公斤) • 例3:年雨量與小麥產量
(mg/ml) 人年齡與膽固醇量的分布圖
(公斤/100) 年雨量與小麥產量的分布圖
簡單直線回歸(Simple Linear Regression) • 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因造成 實際迴歸模式 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)
y β0 0 The Simple Linear Regression Model (Here β1 > 0) An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x
假定(Assumptions) : • 獨立性(Independent) • 常態性(Normality) • 直線關係(Linearity) • 相同變方(homogeneity of Variance) 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明
為當獨立之變數為xi時依 變數之最小平方推測平均值 斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 殘差估算值
稻穀產量推測值與殘差值表 實測值: 10 18 32 48 55 62 --------------------------------------------------------------------------------------------------------------------------- --------- 推測值:9.86 20.91 31.97 43.03 54.09 65.14 -------------------------------------------------------------------------------------------------------------------------------------- 殘差值: 0.14 –2.91 0.03 4.97 0.91 -3.14
yi e5 e4 e6 e3 e1 e2 xi 圖11.4 回歸直線與殘差圖
成人年齡與血液膽固醇含量推測直線回歸方程式成人年齡與血液膽固醇含量推測直線回歸方程式 例:成人年齡與血液膽固醇含量 • 所需統計值
說明: b=5.65表示年齡增加一歲膽固醇增加5.65單位
σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2
11.4迴歸系數與截距假設檢定(1)t值檢定法(a) 斜率(迴歸系數)是否有意義 • H0:β=0 V.S. Ha:β≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|tβ|>tα/2,n-2 拒絕H0 • β之(1-α) %信賴區間
(b)截距t值檢定 • H0:β0=0 V.S. Ha:β0≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|tβ0|>tα/2,n-2 拒絕H0 • β0之(1-α) %信賴區間
例:氮肥與稻穀收量t值測驗 • 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |tβ|=13.95 > t0.025,4=4.604,拒絕H0 • β之95 %信賴區間
例:氮肥與稻穀收量t值測驗 • 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |tβ0|=4.1095 > t0.025,4=2.776,接受Ha • β0之95 %信賴區間
例 成人年齡與膽固醇t值檢定 • 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |tβ|=6.7419 > t0.025,10=2.228,拒絕H0 • β之95 %信賴區間
例 成人年齡與膽固醇t值檢定 • 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |tβ0|=1.2756 < t0.025,10=2.228
Y X 獨立變數 (2) 回歸分析變方分析法 不可由x解釋之變異 總變異 可由x解釋之變異
總變異=可由x所解釋變異+不可由x解釋變異 總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)
例:氮肥與稻穀收量之變方分析表 • SST = Syy = 2183.50 • SSR = b Sxy=(22.1143) ×(96.75) =2139.56 • SSE = SST - SSR =2183.50-2139.56 =43.94
例:成人年齡與膽固醇 • SST = Syy = 54001.7825 • SSR = b Sxy=(5.65025) ×(7558.15) =42705.4370 • SSE = SST - SSR =51000.7825-42705.4370 =9395.3455
決定係數(Coefficient of Determination) • R2 = 決定係數 =可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 • 當只有一個獨立變數時 R2 = (簡單相關係數)2=r2 (見11.11節)
Y X 獨立變數 決定係數(複相關係數R )圖示 不可由x解釋之變異 總變異 可由x解釋之變異
例:成人體重與膽固醇 F = 420705.4370 / 939.53455 = 45.4530 , F0.05,10=4.9646 拒絕H0 F = 45.4530 = (6.7419)2=(tβ)2 R2 = SSR / SST =42705.4370 / 52100.7825 =0.8197 =(0.9054)2
11.5迴歸直線推測值 及信賴區間估算 • 其 之估算變方及信賴區間公式如下
獨立變數x 推測值y之信賴區間圖
例:氮肥與稻穀收量 • 氮肥為1.75時,稻穀收量分佈平均值的估算值 • 95%信賴區間
例:成人年齡與膽固醇 • 年齡為55歲之膽固醇分佈平均值的估算值 • 95%信賴區間
迴歸直線新推測值 及信賴區間估算 • 其 之估算變方及信賴區間公式如下
例:氮肥與稻穀收量 • 氮肥為2.6時,稻穀收量分佈新估算值 • 95%信賴區間
例:成人年齡與膽固醇 • 年齡為70歲之膽固醇的觀測值 • 95%信賴區間
直線性檢定(Test for Linearity) • 獨立變數下的依變數必須有重複