680 likes | 1.31k Views
十一、簡單相關與簡單直線回歸分析 (Simple Correlations and Simple Linear Regression ). 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw. 例 2 :成人年齡與血液中膽固醇的量. 例 1 :氮肥用量與水稻穀收量表 ( 公斤 ). 例 3 :年雨量與小麥產量. 氮肥用量與稻穀收量的 Scatter Plot. (mg/ml). 年齡與膽固醇量的 Scatter Plot. ( 公斤 /100). 年雨量與小麥產量的 Scatter Plot.
E N D
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression ) 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw
例2:成人年齡與血液中膽固醇的量 • 例1:氮肥用量與水稻穀收量表(公斤) • 例3:年雨量與小麥產量
(mg/ml) 年齡與膽固醇量的Scatter Plot
(公斤/100) 年雨量與小麥產量的Scatter Plot
探討兩個變數之間的關係 • 問題: 兩個變數間是否存在直線關係? 將直線關係以方程式表示 資料型態( xi , yi ) • 假定(Assumption) • 每對資料均為獨立 • 常態 • 相同變方 • X與Y的關係為直線
簡單關係數(Simple correlation coefficient) • 簡單直線回歸(Simple Linear Regression) • 模式建立之推論(Models and Inference) • 回歸模式直線性檢定(Evaluation of Linearity) • 假定之確認(Checking the Model Assumptions)
y μy μy μy μχ μχ μχ (c) ρ= 0 無相關 (a) ρ> 0 正相關 (b) ρ< 0 負相關 圖11.8b 三種不同族群相關散播圖
正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數 • 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 • 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數
族群簡單相關係數: (x1,y1) …(xN,yN) ,-1<ρ<1
樣品簡單相關係數 樣品資料:(x1,y1), …, (xn,yn) • 乘積和: • X平方和: • Y平方和: ,r 之範圍:1 ≦ r ≦-1
r = 1 r = -1 y y x x (a)完全正相關 (b)完全負相關
0 < r < 1 -1 < r < 0 y y x x (a)不完全正相關 (b)不完全負相關
r = 0 r = 0 y y x x (a)無相關 (b)曲線關系
簡單相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 顯著水準:α 檢定統計值: 決策方法: 若|T|>t α/2,n-2 拒絕H0
簡單直線回歸(Simple Linear Regression) • 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)
y β0 0 The Simple Linear Regression Model (Here β1 > 0) An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x
假定(Assumptions) : • 獨立性(Independent) • 常態性(Normality) • 直線關係(Linearity) • 相同變方(homogeneity of Variance) 無數條直線可描述X與Y的關係 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明
yi e5 e4 e6 e3 e1 e2 xi 圖11.4 回歸直線與殘差圖
為當獨立之變數為xi時依 變數之最小平方推測平均值 斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 殘差估算值
計算推測直線回歸方程式 • 所需統計值 例:成人年齡與血液膽固醇含量
假定 • 獨立性 • 常態性 • 直線關係 • 相關變方 • 殘差εi為常態分布 • 族群平均值為0 • 族群變方為σ2
12.4=Observed value of y when x=32.5 y The mean fuel consumption when x=32.5 The mean fuel consumption when x=45.9 9.4=Observed value of y when x=45.9 Population of y values when x=32.5 The straight line defined by the equation μy∣x =β0+ β1x (the line of means) Population of y values when x=45.9 X 32.5 45.9 An Illustration of the Model Assumptions
σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2
斜率 • H0:β=0 V.S. Ha:β≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|Tβ|>tα/2,n-2 拒絕H0 • β之(1-α) %信賴區間
截距 • H0:β0=0 V.S. Ha:β0≠0 • 顯著水準α • 檢定統計值(Test statistic) • 決策方法 若|Tβ0|>tα/2,n-2 拒絕H0 • β0之(1-α) %信賴區間
例:成人體重與膽固醇 • 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |Tβ|=6.7419 > t0.025,10=2.228,拒絕H0 • β之95 %信賴區間
例:成人體重與膽固醇 • 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |Tβ0|=1.2756 < t0.025,10=2.228 • β0之95 %信賴區間
Y X 獨立變數 回歸變方分析表 不可由x解釋之變異 總變異 可由x解釋之變異
總變異=可由x所解釋變異+不可由x解釋變異 總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)
例:成人年齡與膽固醇 • SST = Syy = 54001.7825 • SSR = b × Sxy=(5.65025) ×(7558.15) =42705.4370 • SSE = SST - SSR =51000.7825-42705.4370 =9395.3455
決定係數(Coefficient of Determination) • R2 = 決定係數 =可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 • 當只有一個獨立變數時 R2 = (相關係數)2=n2
例:成人體重與膽固醇 F = 420705.4370 / 939.53455 = 45.4530 , F0.05,10=4.9646 拒絕H0 F = 45.4530 = (6.7419)2=(Tβ)2 R2 = SSR / SST =42705.4370 / 52100.7825 =0.8197 =(0.9054)2
例:成人年齡與膽固醇 • 年齡為55歲之膽固醇分佈平均值的估算值 • 95%信賴區間
例:成人年齡與膽固醇 • 年齡為55歲之膽固醇的觀測值 • 95%信賴區間
直線性檢定(Test for Linearity) • 獨立變數下的依變數必須有重複