1.03k likes | 1.38k Views
簡單迴歸模型的基本假設. 用最小平方法 (OLS-ordinary least square) 找到一個迴歸式:. Population regression line. 我們假設 在母體中 ,對於每一個 x i 值而言,其相對應的 y i 值遵循某種機率分配,且期望值為. F(Y). Y. 我們假設這些分配有相同的變異數 σ 2. 與 x 相對應的一組 y ,其期望值剛好落在一條直線上. x i. 簡單迴歸模型的基本假設. 我們對於上面的迴歸模型有以下的假設(限制): linearity 依變項 Yi 與自變項之間的關係為線性:
E N D
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
Population regression line 我們假設在母體中,對於每一個xi值而言,其相對應的yi值遵循某種機率分配,且期望值為 F(Y) Y 我們假設這些分配有相同的變異數σ2 與x相對應的一組y,其期望值剛好落在一條直線上 xi
簡單迴歸模型的基本假設 我們對於上面的迴歸模型有以下的假設(限制): linearity依變項Yi與自變項之間的關係為線性: Normality : ei為常態分配 (或依變數為一常態分配)ei~N or Yi~N Zero conditional mean: 對於每個xi,E(ei|Xi)=0 殘差項的平均數為零 Independence of ei and Xi: 殘差值與Xi不相關Cov(ei, X)=0 or E(ei, X)=0
簡單迴歸模型的基本假設 Homoscedasticity: Var(ei) = σ2變異數齊一性 每組的殘差項的變異數均相等。而每一組的變異數實際上是指X=xi條件下的Y之變異數,因此σ2也可以表為σ2Y|X 綜合以上:ei~N(0, σ2)Yi~N(b0+b1Xi, σ2) No serial correlation: ei彼此不相關 Cov(ei, ej)=0 X為一固定變數或事前決定之變數,Y為一隨機變數
簡單迴歸模型的基本假設 • linearity :假設依變項Yi與自變項之間的關係為線性: 我們假設隨機誤差項ei有下列的性質: Normality : ei為常態分配 Zero conditional mean: 對於每個xi,E(ei|xi)=0 Independence of eiand xi: 殘差值與xi不相關 Homoscedasticity: Var(ei) = σ2 No serial correlation: ei彼此不相關
Residuals Sum to Zero 兩邊除以n
E(e|xi) = 0 其他因素與X無關 given X, the mean of the distribution of “other factors” is zero 無論xi為什麼數值,ei的平均值皆為0 F(Y) Y X
No serial correlation: ei彼此不相關 兩個殘差值不相關表示它們彼此之間為獨立(independent),由於我們抽取的是隨機樣本,因此每一個觀察值之間彼此沒有關連。也就是說,某一戶人家的娛樂支出不會影響另一戶人家的育樂支出。
Estimation of σe2 前面我們假設Homoscedasticity: Var(ei) = σ2 每一個相對應於x值的y不但為常態分配,且有相同的變異數σ2 F(Y) Y σ2 σ2 • (Xi, Yi) are independently and identically distributed X
Population regression line 我們假設在母體中,對於每一個xi值而言,其相對應的yi值遵循某種機率分配,且期望值為 F(Y) Y xi
Sample regression line 由於母體參數β0,β1為未知數,因此母體迴歸線必須透過觀察到的樣本(xi, yi)來推估 F(Y) 從樣本中可以推估出β0,β1的估計值,也可以建構出樣本迴歸線 Y 由於觀察到樣本點(xi, yi)不會剛好落在母體迴歸線上,因此yi與E(yi|xi)會有所差距。 X
區分母體與樣本迴歸線 觀念 • 由於我們是從樣本中來估計迴歸線,用來估計迴歸線的截距b0及斜率b1的估計式(estimator)為具有抽樣分配(sampling distribution)的隨機變數。 母體迴歸線 樣本迴歸線
截距與斜率的抽樣分配 觀念 • 我們想進一步知道從樣本中估計的截距b0及斜率b1是不是能夠正確的反映出母體的參數B0及B1。雖然每一次從樣本中估計出來的迴歸線都不同,但我們如果我們知道估計式的抽樣分配,則可以用統計檢定的方式來對我們的樣本參數進行統計的推估。 • 因此我們第一步需要知道為截距b0及斜率b1的抽樣分配為何?也就是說他們的期望值及標準差為何?
迴歸的統計檢定 • 統計檢定包含兩部分: • (1)對截距與斜率的檢定 • (2)迴歸方程式的配適度
區分母體與樣本迴歸線 • 因此每一個實際的觀察值可以表為母體迴歸線的函數或是樣本迴歸線的函數 • 我們經常用可觀察的殘差值ei (residual)來推估未知的εi
截距與斜率的抽樣分配 觀念 • 其中截距β0及斜率β1為參數,xi為已知常數,且 • 由於yi為常態分配的線性組合(εi為常態分配),故yi亦為一常態分配
斜率b1的抽樣分配 觀念 • b1分配的型態為何?E(b1) =? Var(b1)=? =0 由於xi為已知常數,因此b1的分配為常態分配yi的線性組合,故b1為常態分配
斜率b1的抽樣分配 觀念 • E(b1) =?
斜率b1的抽樣分配 觀念 樣本觀察值與平均數之差的總合為零
斜率b1的抽樣分配 觀念 等於零 ∴b1為β1的不偏估計式unbiased estimator
斜率b1的抽樣分配 觀念 常數
斜率b1的抽樣分配 觀念
斜率b1的抽樣分配 觀念
斜率b1的抽樣分配 觀念 從以上的討論得知: b0的抽樣分配證明略 未知數
Estimation of σe2 觀念 • 令真正的變異數(true variance)可分別表為σ2b0及σ2b1。 • 一般而言, σ2b0及σ2b1通常為未知數(因為σ2未知),必須從樣本中估計求得,以符號S2b0及S2b1來表示估計的變異數。同理,我們以σb0及σb1來表示b0及b1的真正標準誤差,以Sb0及Sb1來表示估計的標準誤差(estimated standard error)。
Estimation of σe2 如何估計σ2?一個簡單的方法為利用Sum of Square Error (SSE)來估算
Estimation of σe2 但實際上,因為我們不知道真正的母體迴歸線,所以也就無法知道真正的殘差值ei(更正式的寫法為εi)。因此我們必須以估計的殘差值來取代
Estimation of σe2 在迴歸式中,SSE的自由度為樣本個數減去估計係數的數目 Se為迴歸線的估計標準差(estimated standard error of the regression),代表每一個相對應於x值的Y,分佈於迴歸線上的變異狀況。 Se愈小,表示Y的散佈愈集中
Estimation of σe2 在簡單迴歸中:
Estimating standard error of b0 and b1 觀念 • 截距b0及斜率b1的變異數的公式
Estimating standard error of b0 and b1 觀念 • 由於σ2未知 Estimated standard error of b1 Estimated standard error of b0
Hypothesis Testing in the Linear Regression Model 觀念 • 知道b1的分配及標準誤差後,我們可以進行統計推論 • 若以S2e來推估2,則
Hypothesis Testing in the Linear Regression Model 觀念 • 在迴歸的統計檢定中,我們想要知道自變數x是否對於解釋y有用,也就是說x與y之間是否具有線性關係? • 一般而言,如果x與y之間存在一線性關係,則β1≠0
Hypothesis Testing in the Linear Regression Model 觀念 • 我們要檢驗下列的虛擬假設: Two-side test 父母的收入與兒女的在校成績 One-side test 學歷與薪資的關係 One-side test 私校學費與註冊人數之關係
Hypothesis Testing in the Linear Regression Model 觀念 • 我們也可以檢驗斜率等於某特定值β*: 每增加一年的學歷薪水增加$2000
Hypothesis Testing in the Linear Regression Model 觀念 • 斜率的單邊假設檢定:
Hypothesis Testing in the Linear Regression Model 觀念 • 斜率的單邊假設檢定:
Hypothesis Testing in the Linear Regression Model 觀念 • 斜率的雙邊假設檢定:
例題 • 上例收入與支出的關係,以α=.01檢定H0: β1 = 0 vs. β1 > 0
例題 • 上例收入與支出的關係,以α=.05檢定H0: β1 = .90 vs. β1 ≠.90
截距的檢定例題 • 續上例,以α=.05檢定H0: β0 = 0 vs. β0 ≠0