570 likes | 700 Views
第二章. 簡單線性迴歸分析. 迴歸分析之目的. 迴歸分析是一種統計分析方法,它利用一組 預測變數 (或稱 獨立變數 或 解釋變數 )對某一準則變數(或稱 反應變數 )建立關係式,以便作為預測的依據;迴歸分析也可以作為評估預測變數對準則變數的效用。 迴歸分析的主要目的是作 預測 ,目標是發展一種能以一個或多個預測變數的數值來作為預測反應變數的方法。. 迴歸分析之用途. 統計的主要應用之一是作預測,要預測需先蒐集資料,然後建立模式,再由給定的預測變數值,求出對應的準則變數值是多少?迴歸分析就是找出變數間的關係式。
E N D
第二章 簡單線性迴歸分析
迴歸分析之目的 • 迴歸分析是一種統計分析方法,它利用一組預測變數(或稱獨立變數或解釋變數)對某一準則變數(或稱反應變數)建立關係式,以便作為預測的依據;迴歸分析也可以作為評估預測變數對準則變數的效用。 • 迴歸分析的主要目的是作預測,目標是發展一種能以一個或多個預測變數的數值來作為預測反應變數的方法。
迴歸分析之用途 • 統計的主要應用之一是作預測,要預測需先蒐集資料,然後建立模式,再由給定的預測變數值,求出對應的準則變數值是多少?迴歸分析就是找出變數間的關係式。 • 我們將變數分成二類,一類變數是作為預測的提供者,稱為獨立變數或稱為預測變數,以 X 表示;另一類是我們真正關心的被預測者,稱為反應變數或準則變數,以 Y 表示。
迴歸 與 因果關係 • 迴歸包含因果關係嗎?並不一定。 • 迴歸並不意味著存在因果關係,即解釋變數是因,反應變數是果。因果關係的判定或推論必須建立在經實際檢定的相關理論基礎之上。 • Kendall 和 Stuart 說:「統計關係無論有多強,有多緊密,也絕不能建立起因果關係。因果關係的概念來自統計學之外的某個理論。」
迴歸模式之建立 • 所謂建立模式,就是找出 Y 與 X 的函數關係式,即找出函數 ƒ ,使 y = ƒ(x) • 最常用的函數是線性函數,即:ƒ(x) = β0 + β1X
簡單線性迴歸 • 我們稱這種線性函數 Y = β0 + β1X + 為簡單線性迴歸模式。 • 「簡單」是因為自變數只有一個。「線性」是因為自變數只有一次式。 • 其中 β1稱為迴歸係數(表示迴歸線的斜率), 即 x 每增加一單位時, y 平均的變量。 • β0表示截距,即迴歸線與 y 軸交點的縱座標,即當 x 等於 0 時 y 的值。
對變數為「線性」 Y = β0 + β1X+ • 「線性」是因為自變數 X 只有一次式,從幾何意義上說,這時迴歸曲線是一條直線。 Y = β0 + β1X + β2X2 + • 此時由於變數有平方項(或相乘項),因此不是線性的。
對參數為「線性」 Y = β0 + β1X + • 對參數為「線性」是指 β0和 β1為一次項。 Y = β0 + β1X + β2X2 + • 此時迴歸式仍是參數線性的,因為對參數為「線性」是指 β0、 β1和β2為一次項,此時雖然有 X2 項,但仍是參數線性的。
隨機誤差項的含義 • 隨機誤差項 ε假設是所有可能影響 Y,但又未能包括到迴歸模型中來的被忽略變數的替代變數或代理變數。 • 為什麼不建構一個含有儘可能完整解釋變數的複迴歸模型?
模型含隨機誤差項的理由 • 理論的模糊性:對於影響 Y 的所有解釋變數不是無所知就是知道但不確定。 • 資料的欠缺:有的變數已知對 Y 有影響,但無法蒐集到所要的資料。 • 核心變數與周邊變數:周邊變數對 Y 的影響微小,從實務上及成本的考量上不值得蒐集。 • 以替代變數取代不可觀測的變數:因此會有衡量誤差。
模型含隨機誤差項的理由 • 錯誤的函數型式:即使知道理論上所有的解釋變數,也可以獲得相關的資料,因為不知道 X 和 Y 之間真正的函數型式,所以還是會有誤差。 • 人類行為的內在隨機性:此種隨機性也只好由隨機誤差項來反應。 • 模式精簡原則:我們應該保持一個儘可能精簡的迴歸模型。當然,我們不應該只為了保持迴歸模型簡單而排除有關的和重要的解釋變數。
︿ ︿ ︿ Y = β0 + β1X
參數估計----普通最小平方法 • 以最小平方法求 β0和 β1(參數估計):(1)假設有一條直線 Y = β0 + β1X 。(2)加總所有的觀察值 yi和該直線之距離 (即 yi– Y = yi– ( β0 + β1X ))的平方和。(3)求該式之最小值。(4)欲得上式之最小值,則分別對 β0和 β1作偏微分,並令其值為 0,化簡後得 「正規方程式」。(5)解「正規方程式」,即可估得 β0和 β1。 ︿ ︿ ︿
參數估計----普通最小平方法 • 估計迴歸方程式之β0和β1的方法,就是先蒐集資料(x, y),跑電腦程式後,就會估出β0和β1。 • 當得出估計的迴歸方程式之後,即可求出預測值、擬合值和殘差等,並可評估模式擬合的好壞。 ︿ ︿
普通最小平方法的好性質 • 線性+不偏+最小變異數 • Best Linear Unbiased Estimator (BLUE) • 不偏:多抽幾次,其樣本統計量的平均值會等於母體真正的值。最小變異數:由普通最小平方法所估出的樣本統計量,在所有估計值中其變異數最小。 • 樣本統計量 估 母體參數
普通最小平方法的好性質 • 母體參數:固定常數,但未知。 • 樣本統計量:是抽樣的結果,已知,但隨著抽出的樣本不同,樣本統計量也會不同。 • 因為樣本統計量會隨著抽出樣本的不同而變動,所以樣本統計量是個隨機變數。 • 樣本統計量是個隨機變數,所以會有它的抽樣分配。知道它的抽樣分配,才能做假設檢定。
︿ ︿ ︿ Y = β0 + β1X
預測值 與 擬合值 • 迴歸模式建立後,如評估無誤,即可作預測。 • 迴歸模式建立後,將 x代入迴歸式中,即可預測 y的值( y = β0 + β1x )。 • 如(x,y)已在原始資料中,則將 x 代入迴歸模式,所得之 y 值稱為擬合值,該值會出現在迴歸線上。觀察值與擬合值的差距稱為殘差。 • 將一新的 x 值代入迴歸模式中,所得之 y 值稱為預測值,該值會出現在迴歸線上。 ︿ ︿ ︿ ︿ ︿
預測值 與 擬合值 身高 * * * * * * * * * * * * * * * * * * * 10 20 40 年齡
殘差 與 殘差圖 • 真正的觀察值(原始資料中的 y )與擬合值(代入迴歸式後所算出之 y 值)的差距,稱為殘差。 • 要評估模式擬合的好壞,最常用的方法是畫殘差圖。所謂殘差圖就是殘差對預測變數的散佈圖,或是殘差對擬合值的散佈圖。 • 殘差圖愈亂表示模式擬合得愈好。 ︿
散佈圖、殘差圖與模式之修正 • 拿到資料的第一步就是先畫散佈圖,了解y 與x 的關係是否呈現線性或其他形狀。 • 算出迴歸線後畫殘差圖,看看模式是否良好,如果良好就作解釋、預測或控制,如果模式不良就作修正。
迴歸模式的理論基礎 • 一般統計模式皆有: 觀察值 = 母體參數 + 抽樣誤差 • 線性迴歸模式的基本假設:Y = + = β0 + β1X Y = β0 + β1X +
迴歸分析之基本假設 • 條件常態分配:誤差項 有大有小,我們假設它的分佈是常態分配,因此給定 x 之後, y 的分配也是常態分配。此種給定 x 後所有同樣的 x 對應 y 的分配為常態分配,稱為條件常態分配(p2-23) (圖2-13) 。 • 均質性:不同的預測變數的母體所對應的應變數具有相同的變異數(p2-23) (圖2-13) 。 • 獨立性:誤差項具有獨立性,即每一誤差項不會受到其它誤差項的影響。
迴歸分析之目的 • 在迴歸分析中,我們第一件想知道的事是,到底所找的預測變數 X (身高)對準則變數 Y (體重)有沒有解釋能力(有了身高的資料,再來預測體重,會不會使預測的誤差(變異)顯著地降低)?如果有,其解釋能力有多大? Yi= β0 + β1Xi+ i
迴歸分析之假設檢定 • 預測變數 X 對準則變數 Y 有沒有解釋能力,也可以說是預測變數與準則變數有無相關,可寫成假設檢定如下: H0: β1 = 0 H1: β1 0 • 上式的含意為:若 β1= 0,表示 X 對 Y 沒有貢獻,不論提供的 X 值是多少,對 Y 值的預測都沒有幫助, Y 對 X 是一常數,也就是模式Y = β0 + β1X 中的迴歸係數 β1= 0。即:Y = β0。反之,若β1 0,則表示 X 對 Y 的預測有幫助,將蒐集的 X 資料代入模式,用來預測 Y 可以使預測的誤差(變異)顯著降低。
檢定 H0: β1 = 0 ,沒有拒絕 H0 • 如果沒有拒絕H0,有三種可能: • x 和y 二者之間確實有線性關係存在,但由於型ІІ誤差的關係而不顯著。 • x 和y 二者之間沒有線性關係存在,但確有非線性的關係存在。 • x 和y 二者之間確實沒有相關。
迴歸分析之假設檢定(續) • 要檢定 H0: β1 = 0,所用的方法是變異數分析。 • 變異數分析主要的功能是分析因素(或變數)是否重要,它所使用的工具是分解平方和。 • 如果都不用預測變數的訊息時,yi與 ӯ的變異(以 ӯ 預測 yi)稱為總平方和,以SSTO表示。 • 如果用上預測變數 x 的訊息,則yi與 ŷi的變異(以 ŷi 預測 yi)稱為殘差平方和,以SSE表示。
迴歸分析之假設檢定(續) • SSTO - SSE = SSR,稱為迴歸平方和,表示用了預測變數後總變異降低的部份(p2-31) (圖2-14) 。 • 如要檢定H0: β1 = 0可以利用 F 統計量檢定之:F = MSR / MSE
SSTO = SSR + SSE • 總離差(觀察值與平均數的離差)(SSTO)= 擬合值與平均數的離差(SSR) + 觀察值與擬合值的離差(SSE)。
迴歸分析之假設檢定(續) yi ︿ yi ︿ 不見了 Yi - Y y
SSTO = SSR + SSE 不見了
變異數分析 • 變異數分析是用來檢定三個或三個以上母體平均數是否相等的假設。 • 變異數分析這個名詞似乎並不恰當,因為我們要檢定的是母體平均數而非變異數,然而事實上,變異數分析的檢定過程是根據樣本資料的變量分析為基礎的。 • 變異數分析法簡稱為 ANOVA (ANalysis Of VAriance)
變異數分析的假設 • 假設因子對依變數的影響效果是固定的,亦即 i - 為一常數而不是隨機變數。 • 每個小母體均為常態分配,表為:Yi ~ N( i , 2i ) , i = 1, 2, , k 。 • 變異數齊一性,即 2i = 2,每個小母體的變異數均相等。 • 抽樣方法為獨立簡單隨機抽樣(SRS),即自 k 個小母體分別選取獨立的隨機樣本。
變異數分析之基本原理 • 變異數分析的基本原理是比較組間差異(因子效果)和組內差異(隨機變異)的相對大小,用以檢定母體平均數是否相等的假設。 • 如果虛無假設(母體平均數相等)為真,則組間的差異(母體間的差異)亦必很小;如果母體平均數不相等,則組間差異會比較大。 • 若「組間差異 / 組內差異」的值較小,則表示沒有足夠的證據證明母體平均數不相等。 • 若「組間差異 / 組內差異」的值很大,則表示母體平均數應該是不相等。
組間差異 與 組內差異 • 總差異 = 組間差異(因子引起的差異) + 組內差異(隨機差異) • 總差異的平方和 = 因子引起的差異的平方和 +隨機差異的平方和。 • 總差異的平方和稱為總變異(SST),因子差異的平方和稱為因子變異(SSF),隨機差異的平方和稱為隨機變異(SSE)。
變異數分析的方法 • 因子變異是因為因子不同的關係,故又稱為可(被因子)解釋的變異;隨機變異是因隨機誤差所造成的,故稱為不可解釋之變異。 • 變異數分析的方法即是利用樣本統計量來比較因子變異和隨機變異的大小,以檢定因子所引起的變異是否大到足以拒絕虛無假設。
假設檢定 • 若虛無假設成立,則 SSF 主要來自抽樣誤差,因此SSF 相對於 SSE 不會太大;若虛無假設不成立,則SSF 相對於 SSE 會比較大。 • 因為 SSF 和 SSE 會受樣本個數多少的影響,因此不能直接比較 SSF 與 SSE 的大小,而必須進一步求平均變異,分別為:MSF = SSF /(k – 1) MSE = SSE /(N – k) 其中,(k - 1)和(N - k)分別為SSF和SSE的自由度。
變異數分析表(ANOVA) • 當H0為真時,MSF / MSE 的抽樣分配為一個自由度為 k – 1 及 N – k 的 F 分配。 • 在選定的顯著水準 下,決策法則為: 若統計量 F0 > Fk-1,N-k,,則拒絕H0。 若統計量 F0 ≤ Fk-1,N-k,,則接受H0。 • 變異數分析表:ANOVA
迴歸分析的SAS報表(p2-12) • DATA AA;INPUT X Y;CARDS;173 66164 52180 78;PROC REG;MODEL Y=X;RUN;