480 likes | 626 Views
第 15 章. 簡單線性迴歸. 前言. 相關係數除了可以用來瞭解兩變項間的關連強度之外,還有什麼用?例如 8 歲的體重和 20 歲的體重的相關是 0.8 。但身為父母,可能更關心他的 8 歲小孩現在是 25 公斤,將來 20 歲時大概會是幾公斤。換句話說,要用 8 歲的體重來預測 20 歲的體重。 我們希望從學生的高中成績來預測大學聯考的成績。或是從公司過去的銷售業績,預測未來的發展。. 前言. 用已有的資料,算出一個數學公式(又稱迴歸線, regression line ): Y = f ( X ) 。然後將新的 X 值帶入這個數學公式,求得預測的 Y 值。
E N D
第15章 簡單線性迴歸
前言 • 相關係數除了可以用來瞭解兩變項間的關連強度之外,還有什麼用?例如8歲的體重和20歲的體重的相關是0.8。但身為父母,可能更關心他的8歲小孩現在是25公斤,將來20歲時大概會是幾公斤。換句話說,要用8歲的體重來預測20歲的體重。 • 我們希望從學生的高中成績來預測大學聯考的成績。或是從公司過去的銷售業績,預測未來的發展。
前言 • 用已有的資料,算出一個數學公式(又稱迴歸線,regression line):Y = f (X)。然後將新的X值帶入這個數學公式,求得預測的Y值。 • 此時必須假設新的X值和Y的關係會依照這條迴歸線來運作。這種假設值得懷疑,例如我們使用的迴歸線建立在現在已經20歲的成人的體重,和他12年前8歲時的體重。可是想將這條線用在現在是8歲的小孩身上,顯然這條線已經過時12年。
第一節 五種主要的迴歸線(1) • 迴歸分析就是用預測變項X來說明或預測效標變項Y,也就是利用已有的資料決定Y = f (X)這個函數,然後將新資料的X值帶入這個數學公式,預測它的Y值。 • 預測變項和效標變項均必須是量的變項。研究者應根據過去的經驗或是理論來判斷這個數學函數到底是怎樣形狀。主要有五大類:線性(直線)、多項式、對數、乘冪、指數。
第一節 五種主要的迴歸線(2) • 迴歸分析就是用預測變項X來說明或預測效標變項Y,也就是利用已有的資料決定Y = f (X)這個函數,然後將新資料的X值帶入這個數學公式,預測它的Y值。 • 預測變項和效標變項均必須是量的變項。研究者應根據過去的經驗或是理論來判斷這個數學函數到底是怎樣形狀。主要有五大類:線性(直線)、多項式、對數、乘冪、指數。
第一節 五種主要的迴歸線(3) • 一次函數(直線): = bX + a • 多項式: = b1 + b2X + b3X2 + ...+ bnXn • 對數方程式: = blogX + a • 乘冪: = aXb • 指數: = aebX
第一節 五種主要的迴歸線(4) • 決定迴歸線的標準: • 1. 資料符合性 2. 理論吻合性 • 3. 解釋便利性 4. 抽樣變動 5. 經濟效益 • 越複雜的迴歸線越吻合資料,但簡單的迴歸線較容易吻合理論,較不會受到抽樣變動的影響,容易解釋,有經濟效益。 • 研究者的責任在不喪失資料吻合度很多的情況下,選擇有理論基礎、抽樣變動小、易解釋、有經濟價值的模式。
第二節 結構模式與參數估計 (1) • 最簡單的線性模式為直線模式: • Yi= b0 + b1Xi + ei,ei ~ N(0, s2) • Yi是效標變項中第i個數值,b0和b1為所欲估計的參數:截距和斜率。Xi是預測變項中第i個數值,ei是誤差。
第二節 結構模式與參數估計 (2) • 參數的點估計 • E(Yi)= E(b0 + b1Xi + ei) = b0 + b1Xi • b0和b1是未知的參數,必須估計。估計的原則就是希望所找到的b0和b1可以使得誤差的平方和最小。誤差就是觀察值減期望值 • 在此觀察值為Yi,期望值為
第二節 結構模式與參數估計 (3) • 要讓誤差的平方和最小,就是讓Q最小: • 分別對b0和b1進行偏微分,並設為0:
第二節 結構模式與參數估計 (4) • 以英文字母表示參數估計值,得 • 整理後得 • SXY為X和Y的樣本共變數, 為X的樣本變異數。
第二節 結構模式與參數估計 (5) • 這種方法所得到的估計式為最小平方法(least squares)估計式。這個估計式是不偏的,且是所有不偏估計式中最有效的。 • 除了估計b0和b1,還要估計s2 。可利用MSw估計母體變異數:
第二節 結構模式與參數估計 (6) • 斜率與相關係數 • 因為 和 ,所以 • b1和r符號相同。如果r是0,b1就是0(此時迴歸線是水平線)。如果|r|越大,斜率b就越陡峭。
第二節 結構模式與參數估計 (7) • 標準化迴歸係數 • 將X和Y變項加以標準化: • 然後再進行迴歸分析,結構模式變為:
第二節 結構模式與參數估計 (8) • 由於 和 均為0,且 和 均為1,因此 • 亦即結構模式應為 • b1與 的關係為 或
第二節 結構模式與參數估計 (9) • 例子1 • 抽樣調查了10位20歲成人,記錄其現在的體重,以及8歲時的體重。進行簡單線性迴歸分析,求參數估計值和母體變異數估計值。
第二節 結構模式與參數估計 (10) • 例子1 • 抽樣調查了10位20歲成人,記錄其現在的體重,以及8歲時的體重。進行簡單線性迴歸分析,求參數估計值和母體變異數估計值。
第二節 結構模式與參數估計 (11) • 作法 • b1 = 61.73/34.93 = 1.767。 • b0 = 64.4 – 1.767 28.6 = 13.86。 • 8歲體重每增加1公斤,20歲重就增加1.767公斤。 • 標準化變項的迴歸模式為
第二節 結構模式與參數估計 (12) • MSe = 498.56/(10-2) = 62.32。 • 20歲體重的變異數為164.49,這是用20歲的體重平均數64.4去猜這10個人的體重所產生的誤差。用8歲體重猜20歲的體重所產生的誤差是62.32,用8歲體重預測20歲體重的效果不錯。
第二節 結構模式與參數估計 (13) • 參數的區間估計與假設檢定 • 在結構模式為公式(15.1)及常態分佈的假設下,
第二節 結構模式與參數估計 (14) • 用MSe代替s2: • 和 是自由度為 n-2的t分佈。
第二節 結構模式與參數估計 (15) • b0的(1-a)100%信賴區間是 • 若要檢定b0是否等於某個值(如0),所計算的T值與自由度為n- 2的t分佈臨界值相比較,如果超過臨界值,就拒絕虛無假設。
第二節 結構模式與參數估計 (16) • b1的(1-a)100%信賴區間是 • 若要檢定b1是否等於某個值(如0),所計算的T值與自由度為n- 2的t分佈臨界值相比較,如果超過臨界值,就拒絕虛無假設。
第二節 結構模式與參數估計 (17) • 例子2 • 承例子1,估計母體參數的95%信賴區間,並進行母體斜率參數為0的假設檢定。
第二節 結構模式與參數估計 (18) • b0的95%信賴區間為 • b1的95%信賴區間為1.7672.306 • 由於b1的95%信賴區間為(0.74, 2.79),並沒包含0,因此拒絕斜率為0的假設。可以用8歲體重預測20歲的體重。
第二節 結構模式與參數估計 (19) • 超出臨界值2.306,因此可以拒絕虛無假設。 • 假如得到的結果是無法拒絕斜率等於0的虛無假設,就表示8歲體重無助於預測20歲的體重。
第四節 預測效果的變異數分析 (1) • 如果迴歸線非常接近平均數的水平線,SSreg趨近於0,此時使用迴歸線的必要性就減低了。反之,如果迴歸線距離水平線很遙遠,SSreg就會很大,反映出迴歸線的必要性。
第四節 預測效果的變異數分析 (2) • 當母體b1= 0的虛無假設為, 服從F分佈,其分子和母自由度分別為1和n - 2。如果從樣本計算的超過F分佈臨界值,就拒絕虛無假設,而宣稱b1 0。如果b1 = 0,代表預測變項無用。 • 這個變異數分析和b1的t檢定一致,因為t2 = F。
第四節 預測效果的變異數分析 (3) • 在單因子變異數分析裡,每個細格內的數值的期望值就是該細格的平均數 ,此處的每個數值的期望值則是 。 • SSreg相當於SSb,SSe相當於SSw。 • 迴歸平方和佔總平方和的百分比,就是這條迴歸線可以幫助解釋資料的部份,通稱為R2,又稱決斷係數(coefficient of determination)。即:
第四節 預測效果的變異數分析 (4) • 因為 ,所以
第四節 預測效果的變異數分析 (5) • R2的值介在0至1之間。如果這條線對資料的解釋和直接用Y的平均數來猜沒有兩樣,R2就等於0,如果這條線完全符合資料,R2就等於1。 • R2通常不會等於0或1,而是介在兩者之間。R就是Y和 之間的積差相關,又稱複相關(multiple correlation)。
第四節 預測效果的變異數分析 (6) • R2越大,表示迴歸線越符合資料。如果兩條迴歸線的R2差不多,合理性也差不多,那麼迴歸線越簡單越好。 • 以線性迴歸線所計算出來的R2,恰等於兩個變項間積差相關係數r的平方。 • R2相當於變異數分析中的h2,都在表明依變項的變異中,能被獨變項或預測變項解釋的部份。
第四節 預測效果的變異數分析 (7) • 增加預測變項,SST並不會改變,但SSreg卻會增加,因此R2必然增加。 • 為增加R2,就將所有可能的預測變項都納入迴歸方程式,以致形成非常複雜的公式。 • 為避免這種情形,要將R2的計算方式加以校正。如果加入一個不是很有用的預測變項,若導致校正後R2反而變小,就可避免加入瑣碎變項。
第四節 預測效果的變異數分析 (8) • 校正(調整)的R2(adjusted R2): • p是該迴歸線中不包括截距的參數個數,如以簡單線性迴歸線而言,p等於1。
第四節 預測效果的變異數分析 (9) • 例子3 • 承例子2,進行預測效果變異數分析,並計算決斷係數R2和調整後的R2。
第四節 預測效果的變異數分析 (10) • SST = 1480.40,SSe = 498.56,SSreg = 981.84。 • R2 = 981.84/1480.40 = 0.66。 • 8歲的體重可以解釋20歲體重的66%的變異。
第五節 平均數的估計誤差 (1) • = 13.86 + 1.767Xh • 對於現在8歲且體重為30公斤的小孩而言,他們將來20歲體重的期望值是多少? • 令Xh = 30,帶入上述的迴歸線,得到66.87公斤。是不是這樣的小孩,到了20歲時,他們體重的平均數就一定是66.87公斤?這像用樣本平均數估計母體平均數,雖然樣本平均數是母體平均數的良好點估計,但更需要區間估計。
第五節 平均數的估計誤差 (2) • 令 就是這個想估計的母體參數, • 因此 服從Z分佈。由於母體變異數s2未知,改用MSe替代。
第五節 平均數的估計誤差 (3) • 令 ,則 • 服從自由度為n-2的t分佈。 的(1-a)%的信賴區間為 • 若計算的T值超過t分佈的臨界值,就拒絕虛無假設。
第五節 平均數的估計誤差 (4) • 反映出用X來預測Y的誤差,稱估計變異誤。 • 影響估計誤差有四個因素: • 1. Mse。MSe越大, 就越大。 • 2. 樣本數n。如果n越大, 就越小。 • 3. 。X變異程度越大, 越小。 • 4. 。Xh越接近 , 越小。若Xh= • 則 = MSe/n。
第五節 平均數的估計誤差 (5) • 例子4 • 承例子3,對8歲體重為30公斤的人而言,在20歲時體重的期望值會是多少,該期望值的95%信賴區間為多少?
第五節 平均數的估計誤差 (6) • 作法 • 已知迴歸線為 = 13.86 + 1.767Xh,令Xh = 30,得 = 66.87公斤。 • 估計變異誤為 • 的95%的信賴區間為66.872.306 , 為(60.94, 72.80)。
第六節 新觀測值的預測 (1) • 對於新觀測值的預測顯然比平均數的估計來得更不準確,因為平均數畢竟是多人的集中趨勢,但新觀測值的預測卻只是針對某一個特定的數值而言。在點估計方面,和上一節並無兩樣。 • 區間估計: • 「m個」特定的個體的平均數, • 區間估計:
第六節 新觀測值的預測 (2) • 例子5 • 承例子4,假如班上有一個8歲小孩體重為30公斤,預測他在20歲時體重會變為多少?如果班上有十個8歲小孩,體重均為30公斤,他們這十人在20歲時,體重的平均數會變為多少?以95%信賴區間估計此平均數。
第六節 新觀測值的預測 (3) • 作法 • 對那小孩而言,點估計是66.87公斤,估計變異誤為 。體重95%信賴區間為66.872.306 ,為(47.72, 86.01)。 • 對那10個小孩而言,點估計仍為66.87公斤,估計變異誤變為 。他們體重平均數的95%的信賴區間為66.872.306 ,為(58.60, 75.14)。
第七節 模式假設的診斷 (1) • 簡單線性模式假設:1. 誤差為常態分佈,2. 誤差的變異數同質,3. 誤差之間彼此獨立。 • 在進行迴歸分析之前,也必須診斷:1. 變異數同質性,2. 常態分佈,3. 殘差的獨立性,4. 是否缺乏某個重要的預測變項,5. 極端值。 • 在效標變項量尺的轉換方面,可進行平方根轉換、自然對數轉換、倒數轉換、反正弦轉換等。