第 11 章建立迴歸模型之三：矯正測量

第 11 章建立迴歸模型之三：矯正測量

11.1非均一性的誤差變異數之矯正測量：加權最小平方法11.1非均一性的誤差變異數之矯正測量：加權最小平方法 • 假設誤差項，對應不同的誤差項則變異數為，則廣義的複迴歸模型函數為： (11.1) 其中為參數 Xi1, …,Xi,p–1為已知的常數為獨立且服從 i = 1,…, n

對於廣義複迴歸模型之誤差項的變異－共變異矩陣比之前所討論的更為複雜：對於廣義複迴歸模型之誤差項的變異－共變異矩陣比之前所討論的更為複雜： (11.2)

誤差項的變異數已知 在(6.26)中具相等誤差項變異數的概似函數可將其項以對應的變異數代替，並將概似函數表示為(1.26)的第一種形式： (11.3) 其中如一般表示成迴歸參數向量。定義變異數的倒數為其加權量wi： (11.4)

經一些簡化過程後，可將概似函數(11.3)表示為：經一些簡化過程後，可將概似函數(11.3)表示為： (11.5) • 對做(11.5)之的極大化，得迴歸參數之最大概似估計量。因為誤差項變異數已知，故加權量wi也已知，極大化相當於極小化其指數項： (11.6) 此為求最大概似估計量而需極小化的項，就是加權最小平方法，記為Qw。

表示模型(11.1)之迴歸參數的最大概似及加權最小平方估計量，其最簡單的方法是採用矩陣表示。令矩陣W為由加權量wi構成的對角矩陣：表示模型(11.1)之迴歸參數的最大概似及加權最小平方估計量，其最簡單的方法是採用矩陣表示。令矩陣W為由加權量wi構成的對角矩陣： (11.7) • 則標準的函數如下所示： (11.8)

而迴歸參數之加權最小平方及最大概似估計量為：而迴歸參數之加權最小平方及最大概似估計量為： (11.9) • 其中bw為已加權最小平方法得到之估計的迴歸參數向量。此迴歸參數之加權最小平方估計量的共變異矩陣為： (11.10) 此共變異矩陣為已知，因為變異數　均假設已知。

誤差項變異數已知與某一常數成比例 現在將變異數　已知的要求放寬為已知這些變異數相對大小的情形。例如：若知道　會比　大兩倍，則可用加權量w1 = 1，w2 = 1/2。在那種情形，相對加權量wi為未知真實加權量　的常數倍： (11.11) 其中k為比例常數。

加權最小平方迴歸參數的共變異矩陣如下所示：加權最小平方迴歸參數的共變異矩陣如下所示： (11.12) • 因為比例常數k未知，此矩陣亦未知；然而它是可以被估計的。迴歸係數bw之估計共變異數矩陣為 (11.13) • 其中MSEw依據加權平方殘差計算： (11.13a) 故此處MSEw為比例常數k的一個估計量。

誤差項變異數未知 • 變異數函數或標準差函數的估計由(A.15a)知誤差項的變異數記為，可表示為 (11.14) 根據迴歸模型，，故得： (11.15) 所以，平方殘差為的估計量。此外絕對殘差|ei|是標準差的一種估計量，因為。

在變異數函數或標準差函數估計後，以其配適值計算估計加權量：在變異數函數或標準差函數估計後，以其配適值計算估計加權量：其中為標準差函數配適值 (11.16a) 其中為標準差函數配適值 (11.16b) • 將估計加權量代入(11.7)的加權量矩陣W而後估計的迴歸參數及可由(11.9)得到，如下所示： (11.17) 加權誤差均方MSEw在此可當作(11.11)之比例常數的一個估計量。若變異數或標準差函數的建模做的好，比例常數應接近1，因此MSEw也應該接近1。

使用重複或接近重複觀測值 • 權量用估計時的推論程序 • 使用最小平方法在誤差變異數不相等時若使用b（而非bw）具有不全相等的誤差變異數，最小平方估計式仍具有不偏性與一致性，但它們不再是具有最小變異數。不再是，而更正後的變異數-共變異數矩陣為：

其中而且e1, ..., en是最小平方估計式的殘差。White的估計式有時可以是穩健的共變異數矩陣，因為它使用了一些合適的推論，也沒有針對非常數的誤差變異數的函數作一些特別的設定。

一衛生研究人員有意研究20至60歲健康成年婦女之血壓舒張壓和年齡的關係而蒐集了一衛生研究人員有意研究20至60歲健康成年婦女之血壓舒張壓和年齡的關係而蒐集了一組54個人的資料。部份資料見表11.1的第一、二個欄位。圖11.1a資料散佈圖強烈暗示舒張壓和年齡間有線性關聯，但也指出誤差項變異數隨年齡而增加。研究者以未加權最小平方法配適一直線回歸函數作了一些殘差的初步分析。配適的回歸函數及b0 與b1 的估計標準差為：表11.1 加權最小平方—血壓測量案例

殘差顯示於表11.1的第三個欄位，而絕對殘差列於第四欄。圖11.1a呈現估計的迴歸函數。圖11.1b為對X的殘差圖，此圖證實了非常數的誤差變異數。絕對殘差對X作圖為圖11.1c，暗示誤差之標準差和X假設有線性關係可能是合理的。分析者絕對殘差對X做迴歸而得：（此處　表示估計的期望標準差。此估計標準差函數見圖11.1c。）殘差顯示於表11.1的第三個欄位，而絕對殘差列於第四欄。圖11.1a呈現估計的迴歸函數。圖11.1b為對X的殘差圖，此圖證實了非常數的誤差變異數。絕對殘差對X作圖為圖11.1c，暗示誤差之標準差和X假設有線性關係可能是合理的。分析者絕對殘差對X做迴歸而得：（此處　表示估計的期望標準差。此估計標準差函數見圖11.1c。） (11.19)

為獲得權量wi，分析者由標準差函數(11.19)得到配適值。例如對個案1，其X1 = 27，配適值為： • 所有配適值列於表11.1第五個欄位。權量由(11.16a)計算，以個案1為例：權量在表11.1第六個欄位。 • 將這些權量代入能做加權最小平方法的迴歸程式，分析者獲得下列估計的迴歸函數： (11.20)

注意估計的迴歸係數和(11.18)未加權最小平方法的結果相比並沒差很多。由於迴歸係數只改變一點點，分析者認定無需根據加權迴歸(11.20)的殘差重新估計標準差函數及權量。注意估計的迴歸係數和(11.18)未加權最小平方法的結果相比並沒差很多。由於迴歸係數只改變一點點，分析者認定無需根據加權迴歸(11.20)的殘差重新估計標準差函數及權量。 • 分析者接下來由(11.13)計算估計的迴歸係數之估計共變異矩陣，而得到近似的估計標準差s{bw1} = .07924。此標準差比(11.18)中普通最小平方法估計的標準差 .09695低些。此處大約18%的縮減是由於加權最小平方法認定不相等誤差變異數的結果。

為得到 之近似95%信賴區間，利用(6.50)並查得t(0.975;52) = 2.007，得信賴界限0.59634 ± 2.007(0.07924)，故近似95%信賴區間為：

說明 • 誤差項變異數不是對所有個案均為常數的條件稱為異質性變異數(heteroscedasticity variance)；與此相對的，相等誤差變異數的條件，稱為同質性變異數(homoscedasticity variance)。 • 2. 當迴歸分析中反應的分配其變異數和平均數有函數關係時，異質性變異數是固有的。（在這些情形同樣會遇到顯著的非常態性。）就此種情形，考慮迴歸分析其 X 為電纜包覆塑膠外皮機器的速度，Y 為每千呎電纜的外皮缺點數。若Y 服從平均數隨 X增大而增大的卜瓦松分配，則 Y 的分配不可能對所有X 水準具有固定變異數，因卜瓦松變數的變異數等於其平均數，而後者隨 X而上昇。 • 3. 當誤差項變異數有較大差異時，利用估計變異數或標準差函數，或以重複或接近重複組估計法估計權量，將是很有用的。但若差異很小或普通，以這些近似方法做加權最小平方分析，將沒有顯著幫助。 • 4. 一些複迴歸套裝軟體的加權最小平方輸出含有複判定係數 R2。這些軟體的使用必須小心處置此量數，因 R2 在加權最小平方法並無清楚的意義。

在(11.9)的加權最小平方迴歸估計量，當誤差變異數 已知時，很容易可以導出。此推導也顯示加權最小平方法可視為先轉換變數再做普通最小平方。廣義的複迴歸模型(11.1)可表示為下列矩陣形式：注意(11.2)誤差項的共變異矩陣是定義於(11.7)之權量矩陣的反矩陣。　　定義一個包含權量 wi 之平方根的對角矩陣並以W1/2表示： W1/2是對稱的，而且W1/2 W1/2 = W。此關係式對其反矩陣也會成立： W-1/2W-1/2= W-1。

因此，迴歸模型(11.23a)含有獨立誤差項且平均數為零及常數變異數 ≡1，故可將標準迴歸程序用於此轉換後之迴歸模型。

例如，迴歸係數的普通最小平方估計量(6.25)在此處成為例如，迴歸係數的普通最小平方估計量(6.25)在此處成為由(11.23b)的定義，得(11.9)中加權最小平方的結果： • 加權最小平方法為廣義最小平方法(generalized least squares)的特例。廣義最小平方法之誤差項可能具有不同的變異數，且成對之誤差項可能是相關的。 • 7. 在簡單線性迴歸，加權最小平方標準方程式(11.8)成為：

若所有權量相等，則wi恆等於一常數，加權最小平方法的標準方程式(11.25)變成(1.9)之未加權最小平方法的標準式，而且加權最小平方估計式(11.26)變成未加權最小平方法估計式(1.10)。若所有權量相等，則wi恆等於一常數，加權最小平方法的標準方程式(11.25)變成(1.9)之未加權最小平方法的標準式，而且加權最小平方估計式(11.26)變成未加權最小平方法估計式(1.10)。

11.2 多重共線性的矯正策略：脊迴歸 • 一些矯正策略在一些經濟研究中，可能以不同資料估計不同預測變數的迴歸係數，因而避免多重共線性問題。例如：在需求研究中，可同時用橫斷面及時間數列的資料。假設在需求研究中的預測變數為價格及所得，則其要估計的關係式為： (11.27) 其中Y為需求，X1為所得，而X2為價格。

所得的係數 可由橫斷面資料得到；因此需求變數Y調整為 (11.28) 最後，價格係數則以調整過的需求變數對X2迴歸做估計。

脊迴歸 • 有偏估計一個合併偏誤及抽樣變異效果的量數為均方誤差，這是一個在第9章討論的CP準則時曾見過的概念。此處均方誤差為有偏估計量bR和真實參數間離差平方之期望值。此期望值為估計量變異數和偏誤平方的和： (11.29) 若估計量不偏，則均方誤差與此估計量之變異數完全相同。

脊迴歸 普通最小平方法之標準方程式已在(6.24)給定： (11.30) 若所有變數都依(7.44)做了相關轉換，轉換後的迴歸模型如(7.45)： (11.31) 而其最小平方標準方程式如(7.52a): (11.32) 其中rXX為定義於(7.47)中諸X變數的相關矩陣，而rXX為定義於(7.48)中Y與每一X變數的簡單相關係數構成的向量。

脊標準化迴歸估計量是在最小平方標準方程式(11.32)中引入一偏化常數c ≥ 0，如下列形式： (11.33) 其中bR為諸標準化脊迴歸係數構成的向量： (11.33a)

而I為 (p – 1) × (p – 1)單位矩陣。標準方程式(11.33)的解產生脊標準化迴歸係數： (11.34) 常數c反應估計量的偏誤大小。

選擇偏化常數 c 表7.1具三個預測變數的人體脂肪量之例中，我們曾注意到資料存在嚴重多重共線性的幾個非正式指標。的確，在三個預測變數的配適模型（表7.2d）中，估計的迴歸係數b2是負的，而原本預測人體脂肪量應和大腿周長成正的關係。將脊迴歸計算用在表7.1人體脂肪例子的資料（計算過程未顯示）。對一些 c 的脊標準化迴歸係數列於表11.2，而變異數膨脹因子則在表11.3。複判定係數也列在後一表中。圖11.3呈現根據比表11.2更多 c 值計算結果之估計標準化迴歸係數的脊跡。為幫助分析，圖11.3的橫軸 c 是採對數尺度。

注意到c值很小時表11.3的迴歸係數的不穩定性。事實上估計的迴歸係數還改變正負號。再注意表11.3的VIF值快速下降。此處決定取c = .02，因在此偏化常數值脊迴歸係數具VIF值接近1且估計的迴歸係數似乎已相當穩定。

結果c = .02的配適模型為： 利用(7.53)轉回原始變數得：其中，，，，sY = 5.106，s1 = 5.023，s2 = 5.235，而s3 = 3.647。

在β2估計值中的不正確符號現在已消除，而估計的迴歸係數也比較符合先前預期。變數轉換後殘差平方和隨 c增大，但只由 c = 0時的 .1986 變成 c = .02時的 .2182，而 R2由 .8014降至 .7818。這些改變相當合理。當Xh1= 25.0，Xh2= 50.0而Xh3= 29.0時，平均人體脂肪量以c = .0的脊迴歸估計為19.33，用普通最小平方估計則為19.19。因此，此處c = .02的脊迴歸看來相當令人滿意，並且是普通最小平方解的一個合理替代。

說明 1.脊估計量的標準方程式(11.33)如下： (11.35) 其中rij為第i與第j個的X變數間簡單相關係數，而為反應變數Y與第j個X變數間簡單相關係數。

2.脊迴歸係數 之VIF值的定義和普通最小平方迴歸係數類似。即的VIF值量度的變異數相對於測量變數間無相關時的變異數有多大。脊迴歸係數的VIF值為下列(p – 1) × (p – 1)矩陣的對角線元素： (11.36) 3.複判定係數R2之普通最小平方法的公式定義於(6.40)： (11.37)

在脊迴歸中可以有類似的定義。然而在此處可簡化，因對(7.44a)相關轉換過的反應變數Y*而言，其總平方和為：在脊迴歸中可以有類似的定義。然而在此處可簡化，因對(7.44a)相關轉換過的反應變數Y*而言，其總平方和為： (11.38) 而脊迴歸配適值為： (11.39) 其中為X變數做相關轉換(7.44b)的結果。誤差平方和為： (11.40) 其中如(11.39)所定。於是脊迴歸的R2為： (11.41)

4.不均最小平方法可以找出脊迴歸估計值。不均最小平方準則是合併誤差平方和與不均項：4.不均最小平方法可以找出脊迴歸估計值。不均最小平方準則是合併誤差平方和與不均項：不均項是一個偏差的常數c，乘上參數係數平方和。大的絕對係數有著大的不均項。因此，我們所見的c > 0且「最佳」的係數會比最小平方估計值還小。有時脊估計式可表示為收縮估計式。

脊迴歸估計傾向於較穩定，意即通常其結果較少受配置迴歸所用資料之小改變的影響。相對地，當預測變數兼有高度多重共線性時，在上述條件下普通最小平方估計卻非常不穩定。當預測變數間有相關，而新觀測值符合同樣多重共線性形態時，由脊估計迴歸函數得到的新觀測值預測傾向於比普通最小平方法的預測更精確（參考引用文獻11.4）。當預測變數間相關性高時，脊迴歸的預測精確度之好處特別顯著。脊迴歸估計傾向於較穩定，意即通常其結果較少受配置迴歸所用資料之小改變的影響。相對地，當預測變數兼有高度多重共線性時，在上述條件下普通最小平方估計卻非常不穩定。當預測變數間有相關，而新觀測值符合同樣多重共線性形態時，由脊估計迴歸函數得到的新觀測值預測傾向於比普通最小平方法的預測更精確（參考引用文獻11.4）。當預測變數間相關性高時，脊迴歸的預測精確度之好處特別顯著。 • 6. 當預測變數水準落在估計迴歸函數之觀測值區域外時，脊估計迴歸函數往往能提供好的平均反應估計或新觀測值預測。相對地，在這種情況普通最小平方估計的迴歸函數可能表現相當差。當然，任何在觀測區域外的估計或預測，都要萬分小心。 • 7. 脊迴歸的一個主要限制是普通的推論程序它都不適用，而其正確分配的特性也不清楚。自重抽法是一個強烈依賴電腦的程序，可用來評價脊迴歸係數的精確度。脊迴歸的另一項限制是偏化常數c的選擇依賴判斷。雖然已有許多正式方法可用以做此選擇，但它們又有各自的限制。 • 8. 脊迴歸程序已被一般化，使得不同迴歸係數之估計允許不同的偏化常數，可參見引用文獻11.3。 • 9. 可藉脊跡的分析而將脊迴歸用在探索性觀察研究中以減少潛在預測變數個數。脊跡不穩定而係數趨向零的變數在此法中將被剔除。脊跡穩定但值太小時也剔除。最後，脊跡不穩定但不趨近零的變數則考慮為被剔除之候選者。

11.3　影響個案的矯正策略之穩健迴歸 • 穩健迴歸 • LAR或LAD迴歸最小絕對殘差迴歸，也稱做最小L1-模迴歸，是最被廣泛使用的穩健迴歸程序之一。它對離群點及模型不適當都不敏感。最小絕對殘差估計迴歸係數的方法是使Y觀測值與其平均數之絕對離差和最小。要極小化的準則，以L1表示，為： (11.42) 由於此處採絕對離差而非其平方，LAR方法對離群觀測值不像最小平方法那麼被重視。

IRLS 穩健迴歸 • LMS 迴歸　最小平方中位數迴歸以平方離差的中位數（這是　一個穩健的位置估計量）取代普通最小平方法的離差平方和。此程序的準則是對迴歸係數求平方離差中位數之最小值： (11.43) 故此程序得到的估計迴歸係數b0, b1,..., bp-1使得殘差平方之中位數最小。其他穩健迴歸程序

IRLS 穩健迴歸 • 加權函數　有許多減弱離群個案影響力的加權函數。其中兩個廣為採用的是Huber與雙平方加權函數： (11.44) (11.45) 　其中w表權量，而u為即將定義的尺度調整殘差。

起始值 • 尺度調整殘差中位絕對離差估計量常被採用： (11.46) 常數 .6745使得結果當觀測值獨立來自一常態分配時是的不偏估計，此處其用意也是要使估計結果近似不偏。

依(11.46)則尺度調整殘差ui成為 (11.47) • 迭代次數

第 11 章 建立迴歸模型之三：矯正測量