第六章

第六章 預測變數及迴歸模型的選擇

預測變數的選取 • 如何將模式精簡而又能使模式有很好的預測能力，是作資料分析所面對的重要課題。 • 在選擇與準則變數有關的預測變數時，常會選到重疊性（共線性）高的預測變數，因此，模式中重疊性預測變數的排除，也是討論的重點。

好的模式的條件 • 一個好的模式，基本上除了殘差圖要滿足隨機性外，同時也要符合「擬合性高」的要求。 • 一個好的模式應該具有：（1）R2要大（或SSE要小）。（2）MSE要小。（3）Cp值要小（或儘量接近 p，其中 p 為模式中參數的個數）。

好的模式的條件（續） R2要大 • 將所有的預測變數都放入模式時，R2 最大，但付出的代價是：模式複雜且解釋困難。

好的模式的條件（續） MSE要小 • 當模式中放入越多的預測變數時，R2會越來越大，但相對的模式也會越複雜（參數個數 p 增加）。如何在模式擬合度（R2大）與簡化模式（p 小）的程度之間取得平衡？統計上通常以調整後的 Ra2作判斷。Ra2 = 1 – ( 1 - R2 ) × [( n – 1 ) / (n – p )]

好的模式的條件（續） MSE要小 • 其中，p 為參數的個數。 Ra2是對參數個數 p 作懲罰的工作，p 越大會對 Ra2越不利。所以除非由於 p 增加後使 R2也增加很大，不然，p 增加時， Ra2可能不升反降，此時，即應減少模式中預測變數的個數。

好的模式的條件（續） Cp值要小 • Cp值的定義為： Cp = SSEq / σ2 – ( n – 2q )其中， σ2是考慮全部的預測變數都放在複迴歸模式內時 σ2的估計值，而 SSEq是考慮 q - 1 個預測變數時，複迴歸模式的殘差平方和，n 是觀察的樣本個數。當考慮全部的預測變數都放在複迴歸模式內時（即 q = p ），則 SSEq = ( n – p )MSE = ( n – p )σ2，故 Cp = p ︿︿︿

最佳模式的選取 • 通常選取「最佳」模式的方式有二種： • 一種是跑完所有的迴歸式再作比較，選出最佳的模式。 • 另一種是逐步選取法，它不需要跑完所有的迴歸式，可節省時間，但也可能會錯失「最佳」的模式。 Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X5i + εi

所有迴歸式的比較選取法 • 若考慮的預測變數有 p 個，則所有可以選取的迴歸模式就有 2p – 1個。 • 將所有 2p – 1 個的迴歸式全部跑完，再從所有這些迴歸式中挑選能符合上述三種判斷準則的「最佳」模式。 • 跑出所有的迴歸模式後，可以分別將所有的 R2對 p 畫散佈圖，並將每一個 p 對應的最大的 R2連成一直線，以圖形觀察之。

所有迴歸式的比較選取法 Yi = β0 + β1X1i + εiYi = β0 + β1X2i + εi Yi = β0 + β1X3i + εiYi = β0 + β1 X4i + εi Yi = β0 + β1 X5i + εi Yi = β0 + β1X1i + β2X2i + εiYi = β0 + β1X1i + β2X3i + εi Yi = β0 + β1X1i + β2X4i + εiYi = β0 + β1X1i + β2X5i + εi Yi = β0 + β1X2i + β2X3i + εiYi = β0 + β1X2i + β2X4i + εi Yi = β0 + β1X2i + β2X5i + εiYi = β0 + β1X3i + β2X4i + εi Yi = β0 + β1X3i + β2X5i + εiYi = β0 + β1X4i + β2X5i + εi

所有迴歸式的比較選取法 Yi = β0 + β1X1i + β2X2i + β3X3i + εi Yi = β0 + β1X1i + β2X3i + β3X4i + εi Yi = β0 + β1X1i + β2X2i + β3X5i + εi …… Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi …… Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X5i + εi

所有迴歸式的比較選取法 • 亦可分別將每一種預測變數個數對應的MSE 畫散佈圖，並將每一種預測變數個數對應的 MSE 之最小者連成一直線。 • 也可畫 Cp值對放入模式之預測變數個數的散佈圖及其最低點的連線。分別就圖形觀察之。

所有迴歸式的比較選取法 • 一般而言，以 R2 、MSE 及 Cp值作判斷，所選到的最佳模式不一定相同。 • 以 R2大作為判斷準則時，先找出幾個 R2較佳的模式。以 MSE 小作為判斷準則時，先找出幾個MSE較佳的模式。而以 Cp值小作為判斷準則時，也找出幾個 Cp較佳的模式。 • 最後再從這三組中找出共同者，作為最後模式選擇的參考。

逐步迴歸選取法向前選取法（Forward Selection） • 所謂向前選取法是選取進入模式的預測變數越選越多，每一個步驟都是選取「剩餘」解釋能力最強的一個預測變數進入模式，但其解釋能力也要通過事先訂好的門檻。 (常用的門檻為 Fin = 4，或顯著水準 α = 0.05)

逐步迴歸選取法向前選取法（Forward Selection） • 開始時，模式中沒有任何預測變數。 • 第一步驟：在所有 p - 1 個預測變數中，選取對準則變數 y 最有解釋能力的變數進入模式，其選取的方式是找 F 值最大者，亦即找變數 xk，其Fk值是所有 p -1 個 F 值中最大者。Fk = MSR(xk) / MSE(xk)

逐步迴歸選取法向前選取法（Forward Selection） • 第二步驟：選取除了 xk之外剩下的 p - 2 個預測變數中偏 F 值最大且通過門檻的預測變數。Fj|k = MSR(xj | xk) / MSE(xj,xk)其中，Fj|k表示模式中已經含有 xk ，再選入 xj時的偏 F 值。

逐步迴歸選取法向前選取法（Forward Selection） • 第三步驟以下依此類推。至所有的變數均被選入模式中，或未被選入者之偏 F值均已小於門檻時即停止。

向前選取法應注意事項 • 選入模式的預測變數會越來越多，每一步驟只選取一個預測變數進入模式。 • 一個預測變數一旦被選入模式中，就一直留在模式內，不再退出。 • 每一步驟選入模式內的預測變數必須滿足二個條件：一是其偏 F 值是所有偏 F 值中最大的，一是其偏 F 值必須大於設定的門檻 Fin，通常 Fin訂為 4（這是一般套裝軟體的內設值）。

向前選取法應注意事項 • 向前選取法最後選定的預測變數個數未必會包含全部的預測變數。 • 以向前選取法所得的「最佳」模式與跑所有迴歸式的比較選取法所得的「最佳」模式可能會不同。 • 各種套裝軟體跑完向前選取法後通常都會有摘要表，一般只要看此表就可以了。

向前選取法摘要表 Summary of Forward Selection Procedure for Dependent Variable Y Variable Number Partial Model Step Entered In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5292 0.5292 668.4476 53.9482 0.0001 2 X3 2 0.1582 0.6874 430.3167 23.7945 0.0001 3 X5 3 0.1927 0.8802 139.8639 73.9720 0.0001 4 X2 4 0.0653 0.9455 42.7440 53.9060 0.0001 5 X1 5 0.0255 0.9710 6.0000 38.7440 0.0001

逐步迴歸選取法向後選取法（Backward Selection） • 向後選取法選取預測變數的過程和向前選取法相反。 • 開始時，全部的預測變數都放在模式內，然後再將解釋能力差的（偏 F 值較小的）變數逐一去掉，直到所有放在模式中的預測變數其偏 F 值都大於預設的門檻 Fout （通常用 3.99 ）時才停止。

向後選取法應注意事項 • 每一個預測變數一旦從模式中去除，就不再進入模式。 • 每一個步驟只能去除一個預測變數，即使同時有二個預測變數的偏 F 值小於 Fout ，也只能去最小的那一個變數。 • 向後選取法最後所得的模式可能與向前選取法所得的模式不同。 • 向後選取法所選出被剔除的預測變數，有可能是與準則變數 y 相關係數最高的，其可能的原因是預測變數之間的共線性所造成的。

逐步迴歸選取法逐步選取法（Stepwise Selection） • 逐步選取法結合「向前選取法」與「向後選取法」而成 • 開始時，以向前選取法選入一個預測變數；而後每當選入一個新的預測變數時，就利用向後選取法，看看在模式中已存在的預測變數有無偏 F 值小於 Fout的變數。如果有，則偏 F 值最小的預測變數就會被排除在模式之外，接著再進行向前選取；如果沒有，則繼續向前選取 • 重複輪流使用向前、向後選取的步驟，直到沒有預測變數可以再被選進來，也沒有預測變數應該被剔除掉時即停止。

世界盃預測模式 • 起床看錶法：每 256 ( 1/28 ) 人中即有一人會連續「猜中」八場。 • 因為它的預測結果神準，所以是個好模式。 • 但因為這種模式背後沒有理論依據，它的結果其實只是因為「機遇」造成的。 • 沒有理論依據，純靠機遇而得到的結論，不具有「重複性」，所以不可靠。

世界盃預測模式 • 「逐步迴歸」有點像是「暴力法」，所得到的結論其實是靠「運氣」。 • 統計上「肯定」的結論，只是基於「機率分配」的結論：因為得到這樣的結果純靠「機遇」而發生的機率很低，所以具有「統計顯著性」。 • 如果沒有理論依據，所得到的模型可能在理論上難以解釋 (符號相反、遺漏關鍵變數、包括非必要變數)。

「好的」模型應具有的性質 • 可識別性(identifiability)：對於給定的一組資料，所估計的參數值必須是唯一的。 • 配適程度(goodness of fit)：模型中所包含的解釋變數應儘可能地解釋反應變數的變化。 • 理論一致性(theoretical consistency)：模型中自變數的係數符號應和理論相一致。 • 預測能力(predictive power)：對模型有效性的唯一檢定就是將預測值與經驗值相比較。 • 精簡性(parsimony)：模型應儘可能簡單。

模型設定偏誤的類型 • 模型的設立應儘可能簡單，包括理論上建議的關鍵變數，而將次要的影響因素納入誤差項。 • 常見的模型設定偏誤如下： • 遺漏相關變數 • 包括不必要的變數 • 採用了錯誤的函數形式 • 測量誤差

模型遺漏相關變數的後果 • 模型中剩餘變數的係數估計通常是偏誤和不一致的。 • 誤差變異數的估計也是不正確的，估計量的標準誤也是偏誤的。 • 因此，常用的假設檢定過程是無效的。

模型包含無關變數的後果 • 仍可以得到實際模型係數不偏的和一致的估計值。估計的誤差變異數是正確的。 • 標準的假設檢定過程仍然是有效的。 • 模型中包括多餘變數的主要問題是估計係數的變異數會變大，因而對真實參數的機率推論就沒那麼精確了。 • 因為信賴區間變寬，也就更容易接受虛無假設

模型函數形式錯誤的後果 • 由於缺乏很好的理論基礎，因此如果選擇了錯誤的函數形式，則估計的係數可能是真實參數的偏誤估計值。

應變數測量誤差的後果 • OLS 估計量是不偏的。 • OLS 估計量的變異數也是不偏的。 • 但是估計量的變異數比沒有測量誤差時來得大，因為應變數中的誤差加入到了誤差項了。

解釋變數測量誤差的後果 • OLS 估計量是偏誤的。 • OLS 估計量也是不一致的。即使樣本數夠大， OLS 估計量仍然是偏誤的。

模型中相關變數的診斷 Yi = β0 + β1X1i + β2X2i + β3X3i + εi • 如果經濟理論表明所有這 3 個 X 變數都對 Y 有影響，那麼就應該把它們都納入模型。 • 即使實證檢定發現一個或多個解釋變數的係數是統計不顯著的，這種情況下不會產生非相關變數的問題。

模型中相關變數的診斷 Yi = β0 + β1X1i + β2X2i + β3X3i + εi • 有時候僅僅是為了避免遺漏變數偏差，模型中會納入一些「控制變數」。 • 如果控制變數是統計不顯著的，該控制變數即是多餘的變數，則從模型中刪除這些控制變數並不會顯著改變點估計值或假設檢定的結果。如果控制變數是統計顯著的，則該控制變數很可能屬於模型。

模型中相關變數的診斷 • 在進行設定檢定時，頭腦中要有一個「真正」的模型。有了這個模型，就可以透過t檢定或 F檢定來判定一個或多個變數是否真正相關。 • 在建立模型過程中，不能重複使用 t 檢定和 F檢定，也就是說，不能一開始 Y 和 X1 相關，因為 β1 在統計上是顯著的；接著將模型加入X2 變數，如果 β2 是統計顯著的，就把這個變數保留在模型中。這樣的過程稱為逐步迴歸︿︿

模型中相關變數的診斷 • 不建議採用這種「資料探戡」的策略，即對所有可能的模型一一嘗試，希望從中至少找出一個與資料配適良好的模型。 • 因為如果說從一開始 X2 就屬於模型的話，則早該將之納入模型。在初始迴歸中排除 X2 將會犯遺漏相關變數的錯誤，並且會帶來嚴重的後果。 • 建立模型必須以理論為指導。

如何建立理論上正確的模型 • 首先根據理論或調查以及以前的實務經驗，建立一個自認為抓住了問題本質的模型。 • 然後對這個模型進行實證檢定，得到迴歸結果之後，就根據「好的」模型的衡量標準進行事後分析。 • 到了這個階段，才能知道所選的模型是否恰當。

判斷模型是否恰當的參考標準 • R2 和調整後的 Ra2 • 估計的 t值 • 與事前預期相比，估計係數的符號

選擇模型的基本準則 • 模型選擇的重點不在 R2，而是考慮進入模型中的解釋變數之間的相關性（即理論基礎）、解釋變數係數的預期符號、統計顯著性以及類似彈性係數這樣的測量工具。 • 避免僅僅根據 R2 值選擇模型。 • 建立模型不僅需要正確的經濟理論，合適可用的資料、對各種模型統計性質的完整理解以及經驗判斷。而實務經驗來自於不斷地實踐。

預測變數取捨的依據 • 在實務中，計量經濟學家在選擇進入模型的變數個數、模型的函數型式以及關於模型所含變數的機率性質的假設時，必須做出一些自己的判斷。 • 為作經驗分析而選擇「正確」模型在一定程度上涉及一些嘗試與糾錯的過程。

預測變數取捨的依據 • 上述說明了為甚麼模型的選擇必須有一些經濟學的理論基礎，以及模型的修改必須有一些經濟學方面的理由 (不建議用「資料探戡」)。 • 純粹地為配適而配適的模型很難在事前的理論上站得住腳。在模型建立過程中，要以經濟理論為依據，並充分利用以往的工作經驗。 • 一但建立起模型，就不要隨意地從模型中刪除某個解釋變數。

模型建構的方法 simple – to – general：即向前選取解釋變數的方法，將解釋變數一個一個加入模型中。不建議採用這種方法，因為模型中遺漏解釋變數，其參數估計式是偏誤的。 general – to – simple：即向後選取解釋變數的方法，先將全部解釋變數均納入模型中，再逐一將解釋能力不顯著的解釋變數 (即該解釋變數前面的參數經檢定後，不顯著不為 0) 刪除。建議採用此法。 stepwise：逐步選取解釋變數的方法。此法將向前選取法和向後選取法併用。不建議採用此法。 44

Nested Testing Structures 若是 nested structure，則在檢定哪一條迴歸式較佳時，即是以 F-test 檢定右邊的限制條件。若 H0為真，則短的迴歸式較好。 45

迴歸模型設定的檢定----RESET 檢定 模型 Yi = β1 + β2X2i + β3X3i + εi 是否設定錯誤，RESET 檢定方法如下：以 OLS 估計迴歸模型 Yi = β1 + β2X2i + β3X3i + εi後，求得樣本內的預測值 ĉi。將ĉi2和 ĉi3 項加入解釋變數，重新估計迴歸模型 Yi = β1 + β2X2i + β3X3i + 1ĉi2+ 2ĉi3 +εi 聯合檢定 H0 : 1 = 2 = 0 H1 : 1 ≠ 0 or 2 ≠ 0 接受 H0 代表未能檢測出迴歸模型的設定有錯誤；拒絕 H0 代表迴歸模型設定錯誤。 46

迴歸模型設定的檢定----RESET 檢定 若H0 : 1 = 2 = 0 為真，則模型 Yi = β1 + β2X2i + β3X3i + εi 。以 OLS 對此模型跑迴歸，得出殘差平方和為 SSER。若H0 : 1 = 2 = 0 不為真，則模型為：Yi = β1 + β2X2i + β3X3i + 1ĉi2+ 2ĉi3 +εi 。以 OLS 對此模型跑迴歸，得出殘差平方和為 SSEU。聯合檢定 H0 : 1 = 2 = 0 H1 : 1 ≠ 0 or 2 ≠ 0 檢定統計量為：接受 H0 代表未能檢測出迴歸模型的設定有錯誤；拒絕 H0 代表迴歸模型設定錯誤。 47

Many-Degrees-of-Freedom Test:The Encompassing Test H1 : qi =  + β log mi+ εi H2 : qi =  + β+ εi 要檢定 H1或 H2 二種模型設定何者較佳，encompassing test 的方法如下：先將原先的模型重新設立一個包含所有解釋變數的擴大模型如下，再以 OLS 跑迴歸，估計 β1 和 β2 ： 48

Many-Degrees-of-Freedom Test:The Encompassing Test H1 : H0 : β2 = 0 (1) H2 : H0 : β1 = 0 (2) 檢定第 (1)式，若不能拒絕 H0 : β2 = 0 ；檢定第 (2)式，若拒絕 H0 : β1 = 0 ，則 H1 : qi =  + β log mi+ εi 較佳；檢定第 (2)式，若不能拒絕 H0 : β1 = 0 ；檢定第 (1)式，若拒絕 H0 : β2 = 0 ，則 H2 : qi =  + β+ εi 較佳。檢定第 (1)式，若不能拒絕 H0 : β2 = 0 ；檢定第 (2)式，若不能拒絕 H0 : β1 = 0 ；或檢定第 (1)式，若拒絕 H0 : β2 = 0 ；檢定第 (2)式，若拒絕 H0 : β1 = 0 。此二種情況無法判斷。 49

Many-Degrees-of-Freedom Test:The Encompassing Test 結論：不能拒絕 H1 : 21 = 22 =0，而在 5%之下拒絕 H2 : 11 = 12 =0，故知 lin-log 模型較佳。 50

第 六 章

第 六 章

Presentation Transcript

第六章

第六章