1.21k likes | 1.4k Views
預測模型. 謝邦昌 蔣妍 江志民 輔仁大學統計資訊學系 中國人民大學統計學系. 預測. 鑒往知來 通古博今 掌握趨勢. 預測模型. 迴歸模型 Regression Model 時間數列模型 Time Series. 迴歸分析. 迴歸分析就是統計分析 , 分析兩個或兩個以上關係的相互變化統計方法根據。 迴歸分析可經由另外一個變數之數值或另外多個變數以上之數值來加以分析預測。 因果關係 例: 銷售量與廣告費用之間的變化關係. 迴歸模型. 迴歸預測模型. 簡單線性迴歸 Simple Linear Regression
E N D
預測模型 謝邦昌 蔣妍 江志民 輔仁大學統計資訊學系 中國人民大學統計學系
預測 • 鑒往知來 • 通古博今 • 掌握趨勢
預測模型 • 迴歸模型 Regression Model • 時間數列模型 Time Series
迴歸分析 • 迴歸分析就是統計分析,分析兩個或兩個以上關係的相互變化統計方法根據。 • 迴歸分析可經由另外一個變數之數值或另外多個變數以上之數值來加以分析預測。 • 因果關係 • 例: 銷售量與廣告費用之間的變化關係
迴歸預測模型 • 簡單線性迴歸 Simple Linear Regression • 多元線性迴歸 Multiple Linear Regression • 廣義線型模式 GLM (function relation)
迴歸分析目的 • 1.敘述(description):例:節目製作費用與收視率之關係 (了解變數之關係) • 2.控制(control):例:商品價格與需要量之關係,故控制價格,控制需要量(以價制量) • 3.預測(prediction):例:製作費與收視率之關係(可預估收視率)
No. X 年齡 Y 血壓 1 30 73 2 20 50 3 60 128 4 80 170 5 40 87 6 50 108 7 60 135 8 30 69 9 70 148 10 60 132 Total 500 1100 實例研究一~年齡與血壓(簡單線性迴歸) • 今欲研究成人年齡與血壓之間是否呈線性關係,調查10位男性之年齡與血壓如下:
年齡 (年) 體重 (公斤) 血壓 (mmHg) 膽固醇 (mg/100c.c.) 22 58.2 115 175 28 62.0 130 180 25 56.6 122 162 24 52.8 122 160 25 59.5 124 174 26 56.0 126 180 29 54.3 108 156 28 65.1 128 195 30 61.7 120 186 20 50.8 115 165 實例研究二~膽固醇預測研究(多元線性迴歸) • 有位醫生想要探討成人血液中的膽固醇(serun cholesterol)是否受到體重、血壓及年齡的影響,調查10位20至30歲成人男性得到如下結果:
時間數列分析 • 時間數列係指隨時間順序出現之一連串觀測值數列 • 日常生活中所熟悉的數值資料絕大部份皆為隨時間連續觀察所得有順序的觀測值數列集合 • 如失業率,股價,工廠生產線每日產能,季度GNP,及每月某廠牌之化妝品銷售量..等。
時間數列分析~目的 • 對數列未來趨勢作預測(Forecasting) • 透析數列的各種趨勢,如主要趨勢成份(Trend Components)、季節變化成份(Seasonal Components) • 對理論性模式與數據進行適合度檢定,以討論模式是否能正確地表示所觀測之現象,如一些常見的經濟模式。
時間數列分析~假設前提 • 數列為平穩型(stationary) • 或者是透過某些的方法使其平穩 • 最常用的方法是對資料差分(differencing) • 實務分析時經常以數列走勢圖形及一些統計檢定量對數列的基本性質做初步的判斷。
一般可利用隨機變數 (觀測值) 建構時間數列 • 但是時間數列的特殊情況是這些變量卻僅能觀測一次,這是與其他統計分析法所不同的地方。
利用數列的參數模式(parametric modeling)的ARIMA (autoregressive integrated moving average) 模式及較為複雜的多變數 ARMA 模式 • ARMA模式則包含二個重要的子模式 • AR(autoregressive) • MA(moving average) • 當利用ARMA模式對一平穩型數列建模時,即是利用參數來描述資料的記憶型態。
時間數列建模時最重要的觀念即是如何利用過去的資料來判定一個變量的未來走向及不同變量間同期(concurrent)或前後期(lead-lag)之關聯性。時間數列建模時最重要的觀念即是如何利用過去的資料來判定一個變量的未來走向及不同變量間同期(concurrent)或前後期(lead-lag)之關聯性。 • 單變數時間數列模型~Box 和Jenkins • 多變數時間數列模型~如 Box 和 Tiao (1982) 及 Tiao 和 Tsay (1983)。
近年來在非線性及多變數時間數列分析法的領域中有許多新的進展,包含近年來在非線性及多變數時間數列分析法的領域中有許多新的進展,包含 • ARCH models, • threshold AR model, • co-integration, • reduced rank models, • scalar component models, • state-space models。 • 在此介紹最廣為使用及實用的方法 • Box在1980年提出進階的建模技術,並且探究以遞迴的方式對時間數列資料建構模式,及進行預測。
時間數列~Box-Jenkins實例 • 平穩型數列~ 化學反應產出量(每次觀測間隔兩小時)
季節型數列~美國月度國際航空旅遊人數(1949年一月 至1960年十二月)
季節型數列~Magnavox牌彩色電視機月度銷售量(仟台)(1976年一月 至1983年十二月)
多變量時間數列~美國及泰國月度米價(美元/噸)(1969年一月至1991年七月)多變量時間數列~美國及泰國月度米價(美元/噸)(1969年一月至1991年七月) • 美國米價 • 泰國米價
行銷案例~食品業銷售 • 銷售量 • 廣告支出
介入因子~英國汽車乘客配置安全帶法規對車禍死亡之效果介入因子~英國汽車乘客配置安全帶法規對車禍死亡之效果 • 駕駛人死亡人數 • 駕駛人死亡或受重傷人數
時間數列~型態 • 平穩型(Stationary) • 無定向型(Drifting) • 趨勢型(Trend) • 季節型(Seasonality) • 外部影響型(Exogenous effect)
預測問題 • 在實務上的預測問題需要考量的因素不一而足,現舉一個預估每月的電力需求來說明問題的焦點。 • 電力需求(月資料) • 1.預估(Prediction) • a.短期(Short term) • b.長期(Long term) • c.歷史模式(過去模式) (Historical Pattern) • 2.外部變更之影響(Effect of exogenous changes) • a.石油危機(Oil Crisis) • b.經濟蕭條(Economic Recessions) • 3.其他相關變數 • a.溫度(Temperature) • b.職業(Employment) • c.人口(Population) • d.新建房屋數(Housing starts)
從資料分析的角度來考慮,我們需要研究: • 1.數列是否在固定水準上下變動? • 2.此水準是否也在變動? • 3.是否有某種上升或下降的趨勢呢? • 4.是否存在有季節性的模式? • 5.是否季節性的模式也在變更呢?
時間數列模型應用 • 預估與預測(Prediction and Forecasting) • 政策影響分析(Policy Impact Analysis) • 信號突出-季節性調整(Signal Extraction-Seasonal Adjustment) • 過程控制(Process Control) • 隨機系統描述(Description of a Stochastic System)
建構時間數列模型 • 建模步驟: • a.暫定模型(Model Identification) • b.對未知參數作有效的估計(Efficient Estimation) • c.診斷性檢查(Model Checking) -若有必要則回到a. 重做。 • d.統計推論(Statistical Inference)
時間數列模型 • 時間數列有一明顯的特性就是記憶性(memory) • 記憶性系指時間數列中的任一觀測值的表現皆受到過去觀測值影響
時間數列模型 • 其中 稱為記憶函數(memory function),而 所代表的意義即為 對 的影響程度。 • 當一個系統輸入 後, 的產生是以記憶函數 作為權數建立如上式之關係。
MA model & AR model • Udny Yule 發展了一套對平穩型數列非常有用的模型 • 移動平均模型 (Moving Average Model, MA) • 自我迴歸模型 (Autoregressive Model, AR)
MA model • 一階移動平均模型, MA(1) • 其中 稱為白噪音(white noise) • θ為 at 的震動影響或記憶函數(shock effect or memory function) • q階移動平均模型,MA(q)
AR model • 一階自我迴歸模型,AR(1) • 宛如一條迴歸線 Zt-1 是自變數,Zt 是應變數 • p階自我迴歸模型,AR(p)
ARMA model • 對於平穩型時間數列可考慮三種模型: • 一為 p階的自我迴歸模型,AR(p) • 二為q階的移動平均模型,MA(q) • 三為自我迴歸移動平均模型,ARMA(p,q)
均齊無定向模型 • Homogeneous Nonstationary Models • 對無定向型數列可由隨機漫步模型來表達: • 需差分
隨機漫步過程並沒有固定的平均水準 • 經過一階差分(first difference)後 • 成為隨機震動所組成的數列,即變成平穩型的數列。 • 有時候需要二階以上差分,數列才會平穩
後移運算子B • 將前節介紹的模型用另一符號表示 • 定義 • AR(p) • MA(q)
ARIMA(p,d,q) • 其中 • 可寫成 • 其中
模式鑑定 • 自我相關函數ACF ~ 判定MA(q)
模擬MA(2) 之ACF • AUTOCORRELATIONS • 1- 12 -.78 .42 -.16 -.04 .18 -.24 .18 -.06 .04 -.11 .20 -.26 • ST.E. .14 .21 .23 .23 .23 .23 .24 .24 .24 .24 .24 .24 • Q 32.5 42.0 43.4 43.4 45.4 48.8 50.7 50.9 51.0 51.8 54.5 59.0 • -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 • +----+----+----+----+----+----+----+----+----+----+ • I • 1 -0.78 XXXXXXXXXXXXX+XXXXXXI + • 2 0.42 + IXXXXXXXXXX • 3 -0.16 + XXXXI + • 4 -0.04 + XI + • 5 0.18 + IXXXXX + • 6 -0.24 + XXXXXXI + • 7 0.18 + IXXXX + • 8 -0.06 + XI + • 9 0.04 + IX + • 10 -0.11 + XXXI + • 11 0.20 + IXXXXX + • 12 -0.26 + XXXXXXI +
模擬AR(2) , 之PACF • PARTIAL AUTOCORRELATIONS • 1- 12 .86 -.34 -.06 .02 -.18 .01 .10 -.21 -.05 .05 .06 .03 • ST.E. .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 • 13- 24 .07 .10 -.07 -.02 .13 -.08 .02 -.15 -.10 -.03 -.05 -.03 • ST.E. .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 .10 • -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 • +----+----+----+----+----+----+----+----+----+----+ • I • 1 0.86 + IXXXX+XXXXXXXXXXXXXXXX • 2 -0.34 XXXX+XXXXI + • 3 -0.06 + XI + • 4 0.02 + I + • 5 -0.18 +XXXXI + • 6 0.01 + I + • 7 0.10 + IXX + • 8 -0.21 XXXXXI + • 9 -0.05 + XI + • 10 0.05 + IX + • 11 0.06 + IXX + • 12 0.03 + IX +
AR\MA 0 1 2 3 4 0 … 一般ACF 1 … 1st EACF 2 … 2nd EACF 3 … 3rd EACF 4 … … … … • 推廣自我相關函數EACF ~ 判定混合模式ARMA(p,q) • 定義相差j期的第一個EAFC為 且相等於 的第j期的自我相關係數,其中
[Tsay and Tiao (1984)]可知在某一p階的ARMA(p,q)之 • 因此可將表以(0,x)的簡式表達,如下 • SIMPLIFIED EXTENDED ACF TABLE (5% LEVEL) • (Q-->) 0 1 2 3 4 5 6 7 8 9 10 11 12 • ----------------------------------------------- • (P= 0) X O O O O O O O O O O O O • (P= 1) X X O O O O O O O O O O O • (P= 2) X O O O O O O O O O O O O • (P= 3) X O O O O O O O O O O O O • (P= 4) X O O O O O O O O O O O O • (P= 5) X O X O O O O O O O O O O • (P= 6) O X O O O O O O O O O O O
ARMA(0,1)=MA(1) (Q-->) 0 1 2 3 4 5 6 7 8 9 10 11 12 ----------------------------------------------- (P= 0) X O O O O O O O O O O O O (P= 1) X O O O O O O O O O O O O (P= 2) X X X O O O O O O O O O O (P= 3) O O O O O O O O O O O O O (P= 4) O O O X O O O O O O O O O (P= 5) X O O O O O O O O O O O O (P= 6) X O O O O O O O O O O O O ARMA(2,0)=AR(2) (Q-->) 0 1 2 3 4 5 6 7 8 9 10 11 12 ----------------------------------------------- (P= 0) X X X O O O O O O O O O O (P= 1) X X O O O O O O O O O O O (P= 2) O O O O O O O O O O O O O (P= 3) X O O O O O O O O O O O O (P= 4) O X X O O O O O O O O O O (P= 5) O X X O O O O O O O O O O (P= 6) X O X O O O O O O O O O O
ARMA(1,1) • (Q-->) 0 1 2 3 4 5 6 7 8 9 10 11 12 • ----------------------------------------------- • (P= 0) X X X O O O O O O O O O O • (P= 1) X O O O O O O O O O O O O • (P= 2) X O O O O O O O O O O O O • (P= 3) X O O O O O O O O O O O O • (P= 4) X O O O O O O O O O O O O • (P= 5) X O O O O O O O O O O O O • (P= 6) X X O O O O O O O O O O O
實例研究三~對日輸出烏龍茶(ARMA 模式之應用) • 近年來台灣銷往他國的茶葉市場較不如往年表現的亮麗,並且市場有逐漸萎縮的趨勢; • 在另一方面,高級茶的銷路一直都比便宜茶為佳。 • 於是本研究即是研究台灣茶葉輸出對象的大宗之一~日本,探討對日本輸出烏龍茶數量的情形,並對未來幾期的輸出量進行預測。 • 本研究選用1985年1月至1996年2月之對日本輸出烏龍茶數量(單位:公斤)資料,共計122筆。 • 資料來源為臺灣區製茶工業同業工會