470 likes | 600 Views
STATISZTIKA II. 13. Előadás. Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék. Egyéb simító eljárások.
E N D
STATISZTIKA II.13. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék
Egyéb simító eljárások Az exponenciális simítástól eltérő szűrők is léteznek. A pénzügyi-banki gyakorlatban népszerű a Hodrick-Prescott-szűrő. A szűrő meghatározására tekintsük a következő minimumfeladatot: ahol λ egy simító, szűrő faktor, mely nemnegatív értéket vehet fel. Ha λ=0, akkor a második tag eltűnik, az első tagban szereplő négyzetösszeg pedig akkor lesz minimális, ha minden t-re, azaz a simított értékek megegyeznek az eredeti idősor értékeivel. Ahogy nő λ értéke, úgy kap egyre nagyobb súlyt a második tag, ami az ytsimaságát preferálja, mivel a második differenciát azaz az egyes pontok kilengését csökkenti. A szűrő olyan értékeket eredményez, amelyek közel állnak az eredeti megfigyelésekhez, ugyanakkor simák. Logaritmált negyedéves idősorok esetén λ=1600 érték a javasolt.
Előrejelzés (forecast) Az idősorelemzés legérdekesebb eleme az előrejelzés (forecast). ex post (hátratekintő becslés): a megfigyelési időszakra becslünk, ahol tényleges idősoros megfigyeléseink léteznek ex ante (időben előretekintő becslés): a megfigyelési időszakon kívülre becslünk Az előrejelzés elvi alapja az, hogy a vizsgált jelenség természetének ismeretében valami törvényszerűséget keresünk, ami szerint a jelenség alakul, és ezt változatlannak feltételezzük a megfigyelési időszakon kívülre is. Az előrejelzések készítésekor mindig lényeges szem előtt tartani azt, hogy nem (csak) formai szabályszerűségeket (pl. trend alakját) akarunk előrevetíteni, hanem az ezek mögött meghúzódó tényleges szabályszerűségeket.
Előrejelzés (forecast) Az előrejelzés idősoros módszerei: • Szakértői módszerek nem használnak fel modell, hanem a vizsgált jelenség, az arra ható tényezők és összefüggések ismeretében adnak becslést a jövőbeni értékekre. A szakértői előrejelzést gyakran alkalmazzák együtt a grafikus előrejelző módszerrel. • Trend-extrapoláció az analitikus trendfüggvénybe t=n+1, n+2, …-t helyettesítve tetszőleges időtávra megkaphatjuk a trend értékeit (előrejelzett értékek). Veszély!!!! (ha a tendencia nem érvényesül tovább)
Előrejelzés (forecast) Az előrejelzés idősoros módszerei: • Simító eljárások azok, amelyek nem használnak fel a simításhoz folyó időszaki vagy jövőbeli értékeket. A legegyszerűbb modell: A mindenkori állapot az előző időszakban mért állapot konstans-szorosa, amit egy véletlen változó módosít. • Komplex idősoros modellek • A módszerek kombinációja pl. a különböző típusú trendfüggvények kombinálása, a szakértői és a modellből kapott előrejelzések kombinálása (általában súlyozott átlagolást jelent)
Előrejelzés (forecast) Az előrejelzések mindig bizonytalanok. Bizonytalanság forrásai: • Hibás vagy nem pontos az alkalmazott módszer • A módszer jó, de változások következtek be a körülményekben, így a vizsgált jelenség a jövőben másképp fog alakulni • Az előrejelzés, mint becslés tartalmaz statisztikai jellegű hibát – az előrejelzések mindig közelítő értékek Ezt a bizonytalanságot mérni kell. információ a döntéshozónak és több előrejelzés összehasonlíthatósága miatt
Előrejelzés (forecast) A fontosabb mutatók: • MSE (Mean Squared Error – átlagos négyzetes hiba): ahol az eredményváltozó becsült (előrejelzett), yt pedig a tényleges értéket jelenti, k a becsléshez felhasznált paraméterek száma, n a megfigyelések számát jelöli. • RMSE (Root Mean Squared Error): a MSE négyzetgyöke.
Előrejelzés (forecast) A fontosabb mutatók: • APE (Absolute Percentage Error – abszolút százalékos hiba): Ezt a mutatót minden egyes t értékre külön kell kiszámítani, ezért csak az egyes becslések százalékos hibáját adja meg. • MAPE (Mean Absolute Percentage Error – átlagos százalékos abszolút hiba): Az APE átlagolásával kapjuk meg.
Előrejelzés (forecast) A mutató számok nem számolnak az idősor jellegével, azzal, hogy az idősorok értékeinek sorrendje is lényeges, hiszen tendenciát mutat. Ezért használhatjuk a korreláció mutatóját a tényleges és a becsült értékek közötti kapcsolat vizsgálatban: Az ismertetett mutatókat valójában csak utólag lehetne kiszámítani, de ekkor már értelmüket vesztik. Ezért a gyakorlatban a megfigyeléseket két részre osztják: • Becslésre használt adatok (nagyobb rész): nb • Ellenőrzésre használt adatok (az utolsó néhány megfigyelés) ne
A keresztellenőrzés (cross validation) sémája Megfigyelés van nincs npr nb ne Becslés Ellenőrzés Előrejelzés
Előrejelzés (forecast) Mindig próbáljuk meg szakmai elemzéssel, ellenőrzéssel kiegészíteni a formális modelleket. Homogenizálni kell az idősort (a bekövetkezett tartalmi és módszertani változásokat át kell vezetni az idősoron). Elegendően hosszú idősor – előrejelzés ne legyen túl hosszú • homogén idősor 1/3-a • elemszám 1/10-e • elemszám négyzetgyöke
Előrejelzés (forecast) Az orvosok száma Magyarországon 1980 – 2004 között Becslési időszaknak az 1980-2000 szelvényt választottuk, a 2001-2004 közötti adatokat a keresztellenőrzés céljára használtuk fel. A tényleges előrejelzés 2005-2007-re történt.
Előrejelzés (forecast) A becslési időszak 1980-2000 volt (nb=21), ezen adatok alapján becsültük a lineáris trendet. Ennek egyenlete: ahol t=1, 2, …, 21 Ezzel készítettük el a becslési időszakra vonatkozó (ex post) előrejelzéseket, valamint az ellenőrző előrejelzéseket (ne=4) a 2001-2004 időszakra.
Az előrejelzést értékelő mutatók a következők voltak: A becslés hibája 2 %. A tényadatok és a becsült értékek közötti korreláció nagy. Ezek alapján lehet előre becsülni. npr=3
Az idősorelemzés gyakorlataA tartós irányzat meghatározása Az eddigi idősoros modellek együttes alkalmazása A dekompozíciós modellek a gyakorlatban első elem a trend: - analitikus (szakmai ismeretek a trend típusáról) mezőgazdaságban foglalkoztatott létszám (lineárisan csökken, de meddig – negatív tartomány??) beruházások, lakossági kiadások – exponenciális modell (általános növekedés * árszínvonal növekedés) - mozgó átlagolású (tagszám problémája) nagyobb tagszám jobban simít, a trendet vagy a ciklust (hullámot) is eltüntetheti a számítógépes programok többféle tagszámmal való kísérletezést tesznek lehetővé
Az idősorelemzés gyakorlataA tartós irányzat (trend) meghatározása Mikor melyiket használjuk??? Előre akarunk-e jelezni? (analitikus trend) Ha nem akarunk előre jelezni (mérlegelni kell az idősor jellegét: egyszerű függvénnyel leírható tendencia – analitikus trend több ingadozás – rugalmasabb mozgó átlag Additív – multiplikatív modell (nem dönti el a trend típusát)
A szabálytalan ciklusok meghatározása A nem szabályos, hosszabb távú ciklus(ok) meghatározása a kétféle trendszámítás eredményeinek összevetésével történik. Analitikus trend: • feltételez egy ismert analitikus függvényt, amely jól leírja a hosszú távú tendenciát, • magába foglalja a függvény ismeretlen paramétereinek becslését, amely paraméterek fontos jellemzői lehetnek az időszaknak, • lehetőséget ad trendelőrejelzések készítésére. Mozgó átlagolású trend: • nem szükséges előre rögzíteni a növekedési pálya jellegét, • nincs jellemzésre használható paraméter, • csak a megfigyelési időszak egy részére készíthető becsült trendérték. Analitikus trendMozgó átlagolású trend több feltételezés - kevesebb feltételezés - több eredmény kevesebb eredmény
A szabálytalan ciklusok meghatározása Hogyan mutatható ki a c, a szabálytalan természetű közép-, illetve hosszú távú konjunktúraciklus? Az analitikus trend és amozgó átlagolású trend kombinált alkalmazásával Az analitikus trendszámítás olyan egyszerű függvényeket használ, amelyek a ciklust nem tudják (nem is akarják) leírni – így a ciklus megléte esetén is csak a trend meghatározására alkalmas. Mozgóátlagolás esetén, ha a ciklus hullámhossza elég nagy, akkor a mozgóátlagolás a trend és a ciklus összegét adja meg. Ezért a kettőt együttesen alkalmazva kimutatható a (szabálytalan) ciklus is.
A szabálytalan ciklusok meghatározása A gyakorlatban kétféle eljárást alkalmaznak: • Először az idősor mozgóátlagolású trendjét számítjuk ki, majd ezekből analitikus trendet számítunk. A két trend különbsége (hányadosa) megadja a ciklust. • Először analitikus trendet illesztünk, majd ezt (additív modell esetén) levonva az idősor elemeiből , a kapott maradék a ciklust, a periodikus ingadozást és a véletlen komponenst tartalmazza. Ebből mozgóátlagolás segítségével határozzuk meg a ciklus empirikus értékeit. Kondratyev ciklus: A kőszéntermelés alakulása Angliában 1855 és 1917 között (tonna/ezer fő) Analitikus trend a hosszú távú tendenciára, majd ezt kiszűrve a maradékokból 9 tagú mozgóátlagolásútrendet számított (rövid távú ingadozásnak 9 évet feltételezett). Az eredmény a gazdaság középtávú ciklusa (egy 40 éves és egy 20 éves ciklus).
A szezonalitás elemzése Az idősorelemzés dekompozíciós alapmodelljeiben a trend és a ciklus mellett a szezonális ingadozásokat kifejező s, illetve s* szerepel. Szezonális ingadozásnak: a rendszeresen ismétlődő, azonos hullámhosszú (periodicitású) és szabályos amplitúdójú, többnyire rövid távú ingadozásokat tekintjük. Naptári vagy gazdasági éven belüli havi, negyedéves, ritkábban az egyes hónapokon vagy heteken belül dekádonkénti vagy napi ingadozásokat jelent. pl. idénycikkek ára és forgalma, energiafelhasználás, heti időszakon belül a kiskereskedelem napi forgalma
A szezonalitás elemzése Az s, illetve s* empirikus értékeinek becslése: • módszerünk az, hogy (átmenetileg) kiszűrve a megfigyelt idősorból a trendet, feltételezve a középtávú ciklus hiányát, a maradék csak szezonális és véletlen hatást fog tartalmazni. Ebből átlagolással választjuk le a véletlen összetevőt. Módosított jelölésrendszer: A megfigyelt idősor elemeit két indexszel (i és j) látjuk el: i az egyes periódusok sorszámát, j a perióduson belüli időszakok (szezonok) sorszáma. Legyen a perióduson belüli időszakok száma p, i=1, 2, …, n/p. Feltételezzük, hogy n/p egész szám, ami azt jelenti, hogy idősorunk csak teljes periódusokból áll (ha nem el kell hagyni az idősor elején annyi időszakot, hogy ez teljesüljön).
A szezonalitás elemzése Ha pl. két évre vannak negyedéves adataink, akkor p=4 (a négy negyedév miatt), n=8 (az összes megfigyelés száma) és n/p=2, azaz két teljes periódusra vannak megfigyeléseink. Ekkor j a negyedév sorszámát, i az év sorszámát adja meg. Additív modell és hiányzó szabálytalan ciklus esetén felírható: egyenlet, ahol valamely korábban ismertetett módszerrel meghatározott trendértékeket, eija véletlen komponensnek a trendszámítás után maradt értékeit jelentik. Az s indexében csak j és nem i és j szerepel. Azért mert feltételezzük a szezonalitás állandóságát, azaz azt, hogy a szezonalitást kifejező komponens értéke csak attól függ, hogy melyik szezonban vagyunk (j), de attól nem, hogy az adott szezon hányadik periódusban van (i).
A szezonalitás elemzése A szezonális hatásokat kifejező nyers szezonális eltéréseket (sj, j=1, 2, …, p) úgy becsüljük, hogy a tényleges (megfigyelt) idősorból rendre levonjuk a megfelelő trendértékeket, és a maradékot szezononként (minden p-re) egyszerű számtani átlaggal átlagoljuk. Az sj becsült nyers szezonális eltérés azt mutatja meg, hogy a megfigyelt idősor a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő szezonhatás következtében. Az sj mértékegysége megegyezik a megfigyelt idősor eredeti mértékegységével. Természetes követelmény, hogy a szezonális hatások egy perióduson belül kiegyenlítsék egymást, azaz álljon fenn.
A szezonalitás elemzése Ezért gyakran az sj nyers szezonális eltérés helyett az korrigált szezonális eltéréseket használjuk a szezonhatások jellemzésére, azaz a nyers szezonális eltéréseket a saját átlaguktól vett eltéréssel helyettesítjük. A korrigált szezonális eltérések átlaga (és összege) így már 0 lesz.
Elemezzük a vasúti áruszállítás teljesítményének alakulását Magyarországon 1994-2005 között! Először képezzük a tényadatok és a trend (mozgó átlagolású trend) különbségeit, majd ezeket szezononként (negyedévenként) csoportosítva átlagokat számítunk.
A szezonalitás elemzése Az idősor eredetileg 48 megfigyelést tartalmazott, de a mozgó átlagolás során ez 4-gyel rövidült, így a szezonális eltérések számításánál n=44 elemmel számolhatunk. Mivel a negyedéves szezonális feltételezésből adódóan p=4, így n/p=11, ami azt jelenti, hogy minden szezon esetében 11 adatunk van az átlag kiszámításához. Ezek alapján pl. s4 értéke: A táblázat utolsó sorában szereplő átlagok a becsült nyers szezonális eltérések. Annak érdekében, hogy a becsült szezonális eltérések összege 0 legyen el kell végeznünk egy korrekciót.
A szezonalitás elemzése Mivel Így pl. az első negyedévi korrigált szezonális eltérése: Ehhez hasonlóan a többi szezonális eltérés kerekített értéke (valamennyi mértékegysége ezer tonna). A kerekítési hibáktól eltekintve ezek összege már 0. Ha lineáris trendtől mérjük az eltéréseket, a legkisebb négyzetek módszere miatt a maradékok összege 0 (nincs szükség korrekcióra).
A szezonalitás elemzése A korrigált szezonális eltérés (a nyers szezonindexhez hasonlóan) azt mutatja meg, hogy a megfigyelt idősor a j-edik szezonban átlagosan mennyivel tér el a trendértéktől a szabályosan ismétlődő szezonhatás következtében. Az tehát azt jelenti, hogy a negyedik negyedévben átlagosan mintegy 3050 ezer tonnával többet szállítottak annál, mint ami a hosszú távú tendenciából az egyes évek utolsó negyedéveire következne. Ez a 3050 ezer tonna tehát a trendtől való rendszeres eltérések átlaga a 4. negyedévben. A vasúti áruszállítás szezonális jellemzője az erős utolsó negyedév.
Multiplikatív modell Multiplikatív alapmodell esetén az előzőekkel analóg módon járunk el. A megfigyelt idősorra felírható, hogy majd a trendértékekkel osztva mindkét oldalt, átlagot számítunk minden j-re. Így kapható a trendtől megtisztított adatokból az szezonindex becslése, amit nyers szezonindexnek nevezünk. Az becsült nyers szezonindex azt fejezi ki mértékegység nélkül, illetve %-os formában, hogy a j-edik szezonban a megfigyelt idősor a szezonhatás következtében átlagosan hányszorosa a trendértéknek.
Multiplikatív modell Ebben az esetben a szezonindexek 1 körül mozognak és átlaguk kívánatos értéke 1, ezért a szezonindexre is célszerű korrekciót végezni. A korrekció a nyers szezonindexek számtani átlagával való osztást jelenti, azaz ahol a nevezőben a szezononként számított átlagok jelennek meg. Az így kapott korrigált szezonindexek számtani átlaga már 1 lesz, hiszen
A szezonalitás elemzése Additív vagy multiplikatív modell választása???? Ha feltételezhetjük azt, hogy a szezonalitásnak a hullámhossza és az amplitúdója is állandó, azaz minden egyes periódusban azonos mértékű a kilengések nagysága, akkor ez a szezonalitás állandó mértékével (szezonális eltéréssel) jellemezhető. Ha feltételezhető, hogy a szezonalitás amplitúdója a trendértékkel arányosan változik, tehát magasabb szinten nagyobbak a kilengések, alacsonyabb szinten arányosan kisebbek, azaz a kilengések trendhez viszonyított aránya nagyjából állandó, akkor multiplikatív modell (szezonindex) használata ajánlható.
Multiplikatív modell A Magyarországra érkező osztrák turisták ezer főben adott számának negyedéves idősorát elemezzük. Az idősorból 4 tagú mozgóátlagokat számítottunk.
Az osztrák turisták számának alakulása és 4 tagú mozgó átlaga ezer fő negyedév sorszáma
Multiplikatív modell Az ábrából jól látszik, hogy a szabályos szezonális ingadozások a trenddel arányosan változnak (magasabb értékhez nagyobb kilengések tartoznak) Ez a multiplikatív modell alkalmazását és a szezonindex számítását indokolja.
A táblázatban a trendtől megtisztított adatok szerepelnek és ezek oszloponkénti átlaga adja meg a nyers szezonindexet.
Multiplikatív modell Az első oszlop esetében: A korrekcióhoz el kell készíteni az értékek átlagát, majd ezzel osztva a nyers indexeket kapjuk azt, hogy Hasonló módon eljárva
Multiplikatív modell A szezonindexek tartalmát értelmezve, az például azt jelenti, hogy az osztrák turisták száma az I. negyedévben átlagosan és tartósan csak 0,6970-szorosa, azaz 69,7%-a a tartós irányzatból egyébként adódó trendértéknek, vagy 30,3%-kal kevesebb, mint a trendérték. Ez azt mutatja, hogy az első negyedév az idegenforgalom szempontjából gyengének számít.
Multiplikatív modell A szezonindex ismeretében bármely múltbeli értékre (ex post) elvégezhető az idősor felbontása. Ha pl. a 2000. I. negyedévére akarjuk elvégezni a felbontást, akkor és így ahol a 0,9051, azaz a véletlenhez tartozó konkrét érték maradékként kapható: Értelmezése az, hogy ebben az időszakban (2000. I. negyedév) a tartós és állandó tendenciáktól (trend+szezon) mintegy 9,5%-kal maradt el a turisták tényleges száma, ami egyedi (nem ismétlődő) hatásoknak (pl. kedvezőtlen időjárás) tudható be.
Szezonális kiigazítás Ha az így kapott szezonális mutatók segítségével a megfigyelt idősort megtisztítjuk a szezonalitástól, akkor ezt az eljárást szezonális kiigazításnak (seasonal adjustment), a kapott idősort pedig szezonálisan kiigazított idősornak nevezzük. X12-ARIMA, TRAMO-SEATS A szezonalitást az előrejelzésbe is bele tudjuk építeni, ha az alaptendencia továbbra is jellemző lesz.