1 / 117

Statistika

Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Analýza časových řad. Analýza časových řad. Úvod do časových řad

tahlia
Download Presentation

Statistika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka

  2. Analýza časových řad

  3. Analýza časových řad • Úvod do časových řad • Elementární charakteristiky • Jednorozměrné modely • Trendová složka • Sezónní složka • Náhodná složka • Předpovědi

  4. Úvod do časových řad Časová řada je posloupnost hodnot určitého statistického znaku (ukazatele) uspořádaných z hlediska času ve směru od minulosti k přítomnosti.

  5. Úvod do časových řad Musí se jednat o ukazatel, který je věcně a prostorově shodně vymezen po celé sledované období. Např.: měsíční ceny výrobku mohou být vyjádřeny v Kč, což ovšem vzhledem k neustále probíhající inflaci není dlouhodobě srovnatelný způsob vyjádření – věcně není stejně vymezen!

  6. Úvod do časových řad Např.: sledujeme-li počty krádeží ve sledované oblasti (okres, kraj) za rok, můžeme zaregistrovat jejich náhlý pokles, který je ovšem způsoben jen tím, že zákonem byla zvýšena hodnota minimální způsobené škody nutné k zahrnutí mezi krádeže - věcně není shodně vymezen!Prostorově však je shodně vymezen – je to tentýž kraj.

  7. Úvod do časových řad Hodnoty časové řady se standardně značí symbolem yt, kde t je pořadí hodnoty časové řady. t nabývá nejčastěji hodnot 1, 2, … , n nebo 0, 1, … , n. Hodnoty jsou řazeny od nejstarší po nejnovější.

  8. Úvod do časových řad Dále je možné značit konkrétněji y1995, y1996, ... , y1997 , kde indexy označují přímo rok pozorování. Lze také psát yI/1995, yII/1995, ... , yIV/1997 pro čtvrtletní údaje nebo yleden/1995, yúnor/1995 … pro měsíční údaje atd.

  9. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • časové hledisko • periodicita sledování • způsob vyjádření

  10. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • časové hledisko 1. okamžikovéčasové řady - udávají stav ukazatele v určitých okamžicích. Hodnoty stavu nezávisejí na časových vzdálenostech (intervalech) mezi okamžiky sledování. Sčítání hodnot řady nemá logický význam. Např.: řada teplot ovzduší na hydrometeorologické stanici odečítaná každou hodinu; řada udávající počet zaměstnanců podniku na konci měsíce; řada koncentrací nečistoty v odpadních vodách měřená v pravidelných intervalech na výstupu ze závodu.

  11. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • časové hledisko 2. intervalové časové řady - hodnoty sledují vznik nebo zánik prvků za časový interval a závisejí na délkách intervalů. Časová řada udává změny (přírůstek, úbytek) za určité období. Hodnotu ukazatele za delší časový úsek lze získat sčítáním hodnot za dílčí části tohoto úseku (roční údaj je součtem údajů měsíčních). Např.: počty narozených dětí ve státě za rok; produkce nebo spotřeba při výrobě za měsíc; počet autonehod za den.

  12. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • periodicita sledování 1. dlouhodobé časové řady – údaje měřené jednou za rok nebo za delší období. Nejčastěji se vyskytují roční časové řady. Např.: výroba za komunisty oblíbenou pětiletku; počet narozených dětí v Čechách za rok.

  13. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • periodicita sledování 2. krátkodobé časové řady– údaje měřené za období kratší než jeden rok. Např.: čtvrtletní, měsíční, týdenní, denní, hodinové (koncentrace NOx v ovzduší), minutové a dokonce i vteřinové časové řady (burza cenných papírů).

  14. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • způsob vyjádření 1. peněžníčasové řady– ukazatel je veden v peněžních jednotkách (domácí i zahraniční měny). Např.: nejčastěji u ekonomických časových řad – ceny téměř čehokoliv, platy, zisk, měnové kurzy.

  15. Úvod do časových řad Časové řady lze dělit podle několika hledisek: • způsob vyjádření 2. naturálníčasové řady– ukazatel je veden v naturálních jednotkách. Např.: jakékoliv jiné jednotky než peněžní (počty událostí, koncentrace látek ve vodě, vzduchu).

  16. Úvod do časových řad Příklad 1: Těžba uhlí v letech 1993 a 1994 – měsíční údaje. Spojnicový graf je ideální pro zobrazení vývoje časové řady

  17. Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Časová řada je intervalová (udává celkové vytěžené množství za měsíc), krátkodobá (měsíční údaje) a naturální (ukazatel je v tisících tun). Intervalovou řadu má smysl sčítat.Roční součet udává celkovou těžbu za rok 2009 (45 160 tis. t) a za rok 2010 (43 774 tis t).

  18. Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Smysl mají i rozdíly. V roce 2010 bylo vytěženo o 1 386 tun uhlí méně než v roce 2009. Rozdíly pro jednotlivé měsíce pak udávají změny z pohledu jednotlivých měsíců. V lednu 2010 bylo vytěženo o 526 tun uhlí méně než v lednu předchozího roku.

  19. Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Klouzavé úhrnyjsou součtem za určité období délky p: Yn(p)= yn-p+1 + yn-p+2 + ...+ + yn-1 +yn = Za období červenec 2009 až červen 2010 (p=12) bylo vytěženo 43 719 tisíc tun uhlí.

  20. Úvod do časových řad Příklad 1: Těžba uhlí v letech 2009 a 2010 – měsíční údaje. Význam má i výpočet aritmetického průměru podle vzorce: yi/ n MS EXCEL= PRŮMĚR(oblast) V průměru bylo v letech 2009 a 2010 vytěženo 3 706 tis. tun uhlí měsíčně. V roce 2009 byl průměr 3 763 tis. tun a v roce 2010 3 648 tis. tun měsíčně.

  21. Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Časová řada je okamžiková (udává zásobu uhlí k určitému datu), krátkodobá (měsíční údaje) a naturální (ukazatel je v tunách). Okamžikovou řadu nemá smysl sčítat.

  22. Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010).

  23. Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Počítá se tzv. chronologický průměr: který je průměrem z průměrů dvou po sobě jdoucích hodnot. Tento vzorec lze použít, pokud je doba mezi odečty vždy stejná.

  24. Úvod do časových řad Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Pokud doba mezi odečty není vždy stejná, je nutné počítat vážený chronologický průměr, kde vahami jsou délky intervalů mezi odečty(ti – ti-1)/Σ(ti – ti-1).

  25. Elementární charakteristiky Příklad 2: Koncentrace dusíku v Bílině (Most;2010). Vážený chronologický průměr: Průměrná koncentrace v roce 2010 byla 4,41 mg/l.

  26. Elementární charakteristiky K orientačnímu posouzení vlastností časových řad lze využít: • absolutní diference1. řádu – rozdíly dvou po sobě jdoucích hodnot časové řady. Vyjadřují absolutní změny mezi dvěma obdobími. Δt,t-1 = yt – yt-1pro t = 2,3,...,n. • absolutní diference2. řádu –rozdíly dvou po sobě jdoucích hodnot řady diferencí 1. řádu. Δ(2)t,t-2 = Δt,t-1 – Δt-1,t-2pro t = 3, 4 ...,n.

  27. Elementární charakteristiky K orientačnímu posouzení vlastností veškerých časových řad lze využít: • průměrné diference – průměrná hodnota diferencí za sledované období

  28. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

  29. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Absolutní diference(diference 1. řádu): Δ2010,2009= y2010– y2009== 4 654 969 - 5 903 156 = 1 248 187 MWhV roce 2010 vzrostla oproti roku 2009 výroba el. z obnovených zdrojů v ČR o 1 248 187 MWh.

  30. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

  31. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné diference: Mezi roky 2003 až 2010 rostla výroby elektřiny z obnovitelných zdrojů v průměru o 574 885 MWh za rok.

  32. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Absolutní diference(diference 2. řádu): Δ(2)2010,2008== Δ2010,2009 – Δ2009,2008== 1 248 187 - 923 956 = = 324 231 Praktická interpretace ukazatele již nemá smysl, používá se k odhalení trendu vývoje časové řady.

  33. Elementární charakteristiky • tempa růstu (řetězové indexy) – podíl dvou po sobě jdoucích hodnot. pro t = 2, 3, ...n.Je to relativní (procentuální) změna mezi dvěma po sobě následujícími obdobími. • průměrná tempa růstu – jsou geometrickým průměrem vypočítaným z řady temp růstu a udávají průměrnou relativní (procentuální) změnu za sledované období.

  34. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Tempo růstu: V roce 2010 vzrostla oproti roku 2009 výroba elektřiny z obnovitelných zdrojů o 27 %. V roce 2007 klesla oproti roku 2006 výroba elektřiny o 3 % (doplněk do 100%, tedy 100 % - 97 %).

  35. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů.

  36. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Průměrné tempo růstu: V období mezi roky 2003 – 2010 rostla výroby elektřiny v průměru o 19 % za rok.

  37. Úvod do časových řad Příklad 4: Výroba elektrické energie v ČSSR a ČR

  38. Jednorozměrný model Jednorozměrný model časové řady je nejjednodušším modelem, ale zároveň i nejvíce využívaným. Stejně jako v regresní analýze je model zjednodušením reality.

  39. Jednorozměrný model Klasický (formální) model nemá ambice nalézt a popsat věcné příčiny vývoje časové řady. Zabývá se pouze popisem pohybu časové řady. Vychází z historického vývoje ukazatele. Např.: nehledá příčiny rostoucí výroby elektřiny, jen popisuje, jak se tento ukazatel v čase vyvíjí.

  40. Jednorozměrný model Formální model rozkládá časovou řadu na čtyři složky (dekompozice časové řady). Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy.

  41. Jednorozměrný model Jednotlivé složky časové řady jsou: • Trendová složka (Tt) Dlouhodobá tendence ve vývoji časové řady.Trend může být rostoucí, klesající, konstantní (časová řada kolísá kolem určité hodnoty) nebo může vykazovat parabolický průběh.

  42. Úvod do časových řad Příklad 3: Výroba el. energie v ČR z obnovitelných zdrojů. Časová řada s rostoucím trendem.

  43. Úvod do časových řad Příklad 5: Průměrná roční teplota v letech 1775 – 2007. Časová řada s parabolickým trendem.

  44. Jednorozměrný model Jednotlivé složky časové řady jsou: • Sezónní složka (St) Jde o pravidelně se opakující odchylku od trendové složky.Tato odchylka je kratší než jeden rok nebo je rovna právě jednomu roku. Doba po které se odchylka opakuje se nazývá perioda.

  45. Úvod do časových řad Příklad 6: Spotřeba tepla na výměníku v Litvínově Časová řada se sezónní složkous periodou dvanáct měsíců.

  46. Jednorozměrný model Jednotlivé složky časové řady jsou: • Cyklická složka (Ct) Jde o kolísání kolem trendu v důsledku dlouhodobého vývoje s délkou vlny delší než jeden rok. U kratších časových řad (maximálně několik let se téměř nevyskytují).Např.: hospodářské, demografické, strojírenské, inovační, klimatické cykly.

  47. Jednorozměrný model Jednotlivé složky časové řady jsou: • Náhodná složka (εt) Ta část časové řady, kterou nelze popsat pomocí trendu, sezónní nebo cyklické složky.Jsou to výkyvy časové řady vlivem drobných a nepostižitelných příčin nebo vlivem náhody.Analýza vlastností náhodné složky je stejně jako u regresní analýzy důležitým nástrojem pro volbu vhodného modelu.

  48. Jednorozměrný model Není podmínkou, že všechny složky jsou v každé časové řadě obsaženy. Aditivní model (složky se sčítají): Yt = Tt + St + Ct + εt V praxi velmi často používaný. Multiplikativní model (složky se násobí):Yt = Tt· St· Ct·εt

  49. Trendová složka Ad 1. Trendová složka (Tt) je dlouhodobá tendence ve vývoji časové řady. Popis trendové složky vede k získání informací o hlavní tendenci ve vývoji analyzovaného ukazatele. Může také posloužit pro odhad (předpověď) ukazatele do budoucnosti. Nejčastěji se popisuje prostřednictvím konkrétní matematické funkce.

More Related