671 likes | 1.04k Views
Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Popisná Statistika. Statistika – 2. přednáška. Charakteristiky úrovně
E N D
Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka
Statistika – 2. přednáška • Charakteristiky úrovně • Charakteristiky variability • Charakteristiky tvaru rozdělení
Hodnota (Value) Každá hodnota v souboru má svoji značku. Index i se nahrazuje číslem a označuje, o kolikátou hodnotu v souboru se jedná. Příklad: Počet kotlů na pevná paliva v domácnosti: 1 2 0 2 1 5 1 0 00 1 0 0 1 0 1 0 1 0 1 2 4 3 2 1 1 0 0000000 • x1 = 1 znamená, že 1. hodnota souboru je číslo 1. • x20 = 1 znamená, že 20. hodnota souboru je číslo 1.
Uspořádaná hodnota (Ordered value) Hodnoty uspořádané podle velikosti od nejmenší po nejvyšší. Index v kulaté závorce (i) se nahrazuje číslem a označuje, o kolikátou hodnotu v uspořádaném souboru se jedná. Příklad: Počet kotlů na pevná paliva v domácnosti: Seřazený soubor: • 00000000000000000 1 111111111 2 222 3 4 5 • x(1) = 0 znamená, že 1. hodnota v uspořádaném souboru je 1. • x(20) = 1 znamená, že 20. hodnota v uspořádaném souboru je 1.
Počet hodnot (Count) Udává počet hodnot v souboru n … počet hodnot ve výběrovém souboru N … počet hodnot v základním souboru (populaci)
Minimum(Minimun) Nejmenší hodnota souboru.
Maximum(Maximum) Největší hodnota souboru.
Úhrn, Suma(Sum) Součet všech hodnot souboru (od první do n-té hodnoty). úhrn
Charakteristiky úrovně (polohy) Statistický soubor je nahrazen jen jediným číslem, která v jistémsmyslu vyjadřuje typickou hodnotu popisující celý soubor. • průměry – počítané ze všech hodnot souboru • ostatní střední hodnoty (robustní charakteristiky polohy) – jsou-li v souboru extrémní (odlehlá) pozorování • useknuté průměry, kvantily – nepočítají se ze všech hodnot souboru (část hodnot se úmyslně vynechává)
Aritmetický průměr(Average, Mean) Představuje, jaká část součtu hodnot připadá na jednu jednotku souboru. Poznámka: Citlivý na extrémní hodnoty! Pokud jsou krajní hodnoty souboru příliš vysoké nebo nízké v porovnání s ostatními, vychýlí to hodnotu průměru. Není příliš objektivním statistickým ukazatelem.
Aritmetický průměr(Average, Mean) Příklad:Průměrný počet obyvatel v krajských městech ČRje 222 008. Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad
Aritmetický průměr(Average, Mean) Příklad:Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj. Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad
Vážený aritmetický průměr(Weighted Mean) Vážený průměr se nejvíce využije pro výpočet průměru hodnot uspořádaných do tabulky četností, a dále pokud nejsou hodnoty v souboru stejně důležité. Jeho význam je stejný jako u prostého průměru. Hodnoty musejí mít své váhy wi. Pro tabulku četností je vahou relativní četnost wi= pi= ni/n. Pro součet vah platí, že jejich součet je vždy 1 (Σwi= 1).
Vážený aritmetický průměr(Weighted Mean) Příklad:Průměrná známka z předmětu. Průměrná známka vypočtená váženým průměrem je 3. Průměrná známka vypočtená prostým průměrem je 2,33 – nevhodný způsob výpočtu.
Vážený aritmetický průměr(Weighted Mean) Příklad:Počet kotlů na pevná paliva v domácnosti:
Useknutý průměr(Trimmed Mean ) Stejně velká část největších a nejmenších hodnot (l hodnot) se do výpočtu průměru nezahrne. Např. desetiprocentní uřezaný průměr znamená, že se vynechá 10 % nejnižších hodnot a 10 % nejvyšších hodnot a ze zbytku se počítá průměr. Obvykle se volí 5%, 10% nebo 25% useknutý průměr. Poznámka: Snaha nezahrnout do výpočtu extrémní hodnoty! Odstraňuje nedostatky prostého průměru
Geometrický průměr(Geometric Mean) Použití pro analýzu vývoje ukazatele v čase. Např. k výpočtu průměrné procentuální změny sledovaného ukazatele v čase. Poznámka: Výpočet může být početně velmi náročný a ani MS Excel jej nemusí vždy spočítat.
Harmonický průměr(Harmonic Mean) Používán v indexní teorii. Např. průměrný čas pro určení průměrného výkonu, známe-li doby na stejnou jednotkovou práci nebo průměrná rychlost.
Modus(Mode) Nejčastěji se vyskytující hodnota znaku v souboru. U diskrétních znaků je modem znak s nejvyšší četností. U spojitých proměnných se v histogramu projeví tzv. modální interval (interval s nejvyšší absolutní četností) vrcholem v podobě nejvyššího sloupce. Z dat uspořádaných v tabulce četností lze modus odhadnout jako střed třídy s nejvyšší absolutní četností. Poznámka: Modů může být v souboru více, nebo nemusí být žádný.Jsou-li dva, jde o tzv. bimodální soubor, je-li jeden, je soubor unimodální.
Medián(Median) Hodnota, dělící seřazený soubor hodnot na dvě poloviny. Polovina hodnot souboru je stejná nebo menší než je medián a polovina je větší. Lichý počet hodnot souboru - je prostřední prvek seřazeného souboru. Sudý počet hodnot - je průměr dvou prostředních prvků seřazeného souboru. Z dat uspořádaných v tabulce četností lze medián odhadnout jako střed prvnítřídy s kumulativní relativní četností vyšší než 50 %. Poznámka: Není citlivý na extrémní hodnoty! U souborů s extrémy se upřednostňuje před aritmetickým průměrem.
Charakteristiky úrovně Příklad:Obydlené byty vytápěné plynem podle okresů - Plzeňský kraj.
Charakteristiky úrovně Mzdy v ČR Průměrná hrubá měsíční mzda v ČR v roce 2011 (rok 2010): celkem - muži - ženy - Medián hrubá měsíční mzda v ČR v roce 2011 (rok 2010): celkem - muži - ženy - Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad 25 645 Kč(26 881 Kč) 28 234 Kč (30 192 Kč) 22 389 Kč (22 666 Kč) 21 826 Kč (22 608 Kč) 23 460 Kč (24 693 Kč) 19 808 Kč (20 070 Kč)
Charakteristiky úrovně Mzdy v ČR Graf vývoje průměrné hrubé mzdy a mediánu hrubých mezd v ČR. • Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad
Charakteristiky úrovně Mzdy v ČR Graf rozdělení hrubé mzdy v ČR v roce 2010.
Kvartily(Quartile) 25 % resp. 75 % hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvartilu. x0,25 je dolní kvartil– čtvrtina hodnot je menší nebo rovna tomuto číslu x0,75je horní kvartil– tři čtvrtiny hodnot jsou menší nebo rovna než toto číslo Poznámka: Medián je 50% kvartil (x0,5)!
Kvantil(Quantile) Kvantil je nejobecnější kvantilovou mírou. Zastřešuje předešlé ukazatele. Hodnota kvantilu říká, že 100p% hodnot souboru nabývá hodnoty stejné nebo menší než je hodnota kvantilu xp. Poznámka: Medián je 50%-ní kvantil.Kvartily jsou 25%-ní, 50%-ní a 75%-ní kvantily!Decily jsou 10%-ní, 20%-ní, … , 80%-ní, 90%-ní kvantily!Percentily jsou 1%-ní, 2%-ní, … , 99%-ní, 100%-ní kvantily! Poznámka: lze se setkat i se značením .
KvantilOdhady Kvantilů z Dat Uspořádaných do Tabulky Četností Příklad: Kolik je podle tabulky četností medián souboru? • 10,4 µg/m3. Medián je střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,5.
KvantilOdhady Kvantilů z Dat Uspořádaných do Tabulky Četností Příklad: Kolik je podle tabulky četností dolní kvartil souboru? • 7,0 µg/m3. Dolní kvartil je 25% kvantil, je to první střed prvnítřídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,25.
KvantilOdhady Kvantilů z Dat Uspořádaných do Tabulky Četností Příklad: Kolik je podle tabulky četností 95% kvantil souboru? • 20,6 µg/m3. Je to první střed první třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,95.
ModusOdhad Modu z Dat Uspořádaných do Tabulky Četností Příklad: Kolik je podle tabulky četností modus souboru? • 10,4 µg/m3. Modus je nejčastější hodnota souboru. Je to středtřídy, s nejvyšší absolutní četností.
Krabicový diagram(Box-and-Whisker Plot) Krabicový diagram je často používaný nástroj pro grafické zobrazení ukazatelů polohy, především pro porovnání více souborů mezi sebou. Slouží také odhalení hodnot v souboru, které lze považovat za odlehlé (extrémní hodnoty). Může se jednat o chybná měření, chyby v přepisu dat (např. špatně zapsaná desetinná čárka), neobvyklé extrémy atd. Odlehlé hodnoty jsou takové, které v krabicovém diagramu leží mimo tzv. vnitřní hradby. Pokud se takové hodnoty vyskytují, je to signál, že není vhodné používat např. prostý aritmetický průměr, protože bude vychýlen.
Krabicový diagram(Box-and-Whisker Plot) Aritmetický průměr Horní kvartilx0,75 Horní vnitřní hradbahH= x0,75 + 1,5(x0,75-x0,25)Pokud je hH > maximum, pak je v grafu zakresleno maximum! Extrémní (odlehlé) hodnoty – takových hodnot může být v souboru i více! Medián Dolní kvartilx0,25 Dolní vnitřní hradba hD = x0,25-1,5(x0,75-x0,25)Pokud je hD < minimum, pak je v grafu zakresleno minimum! +
Krabicový diagram(Box-and-Whisker Plot) Porovnání více souborů mezi sebou pomocí krabicového diagramu.
Odlehlá pozorování I pohled na tabulku četností nebo histogram může vést k závěru o existenci odlehlých pozorování v souboru. Nejedná se o exaktní metodu, je však vhodným a jednoduchým začátkem před použitím přesnějších ale složitějších metod. Odlehlé pozorování se projeví osamělou třídou (v grafu jde o osamělý sloupec) extrémně nízkých, nebo naopak extrémně vysokých hodnot. Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci (dodržet odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd) a zahrnout všechna pozorování.
Odlehlá pozorování (Histogram) 49 hodnot se pohybuje v rozmezí 0 – 8 , jedna jediná hodnota je 36. Ta je odlehlým pozorováním. Je jediná ve své třídě, a tato třída je osamocena. Osamocená třída s odlehlým pozorováním.
Odlehlá pozorování (Histogram) 50 hodnot se pohybuje v rozmezí 0 – 8. Žádná třída není osamocena. Podle histogramu se v souboru odlehlá pozorování nevyskytují.
Odlehlá pozorování (Histogram) Histogramy koncentrací kovů v ovzduší (Litoměřice 2007 – 2010)
Charakteristiky variability Vyjadřují proměnlivost hodnot, zda jsou si hodně podobné, nebo zda se od sebe odlišují. Některé míry umožňují srovnání více souborů, jiné ne! • ukazatele rozpětí – počítají se z vybraných charakteristik souboru • rozptyly a směrodatné odchylky– počítané ze všech hodnot souboru • další ukazatele (variační koeficient) – nástroje pro srovnávání různých souborů počítané z dalších charakteristik souboru
Charakteristiky variability Příklad:Doba strávená cestou autem do zaměstnání
Variační rozpětí(Range) Rozdíl mezi nejmenší a největší hodnotou souboru. Poznámka: Stejně jako průměry je citlivý na extrémní hodnoty!
Mezikvartilové rozpětí(Interquartile Range) Rozdíl mezi horním a dolním kvartilem. Je zobrazen v krabičkovém diagramu jako vzdálenost mezi stěnami krabičky. Poznámka: Je založen na kvantilech, takže není citlivý na extrémní hodnoty! Rq
Rozptyl (populační)(Population Variance) Nejpoužívanější míra variability. Vystihuje rozptýlení (disperzi) jednotlivých hodnot souboru kolem aritmetického průměru. Počítá se pro základní soubor. „Aritmetický průměr čtverců (druhých mocnin) odchylek od aritmetického průměru.“
Rozptyl (výběrový)(Sample Variance) Počítá se při práci s výběrovým souborem. Vztah mezi populačním a výběrovým rozptylem:
Vážený rozptyl (výběrový)(Sample Weighted Variance) Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro váhy wi. Pro tabulku četností je vahou relativní četnost wi= pi= ni/n. Pro součet vah platí, že jejich součet je vždy 1 (Σwi= 1).
Vážený rozptyl (výběrový)(Sample Weighted Variance) Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou uspořádána v tabulce četností. Vzorec je uveden pro absolutní četnosti ni z tabulky četností.
Vážený rozptyl (populační)(Population Weighted Variance) Vážený populační rozptyl se používá, pokud jsou k dispozici veškerá data o základním souboru. Vzorec je uveden pro absolutní četnosti Niv tabulce četností
Směrodatná odchylka (populační)(Population Standard Deviation) Na rozdíl od rozptylu je odchylka uvedena ve stejných jednotkách jako aritmetický průměr. Poznámka: populační směrodatná odchylka není nic jiného než odmocninaz populačního rozptylu.