870 likes | 1.42k Views
Základní statistické charakteristiky. Údaje nestačí charakterizovat jenom střední hodnotou. Omezenost středních hodnot spočívá v tom, že udávají pouze to, kolem jaké hodnoty se data „centrují“, resp. které hodnoty jsou nejčastější.
E N D
Údaje nestačí charakterizovat jenom střední hodnotou. Omezenost středních hodnot spočívá v tom, že udávají pouze to, kolem jaké hodnoty se data „centrují“, resp. které hodnoty jsou nejčastější. Data se stejnou střední hodnotou mohou mít různou rozptýlenost. Velikost proměnlivosti dat zachycujeme vhodně vybranou mírou rozptýlenosti dat. Existuje mnoho měr rozptýlenosti a záleží na okolnostech, kdy a které použijeme. Numerické charakteristiky tvaru rozdělení dat mají důležitý význam při kondenzaci dat do několika málo údajů (nejlepší představu o datech nám ale poskytuje graf).
Charakteristiky variability (rozptýlenosti) • měří rozptýlení hodnot příslušného souboru, tzn. určují rozmezí, v němž se výběrové údaje vyskytují • využívají se k posouzení vypovídací schopnosti aritmetického průměru • Obecně lze říci, že vypovídací schopnost aritmetického průměru je tím větší, čím je variabilita sledovaného znaku menší. • rozšiřují informace o statistickém souboru
Míry (charakteristiky) variability • Absolutní – charakterizují měnlivost statistického souboru v absolutní velikosti, tzn. ve stejných jednotkách, jaké má znak (kg, l, m apod.) Mohou být vyjádřeny ve formě: • prosté – není provedeno třídění, • vážené – bylo provedeno třídění. • Relativní – slouží k porovnávání variability statistických znaků lišících se měrnou jednotkou • – měří variabilitu v poměru k úrovni • sledovaného znaku
Absolutní charakteristiky variability • Variační rozpětí • rozdíl největší a nejmenší hodnoty znaku • R = xmax – xmin • Přednost: • – rychlost výpočtu a jednoduchá interpretace • Nevýhody: • výskyt extrému vyvolá značnou velikost R (velká citlivost vůči odlehlým hodnotám) • neříká nic o variabilitě hodnot uvnitř R
Průměrná absolutní odchylka • aritmetický průměr absolutních individuálních odchylek jednotlivých hodnot znaku X od aritmetického průměru • používá se výhradně pro přímé vyjádření úrovně variability • Prostá forma Vážená forma
Rozptyl • měří současně variabilitu hodnot kolem aritmetického průměru a také variabilitu ve smyslu vzájemných odchylek jednotlivých hodnot znaku • je definován jako průměrná kvadratická odchylka měření od aritmetického průměru (průměr čtverců odchylek jednotlivých hodnot znaku od jejich aritmetického průměru) • dává větší váhu extrémnějším hodnotám než průměrná absolutní odchylka • používá se především při statistické indukci, např. při výpočtu různých testovacích statistik
Prostá forma rozptylu Výpočtové tvary rozptylu
Vážená forma rozptylu Výpočtový tvar
Směrodatná odchylka • uvádí se ve stejných měrných jednotkách jako zkoumaný znak • Vlastnosti rozptylu • Rozptyl konstanty je roven nule. • Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění. • Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem této konstanty.
Rozptyl součtu dvou proměnných sz2, kde zi = xi + yi, je roven součtu rozptylů obou proměnných zvětšenému o dvojnásobek kovariance. Kovariance proměnných x a y charakterizuje závislost obou proměnných – blíže v regresní a korelační analýze.
Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly , dílčí průměry a četnosti ni. Pak rozptyl celého souboru je dán součtem rozptylu skupinových (dílčích) průměrů a průměru ze skupinových rozptylů.
Při pokusu porozumět výpočtu směrodatné odchylky si všímáme jednotlivých operací: • Nejdříve vypočteme jednotlivé odchylky od průměru, které pro daný údaj vyjadřují, jak se liší od typické hodnoty. • Čtverec odchylky (umocnění na druhou) převádí záporné odchylky na kladná čísla a zároveň větším odchylkám dává větší váhu. Například odchylce –2 dává váhu 4, ale odchylce 3 dává váhu 9. • Součet (suma) čtverců odchylek zachycuje všechny odchylky jedním číslem. • Dělením číslem (n–1) počítáme průměr kvadratických odchylek. • Odmocnina převádí druhou mocninu do původního měřítka dat.
Základní vlastnosti směrodatné odchylky: • směrodatná odchylka měří rozptýlenost kolem průměrů a má se používat jenom tehdy, když průměr je vhodný jako míra střední hodnoty, • s = 0 pouze tehdy, když se všechna data rovnají stejné hodnotě, jinak s > 0, • stejně jako průměr je i směrodatná odchylka silně ovlivněna extrémními hodnotami – jedna nebo dvě odlehlé hodnoty zvětšují silně s, • jestliže je rozdělení dat silně zešikmené, směrodatná odchylka neposkytuje dobrou informaci o rozptýlenosti dat – v takovém případě používáme kvantilové míry.
Relativní charakteristiky variability • slouží ke srovnávání variability různých statistických znaků a souborů • chceme-li posoudit relativní velikost rozptýlenosti dat vzhledem k průměru • počítáme je, když chceme porovnat rozptýlenost dat skupin měření stejné proměnné s různým průměrem nebo v těch případech, kdy se mění velikost směrodatné odchylky tak, že je přímo závislá na úrovni měřené proměnné , kde k je konstanta)
Relativní průměrná odchylka Variační koeficient V > 50 % je znakem značné nesourodosti souboru
Příklad Máme k dispozici následující data: 2 8 9 10 1 0 5. Chceme popsat variabilitu tohoto souboru. Protože nebylo provedeno třídění, veškeré vztahy budou vyjádřeny ve formě prosté.
Příklad Máme data týkající se věku pojištěných aut. Tento soubor chceme popsat pomocí charakteristik variability. Vzhledem k provedenému třídění je nutno použít vážené formy pro všechny charakteristiky variability.
Variační koeficient nabývá hodnoty 57,9 %, což svědčí o značné rozptýlenosti hodnot souboru (rozložení jednotlivých četností vykazuje určité výkyvy). Pokud bychom na základě tohoto souboru prováděli další statistická šetření (odhady na základní soubor), budou závěry těmito výsledky značně zkresleny.
Příklad Zajímá nás variabilita měsíčních výdajů sledovaných domácností.
Kvantilové charakteristiky Kvantily – hodnoty, které dělí uspořádaný statistický soubor na určitý počet stejně obsazených částí. Kvartily – dělí uspořádaný soubor na čtyři stejně obsazené části. dolní kvartil odděluje 25 % nejmenších hodnot prostřední kvartil (medián) dělí uspořádaný výběr na dvě stejně obsazené části, z nichž každá obsahuje 25 % jednotek horní kvartil odděluje 75 % uspořádaných hodnot znaku od 25 % největších hodnot znaku
Decily – dělí uspořádaný soubor na deset stejně obsazených částí Percentily – dělí soubor na sto stejně obsazených částí. Kvantilové rozpětí – rozdíl mezi nejvyšším a nejnižším kvantilem. Kvartilové rozpětí – diference horního a dolního kvartilu (v tomto intervalu se nachází 50 % údajů, není tak citlivé vůči odlehlým hodnotám) Decilové rozpětí
Kvantilová odchylka – aritmetický průměr kladných odchylek sousedních kvantilů Kvartilová odchylka – průměr kladných odchylek sousedních kvartilů Decilová odchylka
Kvartilová odchylka představuje tzv. robustní alternativu směrodatné odchylky, tzn. není ovlivňována extrémně malými, resp. extrémně velkými hodnotami analyzovaného souboru. Relativní kvantilové rozpětí – kvantilové rozpětí dělené mediánem Relativní kvartilová odchylka – kvartilová odchylka dělená mediánem
Shrnutí Kvantilová rozpětí jsou lepšími měrami než variační rozpětí R, protože nejsou ovlivněna extrémními hodnotami (nejsou citlivá k odlehlým hodnotám). Nevýhodou kvantilových charakteristik variability je to, že nezachycují variabilitu všech hodnot znaku a vzhledem k jejich konstrukci je nelze hlouběji analyzovat a rozkládat.
Příklad Vypočtěte kvantilové míry variability pro tento soubor (pro výpočet kvantilových měr je potřeba hodnoty souboru seřadit podle velikosti): R = xmax – xmin = 3508 – 833 = 2675 Kvartilové rozpětí
Kvartilová odchylka Decilová odchylka
Míry šikmosti • slouží k jemnějšímu popisu specifických stránek dat, hodnotíme pomocí nich také to, jak se rozdělení dat podobá normální křivce • jsou založeny na srovnání stupně nahuštěnosti malých hodnot sledovaného statistického znaku se stupněm nahuštěnosti velkých hodnot tohoto znaku • stejný stupeň hustoty malých a velkých hodnot se zpravidla projevuje v symetrii tvaru rozdělení • větší (stupeň) koncentrace malých hodnot a menší koncentrace velkých hodnot (ve srovnání s hustotou velkých hodnot) se projeví sešikmeným tvarem rozdělení, které označujeme jako kladné
větší (stupeň) koncentrace velkých hodnot ve srovnání s menší koncentrací (hustotou) malých hodnot se projeví zpravidla záporně sešikmeným tvarem rozdělení (příslušné míry jsou záporné) Výpočet se opírá o stanovení třetího centrálního momentu, míry mohou mít opět formu prostou a formu váženou (záleží na provedeném třídění). Forma prostá Forma vážená
= 0 platí přibližně pro rozdělení přibližně symetrické, 0 pro rozdělení s kladným zešikmením, rozdělení zešikmená doleva 0 pro rozdělení se záporným zešikmením, rozdělení zešikmená doprava Kvantilové míry šikmosti -1 1, ve zcela symetrickém rozdělení nabývá hodnoty 0 Kvartilová míra šikmosti
Všechny soubory mají stejný rozsah, průměr, rozptyl, medián a modus. Přesto se ale liší.
Základní charakteristiky Soubor A = soubor B = soubor C = 15 Soubor A – rozdělení četností je souměrné okolo průměru Soubor B a C – rozdělení četností je nesouměrné Rozdělení souboru B – polovina malých hodnot znaku má menší variabilitu než polovina velkých hodnot, tzn. jde o rozdělení s kladnou šikmostí (rozdělení zešikmené doleva). Rozdělení souboru C – polovina malých hodnot znaku má větší variabilitu než polovina velkých hodnot znaku, tzn. jedná se o rozdělení se zápornou šikmostí (rozdělení zešikmené doprava).
Výpočet míry šikmosti – vzhledem k provedené třídění je nutno použít váženou formu Soubor A
Soubor B • = 1,86280 sešikmení doleva Soubor C • = -1,86280 sešikmení doprava
Míry špičatosti • představují stupeň koncentrace hodnot znaku kolem charakteristiky úrovně • jsou založeny na srovnání stupně nahuštěnosti hodnot prostřední velikosti se stupněm nahuštěnosti ostatních hodnot, resp. všech hodnot proměnné • je-li podíl četností prostředních hodnot srovnatelný s četnostmi ostatních hodnot, špičatost se projevuje zpravidla plochým tvarem rozdělení četností • větší stupeň koncentrace (nahuštění) prostředních hodnot ve srovnání s četnostmi všech (ostatních) hodnot proměnné se projeví špičatým tvarem rozdělení
Pro číselné stanovení šikmosti lze použít vzorec buď ve formě prosté nebo ve formě vážené • vyšší číselná hodnota – usuzuje se na špičatější rozdělení četností a tím zároveň na vyšší stupeň koncentrace prostředních hodnost ve srovnání s ostatními hodnotami • míra špičatosti kladná – dané rozdělení je špičatější než normální • míra špičatosti záporná – dané rozdělení je plošší než normální
Při posuzování špičatosti se vychází ze srovnání popisovaného rozdělení (z tabulky četností zkoumaného znaku) s normovaným normálním rozdělením. Charakteristika špičatosti se totiž opírá o čtvrtý moment směrodatné proměnné, který je u modelu normálního rozdělení roven 3, takže míra špičatosti u normálního rozdělení je pak rovna nule. Je-li u popisovaného rozdělení míra špičatosti větší než nula, potom je toto rozdělení špičatější než normované normální rozdělení. Je-li míra špičatosti menší než nula (záporné číslo, ne však menší než –3), je popisované rozdělení plošší než normované normální rozdělení. Čím je tato míra odlišnější od nuly, tím více je rozdělení špičatější, resp. plošší.
Příklad na výpočet měr špičatosti Soubory mají stejný rozsah n = 1000, stejný aritmetický průměr, medián, modus v hodnotě 4, stejný rozptyl s2 = 1,8018 a stejnou šikmost = 0; liší se koncentrací hodnot znaku kolem střední hodnoty.
Soubor D Soubor D – plošší rozdělení četností
Soubor E = 1,99 vyšší koncentrace hodnot okolo střední hodnoty, rozdělení je špičatější
Kvartily (dolní, medián a horní) spolu s minimální a maximální hodnotou souboru tvoří tzv. pětičíselný souhrn charakteristik, který podává rychlou a přehlednou informaci o poloze, variabilitě i případném asymetrickém rozložení hodnot zkoumaného statistického souboru. Graficky se tento souhrn vyjadřuje pomocí speciálního diagramu, nazývaného box-and-whisker plot (stručněji boxplot nebo také krabicový graf). Boxplot umožňuje posoudit a porovnat jak centrální tendence dat, tak jejich rozptýlenost, dále umožňuje posoudit zešikmení a přítomnost odlehlých hodnot. Diagram zobrazuje data ve tvaru obdélníkové krabice a dvou úseček, které z ní vybíhají nalevo a napravo.