1 / 26

Statistické charakteristiky variability

Statistické charakteristiky variability. Variabilita (proměnlivost) v datech. hodnoty mohou být více či méně rozptýleny okolo aritmetického průměru analogie s terčem – menší nebo větší rozptyl zásahů. Charakteristiky (míry) variability. rozptyl směrodatná odchylka variační koeficient

louisa
Download Presentation

Statistické charakteristiky variability

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistické charakteristiky variability

  2. Variabilita (proměnlivost) v datech • hodnoty mohou být více či méně rozptýleny okolo aritmetického průměru • analogie s terčem – menší nebo větší rozptyl zásahů

  3. Charakteristiky (míry) variability • rozptyl • směrodatná odchylka • variační koeficient • kvartilová odchylka

  4. Rozptyl Příklad 1: Zjištěnými hodnotami budou v jednom případě čísla 5, 6, 7 a ve druhém případě čísla 1, 7, 10. aritmetický průměr je v obou případech 6 Hodnota Odchylka Hodnota Odchylka 5 5 – 6 = -1 1 1 – 6 = -5 6 6 – 6 = 0 7 7 – 6 = 1 7 7 – 6 = 1 10 10 – 6 = 4 ve druhém případě jsou hodnoty mnohem více rozptýleny

  5. Rozptyl (značíme s2) • Příklad 1 (pokračování): Pro hodnoty 5, 6, 7 je rozptyl roven 2/3. Pro hodnoty 1, 7, 10 je rozptyl roven 14.

  6. Odvození výpočetního tvaru rozptylu

  7. Výpočetní tvar rozptylu • Tento tvar je často vhodnější pro ruční výpočet • Příklad 1 (pokračování): Pro hodnoty 5, 6, 7 je rozptyl samozřejmě opět roven 2/3 a podobně pro hodnoty 1, 7, 10 je rozptyl opět roven 14.

  8. Rozptyl – varianta pro data zadaná tabulkou četností Výpočetní tvar (označíme n = n1+…+ nk):

  9. Příklad 2: Určete rozptyl a směrodatnou odchylku výšek chlapců ve věku 16 let. • Snadno spočítáme, že průměrná výška je 174,3 cm.

  10. Tentýž příkladřešený výpočetním tvarem rozptylu (pro ruční výpočet je jednodušší a často i přesnější):

  11. Směrodatná odchylka Výhoda – charakterizuje variabilitu v týchž jednotkách, v jakých jsou udány hodnoty stat. znaku (kdežto rozptyl v druhých mocninách těchto jednotek) V předchozím příkladě je:

  12. Variační koeficient • použijeme jej, pokud chceme charakterizovat variabilitu bezrozměrným číslem • vyjadřuje se obvykle v procentech

  13. Příklad 3: Máme porovnat dvě firmy co se týče variability platů. • V první firmě je průměrný plat 15 000 Kč a směrodatná odchylka 3 000 Kč. • Ve druhé je průměrný plat 30 000 Kč a směrodatná odchylka 4 000 Kč. • Na první pohled se zdá, že variabilita je vyšší ve druhé firmě, protože je tam vyšší směrodatná odchylka. Je tam však i vyšší plat. • Lepším kriteriem je porovnat to, jakou část aritmetického průměru tvoří směrodatná odchylka: 1. firma …V = 3 000 : 15 000 = 0,20 = 20 %, 2. firma …V = 4 000 : 30 000 = 0,13 = 13 %, • Vidíme, že ve druhé firmě je variabilita platů výrazně nižší než v první.

  14. Hodnoty variačního koeficientu • Hodnoty variačního koeficientu do 0,10 (tj. 10 %) svědčí o malé variabilitě – aritmetický průměr je možné považovat za typickou hodnotu datového souboru. • Hodnoty do 0,4 (tj. 40 %) svědčí o vyšší variabilitě – aritmetický průměr je možné považovat pouze za hodnotu orientační. • Pokud je variační koeficient ještě vyšší, není dobré dávat aritmetickému průměru nějaký zvláštní význam, nemusí se jednat se o typickou hodnotu v datovém souboru.

  15. Pozor! • Je chybou popsat datový soubor pouze hodnotu aritmetického průměru. • Aby se zabránilo jeho špatné interpretaci (nebo dokonce úmyslnému zneužití), je nutné doplnit jej některým z údajů o variabilitě (tj. rozptylem, směrodatnou odchylkou nebo variačním koeficientem).

  16. Kvantily (percentily) • p-procentní kvantil – je taková hodnota statistického znaku, před níž leží právě pprocent shromážděných dat (seřazených podle velikosti). • Značíme jej • Příklad: 10% kvantil pro statistický znak příjem rodiny udává takovou hodnotu, že 10 % rodin má nižší nebo stejný příjem.

  17. Výpočet kvantilu • Označíme-li z pořadové číslo p% kvantilu, pak platí:

  18. Příklad určení pořadového čísla 20% kvantilu v souboru o rozsahu 153: • tj. 20% kvantil je v pořadí 31. hodnota mezi 153 údaji. • Příklad určení pořadového čísla 25% kvantilu v souboru o rozsahu 108: • tj. 25% kvantil leží mezi v pořadí 27. a 28. hodnotou v rozsahu 108 dat.

  19. Příklad 2 (pokračování): Určete 75% kvantil v souboru tělesných výšek chlapců: 148. – 182. Hledáme 150. a 151. hodnotu v pořadí – obě jsou rovny 180 cm (obě tyto hodnoty se nachází v pátém sloupci tabulky, což poznáme podle kumulativních četností).Závěr: 75% kvantil je 180 cm.

  20. Ve statistice se pro některé kvantily užívá dalšího pojmenování: • Kvartily – dělí data na čtyři části: dolní kvartil = 25% kvantil medián = 50% kvantil horní kvartil = 75% kvantil • Decily – dělí data na deset částí: první decil = 10% kvantil druhý decil = 20% kvantil … devátý decil = 90% kvantil

  21. Kvartilové míry variability • Mezikvartilové rozpětí: • Kvartilová odchylka • Koeficient kvartilové odchylky

  22. „vous“ = 1,5 IQR „vous“ = 1,5 IQR dolní kvartil medián horní kvartil Krabičkový diagram (box plot) Pokud minimum hodnot je větší než dolní kvartil minus 1,5 IQR, zkracuje se levý „vous“ na tuto délku. Pokud maximum hodnot je menší než horní kvartil plus 1,5 IQR, zkracuje se pravý „vous“ na tuto délku.

  23. Může se stát, že „vous“ zcela zmizí, pokud se minimum nebo maximum rovná dolnímu nebo hornímu kvartilu. • Naopak, vyskytnou-li se hodnoty, které se nacházejí mimo maximální rozpětí, dané jeden a půl násobkem mezikvartilového rozpětí, jsou považovány za "podezřelé" (odlehlé) a je jim třeba věnovat zvláštní pozornost, neboť mohou obzvláště při malém počtu pozorování značně ovlivnit některé ukazatele. • Odlehlé hodnoty mohou být zaviněny hrubou chybou při měření nebo při přenosu dat do počítače, ale mohou být také správné (existuje skutečně takový extrém). Pak závisí na zpracovateli, zda pro dané účely tento extrém do zpracování zahrne či nikoliv. • V grafu bývají odlehlé hodnoty znázorněny tečkou nebo hvězdičkou.

More Related