890 likes | 1.1k Views
„Statistika nuda je, …“. Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky. „Statistika nuda je, …“ Nebo není?. Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky.
E N D
„Statistika nuda je, …“ Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky
„Statistika nuda je, …“Nebo není? Martina Litschmannová VŠB-TU Ostrava, Fakulta elektrotechniky a informatiky, Katedra aplikované matematiky
Čím se zabývá statistika? Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme, na čem jsme.
Čím se zabývá statistika? • proměnné (znaky, veličiny) - údaje, které u výběrového souboru sledujeme • varianty proměnné – jednotlivé obměny (hodnoty) proměnných
Co je to exploratorní statistika?(EDA) • Exploratorní = popisná • ExploratoryData Analysis • uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.
Kategoriální proměnná nominální (nemá smysl uspořádání) (např. Okres, Kraj, Pohlaví, …)
Číselné charakteristiky + Modus (název nejčetnější varianty)
Číselné charakteristiky Modus = Muž
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění • Sloupcový graf (bar chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)
Grafické znázornění B) Výsečový graf – koláčový graf (pie chart)
Anketa Jste pro rozšíření úředních hodin na ÚP? (2x týdně do 20h) TAKHLE NE!!!
Kategoriální proměnná ordinální (má smysl uspořádání) (např. míra nezaměstnanosti (nízká, střední, vysoká), kvalita poskytovaných služeb, …)
Číselné charakteristiky Seřazené podle velikosti + Modus
Číselné charakteristiky Modus = střední
Grafické znázornění • Sloupcový graf (bar chart) • B) Výsečový graf – koláčový graf (pie chart)
Číselné charakteristiky • Míry polohy • Míry variability
Geometrický průměr • Pracujeme-li s nezápornou proměnnou představující relativní změny (růstové indexy, cenové indexy, koeficienty růstu...).
Předloni byla výše ročního platu zaměstnance ve firmě 200 000 Kč, loni 220 000 Kč a letos 250 000 Kč. Jaký je průměrný koeficient růstu jeho platu?
Průměr není rezistentní vůči odlehlým pozorováním !!!!
Kvantily 100p %-ní kvantilxp odděluje 100p% menších hodnot od zbytku souboru (100p% hodnot datového souboru je menších než toto číslo.)
Význačné kvantily • Kvartily Dolní kvartil x0,25 Medián x0,5 Horní kvartil x0,75 • Decily– x0,1; x0,2; ... ; x0,9 • Percentily – x0,01; x0,02; …; x0,99 • Minimumxmin a Maximumxmax
Interkvartilové rozpětí Užití: např. při identifikaci odlehlých pozorování
Identifikace odlehlých pozorování • Metoda vnitřních hradeb Dolní mez vnitřních hradeb Horní mez vnitřních hradeb
Identifikace extrémních pozorování • Metoda vnějších hradeb Dolní mez vnějších hradeb Horní mez vnějších hradeb
PříkladV předložených datech identifikujte odlehlá pozorování:
PříkladV předložených datech identifikujte odlehlá pozorování: MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
PříkladV předložených datech identifikujte odlehlá pozorování: MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
PříkladV předložených datech identifikujte odlehlá pozorování: MN0,25=6,8 IQR=MN0,75-MN0,25=1,9 1,5.IQR=2,85 MN0,5=7,3 MN0,75=8,7 Vnitřní hradby: Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55
Nevýhoda výběrového rozptylu Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.
Nevýhoda výb. směr. odchylky a výb. rozptylu Neumožňují srovnání rozptylu proměnných, které mají různé rozměry (jednotky).
Variační koeficient (Směrodatná odchylka v procentech aritmetického průměru) • Čím nižší var. koeficient, tím homogennější soubor. • Vx>50% značí silně rozptýlený soubor.
b=0 b>0 b<0 Výběrová špičatost (normovaná) Popisuje koncentraci dat kolem průměru.
a=0 a>0 a<0 Výběrová šikmost Popisuje tvar rozdělení (histogramu).
Jaký je vztah mezi šikmostí, mediánem a průměrem? Symetrická data Pozitivně zešikmená data Negativně zešikmená data Průměr = medián Průměr>medián Průměr<medián Polovina dat.souboru je menší než průměr Nadpoloviční většina dat.souboru je menší než průměr Nadpoloviční většina dat.souboru je větší než průměr
Přesnost číselných charakteristik Směrodatnou odchylku jakožto míru nejistoty měření zaokrouhlujeme nahoru na jednu, maximálně dvě platné cifry a míry polohy (průměr, kvantily…) zaokrouhlujeme tak, aby nejnižší zapsaný řád odpovídal nejnižšímu zapsanému řádu směrodatné odchylky.