350 likes | 643 Views
Základy popisné statistiky. aneb známe tři druhy lži: úmyslná neúmyslná statistika. popisn á statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! charakteristiky polohy a variability.
E N D
Základy popisné statistiky aneb známe tři druhy lži: • úmyslná • neúmyslná • statistika
popisná statistika • cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali • důsledkem je ztráta informací! • charakteristiky polohy a variability Statistika je jako bikini. Co odhaluje je zajímavé, co skrývá je podstatné. Aaron Levenstein
průměrná teplota: 9.2°C minimum: 4°C maximum: 15°C rozsah: 11°C modus: 9°C medián: 9°C rozptyl: 5.1°C směrodatná odchylka: 2.3°C samotná data (11; 10; 10; 9; 8;……) = základní soubor N = počet prvků základního souboru = 30 (prvek = pozorování) Xi = hodnota i-tého prvku (X1=11; X16=13;…)
histogram četností zajímá nás rozložení dané proměnné v celém souboru vývoj proměnné zajímá nás vývojový trend proměnné
Různé typy dat • data na stupnici • nominální (kategoriální, klasifikační) • dané třídy (kategorie) • barva očí, typ podloží,…. • ordinální (pořadová) • mohu seřadit • známky ve škole, stupnice tvrdosti,… • intervalové • dané intervaly mezi jednotkami • nemají podíly (nemají jednoznačně danou nulu) • teplota • čas • cirkulární (pozor na průměry!) • podílové (poměrné) • jednoznačně daná nula • měření,….. Když má hlavu v sauně a nohy v ledničce, hovoří statistik o příjemné průměrné teplotě. Franz Josef Strauß
základní popisné statistiky základní soubor: 4,5,6,8,12 • průměr • aritmetický • geometrický • harmonický
vážený průměr • zobecnění aritmetického • zohledňuje důležitost některých pozorování • potřebuji hodnoty (x1, x2, x3,…) a jejich váhy (w1, w2, w3,….) 30 samic má průměr hmotnosti 60 kg, 20 samců má průměr 80 kg. Celkový průměr není 70 kg, ale
základní popisné statistiky • modus • nejčastěji se vyskytující hodnota • min. modus = 1, max. modus = N • může jich být víc • odpovídá vrcholu histogramu četností • medián • polovina pozorování menší než medián, polovina větší • střed uspořádaného základního souboru • další kvantily – kvartily, percentily apod. (86% percentil říká, že 86% prvků leží pod touto hodnotou a 14% nad ní) • i pro pouze „seřazená“ data (na ordinální stupnici) – např. jídlo je vynikající (1), dobré (2), ucházející (3), bez chuti (4), nic moc (5), hnusné (6), vyvolávající zvracení (7) • Beaufortova stupnice síly větru, Mohsova stupnice tvrdosti apod. • v případě „ulítlé“ hodnoty lepší vypovídající hodnota než průměr
základní popisné statistiky • pokud mám platy v podniku: • 14 520; 11 350; 12 645; 14 520; 13 562; 14 520; 32 458; 38 452; 10 235; 11 548; • „průměrný plat“ = 16 824 • medián = 13 562
základní popisné statistiky základní soubor: 4,5,6,8,12 průměr = 7 • rozptyl (variance) • průměrná hodnota druhé mocniny odchylky od průměru • směrodatná odchylka • odmocnina z rozptylu • čím menší, tím nižší variabilita dat
náhodný výběr • většinou nemáme k dispozici celý základní soubor (všechny mihule, klešťanky, brambory, deváťáky apod.) • provedeme tedy náhodný výběr, ten zkoumáme a na základě výběrového šetření se snažíme hypotetický základní soubor popsat • charakteristiky tedy (sofistikovaně) odhadujeme!!! • není snadné provést náhodný výběr
charakteristiky výběru • počet prvků n • průměr se počítá stejně • rozptyl (variance) výběru jinak! • směrodatná odchylka výběru • variační koeficient – porovnává variabilitu nestejně velkých objektů (myš a slon) – bezrozměrné číslo
směrodatná odchylka výběru • empirické pravidlo: většina hodnot se neodlišuje od průměru o více než jednu směrodatnou odchylku a skoro všechny hodnoty jsou v pásmu do dvou směrodatných odchylek od průměru. normální rozdělení:
přesnost odhadu průměru • výběrový průměr = náhodná veličina! (náhodné výběry z jednoho základního souboru se liší) má také svůj rozptyl • z rozptylu průměru lze spočítat směrodatnou odchylku průměru = střední chyba průměru • nepopisuje variabilitu dat, ale přesnost odhadu
náhodné výběry: vždy musím uvádět n, průměr, sm. odchylku ostatní podle potřeby
grafy • vynikající prostředek pro zpřehlednění dat • také pro klamání čtenáře
http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406 http://www.coolschool.ca/lor/AMA11/unit1/U01L02.htm
vždy je třeba vědět z jakého základu se počítají procenta! • pozor na tvrzení typu: hodnota klesla o 10% (např. ze 40% na 30% tedy ve skutečnosti o 25%!!!, ale o 10 procentních bodů)
jak na to v excelu? • statistické funkce • PRŮMĚR, SMODCH, MODE, MEDIAN, VAR, ČETNOSTI,… (pozor – maticové vzorce – zaklínadlo Ctrl+Shift+Enter) • =SMODCH.VÝBĚR(F1:F16)/ODMOCNINA(POČET(F1:F16)) • grafy – spojnicové, sloupcové, koláčové • podle typu dat, záměru
jak na to v excelu? • pro pokročilé funkce musíme aktivovat doplněk „analýza dat“
histogram četnosti • velmi užitečný, zobrazuje přibližné rozdělení sledované proměnné • vizualizace frekvence dat
program Statistica jednotlivé případy sledovaná proměnná
Program Statistica (data viz cvic1.xls) Data zadávám jinak než v excelu!
Program Statistica (data viz cvic1.xls) • Statistica mi deskriptivní statistiky vypíše při provádění statistických testů • nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika • zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“
Program Statistica (data viz cvic1.xls) • Statistica mi deskriptivní statistiky vypíše při provádění statistických testů • nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika • zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“
Program Statistica (data viz cvic1.xls) • v záložce rozšířené (advanced) vyberu, které charakteristiky chci zobrazit
Program Statistica (data viz cvic1.xls) • Histogram – volám Grafy-histogramy
zdroje a materiály • Lepš J.: Biostatistika • http://botanika.bf.jcu.cz/suspa/vyuka/statistika.php • Papáček M., Slipka J., 1997: Úvod do odborné práce (pro posluchače studia učitelství biologie). PF JČU, České Budějovice, 88 s.