330 likes | 674 Views
Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Popisná Statistika. Statistika – 1. přednáška.
E N D
Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka
Statistika – 1. přednáška • Základní informace o kurzu • Pojmy • Zpracování dat
Základní informace Základní literatura a přednášky • POPELKA, J., SYNEK, V. Úvod do statistické analýzy dat. Univerzita J. E. Purkyně v Ústí nad Labem, Fakulta životního prostředí, 2009. 200 stran. ISBN 978-80-7414-117-1. • E-learningový kurz: Statistika • Lokální disk na síti FŽP UJEP - cvičení
Základní informace Doporučená literatura • HENDL, J. Přehled statistických metod zpracování dat. Portál, Praha 2006. ISBN 80-7367-123-9. • CYHELSKÝ, L., HINDLS, R., KAHOUNOVÁ, J.Elementární statistická analýza. 2. vyd. Management Press, Praha 1999. ISBN 80-7261-003-1. • HINDLS, R., HRONOVÁ, S., NOVÁK, I. Metody statistické analýzy pro ekonomy. 2. aktualizované a rozšíř. vyd. Management Press, Praha 2000. ISBN 80-7261-013-9.
Základní pojmy „Statistika je přesný součet nepřesných čísel.“ (Zdeněk Opava) „Statistika je nauka, jak získat informace z numerických dat.“ (Jan Hendl) „Statistika nuda je, má však cenné údaje … “ (Zdeněk Svěrák) „Statistika je jako bikiny. Odhalí téměř vše, ale to nejdůležitější nám zůstane skryto.“ (autor neznámý)
Základní pojmy statistika • údaje neboli data o hromadných jevech – ročenky a souhrny, • praktická činnost - získávání dat o hromadných jevech, jejich zpracování , vyhodnocování a zveřejňování výsledků, • vědecký obor - zkoumání zákonitostí hromadných jevů, souhrn vědeckých metod sběru dat, zpracování a analýzy, • statistické výkazy a dotazníkysloužící ke sběru dat o hromadných jevech, • slangově i oddělení, organizacea instituce zabývající se sběrem a zpracováním dat, • číselné charakteristiky - sloužící k popisu vlastností hromadných jevů.
Základní pojmyhromadný jev Statistika se zabývá jevy, které se vyznačují velkými počty výskytů (hromadností). • Hromadný jev (na rozdíl od jednotlivého jevu) se může v prostoru a čase mnohokrát opakovat . • Při pozorování hromadného jevu se u každého pozorovaného prvku mohou projevovat jeho individuální vlastnosti a vlastnosti typické pro skupinu prvků • S větším počtem pozorování se stírají vlivy jedinečnosti a více se uplatňují vlivy společné – zákonité . • Odpovědi určitého počtu respondentů. • Každý respondent má svůj názor. • Projeví se názor, který ve společnosti převládá.
Základní pojmystatistické jednotky a znaky Statistická jednotka (předmět sledování)člověk, zvíře, rostlina, předmět, událost, územní celek • SovaPočet vajec, počet vylíhlých mláďat, doba hnízdění… • Krajpočet obyvatel, podíl vysokoškolsky vzdělaných obyvatel, počet průmyslových podniků, podíl domácností vytápěných plynem… Statistický znak(vlastnost jednotky, kterou jsme schopni číselně nebo slovně popsat) • ČlověkPohlaví, výška, váha, vzdělání, zaměstnání, barva očí, dopravní prostředek, známka ze statistiky, jméno, věk… • OvzdušíTeplota, vlhkost, koncentrace znečišťujících látek… • Telefonní hovoryDélka volání, doba volání, kdo volal, komu volal, obsah volání…
Základní pojmy statistické soubory Základní soubor(populace)všechny jednotky, které existují v rámci nějakého logického celku • Výběrový soubor – vybrané jednotkyVýběr je nejčastěji náhodný výběr nebo systematický. • Všichni obyvatelé ČR (cca 10 mil.) • Všechny sovy v Krušných horách (stovky?) • Každá část ovzduší ve městě Most (neurčitelně velký soubor) • Všechny kraje ČR (14) • Všechny telefonní hovory v síti (miliardy za rok) • Reálný svět (?) • Náhodně oslovení lidé na ulici (maximálně 3000) • Odchycené sovy v hnízdních budkách (do 30 jedinců) • Odebrané vzorky ve stanici ČHmÚ (denní odběry) • Kraje na severu ČR (4) • Telefonní hovory monitorované v termínu 24.-30.9.2012 (tisíce) • Laboratorní pokusy (3 pokusy)
Základní pojmy statistické proměnné kvantitativní, kardinální, spojitý kvalitativní , nominální, polytomický kvalitativní , nominální, dichotomický kvantitativní, ordinální kvantitativní, kardinální, diskrétní kvalitativní , nominální, polytomický kvantitativní, kardinální, spojitý
Základní zpracování dat řazení, třídění Řazení • kvantitativní proměnné podle velikosti • kvalitativní ordinální podle významu • kvalitativní nominální abecedně • Tříděnízpřehlednění velkého množství dat do tabulek např. uspořádání do tzv. tabulky četností. • Grafická prezentacegrafy, diagramy. Příklad: Počet kotlů na pevná paliva v domácnosti: 1 2 0 2 1 5 1 0 00 1 0 0 1 0 1 0 1 0 1 2 4 3 2 1 1 0 0000000 Tabulka prostého třídění
Základní zpracování dat třídění Prosté třídění • kvantitativní diskrétní proměnná Intervalové třídění • kvantitativní spojitá proměnná • kvantitativní diskrétní proměnná s vysokým počtem obměn Příklad: Soubor koncentrace Pb v ovzduší města Litoměřice má 104 hodnot (104 měření). Tabulky intervalového třídění
Základní zpracování dattřídění Histogram – prosté třídění Histogram – intervalové třídění
Základní zpracování dattabulka četností • Volba vhodného počtu tříd (řádků) v tabulce četností. • Prosté třídění: • Podle počtu obměn diskrétní proměnné • Počet tříd se rovná počtu obměn.
Základní zpracování dat tabulka četností • Volba vhodného počtu tříd (řádků) v tabulce četností • Intervalové třídění: • Sturgesovo pravidlopočet intervalů ≈ 1 + 3,3·log10(počet hodnot) • Jednoduché (odmocninové) pravidlo počet intervalů ≈ √počet hodnot • Subjektivně (např. intervaly po 5µg/m3. Vhodné spíše pro prezentaci dat než stat. analýzy. • Třídy musí zahrnovat všechny hodnoty a nejčastěji se volí stejně široké. Krajní intervaly mohou být širší pokud zahrnují výrazně vysoké nebo nízké hodnoty. Tabulka četností se šesti třídami a subjektivně stanovenými hranicemi intervalů
Základní zpracování dat tabulka četností Subjektivní volba počtu tříd Soubor koncentrace Pb v ovzduší má 104 hodnot . Nejmenší hodnota sledovaného souboru je 2µg/m3 a největší 29 µg/m3. Tabulka musí zahrnovat všechny hodnoty! Zvolíme rozpětí třídy 5 µg/m3. Toto uspořádání je přehledné a jednoduché. Počet tříd je pak 6 = (30 – 0)/5. Třídy se nesmějí překrývat, proto se aplikují zleva otevřené a zprava uzavřené intervaly . Tabulka je vhodná pro prezentaci hodnot, ne však pro statistické analýzy.
Základní zpracování dat tabulka četností Volba počtu tříd dle statistických pravidel Při použití jednoduchého (odmocninového) pravidlana soubor se 104 hodnotami by byl počet tříd √104 ≈ 10. Tabulka četností s osmi třídami a hranicemi intervalů stanovenými Sturgesovým pravidlem Sturgesovopravidlo stanovuje následující počet tříd: 1 + 3,3log10104 ≈8. Rozpětí tříd se pak spočítá podle vzorce: (maximální hodnota – minimální hodnota) počet tříd =(29 – 2)/8 = 3,375 ≈ 3,4 µg/m3 Některé statistické analýzy vyžadují aplikaci Sturgesova pravidla.
Základní zpracování dattabulka četností Střed třídy (x*)prostřední hodnota mezi horní a dolní mezí třídy Absolutní četnost (ni)počet hodnot v souboru spadající do příslušné třídy V 9 sledovaných dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3.
Základní zpracování dattabulka četností Relativní četnost (pi)relativní počet hodnot (uvádí se i v procentech) v souboru spadající do příslušné třídy V 9 % sledovaných dnů dnech byla koncentrace v rozmezí 12,1 – 15,5 µg/m3. Výpočet:Absolutní četnost /celkem= 9/104 = 0,09
Základní zpracování dattabulka četností Kumulativní absolutní četnost (kni)počet hodnot v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu V 82 sledovaných dnech byla koncentrace do 12,1 µg/m3. Výpočet:25+26+31 = 82
Základní zpracování dattabulka četností Kumulativní relativní četnost (kpi)relativní počet hodnot (uvádí se i v procentech) v souboru, které jsou menší nebo rovny horní hranici příslušného intervalu V 78 % sledovaných dnů byla koncentrace do 12,1 µg/m3. Výpočet:(25 + 26 + 31)/104 = 0,51
Základní zpracování dattabulka četností Histogram četností – absolutní četnost ni
Základní zpracování dattabulka četností Histogram četností – kumulativní absolutní četnost
Základní zpracování dattabulka četností Polygon četností (spojnicový graf)
Základní zpracování dattabulka četností • Sloupcový grafpokud jde o prosté třídění znaku, nebo intervalové třídění s nestejně širokými intervaly. Mezi sloupce se vkládají mezery. • Histogram četnostípouze pokud jsou všechny intervaly stejně široké
Základní zpracování dattabulka četností Sloupcový grafpokud jde o prosté třídění znaku, nebo intervalové s nestejně širokými intervaly.Mezi sloupce se vkládají mezery. (grafická úprava z tisku)
Základní zpracování dattabulka četností - MS Excel V programu MS Excel je nutno mít zdrojová data uspořádaná do sloupce a ručně zadané dolní a horní meze všech tříd. Data - Analýza – Analýza dat - Histogram Do políčka „Hranice tříd“ zadáváme pouze horní meze. Volba „Kumulativní procentuální podíl“ vypočte kumulativní relativní četnost.
Základní zpracování datDůležité pojmy – 1. přednáška • Hromadný jev • Statistická jednotka a znak • Statistická proměnná • Základní soubor • Výběrový soubor • Prosté a intervalové třídění dat • Tabulka četností • Sturgesovo pravidlo • Absolutní, relativní, kumulativní absolutní a kumulativní relativní četnost • Histogram a polygon