Matematická statistika I.

Matematická statistika I. Jestliže má jednotlivec rád čísla, pokládá se to za neurozu. Celá společnost se ale sklání před statistickými čísly. Alfred Paul Schmidt Statistika je jako naivní stará dáma. Podle toho, jak se jí otážeme, tak odpoví. Helmut Müller

Japonci jedí velmi málo tuků a mají mnohem méně infarktů než Britové a Američani. Na druhé straně Francouzi jedí mnoho tuků a také mají mnohem méně infarktů než Britové a Američani. Japonci velmi málo červeného vína a a mají mnohem méně infarktů než Britové a Američani. Italové pijí mnoho červeného vína a také mají mnohem méně infarktů než Britové a Američani. Závěr: Jezte a pijte co chcete, zabíjí Vás angličtina. Pokrok vědy vedl k tomu, že bylo možno podávat látku v pilulkách. Filozofii objedná si student a obdrží hezkou modrou pilulku. Literaturu objedná si druhý a dostane roztomilou růžovou pilulku. Statistiku objedná si další a farmaceut přikutálí obrovskou hnědou piluli. Co to má znamenat? ptá se student. Víte, statistika byla vždycky trochu těžší k zažití, odvětí prodavač.

Ing. Pavla Hošková, Ph.D. Katedra statistiky PEF 3. patro, dveře č. 419 tel.: 224 382 392 e-mail: hoskova@pef.czu.cz konzultační hodiny: úterý 11 – 13 hod.

Předmět MS I. je zakončen zápočtem. • Podmínky pro udělení zápočtu: • řádná účast na cvičení (s tolerancí 3 absencí) • 2 kontrolní testy • Pro udělení zápočtu je potřeba z každého testu získat alespoň 60 % bodů (60 % u prvého testu a 60 % u druhého testu). • Hodnocení se započítává 1/3 do známky předmětu MS II., který je zařazen do ZS III. ročníku a je ukončen zkouškou. • Testy nelze psát opakovaně (tzn. opravit si hodnocení).

Pokud se někdo nebude schopen z vážných důvodů dostavit na test v daném termínu (delší nemoc apod.), může si napsat test v náhradním termínu po individuální domluvě (nejpozději do zápočtového týdne). V případě, že student nezíská potřebný počet bodů, má možnost si test v termínu, který bude dopředu vyhlášen, opravit a to ve dvou možných termínech. Pokud ani poté student nezíská potřebný počet bodů, nebude mu zápočet z daného předmětu přiznán (zapsán). Důležitou pomůckou pro práci na cvičeních je kalkulačka – bez kalkulačky je student na cvičení zbytečný, protože opisovat umí každý!!!!!!!

Doporučená literatura Práce na cvičeních: Prášilová, Svatošová: Cvičení ze statistiky. PEF ČZU Literatura pro přednášky: Kába, Svatošová: Matematická statistika I. PEF ČZU Kába, Svatošová, Prášilová: Zdroje a zpracování sociálních a ekonomických dat (učební texty). PEF ČZU Hindls, Hronová, Seger: Statistika pro ekonomy. Professional Publishing Hendl: Přehled statistických metod zpracování dat. Portál a další statistická literatura

Stručný obsah předmětu • Základní statistické pojmy, výpočet statistických charakteristik • Metody statistické indukce – podstata náhodného výběru, teorie odhadu, testování statistických hypotéz • Regresní a korelační analýza

Základní statistické pojmy

Co je statistika? • číselné údaje o hromadných jevech (jevy vyskytující se u velkého množství prvků) • praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů • teoretická disciplina zabývající se metodami sloužícími k popisu odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy

Statistická jednotka – elementární jednotka statistického pozorování (např. rostliny, zvířata, osoby, věci, události) • Statistický znak – vlastnost statistických jednotek • Statistický soubor – množina všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky • jednorozměrné – jeden statistický znak • dvourozměrné – dva statistické znaky u každé • jednotky • vícerozměrné – více jak dva statistické znaky

Základní soubor – soubor všech jednotek se sledovaným znakem Cenzus – metoda sběru dat, v níž se do zkoumání zahrnují všechny jednotky populace (např. sčítání lidu, v zemědělství) Výběrový soubor – ze základního souboru se určitým způsobem vyberou pouze některé jednotky Rozsah souboru – počet statistických jednotek, obsažených v daném souboru

Statistické znaky kvantitativní kvalitativní měřitelné pořadové alternativní množné nespojité spojité

Statistická práce – 3 etapy • etapa statistického zjišťování (šetření) • etapa statistického zpracování zjištěných údajů (dat) • etapa statistického vyhodnocování (analýzy) • Statistické zjišťování - získávání statistických údajů • Je nutno stanovit: • cíl zjišťování, • kdo, kdy a jakým způsobem bude zjišťování provádět,

rozhodnou dobu nebo rozhodný okamžik, • dobu zjišťování (lhůta, v níž musí být zjišťování provedeno), • rozsah zjišťování (zjišťování vyčerpávající či výběrové). • Vyčerpávající (úplné) – prověří se všechny jednotky v souboru (soupis hospodářského zvířectva, sčítání lidu, agrocenzus apod.). • Výběrové (neúplné, dílčí) – zjišťování nejsou podrobeny všechny statistické jednotky, ale pouze určitá část celého souboru, sledují se pouze vybrané statistické znaky.

Způsoby zjišťování statistických údajů • přímé pozorování (vážení, měření, sčítání apod.) • dotaz – metoda expediční (sčítací komisaři) – metoda korespondenční • výkaznictví – předem navržený a schválený formulář – státní, rezortní, podnikové (základní zdroj informací o stavu NH na různých úrovních)

zvláštní statistické šetření – v případech, že některé jevy, které zjišťujeme, nejsou evidovány nebo že občas je nutno zjistit stav přímým měřením, sečtením nebo zhodnocením • - soupisy (cenzy) – sepisuje se stav, který je zjištěn přímo na místě • - znalecký odhad • - anketa • - výběrová šetření apod.

Statistické zpracování • tabelování, třídění, výpočet statistických charakteristik, grafické znázorňování výsledků, odhady, testování apod. • Nutno provádět kontrolu vstupních dat a to z hlediska • formálního – přezkoušení správnosti početních • úkonů • logického – zda hodnoty jsou reálné • početního • Statistické vyhodnocování – rozbor získaných výsledků, slovní vyhodnocení, formulace závěrů

Elementární zpracování statistických údajů

Cílem analýzy statistických dat je přehledně zpřístupnit data graficky, tabulkově a výpočtem různých statistických charakteristik tak, aby byly dobře patrné jejich statistické vlastnosti a umožnilo se také srovnání různých podskupin dat a kategorií, které jsou předem dány nebo je výzkumník vytváří v průběhu analýzy dat. Před vlastní analýzou je potřeba provést podrobnější kontrolu dat, zvláště se zaměřením na diagnostiku chyb v údajích a to pomocí grafického znázornění. Graf může prozradit např. špatně zapsané nebo naměřené údaje, pomáhá odhalit přítomnost odlehlých hodnot, které mohou zcela zkreslit výsledky další analýzy.

Statistické grafy • spojnicové (polygon četností) – prosté rozdělení četností • sloupcové (histogram) – intervalové rozdělení četností • bodové • výsečové – pro relativní četnosti • krabicové (boxplot) • grafy STEM-and-Leaf (lodyha s listy)

Při popisu a analýze toho, co graf zobrazujeme, si všímáme nejdříve základní konfigurace a pak deviací od tohoto vztahu. • Hodnotíme: • zhuštění – kde se nalézá místo nebo místa nejvyšší četnosti hodnot, • shluky – existuje jeden nebo více shluků dat v grafu, • mezery – jsou v grafu intervaly nebo oblasti bez hodnot, • odlehlé hodnoty – existují v grafu údaje podstatně rozdílné od zbytku dat, • tvar rozdělení – lze popsat jednoduše tvar rozdělení dat?

Třídění • rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů • uspořádání údajů do přehledné formy včetně jejich zhuštění • jednostupňové – podle obměn jednoho znaku • vícestupňové – podle obměn více znaků najednou

Prosté rozdělení četností • nespojité statistické znaky • údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek • Četnosti lze vyjádřit různým způsobem: • absolutní četnostni – skutečný počet jednotek; udává, kolikrát se která hodnota znaku v souboru vyskytuje; jejich součet je roven rozsahu souboru

relativní četnostfi – pro porovnávání různých rozdělení, nejčastěji se vyjadřuje v % • kumulativní četnost – absolutní (Ni), relativní (Fi) • podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně • N1 = n1N2 = n1 + n2N3 = n1 + n2 + n3

Intervalové rozdělení četností • znak spojitý nebo diskrétní s velkým počtem obměn • Je nutno řídit se několika pravidly: • počet intervalů musí být takový, aby vynikly podstatné a charakteristické rysy souboru stanovení počtu intervalů Sturgesovo pravidlo

délka intervalu – spíše stejná • R = variační rozpětí (R = xmax – xmin) • - extrémní hodnota – otevřené intervaly • Při zařazování jednotlivých hodnot znaku do intervalů musí být jednoznačně určeno, kam kterou jednotku zařadit.

Příklad Máme k dispozici údaje o výdajích (Kč) vybraných domácností. Uvedená data je potřeba setřídit do přehlednější formy. Sice jde o znak diskrétní, ale nabývá velkého počtu obměn. Proto bude vhodné uspořádat daný soubor do intervalového rozdělení četností.

Nejprve určíme počet intervalů. Zde je potřeba zvážit, jaký počet intervalů požadujeme. Vhodnější bude zvolení 6 intervalů. Dále určíme šířku intervalu. Vzhledem k hodnotě, která vychází, je optimální zaokrouhlovat na celá čísla, v tomto případě na hodnotu 2000. Následně je důležité správně určit počátek prvního intervalu (blízko nejmenší hodnoty).

V případě použití Sturgesova pravidla je počet intervalů zhruba stejný.

Příklad Sledujeme věk pojištěnce a stáří auta u 100 klientů pojišťovny. Chceme provést základní analýzu dat.

Věk pojištěnce

Stáří auta

Základní statistické charakteristiky

Rozlišujeme charakteristiky: • polohy (úrovně), • variability (rozptýlenosti, měnlivosti), • šikmosti (asymetrie), • špičatosti. • Charakteristiky polohy (střední hodnoty) • průměry – počítají se ze všech hodnot souboru, • ostatní střední hodnoty – jsou založeny pouze na některých vybraných hodnotách souboru.

Mohou být vyjádřeny ve formě: • prosté – není provedeno třídění, • vážené – bylo provedeno třídění. • Průměr • aritmetický – nejčastější • geometrický – časové řady, indexní analýza • harmonický – indexní analýza • chronologický – časové řady

Prostý aritmetický průměr Vážený aritmetický průměr

Vlastnosti aritmetického průměru • Součet jednotlivých odchylek od průměru je nulový. • Aritmetický průměr konstanty je opěr roven konstantě. • Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. • Násobíme-li jednotlivé hodnoty konstantou, je touto konstantou násoben i průměr. • Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.

Je-li statistický soubor rozdělen do dílčích podsouborů, v nichž známe dílčí průměry a počty pozorování n1, n2, …, nk, pak průměr celkového souboru je váženým aritmetickým průměrem těchto dílčích průměrů, kde vahami jsou četnosti těchto podsouborů. Platí tedy

Příklad Zajímá nás průměrný věk pojištěných aut. Vzhledem k provedenému třídění (prosté rozdělení četností) je nutno použít vážené formy aritmetického průměru.

Matematická statistika I.