710 likes | 914 Views
Statistika I. Kvantitativní metody ve společenských vědách. Osnova. Základní pojmy Metody tvorby výběrového souboru Míry úrovně – střední hodnoty Míry rozptýlenosti Míry koncentrace První a druhé třídění Teorie grafů Normální a Poissonovo rozdělení. Cíl kursu.
E N D
Osnova • Základní pojmy • Metody tvorby výběrového souboru • Míry úrovně – střední hodnoty • Míry rozptýlenosti • Míry koncentrace • První a druhé třídění • Teorie grafů • Normální a Poissonovo rozdělení
Cíl kursu Představení základních metod a cílů popisné statistiky Atestace 3 kredity (2ECTS + 1 kvalitativní) Požadavky: docházka 75% Úspěšné absolvování závěrečného testu
Literatura • ŠKALOUDOVÁ, ALENA. Statistika v pedagogickém a psychologickém výzkumu. Praha: PedF UK, 1998. 112 s. ISBN 80-86039-56-0. • PECÁKOVÁ, IVA a kol. Pořizování a vyhodnocování dat ve výzkumech veřejného mínění. Praha: VŠE, 1998, 145 s. ISBN 80-7079-357-0. • CYHELSKÝ, LUBOMÍR a kol. Elementární statistická analýza. 2. vyd. Praha: Management Press, 1999. 319 s. ISBN 80-7261-003-1. (ss. 1-79)
Základní pojmy • Hromadné jevy Jevy, které nejsou ojedinělé či výjimečné, lze je sledovat opakovaně • Náhodné jevy Jevy, jejichž výskyt nebo hodnotu, kterou nabývají, nelze předvídat s jistotou.
Statistika • Vědní obor zkoumající statistické zákonitosti hromadných náhodných jevů. Souhrn vědeckých metod sběru a zpracování a interpretace dat. • Metoda sběru a zpracování dat • Informace slovně či číselně prezentovaná
Statistika • Deskriptivní (popisná): soubor metod používaných pro popis zkoumaných souborů dat. • Induktivní (zobecňující): soubor metod umožňující zobecňovat výsledky z dílčích souborů (náhodných výběrů) na celé soubory. (teorie odhadu a testování hypotéz).
Základní pojmy II. • Základní statistický soubor (populace)množina prvků, které jsou vymezeny z hlediska věcného, prostorového a časového. O každém prvku lze rozhodnout, zdali do této množina náleží či nikoli. • Výběrový statistický soubor (výběr, vzorek) – část, podmnožina základního souboru, s níž pracujeme. • Rozsah souboru Počet prvků základního či výběrového statistického souboru
Reprezentativní výběrový soubor takový soubor, jenž dobře reprezentuje charakteristiky souboru základního – každý prvek základního souboru musí mít stejnou šanci dostat se do výběrového souboru.
Statistické znaky • Předmětem zkoumání jsou určité vlastnosti prvků statistického souboru. • Statistické znaky – reprezentují či popisují tyto vlastnosti. • Určující znaky – jimi je dána příslušnost k souboru • Zkoumané znaky (proměnné, variabilní znaky)– předmět výzkumu
Proměnná x obor hodnot této proměnné (tj. souhrn všech hodnot, které tato proměnná může nabývat). • Typy proměnných 1. Numerické - Slovní • Spojité – nespojité proměnné 2. • Nominální – většinou slovní • Ordinální – záleží na pořadí (resp. lze uspořádat) • Kardinální - lze navíc kvantifikovat (např. kolikrát je větší)
četnosti – konkrétní počty hodnot z oboru hodnot proměnné (variabilního znaku) • rozdělení četností - obvykle tabulka, jsou-li známé četnosti jednotlivých hodnot proměnné • relativní četnosti – v procentech, umožňují srovnávat četnosti mezi soubory s různě velkým rozsahem
Metody tvorby výběrového souboru • Statistická teorie výběrových šetření • (velikost a struktura výběrového souboru tak, aby byl reprezentativní) • Základní metodou je pravděpodobností (náhodný) výběr • *Opora – na základě které vyhotovím výběrový vzorek (soubor adres, rodných čísel, mapa oblasti, apod.)
Metody tvorby výběrového souboru • tzv. Adresní výběr • opora – centrální registr obyvatel, seznam studentů FHS podle IS, apod., z něhož podle tabulky náhodných čísel vyberu respondenty
Metody tvorby výběrového souboru • V praxi je adresní výběr často dvojstupňový (popř. vícestupňový) • nejprve na základě opory náhodně určena určitá podmnožina základního souboru (např. nacházející se na jednom místě) • poté je na základě této podmnožiny teprve vybrány konkrétní výběrové jednotky
Metody tvorby výběrového souboru • Př. výzkum veřejného mínění (Kdo napsal dialog Faidón), základní soubor jsou studenti FHS • mohu vzít seznam všech studentů a z něj náhodně volit • mohu určit např. hodinu v rozvrhu, a na základě takového předvýběru potom následně provést definitivní výběr.
Metody tvorby výběrového souboru • Náhodná procházka (random route) • Systematický náhodný výběr, který lze prakticky dobře realizovat. • Oporou – např. demografická mapa určitého regionu • Startovací adresa (zde se výzkum neprovádí, jen určuje, kde začnu) • Obecné pravidlo, určující způsob postupu
Metody tvorby výběrového souboru • Nutné podmínky: • Volba územní jednotky musí probíhat pravděpodobnostním postupem • Počet výběrových jednotek, které mají být prošetřeny na náhodné procházce, musí být stanoven s ohledem na mechanismus volby startovací adresy
Metody tvorby výběrového souboru • Kvótní výběr, metoda dokonalého průřezu George Gallup – vytvořit výběrový soubor, který by byl miniaturou cílové populace Shoda jde ale zajistit jen z hlediska několika znaků (věk, pohlaví, vzdělání, ekonomický státu apod.) * Podle mínění většiny vědců to není náhodná metoda výběru
Metody tvorby výběrového souboru • Kvótní výběr • 1) kolik respodentů náleží na jednoho tazatele • 2) Jaká má být jejich strukrura – tzv. kvóty dané kombinací několika znaků (např. 2 vysokoškoláky nezaměstné, rozvedené, ženy, 15 středoškoláků, zaměstaných, rozvedených, mužů) apod. (oporou demografická data) • V praxi se ovšem velmi často kvóty stanovují nikoliv na základě kombinace znaků, nýbrž pro každý znak vzlášť.
Základní statistické charakteristiky • Jejich pomocí se snadno popisují a srovnávají rozložení hodnot určitého variabilního znaku ve statistickém souboru
Typy základních statistických charakteristik • Míry úrovně (střední hodnoty) • Míry rozptýlenosti • Míry koncentrace
Míry úrovně (střední hodnoty) • Aritmetický průměr (mean) x , n , m tzv. vážený tvar arit. prům.
Míry úrovně (střední hodnoty) • Modus Hodnota vyskytující se v daném souboru nejčastěji • Medián (pro ordinální a kardinální proměnné) Prostření hodnota, hodnota stojící uprostřed řady všech prvků souboru srovnaných podle velikosti naměřených hodnot. Je-li rozsah stat. souboru sudé číslo, pak je medián určen jakožto aritmetický průměr dvou prostředních hodnot.
Míry rozptýlenosti • Ve dvou třídách průměrný prospěch 2,5. • V první třídě jsou pouze 2 a 3 • V druhé třídě známky rovnoměrněji rozptýleny • Míry úrovně v tomto případě stejné, je třeba charakterizovat daný soubor též jinak (míry rozptýlenosti)
Míry rozptýlenosti • Standardní (směrodatná) odchylka (std. deviation) N … rozsah základního souboru
Míry rozptýlenosti • výběrová směr. odchylka (tj. směrodatná odchylka výběrového souboru v SPSS) • n-rozsah výběrového souboru
Míry rozptýlenosti • Rozptyl (Variace) • Pro srovnání vhodnější variační koeficient
Míry rozptýlenosti • Variační rozpětí (Range) • Rozdíl mezi největší a nejmenší naměřenou hodnotou
Rozdělení četností • Podle počtu vrcholů • jednovrcholová (jeden vrchol mezi minimem a maximem oboru hodnot dané proměnné) Typ L Typ J
Rozdělení četností • Podle počtu vrcholů • vícevrcholová (multimodální) (bimodální – 2 vrcholy) větší počet vrcholů - nestejnorodost zkoumaného vzorku, pak je třeba vytvořit tolik statistických souborů, kolik mělo původní rozdělení četností vrcholů (většinou to lze)
Rozdělení četností • Rozdělení nespojitých náhodných veličin • alternativní (nula-jedničková náhodná veličina) • binomické (proměnná -počet výskytu náhodného jevu) • Poissonovo (pravděpodobnost sledovaného jevu v jednom pokusu) • geometrické (počet pokusů do prvního úspěchu) • hypergeometrické (závislé pokusy, výběr bez vrácení)
Rozdělení četností • Rozdělení spojitých náhodných veličin • rovnoměrné (konstantní hustota pravděpodobnosti) • normální (Gaussova křivka) • logaritmicko-normální • exponenciální • gama
Rozdělení četností • Pravděpodobností funkce P(x) • u rozdělení nespojitých náhodných veličin • Hustota pravděpodobnosti f(x) • křivka popsaná funkcí f(x) taková, že plocha pod křivkou vymezená dvěma libovolnými body a, b se rovná pravděpodobnosti, že hodnota náhodné veličiny leží mezi body a, b. (celková plocha pod křivkou (v mezích D(f))=1.
Rozdělení četností • Normální rozdělení (Gaussova křivka) Normálním rozdělením se řídí náhodné veličiny, jejichž hodnoty lze pokládat za výsledek velkého množství nepatrných vzájemně nezávislých jevů. Normální rozdělení je určeno jednoznačně dvěma parametry: střední hodnotou – μ rozptylem – Normální rozdělení je symetrické aritmetický průměr=modus=medián šikmost=0
Rozdělení četností • Normální rozdělení e- 2, 71(základ přirozených logaritmů)
Rozdělení četností • Alternativní rozdělení Zajímá nás pouze, zdali určitý náhodný jev nastane či nikoliv; počet šestek při jednom hodu kostkou; počet orlů při jednom hodu kostkou Pravděpodobnost, že jev A nastane je Pravděpodobnostní funkce je závislá na jednom parametru (0< π<1) P(1) = π; P(0) = 1- π x…náhodná veličina, jejíž definiční obor je x= 0, 1 0… jen nenastane 1.. jev nastane
Rozdělení četností • Binomické rozdělení • náhodný pokus budeme opakovat n-krát (výsledky na sobě nezávisejí – n hodů kostkou) • Pravděpodobnost nastoupení jevu A v každém pokusu nezávisí na výsledcích předcházejících pokusů. • Náhodnou veličinou x, která má binomické rozdělení, je potom počet výskytů náhodného jevu A (alternativní rozdělení) v n-nezávislých pokusech; x … počet šestek, které padnou, hodíme-li n-krát kostkou
Rozdělení četností • Poissonovo rozdělení • Extrémní případ binomického rozdělení, pro nepatrné pravděpodobnosti, výhra v ruletě, počet zabitých bleskem • x…počet výher v ruletě při sázce na 0 při 100 pokusů parametr λ = n. π při velmi velkých n (reálně n>30) a velmi malých π reálně π<0,1)
Grafická znázornění struktury statistického výběru • Polygon četností • Histogram • Číslicový histogram • Sektorový graf • Kvartilový graf
Grafická znázornění struktury statistického výběru • Polygon = mnohoúhelník četností osa x: obměny statistického znaku osa y: absolutní/relativní četnosti Získané body se spojují úsečkami. Musí obsahovat nadpis a popis obou os s vyznačenými stupnicemi.
Grafická znázornění struktury statistického výběru • Histogram = sloupcový diagram Velikost sloupku = absolutní/relativní četnost. Pod sloupcem obměna znaku. Vhodný pro intervalové rozdělení četností. (Polygon četností je v tomto případě méně vhodný. Jestliže nestejně velké třídní intervaly je zcela nevhodný.) Musí obsahovat nadpis a popis obou os s vyznačenými stupnicemi.
Grafická znázornění struktury statistického výběru • Číslicový histogram (stem – and – leaf plot) • Sektorový (výsečový) graf • pro znázornění relativních četností vyjádřených v procentech = kruh, jehož jednotlivé výseče svou velikostí odpovídají relativním četnostem jednotlivých obměn statistického znaku.
Grafická znázornění struktury statistického výběru • Kvartilový graf (boxplot) - je oblíbeným znázorněním extrémních hodnot, odlehlých pozorování a kvartilů. • Kvartily = 3 hodnoty proměnné, které rozdělují neklesající řadu hodnot proměnné na 4 stejné části. • (Dolní kvartil – odděluje ¼ statistických jednotek s nejnižší hodnotou statistického znaku od ¾ jednotek s vyšší hodnotou znaku. Jemu příslušející kumulovaná relativní četnost je 0,25.
- Grafická znázornění struktury statistického výběru • (Medián – kumulovaná četnost 0,5. Dělí statistický soubor na 2 stejně velké části, kde v 1. části jsou statistické jednotky s hodnotou statistického znaku menší než medián. V 2. části s hodnotou větší nebo rovnou mediánu.) • (Horní kvartil – kumulovaná relativní četnost 0,75.) Základem kvartilového grafu je obdélník, jehož spodní hranou je dolní kvartil, horní hranou je horní kvartil. Uvnitř obdélníku leží tedy 50% všech případů. Kvartilové grafy jsou užitečné pro srovnání rozložení četností v několika skupinách.
Míry koncentrace • Gaussova křivka – kritérium pro vyhodnocování koncentrace • Šikmost (skewness) rozdělení zešikmená kladně pravostranně zešikmená rozdělení zešikmená záporně levostranně zešikmená
Míry koncentrace • Špičatost (kurtosis) • τ=3 • τ<3 rozdělení relativně špičaté • τ >3 rozdělení relativně ploché
Míry koncentrace • Exces E= τ-3
Vzorec pro určení velikosti výběrového souboru • Prostý náhodný výběr z opakováním • n – rozsah výběru; σ-směrodatná odchylku v základním souboru, V- Variační koeficient v základním souboru, Δ – přípustná chyba, δ – relativní přípustná chyba; u-kvantil normovaného normálního rozdělení (konstanta)