520 likes | 730 Views
POL 509 Seminář 2. Vícerozměrná statistika Korelace a regrese. Pro výpočty použít RELATIVNÍ hodnoty. Interpretace. Interpretace neznamená pouhý přepis tabulky do textu Srovnávání hodnot Začít se středovou hodnotou Směrodatnou odchylku je vhodné interpretovat také se zohledněním průměru
E N D
POL 509Seminář 2 Vícerozměrná statistika Korelace a regrese
Interpretace • Interpretace neznamená pouhý přepis tabulky do textu • Srovnávání hodnot • Začít se středovou hodnotou • Směrodatnou odchylku je vhodné interpretovat také se zohledněním průměru • Histogram je vhodné interpretovat • Z hlediska normality rozložení: ano/ne • Z hlediska „tvaru“ rozdělení – šikmost, strmost
Formální úprava • „pěkné“ názvy • Přeložení do jazyka výstupu • Maximálně 2-3 desetinná místa • Ohraničení buněk • Název tabulky • Vynechání nepotřebných údajů • Pro češtinu nahradit tečky za čárky • Pod tabulkou zdroj dat
Malý slovníček statističtiny • Descriptivestatistics – popisné statistiky • Valid – platné případy • Missing – chybějící hodnoty • Mean - průměr • Median – medián • Mode - modus • Variance - rozptyl • Std. Deviation – směrodatná odchylka (sm.odch) • Minimum • Maximum
Koncentrace • Lorentzova křivka • Giniho koeficient • Kvantily • Variační koeficient • Směrodatná odchylka vydělená průměrem • Poskytuje „intuitivnější“ hodnoty než sm.odch.
stabilita • Korelace • Pouze stabilita rozložení hodnot • Bazické či řetězové indexy • Index volební úspěšnosti • Index volební stability
Úvod • Bivariační a multivariační statistiky • Souvislost/závislost mezi proměnnými • Souvislost: mezi proměnnými nemusí být příčinný vztah • Závislost: jedna proměnná je příčinou, druhá jejím následkem
Mechanismus • Nelze zahrnout do výpočtu • Nutný předpoklad pro smysluplnou analýzu • Proč by měly hodnoty proměnné reprezentující jeden jev odpovídat hodnotám reprezentující jiný jev?
Metody analýzy • Vysvětlení • Korelace, (kontingenční tabulky) • souvislost • Regrese • Kauzalita • Prostorová autokorelace, shluková analýza, ML, GWR,…
Korelační logika • Přímá úměra: vysokým hodnotám jednoho jevu odpovídají vysoké hodnoty jiného jevu a naopak • „Nepřímá úměra“ vysokým hodnotám jednoho jevu odpovídají nízké hodnoty jiného jevu a naopak • Lineární vztah
regrese • Analýza závislosti mezi proměnnými • Jak se mění hodnota určité proměnné v závislosti na jiné/jiných proměnných • Závisle proměnná = vysvětlovaná proměnná • Nezávisle proměnná = vysvětlující • Testování hypotéz • Vztah musí být lineární • Nutný předpoklad kauzálního vztahu • Závisle proměnná musí být kardinalní
podmínky • Normalita závisle proměnné • Nezávislost případů • Hodnota případu nezávisí na okolních případech • Problematické - časové řady, prostorová data • Homoskedascita • Rozptyl náhodné složky je konstantní • Graf reziduí • Nekorelovanost proměnných • multikolinearita • + další (v praxi se na ně nebere ohled)
Nároky na četnost • Minimálně 30 případů • Při menším počtu případů rozdělení těžko může být normální • minimum 5 případů na 1 proměnnou • Nejlépe alespoň 10 – 20 případů • V datech se 100 případy je tedy možná analýza s max. 5-10 nezávisle proměnnými
Možné otázky • Proč má strana v různých místech různý zisk? • Jaký vliv má vzdálenost na volební zisk kandidáta? • Jaké jsou determinanty rozdílné podpory stran v různých regionech? • ((Predikce))
Postup • Formulace hypotéz • Průzkum proměnných • Standardizace proměnných • Korelace mezi proměnnými • Výběr proměnných • Regresní analýza
Hypotézy • Korelace a regrese jsou nástroji k testování hypotéz • (kvantitativní výzkum je deduktivní: postup teorie – hypotézy – „pozorování“ – závěry) • Propojení mezi závisle proměnnou a nezávisle proměnnými
Hypotézy - příklad • Výzkumná: • Prostorové rozložení volební podpory stran je závislé na prostorových rozdílech ve struktuře společnosti a ekonomiky. • Pracovní: • Rozložení volební podpory KDU-ČSL je závislé na prostorovém rozložení věřících obyvatel. Čím větší podíl obyvatel hlásící se ke katolické církvi se v obci nachází, tím vyšší podíl hlasů KDU získává. • Nulová: • mezi podílem katolíků a podporou KDU neexistuje lineární vztah
Normální rozložení • Vlastnosti: průměr = medián = modus • X ± 1σ = 68% všech případů • X ± 2σ = 95% všech případů • X ± 3σ = 99,7% všech případů j(x) N (m,s) m x
Testy normality • Testují, zda má proměnná normální rozložení • Základní metoda: histogram + křivka normálního rozložení • Goodnessof fit • KolgomorovSmirnov test
Testování linearity vztahu • Graf • Proložení funkcí • nejlépe odpovídá lineární funkce • Pokud ne – standardizace nebo transformace proměnné
Standardizace • Pokud není vztah lineární • Pokud mají škály obrácené pořadí • Pokud mají škály jiný počet kategorií • Pokud kategorické data nelze považovat za pravé ordinální • Vytváření interakcí
Dummy • Umělé proměnné • Vytvoření několika dichotomických proměnných z kategorické proměnné • Jedna kategorie je referenční • Nemá svou dummy • Vůči ní se interpretují účinky
Interakce • Pokud v různých kategoriích má závislost jiný charakter • Např. závislost příjmu na věku se liší mezi muži a ženami • Vytváří se vynásobením proměnných
Vlivná pozorování • jejich vynecháním dochází k velké změně regresních parametrů • neobvyklá kombinace hodnot vysvětlujících proměnných • Nutno diagnostikovat a případně vyřadit
Heteroskedascita • Rozptyl náhodné složky není konstantní • Graf reziduí
multikolinearita • Korelace mezi nezávisle proměnnými • Pokud R > 0,8 špatné • Vif • Tolerance
Korelace • Co to je: • Míra souvislosti • Kolik stejného rozptylu mají dvě proměnné • (kovariance standardizovaná směrodatnými odchylkami obou proměnných) • K čemu je dobrá: • Testování, zda existuje očekávaná souvislost
Pro kardinální proměnné Pearsonův koeficient korelace • Analyze – Correlate – Bivariate • V options – Exludecaseslistwise
Statistická x věcná významnost • „hvězdičky“
Regresní funkce • Prokládá (vyrovnává) hodnoty přímkou • Zkoumá účinek nezávisle proměnné (x) na závisle proměnnou (y) • regresní rovnice • Známe-li hodnoty x, pak můžeme odhadnout y ŷ = a + bx (+e) • ŷ … předpokládaná hodnota y • x … pozorovaná hodnota x • a … průsečík (konstanta) • b …sklon přímky • a, b … parametry regresní rovnice
Metody odhadu parametrů • metoda nejmenších čtverců MNČ • napozorované hodnoty prokládáme přímkou tak, aby součet umocněných odchylek regresní křivky od pozorovaných hodnot byl minimální • jednoznačné řešení • Rezidua: odchylky regresní křivky od napozorovaných hodnot
Princip lineární regrese y = a + bx + e Y = závislá proměnná X = nezávislá proměnná a = konstanta b = koeficient e = chyba y = 0,022 + 0,186x + e
Interpretace výstupů • Index determinace • Konstanta • Sklon křivky • Standardizovaný/nestandardizovaný
Konstanta • průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné) • někdy nelze logicky interpretovat (každý má nějaké pohlaví, věk,…)
b regresní koeficient • sklon (slope) křivky • o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku • Standardizovaný/nestandardizovaný • Statistická/věcná významnost
Obce 100000 je dummy proměnná – interpretace:KDU-ČSL získává ve městech nad 50 000 obyvatel v průměru o 0,4 p.b. méně než v obcích do 500 obyvatel Pokud se hodnoty všech proměnných rovnají nule, pak by měla být podpora KDU-ČSL 0,64 p.b. Statistická signifikance má význam především ve výběrových souborech, hodnoty nižší než 0,05 ukazují, že vztah ze vzorku lze očekávat i v populaci. V tomto případě obvykle ukazuje, že věcně nevýznamné proměnné jsou nevýznamné také statisticky Beta ukazuje relativní sílu vlivu jednotlivých proměnných na závisle proměnnou: podíl katolíků je tedy nejsilnějším prediktorem Pokud je podíl katolíků v obci o 1p.b. větší (a hodnoty ostatních proměnných zůstávají konstantní), pak je podpora KDU o 0,42 p.b. vyšší (pokud o 10 p.bpak o 4,2 p.b.)
V obci Nivnice získala KDU-ČSL 4,42 %, ačkoli na základě hodnot nezávisle proměnných model předpokládal zisk 22,3 % • Pokud model nadhodnocuje hodnotu závisle proměnné, pak je reziduum záporné • V obci Třebohostice získala KDU-ČSL 26,78 %, ačkoli na základě hodnot nezávisle proměnných model předpokládal zisk 7,7 % • Pokud model podhodnocuje hodnotu závisle proměnné, pak je reziduum kladné • Nástroj identifikace případů pro detailnější analýzu