1 / 52

POL 509 Seminář 2

POL 509 Seminář 2. Vícerozměrná statistika Korelace a regrese. Pro výpočty použít RELATIVNÍ hodnoty. Interpretace. Interpretace neznamená pouhý přepis tabulky do textu Srovnávání hodnot Začít se středovou hodnotou Směrodatnou odchylku je vhodné interpretovat také se zohledněním průměru

alaula
Download Presentation

POL 509 Seminář 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. POL 509Seminář 2 Vícerozměrná statistika Korelace a regrese

  2. Pro výpočty použít RELATIVNÍ hodnoty

  3. Interpretace • Interpretace neznamená pouhý přepis tabulky do textu • Srovnávání hodnot • Začít se středovou hodnotou • Směrodatnou odchylku je vhodné interpretovat také se zohledněním průměru • Histogram je vhodné interpretovat • Z hlediska normality rozložení: ano/ne • Z hlediska „tvaru“ rozdělení – šikmost, strmost

  4. Formální úprava • „pěkné“ názvy • Přeložení do jazyka výstupu • Maximálně 2-3 desetinná místa • Ohraničení buněk • Název tabulky • Vynechání nepotřebných údajů • Pro češtinu nahradit tečky za čárky • Pod tabulkou zdroj dat

  5. Malý slovníček statističtiny • Descriptivestatistics – popisné statistiky • Valid – platné případy • Missing – chybějící hodnoty • Mean - průměr • Median – medián • Mode - modus • Variance - rozptyl • Std. Deviation – směrodatná odchylka (sm.odch) • Minimum • Maximum

  6. Koncentrace • Lorentzova křivka • Giniho koeficient • Kvantily • Variační koeficient • Směrodatná odchylka vydělená průměrem • Poskytuje „intuitivnější“ hodnoty než sm.odch.

  7. stabilita • Korelace • Pouze stabilita rozložení hodnot • Bazické či řetězové indexy • Index volební úspěšnosti • Index volební stability

  8. Úvod • Bivariační a multivariační statistiky • Souvislost/závislost mezi proměnnými • Souvislost: mezi proměnnými nemusí být příčinný vztah • Závislost: jedna proměnná je příčinou, druhá jejím následkem

  9. Mechanismus • Nelze zahrnout do výpočtu • Nutný předpoklad pro smysluplnou analýzu • Proč by měly hodnoty proměnné reprezentující jeden jev odpovídat hodnotám reprezentující jiný jev?

  10. Metody analýzy • Vysvětlení • Korelace, (kontingenční tabulky) • souvislost • Regrese • Kauzalita • Prostorová autokorelace, shluková analýza, ML, GWR,…

  11. Korelační logika • Přímá úměra: vysokým hodnotám jednoho jevu odpovídají vysoké hodnoty jiného jevu a naopak • „Nepřímá úměra“ vysokým hodnotám jednoho jevu odpovídají nízké hodnoty jiného jevu a naopak • Lineární vztah

  12. Korelační a regresní analýza

  13. regrese • Analýza závislosti mezi proměnnými • Jak se mění hodnota určité proměnné v závislosti na jiné/jiných proměnných • Závisle proměnná = vysvětlovaná proměnná • Nezávisle proměnná = vysvětlující • Testování hypotéz • Vztah musí být lineární • Nutný předpoklad kauzálního vztahu • Závisle proměnná musí být kardinalní

  14. podmínky • Normalita závisle proměnné • Nezávislost případů • Hodnota případu nezávisí na okolních případech • Problematické - časové řady, prostorová data • Homoskedascita • Rozptyl náhodné složky je konstantní • Graf reziduí • Nekorelovanost proměnných • multikolinearita • + další (v praxi se na ně nebere ohled)

  15. Nároky na četnost • Minimálně 30 případů • Při menším počtu případů rozdělení těžko může být normální • minimum 5 případů na 1 proměnnou • Nejlépe alespoň 10 – 20 případů • V datech se 100 případy je tedy možná analýza s max. 5-10 nezávisle proměnnými

  16. Možné otázky • Proč má strana v různých místech různý zisk? • Jaký vliv má vzdálenost na volební zisk kandidáta? • Jaké jsou determinanty rozdílné podpory stran v různých regionech? • ((Predikce))

  17. Postup • Formulace hypotéz • Průzkum proměnných • Standardizace proměnných • Korelace mezi proměnnými • Výběr proměnných • Regresní analýza

  18. Hypotézy • Korelace a regrese jsou nástroji k testování hypotéz • (kvantitativní výzkum je deduktivní: postup teorie – hypotézy – „pozorování“ – závěry) • Propojení mezi závisle proměnnou a nezávisle proměnnými

  19. Hypotézy - příklad • Výzkumná: • Prostorové rozložení volební podpory stran je závislé na prostorových rozdílech ve struktuře společnosti a ekonomiky. • Pracovní: • Rozložení volební podpory KDU-ČSL je závislé na prostorovém rozložení věřících obyvatel. Čím větší podíl obyvatel hlásící se ke katolické církvi se v obci nachází, tím vyšší podíl hlasů KDU získává. • Nulová: • mezi podílem katolíků a podporou KDU neexistuje lineární vztah

  20. Průzkum proměnných

  21. Normální rozložení • Vlastnosti: průměr = medián = modus • X ± 1σ = 68% všech případů • X ± 2σ = 95% všech případů • X ± 3σ = 99,7% všech případů j(x) N (m,s) m x

  22. Testy normality • Testují, zda má proměnná normální rozložení • Základní metoda: histogram + křivka normálního rozložení • Goodnessof fit • KolgomorovSmirnov test

  23. Testování linearity vztahu • Graf • Proložení funkcí • nejlépe odpovídá lineární funkce • Pokud ne – standardizace nebo transformace proměnné

  24. Standardizace • Pokud není vztah lineární • Pokud mají škály obrácené pořadí • Pokud mají škály jiný počet kategorií • Pokud kategorické data nelze považovat za pravé ordinální • Vytváření interakcí

  25. Dummy • Umělé proměnné • Vytvoření několika dichotomických proměnných z kategorické proměnné • Jedna kategorie je referenční • Nemá svou dummy • Vůči ní se interpretují účinky

  26. Interakce • Pokud v různých kategoriích má závislost jiný charakter • Např. závislost příjmu na věku se liší mezi muži a ženami • Vytváří se vynásobením proměnných

  27. Vlivná pozorování • jejich vynecháním dochází k velké změně regresních parametrů • neobvyklá kombinace hodnot vysvětlujících proměnných • Nutno diagnostikovat a případně vyřadit

  28. Heteroskedascita • Rozptyl náhodné složky není konstantní • Graf reziduí

  29. multikolinearita • Korelace mezi nezávisle proměnnými • Pokud R > 0,8 špatné • Vif • Tolerance

  30. Korelace • Co to je: • Míra souvislosti • Kolik stejného rozptylu mají dvě proměnné • (kovariance standardizovaná směrodatnými odchylkami obou proměnných) • K čemu je dobrá: • Testování, zda existuje očekávaná souvislost

  31. Pro kardinální proměnné Pearsonův koeficient korelace • Analyze – Correlate – Bivariate • V options – Exludecaseslistwise

  32. Statistická x věcná významnost • „hvězdičky“

  33. Regresní funkce • Prokládá (vyrovnává) hodnoty přímkou • Zkoumá účinek nezávisle proměnné (x) na závisle proměnnou (y) • regresní rovnice • Známe-li hodnoty x, pak můžeme odhadnout y ŷ = a + bx (+e) • ŷ … předpokládaná hodnota y • x … pozorovaná hodnota x • a … průsečík (konstanta) • b …sklon přímky • a, b … parametry regresní rovnice

  34. Metody odhadu parametrů • metoda nejmenších čtverců MNČ • napozorované hodnoty prokládáme přímkou tak, aby součet umocněných odchylek regresní křivky od pozorovaných hodnot byl minimální • jednoznačné řešení • Rezidua: odchylky regresní křivky od napozorovaných hodnot

  35. Princip lineární regrese y = a + bx + e Y = závislá proměnná X = nezávislá proměnná a = konstanta b = koeficient e = chyba y = 0,022 + 0,186x + e

  36. Interpretace výstupů • Index determinace • Konstanta • Sklon křivky • Standardizovaný/nestandardizovaný

  37. Konstanta • průsečík s osou y (jaká je hodnota závisle proměnné při nulové hodnotě nezávislé proměnné) • někdy nelze logicky interpretovat (každý má nějaké pohlaví, věk,…)

  38. b regresní koeficient • sklon (slope) křivky • o kolik vzroste závisle proměnná, vzroste-li nezávisle proměnná o jednotku • Standardizovaný/nestandardizovaný • Statistická/věcná významnost

  39. Analyze – Regression – linear

  40. Obce 100000 je dummy proměnná – interpretace:KDU-ČSL získává ve městech nad 50 000 obyvatel v průměru o 0,4 p.b. méně než v obcích do 500 obyvatel Pokud se hodnoty všech proměnných rovnají nule, pak by měla být podpora KDU-ČSL 0,64 p.b. Statistická signifikance má význam především ve výběrových souborech, hodnoty nižší než 0,05 ukazují, že vztah ze vzorku lze očekávat i v populaci. V tomto případě obvykle ukazuje, že věcně nevýznamné proměnné jsou nevýznamné také statisticky Beta ukazuje relativní sílu vlivu jednotlivých proměnných na závisle proměnnou: podíl katolíků je tedy nejsilnějším prediktorem Pokud je podíl katolíků v obci o 1p.b. větší (a hodnoty ostatních proměnných zůstávají konstantní), pak je podpora KDU o 0,42 p.b. vyšší (pokud o 10 p.bpak o 4,2 p.b.)

  41. V obci Nivnice získala KDU-ČSL 4,42 %, ačkoli na základě hodnot nezávisle proměnných model předpokládal zisk 22,3 % • Pokud model nadhodnocuje hodnotu závisle proměnné, pak je reziduum záporné • V obci Třebohostice získala KDU-ČSL 26,78 %, ačkoli na základě hodnot nezávisle proměnných model předpokládal zisk 7,7 % • Pokud model podhodnocuje hodnotu závisle proměnné, pak je reziduum kladné • Nástroj identifikace případů pro detailnější analýzu

More Related