1 / 78

Přednáška 10

Přednáška 10. Analýza závislosti Analýza závislosti dvou kategoriálních proměnných Analýza závislosti v kontingečních tabulkách Analýza závislosti v asociačních tabulkách Simpsonův paradox Analýza závislosti dvou spojitých proměnných Pearsonův korelační koeficient,

daxia
Download Presentation

Přednáška 10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Přednáška 10 Analýza závislosti • Analýza závislosti dvou kategoriálních proměnných • Analýza závislosti v kontingečních tabulkách • Analýza závislosti v asociačních tabulkách • Simpsonůvparadox • Analýza závislosti dvou spojitých proměnných • Pearsonův korelační koeficient, • Spearmanův korelační koeficient

  2. Analýza závislosti V praxi často u statistických jednotek (pozorovaných osob nebo jiných objektů) zjišťujeme současně řadu znaků. Například • spotřeba, objem motoru, hmotnost a zrychlení automobilů, • výše mzdy, velikost IQ, hmotnost a výška mužů, • školní prospěch a pocit deprese u dětí, apod. Možnosti vyhodnocení: • Analýza jednotlivých znaků (každý zvlášť) • Analýza závislosti, tj. může zajímat, zda existuje závislost mezi • spotřebou automobilu a jeho hmotností, • výši mzdy a velikostí IQ, • pocitem deprese u dětí a školním prospěchem.

  3. Metody analýzy jednostranné závislosti Jednostranná závislost - znak X působí na znak Y, avšak znak Y již nepůsobí zpětně na znak X. Není náplni základního kurzu Statistika!

  4. Analýza závislosti dvou kategoriálních proměnných

  5. Analýza závislosti v kontingenčních tabulkách

  6. Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte.

  7. V jakém formátu obvykle získáváme tento typ dat? Tento převod lze provést pomocí většiny tabulkových procesorů i statistického software. Standardní datový formát Kontingenční tabulka

  8. Základní terminologie Se základní terminologii a způsobem testování nezávislosti v kontingenční tabulce se seznamte v řešeném příkladu Analýza závislosti dvou kategoriálních veličin (flash animace).

  9. Co je to kontingenční tabulka? Schéma rozšířené kontingenční tabulka Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými.

  10. Jak posoudit intenzitu závislosti mezi dvěma kategoriálními proměnnými pomoci explor. analýzy? • Grafická analýza • Shlukový sloupcový graf, • kumulativní sloupcový graf, • prostorový sloupcový graf (angl. sky chart), • mozaikový graf, • 100% skládaný pruhový graf • Míry kontingence • koeficient kontingence (počet variant obou proměnných je stejný) • korigovaný koeficient kontingence, • Cramerovo V Čím jsou tyto koeficienty blíže 1, tím je závislost mezi X a Y těsnější.

  11. Míry kontingence Označme: • … počet variant proměnné X, • … počet variant proměnné Y, • , kde jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Koeficient kontingence ()

  12. Míry kontingence Označme: • … počet variant proměnné X, • … počet variant proměnné Y, • , kde jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Korigovaný koeficient kontingence

  13. Míry kontingence Označme: • … počet variant proměnné X, • … počet variant proměnné Y, • , kde jsou pozorované sdružené četnosti zapsané v kontingenční tabulce a jsou očekávané četnosti odpovídající součinu příslušných marginálních relativních četností. • Cramerovo V

  14. Motivační příklad Pro diferencovaný přístup v personální politice potřebuje vedení podniku vědět, zda spokojenost v práci závisí na tom, jedná-li se o pražský závod či závody mimopražské. Šetření se účastnilo 100 pracovníků z Prahy a 200 pracovníků z venkova. Výsledky šetření jsou v následující tabulce. Výsledky šetření analyzujte.

  15. Exploratorní analýza pomocí Statgraphicsu

  16. Exploratorní analýza pomocí Statgraphicsu

  17. Exploratorní analýza pomocí Statgraphicsu

  18. Exploratorní analýza pomocí Excelu

  19. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) A to musím počítat intervalové odhady pro „všechny“ pravděpodobnosti, které jsou v té tabulce???

  20. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Intervalové odhady vybraných pravděpodobností (viz Úvod do statistiky, kapitola 4) NE!!! Vždy záleží na tom, co od výstupu analýzy očekáváš! Tohle je jen návrh analýz, které lze provést…

  21. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin test nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: • žádná z očekávaných četností nesmí být menší než 2, • alespoň 80% očekávaných četností musí být větších než 5. Testové kritérium: ,  kde je distribuční funkce χ2 rozdělenís  stupni volnosti.

  22. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin Yatesova korekce testu nezávislosti v kontingenční tabulce H0: Znaky X a Y v kontingenční tabulce jsou statisticky nezávislé HA: Znaky X a Y v kontingenční tabulce jsou statisticky závislé. Předpoklady testu: ---- Testové kritérium: ,  kde je distribuční funkce χ2 rozdělenís  stupni volnosti. Poznámka: Test má menší sílu testu (oproti χ2 testu nezávislosti).

  23. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

  24. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: A co když předpoklady splněny nebudou??? Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

  25. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Pokud lze některé varianty proměnné „smysluplně“ sloučit, zkus to udělat. Pokud ne, nelze výsledky z výběrového šetření zobecnit na populaci. Na tento možný problém je vhodné myslet již před výběrovým šetřením (dostatečný rozsah výběru). Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné.

  26. Metody statistické indukce vhodné pro analýzu závislosti dvou kategoriálních veličin H0: Spokojenost v práci nesouvisí s umístěním závodu. HA: Spokojenost v práci souvisí s umístěním závodu. Ověření předpokladů testu: Všechny očekávané četnosti jsou větší než 5. Předpoklady testu lze považovat za splněné. Rozhodnutí: Na hladině významnosti 0,05 zamítáme nulovou hypotézu (test nezávislosti v kontingenční tabulce, , , spokojenost v práci souvisí s umístěním závodu (. Výstup ze Statgraphicsu (Nekopírovat do projektů, DP, článků…!!!)

  27. Takže stačí stáhnout „něco“ z http://www.vyplnto.cz, dotazníky vyhodnotit a mám projekt!!! No, když tam seženeš data, která lze považovat za náhodný výběr z populace, na níž chceš výsledky zobecnit, tak by to šlo. Bude hodně záležet na tom, jak to vyhodnocení provedeš…

  28. Analýza závislosti v asociačních tabulkách

  29. Asociační tabulky • speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) Schéma rozšířené asociační tabulky

  30. Asociační tabulky • speciální typ kontingenčních tabulek, které používáme k sledování závislosti dvou dichotomických znaků, tj. kategoriálních znaků nabývajících pouze dvou variant. (asociace = vztah dvou dichotomických znaků) Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  31. Asociační tabulky Na asociační tabulku lze sice nahlížet jako na speciální případ kontingenčních tabulek a při analýze používat jejich aparát, nicméně vhodnější je využít specifické metody a charakteristiky asociace. Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  32. Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „crossproduct ratio“) Pozorovaný poměr počtu úspěchů k počtu neúspěchů (tzv. pozorovaná šance) za okolností I. je , za okolností II. . Odhad poměru šancí je pak . Schéma rozšířené asociační tabulky

  33. Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „crossproduct ratio“) Pozorovaný poměr počtu nemocných k počtu „zdravých“ (tzv. pozorovaná šance) u exponované populace je , u neexponované populace. Odhad poměru šancí je pak . Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  34. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. • Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je • což odpovídá přibližně 134 novorozeneckým úmrtím na 1 000 přeživších novorozenců s nízkou porodní váhou. • Obdobně odhadneme šanci novorozeneckého úmrtí u dětí s normální porodní váhou. • Lze očekávat přibližně 6 novorozeneckých úmrtí na 1 000 přeživších novorozenců s normální porodní hmotností.

  35. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. • Odhad šance novorozeneckého úmrtí u dětí s nízkou porodní váhou je • Odhad šance novorozeneckého úmrtí u dětí s normální porodní váhou je • šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou.

  36. Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „crossproduct ratio“) . Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  37. Míry asociace Poměr šancí (angl. „odds ratio“), nazýváno také křížový poměr (angl. „crossproduct ratio“) . Je-li , potřebujeme zpravidla ještě rozhodnout, zda je indikována asociace statisticky významná. Woolfova metoda: intervalovýodhad:. Jestliže intervalový odhad nezahrnuje 1, pakzamítámehypotézu o nezávislostiznakůX a Y.

  38. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. • šance novorozeneckého úmrtí je 21,4 krát vyšší u novorozenců s nízkou porodní váhou než u novorozenců s normální porodní váhou. • intervalovýodhad je dánvztahem • . • (viz vybrana_rozdeleni.xls) • Po dosazení: intervalovýodhad je . Je zcela zřejmé, že šance novorozeneckého úmrtí závisí na porodní váze .

  39. Míry asociace Absolutní riziko (angl. absolute risk“) výskytu události (onemocnění, úmrtí, …) v závislosti na okolnostech (přítomnosti sledovaného faktoru) • odhad absolutního rizika onemocnění u exponovaných respondentů je , • odhad absolutního rizika onemocnění u neexponovaných respondentů je . Absolutní rizika mohou nabývat hodnot z intervalu . Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  40. Míry asociace Relativní riziko (angl. relativerisk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. . Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  41. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. • Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je , • tj. novorozenecké úmrtí lze očekávat u cca 119 z 1 000 novorozenců s nízkou porodní váhou), • u dětí s normální porodní hmotností je absolutní riziko: , • tj. novorozenecké úmrtí lze očekávat u cca 6 z 1 000 novorozenců s normální porodní váhou.

  42. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. • Odhad absolutního rizika novorozeneckého úmrtí u dětí s nízkou porodní hmotností je , • u dětí s normální porodní hmotností je absolutní riziko: , • Odhad relativního rizika novorozeneckého úmrtí • . • Ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou.

  43. Míry asociace Relativní riziko (angl. relativerisk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. . Schéma rozšířené asociační tabulky (biomedicínská aplikace)

  44. Míry asociace Relativní riziko (angl. relativerisk“) • poměr odhadů absolutních rizik vzniku onemocnění u exponovaných a neexponovaných osob, tj. . Je-li , musíme rozhodnout, zda je indikována asociace statisticky významná. Katzova metoda: intervalovýodhad . Jestliže intervalový odhad nezahrnuje 1, pakzamítámehypotézu o nezávislostiznakůX a Y.

  45. Závisí novorozenecká úmrtnost (do 7 dnů po porodu) na porodní váze? Data odpovídající situaci v New Yorku v roce 1974 jsou uvedena v následující tabulce. ve sledovaném období bylo u dětí s nízkou porodní váhou 19 krát vyšší riziko novorozeneckého úmrtí než u dětí s normální porodní váhou. intervalovýodhad je dánvztahem . (viz vybrana_rozdeleni.xls) Po dosazení: intervalovýodhad je . Je zcela zřejmé, že riziko novorozeneckého úmrtí závisí na porodní váze .

  46. Simpsonův paradoxaneb pozor na posuzování tabulek, které se skládají ze dvou či více skupin

  47. V Horních Sádrovicích bylo hospitalizováno 600 „lehkých“ pacientů, z nichž 10 (1,7%) zemřelo a 400 „těžkých“ pacientů, z nichž zemřelo 190 (47,5%). Ve Staré Dláze bylo hospitalizováno 900 „lehkých“ pacientů, z nichž 30 (3,2%) zemřelo a 100 „těžkých“ pacientů, z nichž zemřelo 100 (10,0%).

  48. Kontingenční tabulky rozšířené o marginální četnosti a řádkové rel. četnosti

  49. Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

  50. Ve kterém městě je u lehkých pacientů nižší riziko úmrtí?

More Related