1 / 16

Korelace

Korelace. M ám dvě proměnné, prakticky „stejnocenné“ (tradičně se ale označují X a Y ) - ptám se, zda jsou nezávislé, a pokud jsou „korelované“, jak moc. (Pearsonův) Korelační koeficient.

bob
Download Presentation

Korelace

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korelace • Mám dvě proměnné, prakticky „stejnocenné“ (tradičně se ale označují X a Y) - ptám se, zda jsou nezávislé, a pokud jsou „korelované“, jak moc.

  2. (Pearsonův) Korelační koeficient Pokud jsou kladné odchylky od průměru u X spojeny s kladnými odchylkami u Y, a záporné se zápornými, součin je kladný Bezrozměrné číslo (kovariance standardizovaná variancemi jednotlivých proměnných), -1 značí deterministickou negativní, +1 deterministickou pozitivní závislost.

  3. Předpokládáme lineární vztah, resp. dvourozměrné normální rozdělení

  4. I tady je r~0, přesto hodnoty nejsou nezávislé Ale pozor, pro tohle X nemá Y normální rozdělení

  5. Df=38, p<10-5 r=+0.99 r=-0.99

  6. Df=38, p<10-5 r=-0.83 r=+0.83

  7. Df=38, p<0,01 r=-0.45 r=+0.45

  8. Testujeme nulovou hypotézuH0: =0 r je odhad parametru základního souboru - . Zase převedeme na t-test Opět lze užít jednostranný i oboustranný test. Lze testovat i nulovou hypotézu, že =nějaká nenulová hodnota, postup je složitější, ale v praxi se to většinou neužívá.

  9. Jsou tabelované i kritické hodnoty r (pro různé velikosti výběru)

  10. Srovnání s regresí • Platí, že koeficient determinace v regresi (R2) je druhá mocnina korelačního koeficientu spočteného z týchž dvou proměnných. • Dosažená hladina významnosti testu o nezávislosti je přesně stejná v regresi i pro korelační koeficient.

  11. Jen manipulativní experiment jednoznačně dokáže kauzalitu

  12. Síla testu • Regrese je průkazná právě tehdy, když je průkazný korelační koeficient. • Síla testu roste (u obojího) s těsností vztahu a s počtem pozorování. • Když chci nějak odhadnout, kolik pozorování potřebuju, tak musím mít představu, jak je těsný vztah (kolik je v základním souboru R2 nebo ρ).

  13. Síla testu: kritické hodnoty r - lze se podívat, kolik potřebuju pozorování, abych měl ~50% šanci, že zamítnu H0 na dané hladině významnosti (při známém ρ) Když chci mít přesnější představu (např. že s 95% pravděpodobností zamítnu H0 na 1% hladině významnosti), popis je ve skriptech. Vše ale vyžaduje určitou představu, kolik je ρ

  14. Koeficient pořadové korelace (Spearmannův) [existuje ještě Kendallův] • Nahradím každou proměnnou jejím pořadím a z pořadí spočítám korelační koeficient. Pro větší výběry platí i kritické hodnoty pro normální (Pearsonův) korelační koeficient. Lze užít výpočetní tvar d je diference v pořadí

  15. Ale tady bude Spearmannův k. také 0 Můžeme říci, že Pearsonův korelační koeficient je mírou lineární závislosti, Spearmanův mírou monotónní závislosti.

  16. Další možností je užít permutační test • Náhodně prohazuju hodnoty nezávisle proměnné, a počítám, kolikrát mě závislost vyjde “tak hezky”, jako mě vyšla v datech.

More Related