160 likes | 586 Views
Korelace. M ám dvě proměnné, prakticky „stejnocenné“ (tradičně se ale označují X a Y ) - ptám se, zda jsou nezávislé, a pokud jsou „korelované“, jak moc. (Pearsonův) Korelační koeficient.
E N D
Korelace • Mám dvě proměnné, prakticky „stejnocenné“ (tradičně se ale označují X a Y) - ptám se, zda jsou nezávislé, a pokud jsou „korelované“, jak moc.
(Pearsonův) Korelační koeficient Pokud jsou kladné odchylky od průměru u X spojeny s kladnými odchylkami u Y, a záporné se zápornými, součin je kladný Bezrozměrné číslo (kovariance standardizovaná variancemi jednotlivých proměnných), -1 značí deterministickou negativní, +1 deterministickou pozitivní závislost.
Předpokládáme lineární vztah, resp. dvourozměrné normální rozdělení
I tady je r~0, přesto hodnoty nejsou nezávislé Ale pozor, pro tohle X nemá Y normální rozdělení
Df=38, p<10-5 r=+0.99 r=-0.99
Df=38, p<10-5 r=-0.83 r=+0.83
Df=38, p<0,01 r=-0.45 r=+0.45
Testujeme nulovou hypotézuH0: =0 r je odhad parametru základního souboru - . Zase převedeme na t-test Opět lze užít jednostranný i oboustranný test. Lze testovat i nulovou hypotézu, že =nějaká nenulová hodnota, postup je složitější, ale v praxi se to většinou neužívá.
Jsou tabelované i kritické hodnoty r (pro různé velikosti výběru)
Srovnání s regresí • Platí, že koeficient determinace v regresi (R2) je druhá mocnina korelačního koeficientu spočteného z týchž dvou proměnných. • Dosažená hladina významnosti testu o nezávislosti je přesně stejná v regresi i pro korelační koeficient.
Síla testu • Regrese je průkazná právě tehdy, když je průkazný korelační koeficient. • Síla testu roste (u obojího) s těsností vztahu a s počtem pozorování. • Když chci nějak odhadnout, kolik pozorování potřebuju, tak musím mít představu, jak je těsný vztah (kolik je v základním souboru R2 nebo ρ).
Síla testu: kritické hodnoty r - lze se podívat, kolik potřebuju pozorování, abych měl ~50% šanci, že zamítnu H0 na dané hladině významnosti (při známém ρ) Když chci mít přesnější představu (např. že s 95% pravděpodobností zamítnu H0 na 1% hladině významnosti), popis je ve skriptech. Vše ale vyžaduje určitou představu, kolik je ρ
Koeficient pořadové korelace (Spearmannův) [existuje ještě Kendallův] • Nahradím každou proměnnou jejím pořadím a z pořadí spočítám korelační koeficient. Pro větší výběry platí i kritické hodnoty pro normální (Pearsonův) korelační koeficient. Lze užít výpočetní tvar d je diference v pořadí
Ale tady bude Spearmannův k. také 0 Můžeme říci, že Pearsonův korelační koeficient je mírou lineární závislosti, Spearmanův mírou monotónní závislosti.
Další možností je užít permutační test • Náhodně prohazuju hodnoty nezávisle proměnné, a počítám, kolikrát mě závislost vyjde “tak hezky”, jako mě vyšla v datech.