620 likes | 1.13k Views
Regresia a korelácia. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf
E N D
Regresia a korelácia Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK
skúmanie sily a druhu závislostí medzi dvoma premennými • štatistická závislosť ≠ kauzalita!!! • bodový graf • korelácia – sila závislosti („symetrický“ vzťah premenných) • regresia – závislosť spojitej veličiny (závislej premennej) na jednej alebo viacerých veličinách (nezávislé premenné) • závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ...
Variancia, kovariancia a korelačný koeficient (Pearsonov) • Pearsonov korelačný koeficient rxy – určuje silu vzťahu dvoch spojitých premenných (x,y) Výberová kovariancia – cov(x,y) Variancia y - var(y) Variancia x – var(x) Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil
Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.
Correlation Seen on a Graph Same Direction, Weak Correlation Moderate Correlation Same Direction, Strong Correlation Korelačný koeficient <-1, 1> 0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah
Poznámky ku korelačnému koeficientu • Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value) • H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah • Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná! • uvádzať konfidenčné intervaly pre populačný koeficient • Korelácia neznamená príčinnosť!!!
Korelačný koeficient Korelovanosť = lineárna závislosť • Dokážezachytiť: • silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1) • smer lineárnej závislosti (v zmysle priama vs. nepriama) • Nedokáže zachytiť: • Veľkosť sklonu lineárnej závislosti • Nelineárnu závislosť medzi premennými
Korelačný koeficient http://en.wikipedia.org/wiki/File:Correlation_examples.png
Jednoduchá regresia (simple regression) • Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej). • Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.
Lineárna regresia • Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými lineárny nelineárny
Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky • model y= A + Bx + ε • y – závislá premenná • x – nezávislá premenná • A – absolútny člen-bod, kde priamka pretína y-ovú os • B – smernica priamky („sklon“) • ε – náhodný člen (náhodná chyba, ktorú nejde vysvetliť lineárnym vzťahom) a, b – odhady regresných parametrov A, B, vypočítaných z našich dát Populácia – A, B↔a, b - výber
Metóda najmenších štvorcov ε Regresná priamka
reziduálny súčet štvorcov • počet stupňov voľnosti (n – 2) • reziduálny rozptyl • celková suma štvorcov • regresná suma štvorcov • ST = SR + Se
Koeficient determinácie R2 Vysvetlená variabilita/celková variabilita • Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť. • Druhá mocnina korelačného koeficientu • 0 ≤ R2 ≥ 1
Koeficient determinácie R2 SSrez SSrez
Interpretácia regresných koeficientov • Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!! • b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1 • a – priesečník s osou y
Interpretácia regresných koeficientov b < 0 b > 0
Predpoklady modelu • Lineárny vzťah medzi x a y. (t.j. správne definovaný model) • Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl) • (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).) • Chyby sú navzájom nezávislé.
Normálne rozdelenie chyby Populačná regresná priamka
The line of best fit (minimizes sum of squared residuals) Actual value Error variance (residual) Predicted value Avg. SSmodel variance F = Avg. SSerror variance Model variance (predicted) Regression and the F-test
Simple regression - analysis Source of variationSum SquaresDFMean Square Regression 4476,965491 1 4476,965491 Residual 10923,034509 48 227,563219 Total15400 49 F = 19,673502 P < 0,0001 R square = 0,290712 TSH0 200 180 160 140 120 100 50 100 150 200 TS00-3h.
Simple linear regression Equation: TSH0 = 0,347095 TS00-3h. + 97,703185 Standard Error of slope = 0,078254 95% CI for population value of slope = 0,189754 to 0,504435 Correlation coefficient (r) = 0,539177 (r² = 0,290712) 95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843 t with 48 DF = 4,435482 Two sided P < 0,0001 Power (for 5% significance) = 98,37% Correlation coefficient is significantly different from zero
Heteroskedasticita… • Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite. • Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y
Residuals vs. Fitted Y [linear regression] Residuals (Y - y fit) 45 20 -5 -30 120 130 140 150 160 170 Fitted TSH0 Overenie predpokladov modelu • Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test) • Overenie lineárnosti vzťahu • Overenie konštantnosti rozptylu
Normal Plot for Residuals [linear regression] van der Waerden normal score 3 1 -1 -3 -30 -5 20 45 Residual (Y - y fit) • Overenie normálneho rozdelenia chyby N(0,σε) • Normálny graf (q-q alebo p-p plot), histogram, testy (ne)normality
Použitie regresného modelu k odhadnutiu priemernej hodnoty y
Prediction interval Predpovedanie konkrétnej hodnoty budúceho merania
Outliers • Odľahlé hodnoty (multivariate outlier) • Influential data points • Výrazne ovplyvňujú výsledok OLS
+ + + + + + + + + + + An influential observation An outlier + + … but, some outliers may be very influential + + + + + + + + + + + + + + The outlier causes a shift in the regression line • OLS metóda je citlivá na prítomnosť odľahlých pozorovaní • (influential observations) !!! Neparametrická regresia www.stanford.edu/class/msande247s/kchap17.ppt
Rizikový faktor Outcome Confounder Confounder (zavádzajúca, mätúca, zahmlievajúca premenná) • premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome) • V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora
Nosenie zápaliek Rakovina pľúc fajčenie Confounding
? ? Oral contraceptive use Oral contraceptive use Cervical cancer Breast cancer Infection with human papillomavirus (HPV) Late age at first birth/ low parity Examples of Confounding HRP 261 1/26/04
Intervening variable (intervenujúca premenná) • Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu • Štatisticky neodlíšiteľná od „confoundera“ • Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať
↑ Blood pressure ↑ Body mass index Hypercholesterolemia Alcohol consumption Myocardial infarction Example(Intervening variable) Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5 • The relationship between moderate alcohol consumption and risk of heart attack. • Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack • Did not adjusted for blood pressure, BMI, hypercholesterolemia
Zidovudine Rizikový faktor Outcome Sérokonverzia Vážnosť poranenia Suppressor Supressor • Typ tzv. confoundera • V bivariačnej analýze nezistíme vzťah medzi rizikovým faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví.
Viacnásobná lineárna regresia • Populácia: yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi • Výber yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y. Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X.