350 likes | 619 Views
Korreláció, lineáris regresszió. Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika. Két változó közötti kapcsolat vizsgálata. Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió. Két változó között lehet….
E N D
Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
Két változó közötti kapcsolat vizsgálata • Diszkrét valószínűségi változók → Khi-négyzet próba • Folytonos valószínűségi változók → Korreláció és regresszió
Két változó között lehet… • Függvényszerű (determinisztikus) kapcsolat • Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót • Pl.: Celsius fok és Fahrenheit átváltás • Stochasztikus kapcsolat • A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ • Pl.: koleszterin és a triglicerid szint • Függetlenség • Nincs kapcsolat • Pl.: koleszterin szint és az irányítószám
Megválaszolható kérdések • Független-e egymástól az életkor és a vércukor szint? • Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? • A pulzusszám miképp befolyásolhatja a vérnyomást?
Korreláció és regresszió • A két változó közötti kapcsolat léte és erőssége → Korreláció • A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis
Korreláció • Az összetartozó (x, y) pontpárok ábrázolása • Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció • Az összefüggés irányától függően pozitív vagy negatív • Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)
Korrelációs együttható (r)(Pearson-r, Product-moment correlation) • A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük • r értéke -1 és 1 közötti • Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) • Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) • Minél szorosabb a kapcsolat, │r│ annál közelebb van 1-hez • Ha előjele + növekvő, ha – csökkenő a kapcsolat tendenciája Felsővonásos betűk – tapasztalati várható érték Sx, Sy – tapasztalati korrigált szórásnégyzet
A korreláció… • … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) • … szimmetrikus (x korrelációja y-nal = y korrelációja x-szel) • … a lineáris összefüggést méri, nem az összefüggést általában • … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!)
Grafikus ellenőrzés (pontfelhő diagram, scatter plot) • Linearitás • Outlierek • Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? • Két ábrából melyiken szorosabb az összefüggés? • Mindkét ábrán r=0,7 • A felső ábrán kisebbek a szórások • Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!
Outlierek, linearitás • Regressziós egyenes: y=3+0,5x • r = 0,816 • E = 7,5 • d = 4,12 • 2. nem lineáris kapcsolat! • Outlier nélkül • 3. r=1 • 4. r=0
Outlierek Szubjektív mi az outlier (ált. 2 SD-n kívül) Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton, nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó. Mi a teendő?
Kizárás Jobb egérgombbal előhívható
R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol. 3 (1955) 1-50 • Vizsgálat a dohányzás és a tüdőrák kapcsolatára • Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban • A korreláció 0,73 volt a 11 pontra • Országok betegszenek meg, vagy emberek?
Csoportok Egyének Ökológiai korreláció • Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. • Kerülendő! Sohasem szabad két populációból származó mintát keverni!
Determinációs együttható (R2) • Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza • Pl.: r=0,5 R2= 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik • Ha r=1, R2= 100%
Lineáris korrelációszámítás feltételei • Mindkét változó folytonos, normál eloszlású legyen • Hiányában Spearman rang korreláció végezhető • A minták választása legyen véletlen mintavétel • Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) • Minden x értékhez tartozzon egy y érték • Ennek hiányát a statisztikai programok tudják kezelni • X és y értékei egymástól függetlenek legyenek • Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai
Korrelációs együttható szignifikanciája • Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) • ezt az elméleti korrelációs együttható írja le (ρ –rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját → a hibából számolom a szignifikanciát
Korrelációs együttható szignifikanciája II • H0 – a korrelációs együttható a populációban 0 • H1 – ρ nem = 0 • N-2 szabadságfokú t-statisztika felhasználása • Döntés a p-érték szerint • Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t • A populáció korrelációs együtthatója r és nagyobb, mint 0. • (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) • (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)
Lineáris regresszió • A változók közötti kapcsolatot egy függvénnyel fejezzük ki • Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól • Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki • Azt fejezi ki, hogy a függő változó adott értékéhez milyen átlagú független változó tartozik • Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás)
y változó x változóra adott regressziós egyenes • A képlet általánosan: y=a+bx y – függő változó x – független változó a – y tengelymetszet b – meredekség (tg α) • Az az egyenes képlete, ami köré csoportosulnak a pontok
Legkisebb négyzetek módszere • A legjobban illeszkedő egyenes megtalálására • Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb • Ezek a távolságok a reziduálisok. Minél szorosabb az összefüggés, annál kisebbek • Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum
Elérési útvonal STATISTICA-ban: Statistics>>Basic statistics and Tables>> Correlation matrices • Leginformatívabb módon:
Regressziós egyenes képlete → ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció
Grafikus ellenőrzés másik módja: Graphs>>Scatterplots Itt is kérhető statisztika
Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket (ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )
Az r értéke 0,6372-ről 0,4245-re csökkent. (Spearman rang korreláció az előnyösebb megoldás)
Két korreláció összehasonlítása • Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? • Statistics>>Basic Statistics and Tables>>Difference test: r • H0 – egyformán szoros a két összefüggés
Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek Nem paraméteres korreláció (rang korreláció)
Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…) • 3 féle kimutatás Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Áttekintés, minden-mindennel Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)
Mátrix: Detailed report: