1 / 34

Korreláció, lineáris regresszió

Korreláció, lineáris regresszió. Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika. Két változó közötti kapcsolat vizsgálata. Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió. Két változó között lehet….

decima
Download Presentation

Korreláció, lineáris regresszió

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

  2. Két változó közötti kapcsolat vizsgálata • Diszkrét valószínűségi változók → Khi-négyzet próba • Folytonos valószínűségi változók → Korreláció és regresszió

  3. Két változó között lehet… • Függvényszerű (determinisztikus) kapcsolat • Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót • Pl.: Celsius fok és Fahrenheit átváltás • Stochasztikus kapcsolat • A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ • Pl.: koleszterin és a triglicerid szint • Függetlenség • Nincs kapcsolat • Pl.: koleszterin szint és az irányítószám

  4. Megválaszolható kérdések • Független-e egymástól az életkor és a vércukor szint? • Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? • A pulzusszám miképp befolyásolhatja a vérnyomást?

  5. Korreláció és regresszió • A két változó közötti kapcsolat léte és erőssége → Korreláció • A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

  6. Korreláció • Az összetartozó (x, y) pontpárok ábrázolása • Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció • Az összefüggés irányától függően pozitív vagy negatív • Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

  7. Korrelációs együttható (r)(Pearson-r, Product-moment correlation) • A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük • r értéke -1 és 1 közötti • Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) • Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) • Minél szorosabb a kapcsolat, │r│ annál közelebb van 1-hez • Ha előjele + növekvő, ha – csökkenő a kapcsolat tendenciája Felsővonásos betűk – tapasztalati várható érték Sx, Sy – tapasztalati korrigált szórásnégyzet

  8. A korreláció… • … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) • … szimmetrikus (x korrelációja y-nal = y korrelációja x-szel) • … a lineáris összefüggést méri, nem az összefüggést általában • … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!)

  9. Grafikus ellenőrzés (pontfelhő diagram, scatter plot) • Linearitás • Outlierek • Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? • Két ábrából melyiken szorosabb az összefüggés? • Mindkét ábrán r=0,7 • A felső ábrán kisebbek a szórások • Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

  10. Outlierek, linearitás • Regressziós egyenes: y=3+0,5x • r = 0,816 • E = 7,5 • d = 4,12 • 2. nem lineáris kapcsolat! • Outlier nélkül • 3. r=1 • 4. r=0

  11. Outlierek Szubjektív mi az outlier (ált. 2 SD-n kívül) Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton, nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó. Mi a teendő?

  12. Kizárás Jobb egérgombbal előhívható

  13. Új változó létrehozása, logaritmizálás

  14. R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol. 3 (1955) 1-50 • Vizsgálat a dohányzás és a tüdőrák kapcsolatára • Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban • A korreláció 0,73 volt a 11 pontra • Országok betegszenek meg, vagy emberek?

  15. Csoportok Egyének Ökológiai korreláció • Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. • Kerülendő! Sohasem szabad két populációból származó mintát keverni!

  16. Determinációs együttható (R2) • Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza • Pl.: r=0,5 R2= 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik • Ha r=1, R2= 100%

  17. Lineáris korrelációszámítás feltételei • Mindkét változó folytonos, normál eloszlású legyen • Hiányában Spearman rang korreláció végezhető • A minták választása legyen véletlen mintavétel • Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) • Minden x értékhez tartozzon egy y érték • Ennek hiányát a statisztikai programok tudják kezelni • X és y értékei egymástól függetlenek legyenek • Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai

  18. Korrelációs együttható szignifikanciája • Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) • ezt az elméleti korrelációs együttható írja le (ρ –rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját → a hibából számolom a szignifikanciát

  19. Korrelációs együttható szignifikanciája II • H0 – a korrelációs együttható a populációban 0 • H1 – ρ nem = 0 • N-2 szabadságfokú t-statisztika felhasználása • Döntés a p-érték szerint • Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t • A populáció korrelációs együtthatója r és nagyobb, mint 0. • (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) • (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

  20. Lineáris regresszió • A változók közötti kapcsolatot egy függvénnyel fejezzük ki • Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól • Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki • Azt fejezi ki, hogy a függő változó adott értékéhez milyen átlagú független változó tartozik • Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás)

  21. y változó x változóra adott regressziós egyenes • A képlet általánosan: y=a+bx y – függő változó x – független változó a – y tengelymetszet b – meredekség (tg α) • Az az egyenes képlete, ami köré csoportosulnak a pontok

  22. Legkisebb négyzetek módszere • A legjobban illeszkedő egyenes megtalálására • Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb • Ezek a távolságok a reziduálisok. Minél szorosabb az összefüggés, annál kisebbek • Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

  23. Elérési útvonal STATISTICA-ban: Statistics>>Basic statistics and Tables>> Correlation matrices • Leginformatívabb módon:

  24. Regressziós egyenes képlete → ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

  25. Grafikus ellenőrzés másik módja: Graphs>>Scatterplots Itt is kérhető statisztika

  26. Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket (ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

  27. Az r értéke 0,6372-ről 0,4245-re csökkent. (Spearman rang korreláció az előnyösebb megoldás)

  28. Két korreláció összehasonlítása • Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? • Statistics>>Basic Statistics and Tables>>Difference test: r • H0 – egyformán szoros a két összefüggés

  29. Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek Nem paraméteres korreláció (rang korreláció)

  30. Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…) • 3 féle kimutatás Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Áttekintés, minden-mindennel Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

  31. Mátrix: Detailed report:

  32. Köszönöm a figyelmet!

More Related