650 likes | 807 Views
Kapcsolat vizsgálat I: egy és többváltozós lineáris regressziós vizsgálatok és alkalmazásaik a klinikumban. Füst György III. Belklinika. KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ.
E N D
Kapcsolat vizsgálat I: egy és többváltozós lineáris regressziós vizsgálatok és alkalmazásaik a klinikumban. Füst György III. Belklinika
KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ • Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? • Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. • A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.
A KORRELÁCIÓ • A két változó közötti egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. Becslése az értékek ábrázolása alapján lehetséges. • ELŐSZÖR MINDIG RAJZOLJUNK!!!
A korrelációs koefficiens legfontosabb tulajdonságai • Ha nincs lineáris korreláció, akkor a korrelációs koefficiens értéke: 0, tökéletes pozitív, ill. negatív lineáris korreláció fennállása esetén a korrelációs koefficiens értéke +1,00, ill. -1,00. • A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó rögzítve van (pl. testmagasság és testsúly közötti korreláció, mindegy, hogy ezek milyen mértékegységben (kg, font, cm, inch) vannak megadva). • A korrelációs koefficiens értékét az outlier (kiugró) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni és pl. adat-transzformációt kell végrehajtani. A kiugró érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba,ilyenkor lehet a mérést ismételni, vagy az értéket kizárni • 4, A korreláció nem jelent ok-okozati kapcsolatot, mert ez lehet annak a következménye, hogy-az x tengelyre felvett változó befolyásolja az y tengelyre felvettet-az y tengelyre felvett változó befolyásolja az x tengelyre felvettet-egyik eset sem áll fenn, hanem egy harmadik tényező mindkettőt egy irányba (pozitív korreláció) vagy különböző irányokba (negatív korreláció) mozdítja el.
A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs lineáris korreláció), a legmagasabb +1,0 vagy -1,0 (tökéletes pozitív, ill. negatív lineáris korreláció) • A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva) • A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erôsen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni
EGY KIUGRÓ (OUTLIER) ÉRTÉK HATÁSA A KORRELÁCIÓS KOEFFICIENS NAGYSÁGÁRA ÉS SZIGNIFIKANCIÁJÁRA
A korreláció (a két változó közötti kapcsolat) erősségének megítélése. A leegyszerűsített megoldás
A PEARSON-FÉLE KORRELÁCIÓS KOEFFICIENS SZÁMÍTÁS ELSŐ LÉPÉSE, AZ X ILL. Y ÁTLAGTÓL VALÓ TÁVOLSÁG
A determináltsági koefficiens (r2) Az r2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r2=0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető). Példánkban a két komplement fehérje (C9 és C1-INH) között az r=0,62, az r2=0,38, tehát a C9 szintje alapján 39%-ban lehet a C1-INH szintet, ill. a C1-INH szintje alapján a C9 szintet előre jelezni.
Az r CI-a • Az r értékeknek is van eloszlása, ez azonban nem szimmetrikus és csak nagyobb (N>10) esetszámnál értékelhető. Minden program megcsinálja, kézzel elég macerás, A C9 és C1-INH koncentráció közötti r (0,62) CI-a 0,42-0,76.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I. • A vizsgált egyének (állatok, minták, stb) egy nagyobb populációból véletlenszerűen lettek kiválasztva • Minden vizsgált egyénnél megmérték mindkét (x és y) változót (a hiányzó értékekkel a legtöbb számítógépes program boldogul) • A megfigyelések egymástól függetlenek A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk)
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II. • Az x és y értékeknek is függetleneknek kell lenni egymástól (l. a HCV RNS változási példát fent). • Ha az x változó szisztematikusan változik, pl. idő, koncentráció vagy dózis) akkor ne korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. • Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei III. • Az x és az y végig egy irányban kell változzon. Pl. az r-nek semmi értelme akkor, ha az x növekedésével egy darabig nő az y, de a további növelés után csökkenni kezd. • sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
Összefüggés az almavirágok átmérője és az almák súlya között. Hipotetikus példa a rang-korrelációs eljárás elvének szemléltetésére.
Pozitív lineáris korreláció a szérum log10triglicerid és log10HbA1C szintek között cukorbetegekben
Negatív lineáris korreláció a szérum log10triglicerid és HDL-koleszterin szintek között cukorbetegekben
Negatív korreláció a szérum log10 triglicerid és HDL-koleszterin szintek között cukorbetegekben. Számítás a nem paraméteres Spearman próbával
A korrelációs számítás legfontosabb szabálya: a szignifikáns korreláció sem jelent ok-okozati kapcsolatot • Ha x és y között erős korreláció van, akkor az lehet azért, mert • 1. az y változásai okozzák az x változásait • 2. a x változásai okozzák az y változásait • 3. egy harmadik faktor mind az x-et, mind az y-t egy irányba (vagy ellenkező irányba) befolyásolja. Ez a leggyakoribb!!!
A REGRESSZIÓ • A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. • lineáris és nem-lineáris regresszió • egyszerű és többszörös regresszió
y Y változás X változás b (meredekség): y változás/x változás a x
PÉLDA • Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális,monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)
Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. • Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.
A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna.
Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. • Az első és harmadik pont elég távol esik a regressziós egyenestől ahhoz, hogy a pontok és egyenes közötti függőleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják
A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk
A lineáris regressziós egyenes szignifikanciája: • A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képződött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérő, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: 0.0249, tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdő C4d mennyisége.
A lineáris regresszió elvégezhetőségének feltételei • Az x és az y értékek nem felcserélhetők, az x értékek alapján szeretnénk előre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy időben esetleg logikailag megelőzi az y-t (pl. előbb adtuk hozzá a szérumhoz az allergént és csak ezután képződött a C4d) • Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetővé teszi a reziduumok ábrázolását is, ennek elemzése elősegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.