510 likes | 632 Views
TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II . TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ. A többszörös modellek feltételezései (assumptions). Többszörös logisztikus regresszió.
E N D
TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
Többszörös logisztikus regresszió • Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esély-arány (odds ratio) • Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó • Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) • Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. • EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
ADATBÁZIS: SZÍVELÉGTELENSÉG: 195 beteg 2 évig majd tovább követve
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben szenvedő betegek meghalnak-e a vizsgálati periódus folyamán?
Milyen tényezők határozzák meg, hogy a szívelégtelenségben szenvedő betegek balkamrai ejekciós frakciója alacsony vagy magas?
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ • Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy egységnyi növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód • A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. iterative maximum likelihoodratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete • odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII • Ha ezt az egyes független változók szerint részeire bontjuk, akkorln (odds) = ßo + X1ß1 + X2ß2.... • A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.) • A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-áraln (OR) = X1(lnOR1) + X2(lnOR2).... • Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Modell felépítés a logisztikus regresszióban • Hasonló a lineáris regresszióhozmanuálisautomatikus: forward selection backward elimination stepwise selection • A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
FIKTÍV PÉLDA • 50 M (morbus) betegségben szenvedő beteget követtek nyomon 3 éven keresztül, közülük 20 halt meg (1) , 30 életben maradt.(0) Sokfajta adatot és vizsgálati eredményt rögzítettek a betegeknél, de végül a válogatás eredményeképpen csak 3 változó mutatott szignifikáns összefüggést a halálozással: dohányzás (D) (a beteg valaha is dohányzott: 1, sohase dohányzott: 0), életkor (K) a vizsgálat kezdetekor (év) és a C reaktív protein (CRP) koncentráció: alacsony (<5 g/l), magas >5 mg/l). A számítógépes program a következő esélyarányokat mutatta (mindhárom esetében p<0,01 szignifikanciával, az állandó érték • Halálozás (H), = 0,50 + 0,05D + 0,001K + 0,06CRP
Néhány változat • 50 éves nem dohányzó, alacsony CRP szintű beteg H esély=0,50 + 0x0,05 + 0,001x50 + 0x0,06 = 0,55 • 50 éves beteg, dohányos, CRP szintje alacsony H,esély =0,50 + 1x0,05 + 0,001x50 + 0x0,06 = 0,60 • 50 éves dohányzó és magas CRP szintű beteg H,esély=0,50 + 1x0,05 + 0,001x50 + 1x0,06 = 0,66
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben szenvedő betegek meghalnak-e a vizsgálati periódus folyamán?
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós analízis során szignifikáns (p.<0.05) különbséget mutató változók a modellbe válogatása után. Számítás a forward selection módszerével
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós analízis során különbséget (p<0.25) mutató változók a modellbe válogatása után. Számítás a forward selection módszerével
Mennyi az esélye arra, hogy magas legyen a véralkoholszintje egy 27 éves kaukázusi férfinek, aki csütörtökön du. 2-kor kerül az osztályra?
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések • Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) • A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. • Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) • Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? • Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). • Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység változás mit jelent. Megoldások:értelmes kategóriákat állítok fel: pl. életkorban 10 év,binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
A logisztikus regressziós számítással megoldható problémák • Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában • Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) • A két független változó egymástól független, de befolyásolják egymás hatását a függő változóra, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók • Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66). • A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91) • Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)
Interakció • 8.1 haplotípus*nem p=0.0489 • 8.1 haplotípus*életkor p=0.009
Table 4 Gender-adjusted risk of carriers vs non carriers of the LTA 252A+TNF -308A+ HSP70 1267G + RAGE -429T haplotype belonging to different age groups at diagnosis to have colorectal cancer
Table 5 Age-adjusted risk of females and male carriers vs non carriers of the LTA 252A+TNF -308A+HSP70 1267G + RAGE -429T haplotype to have colorectal cancer
1. példa. Dean D és mtsai: (PLoS Med 5(1): e14. doi:10.1371/journal.pmed.0050014 • A trachoma a vakság egyik leggyakoribb oka, a Földön, elsősorban az elmaradott országokban 6 millió trachoma miatt megvakult ember él. A szerzők azt vizsgálták, hogy a trachoma ismert kórokozója (Chlamydia trachomatis) mellett más Chlamydia speciesek (Chl. psittaci és Chl. pneumonia) is mutatnak-e a betegséggel összefüggést. A kérdést az teszi indokolttá, hogy a betegség kifejlődést gátló, ill. a progressziót lassító gyógyszeres és műtéti beavatkozások hatékonysága elmaradt a várttól és ezért felmerült a vakcináció szükségessége. A vizsgálat során egy nepáli völgyben élő trachomások és nem trachomás kontrollok könny és vérmintáiban vizsgálták a háromféle Chlamydia species elleni IgG típusú antitestek előfordulását
Két Chlamydia (Chl trachomatis és Chl. psittaci) species elleni antitest jelenléte erősen szignifikánsan megnöveli a trachoma rizikóját, míg a Chl pneumoniae esetében nem találtak ilyen összefüggést
2. példa. Feng B-J és mtsai (PLoS Genet 5(8): e1000606. doi:10.1371/journal.pgen.1000606) • A psoriasis a bőr gyulladásos betegsége minden 50-dik európaiban jelen van. Jól ismert a psoriasis erős kapcsolata az MHC I. osztályú HLA-C antigénekkel, azonban több adat, köztük a szerzők által végzett teljes genom szűrés is arra mutat, hogy más az MHC régióban kódolt gének is hozzájárulhatnak a psoriasis iránti hajlam megnöveléséhez. Jelen munkában azt vizsgálták, hogy a régióban hol találhatók még a psoriasissal asszociált polimorfizmusok és ezek függetlenek-e a HLA-Cw rizikó allélektől.
A HLA-B40 esetében szignifikáns védő hatást tapasztaltak, míg a HLA-B57 hordozás esetében szignifikánsan megnövekedett psoriasis rizikóval járt együtt
3. példa. Gonzalo V és mtsai (PLoS ONE 5(1): e8777. doi:10.1371/journal.pone.0008777) • A szerzők a vastagbélrák és gén-promoterek abnormális metilációja közötti kapcsolatot vizsgálták 47 betegben és ugyanennyi nemben és életkorban illesztett kontrollban. a gén metilációjának mértékét mérték, kvantitatív metilációt mérő PCR reakciót használva. Szoros összefüggést észleltek a tumoros léziók száma és a metiláció mértéke között. Mivel más tényezők is összefüggtek a tumoros léziók számával, az összefüggést többszörös logisztikus regresszióval is megvizsgálták..