630 likes | 719 Views
REGRESSZIÓS SZÁMÍTÁSOK II . LOGISZTIKUS REGRESSZIÓ. LOGISZTIKUS REGRESSZIÓ.
E N D
REGRESSZIÓS SZÁMÍTÁSOK II LOGISZTIKUS REGRESSZIÓ
LOGISZTIKUS REGRESSZIÓ A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen más. A logisztikus regresszió nem a legkisebb négyzetek elve szerint dolgozik, hanem egy, a valószínűségi eloszláson alapuló számítást hajt végre. A végeredmény az esély-arány, azaz az odds ratio (OR). Ez – mint neve is mutatja – két esély (odds) aránya. Az esélyt külön-külön kiszámítja a program akkor, ha egy bizonyos feltétel fennáll, illetve nem áll fenn, és a két esély arányát adja meg részünkre. A változó, amely az y tengelyre kerül (függő változó) bináris (igen/nem). A program nem magukkal az OR-ekkel, hanem ezek természetes logaritmusaival (lnOR) dolgozik, amiket a legtöbb program B-nek nevez. A program megadja a B értékeket, ezek SEM-jét, egy ún. közti (Wald) statisztikát, végül az OR-t és ennek 95%-os konfidencia intervallumát. (Utóbbit sokszor külön kell kérnünk). Folyamatos változóknál alapesetben egy SD változás hatását mutatja meg az OR, tehát azt, hogy ha az x tengelyre mért (független), folyamatos változó egy S.D. egységet nő, akkor az hányszorosára növeli (vagy esetleg csökkenti) a bináris függő változó bekövetkezésének (y=1) valószínűségét a be nem következésével (y=0) szemben.
A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. A testtömeg index egy SD-vel) való növekedése 1,08-szorosára növeli az ISZB kockázatot. A BMI egy SD-je 5,28, tehát ha pl. egy normál 25 testtömeg-indexű és egy kissé elhízott 30,28 testtömeg indexű beteget hasonlítunk össze, akkor az utóbbi betegnek 1,08-szor magasabb az ISZB kockázata
A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. A HDL-koleszterin szint 1 SD-vel (0,40 mmol/l-rel) való csökkenése az ISZB kockázatot kb. az egyharmadára (OR: 0,3628) csökkenti le.
Logisztikus regresszió 1. • binomiális vagy kétváltozós (bináris) logisztikus regresszió • Analyze Regression Binary Logistic … • akkor használjuk, ha a célváltozónk dichotóm(pl. igen/nem) • a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása • ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége Szabó Gábor, 2005.
Logisztikus regresszió 2. • alkalmas a próba a közvetett hatások kimutatására is • ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk szemüveges-e Szign.:0,04; Exp(B)=2,0 sikeresen vizsgázott? (igen/nem) szemüveges-e Szign.:0,25; Exp(B)=1,2 sikeresen vizsgázott? (igen/nem) Szign.:0,03; Exp(B)=1,8 hány könyvet olvas évente Szabó Gábor, 2005.
Bináris logisztikus regresszió • AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE • A vizsgált Y esemény lehet pl. a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz
Logisztikus regresszió (folyt) • A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák. • A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok. • A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket: • az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább 5 - 10 esemény jusson mindegyik vizsgált prediktor változóra.
A logisztikus reakció „lelke” az adatok binárissá tétele • A már eleve bináris adatok közül az informatívak kiválasztása • A folyamatos adatok binárissá való átváltoztatása úgy, hogy a létrejövő két csoport biológiailag/orvosilag is különbözzön egymástól
1. példa: HANO (herediter angioneurotikus oedema) genetikája Összefüggést találtunk • A) a XII faktor gén egy polimorfizmusa és az első tünetek jelentkezésének időpontja (év) között • B) A bradykinin receptor gén és az évi tünet előfordulás között
P=0,002 CC CT TT
Tovább a logisztikus regresszió felé • Mind a tünetkezdeti életkor, mind pedig az évi rohamszám folyamatos változó • Ahhoz, hogy maghatározhassuk, milyen mértékű változást idéz elő a vizsgált értékekben a két genetikai polimorfizmus, ezeket binárissá kell tenni. A legtöbbször erre a célra használt felosztás: a mediánon alapszik 1. csop. medián alatti, 2. csop medián vagy medián feletti értékeket mutató betegek
<= 10 éves >10 éves
Dichotomizálás • Nézzük most meg, hogy ha az idős kor határát 50 évben, ill. 60 évben határozzuk meg, akkor az így létrejövő 2-2 csoportban mennyire különbözik majd a BMI? • A BMI-t a medián szerint dichotomizáljuk: alacsony: medián (27) vagy ennél kevesebb, magas: 27-nél több
Logistic regression (1) Table 2 Age and signs of coronary heart disease (CD)
How can we analyse these data? • Compare mean age of diseased and non-diseased • Non-diseased: 38.6 years • Diseased: 58.7 years (p<0.0001) • Linear regression?
Logistic regression (2) Table 3Prevalence (%) of signs of CD according to age group
Dot-plot: Data from Table 3 Diseased % Age group
Logistic function (1) Probability ofdisease x
An interpretation of the logit coefficient which is usually more intuitive is the "odds ratio" • Since: [p/(1-p)] = exp( + X) exp() is the effect of the independent variable on the "odds ratio"
An Example: Hurricane Evacuations Q: EVAC Did you evacuate your home to go someplace safer before Hurricane Dennis (Floyd) hit? 1 YES 2 NO 3 DON'T KNOW 4 REFUSED
From SPSS Output: “Households with pets are 1.933 times more likely to evacuate than those without pets.”
Example - Rizatriptan for Migraine • Response - Complete Pain Relief at 2 hours (Yes/No) • Predictor - Dose (mg): Placebo (0),2.5,5,10 Source: Gijsmant, et al (1997)
Example - Rizatriptan for Migraine • 95% CI for b : • 95% CI for population odds ratio: • Conclude positive association between dose and probability of complete relief
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés • Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? • Prospektív vizsgálat, RR számolható.
A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 • Bruneck tanulmány: 1990, 826 40-79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). • A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. • A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
KÉRDÉSEK • 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat)2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) • Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis