1 / 54

TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II

TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II . TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ. A többszörös elemzés a klinikai orvostudományban, egy példa. Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001

Download Presentation

TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ

  2. A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

  3. Az alap szérum IL-6 szint és a 3 éves mortalitás

  4. A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

  5. Kérdés • Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? • Prospektív vizsgálat, RR számolható.

  6. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

  7. A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

  8. Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 • Bruneck tanulmány: 1990, 826 40-79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). • A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. • A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)

  9. KÉRDÉSEK • 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat)2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) • Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis

  10. 500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 SD növekedés

  11. Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. • 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke • Követési idő: 1999 748 személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja • Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? • Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás

  12. A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

  13. A többszörös modellek feltételezései (assumptions)

  14. Többszörös logisztikus regresszió • Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.

  15. Relatív rizikó (relative risk) , esély-arány (odds ratio) • Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)

  16. Relatív rizikó • Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának

  17. Esély-arány (OR) • Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. • EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES

  18. A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ • Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1 SD növekedésre vonatkozik a kapcsolat, az OR.

  19. A logisztikus regresszió során alkalmazott számítási mód • A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.

  20. A logisztikus regresszió egyenlete • odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII • Ha ezt az egyes független változók szerint részeire bontjuk, akkorln (odds) = ßo + X1ß1 + X2ß2.... • A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.

  21. A logisztikus regresszió egyenlete (folyt.) • A 0 hiptézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-áraln (OR) = X1(lnOR1) + X2(lnOR2).... • Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)

  22. Modell felépítés a logisztikus regresszióban • Hasonló a lineáris regresszióhozmanuálisautomatikus: forward selection backward elimination stepwise selection • A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.

  23. A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések • Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) • A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. • Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) • Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!

  24. Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)

  25. Kérdés • A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll-csoportba tartozik? • Számítás többszörös logisztikus regressziófüggetlen változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz)Függő változó: csoport 0: kontroll, 1: ISZB

  26. STATISTICA OUTPUT Model: Logistic regression (logit) N of 0's:48 1's:241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115,14789192 Chi˛(4)=29,591 p=,00001 Const.B0 LOGHSP60 HDL_CHOL TRIGLICE CHL_PNEU Estimate -,74 ,9383 -,186086 ,51 ,71548 SE ,68 ,2997 ,284498 ,18 ,36015 t(284) -1,08 3,1305 -,654084 2,81 -1,98662 p-level ,28 ,0019 ,513587 ,01 ,04792 -95%CL -2,08 ,3483 -,746078 ,15 -1,42439 +95%CL ,61 1,5282 ,373907 ,86 -,00658 Wald's khi2 1,16 9,8000 ,427826 7,88 3,94668 p-level ,28 ,0017 ,513062 ,00 ,04697 OR (unit ch) ,48 2,5556 ,830202 1,66 ,48896 -95%CL ,12 1,4167 ,474223 1,16 ,24066 +95%CL 1,84 4,6101 1,453402 2,37 ,99344

  27. SPSS output

  28. Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.

  29. MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? • Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). • Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység pl. 1 SD változás mit jelent. Megoldások:értelmes kategóriákat állítok fel: pl. életkorban 10 év,binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)

  30. HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t

  31. Anti-hsp60 legfelső kvartilis vs. többi • Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml. • Ezután átkódoljuk a változót, úgy, hogy 0: <193.24, 1: >183.24. • Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van. • HSP60KV HSP60KV Row alacsony magas Totals KO 51 3 54 PS 175 73 248 All Grps 226 76 302 Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve

  32. STATISTICA OUTPUT Const.B0 HDL_CHOL TRIGLICE HSP60_M_ CHL_PNEU Estimate 2,06560 -,79768 ,1339 2,00283 -,92184 SE ,54187 ,34038 ,1409 ,62255 ,36728 t(287) 3,81201 -2,34351 ,9505 3,21714 -2,50987 p-level ,00017 ,01979 ,3426 ,00144 ,01263 -95%CL ,99906 -1,46764 -,1434 ,77749 -1,64475 +95%CL 3,13214 -,12773 ,4112 3,22817 -,19892 Wald's khi214,531405,49206 ,9035 10,35002 6,29946 p-level ,00014 ,01911 ,3419 ,00130,01208 OR(u.ch) 7,89002 ,45037 1,1433 7,40998 2.34 -95%CL 2,71574 ,23047 ,8664 2,17600 1.18 +95%CL 22,92288 ,88009 1,5086 25,23339 4.66

  33. SPSS output

  34. A logisztikus regressziós számítással megoldható problémák • Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában • Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) • A két független változó egymástól független, de befolyásolják egymás hatását a függő változóra, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is

  35. A multicollinearitásból adódó problémák megoldása • Multicollinearitás: egymással korreláló független változók • Pneumonia – ápolási idő - láz (Celsius – Fahrenheit). Vagy születési súly – fogantatástól eltelt idő • Hogyan tudom megállapítani? Mi a határ? R>0.9: ne, R=0.8-0.9: bizonytalan, R<0.8: mehet • És, ha több a független változó? Tolerance és reciproka a variance inflation factor. Tolerance: <0.25 kétes, <0.10 tilos, variance inflation factor 4, ill 10 • Mit csináljunk az egymástól függő változókkal? Hagyjuk ki, de melyiket?; és/vagy (pneumonia izzadás-hidegrázás); skálát készítünk a korreláló változókból

  36. A szükséges mintaszám • Többszörös regressziónál, nem lehet kevesebb, mint ami az egyszeri regressziónál kijön • 10 x független változók száma • De, ha az outcome vagy a dichotóm független változó előfordulási gyakorisága kicsi, akkor nagyon sok beteg kellhet

  37. Hogyan lehet a független változók számát csökkenteni? • Néhány változót kihagyunk • Elméleti megfontolásból • A mérési körülményeket figyelembe véve • Két változó erősen korrelál. Melyiket hagyjuk ki? • Amelyikben több a hiányzó adat • Ahol nagyobb a mérési hiba valószínűsége • Amelyik orvosilag kevésbé jelentős • Empirikus megfigyelések alapján • A változó nem függ össze az outcome-al az egyszeri vagy a többszörös analízisban • A változó minimális mértékben befolyásolja csa a modell eredményét • A változók egy részét kombináljuk egy változóvá vagy skálává • És/vagy • Szummációs skálák • Faktor analízis

  38. Hogyan kódoljunk? • 0 és 1 jobb, mint 1 és 2 stb • Nő – ffi, a kérdéstől függ • Mi legyen a referencia kategória? Pl életkor, rassz. Kérdésfeltevéstől függ, más eredmények más interpretáció • Életkor: ha lineáris a változás: legöregebb vagy legfiatalabb kategória • De ha U-alakú az összefüggés (alkohol-fogyasztás – szívbetegségek) a középső kategória is lehet referencia

  39. Független egymást nem befolyásoló változók • Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66). • A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91) • Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást

  40. Két változó együttes hatása

  41. Az alap szérum IL-6 szint és a 3 éves mortalitás

  42. A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)

  43. A 6.1 kiterjesztett haplotípus és a colorectalis carcinoma

More Related