520 likes | 850 Views
Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia. Iveta Waczulíková Peter Slezák. Analýza prežívania ( survival analysis ). Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta)
E N D
Analýza prežívania, Kaplan-Meierove krivky a Coxova regresia Iveta Waczulíková Peter Slezák
Analýza prežívania(survival analysis) Študuje rozdelenie doby (času) medzi dvoma udalosťami (v živote pacienta) Vstupná udalosť: narodenie, čas diagnostikovania, začiatok liečby, expozícia rizikovému faktoru... Koncová udalosť: úmrtie, vyliečenie, relaps, prepustenie z nemocnice... Doba prežitia (survival time) je doba medzi oboma udalosťami, napr: čas do úmrtia čas do prepuknutia ochorenia /relapsu dĺžka hospitalizácie čas do vyliečenia ochorenia...
Formát dát – Pr.1aDáta časov a možných prognostických faktorov vybraných 7 pacientov s AMV mozguvstup: stereotaktická rádiochirurgiavýstup: obliterácia ~ úspech Analytik pracuje so „zaslepenou“ databázou Kódovanie pre „status“ v programe StatsDirect: * Cenzurovanie = 0pre nekompletné dáta Cenzurovanie = 1pre kompletné dáta (udalosť)
Zo zdravotných záznamov pacientov AVM trvá Pacient ? 7 sledovaná udalosť úspech (vyliečenie) iná ako sledovaná udalosť (úmrtie...) 6 5 ? 4 3 2 audit ? 1 1990 1995 2000 2005 6/2008 Príklad dát pacientov Obdobie štúdie 1990-2008, v tomto období výber pacientov splňujúcich vstupné kritériá pre zákrok a ich ďalšie sledovanie
Časové dáta AVM trvá Pacient 7 úspech úmrtie... 6 5 4 3 2 ? 1 0 5 10 15 Roky od zákroku Príklad dát pacientov cenzurovanie cenzurovanie (cenzurovanie) chýbajúci údaj Údaje do databázy – počiatok času sledovania je vstupná udalosť (napr. tu zákrok)
Typy cenzurovania • sprava • pozorovaný čas prežitia je kratší než skutočný • štúdia končí pred nastatím udalosti • zľava • intervalové
rekurencia 3 mes. vyšetrenie Typy cenzurovania • sprava • zľava • Čas do relapsu • Čas do udalosti je kratší (alebo rovný) než čas pozorovaný t < 3 (t ≤ tobs) • intervalové zákrok 0 t
rekurencia bez ochorenia 6 mes. 2. vyšetrenie 3 mes. 1.vyšetrenie Typy cenzurovania • sprava • zľava • intervalové • Čas do relapsu • 3 < t < 6 zákrok t 0
Funkcia prežívania (survival function) Funkcia prežívaniaS(t)je pravdepodobnosť prežitia T dlhšieho, než je čas t. S(t) = P(T>t) kde T je čas prežitia. Ŝ(t)=počet pacientov, ktorí prežili dlhšie než t celkový počet pacientovv štúdii
Predpoklady odhadu funkcie prežívania Čas prežitia je nezávislý na procese cenzurovania (je možné overiť). Cenzurovaný pacient je reprezentatívny pre skupinu pacientov v riziku (at risk) v čase cenzurovania – má tie isté vyhliadky na prežitie, ako pacienti, ktorí ostali v sledovaní (nie je možné testovať, predpokladáme). Vyhliadky na prežitie sú rovnaké pre pacientov s včasným aj neskorým zaradením do sledovania (je možné overiť). Ak je najdlhšie pozorovanie necenzurované (teda ak udalosť NASTALA), odhad S je v tomto čase rovný NULE.
Odhady funkcie prežívania • Kaplan-Meierov odhad - krivku prežitia odhadujeme v každom časovom okamihu, v ktorom nastala aspoň jedna udalosť a je konštantná v celom intervale, až po nasledujúci čas výskytu udalosti • je najpoužívanejší • Life tables
K-M estimator • nekonštantná šírka jednotlivých časových intervalov
Funkcia hazardu Funkciu hazardu môžeme chápať ako pravdepodobnosť OKAMŽITÉHO hazardu/udalosti v časetza predpokladu, že subjekt prežil do časut. V tomto zmysle je funkcia hazardu h(t) mierou rizika. Obvykle je do tabuľky a/alebo grafu vynesený hazard kumulovaný do časut, tzv. kumulatívna funkcia hazardu. H(t) = -ln (S(t))
Pr.2:Časy prežitia štyroch pacientov sú: 10, 20, 35 a 40 mes. Odhad funkcie prežívania:
Pr.3:Časy prežitia štyroch pacientov sú: 10, 15+, 35 a 40 mes. Odhad funkcie prežívania: + je cenzurovaný údaj
Výstup k Pr.2 a Pr.3: H = -ln (S) • Pr. 1: Kaplan-Meier survival estimates • TimeAt riskDeadCensoredSSE(S)HSE(H) • 10 4 1 0 0,75 0,217 0,288 0,289 • 20 3 1 0 0,5 0,25 0,693 0,5 • 35 2 1 0 0,25 0,217 1,386 0,866 • 40 1 1 0 0 * infinity* • Median survival time = 20 • Andersen 95% CI for median survival time = -4,49955 to 44,49955 • Brookmeyer-Crowley 95% CI for median survival time = 10 to 35 • Mean survival time (95% CI) = 26,25 (12,7567 to 39,7433) • Pr. 2: Kaplan-Meier survival estimates • TimeAt riskDeadCensoredSSE(S)HSE(H) • 10 4 1 0 0,75 0,217 0,288 0,289 • 15 3 0 10,75 0,217 0,288 0,289 • 35 2 1 0 0,375 0,286 0,981 0,764 • 40 1 1 0 0 * infinity * • Median survival time = 35 • Andersen 95% CI for median survival time = 5,061056 to 64,938944 • Brookmeyer-Crowley 95% CI for median survival time = 10 to 35 • Mean survival time (95% CI) = 30,625 (15,982804 to 45,267196)
Pr.4 Median survival time = 79 months Andersen 95% CI = 37,79 to 120,21 ! Brookmeyer-Crowley 95% CI = 42 to 169 Nespoľahlivý odhad v druhej časti krivky Dôvod – málo „events“ (krúžky), veľa cenzurovaných dát (čiarky)
Survival Plot (PL estimates) Survivor 1,00 0,75 0,50 0,25 0,00 0 50 100 150 Times Pr.5 Median survival time = 22 months Andersen 95% CI = 16,11 to 27,89 Brookmeyer-Crowley 95% CI = 15 to 26 Dostatočne spoľahlivý odhad v tejto časti krivky
Pr.6: Dve rozdielne krivky prežitia Tieto dve krivky majú rovnaké % 5-ročného prežitia, ich interpretácia je však podstatne rozdielna. Výber preferovaného terapeutického prístupu bude posudzovaný subjektívne.
Pr.7: Dve rozdielne krivky prežitia Tieto dve krivky nemajú v žiadnom čase rovnaké % prežitia, ich interpretácia sa líši len vo veľkosti. Voľba preferovaného terapeutického prístupu bude jednoduchá.
Porovnanie kriviek prežívaniaTestovanievýznamnosti Logrank test Nulová hypotéza: riziko úmrtia (udalosti) je rovnaké pre všetky skupiny. P< 0,05 indikujerozdiel medzi (najčastejšie dvoma) krivkami prežívania Prentice modified Wilcoxon test je citlivejší, ak je pomer hazardu (HR) vyšší pre včasné fázy času prežitia. Inak: Peto's log-rank test Trend test (variantalogrank testu pre viac ako tri krivky).
Pr.8a: Čas prežitia 30 pacientov s akútnoumyeloidnouleukémiou (AML) Dva možnéprognostickéfaktory: • Vek = 1 akAge of the patient 50 Vek = 0 akAge of the patient < 50 • Celularita = 1 akcellularity of marrow clot section is 100% Celularita = 0 ostatné
Pr.8b: Kaplan-Meierov odhad funkcie prežitia a porovnanie agespecific survivalcurves Signifikantný rozdiel podskupiny
Pr.8c: Kaplan-Meierov odhad funkcie prežitia a porovnanie kriviek podľa celularity Nesignifikantný rozdiel
K-M estimator – bivariačná analýza Multivariačná analýza – ako súvisí doba prežívania s viacerými premennými súčasne (spojitými – napr. vek; kategoriálnymi – pohlavie (dummy variables) Multivariačná analýza→Coxov model proporcionálneho rizika (Coxova regresia)
Coxov model proporcionálneho rizika(typ multivariačnej analýzy) • umožňuje vyšetriť, ako súvisí doba prežitia T s potenciálnymi prognostickými faktormi (často pri súčasnej adjustácii na tzv. confounders, viď ďalej) Faktory môžu byť kategorické alebo spojité premenné. • Vychádza z predpokladu pomerného hazardu, teda že podiel funkcií hazardu ľubovoľných dvoch subjektov/skupín je v čase konštantný a závisí teda len na hodnotách nezávislých premenných (prediktorov/rizikových/prognostických faktorov, covariates...) Xi. Ak prognostické faktory nie sú fixné (stále v čase), ako napr. biochemické merania, klesajúci efekt lieku, faktory životného štýlu apod. treba použiť rozšírený Coxov regresný model pre časovo závislé premenné. • Ak sú predpoklady splnené, dáva Coxov model lepšie odhady prežitia a hazardu, ako Kaplan-Meierova funkcia.
Bivariačná vs. multivariačná analýzaTypy faktorov A simple statistical mediation model
diabetes Rizikový faktor Efekt CHD Confounder hypertenzia Confounder - zavádzajúci, mätúci, zahmlievajúci faktor • typ súbežne pôsobiaceho faktora • premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome) • V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora • (často ho ponechávame v modeli, aj keď „nevyjde“ signifikantný)
Faktor potlačujúci efekt (suppressor) • Typ súbežne pôsobiaceho faktora • V bivariačnej analýze nezistíme vzťah medzi expozíciou (napr. rizikovým faktorom) a následkom. Po adjustácii na supresor sa vplyv expozície prejaví. Zástupný faktor (surrogate, proxy factor) • Majú predpovedaciu silu bez priamej biologickej súvislosti/mechanizmu s následkom (ochorením) • Socioekonomické, demografické faktory
Faktor modifikujúci účinok (mediating variable, modifier) Faktor v príčinnej postupnosti (interveningvariable/factor) • Nachádza sa v príčinnej postupnosti od sledovaného rizikového faktora k výslednému efektu • Štatisticky neodlíšiteľný od „confoundera“ • Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým potlačili alebo úplne odstránili vplyv sledovaného rizikového faktora • Vzťah expozície/rizikového faktora k výslednému efektu je rôzny pre rôzne úrovne modifikujúceho faktora • Nemôže byť považovaný za „confounder“
Rizikový faktor Efekt Faktor(y) korelujúce s vybraným rizikovým f. Vzájomne korelované faktory(tzv. problém multikolinearity) Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: LDL a HDL resp. TChol, morfometrické údaje navzájom, vyskytujú sa aj v situácii, ak je druhý faktor len matematický prepočet alebo je to kombinované skóre zahŕňajúce prediktor, ktoré je už v modeli použitý. Obvykle stačí použiť jeden (najdôležitejší/najvýznamnejší). Časovo-závislé faktory pri analýzach prežívania je dôležité odlíšiť fixné faktory a faktory meniace sa v čase sledovania ako napr. fyziologické a biochemické charakteristiky, tumor grade, peritumoralvascularinvasion, klesajúci efekt lieku, faktory životného štýlu (napr. kumulovaná expozícia pri fajčení)...
Cox’s proportional hazards model (Cox regression) • Vychádza z predpokladu pomerného rizika (proporcionálny hazard) t.j. podiel funkcií hazardu medzi skupinami je v čase konštantný. • Hazard – riziko úmrtia (alebo výskytu vyšetrovanej udalosti) • Analógia k viacnásobnej regresii Regresné koeficienty (parametre) Nezávislé (vysvetľujúce) premenné Základný hazard (baseline hazard)
Cox's (proportional hazards) regression model Najčastejší regresný model v analýze prežívania Lineárny model pre logaritmuspomerurizík Výhody: Nie je potrebné špecifikovať počiatočné riziko Možnosť testovania vplyvu viacerých nezávislých premenných (prognostických faktorov) na danú udalosť sledovanú v čase.
Predpoklady použitia Coxovho regresného modelu pre overenie proporcionality hazardu využívame fakt, že zodpovedajúce kumulatívne riziká, -ln(S(t)),musia byť tiež proporcionálne Graficky splnenie predpokladu proporcionality môžeme overiť pomocou transformácie odhadov funkcie prežitia. Ak je predpoklad splnený, potom grafy závislostí -ln(-ln(S(t))) na ln(t) by pre jednotlivé úrovne nezávislej premennej Xmali odpovedať približne paralelným priamkam (viď graf na konci – Pr.1d). Musia byť overené pre všetky nezávislé premenné Xi v modeli
Čo znamenajú regresnékoeficienty (βj)? Ak sa hodnota jednej premennej zmení o jednotku a súčasne hodnoty ostatných premenných ostanú nezmenené, potom je hodnota relatívneho rizika: Príslušný koeficient βje teda prirodzený logaritmus pomeru rizík ln(HR) (hazard ratio), keď sa hodnota danej premennejXzväčší o 1 jednotku. HR interpretujeme podobne ako RR (risk ratio)
Interpretácia regresnýchkoeficientov Odhadnutý pomer hazardu (pomer rizík) väčší než 1 znamená, že nezávislý prediktor je spojený sozvýšeným hazardom (rizikom)nastatia študovanej udalosti (podľa definovanej udalosti „riziko“ môže byť pozitívne – vyliečenie). Odhadnutý pomer hazardu menší než 1 znamená, že nezávislý prediktor je spojený so zníženým hazardomnastatia študovanej udalosti. Odhadnutý pomer hazardu 1, t.j. ak 95%CI zahŕňa jednotku,znamená to, že nezávislý prediktor neovplyvňujehazard.
Interpretácia regresnýchkoeficientov • Hodnota nezávislej premennej X sa u dvoch pacientov alebo skupín líši o jednotku: • Ak by X bolo pohlavie x = 0 (muži), x = 1 (ženy) a odhad parametra β: b = 0,34, potom platí, že eb = 1,40 = HR. To znamená, že u žien je v každom okamihu riziko sledovanej udalosti o 40% vyššie ako u mužov. • Poznámka: treba vždy vzťahovať na použité kódovanie kategorických premenných a mierku danej premennej (napr. vek môže byť v rokoch alebo dekádach)!
Príklad výstupnej tabuľky Interval spoľahlivosti zahŕňa jednotku Na hranici významnosti HR Komentár je v poznámkach Vek je významný prognostický faktor
Analýza regresného modeluTestovanievýznamnosti Waldov test Test pomeru vierohodností (Likelihood ratio test) (druhý je preferovaný, ale často sú rozdiely medzi nimi malé)
Pripomenutie: Pr.8a: Čas prežitia 30 pacientov s akútnoumyeloidnouleukémiou (AML) Dva možnéprognostickéfaktory (schématicky): • Vek = 1 akAge of the patient 50 Vek = 0 akAge of the patient < 50 • Celularita = 1 akcellularity of marrow clot section is 100% Celularita = 0 ostatné
Pr.8c: Comparing the survival curves by Age Groups after Adjusting Cellularity Vyšší vek je významný rizikový faktor! Celularita nevplýva významne na prežívanie (95%CI zahŕňa jednotku – tu však údaj chýba. Nemal by )
Pr.8d: Comparing the survival curves by Cellularity Groups after Adjusting Age Výstup analýzy hazardu je TEN ISTÝ! Líši sa len grafická stratifikácia
Analýza dát z Pr.1a: Krivky odhadov proporcie neúspešnej liečby pacientov s AMV mozgu po zákroku „stereotaktická rádiochirurgia“ s ohľadom na prognostický faktor „predchádzajúca embolizácia“. Počet pacientov: 56, max. dĺžka sledovania: 6 rokov výstup: obliterácia AVM ~ úspech Dôležitá poznámka! tu sa ako koncová udalosť nesledovalo úmrtie (death), ale vyliečenie. Preto sa označenia „ Survival function S“ a „Survival probability/rate“ vzťahujú na „Pravdepodobnosť nevyliečenia“. Obdobne kumulatívny hazard H tu nie je „riziko úmrtia“, ale „šanca vyliečenia“!
Pr.1b: príklad overenia charakteristík zvolených podskupín („embolizovaní“ a „neembolizovaní“)Počiatočný objem AVM Embolizácia_Áno Embolizácia_Nie 0 5 10 15 20 25 min -[ lower quartile - median - upper quartile ]- max Počiatočný objem sa v podskupinách líšil, aj keď významne nesúvisel s koncovým efektom (vyliečenie). Napriek tomu je adjustácia doporučená.
Survival Probability (individual) 1,00 Embolizácia NIE Embolizácia ÁNO 0,75 0,50 0,25 0,00 0 2 4 6 Time (years) Pr.1c: Coxov model pre „Pravdepodobnosť nevyliečenia“ (analógia k „survivalprobability“) po adjustácii na objem AVM
-log(-log(Survival)) 2 Embolizácia NIE Embolizácia ÁNO 1 0 -1 0,0 0,5 1,0 1,5 2,0 log(Time) Pr.1d: Overenie proporcionality rizika (t.j. „šancí“) v podskupinách
Referencie Collett: Modelling Survival Data in Medical Research. Chapman & Hall/CRC, 2003. Zvárová J., Malý M. a kol.: Statistické metody v epidemiologii I a II. Praha, Karolinum, 2003. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001. Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003 Kleinbaum D.G., Klein M.: Survival Analysis; Logistic Regression