280 likes | 417 Views
Analize preživljenja. Prof. dr. Davor Eterović Poslijediplomski 2010/Klinička biostatistika. Od rizika, preko stope do hazarda 1.
E N D
Analize preživljenja Prof. dr. Davor Eterović Poslijediplomski 2010/Klinička biostatistika
Od rizika, preko stope do hazarda 1 • Rizik (risk) je omjer učestalosti (pojavnost, incidencija) neke pojave u nekom vremenskom intervalu i broja izloženih riziku te pojave na početku intervala. Dimenzija je učestalost pojave/broj izloženih na početku. Npr. ‘godišnji rizik recidiva preponske kile je 3/150=2%’. • Stopa (rate) je učestalost obilježja podijeljena s ukupnim vremenom izloženosti riziku svih osoba. Osobe kod kojih se pojava dogodila doprinose ukupnom vremenu izloženosti samo do vremena pojave (potrebno je znati točno vrijeme pojave za svakog pojedinca!). Ukupno vrijeme izloženosti često se izražava u jedinicama osoba-godina (person-years) • Ako je učestalost pojave rijetka: stopa = rizik/vremenski interval • Hazard (opasnost) u vremenu t je stopa u vrlo malom vremenskom intervalu oko t, tj. trenutna stopa. Uvodi se zbog analiza promjenjivih rizika/stopa. Jednak je vjerojatnosti da se pojava dogodi u malom vremenu oko vremena t podijeljenom s tim malim vremenom.
Od rizika, preko stope do hazarda 2 • Relativni rizik (omjer rizika, RR, relative risk, risk ratio), relativna stopa (pazi: kratica je također RR, relative rate, rate ratio) i omjer hazarda (relativni hazard, HR, hazard ratio, relative hazard) definiraju se kao omjeri ispitna/kontrolna skupina u kontekstu rizičnih čimbenika (risk factors) pojave. • I osnovne i relativne veličine imaju svoje raspone pouzdanosti (koji su tim uži što su veći brojevi ispitanika).
Od rizika, preko stope do hazarda 3 Ako želimo izolirati utjecaj samo jednog rizičnog čimbenika od drugih (kovarijable ili smetnje (confounders)) koristimo 1. stratifikaciju ili 2. multifaktorske metode: logističku regresiju (za rizike, uz preporučenu konverziju usklađenih OR u usklađene RR) i Poissonovu regresiju (za stope)
Od rizika, preko stope do hazarda 4 • Bitne prednosti koncepta stope prema riziku su: 1. prihvaćanje nejednakog vremena praćenja pojedinaca i 2. uvažavanje vremena do ishoda, a ne samo njegove pojavnosti. • Pridružen koncept hazarda omogućava razmatranje ishoda čija se vjerojatnost u vremenu mijenja. • Koncept koji je povezan s hazardom, koji se bazira na vremenu do ishoda i koji je nužan kada su velike razlike u vremenu praćenja je analiza preživljenja (survival analysis)
Analize preživljenja: terminologija Osim smrtnog ishoda, istim se metodama analiziraju i drugi, nefatalni ishodi, poput recidiva bolesti, progresije bolesti, ali i bilo kojeg, povoljnog ili nepovoljnog ishoda. Bitno je da nas pored samog ishoda zanima vrijeme(od nekog početnog) do ishoda.
Analize preživljenja: kad da, kad ne NE: Kada ishod dožive sve jedinke (animalni eksperimenti) vrijeme do ishoda može se analizirati uobičajenim tehnikama kao metrička varijabla (t-test, regresija i sl.). DA: Uobičajene tehnike nisu dovoljne kada istraživanje ne traje dovoljno dugo pa svi ispitanici ne dožive ishod, ili kada znatan broj ispitanika u određenim vremenima bude izgubljen(lost to follow-up). Njihovi se podaci cenzoriraju (popisuju, rezimiraju), u vremenu kraja studije, odnosno zadnjeg pregleda. Postepeno novačenje (recrutiment) uzrokuje nejednaka vremena praćenja, što onemogućava da se uobičajenim metodama (hi-kvadrat test) preživljenja uspoređuju čak i nakon redukcije na kategorijsku varijablu (živ-da, ne).
Koriste se, osim podataka ispitanika koji su doživjeli ishod i cenzorirani podaci. Na taj se način, povećavajući broj ispitanika, povećava statistička preciznost. Logički temelj, iskazan jednostavnim primjerom: vjerojatnost dvogodišnjeg preživljenja (cilj istraživanja) je umnožak vjerojatnosti jednogodišnjeg preživljenja (potpuni podaci) i vjerojatnosti preživljenja druge godine onih koji su preživjeli prvu (parcijalni podaci). Filozofija analiza preživljenja
PRIMJER: 40 bolesnika s recidivom karcinoma debelog crijeva uključeno je odmah na početku dvogodišnjeg istraživanja, a sljedećih 60 nakon godine dana. Dakle, 40 bolesnika je praćeno dvije godine, a 60 samo jednu godinu. Jednostavna analiza uzima u obzir samo 40 bolesnika koji su praćeni dvije godine. Neka je nakon godine dana preživilo njih 20 od kojih je tijekom druge godine umrlo 10. Dakle, vjerojatnost 1-godišnjeg preživljenja = 20/40=50% vjerojatnost 2-godišnjeg preživljenja = 10/40=25%Analiza preživljenja uzima sve bolesnike. Neka je od 60 bolesnika praćenih godinu dana preživilo njih 40. vjerojatnost 1-godišnjeg preživljenja = (40+20)/100=60%vjerojatnost 2-godišnjeg preživljenja = vjerojatnost 1-godišnjeg preživljenja x vjerojatnost da preživjeli prežive i drugu godinu (10/20=0.5) = 30% Imamo dvije različite procjene preživljenja, od kojih je druga preciznija, jer uključuje veći broj ispitanika i ima manju standardnu pogrešku.
Konstrukcija krivulje preživljenja vjerojatnost preživljenja = (donja ordinata krivulje) = vjerojatnost da će ‘prosječni’ ispitanik preživiti do vremena t, tj. da će živiti do t ili više izloženi riziku (number at risk)= broj izloženih u prethodnom periodu - broj umrlih - broj cenzoriranih tijekom prošlog perioda stopa umiranja = (za kratko vrijeme promatranja) = hazard = broj umrlih tijekom vremena/izloženi riziku x vrijeme = visina stepenice/vrijeme 100 1 izloženi riziku 100-40-40=20 vjerojatnost preživljenja 0.6 izloženi riziku 20-10=10 0.3 izloženi riziku 1 2 3 vrijeme (godine)
Diskretizacija vremena: 2 pristupa • Životne tablice: pojedince pratimo grubo, npr. godišnje (cenzoriranje se pretpostavlja na polovici vremenskog intervala praćenja) • Pojedince pratimo (gotovo) kontinuirano, cenzoriranje i registriranje ishoda je vremenski egzaktno: Kaplan-Meier(ova) krivulja
Za konstrukciju krivulje preživljenja nužne su dvije varijable, tj. dva skupa podataka svih ispitanika: 1. vrijeme praćenja: vrijeme od početka praćenja pojedinca do kraja njegovog praćenja (vrijeme doživljenog ishoda ili vrijeme kraja studije, ako ishod nije doživljen, ili vrijeme zadnjeg pregleda, ako je pojedinac izgubljen); mjeri se najčešće u danima ili mjesecima2. status pojedinca na kraju praćenja: ima samo dvije vrijednosti: (i) ishod doživljen i (ii) ishod nije doživljen (neovisno o tome da li je razlog kraj istraživanja ili gubitak praćenja-svejedno je da li je pacijent živ na kraju istraživanja ili je prije izgubljen iz studije, svakako je preživio svoje vrijeme praćenja)Sve druge varijable (dob, spol, stadij, gradus ...) služe za analize i usporedbe podskupina ispitanika
Što čitamo s krivulja preživljenja • 6 mjesečno (godišnje, trogodišnje, petogodišnje preživljenje): ordinata za danu apscisu • Medijan preživljenja: apscisa za danu ordinatu (0.5). • Prosječno preživljenje: nema smisla ako nisu svi praćeni do kraja (ali se može krivulja ekstrapolirati) • Za sve takve podatke procjenjuje se i standardna pogreška
Kako uspoređujemo krivulje preživljenja • Kaplan-Meierove krivulje uspoređujemo log-rank testom, pod uvjetom da smo provjerili da se hazardi uspoređivanih podskupina mijenjaju proporcionalno (proportional hazard assumption). Metoda uzima u obzir razlike u krivuljama i njihove pogreške (!!). Uspoređuju se brojevi uočenih i očekivanih ishoda, pod pretpostavkom da je omjer hazarda (HR)=1 • Ako pretpostavka proporcionalnih hazarda nije dobra: Breslow test (Wilcoxon test)
Testiranje pretpostavke proporcionalnog hazarda: vizualna usporedba krivulja preživljenja
Testiranje pretpostavke proporcionalnog hazarda: vizualna usporedba samih hazarda (jasnije, neposrednije nego gledati krivulje preživljenja)
Problem vremenskog početka RCT (1) vrijeme dijagnostike ili operacije: prednost je što definira period aktualnog rizika, mana što do randomizacije može biti puno ishoda (2) vrijeme randomizacije: prednost je što se ne ugrožava randomsko usklađivanje kovarijabli, mana je što do randomizacije može proteći puno vremena, što se ne analizira i ne mora biti podjednako između skupina EPIDEMIOLOŠKO ISTRAŽIVANJE (1) dob ispitanika (preferira se) (2) vrijeme uključenja (3) kalendarsko vrijeme
Procjene nezavisnih utjecaja više prediktora: Coxova regresija • Log-rank test usporedbe dviju Kaplan-Meierovih krivulja može dati i omjer hazarda (Mantel-Coxova procjena) • Kada želimo procjene nezavisnih (međusobno usklađenih) učinaka više prediktora na ishod, koristimo Coxovu regresiju. Nakon odabiranje referentne vrijednosti prediktora, dobivamo HR (i interval pouzdanosti) za svaki prediktor posebno, usklađen za sve preostale (točnije: kada su preostali fiksirani na svoje prosjeke) • Ako su predikori međusobno nezavisni, rezultati Coxove regresije jednaki su jedno-faktorskim Mantel-Coxovim procjenama • Kada nas nas interesira samo ishod, bez obzira kada je nastao, analog je logistička regresija, koja daje nezavisne OR
The Cox model can perform multiple regression analysis of survival time data, i.e. more than one independent variables. A treatment effect and covariate effects are produced in terms of the log hazard ratio. In research report this is usually exponentiated to give the hazard ratio (HR), sometimes referred to loosely as relative risk (RR).
Let hi(t) and hj(t) be the hazard functions for subjects with value i and j on variable X. B is a regression coefficient to be estimated. In a clinical trial, for instance, i=1 for a treatment group and i=0 for a control group. hB(t) is an unspecified baseline hazard function. When the hazard ratio (HR) is estimated, the hB(t) in the numerator and denominator cancels out itself, i.e. HR=hi(t)/hj(t)=exp(BXi)/exp(BXj)=exp[B(Xi-Xj)]. Since Xi is coded as 1 (treatment) and Xj as 0 (control), B indicates the treatment effect in terms of a log HR.The Cox model is semi-parametric in a sense that it is not concerned with the pattern of the baseline hazard, hB(t), but it assumes the same pattern of hB(t) in the numerator and denominator. The estimation is based on a method called maximum partial likelihood (Cox, 1972).
If the impact of an independent variable meets the proportional hazard assumption, the smoothed values of a quantity called scaled Schoenfeld residuals would be roughly horizontal when plotted against survival time. Grambsch and Therneau (1994) demonstrated that a test of non-zero slope in a weighted regression of the residuals upon time can test for non-proportional hazard. Test for PH and graphical examination of scaled Schoenfeld residuals may identify important information. See example 1 (marital status and mortality) for a case. Another method is to split the survival time into two or three periods. A test of interaction between treatment and periods will test the proportional hazard assumption.
It is important to practise on some real datasets. One useful resource is StatLib. Here we analyse the TUMOR data set contributed by Terry Therneau. One reason of choosing this data set is that it is small enough for easy handling (n=86). The purpose is purely for computer practice; not to examine the quality or findings of the study. The bladder tumor data file contains 8 variables (names): treatment group (group), follow-up time (futime), pre-treatment number of tumors (number), largest pre-treatment tumor size (size), and times to first, second, third, and fourth recurrences. Only time to first recurrence is analysed in this practice.
Statistical software produces the above Kaplan-Meier estimates. The Thiotepa group had longer time to recurrence. The median survival time can be read from the figure, where S(t) = 0.5. The medians for the control and thiotepa groups are 16 and 26 months, respectively. The survival curves are roughly parallel, suggesting that an assumption of proportional hazard is acceptable.
To test for equality of survival functions, the log rank test is used. The Stata command sts test groupproduces the table (values rounded; table edited for appearance). Based on the null hypothesis of no difference, there are more failures than expected in the control group and less than expected in the Thiotepa group. The test statistics value is 1.52, which is not significant at the conventional 5% level(P=0.22).
Using a Cox regression model with treatment group as a single variable, the Stata command stcox group showes that Thiotepa is associated with a statistically insignificant reduction of hazard (HR=0.7; P=0.23). There is some baseline imbalance in pre-treatment number of tumors: the means are 1.9 and 2.3 in the control and Thiotepa groups, respectively. To adjust for this imbalance of risk factor, the following command is used: stcox group number Having adjusted for pre-treatment number of tumors, the treatment effect become stronger (HR=0.60; P=0.11).
The following Stata commands test the hypothesis of proportional hazard in model II: stcox group number, scaledsch(sca*) schoenfeld(sch*) stphtest, detail The effects of Thiotepa (P=0.55) and pre-treatment number of tumors (P=0.60) did not violate the PH assumption. The first command generates some variables with prefixes sca and sch. They contain the scaled Schoenfeld residuals and Schoenfeld residuals. The second command is based on those variables. It is a good practice to delete them after the testing: drop sca* sch*
Pozor: multifaktorske metode nisu čarobni štapić (1) Coxova regresija zahtijeva i stručno i statističko znanje 1. nije potrebna u RCT, jer se pretpostavlja da su skupine usklađene glede kovarijabli 2. uvjet proporcionalnosti hazarda, ako nije ispunjen, ima izlaza: stratifikacija ili modeliranje funkcije HR u vremenu 3. prediktori trebaju biti prikazani u linearnoj skali (pretpostavka modela); najčešći primjer nelinearnosti: dob kao metrička varijabla (izlaz: dobne kategorije) 3. izbor prediktora: (a) mora biti barem 10 puta više pacijenata s ishodom nego prediktora (izbjegavanje preusklađenja-overfitting) (b) prediktori ne smiju biti jako povezani (problem kolinearnosti; primjer gradus i stadij tumora)
Pozor: multifaktorske metode nisu čarobni štapić (2) 4. Metričke varijable treba izbjegavati; izlaz: ordinalna skala ili barem standardizacija (npr. korak je standardna devijacija dobi, a ne jedna godina) 5. Tzv. metode ponovnog uzorkovanja (resampling) i primjene regresijske jednadžbe na nezavisnom uzorku koriste se za procjenu intervala pouzdanosti HR i verifikaciju prediktivne moći jednadžbe 6. Iako npr. usklađenje dobi u procjeni omjera hazarda umiranja od karcinoma x vezanog za stadij tumora može biti potrebno, uvijek valja napraviti i jednofaktorske analize, jer u realnosti nam dolaze pacijenti koji su i stariji i višeg gradusa (multifaktorsko usklađenje dobi i stadija je teorijski korisno, ali neuporabivo u praksi)