410 likes | 576 Views
Quantitative Methoden in der klinischen Epidemiologie. Multivariate Regressionsverfahren. Lernziele. Logistische Regression Grundlagen/Einführung/Beispiel Datenformate Modell der logistischen Regression Exkurs: Schätzen der Regressionskoeffizienten Interpretation
E N D
Quantitative Methoden in der klinischen Epidemiologie Multivariate Regressionsverfahren IBE, MultVar. (L6-3)
Lernziele • Logistische Regression • Grundlagen/Einführung/Beispiel • Datenformate • Modell der logistischen Regression • Exkurs: Schätzen der Regressionskoeffizienten • Interpretation • Cox (Proportional Hazards - PH) Modell • Grundlagen/Einführung/Beispiel • Datenformate • Cox Modell • Interpretation • Zusammenfassung • Vergleichende Übersicht • Modellannahmen • Offene Aspekte IBE, MultVar. (L6-3)
Multivariate Regressionen • Zweck:Bestimmt und quantifiziert den relativen Beitrag verschiedener Einflüsse auf ein Ereignis. • Die vier wichtigsten Gründe für multivariate Regressionen • Identifiziere Risikofaktoren bei gleichzeitiger Adjustierung für Confounder um eine objektive Darstellung ihrer Bedeutung zu erhalten • Adjustiere für Unterschiede zu den Eigenschaften einer Bezugsgruppe • Ableiten von Aussagen zur Diagnose • Ableiten von Aussagen zur Prognose IBE, MultVar. (L6-3)
Logistische Regression • Wie wirkt ein Faktor (X) auf einen Outcome (Y): X Y • X ist ein prognostischer (Risiko-) Faktor (Kondomgebrauch)Y ist eine binäre Statusgröße, Krankheit: HIV+ (1) oder HIV- (0) . • Risikofaktor: modifizierbar (Lebensstilfaktor)Kovariablen: nicht modifizierbar aber mit Einfluss auf das Risiko (Alter) • Es können auch multiple prognostische Faktoren (Vektor X) und Kovariablen (Vector C) vorliegenX1,X2,X3,C1,C2 Y(Kondomgebrauch, Alter) (HIV +/-) • Analysen werden mit zunehmender Anzahl von Einflussgrößen komplexer. • Logistische Regression: Beschreibt quantitativ den Einfluss unabhängiger Variablen auf einen binären Zustand. Wie beeinflussen die Ausprägungen verschiedener Variablen die Auftretenswahrscheinlichkeit für eine oder die Prävalenz einer Erkrankung? IBE, MultVar. (L6-3)
Fallbeispiel • Welche Risikofaktoren gibt es neben dem PSA-Wert zur Vorhersage eines Prostatakarzinoms? • Wie beeinflusst der PSA-Wert das Risiko eines Prostatakarzinoms? • Thompson IM, et al. (2006) Screen-based prostate cancer risk: results from the Prostate Cancer Prevention Trial, Journal of the National Cancer Institute, 98: 529-534. • Es werden 5519 Patienten aus dem Placeboarm des PCPT (Prostate Cancer Prevention Trial) betrachtet, bei denen: • durch eine Biopsie der wahre Gesundheitsstatus erhoben wurde • bei denen zeitnahe zur Biopsie (1 Jahr) sowohl eine PSA Messung als auch eine rektale Tastuntersuchung (DRE - digital rectal exam) durchgeführt wurde. • Weitere wichtige Einflussgrößen: Veränderung des PSA-Wertes, Familienanamnese zum Prostatakarzinom, Alter. IBE, MultVar. (L6-3)
PCPT Inzidenz von Prostata- Karzinomen Finasteride 18882 Männer, ≥ 55 Jahre, normales DRE und unauffällige PSA-Werte Studienfollow-Up7 Jahre Inzidenz von Prostata- Karzinomen Placebo Aus der Placebogruppe kann Information über den natürlichen Krankheitsverlauf des Prostatakarzinoms gewonnen werden. Hieraus Ableitung von Screening-Empfehlungen, Diagnoseleitlinien, …. Ausschlaggebend für die Analyse sind die Faktorwerte, die zeitnah zur Biopsie erhoben wurden. IBE, MultVar. (L6-3)
Fragen zu den Daten • Wie viele Männer gehen in die Analyse ein? • Was sind die Einschlusskriterien für die Auswahl der Männer? • Welche Raten von Prostatakarzinomen würde man in der ausgewählten Population erwarten? • Welche Raten an Prostatakarzinomen wurden beobachtet? • Welche Faktoren haben einen prognostischen Effekt? • Welche Richtung der Wirkung würden Sie für den Faktor Familienanamnese erwarten? Führt eine positive Familienanamnese zu einem erhöhten Karzinomrisiko? • Welche Faktoren hatten keinen prognostischen Effekt? IBE, MultVar. (L6-3)
Beschreibung der Population IBE, MultVar. (L6-3)
Explorative Analyse IBE, MultVar. (L6-3)
Datenformat • IDYPSADREFamily History ... • 0 2.1 0 0 • 1 4.3 0 0 • 732 1 2.6 1 1 • 001 0 1.5 0 0 • Wie viele Karzinomfälle gibt es in diesem Datensatz? • Wie viele Karzinomfälle haben einen positiven DRE-Befund? • Haben Karzinomfälle höhere PSA-Werte als Nicht-Karzinomfälle? • Y - Karzinomfall (1), kein Karzinom (0) • Y kann ebenfalls ein fortgeschrittenes Karzinom kodieren (Beide Untersuchungen werden durchgeführt) IBE, MultVar. (L6-3)
Wahrscheinlichkeit • P[Y=1] beschreibt die Wahrscheinlichkeit, dass eine {0, 1}-codierte Variable Y den Wert 1 annimmt. • Beispiel Prostatakarzinom: P[Y=1] • Wahrscheinlichkeit, dass eine zufällig ausgewählte Person einer Bezugspopulation ein Prostatakarzinom hat(individuelles Risiko) • Anteil von Prostatakarzinomen in einer Bezugspopulation(Prävalenz) • Kann die Zufallsgröße Y nur die Werte 0 und 1 annehmen, so gilt: P[Y=0] = 1-P[Y=1] IBE, MultVar. (L6-3)
Odds • Eine Odds beschreibt das Verhältnis von günstigen zu ungünstigen Ausgängen (einer Wette). Somit ist es eine Chance: "Die Chance steht 1 zu 3". • Formal ist die Odds ein Quotient aus Wahrscheinlichkeit zur Gegenwahrscheinlichkeit in einer Situation mit binären Ereignismöglichkeiten. • O[Y=1] = P[Y=1] / P[Y=0] = P[Y=1] / (1-P[Y=1]) • O[Y=0] = 1 / O[Y=1] • P[Y=1] = O[Y=1] / (1+O[Y=1]) • Beispiel: In der Bezugspopulation ist die Prävalenz für ein Prostatakarzinom 21.9%. Was ist die Odds für ein Prostatakarzinom? Wie stehen die Chancen? • O[Prostatakarzinom] = P[Prostatakarzinom] / (1- P[Prostatakarzinom] ) =0.219 / 0.771 = • 0.284 • Wahrscheinlichkeiten nehmen Werte zwischen 0 und 1 an: [0,1]. Eine Odds kann einen Wert zwischen 0 und Unendlich annehmen: ]0,∞[. IBE, MultVar. (L6-3)
Logits • Der natürliche Logarithmus einer Odds wird Logit genannt. • L[Y=1] = ln(O[Y=1]) O[Y=1] = exp(L[Y=1]) P[Y=1] = exp(L[Y=1]) / (1 + exp(L[Y=1])) = 1 / (1 + exp(-L[Y=1]) • Wertebereich eines Logits: ]-∞,∞[ • Der Schritt zur multivariaten Regression Beschreibe den Logit eines Ereignisses durch einen Score, der sich additiv aus gewichteten Komponenten ergibt → linearer Prädiktor IBE, MultVar. (L6-3)
Logit und Wahrscheinlichkeit Es gibt noch weitere Möglichkeiten den Zusammenhang zwischen linearem Prädiktor und Wahrscheinlichkeit herzustellen: z.B. probit. IBE, MultVar. (L6-3)
Logistische Regression Zusammenhang zwischen der individuellen Erkrankungswahrscheinlichkeit und ihren Einflussfaktoren: Linearer Prädiktor: a0+a1x1+…+amxm Regressionskoeffizienten: ai; i = 0,…, m Kennt man die Ausprägung der Einflussfaktoren und die Werte der Regressionskoeffizienten, so kann man für einen beobachteten Satz von Einflussfaktoren die damit zusammenhängende Erkrankungswahrscheinlichkeit berechnen. Konstruktionsprinzip für klinische und epidemiologische Scores! IBE, MultVar. (L6-3)
Linearer Prädiktor Der lineare Prädiktor fasst die verschiedenen Einflussgrößen zu einer Zahl zusammen: Risikoscore. Je höher der Wert des linearen Prädiktors für einen Patienten, desto höher ist die W‘keit, an der interessierenden Erkrankung erkrankt zu sein. Negative Werte des linearen Prädiktors stehen für geringere Erkrankungsw‘keiten. Falls im Risikomodell nur die Familienanamnese (XFA: 1 ja, 0 nein) Einfluss hätte, so wäre der lineare Prädiktor a0 + a1∙XFA. a0: Quantifiziert den Logit für die Erkrankung bei Personen ohne familiäre Belastung a1: Quantifiziert die Logitveränderung für die Erkrankung bei Personen mit familiärer Belastung gegenüber Personen ohne familiäre Belastung. IBE, MultVar. (L6-3)
Linearer Prädiktor Berechnen Sie den linearen Prädiktor für eine Person mit positiver Familienanamnese und deren Erkrankungsw‘keit, wenn die beiden Regressionskoeffizienten folgende Werte haben: a0=-1, a1=2. Machen Sie die analoge Rechnung auch für eine Person mit negativer Familienanamnese. IBE, MultVar. (L6-3)
Linearer Prädiktor linearer Prädiktor a0 + a1∙XFAa0=-1, a1=2 XFA = 0 linearer Prädiktor: -1 + 2∙0 = -1, individuelle W‘keit P[Y=1|XFA=0] = exp(-1)/[1+exp(-1)] = 0.269 XFA = 1 linearer Prädiktor: -1 + 2∙1 = 1, individuelle W‘keit P[Y=1|XFA=1] = exp(1)/[1+exp(1)] = 0.731 IBE, MultVar. (L6-3)
Linearer Prädiktor Eine etwas komplexere Situation: Linearer Prädikor: a0 + a1∙XFA+a2∙XPSA XFA = 0: negative Familienanamnese, 1: positive Familienanamnese. XPSA = PSA Wert a0=-1, a1=1, a2=2 Berechne den Wert des linearen Prädiktors für eine Person, die Neg. Familienanamn. und einen PSA-Wert von 2 hat? Neg. Familienanamn. und einen PSA-Wert von 4 hat? Pos. Familienanamn. und einen PSA-Wert von 3 hat? IBE, MultVar. (L6-3)
Linearer Prädiktor • Berechne den Wert des linearen Prädiktors für eine Person, die • Neg. Familienanamn. und einen PSA-Wert von 2 hat. -1+1∙0+2∙2 = 3Neg. Familienanamn. und einen PSA-Wert von 4 hat. -1+1∙0+2∙4 = 7Pos. Familienanamn. und einen PSA-Wert von 3 hat. -1+1∙1+2∙3 = 6 • a0=-1, a1=1, a2=2 • Wer von diesen Personen hat das höchste Risiko für ein Prostatakarzinom? • Was erhöht das Risiko mehr: eine positive Familienanamnese oder die Zunahme des PSA-Wertes um eine Einheit? • Wie soll die Veränderung gemessen werden? • In Differenzen: Logit-Skala • Multiplikative Veränderung: Odds-Skala → Odds-Ratio (OR) IBE, MultVar. (L6-3)
Regressionskoeffizienten und Odds Ratio Odds für die Erkrankung bei Faktorkonstellation X O(X) = P[Y=1|X]/P[Y=0|X]: Um wie viel ist es wahrscheinlicher bei Konstellation X zu erkranken als nicht zu erkranken Die Ausprägungen der Konstellationen X und X* sind in allen Variablen identisch, bis auf die Variable i. Der Wert der Variablen i in X ist um eine Einheit größer als der Wert der Variablen i in X*. Dann gilt: ORi = O(X)/O(X*) = exp(ai)Die exponierten Regressionskoeffizienten können somit als Odds Ratios interpretiert werden. Die Wirkung eines Einflussfaktors auf das Risiko wird durch das Vorzeichen des Regressionskoeffizienten ausgedrückt: a = 0 kein Einfluss des Faktorsa < 0 Faktor senkt die Wahrscheinlichkeita > 0 Faktor erhöht die Wahrscheinlichkeit IBE, MultVar. (L6-3)
Odds Ratio XFA = 0: negative Familienanamnese, 1: positive Familienanamnese.XPSA = PSA Wert Linearer Prädikor: -1 + 1∙XFA+2∙XPSA Kovariablenvektor pro Patient (XFA, XPSA) X = (0, 3) und X* = (0, 4): Patient X hat keine familiären Belastungen und PSA Messung 3, LP = 5Patient X* hat keine familiären Belastungen und PSA Messung 4, LP = 7 Berechne das OR für den Faktor PSA P[Y=1|X] = exp(5)/(1+exp(5)) = 0.9933 O(X) = P[Y=1|X]/P[Y=0|X] = 0.9933/0.0067 = 148.254P[Y=1|X*] = exp(7)/(1+exp(7)) = 0.9991 O(X*) = P[Y=1|X*]/P[Y=0|X*] = 0.9991/0.0009 = 1110.111 OR = O(X*) / O(X) = 1110.111/ 148.254 = 7.487899 = exp(2) IBE, MultVar. (L6-3)
Odds Ratio Odds für die Erkrankung mit (X=1) OR = ------------------------------------------ = exp(logOR) = exp(a) Odds für die Erkrankung mit (X=0) OR > 1 : a > 0 (positiver Zusammenhang - Risiko wird erhöht)OR < 1 : a < 0 (negativer Zusammenhang- Risiko nimmt ab)OR = 1 : a = 0 (kein Zusammenhang) Berichte des OR in Artikeln: 95%-Konfidenzintervall für OR, p-Wert für OR: falls p<0.05, so bedeutet dies, dass das OR signifikant von 1 verschieden ist und der Risikofaktor einen Effekt auf die Erkrankungsodds hat. Oft werden auch die Regressionskoeffizienten berichtet, die in OR umgerechnet werden können - oder umgekehrt. IBE, MultVar. (L6-3)
Schätzen der Koeffizienten in der log. Reg. • Es wird ein Modell für die W‘keit der Erkrankung in einer spezifischen Teilgruppe formuliert: Angabe, welche Faktoren wie codiert eine Rolle spielen. • Somit gilt für individuelle W‘keiten in einer durch den Vektor X beschriebenen Teilmenge das Modell: • Durch die Kombination von Modell und beobachteten individuellen Krankheitszuständen lässt sich die Likelihood der vorliegenden Daten berechnen. Die Likelihood ist eine Funktion der nicht spezifizierten Regressionskoeffizienten a1, …, am. • Die Maximierung der Likelihood ergibt die Schätzung der gesuchten Parameter. Weiterhin können Konfidenzintervalle berechnet werden, sowie p-Werte für die Nullhypothese, dass ai=0 ist. IBE, MultVar. (L6-3)
Fragen an die Daten • Was ist das OR für die Familienanamnese des Prostatakarzinoms? • Erhöht oder erniedrigt eine positive Familienanamnese die Odds für ein Prostatakarzinom. • Um wie viel verändert sich die Odds? • Ist dieser Effekt statistisch signifikant? Warum? • Ist der Effekt eines positiven DRE-Befundes größer als der einer pos. Familienanamnese? • In welchem Bereich liegt der Effekt einer positiven DRE? • Wird durch eine vorherige Biopsie (auch wenn negativ ausgefallen) die Odds für ein Prostatakarzinom erhöht? • Wird durch den logPSA-Wert die Odds für ein Prostatakarzinom erhöht oder erniedrigt? Interpretieren Sie den Wert des OR für die logPSA Messung. • Ist PSA der einzige Risikofaktor, den ein Arzt in Betracht ziehen soll, wenn er einen Patienten über sein Prostatakarzinomrisiko berät und die Durchführung einer Biopsie in Betracht zieht? IBE, MultVar. (L6-3)
Darstellung eines komplexen Ergebnisses Unsicherheit aufgrund der SchätzungKonfidenzbänder für Risikoschätzer Risiko für fortgeschrittenes Prostatakarzinom Risiko für Prostatakarzinom IBE, MultVar. (L6-3)
Überlebenswahrscheinlichkeiten Wie verändert sich die Überlebenswahrscheinlichkeit (Kaplan-Meier-Kurve) in Abhängigkeit von Kovariablen und prognostischen Faktoren? Proportional-Hazards-Modell von D. R. Cox (1972) S(t|x) = S0(t)exp(a1∙x1 + … + ak∙xk) S0(t): Baseline-Überlebenskurve S0(t) = exp[-Λ0(t)] Λ0(t): Kumulierte Baselinehazard, Patienten sammeln mit fort- schreitender Zeit immer mehr „Sterberisiko“ (Hazard), positive, monotone Funktion Kumulativer Hazard einer Patientengruppe mit Kovariablenstruktur x: Λ(t|x) = Λ0(t)∙exp(a1∙x1 + … + ak∙xk) IBE, MultVar. (L6-3)
Überlebenswahrscheinlichkeiten Linearer Prädiktor: a1∙x1 + … + ak∙xk Linearer Prädiktor < 0 - Überlebenswahrscheinlichkeit erhöht sich = 0 - Überlebenswahrscheinlichkeit identisch mit Baselinegruppe > 0 - Überlebenswahrscheinlichkeit erniedrigt sich Beispiel: Linearer Prädiktor: - 0.5∙Klinik_B + 1∙Prognosestadium Klinik_B: 0 falls Patient in Klinik A behandelt wurde 1 falls Patient in Klinik B behandelt wurde Prognosestadium: 0 gute Prognose 1 schlechte Prognose 5-Jahres Überleben in Gruppe (0,0): 0.7Wie sieht das 5-Jahres Überleben in den anderen Gruppen aus? IBE, MultVar. (L6-3)
Überlebenswahrscheinlichkeiten Linearer Prädiktor: - 0.5∙Klinik_B + 1∙Prognosestadium Klinik_B: 0 falls Patient in Klinik A behandelt wurde 1 falls Patient in Klinik B behandelt wurde Prognosestadium: 0 gute Prognose 1 schlechte Prognose 5-Jahres-Überleben in Gruppe (0, 0): LP = 0 exp(0) = 1 5-Jahres-Rate: 0.71 = 0,7 (0, 1): LP = 1 exp(1) = 2.72 5-Jahres-Rate: 0.72.72 = 0,379 (1, 0): LP = -0.5 exp(-0.5) = 0.61 5-Jahres-Rate: 0.70.61 = 0,804 (1, 1): LP = 0.5 exp(0.5) = 1.65 5-Jahres-Rate: 0.71.65 = 0,555 Praktische Konsequenzen? IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Klinik A: 309 Pat. Klinik B: 196 Pat. IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Patientenzahlen zu den Stadien auf den nächsten Folien IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Unterscheidet sich das Überleben von kurativ resezierten Patienten mit Rektumkarzinom zwischen Klinik A und Klinik B?Log-Rank-Test N Observed Expected (O-E)^2/E B 196 45 60.68 4.050 A 309 100 84.32 2.914 Chisq= 7 on 1 degrees of freedom, p= 0.008278 Sind die Kliniken hinsichtlich ihres Patientengutes vergleichbar?Chi-Quadrat-Test Stadium I Stadium 2 Stadium 3 SummeB 33(16.8) 70(35.7) 93(47.5) 196A 84(27.2) 100(32.4) 125(40.4) 309 Chi² = 7.3026, FG = 2, p = 0.026 IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms SMR: Standardisierte Mortalitätsrate: Wie ist das Verhältnis von beobachteten zu erwarteten Todesfällen, wenn beide Kliniken sich im Mortalitätsrisiko nicht unterscheiden? RH: relativer Hazard - wie verhält sich die SMR von Klinik B zu der von Klinik A (Klink A ist Bezugsgröße) IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms SMR: Standardisierte Mortalitätsrate: Wie ist das Verhältnis von beobachteten zu erwarteten Todesfällen, wenn die drei Stadien sich im Mortalitätsrisiko nicht unterscheiden? RH: relativer Hazard - wie verhält sich die SMR zum nächst besseren Stadium (Für Stadium III ist Stadium II Bezugsgröße, für Stadium II ist Stadium I Bezugsgröße: Risikoveränderung beim Wechseln ins nächste Stadium) IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Der Effekt der Klinik auf die Veränderung der SMR ist homogen über die Stadien. Der Effekt der Stadien auf die Veränderung der SMR ist homogen über die Kliniken. Beide Faktoren (Stadium und Klinik) werden als unabhängige Faktoren in einer multivariaten Coxregression modelliert und ihre Effekte aufs Überleben quantifiziert. Hieraus lässt sich für jede Kombination (Klinik, Stadium) der Faktor berechnen mit dem die Überlebensinformation der Bezugsgruppe (Klinik A, Stadium I) verändert wird. Hazard Ratio lower .95 upper .95 stage.2 2.799 1.332 5.882 stage.3 3.574 2.390 5.346 klinik_b 0.488 0.343 0.696 IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Vergleich von beobachtetem Überleben mit den Überlebenskurven, die das Cox-Modell aus den Daten schätzen würde. Modell und Wirklichkeit stimmen gut überein. Somit sind auch die aus dem Modell und der Analyse gezogenen Schlussfolgerungen ernst zu nehmen. IBE, MultVar. (L6-3)
Kurative Resektion des Rektumkarzinoms Klinik B ist die deutlich bessere Klinik. Wie die Klinik auf das Überleben wirkt, konnte in einem multivariaten Proportional-Hazards-Modell quantifiziert werden: Hat ein Patient in Klinik A die Überlebenswahrscheinlichkeit SA(t), so gilt für die Klinik B SB(t) = SA(t)0.5 Die folgende Tabelle gibt den formalen Zusammenhang nochmals an Beispielen wieder: Überleben in Klinik A 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90Überleben in Klinik B 0.32 0.45 0.55 0.63 0.71 0.77 0.84 0.89 0.95Rel. Risiko 3.16 2.24 1.83 1.58 1.41 1.29 1.20 1.12 1.05 Das Beispiel macht auch klar, dass der relative Hazard nicht mit dem relativen Risiko identisch ist. Während sich das relative Risiko je nach Sterbewahrscheinlichkeit zwischen den Kliniken ändert, bleibt der relative Hazard konstant. IBE, MultVar. (L6-3)
Zusammenfassung (I) • Multivariate Verfahren erlauben das Zusammenfassen der Wirkung multipler Effekte auf einen Outcome. • Damit ist es möglich, Scores zu erstellen, die für Diagnose und Prognose eine schärfere Diskriminierung erlauben. • Multivariate Verfahren erlauben es ebenso, den Effekt eines Faktors in einem multivariablen Setting zu präzisieren. Dies geschieht durch das Herausrechnen des Effektes der anderen beteiligten Faktoren: Adjustierung. IBE, MultVar. (L6-3)
Zusammenfassung (II) IBE, MultVar. (L6-3)
Zusammenfassung (III) IBE, MultVar. (L6-3)
Zusammenfassung (IV) • Lernziel: Umgang mit dem linearen Prädiktor und dessen Rolle bei komplexen klinischen und epidemiologischen Fragestellungen. • Nicht behandelt: • Nicht-lineare Zusammenhänge (Wachstumskurven) • Auswahl der relevanten unabhängigen Variablen • Vorgehen bei der Verletzung wichtiger Modellannahmen • Interaktionseffekte zwischen Faktoren • abhängige (geclusterte) Beobachtungen • Modellanpassung und Residualanalyse • Hypothesentests und Konfidenzintervalle • Hintergründe der Schätzverfahren IBE, MultVar. (L6-3)