Statistisk metode & dokumentasjon av legemidlers effekt Eva Skovlund 3. juni 2009

Statistisk metode & dokumentasjon av legemidlers effekt Eva Skovlund3. juni 2009 Ill. er rappet fra Furberg & Furberg. Allt är inte guld som glimmar! Glaxo, 1992.

p-verdier • Klinisk forskning fokuserer sterkt på signifikans-tester for å dokumentere effekt av behandling • en lav p-verdi (<5%) sees som "bevis" på en interessant effekt • en høyere p-verdi (>5%) leses som "ingen effekt" • mens det p-verdien gir svar på er • Hva er sannsynligheten for å observere det resultatet jeg ser, eller en enda større effekt, VED EN TILFELDIGHET? eva

Analyse av krysstabell (1) Andel respondere 34 % vs 22 % Kji-kvadrat-test: p=0.008 Nytt lm gir signifikant høyere andel respondere eva

Viktige begreper Type I feil: “Finne” forskjell mellom to behandlinger som i virkeligheten er like gode - kontrolleres med p-verdi Signifikansnivå vanlig å anta at en observert forskjell ikke skyldes tilfeldighet hvis p < 5% Type II feil Ikke oppdage at to behandlinger faktisk har forskjellig effekt - antall pasienter Teststyrke krever vanligvis 80-90% sanns. for å oppdage en klinisk relevant forskjell i effekt (power) eva

Planlegging av en studie eva

Analyse av krysstabell (2) Andel respondere 34 % vs 22 % Kji-kvadrat-test: p=0.18 Ikke statistisk signifikant forskjell eva

Eksempel – overlevelsesanalyse Modell: Relativ hazard 1.32 Andel i live ved 5 år: A: 40% B: 50%Median overlevelse: A: 45 mnd B: 60 mnd eva

Simulert overlevelse A: 49 pasienter B: 51 pasienter Finner ingen signifikant forskjell i overlevelse mellom de to behandlingene. Betyr det at de har like god (eller dårlig) effekt? eva

p-verdier “To use p-values simply to declare something as significant and therefore real, or non-significant and therefore without effect, is to abdicate from any constructive thought about one’s results” (Altman 1991) En p-verdi kan bli så liten vi vil, hvis antall pasienter er stort nok. Dvs. at vi kan “oppdage” forskjeller som overhodet ikke har klinisk relevans. Omvendt - med få pasienter inkludert i et forsøk er det nesten umulig å oppdage selv meget gode effekter av behandling. Det er derfor nødvendig å vurdere teststyrke når man planlegger et forsøk. Det anbefales å angi estimater av effekt, helst med tilhørende 95% konfidensintervall, ikke p-verdier alene. eva

Konfidensintervall for differanse Andel respondere Nytt lm 0.34 Konvensjonell beh 0.22 Differanse 0.34-0.22=0.12 Et 95% konfidensintervall for sann differanse I alt 400 pasienter [0.03, 0.21] I alt 100 pasienter [-0.06, 0.29] eva

95% konfidensintervall eva

Absolutt vs relativ forskjell Absolutt differanse: 12 % Relativ økning: 55 % (34-22)/22=0.55 Kan budskapet fremstå forskjellig? eva

Hvilke pasienter skal være med i analysen? Per-protocol: Bare pasienter som oppfyller inklusjons- og eksklusjons-kriterier, som får den behandlingen de er randomisert til, og som er compliant inkluderes i analysen ”vitenskapelig tilnærming” - BIAS? Intention-to-treat: Alle randomiserte pasienter er med i analysen, enten de fikk behandlingen eller ikke ”pragmatisk tilnærming” – konservativt estimat av effektforskjell? eva

Multiplisitet • Interimanalyser • Parvise sammenligninger • Subgruppeanalyser • Flere endepunkter • Jo flere tester som utføres, desto større sannsynlighet for å finne minst ett falsk positivt resultatBonferroni-korreksjon – multiplisere p-verdien med det antall tester som er utført eva

Subgruppeanalyser – ISIS-2 • Randomised trial of intravenous streptokinase, oral aspirin, both, or neither among 17187 cases of suspected acute myocardial infarction • Overall results - vascular deaths in first 5 weeks • Strep Aspirin S+A Placebo • 9.2% 9.4% 8.0% 13.2% • Subgruppeanalyser med pasientene delt opp etter stjernetegn indikerer at aspirin gir 9% økt risiko for død for pasienter født i Tvillingene eller Vekten. • For alle andre stjernetegn er effekten sterkt positiv (28% reduksjon i risiko, p<0.00001) • Betyr dette at man må unngå aspirin hvis man er Vekt eller Tvilling?? eva

A priori vs a posteriori hypoteser Samler man data fordi man har en idé eller genereres idéen fra data? Skille mellom hypoteser som er prespesifisert og hypoteser som ikke er detKortspill anklage om juks ved uvanlig gode kort anklagen står sterkere hvis den er fremsatt på forhånd Må det sjeldne tillegges en årsak? Lotto sanns for toppgevinst 1 på 5 millioner (p=0.0000002) Overraskende funn må testes ut i nye studier eva

Data torturing “If you torture your data long enough, they will tell you whatever you want to hear” Mills (1993) NEJM 329, 1196-9. eva

Statistisk metode & dokumentasjon av legemidlers effekt Eva Skovlund 3. juni 2009