Statistikk som “bevis” Kliniske prøvninger

Statistikk som “bevis”Kliniske prøvninger HSTAT1101: 3. november 2004 Odd Aalen

Bevistyngde i statistiske materialer • Kliniske prøvninger • kan ideelt sett trekke sikre slutninger om kausalitet • Epidemiologiske studier (cohort, case/control) • slutninger om kausalitet er usikre

Hvorfor kliniske prøvninger?Regresjonseffekten Figuren viser naturlig forløp av en sykdom. Legen oppsøkes når tilstanden er dårlig, og en vil derfor forvente oppgang etterpå. Bra Tid Dårlig

“Regression to the mean” - generell lovmessighet • Sir Francis Galton 1886: “regression towards mediocrity” • Spesielt høye eller lave observasjoner vil bli etterfulgt av mer normale • velkjent i epidemiologi • gjelder også rangering av institusjoner f.eks. • Kan gi feilslutninger • Hvor mye av placebo-effekten er “regression to the mean”?

Randomisert klinisk prøvning • Regnes som gullstandarden • Sentralt element: randomisering (loddtrekning) • Kan danne grunnlag for en logisk uangripelig slutning om behandlingseffekt, dvs en slutning om kausalitet

Parallell-studier • To grupper følges parallellt, en får behandling A, den andre får behandling B • Brukes hyppigst • Krever flere pasienter • Det enkleste, og dermed minst sårbare opplegg • Forutsetter “equipoise” (vet ikke om ny behandling er bedre). Ikke uproblematisk • Etisk dilemma: Er det riktig å fordele behandling ved randomisering?

Example • F. Zijlstra et al, The New England Journal of Medicine, 1999, 341, 1413-1419 • Treatment of acute myocardial infarction. Comparing two treatments: • streptokinase: medication dissolving blood clots • angioplasty: inflating a tiny balloon in blood vessel

Treatment of acute myocardial infarction • Analyzed by Cox model, adjusted hazard ratio 2.31 • Propor-tionality?

Overkrysningsstudier • Overkrysningsstudier (“cross-over”): Alle pasienter får begge behandlinger • Brukes ved sykdom som varer over tid og er forholdsvis stabil • Krever et mindre antall pasienter • Sårbar mot • overførings-effekter (“carry over effects”) • periode-effekter • frafall

Randomisering • Variasjon (som kunne gitt systematisk skjevhet) gjøres om til tilfeldig variasjon • Parallellstudier: Variasjon mellom individer • Overkrysn.studier: Variasjon innen individer • Variasjonens effekt kan dermed beregnes • Komplett randomisering • Kan gi ujevne grupper • Stratifisert randomisering • Særlig multisenter-studier: randomisering på hvert senter • Blokk-randomisering • Blokker av typen: AABB ABAB ABBA BBAA BABA BAAB • Praktisk utføring: Dataprogrammer, tabeller over tilfeldige tall

Blindhet • Randomiseringen sikrer et “rettferdig” utgangspunkt • Blindhet skal sikre at dette ikke ødelegges under studiens gang. Helst dobbeltblindt opplegg • Blinding er et generelt eksperimentelt prinsipp (f.eks. blind vurdering av røntgenbilder eller prøver)

Frafall i klinisk prøvning • Sitater fra forsøksprotokoller: “Compliance utenfor 75%-125% av foreskrevet dose er eksklusjonsgrunn fra data-bearbeidingen” “Pasienter som ikke følger den oppsatte prøvningsplanen, ekskluderes fra studien og skal straks erstattes av nye” • Er dette fornuftige strategier?

Frafall - Intention to treat-prinsippet • Frafall er problematisk hvis det har relasjon til behandlingen • Intention to treat-prinsippet: Sammenlikner grupper i hht randomisering, uansett om behandlingen ble gjennomført • Forhindrer skjevhet pga frafall el. dårlig “compliance” • Kan være vanskelig å anvende pga mangelfull informasjon

Fremskritt i medisinsk behandling • Hvorfor er randomiserte kliniske prøvninger viktige: • Fremskritt er ofte små - gjennombruddene sjeldne. • Små effekter er likevel viktige hvis sykdommen rammer mange • Eksempel: Økning i fem års overlevelse fra 50% til 60% for en kreftform ville være av stor betydning. • Små effekter er vanskelig å oppdage • sårbare overfor “confounding” • krever godt kontrollerte studier • krever store studier • Effektene skal balanseres mot, kanskje alvorlige, bivirkninger

Eksempel: behandling etter hjerteinfarkt • Studie publisert i tidsskriftet The Lancet 6. juli 1996 • Bruk av d-sotalol vs placebo etter hjerteinfarkt. (d-sotalol skulle forhindre arytmier som kan lede til plutselig død) • Planla å innrullere 6400 pasienter med nylig hjerteinfarkt. • Randomisert i to grupper (parallellstudie) • Dobbeltblindt

Resultater • Studien ble stoppet etter at 3121 pasienter var inkludert • Da var: • 78 døde i behandlingsgruppen • 48 døde i placebogruppen • Relativ risiko 1.65. Signifikant med P-verdi 0.005 • Konklusjon: Det nye medikamentet øker risikoen for at pasientene dør. Dette er en konklusjon om kausalitet som bare er mulig pga randomisering

Lærdommer • Effekten kan gå i uventet retning • Effekten kunne neppe vært oppdaget uten i en randomisert klinisk prøvning • Prøvningen ble stoppet tidlig

Meta-analyse • Formål er å samle en rekke studier over samme tema og “summere opp” deres bevistyngde. • Akilleshælen: Begrenset eller skjevt utvalg av studier. Skal helst ha alle studier • Resultater i Cochrane-databasen (“Evidence Based Medicine”) presenteres gjerne som meta-analyser

“Publication bias” • Publiseringen av resultater fra kliniske forsøk er selektiv: • Større sjanse for å få publisert “signifikante” resultater • Seleksjon av gunstige resultater? • Skjevhet i litteraturen er dokumentert: behandlingers verdi overdrives • Kan motvirkes ved registrering av alle igangsatte kliniske prøvninger

Hvor storskal studien være? • Effekt av tilfeldig variasjon neddempes når studiens størrelse øker • Studien må være så stor at det blir statistisk signifikante utslag når det er en klinisk viktig forskjell mellom behandlingene • Beregning av forsøksstørrelse er et essensielt element i planleggingen av studien • En stor nok studie er interessant også om den er negativ

Typer av feil • Type I feil: Å konkludere at en effekt er tilstede når den i virkeligheten ikke er der • Probability:  (sigifikansnivå) • Kan f.eks. velge  lik 5% eller 1% • Type II error: Å ikke oppdage en reell effekt • Sannsynlighet:  • Styrke: 1- (sannsynlighet for å oppdage effekten) • Kan f.eks. Velge styrke lik 80%

Beregning • Beregning av forsøksstørrelse kan skje v. hj. a. følgende formel fra læreboka, s. 208. Skal sammenlikne to grupper med antatte sannsynligheter p1 og p2.

Eksempler • To behandlinger mot kreft skal sammenliknes. Bedres overlevelsen? • Anta fem års overlevelse med standard beh. er 50%. En bedring til 70% ansees klinisk betydningsfull. Det kreves da 91 pasienter i hver gruppe • Bedring til 60%: det kreves 387 pasienter i hver gruppe

Presidential election in the U.S. in 1936 • Candidates: Landon and Roosevelt • The journal Literary Digest sent out 10 million questionnaires based on • readership • lists of car owners • telephone directories • 2.4 mill. responded: 57% pro Landon, 43% pro Roosevelt • George Gallup chose a sample of 50.000 people and asked them about their preference: 56% pro Roosevelt • Result of election: 62% pro Roosevelt

Statistikk som “bevis” Kliniske prøvninger