230 likes | 665 Views
P-waarde versus betrouwbaarheidsinterval. Hans Burgerhof Epidemiologie UMCG. Uit de literatuur (random van Internet).
E N D
P-waarde versus betrouwbaarheidsinterval Hans Burgerhof Epidemiologie UMCG
Uit de literatuur(random van Internet) In the presence of 10 μg of CTB, a dose-dependent antibody response was observed, with larger amounts of EcMSP4/5 inducing higher levels of antibodies; however, the difference was not statistically significant (P value, >0.05, as determined by analysis of variance) due to the small numbers of animals in the groups.
Onderwerpen • Wat is een P-waarde? • Wat is een betrouwbaarheidsinterval? • Wat is de relatie? • Wat is het verschil?
Inleiding toetsen • We willen onderzoeken of een nieuw middel een beter effect op de longfunctie heeft dan een standaardmiddel bij een goed gedefinieerde groep patiënten. • Randomized Clinical Trial (RCT) • Responsievariabele: continue Y (FEV1 of verschil FEV1 op t1 – FEV1 op t0 ?) als voorbeeld • Nulhypothese : μ1 = μ2 (of μ1 - μ2 = 0) tegen het tweezijdige alternatief We willen een nulhypothese toetsen en komen uit bij een beslissingsprobleem: H0 verwerpen of H0 accepteren
De toets • Aannemende dat aan de voorwaarden van de t-toets (normale verdeling, gelijke varianties, onafhankelijke waarnemingen) is voldaan berekenen we Waarin sp de gepoolde standaarddeviatie is
Independent t-test (SPSS) Dit is de P-waarde van de t-test (tweezijdig)
Bijbehorende eenzijdige P-waarde Gevonden t-waarde: -2,6
Bijbehorende tweezijdige P-waarde Gevonden t-waarde: -2,6
Definitie P-waarde • De P-waarde is de kans op de in de steekproef gevonden waarde of nog extremer, onder de aanname dat de nulhypothese juist is • Een kleine P-waarde maakt de nulhypothese ongeloofwaardig • P ≤α: verwerp H0 • P > α: accepteer H0 α is het significantieniveau, of de onbetrouwbaarheid, van de toets, meestal geldt α = 0,05
Als n groter wordt … • … neemt je power toe. Als er echt een verschil is, heb je meer kans om dat ook aan te tonen • … wordt je onderzoek betrouwbaarder; het BI zal smaller worden
Vermelding P-waarde • In sommige artikelen tref je aan P > 0,05 of P < 0,01 of slechts ns, * , ** of *** • Informatiever is vermelding van de P-waarde zelf: P = 0,087 geeft een ander beeld dan P = 0,87 • Mogelijke vuistregel: als P > 0,20: gebruik twee decimalen, anders drie. • Minimum: P < 0,001
Inleiding schatten • Bij schatten willen we van een onbekende parameter in de populatie een indruk hebben door middel van een puntschatting (één getal) of een betrouwbaarheids-interval BI (Engels: Confidence Interval, CI) • Meest gebruikte % betrouwbaarheid: 95 % • Een 95 % BI geeft een gebied waarin met 95 % betrouwbaarheid de onbekende populatieparameter ligt
Vervolg schatten • In ons voorbeeld willen we het verschil in gemiddelden van FEV1 tussen de twee groepen schatten • Het verschil wordt geschat op (afgerond) 0,55 l. • Het 95 % BI is [ 0,13 , 0,97 ]
Relatie toetsen en schatten van verschillen • Als de tweezijdige toets voor de nulhypothese van geen verschil significant is bij een α = 0,05, dan zal het 95 % BI de waarde 0 niet bevatten • Als de tweezijdige toets voor de nulhypothese van geen verschil niet significant is bij een α = 0,05, dan zal het 95 % BI de waarde wel 0 bevatten • Dit geldt in zijn algemeenheid (mutatis mutandis) voor een tweezijdige toets op niveau α en een 100*(1-α) % BI • Het BI is de verzameling van niet-verworpen nulhypothesen
In een plaatje (1) 95 % BI voor het verschil in gemiddelden 0,97 0 0,13 Puntschatting 0,55 Hier is de tweezijdige toets met α = 0,05 significant (0 zit niet in het BI)
In een plaatje (2) 95 % BI voor het verschil in gemiddelden 0 -0,15 0,69 Puntschatting 0,27 Hier is de tweezijdige toets met α = 0,05 niet significant (0 zit wel in het BI)
Verschil P-waarde en BI (1) • Statistische significantie is niet hetzelfde als klinische relevantie • Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P = 0,003 • Toets 1: 95 % BI = [ 0,12 , 0,28 ] • Toets 2: 95 % BI = [ 0,78 , 1,22 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde: 0,2 Gemiddelde: 1,0
Verschil p-waarde en BI (2) • “Absence of evidence is not evidence of absence” • Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P > 0,05 • Toets 1: 95 % BI = [ - 0,22 , 0,28 ] • Toets 2: 95 % BI = [ - 0,08 , 1,28 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde 0,03 Gemiddelde 0,6
Algemene Conclusies • Er is een relatie tussen tweezijdige toets en BI: ligt de te toetsen waarde niet in het BI dan wordt de nulhypothese verworpen • Het BI geeft ons gedetailleerdere informatie dan de P-waarde en heeft daarom over het algemeen de voorkeur (geef eventueel meerdere BI’s (90%, 95%, 99%)) • Voordeel P-waarde: eenvoudig aan te passen aan andere α