P-waarde versus betrouwbaarheidsinterval

P-waarde versus betrouwbaarheidsinterval Hans Burgerhof Epidemiologie UMCG

Uit de literatuur(random van Internet) In the presence of 10 μg of CTB, a dose-dependent antibody response was observed, with larger amounts of EcMSP4/5 inducing higher levels of antibodies; however, the difference was not statistically significant (P value, >0.05, as determined by analysis of variance) due to the small numbers of animals in the groups.

Onderwerpen • Wat is een P-waarde? • Wat is een betrouwbaarheidsinterval? • Wat is de relatie? • Wat is het verschil?

Inleiding toetsen • We willen onderzoeken of een nieuw middel een beter effect op de longfunctie heeft dan een standaardmiddel bij een goed gedefinieerde groep patiënten. • Randomized Clinical Trial (RCT) • Responsievariabele: continue Y (FEV1 of verschil FEV1 op t1 – FEV1 op t0 ?) als voorbeeld • Nulhypothese : μ1 = μ2 (of μ1 - μ2 = 0) tegen het tweezijdige alternatief We willen een nulhypothese toetsen en komen uit bij een beslissingsprobleem: H0 verwerpen of H0 accepteren

Beschrijvende statistiek

De toets • Aannemende dat aan de voorwaarden van de t-toets (normale verdeling, gelijke varianties, onafhankelijke waarnemingen) is voldaan berekenen we Waarin sp de gepoolde standaarddeviatie is

Independent t-test (SPSS) Dit is de P-waarde van de t-test (tweezijdig)

Bijbehorende eenzijdige P-waarde Gevonden t-waarde: -2,6

Bijbehorende tweezijdige P-waarde Gevonden t-waarde: -2,6

Definitie P-waarde • De P-waarde is de kans op de in de steekproef gevonden waarde of nog extremer, onder de aanname dat de nulhypothese juist is • Een kleine P-waarde maakt de nulhypothese ongeloofwaardig • P ≤α: verwerp H0 • P > α: accepteer H0 α is het significantieniveau, of de onbetrouwbaarheid, van de toets, meestal geldt α = 0,05

Fouten van eerste en tweede soort

Voorbeeld powerH0: μ = 115 tegen H1: μ = 118

Als n groter wordt … • … neemt je power toe. Als er echt een verschil is, heb je meer kans om dat ook aan te tonen • … wordt je onderzoek betrouwbaarder; het BI zal smaller worden

Vermelding P-waarde • In sommige artikelen tref je aan P > 0,05 of P < 0,01 of slechts ns, * , ** of *** • Informatiever is vermelding van de P-waarde zelf: P = 0,087 geeft een ander beeld dan P = 0,87 • Mogelijke vuistregel: als P > 0,20: gebruik twee decimalen, anders drie. • Minimum: P < 0,001

Inleiding schatten • Bij schatten willen we van een onbekende parameter in de populatie een indruk hebben door middel van een puntschatting (één getal) of een betrouwbaarheids-interval BI (Engels: Confidence Interval, CI) • Meest gebruikte % betrouwbaarheid: 95 % • Een 95 % BI geeft een gebied waarin met 95 % betrouwbaarheid de onbekende populatieparameter ligt

Vervolg schatten • In ons voorbeeld willen we het verschil in gemiddelden van FEV1 tussen de twee groepen schatten • Het verschil wordt geschat op (afgerond) 0,55 l. • Het 95 % BI is [ 0,13 , 0,97 ]

Relatie toetsen en schatten van verschillen • Als de tweezijdige toets voor de nulhypothese van geen verschil significant is bij een α = 0,05, dan zal het 95 % BI de waarde 0 niet bevatten • Als de tweezijdige toets voor de nulhypothese van geen verschil niet significant is bij een α = 0,05, dan zal het 95 % BI de waarde wel 0 bevatten • Dit geldt in zijn algemeenheid (mutatis mutandis) voor een tweezijdige toets op niveau α en een 100*(1-α) % BI • Het BI is de verzameling van niet-verworpen nulhypothesen

In een plaatje (1) 95 % BI voor het verschil in gemiddelden 0,97 0 0,13 Puntschatting 0,55 Hier is de tweezijdige toets met α = 0,05 significant (0 zit niet in het BI)

In een plaatje (2) 95 % BI voor het verschil in gemiddelden 0 -0,15 0,69 Puntschatting 0,27 Hier is de tweezijdige toets met α = 0,05 niet significant (0 zit wel in het BI)

Verschil P-waarde en BI (1) • Statistische significantie is niet hetzelfde als klinische relevantie • Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P = 0,003 • Toets 1: 95 % BI = [ 0,12 , 0,28 ] • Toets 2: 95 % BI = [ 0,78 , 1,22 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde: 0,2 Gemiddelde: 1,0

Verschil p-waarde en BI (2) • “Absence of evidence is not evidence of absence” • Twee t-toetsen voor het verschil in gemiddelden van twee groepen, elk P > 0,05 • Toets 1: 95 % BI = [ - 0,22 , 0,28 ] • Toets 2: 95 % BI = [ - 0,08 , 1,28 ] terwijl we een verschil vanaf 0,4 als klinisch relevant beschouwen Gemiddelde 0,03 Gemiddelde 0,6

Algemene Conclusies • Er is een relatie tussen tweezijdige toets en BI: ligt de te toetsen waarde niet in het BI dan wordt de nulhypothese verworpen • Het BI geeft ons gedetailleerdere informatie dan de P-waarde en heeft daarom over het algemeen de voorkeur (geef eventueel meerdere BI’s (90%, 95%, 99%)) • Voordeel P-waarde: eenvoudig aan te passen aan andere α

P-waarde versus betrouwbaarheidsinterval

P-waarde versus betrouwbaarheidsinterval

Presentation Transcript

Betrouwbaarheidsintervallen en p-waarde

versus

Algebraic P versus NP Lower Bounds and PIT

De waarde van het certificaat

p-waarde

Waarde-volle zorg

De waarde van christelijke waarden

versus

Waarde - innovatie

P-waarde versus betrouwbaarheidsinterval

De economische waarde van water

De Waarde van Data

Opvoedingsondersteuning als krachtige preventieve waarde.

De waarde van de ondergrond

Waarde (n) volle comfrontatie

A Personal view of P versus NP

Zorgeconomie: (econ) waarde van zorg

Inspiration Versus Perspiration: The P = ? NP Question

Toegevoegde waarde

Woning Waarde

Optimale waarde uit reststromen

De waarde van cultuureducatie