260 likes | 670 Views
Forelesning 5 HSTAT1101. Ola Haug. Norsk Regnesentral. 15.09.04. Husker du?. Stokastisk forsøk Et eksperiment der utfallet ikke er kjent på forhånd Stokastisk variabel Tallstørrelse knyttet til utfallet av et stokastisk forsøk Sannsynlighetsfordeling:
E N D
Forelesning 5HSTAT1101 Ola Haug Norsk Regnesentral 15.09.04
Husker du? • Stokastisk forsøk • Et eksperiment der utfallet ikke er kjent på forhånd • Stokastisk variabel • Tallstørrelse knyttet til utfallet av et stokastisk forsøk • Sannsynlighetsfordeling: • Angir sannsynligheten for de forskjellige mulige verdiene til en stokastisk variabel X, P(X=x) • Forventningsverdi, E(X), og varians, Var(X) • Binomisk forsøksrekke og binomisk fordeling • Poissonprosess og Poissonfordeling
Dagens temaer • Hypotesetesting • Tankegangen bak hypotesetesting • p-verdi og signifikansnivå • Type I- og type II-feil • Teststyrke • Énsidig og tosidig test • Eksempelbasert framstilling!
Hypotesetesting • Eksempler på problemstillinger som kan tenkes besvart gjennom hypotesetesting • Effekten av et nytt medikament • Sammenlikning mot et eksisterende legemiddel • Sammenlikning mot placebo • Krybbedød • Påvirker barnets liggestilling sjansen for krybbedød? • Radioaktive utslipp • Er det grunnlag for å påstå at en lokal opphopning av krefttilfeller skyldes utslipp fra et atomkraftverk?
Hypotesetesting • Ønsker å si noe om hele populasjonen på grunnlag av et utvalg • Slike utsagn får nødvendigvis noe usikkerhet i seg Bruker beregninger på utvalget til å si noe om populasjonen Trekker (tilfeldig) utvalg fra populasjonen Utvalg Populasjon
Hypotesetesting, eksempel 1 • Uttesting av et nytt legemiddel mot depresjon • Et utvalg på 9 personer deltar i en studie hvor effekten av medikamentet testes mot et placebo • To prøveperioder: Hver person får medikamentet i én periode og placebo i én periode (overkrysningsstudie) • Personene får enten placebo i første og medikamentet i andre prøveperiode eller omvendt (randomisering) • Ingen får vite når de får medikamentet og når de får placebo (blindstudie) • Til slutt blir de spurt om i hvilken periode de følte seg best
Hypotesetesting, eksempel 1 • Vurdering av testpersonenes svar • Hvis medikamentet ikke har effekt, er sannsynligheten for å føle seg best i ”medikamentperioden” lik 0.5 (og tilsvarende for ”placeboperioden”) I dette tilfellet ville man kanskje forvente at 4, 5 eller 6 personer følte seg best i ”medikamentperioden” (eller ”placeboperioden”) (jfr. usikkerheten som ligger i å representere en hel populasjon med et begrenset utvalg).
Hypotesetesting, eksempel 1 • Tolkning av mulige prøvesvar: • Anta nå at 8 personer ble bedre av medikamentet. Gir dette grunnlag for å hevde at medikamentet har (positiv) effekt? Ganske sikkert! • Merk 1! Hvis alle 9 personene hadde blitt bedre av medikamentet, så ville konklusjonen vært enda sikrere. • Merk 2! Men hva hvis det var bare 7 eller 6 personer? Da virker det verre å svare et klart JA eller NEI på spørsmålet om effekt av medikamentet.
Hypotesetesting, eksempel 1 • Formalisering av problemstillingen: • Det er to mulige hypoteser H0: placebo og medikamentet har samme effekt HA: medikamentet har bedre effekt enn placebo • H0 kalles nullhypotesen og HAalternativhypotesen (betegnes også H1) • Våre data: 8 personer ble bedre av medikamentet • Forkaster dette H0? • Beviser dette HA?
Hypotesetesting, eksempel 1 • Statistisk modell, eksempel 1: • Anta at H0 er riktig (dvs. medikament og placebo har samme effekt) • Rimelig tilnærming: Hvis denne antagelsen gir en svært liten sannsynligheten for å få de dataene vi faktisk har observert, så forkaster vi H0. • Hvis H0 er riktig, så har medikamentet ingen effekt. • Sannsynligheten for å føle seg best i ”medikamentperioden” er da lik 0.5 for hver enkelt person, uavhengig av de andre. • => vi har en binomisk forsøksrekke! • Antagelsen om ”at H0 er riktig” omtales ofte som ”under H0”
Hypotesetesting, eksempel 1 • Altså: • Under H0 har vi en binomisk forsøksrekke med • Antall enkeltforsøk n = 9 • I hvert enkeltforsøk er P(bedring) = p = 0.5 • X = antall (av de 9) som føler seg bedre av medikamentet. X kalles for teststørrelsen (eller testobservatoren), og er en oppsummering av dataene som vi bruker for å teste. • Skriver X ~ binomisk(9, 0.5). Da er sannsynlighetsfordelingen til X gitt ved
Hypotesetesting, eksempel 1 P(X = x) for X ~ binomisk(9, 0.5)
Hypotesetesting, eksempel 1 • Hvor sannsynlige er de observasjonene vi har gjort innenfor en slik ramme, dvs. under H0? • Ut fra den statistiske modellen vi nå har satt opp, får vi at • Denne sannsynligheten er så liten at det ikke synes rimelig at dataene kan ha kommet fra en binomisk forsøksrekke med p = 0.5. => det er grunnlag for å hevde at medikamentet og placebo IKKE har samme effekt, og H0 forkastes!
Hypotesetesting, eksempel 1 • Generell framstilling: • Vi setter opp en konservativ / nøytral nullhypotese (H0). I vårt tilfelle vil dette være at medikamentet har samme effekt som placebo, dvs. p = 0.5 • Alternativet, som er det vi vil teste nullhypotesen mot, er at medikamentet har bedre effekt, dvs. p > 0.5 • Vi tester derfor H0: p = 0.5 mot HA: p > 0.5 • Vi forkaster H0 dersom vårt observerte resultat er lite sannsynlig under H0
Hypotesetesting, eksempel 1 • p-verdi • Sannsynligheten for å få et minst like ekstremt resultat som det vi har observert, gitt at H0 er sann, kalles for p-verdien eller signifikanssannsynligheten (i vårt eksempel var p-verdien 0.0195) • Nullhypotesen forkastes hvis p-verdien er veldig liten, som er ekvivalent med at resultatet av forsøket (8 personer med positiv effekt) er veldig usannsynlig hvis H0 er riktig
Hypotesetesting, eksempel 1 • Signifikansnivå • Signifikansnivået er grensen for hvor liten p-verdienkan være før H0 forkastes, som betyr at H0 forkastes hvis p-verdien er mindre enn signifikansnivået. Hvis utfallet blir at H0 forkastes, sier man at testen ga et signifikant resultat. • I vanlige tester settes signifikansnivået typisk til 5%, i strengere tester til 1%. • Merk! Hvis signifikansnivået i vårt eksempel var satt lik 1%, ville vi ikke forkastet nullhypotesen om at medikamentet ikke hadde noen effekt (fordi p-verdien var 0.0195 > 1%).
Hypotesetesting, eksempel 1 • Signifikansnivå, forts. • Signifikansnivået velges, og dette bør gjøres før studien gjennomføres (for å unngå at testoppsettet brukes til å oppnå det resultatet man eventuelt ønsker) • I stedet for å bestemme et absolutt signifikansnivå og enten forkaste eller ikke forkaste H0 ut fra dette, kan det være hensiktsmessig bare å oppgi testens p-verdi. Dermed overlates det til brukeren å vurdere beviskraften hun vil tillegge p-verdien.
Hypotesetesting, eksempel 1 • Forkastningsområde • Til et valgt signifikansnivå α hører et forkastningsområde: Finn (den minste) xαslik at P(X > x | H0) ≤α {x : x > x } er da forkastningsområdet. Hvis vår observerte X ligger i forkastningsområdet, forkaster vi H0. • I vårt eksempel: P(X > 8 | H0) = 0.00195 P(X > 7 | H0) = 0.0195 P(X > 6 | H0) = 0.0898 På nivå α = 5% får vi derfor x = 7, og med observert X = 8 dermed forkastning av H0.
Hypotesetesting, eksempel 1 • Oppsummering av hypotesetestingsprosedyren • Vi har en konservativ / nøytral hypotese, H0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at dette er tilfelle. • Dette gjør vi ved å anta H0 og • enten finne den tilhørende p-verdien (dvs.sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H0 er riktig), og forkaste H0 hvis p-verdien er veldig lav (dvs. lavere enn signifikansnivået). • eller beregne forkastningsområdet og forkaste H0hvis vår observerte X ligger i dette området
Type I- og type II-feil • Feilsannsynligheter • α = P(Type I-feil), dvs. sannsynligheten for å forkaste H0 selv om den er sann. Denne vil være lik det signifikansnivået vi har besluttet å bruke. • β = P(Type II-feil), dvs. sannsynligheten for ikke å forkaste H0 selv om den er usann. Årsaken til type II-feil er oftest at datamaterialet (n) er for lite. • Type I-feil regnes som mer alvorlig enn type II-feil. Det er derfor signifikansnivået (som er lik P(type I-feil)) settes lavt (typisk som 5% eller 1%). P(type II-feil) vil vanligvis være større.
Teststyrke • Hvilken mulighet har vi for å avdekke at H0 er gal? • 1 – β er sannsynligheten for å forkaste H0 når den er usann (dvs. når p > 0.5) • Denne sannsynligheten kalles teststyrken og er en funksjon av parameteren vi tester (p).
Énsidig og tosidig test • Så langt har vi sett på en énsidig test, dvs. H0: p = 0.5 mot HA: p > 0.5 • I situasjoner hvor man f. eks. tester et nytt legemiddel mot et eksisterende, kan man i utgangspunktet ikke vite om det nye middelet er bedre eller dårligere enn det eksisterende. • Dette leder til en tosidig testsituasjon, dvs. H0: p = 0.5 mot HA: p≠ 0.5 • Tosidige tester tar ikke på forhånd stilling til i hvilken retning en eventuell forskjell vil gå.
Énsidig og tosidig test • For å beregne forkastningsregion og p-verdi må vi nå ta hensyn til at avviket fra H0 kan oppstå i begge retninger. • Med signifikansnivå 0.05 får vi forkastningsområde x < x0.025eller x > x0.975 • Uttrykket for p-verdien må også ta hensyn til (like) ekstreme utslag i den andre enden av verdiområdet til X.
Énsidig og tosidig test • I vårt eksempel: Forkastningsområde: P(X<1 | H0) + P(X > 8 | H0) = 0.0039 P(X<2 | H0) + P(X > 7 | H0) = 0.039 P(X<3 | H0) + P(X > 6 | H0) = 0.18 På nivå α = 5% får vi derfor x0.025 = 2 og x0.975 = 7. Observert X = 8 gir dermed forkastning av H0. p-verdi: Denne gir også forkastning.
Énsidig og tosidig test • Merk! Nullhypotesen er den samme i begge testsituasjonene, men siden alternativhypotesen er forskjellig, blir p-verdier og forkastningsområder generelt forskjellige. Følgelig kan også konklusjonene med hensyn til forkastning av H0 eller ikke bli annerledes enn ved en énsidig test. I vårt eksempel vil f. eks. et signifikansnivå på 2.5% lede til forkastning av H0 ved en énsidig test (p-verdi = 0.0195), mens p-verdien beregnet fra den tosidige testen (0.039) ikke gir grunnlag for forkastning.