560 likes | 810 Views
Kap 11 Hypotesetesting. Hypotesetesting. Def. Hypotese : Utsagn (påstand) om virkeligheten. Hypotese innen statistikk : Utsagn (påstand) om en ukjent parameter i en statistisk modell. Hypotesetesting : Statistisk metode for å ta stilling til
E N D
Hypotesetesting Def Hypotese : Utsagn (påstand) om virkeligheten. Hypotese innen statistikk : Utsagn (påstand) om en ukjent parameter i en statistisk modell. Hypotesetesting : Statistisk metode for å ta stilling til hypoteser på grunnlag av resultater fra et forsøk eller en undersøkelse.
Hypotesetesting Eks:Promille 1 Det er tatt blodprøve av en mann som er mistenkt for promillekjøring. Det skal undersøkes om alkoholinnholdet i mannens blod er over promillegrensen 0.50. Alkoholinnholdet (promille) estimeres ved å ta gjennomsnittet av 4 målinger. Målingene er uavhengige og normalfordelte stokastiske variable med forventning og kjent standardavvik = 0.05 (det benyttes en velkjent målemetode). Gir resultatet grunnlag for å påstå at > 0.50 ? I såfall vil mannen bli dømt for promillekjøring. La oss anta at alkoholinnholdet i mannens blod er akkurat på grensen, dvs = 0.50 . Er da X >= 0.521 et usannsynlig høyt resultat? Hvis ikke, må tvilen komme mannen til gode, og han bør ikke dømmes.
Hypotesetesting Eks:Promille 2 Sannsynligheten for at X >= 0.521 gitt at promillen = 0.50 . N(0.50,0.0252) 0.20 0.50 Signifikanssannsynlighet 0.521 Sannsynligheten er uakseptabelt høy. Dersom vi påstår at > 0.5 for personer som har estimert alkoholinnhold i blodet som denne mannen (og høyere), så vil den metoden som er benyttet innebære at personer med alkoholinnhold 0.50 har 20% sannsynlighet for å blir dømt.
Hypotesetesting Eks:Promille 3 Sikkerhetsmargin: Minsteavstanden mellom X og = 0.50 for at vi skal kunne påstå > 0.50 Sikkerhetsmargin 0.50 k 0.60 Vi vil bestemme k slik at sannsynligheten for å påstå > 0.50 dersom i virkeligheten er 0.50, er meget liten, la oss si 1%. N(0.50,0.0252) = 0.01 0.50 k=0.558
Hypotesetesting Generelt Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : k : Kritisk verdi Signifikansnivået :
Hypotesetesting Generelt Virkeligheten Konklusjon på testen Ikke skyldig ( <=0.50) Skyldig ( >0.50) Ikke påstå H1, dvs frifinnelse Mannen frikjennes med rette Mannen er skyldig og frikjennes feilaktig Mannen er uskyldig og dømmes feilaktig (sannsynlighet høyst 1%) Påstå H1, dvs dom Mannen dømmes med rette
Hypotesetesting Generelt P(A)+P(B)=1 P(C)+P(D)=1 Virkeligheten Konklusjon H0 sann H1 sann Forkaster ikke H0 A C Godtakingsfeil Forkaster H0 B D Forkastningsfeil Styrkefunksjon A : Riktig B : Feil H0 er sann, men testen forkaster den (Alvorlig feil) C : Feil H1 er sann, men testen forkaster ikke H0 D : Riktig
Hypotesetesting Generelt Virkeligheten Konklusjon H0 sann H1 sann Forkaster ikke H0 A C Forkaster H0 B D Ønsker å holde P(B) og P(C) liten, først og fremst P(B). Ønsker å holde P(B) og P(C) liten, først og fremst P(B). Trekker i hver sin retning. Eks: 1. Det er alvorligere at en person uten promille over 0.5 dømmes enn at han går fri med for høy promille. 2. Det er alvorligere at en syk person som er alvorlig syk blir erklært frisk enn at en frisk person blir innkalt til en ekstra undersøkelse.
Hypotesetesting Målemetoden 1 n målinger av : X1, X2,…, Xn Målingene er uavhengige og normalfordelte stokastiske variable med ukjent forventning og kjent varians 2. Nullhypotesen : Alternativ hypotese : Standardestimator for : Påstår H1 dersom : k : Kritisk verdi Signifikansnivået : Angir sannsynligheten for forkastningsfeil
Hypotesetesting Målemetoden 2 Signifikansnivået : N(0,12) 0 u N(,0,2) 0 k Påstå H1 dersom :
Hypotesetesting Målemetoden 3 Sikkerhetsmarginen : Sikkerhetsmarginen s avhenger av , og n som følger: - Jo lavere signifikansnivå vi velger, dvs liten sannsynlighet for å påstå H1 når H0 er riktig, desto større blir u og desto større sikkerhetsmargin må vi ha. - Jo større standardavviket for en enkeltmåling er, desto større sikkerhetsmargin må vi ha. - Jo flere uavhengige målinger vi har, dvs stor n, desto mindre sikkerhetsmargin trenger vi.
Hypotesetesting Målemetoden 4Eks:Promille 4 Nullhypotesen : Alternativ hypotese : Påstår H1 dersom : k : Kritisk verdi Kritisk verdi :
Hypotesetesting MålemetodenMindre enn testverdi Nullhypotesen : Alternativ hypotese : Signifikansnivået : Kritisk verdi : N(0,12) N(,0,2) -u 0 0 u k
Hypotesetesting MålemetodenMindre enn testverdiEks: Lakseoppdrett En fiskeoppdretter har et stort antall laks i et basseng. Etter planen skulle laksen på et tidspunkt nådd en gjennomsnittsvekt på 4.5 kg, men oppdretteren har mistanke om at gjennomsnittsvekten for laksen i bassenget er lavere. For å undersøke dette tar han opp 13 laks og veier dem. Målt vekt X for en tilfeldig laks fra bassenget antas å være normalfordelt med forventning og standardavvik = 0.70 kg. Målte vekter av forskjellige lakser er uavhengige variabler. Nullhypotesen : Alternativ hypotese : Med signifikansnivå 5% skal vi påstå H1 dersom : Målte vekter Xi : 3.9 3.6 5.1 4.8 3.7 3.2 4.6 5.4 3.0 4.2 3.8 4.4 4.1 Vi får: Vi påstår H1. Målingene tyder på at laksen ikke har nådd gjvekten 4.5 kg
Styrkefunksjonen Def Ved test av en hypotese H1 om en ukjent parameter , er styrkefunksjonen for testen definert ved: Styrkefunksjonen gir sannsynligheten for å påstå H1 som funksjon av . Funksjonsverdien () kalles styrken i punktet . angir testmetodens evne til å avsløre hvorvidt H1 er sann. Ideelt om var 1.0 når H1 er riktig. Dette er ikke mulig, men vi ønsker at skal være så stor som mulig. Hvis vi har flere alternative testmetoder med samme signifikansnivå, vil vi velge den metoden som har størst styrke under H1.
Styrkefunksjonen Eks:Promille 5 = Sannsynligheten for forkastningsfeil. () = Sannsynligheten for å bli dømt når promillen er . 1- () = Sannsynligheten for frifinnelse når promillen er . = Sannsynligheten for godtakingsfeil. Styrkefunksjon Sannsynligheten for å påstå H1 på grunnlag av analyse av blod med alkoholinnhold : 1.0 0.50 0.50 k=0.558 0.48 0.49 0.50 0.52 0.54 0.558 056 0.58 0.60 0.62 0.64 0.66 () 0.001 0.003 0.010 0.064 0.234 0.500 0.532 0.811 0.954 0.993 0.9995 1.00
Styrkefunksjonen Eks:Promille 6 Styrkefunksjon Sannsynligheten for å påstå H1 på grunnlag av analyse av blod med alkoholinnhold : 1.0 0.50 0.50 k=0.558 - Funksjonen er voksende. Jo større alkoholinnholdet i blodprøven er, desto større blir sannsynligheten for dom. - (0.50) = 0.01. Dette følger av kravet om signifikansnivå 1%. Testen er konstruert slik at sannsynligheten for å påstå > 0.50 er 0.01 når = 0.50. - For 0.50 er () 0.0. Dette betyr at sannsynligheten er liten for fellende dom ved 0.50 . - For 0.62 er () 1.0. Det betyr at sannsynligheten for fellende dom er nær 1 når 0.62. - For personer med alkoholinnhold i blodet fra ca 0.50 til ca 0.62 er både dom og frifinnelse reelle muligheter. For eksempel er (0.58) = 0.811. Det betyr at en person med alkoholinnhold = 0.58 i blodet har sannsynlighet 0.811 for å bli dømt og sannsynliget 0.189 for å bli frifunnet.
Styrkefunksjonen Eks: Politisk gallup er andelen i populasjonen av velgere som vil stemme Arbeiderpartiet. Av 1200 uttrukne velgere er Y antall som vil stemme Arbeiderpartiet. Skal teste om oppslutningen om Arbeiderpartiet er under 40%, dvs om < 0.40. Estimator : Nullhypotesen : Alternativ hypotese : Med signifikansnivå 5% skal vi påstå H1 dersom : Styrkefunksjonen for testen blir :
Styrkefunksjonen Eks: Politisk gallup Styrkefunksjonen 0.40 0.38 0.377 0.36 0.34 0.32 () 0.05 0.417 0.50 0.890 0.996 1.00 Eks: Når < 0.36 kan vi med sannsynlighet 0.90 eller mer påstå H1. Er oppslutningen 38%, så er det kun 41.7% sjanse for at vi vil påstå at partiets oppslutning er under 40%. 1.0 0.50 0.40
Styrkekrav Eks: Politisk gallup La oss si at vi ønsker en test med styrke minst 0.90 når = 0.38. Vi vil bestemme utvalgsstørrelsen n slik at dette blir oppfylt. Når utvalgsstørrelsen endres, må vi bestemme ny kritisk verdi for testen. Den nye k-verdien finnes ved å erstatte utvalgsstørrelsen på 1200 med n i den k-verdien vi har fra før. Med signifikansnivå 5% skal vi påstå H1 dersom : Styrkefunksjonen for den nye testen :
Styrkekrav Eks: Politisk gallup Med signifikansnivå 5% skal vi påstå H1 dersom : Styrkefunksjonen for den nye testen : Vårt styrkekrav blir nå :
Styrkekrav Eks: Politisk gallup Den nye k-verdien for testen blir : Vi skal altså gjennomføre en meningsmåling med n = 5093 velgere og påstå H1 dersom : Den nye Styrkefunksjonen for den nye testen :
Styrkekrav Eks: Politisk gallup Den nye Styrkefunksjonen for den nye testen : 0.40 0.39 0.38 0.36 0.34 0.32 () 0.05 0.181 0.417 0.890 0.996 1.00 ny() 0.05 0.472 0.90 1.00 1.00 1.00 1.0 ny 0.50 0.40
Signifikanssannsynlighet Promille-eksempel: Måling : Nullhypotesen / Alternativ hypotese : Anta at H0 gjelder, hva er da sannsynligheten for å få et resultat som er 0.521 eller mer? Sannsynligheten p kalles signifikanssannsynligheten eller P-verdien for testen. Signifikanssannsynligheten er sannsynligheten for å få et resultat som er lik eller mer ekstremt enn den observerte verdien dersom H0 gjelder.
HypotesetestSignifikansnivå - Signifikanssannsynlighet Hypotesetest vha Signifikansnivå: Hypotesetest vha Signifikanssannsynlighet: p p k x x k
SignifikanssannsynlighetGenerell formulering Observert : Signifikanssannsynlighet : Påstår H1 dersom p <
HypotesetestingSignifikansnivå MålemetodenMindre enn testverdiEks: Lakseoppdrett En fiskeoppdretter har et stort antall laks i et basseng. Etter planen skulle laksen på et tidspunkt nådd en gjennomsnittsvekt på 4.5 kg, men oppdretteren har mistanke om at gjennomsnittsvekten for laksen i bassenget er lavere. For å undersøke dette tar han opp 13 laks og veier dem. Målt vekt X for en tilfeldig laks fra bassenget antas å være normalfordelt med forventning og standardavvik = 0.70 kg. Målte vekter av forskjellige lakser er uavhengige variabler. Nullhypotesen : Alternativ hypotese : Med signifikansnivå 5% skal vi påstå H1 dersom : Målte vekter Xi : 3.9 3.6 5.1 4.8 3.7 3.2 4.6 5.4 3.0 4.2 3.8 4.4 4.1 Vi får: Vi påstår H1. Målingene tyder på at laksen ikke har nådd gjvekten 4.5 kg
HypotesetestingSignifikanssannsynlighet MålemetodenMindre enn testverdiEks: Lakseoppdrett Nullhypotesen : Alternativ hypotese : p x k Målte vekter Xi : 3.9 3.6 5.1 4.8 3.7 3.2 4.6 5.4 3.0 4.2 3.8 4.4 4.1 Signifikanssannsynlighet : Vi får: Vi påstår H1. Målingene tyder på at laksen ikke har nådd gjvekten 4.5 kg
SignifikanssannsynlighetBinomisk modell Eks: Bivirkninger 1 Legemidler gir i gjennomsnitt bivirkninger til halvparten av pasientene. Et nytt legemiddel en håper skal gi færre bivirkninger er prøvd ut på 10 pasienter, hvorav 3 fikk bivirkninger. Gir dette resultatet grunnlag for å påstå at det nye legemiddelet gir færre bivirkninger (signifikansnivå 5%) ? X = Antall av de 10 pasientene som får bivirkninger q = Sannsynligheten for at en tilfeldig pasient får bivirkninger.
SignifikanssannsynlighetBinomisk modell Eks: Bivirkninger 2 Nullhypotesen : Alternativ hypotese : Signifikanssannsynlighet : Konklusjon: Vi kan ikke påstå at det nye legemiddelet er bedre enn det gamle.
SignifikansnivåSignifikanssannsynlighet Oppsummering Signifikansnivå 1. Velg signifikansnivå 2. Bestem kritisk verdi c ut fra 3. Sammenlign den observerte x av testvariabelen X og c Signifikanssannsynlighet 1. Velg signifikansnivå 2. Observer verdien x av testv. X 3. Beregn sannsynligheten p for å få observert resultat, gitt at H0 er riktig. Sammenlign p og .
HypotesetestSignifikansnivå - Signifikanssannsynlighet Signifikansnivå (vanlig metode) : - Sammenligner en estimator for den aktuelle testparameteren med en kritisk verdi k. - Fokuserer på testmetoden. Best egnet til å forklare og til å forstå hypotesetesting. - Mest praktisk å ha en kritisk verdi å forholde seg til ved hypotesetest for flere datasett (sml promilletest). Signifikanssannsynlighet (alternativ metode) : - Basert på signifikanssannsynligheten p (P-verdien). - Fokuseres på resultatet av forsøket. - Gir sannsynligheten for å få et resultat som er lik eller mer ekstremt enn det vi faktisk har fått. - Innebærer vanligvis mindre regnearbeid (spesielt ved diskrete mod.).
t-fordelingen og t-tester Målemodellen n målinger X1, X2, …, Xn Konfidensintervall for med sikkerhet 100(1-) % : Påstå > 0 i en test med signifikansnivå dersom : Skal analysere modellen når både og er ukjente parametre.
t-fordelingen og t-tester Målemodellen Erstatter 2 med standardestimatoren : Estimator for (som før) : Standardisering (med kjent ) : Standardisering (med ukjent ) : Sannsynlighetsfordelingen til T kalles t-fordelingen med n-1 frihetsgrader.
t-fordelingen og t-tester Målemodellen Standardisering (med kjent ) : Standardisering (med ukjent ) : Sannsynlighetsfordelingen til T kalles t-fordelingen med n-1 frihetsgrader. N(0,1) t
Tabell over t-fordelingen m 0.10 0.05 0.025 0.01 0.005 1 3.078 6.314 12.71 31.82 63.66 2 1.886 2.920 4.303 6.965 9.925 3 4 5 6 7 8 9 10 1.372 1.812 2.228 2.764 3.169 ….. 80 1.292 1.664 1.990 2.374 2.693 1.282 1.645 1.960 2.326 2.676 Eks:
t-fordelingen og t-tester Målemodellen Når er kjent tester vi H0 : = 0 mot H1 : > 0 med signifikansnivå ved å påstå H1 dersom : Standardisering (med kjent ) : Standardisering (med ukjent ) : tn-1 t,n-1
t-fordelingen og t-tester Målemodellen T0 er t-fordelt når H0 er riktig, dvs for = 0. Dermed er: Sannsynligheten for å påstå H1 når H0 er riktig, er , og testen har altså signifikansnivå . Den tilsvarende t-testen med signifikansnivå for hypotesten H0 : = 0 mot H1 : < 0 er å påstå H1 dersom : tn-1 -t,n-1
t-fordeling MålemetodenMindre enn testverdiEks: Lakseoppdrett En fiskeoppdretter har et stort antall laks i et basseng. Etter planen skulle laksen på et tidspunkt nådd en gjennomsnittsvekt på 4.5 kg, men oppdretteren har mistanke om at gjennomsnittsvekten for laksen i bassenget er lavere. For å undersøke dette tar han opp 13 laks og veier dem. Målt vekt X for en tilfeldig laks fra bassenget antas å være normalfordelt med ukjent forventning og ukjent standardavvik . Målte vekter av forskjellige lakser er uavhengige variabler. Målte vekter Xi : 3.9 3.6 5.1 4.8 3.7 3.2 4.6 5.4 3.0 4.2 3.8 4.4 4.1 Hypoteser : 95% konfidensintervall : Vi påstår H1. Målingene tyder på at laksen ikke har nådd gjvekten 4.5 kg
t-fordelingUtvalgsstørrelse Målemodellen Konfidensintervallet for med sikkerhet 100(1-)% er gitt ved: Krav: Intervallet skal være der d er en gitt verdi: kjent ukjent Minste antall observasjoner n: Minste utvalgsstørrelse n avhenger av: - d Fastsatt intervall-lengde - u/2 Sikkerhet - Standardavvik
t-fordelingUtvalgsstørrelse Målemodellen Beregn antall laks som må tas opp og veies for å få et 95% konfidensintervall på formen X 0.25kg når er ukjent. Vi benytter S = 0.711 som et foreløpig estimat. Alternativt:
Tosidig test Målemodellen n målinger av : X1, X2,…, Xn Målingene er uavhengige og normalfordelte stokastiske variable med ukjent forventning og kjent varians 2. Nullhypotesen : Alternativ hypotese : Standardestimator for : Påstår H1 dersom : k : Kritisk verdi Signifikansnivået :
Tosidig test Målemodellen n målinger av : X1, X2,…, Xn Målingene er uavhengige og normalfordelte stokastiske variable med ukjent forventning og ukjent varians 2. Nullhypotesen : Alternativ hypotese : Standardestimator for : Påstår H1 dersom : Signifikansnivået :
Tosidig test MålemodellenEks:Tomatbønner En hermetikkfabrikk har en pakkemaskin som brukes til å fylle hermetikkbokser av ulike slag. Ett av produktene er bokser med tomatbønner som skal ha et netto innhold på 425 gram. Bedriften har erfaring med at nettovekten X (gram) i en tilfeldig boks kan oppfattes som en normalfordelt stokastisk variabel med forventning 0 = 425 gram og standardavvik = 5.0 gram når maskinen fungerer som den skal. Hver gang det startes opp med produksjon av hermetikkbokser med tomatbønner, gjennomføres en kontrollprosedyre som innebærer at en på grunnlag av målte nettovekter i 20 bokser tester om forventet nettovekt inneholdt i en boks fra produksjonen som pågår, er forskjellig fra 425 gram. Bedriftens kontrollproblem kan formuleres som følgende hypotesetest: H0 : = 425 H1 : 425 De målte vektene X1, X2,…, Xn av vektene i de 20 hermetikkboksene som åpnes og veies, antas å være uavhengige normalfordelte variabler med forventning og standardavvik . Som signifikansnivå for testen bruker bedriften 5%.
Tosidig test MålemodellenEks:Tomatbønner Målte vekter Xi : 423 422 423 430 426 422 426 425 432 432 434 415 421 424 420 431 423 431 426 431 Kjent standardavvik = 5.0 gram Standardestimator for : Påstår H1 dersom : Observert : Konklusjon : Kan ikke påstå H1
Tosidig test MålemodellenEks:Tomatbønner Målte vekter Xi : 423 422 423 430 426 422 426 425 432 432 434 415 421 424 420 431 423 431 426 431 Kjent standardavvik = 5.0 gram Standardestimator for : Signifikanssannsynlighet : Konklusjon : Kan ikke påstå H1
Tosidig test MålemodellenEks:Tomatbønner Målte vekter Xi : 423 422 423 430 426 422 426 425 432 432 434 415 421 424 420 431 423 431 426 431 UKjent standardavvik Standardestimator for : Påstår H1 dersom : Observert : Konklusjon : Kan ikke påstå H1 Signifikanssannsynlighet : Problematisk
Tosidig test Binomisk modellEks:Produksjonsmetode En bedrift som produserer panelplater, har erfaring for at 10% av platene må kasseres. Bedriften har nylig tatt i bruk en ny maskin og bruker nå en noe annen produksjonsmetode enn før. På grunnlag av en testproduksjon på n = 150 enheter vil bedriften teste om kasseringsprosenten er endret. Vi lar p være sannsynligheten for at en tilfeldig plate blir kassert når den nye produksjonsmetoden benyttes, og vil teste om p 0.10. Bedriftens testproblem kan formuleres som følgende hypotesetest: H0 : p = 0.10 H1 : p 0.10 Som signifikansnivå for testen bruker bedriften 5%.