Statistisk inferens

Statistisk inferens Dagens program • Meget kort opsamling fra sidst • Sampling distribution • z-score • Teori og opgaver • Signifikanstest

Sampling distribution

Sampling distribution Population N μ σ Stikprøve n ū s • Ved store stikprøver, n>30, ligner en sampling distribution for et gns. en normalfordeling, uanset populationens udseende. • En sampling distribution sætter os i stand til at udtale os om en populations gns., pba. en stikprøve, uanset populationens udseende. • Standardafvigelsen i en sampling distribution kaldes standard error og forkortes se.

Sandsynlighedsfordeling Hvor sandsynligt er ud-faldet af en variabel U? F.eks. P(61 km/t<U) n=1, μ=65, σ=5 σ er standardafvigelsen på U’erne omkring μ. Sampling distribution Hvor sandsynligt er ud-faldet af et gennemsnit ū? F.eks. P(61 km/t<ū) n=36, μ=65, σū=σ/√n (=se) se er standardafvigelsen på ū’ene omkring μ. estimat på σū er s/√n s er standardafvigelsen fra stikprøven Probability og sampling distribution

z-score for en variabel, U μ = 300, σ = 50, n=1 Hvad er P(240<U)? z = (U – μ) / σ z = (240 – 300) / 50 z = -60 / 50 = -1,2 P(z<-1,2) = 0,1151. z-score for et gns., ū μ = 300, s=50, n=36 Hvad er P(240<ū)? z = (ū – μ) / se se = s / √ n se = 50/√36 = 50/6 = 8,3 z = (240–300)/8,3 = -7,2 P(z<-7,2) = 0,0000. z-score

Signifikanstest Et signifikanstest er en metode, der sammenfatter data fra en stikprøve til et ”bevis” mod en hypotese. Fremgangsmåde – fem trin Forudsætninger Hypoteseformulering Beregning af en teststørrelse (test statistic), f.eks. z-score Omregning af teststørrelsen til en P-værdi Konklusion

SignifikanstestTrin 1: Forudsætninger Et signifikanstest forudsætter, at data er skabt ved simpel tilfældig udvælgelse. Andre forudsætninger kan vedrøre Stikprøvestørrelsen Populationens fordeling 7

SignifikanstestTrin 2: Hypoteseformulering En hypotese er en påstand om populationen. Typisk at et parameter har en bestemt værdi, f.eks. at μ=30. Der formuleres to hypoteser i et test. Nulhypotesen er en påstand om, at en parameter har en bestemt værdi, f.eks. μ=30. Alternativhypotesen er en påstand om, at parameteren har en anden værdi, i et eller andet område, f.eks. μ<30. 8

Signifikanstest Trin 2: Hypoteseformulering Værdien i nulhypotesen sættes til “ingen effekt” En kort skriveform for nulhypotesen er Ho Værdien i alternativhypotesen sættes til “en effekt af en vis størrelse” En kort skriveform for alternativhypotesen er Ha Alternativhypotesen er den, man håber på at få “støtte” til (ved at afvise nulhypotesen). Hypoteserne formuleres før man analyserer data!!!!!! 9

Signifikanstest Trin 2: Hypoteseformulering Nulhypotesen (H0) har formen: H0: µ = µ0 µ0 er en generel betegnelse for den værdi, vi tester Alternativhypotesen skrives Ha eller H1 og har formen: Ha: µ > µ0 (ensidet test) eller Ha: µ < µ0 (ensidet test) eller Ha: µ ≠ µ0 (tosidet test) 10

SignifikanstestTrin 3: Beregning af teststørrelsen En teststørrelse (f.eks. en z-score) angiver, hvor langt et estimat (f.eks. et gns. observeret i en stikprøve) ligger fra den værdi, der er angivet i nulhypotesen (afstanden udtrykkes som antal standard errors, se). Hvis teststørrelsen ligger langt fra den værdi, der er angivet i nulhypotesen – i alternativhypotesens retning – er gode beviser mod nulhypotesen. 11

SignifikanstestTrin 3: Beregning af teststørrelsen Teststørrelsen angiver hvor langt stikprøvens gennemsnit falder fra nul hypotesens værdi µ0, målt i antal ”standard errors”. Teststørrelsen er: 12

SignifikanstestTrin 4: Omregning til en P-værdi For at kunne bruge teststørrelsen til at vurdere “beviserne” mod nulhypotesen omregnes den til en sandsynlighed, P-værdien. P-værdien er mål for, hvor stærke “beviserne” er mod nulhypotesen, Ho Vi antager, at Ho er sand Vi opstiller Ho’s sampling distribution Vi finder teststørrelsen i Ho’s sampling distribution Vi opsummerer placeringen i form af en P-værdi. Jo mindre P er, des stærkere er beviserne mod Ho 13

SignifikanstestTrin 4: Omregning til en P-værdi Sampling distribution hvis nulhypotesen er korrekt P: Sandsynligheden for at få en teststørrelse, som er så ”ekstremt” som obser-veret, eller mere ekstremt. P kaldes også for signifi-kanssandsynligheden. Gennemsnittet i en stikprøve 14

SignifikanstestTrin 5: Konklusion Hypoteserne formuleres før man analyserer data. Signifikansniveauet, α, sættes til 0,05 eller 0,01. Konklusionen fremkommer ved at sammenholde P med α. Når vi afviser H0 siger vi at resultatet er statistisk signifikant. 15

Fremgangsmåde i et signifikanstest Antagelser Stikprøven er udtaget simpelt tilfældigt Hvis n > 30 kan normalfordelingen bruges som sampling distribution Hypoteser Nulhypotese, H0: μ = parameterværdi for ”uændret” / ingen effekt Alternativ hypotese, H1: μ ≠, <, > parameterværdi Teststørelse (test statistic) Stikprøvens estimat sml. med nulhypotesens parameterværdi μ Teststørrelsen er z-scoren, z-scoren = (ū-μ)/σū = (ū-μ) / (s/√n) P-værdi Sandsynligheden for at opnå en værdi af teststørrelsen så stor som den observerede eller større, under forudsætning af, at nulhypotesen er sand (forudsætningen skrives ofte ”under H0”) Jo mindre P er, des stærkere er beviserne mod H0 Konklusion P-værdien sammenholdes med den på forhånd valgte kritiske værdi for P og der konkluderes: H0 opretholdes eller H0 afvises.

Et it-konsulentfirma har revideret en virksomheds intranet mhp. at øge brugervenligheden. it-konsulent-firmaet har lovet, at de ansatte i gns. vil svare 7 på et spørgsmål om brugervenlighed. En undersøgelse blandt 49 ansatte viser, at de ansattes gns. på spørgsmålet er 6,6 Standardafvigelsen ifølge stikprøven er 1,9. Eksempel på hypotesetest vedr. μ

Eksempel på hypotesetest vedr. μ Forudsætninger Stikprøven er udtaget simpelt tilfældigt I den n=49 > 30 kan normalfordelingen bruges som sampling distribution Hypoteser Nulhypotese, H0: μ = 7 Alternativ hypotese, H1: μ < 7 Teststørrelse (test statistic) ū = 6,6. s = 1,9. n = 49. √49 = 7, (s/√n) =0,257 Teststørrelsen z = (ū-μ) / (s/√n) z = (6,6 - 7) / 0,257 = - 1,47 P-værdi P (-1,47 < z) = 0,070 Konklusion H0 opretholdes på et 5 % niveau

Statistisk inferens

Statistisk inferens

Presentation Transcript

Statistisk sentralbyrå Oslo 23 august 2006

Inferens fra stikprøve til population

Levek rsunders kelsene i Statistisk sentralbyr

Statistisk sentralbyrå

Statistisk processtyrning

HUNDRA ÅR MED STATISTISK ÅRSBOK

INFERENS DAN PEMERHATIAN BAHAGIAN B

Utvalgsteori og modellbasert statistisk teori

KVINDELIGE IVÆRKSÆTTERE 2011 - et statistisk portræt

Fremtidens medarbeidere i Statistisk sentralbyrå – kompetanseprofil og opplæringsbehov

KVINDELIGE IVÆRKSÆTTERE 2010 - et statistisk portræt

Statistisk Forening 11.oktober 2007

SESAMIA INFERENS Wheat Stem Borer

Kilder: Statistisk sentralbyrå og Norges Bank

KVINDELIGE IVÆRKSÆTTERE - et statistisk portræt Juli 2011

Lars Østby Statistisk sentralbyrå ssb.no/innvandring/

Rita Aanerud, Statistisk sentralbyrå

Rita Aanerud, Statistisk sentralbyrå

Virkesmarknad 2012 Statistisk Analys Timmer

Kvindelige iværksættere – Et statistisk portræt

TFY4230 Statistisk fysikk

Kilde: Statistisk sentralbyrå