Hvad er punkt- og intervalestimering?

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag3. semester 2007Lektion 5, tirsdag den 23. oktoberPunkt- og intervalestimering

Hvad er punkt- og intervalestimering? • Estimering betyder blot vurdering, skøn, anslag. Og helt overordnet drejer punkt- og intervalestimering sig om at sige noget om populationen på baggrund af en stikprøve. • Det, som man prøver at anslå i populationen, er forskellige statistikker opgjort eller beregnet ud fra stikprøven. Typisk vil det være et gennemsnit, en andel eller et effektmål (f.eks. en regressionskoefficient). • I dagens lektion vil det hovedsageligt dreje sig om gennemsnit og andele. Et punktestimat af et gennemsnit er blot det bedste, kvalificerede gæt på, hvad gennemsnittet er i populationen. Ved et intervalestimat af gennemsnittet påstår man, at med en bestemt statistisk sikkerhed vil gennemsnittet i populationen ligge mellem to bestemte punkter (tal).

Notationer vedr. gennemsnit Deskriptivstatistik(stikprøve) Punkt-estimat(stikprøve) Parameter(population) Gennemsnit Standardafvigelse Ovenstående punktestimater er ved simpel tilfældig stikprøveudtræk efficiente og uden bias (unbiased and efficient).

Sikkerhedsinterval for gennemsnit(store stikprøver, n ≥ 30) I 95 pct. af tilfældene (eller f.eks. 19 ud af 20) vil stikprøve-gennemsnittet falde inden for intervallet: hvor standardfejlen Dette betyder endvidere, at populationens gennemsnit med 95 pct. sikkerhed vil falde inden for intervallet: Man siger også, at konfidenskoefficienten er på 0,95.

Problemet er, at man ikke kender standardfejlen • Man kan ikke beregne den eksakte standardfejl, fordi man ikke kender standardafvigelsen i populationen. • Man har imidlertid et punktestimat af standardafvigelsen i populationen, nemlig stikprøvens standardafvigelse s • Når stikprøvestørrelsen er 30 eller derover, kan følgende approksimation af standardfejlen benyttes:

Sikkerhedsinterval med den approk-simerede standardfejl Efter erstatning af den korrekte standardfejl med den approksimerede bliver 95 pct. sikkerhedsintervallet som følger: Eller:

Eksempel på intervalestimering Selvplacering på envenstre-/højre skala fra 0 til 10 Hvad kan man sige om gennemsnittet i den danske befolkning pba. stikprøven her? Gennemsnittet ligger med 95 pct. sikkerhed indenfor intervallet: Eller:

Den generelle formel for sikkerhedsinterval I det foregående er vist, hvordan man kan bestemme et interval, hvor indenfor populationens gennemsnit med 95 pct. sikkerhed befinder sig. Hertil benyttedes 1,96 som z-værdi. Man bestemmer selvfølgelig selv, hvilken sikkerhed man vil udtale sig med. Men jo større sikkerhed, jo flere standardfejl skal man gå ud til hver side fra det estimerede gennemsnit – med andre ord jo større z-værdi. Den generelle formel for sikkerhedsintervallet bliver:

Sikkerhedsinterval for andele/proportioner Beregning af sikkerhedsintervaller for andele foregår på samme overordnede måde, som når der er tale om sikkerhedsintervaller for gennemsnit. Årsagen er, at en andel er en form for gennemsnit. Eksempel: Data: 0 1 1 0 1 0 0 1 1 1 Andel 1’ere: 6/10 = 0,6 Gennemsnit:

Standardfejlen kan beregnes lettere ved proportioner! Sikkerhedsinterval for andele: Hvor standardfejlen er lig med: Det, der gør beregningen nemmere, er, at standardafvigelsen kan beregnes direkte, uden at skulle se på hver eneste case.

Eksempel: Højere skat på el? Der er et flertal i stikprøven, der går ind for betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning, men hvordan med populationen?

Eksempel på beregning af sikkerhedsinterval for andele • Meningsmålingen fra Gallup, februar 2007, viser altså, at 58 pct. i en stikprøve på 1.149 personer, tilfældigt udvalgt blandt den danske befolkning på 18 år og derover, går ind for at betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning. • Undersøgelsesspørgsmål: Indenfor hvilket interval ligger denne andel i populationen med 95 pct. sikkerhed (selv under den ’konservative’ antagelse, at alle ’ved ikke’-svarerne vil ende med at gå imod højere skat? • 95 pct. sikkerhedsinterval hvor indenfor populationens andel ligger: • Med 95 pct. sikkerhed ligger andelen i populationen altså over 50 pct.

Endnu et eksempel: Valgbarometer SF er ifølge valgbarometeret gået frem siden valget i 2005. Men hvordan med sikkerheden i konklusionen om at SF er gået frem i populationen? Jeg antager, at dem, der har svaret ’ved ikke’ enten ikke vil stemme eller vil fordele sig som de øvrige.

Valgbarometer (endnu et eksempel) • 95 pct. sikkerhedsinterval for tilslutning til SF: Hvilket også kan skrives således: • På baggrund af barometret kan man altså med 95 pct. sikkerhed sige, at tilslutningen til SF ligger højere end ved valget i 2005. • Vær imidlertid opmærksom på, at dette er et sikkerhedsinterval, ikke en formel test for forskel fra valgets 6 pct., jævnfør næste lektion. Når det drejer sig om andele, kan der i sjældne tilfælde forekomme forskel i konklusion, afhængigt af om man benytter sikkerhedsinterval eller formel hypotesetest.

Bestemmelse af stikprøvestørrelse (1) • De fleste surveys har en analyseramme på mellem 1.000 og 2.000 respondenter, og dette sikrer, at andele i populationen med 95 pct. sikkerhed kan bestemmes med en sikkerhedsmargin på plus minus tre procentpoint omkring den andel, man finder i stikprøven. • Men hvordan regner man minimum stikprøvestørrelse ud på forhånd? Sikkerhedsmargenen afhænger jo af standardafvigelsens størrelse, og denne kender man ikke på forhånd! • Man kan tage ’worst case’ for standardafvigelsen, dvs. den andel hvor variansen er størst: • Den maksimale værdi af denne størrelse opnås ved en andel på 0,5.Altså

Bestemmelse af stikprøvestørrelse (2) Det minimale antal enheder i analyserammen kan nu bestemmes som: hvor B = fejlmargin (error bound) f.eks. 0,01 eller 0,03 - svarende til henholdsvis 1 og 3 pct. Hvis man derforuden på forhånd siger, at man altid vil bruge 95 pct. sikkerhedsniveau, kan man i ligningen erstatte z med 1,96.

Bestemmelse af stikprøvestørrelse (3) På lignende vis kan der bestemmes et minimum antal respondenter ved kvantitative variable. Det minimale antal bestemmes som: Det kan dog her være et problem at bestemme ’worst case’ for variansen. Men hvis man f.eks. anslår, at variablen, som man er interesseret i, er nogenlunde normalfordelt, ved man, at stort set alle observationer ligger i intervallet plus/minus tre standard-afvigelser fra gennemsnittet, og ofte kender man også nogenlunde yderværdierne i fordelingen. Standardafvigelsen antages derfor at være nogenlunde lig med variationsbredden divideret med seks. Og variansen vil være denne værdi opløftet i anden potens.

Hvad er punkt- og intervalestimering?