340 likes | 743 Views
Grundlæggende teoretisk statistik. Kapitel F Konfidensintervaller. Konfidensinterval. Et konfidensinterval for en populationsparameter: Middelværdien, μ Populationsandèlen, p Variansen, σ 2 Intensitèten, λ
E N D
Grundlæggende teoretisk statistik Kapitel F Konfidensintervaller
Konfidensinterval • Et konfidensinterval for en populationsparameter: • Middelværdien, μ • Populationsandèlen, p • Variansen, σ2 • Intensitèten, λ er et interval, som med en given sikkerhed (konfidens) indeholder den ukendte populationsparameter! • Konfidensintervaller baserer sig på viden om estimatorernes fordeling, middelværdi og varians • Bemærk, at der tales om konfidens – ej sandsynlighed
Præcision og Sikkerhed • Præcision eller nøjagtighed måles på intervallets bredde • Konfidens er - med vores viden om estimators fordeling - den sikkerhed vi har for at finde den ukendte populationsparameter i intervallet • Præcision og sikkerhed er modsat rettede tendenser ved given stikprøve • Vi kan imidlertid forøge både præcision og sikkerhed ved at forøge stikprøvens størrelse.
Estimatorers egenskaber (BWH side 108ø) • Forventningsrette • Forventningsværdien på estimatoren er lig populationsværdien • Præcise / Efficiente • Lille variation • Bemærk, at sammenlignet med medianen • Er mere præcis (efficient) estimator, når X er normalfordelt! • Men mindre efficient, hvis X ikke er normalfordelt • Konsistente • Ved stigende stikprøve konvergerer de mod populations-værdien
Stikprøvefordeling for • Vi udtager en stikprøve på n enheder fra en population med • populationsgennemsnit på μ • Populationsvarians på σ2 • Vi beregner gennemsnittet i stikprøven, og benævner det , som estimat for μ. • Da gennemsnittet estimerer μ, kalder vi også • er en stokastisk variabel og spørgsmålet er derfor: Hvad er • Middelværdi? • Varians / standardafvigelse? • Fordeling?
Korrektionsfaktor for store stikprøver Stikprøvefordeling for
Konfidensinterval på μ –kendt populationsvarians σ2 Stikprøve-fejlen eller Fejl-marginen
Konfidensinterval på μ -ukendt populationsvarians, σ2 • Det forudsættes fortsat, at X er normalfordelt • I mange praktiske situationer er der ingen viden om populationsvariansen • I flere situationer har vi også en lille stikprøve • Lille n og estimation af σ giver ekstra usikkerhed, som håndteres ved at anvende Student’s t-fordeling, hvis parameter v kaldes antal frihedsgrader: • v = n-1 • Student’ t-fordeling ligner Z~N(0,1), men har større varians, der dog aftager med stigende frihedsgrads-antal
(1-)% konfidensinterval på μ Opslag i t-fordeling: Eksempel ved n=10, og derfor v=n-1=9
(1-)% konfidensinterval på μ • P.g.a. den centrale grænseværdisætning, og at Students t-fordeling konvergerer mod N(0,1)
Stikprøvefordeling for • Vi udtager en stikprøve på n enheder fra en population med en andèl, p med et givet karakteristika. • Antal i stikprøven med det givne karakteristika er binomialfordelt, b(n,p) • Vi beregner stikprøveandelen , som estimat for p • er en stokastisk variabel og spørgsmålet er derfor: Hvad er dens • Middelværdi? • Varians / standardafvigelse? • Fordeling?
Konfidensinterval på populations-andèl Forudsat normal approximation er acceptabel, d.v.s. at enten np(1-p) >9 eller (np>5 og n(1-p)>5)
Stikprøvefordeling for s2 • σ2 estimeres med stikprøvevariansen: • s2 er en forventningsret estimator, E(s2)= σ2 • Variansen på s2: • Hvis X~N(μ,σ2) så er:
Stikprøvefordeling for (når X~poisson (λ)) • Estimator = • λ estimeres med gennemsnittet • E( )= λ • VAR( )= λ / n • Estimator er approximativt normalfordelt, jf. den centrale grænseværdisætning:
Konfidensinterval på poisson-parameter Forudsat normal approximation er acceptabel
Kap F - opgaver • Opgavesamling i Statistik 2009 fra Statistica: • Opgave 39-42, 44-453), 46, E152), E122) • BWH-Opgavesamling: • Opgavesæt U3 • Opgave 1 Spm 1.3 • Opgave 2 • Opgavesæt U4 • Opgave 6, 7 og 8
Sammenligning af 2 populationer • Konfidensinterval for forskel i middelværdi i 2 normalfordelte populationer • 2 afhængige stikprøver (Matched pairs) • 2 uafhængige stikprøver med kendte pop.varianser • Konfidensinterval for forskel i middelværdi i 2 normalfordelte populationer • Ukendte men enspopulationsvarianser • Ukendte men forskelligepopulationsvarianser • Konfidensinterval for forskel i populationsandèl i 2 uafhængige populationer • Konfidensinterval for populationsvarians i normalfordelt population • Bestemmelse af stikprøvestørrelse
Konfidensinterval for μD=(μE – μF) i 2 afhængige stikprøver • Bruges, når du på et givet objekt måler en Før- og en Eftersituation, f.eks. blodtryk eller puls før (F) hhv. efter (E) en given påvirkning. • Estimator for μD er den gennemsnitlige difference, idet di = xiE – xiF • Populationsdifferencen antages normalfordelt
Konf.interval for (μx – μy) i 2 uafhængige stikprøver m/ kendte pop.varianser • Estimator for (μx-μy) er • Da stikprøverne er uafhængige kan variansen på forskellen mellem de 2 stikprøvegennem-snit beregnes som summen af de 2 enkelte varianser: Fortsættes
Konf.interval for (μx – μy) i 2 uafhængige stikprøver med kendte pop.varianser • (1-α)% konfidensintervallet bliver derfor:
Konf.interval for (μx – μy) i 2 uafh. stikprøver med ukendte, men ens pop.varianser • De 2 varianser antages ens • Da stikprøverne er uafhængige kan variansen på forskellen mellem de 2 stikprøvegennem-snit beregnes som summen af de 2 enkelte varianser, hvor den fælles varians estimeres med Fortsættes
Konf.interval for (μx – μy) i 2 uafh. stik-prøver med ukendte, men ens pop.varianser • (1-α)% konfidensintervallet bliver derfor:
Konf.interval for (μx – μy) i 2 uafh. stik-prøver med ukendte, men uens pop.varianser • De 2 varianser antages forskellige • Da stikprøverne er uafhængige kan variansen på forskellen mellem de 2 stikprøvegennem-snit beregnes som summen af de 2 enkelte varianser, der begge estimeres udfra stikprøvevarianserne • Den supplerende usikkerhed, som de ukendte og uens varianser giver, kompenseres ved at t-fordelingens antal frihedsgrader justeres ned Fortsættes
Konf.interval for (μx – μy) i 2 uafh. stikprøver med ukendte, men uens pop.varianser • (1-α)% konfidensintervallet bliver derfor: Med følgende beregnede antal frihedgrader:
Konf.interval for forskel i populations-andèle i 2 uafhængige populationer • Estimator for forskellen i populationsandelen (px – py) er forskellen i stikprøveandelene hvor • Da stikprøverne er uafhængige kan varianserne på hver enkelt estimator blot lægges sammen • Begge stikprøver skal være store, da vi skal kunne approximere fra binomial- til normalfordelingen Fortsættes
Konf.interval for forskel i populations-andèle i 2 uafhængige populationer • (1-α)% konfidensintervallet bliver derfor:
Grundlæggende teoretisk statistik Kapitel M Bestemmelse af stikprøvestørrelse
Stikprøvens størrelse ved estimation på μ • Normalfordelt population med kendt varians • Stikprøven bestemmes ud fra den maksimale stikprøvefejl (fejlmargin), som man ønsker, d.v.s. den minimale nøjagtighed, der kræves!
Stikprøvens størrelse ved estima-tion på p • Binomialfordelt population med stor stikprøve • Normal approximation skal være ok • Stikprøven bestemmes igen ud fra den maksimale stikprøve-fejl, som man ønsker, d.v.s. den minimale nøjagtighed, der kræves! • Problemet er her, at variansen på vores estimator, stikprøve-andèlen beror på den ukendte populationsandèl, p: Fortsættes
Stikprøvens størrelse ved estimation på p • Stikprøvestørrelsen beregnes som før ved: • Men da p jo er ukendt kan den maksimale stikprøvestørrelse der skal udvælges for at sikre den givne nøjagtighed findes ved at se på, hvornår p*(1-p) er i sit maksimum. Det er den, når p=0,5 Fortsættes
Stikprøvens størrelse ved estima-tion på p • Den maksimale stikprøve kan derfor bestem-mes til. • Ved forudgående viden om populationsan-delens maksimale/minimale størrelse kan denne alternativt bruges