390 likes | 640 Views
Statistik Lektion 5. Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller. Stikprøvefordeling. Antag at vi vil udtale os om en populationsparameter (fx middelværdien m ) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ).
E N D
StatistikLektion 5 Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller
Stikprøvefordeling • Antag at vi vil udtale os om en populationsparameter (fx middelværdien m)på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). • Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve • Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)
Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi • Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population m. middelværdi m og varians s2. • Stikprøve-gennemsnittet af disse SV er • Den forventede værdi og varians for stikprøve-gennemsnittet er og Hvis stikprøve er lille i forhold til population
Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) • Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af nærme sig mere og mere en standard normal-fordeling. • Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.
Populations og stikprøve andele • Populations-andelen er andelen af ”succeser” i populationen: • Stikprøve-andeleni en tilfældig stikprøve er andelen af succeser i stikprøven:
Stikprøve-fordelingen af Andele • Hvis stikprøven er lille i forhold til populationen kan vi antage at antallet er succeser er binomialt med sandsynlighedsparameter p og antals parameter n: • Eksempel: n = 10 og p = 0.40 • Da X ~ B(10,0.4) kan vi slå op i Tabel 3 side 848 for den kumulerede binomialfordeling:
Stikprøve-andel: Middelværdi og Varians • Vi ved om binomial-fordelingen • Heraf følger, at middelværdien er og variansen er
Stikprøve-fordelingen af Andele • Genkald, at hvis X = X1+…+Xn , hvor Xi’erne er uafhængige Bernoulli forsøg, hvor sandsynligheden for succes er P(Xi = 1) = p, så gælder X ~ B(n,p). • Derfor m =E[Xi] = p og s2 =V[Xi] = p(1- p). • Ifølge CLT har vi (approksimativt): • Approksimationen er god, hvis np(1 -p) er større end 9.
Stikprøve-fordelingen af Andele • Eksempel: 43% af alle cand.oecon. studerende mener at et kursus i forretnings-etik er vigtig. • Vi udvælger 80 tilfældige cand.oecon studrende. Hvad er sandsynligheden for at mere end 50% mener det samme? • Vi har • Standardafvigelsen for stikprøve-andelen: • Normalfordelings-approksimationen giver
2-fordelingen [ki-i-anden] C h i - S q u a r e D i s t r i b u t i o n : d f = 1 0 , d f = 3 0 , d f = 5 0 • En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre. • Fordelingen er højreskæv. • En 2 fordeling er specificeret ved antallet af frihedsgrader. • Notation: En stokastisk variabel Y, der følger en 2 fordeling med nfrihedsgrader angives som 0 . 1 0 df = 10 0 . 0 9 0 . 0 8 0 . 0 7 0 . 0 6 ) df = 30 2 5 0 . 0 ( f 0 . 0 4 df = 50 0 . 0 3 0 . 0 2 0 . 0 1 0 . 0 0 0 5 0 1 0 0 2 • 2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.
Mere om 2 fordelingen [ny] • Hvis Y er c2-fordelt med n frihedsgrader: • Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer Da gælder
Stikprøvevariansen og dens fordeling • Stikprøve-variansenfor en tilfældig stikprøve er • Generelt gælder • Hvis populationen er normalfordelt gælder
En estimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren. Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik. Et punkt-estimater en enkelt værdi, der bruges som et estimat for en populations parameter. Et interval-estimat er et interval, der bruges som et estimat for en populations parameter. Estimator og estimat En populations parameterer et numerisk mål for en opsummerende karakteristik af populationen. fx fx Eksempel: er en estimator for . er et (punkt) estimat af . En stikprøve statistik er et numerisk mål for en opsummerende karakteristik af stikprøven.
Estimatore: Egenskaber • Lad q være en generel populations-parameter, fx m • Lad være en estimator for q, fx. • Vi vil se på tre ønskelige egenskaber for estimatore • Central • Konsistent • Effektiv
Central og ikke-central estimator • Definiton: Hvis en estimator opfylder er den central (unbiased). • Definiton: Bias En central estimator rammer i gennemsnit plet. En ikke-central (biased) estimator rammer i gennemsnit ikke plet.
Effektiv Estimator • Definiton: Antag at og er to centrale estimatore. Hvis Var( ) < Var( ), så siger vi at er en mere effektiv estimator end . En in effektiv estimator er i gennemsnit længere fra at ramme plet. En effektiv estimator er i gennemsnit tættere på at ramme plet.
n = 100 n = 10 Konsistent • En estimator er konsistent hvis sandsynligheden for at ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger.
Konfidensintervaller Konfidensintervaller generelt Konfidensintervaller for middelværdi
Konfidens-intervaller • Et punkt-estimat estimerer værdien af en ukendt populations parameter ved en enkelt værdi. • Fx: Middelhøjden blandt oecon studernde . • Et konfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauet. • Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? • Et interval estimat indeholder flere informationer, for eksempel: • Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. • Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ.
Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor • Da gælder følgende: • En 95% konfidensinterval for middelværdi Bemærk at estimatoren er er ersattet med estimatet .
Mellemregninger…. 0,95 0,025 0,025
Konfidens-interval for middelværdi S a m p l i n g D i s t r i b u t i o n o f t h e M e a n 0 . 4 95% 0 . 3 ) 0 . 2 x ( f 0 . 1 2.5% 2.5% 0 . 0 x x x 2.5% falder nedenfor intervallet x x x 2.5% falder over intervallet x x x x 95% falder indenfor intervallet Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. .
) x ( f x x x x x x x x x x x x x Konfidens-interval for middelværdi S a m p l i n g D i s t r i b u t i o n o f t h e M e a n Approksimativt 95% af intervallerne omring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. 0 . 4 95% 0 . 3 0 . 2 0 . 1 2.5% 2.5% 0 . 0 * * x x
Et (1-a)100% konfidens-interval for m Vi definerer som den z-værdi, hvor sandsynligheden for at Z er højere end denne værdi, er . Kaldes også fraktilen eller den kritiske værdi. (1-α)100% kaldes konfidens-niveauet. fordeling æ ö S t a n d a r d N o r m a l a/2 > = ç ÷ P Z z è ø a 0 . 4 2 æ ö a/2 < - = ç ÷ P Z z 0 . 3 è ø a 2 ) æ ö z ( 0 . 2 f - < < = - a ç ÷ P z Z z ( 1 ) è ø a a 2 2 0 . 1 (1-a) 100% konfidens int erval: 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z
Kritiske værdier for z og konfidens-niveauer S t a n d a r d N o r m a l D i s t r i b u t i o n 0 . 4 0 . 3 ) z ( 0 . 2 f 0 . 1 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z Bemærk:
Eksempel • Spørgsmål: Antag (1-a) = 80%. Find za/2 • Løsning: a = 0.20 og a/2 = 0.10 Vi ved F(za/2) = 1-0.1 = 0.90. • Dvs.za/2= 1.28
Konfidens niveau og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger den samme stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et konfidens-interval. S t a n d a r d N o r m a l D i s t r i b u t i o n S t a n d a r d N o r m a l D i s t r i b u t i o n 0 . 4 0 . 4 0 . 3 0 . 3 ) ) z z ( ( 0 . 2 0 . 2 f f 0 . 1 0 . 1 0 . 0 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z Z
S a m p l i n g D i s t r i b u t i o n o f t h e M e a n S a m p l i n g D i s t r i b u t i o n o f t h e M e a n 0 . 4 0 . 9 0 . 8 0 . 7 0 . 3 0 . 6 0 . 5 ) ) x x 0 . 2 ( ( f f 0 . 4 0 . 3 0 . 1 0 . 2 0 . 1 0 . 0 0 . 0 x x 95% konfidensinterval: n = 20 95% konfidensinterval: n = 40 Stikprøvestørrelsen og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger det samme konfidens niveau, så jo større stikprøvestørrelse, n, jo smallere et konfidens interval.
Student’s t fordeling • Antag populationen er normalfordelt med middelværdi m og varians s2. • Gammel viden: Hvis vi kender variansens2, så kan vi bruge: • Ny viden: Hvis vi ikke kender variansens2, så kan vi erstatte s2 med stikprøve-variansen s2: • ”følger en t-fordeling med n-1frihedsgrader”.
Student’s t fordeling • t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). • Middelværdien er altid lig 0. • Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. Standard normal t, df=20 t, df=10 • t fordelingen er fladere og har ”tykkere haler” en standard normal fordelingen. • t fordelingen går mod standard normalfordelingen nå antallet af frihedsgrader vokser.
Konfidens interval for når er ukendt - t fordelingen Et (1-a)100% konfidens interval for m når s er ukendt (og man antager en normalfordelt population): hvor er værdien i t fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er
df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 60 1.296 1.671 2.000 2.390 2.660 120 1.289 1.658 1.980 2.358 2.617 1.282 1.645 1.960 2.326 2.576 Tabel fort-fordelingen a/2 ta/2 For store frihedsgrader kan t fordelingen approksimeres ved en standard normal fordeling.
Eksempel En aktie analytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standard afvigelse på s = 3.5%. Antag en normal population og giv et 95% konfidens interval for den gennemsnitlige gevinst på denne aktie. Den kritiske værdi aft for df = (n -1) = (15 -1) = 14 og et højre halet areal påα/2 = 0.025 er: Konfidens intervallet er: df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 . . . . . . . . . . . . . . . . . . 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 . . . . . . . . . . . . . . . . . .
R Commander • Man kan slå ta/2 op i R Commander: • Distributions → Continuous distributions → t distribution → t quantiles • Indsæt værdien af a/2 i ‘Probabilities’ • Indsæt antal frihedsgrader i ’Degrees of freedom’ • Vælg ’Upper tail’ • Resultat:
Konfidensintervaller for Middelværdien i R Commander • R Commander har kun en indbygget funktion til at beregne konfidensintervallet for m under antagelse af ukendt varians: • Statistics → Means → Single-sample t-test… • Derefter skal i vælge den variabel I vil finde konfidens-interval for samt på hvilket konfidens-niveau. • Eksempel: 95% konfidens interval for højde i Sundby95: