1 / 43

Stikprøvefordelinger og konfidensintervaller

Stikprøvefordelinger og konfidensintervaller. Stikprøvefordelingen for middelværdi Den Centrale Grænseværdi Sætning Egenskaber Ved Estimatore Konfidensintervaller t-fordelingen.

Download Presentation

Stikprøvefordelinger og konfidensintervaller

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stikprøvefordelinger og konfidensintervaller Stikprøvefordelingen for middelværdi Den Centrale Grænseværdi Sætning Egenskaber Ved Estimatore Konfidensintervaller t-fordelingen

  2. En estimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren. Et estimat af en parameter er en bestemt numerisk værdi af en stikprøve statistik. Et punkt-estimater en enkelt værdi, der bruges som et estimat for en populations parameter. Et interval-estimat er et interval, der bruges som et estimat for en populations parameter. Estimator og estimat En populations parameterer et numerisk mål for en opsummerende karakteristik af populationen. fx fx Eksempel: er en estimator for . er et (punkt) estimat af . En stikprøve statistik er et numerisk mål for en opsummerende karakteristik af stikprøven.

  3. Populations middelværdi () Frekvens fordeling af populationen X X X X X X X X X X X X X X X X X X Stikprøve Stikprøve gennemsnit ( ) X X Populations fordeling, stikprøve, populations middelværdi og stikprøve gennemsnit. er selv en stokastisk variabel, der følger en fordeling.

  4. Stikprøve-fordeling • Antag X1,X2,…,Xn er en uafhængig stikprøve, hvor μX=E[X] og σ2X=V[X] er populationens middelværdi og varians. • Stikprøve-middelværdien er • Den forventede værdi af stikprøve-middelværdien er lig med populations-middelværdien • Variansen af stikprøve middelværdien er lig med populations variansen divideret med stikprøve-størrelsen

  5. Stikprøve-fordeling – Normalfordelt stikprøve • Hvis X normal fordelt, så er normalfordelt: • Hvilken fordeling følger , hvis stikprøven ikke er normalfordelt…?

  6. Stikprøve fordelinger Uniform population af heltal fra 1 til 8: • X P(X) XP(X) X2 P(X)X2 • 0.125 0.125 1 0.125 • 2 0.125 0.250 4 0.5 • 3 0.125 0.375 9 1.125 • 4 0.125 0.500 16 2.0 • 5 0.125 0.625 25 3.125 • 6 0.125 0.750 36 4.5 • 7 0.125 0.875 49 6.125 • 8 0.125 1.000 64 8.0 • 1.000 4.500 25.5 • V(X) = E[X2] - (E[X])2 = 25.5-4.52 = 5.25 U n i f o r m D i s t r i b u t i o n ( 1 , 8 ) 0 . 2 ) X ( 0 . 1 P 0 . 0 1 2 3 4 5 6 7 8 X E(X) =  = 4.5 V(X) = 2 = 5.25 SD(X) =  = 2.2913

  7. Der er 8*8 = 64 forskellige men lige sandsynlige stikprøver af 2 tal, man kan tage (med tilbagelægning) fra en uniform population af heltallene fra 1 til 8: Hver af disse stikprøver har et gennemsnit. For eksempel er gennemsnittet af (1,4) lig 2.5 og gennemsnittet af (8,4) er 6.0. Stikprøve fordelinger

  8. Stikpøve fordeling 0 . 1 0 ) X ( P 0 . 0 5 0 . 0 0 1 . 0 1 . 5 2 . 0 2 . 5 3 . 0 3 . 5 4 . 0 4 . 5 5 . 0 5 . 5 6 . 0 6 . 5 7 . 0 7 . 5 8 . 0 X Stikprøve fordelinger Sandsynligheds fordelingen af stikprøve middelværdien kaldes stikprøve fordelingen af stikprøve middelværdien. Stikprøve fordelingen X P(X) XP(X) X-X (X-X)2 P(X)(X-X)2 1.0 0.015625 0.015625 -3.5 12.25 0.191406 1.5 0.031250 0.046875 -3.0 9.00 0.281250 2.0 0.046875 0.093750 -2.5 6.25 0.292969 2.5 0.062500 0.156250 -2.0 4.00 0.250000 3.0 0.078125 0.234375 -1.5 2.25 0.175781 3.5 0.093750 0.328125 -1.0 1.00 0.093750 4.0 0.109375 0.437500 -0.5 0.25 0.027344 4.5 0.125000 0.562500 0.0 0.00 0.000000 5.0 0.109375 0.546875 0.5 0.25 0.027344 5.5 0.093750 0.515625 1.0 1.00 0.093750 6.0 0.078125 0.468750 1.5 2.25 0.175781 6.5 0.062500 0.406250 2.0 4.00 0.250000 7.0 0.046875 0.328125 2.5 6.25 0.292969 7.5 0.031250 0.234375 3.0 9.00 0.281250 8.0 0.015625 0.125000 3.5 12.25 0.191406 1.000000 4.500000 2.625000

  9. Ved at sammenligne populations-fordelingen og stikprøve-fordelingen af middelværdien, ser man at: Stikprøve-fordelingen er mere klokkeformet og den er symmetrisk. Begge har samme middelværdi. Stikprøve fordelingen er mere kompakt, med en mindre varians. Stikpøve-fordeling 0 . 1 0 ) X ( P 0 . 0 5 0 . 0 0 1 . 0 1 . 5 2 . 0 2 . 5 3 . 0 3 . 5 4 . 0 4 . 5 5 . 0 5 . 5 6 . 0 6 . 5 7 . 0 7 . 5 8 . 0 X Stikprøvefordeling af middelværdien U n i f o r m D i s t r i b u t i o n ( 1 , 8 ) 0 . 2 ) X ( P 0 . 1 0 . 0 1 2 3 4 5 6 7 8 X X

  10. Den centrale grænseværdi sætning (CLT) • Stikprøve fordelingen af middelværdien af en stikprøve taget fra en vilkårlig population er approksimativ normal fordelt for tilstrækkelig store n. • I andre ord: Hvis X1,…,Xn er en uafhængig stikprøve fra en vilkårlig population, så gælder hvis n er stor nok. • Jo større n er, jo tættere er stikprøve middelværdien på at følge en normal-fordeling. I praksis er n>30 nok.

  11. Normal Uniform Skewed General Population n = 2 n = 30     X X X X Eksempler: Stikprøvefordelingen for

  12. Summeopgave • Gennemsnitsløn et år efter endt cand.oecon uddannelsen: 30.000kr/md • Hvad er sandsynligheden for at 25 tilfældigt udvalgte cand.oecon’er har en gennemsnitsløn på mindre end 29.000kr/md? Antag, at standard afvigelsen er kendt og er 2.500kr/md.

  13. Populations andelen er andelen af ”succeser” i populationen: Populations og stikprøve andele • Stikprøve andelen er andelen af succeser i stikprøven: • Stikprøve andelen er et estimat af populations andelen p.

  14. Populations og stikprøve andele - fortsat • Den tilsvarende estimator er • Hvor X følger en binomial fordeling med antals parameter n og sandsynligshedparameter p, dvs. X~B(n,p). Eksempel: n=10 og p=0.40 Da X~B(5,0.4) kan vi slå op i Tabel 1 side 773 for den kumulerede binomialfordeling:

  15. Populations og stikprøve andele - fortsat • Genkald at X = X1+…+Xn , hvor Xi er et Bernoulli forsøg, hvor sandsynligheden for succes er P(Xi=1)=p. • Derfor E[Xi]=p og V[Xi]=p(1-p). • Ifølge CLT har vi (approksimativt): • Approksimationen er god, hvis bådenp og n(1-p) er større end 5. Eksempel: n=10 og p=0.40 (her er approksimationen ikke god)

  16. En central (unbiased) estimator rammer i gennemsnit målet. Central og ikke-central estimator { Bias En ikke-central (biased)estimator rammer i gennemsnit ikke målet.

  17. En effektivestimator er, gennemsnitlig set, tættest på parameteren, der estimeres. En ineffektiv estimator er, gennemsnitlig set, længere væk fra parameteren, der estimeres. Effektiv estimator En estimator er effektiv hvis den har en relativ lille varians (og standard afvigelse).

  18. Konsistens n = 100 n = 10 Konsistent og sufficient estimator En estimator er konsistent hvis sandsynligheden for at ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger.

  19. Estimatorerne • Alle de gennemgåede estimatorer er ”de bedste” i ovenfor nævnte forstand. • Se på estimatet for variansen: • Hvorfor divideres med n-1 og ikke med n? • Fordi ellers er den ikke en central estimator. • Desuden handler det også om antallet af frihedsgrader… Bemærk:

  20. Konfidens intervaller Konfidens intervaller for: Konfidens interval for middelværdi, varians kendt Konfidens interval for middelværdi, varians ukendt

  21. Konfidens intervaller • Et punkt-estimat estimerer værdien af en ukendt populations parameter ved en enkelt værdi. • Fx: Middelhøjden blandt oecon studernde . • Et konfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauet. • Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat? • Et interval estimat indeholder flere informationer, for eksempel: • Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande middelværdi μ. • Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den sande middelværdi μ.

  22. Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor • Da gælder følgende: • En 95% konfidensinterval for middelværdi Bemærk at estimatoren er er ersattet med estimatet .

  23. Mellemregninger…. 0,95 0,025 0,025

  24. Konfidens interval for middelværdi S a m p l i n g D i s t r i b u t i o n o f t h e M e a n 0 . 4 95% 0 . 3 ) x 0 . 2 ( f 0 . 1 2.5% 2.5% 0 . 0 x  x x 2.5% falder nedenfor intervallet x x x 2.5% falder over intervallet x x x x 95% falder indenfor intervallet Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. .

  25. ) x ( f x x x x x x x x x x x x x Konfidens interval for middelværdi S a m p l i n g D i s t r i b u t i o n o f t h e M e a n Approksimativt 95% af intervallerne omring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. 0 . 4 95% 0 . 3 0 . 2 0 . 1 2.5% 2.5% 0 . 0  * * x x

  26. Et (1-a)100% konfidens interval for m Vi definerer som den z-værdi, hvor sandsynligheden for at Z er højere end denne værdi, er . Kaldes også fraktilen eller den kritiske værdi. (1-α)100% kaldes konfidens-niveauet. fordeling æ ö S t a n d a r d N o r m a l a/2 > = ç ÷ P z z è ø a 0 . 4 2 æ ö a/2 < - = ç ÷ P z z 0 . 3 è ø a 2 ) æ ö z ( 0 . 2 f - < < = - a ç ÷ P z z z ( 1 ) è ø a a 2 2 0 . 1 (1-a) 100% konfidens int erval: 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z

  27. Kritiske værdier for z og konfidens-niveauer S t a n d a r d N o r m a l D i s t r i b u t i o n 0 . 4 0 . 3 ) z ( 0 . 2 f 0 . 1 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z

  28. Konfidens niveau og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger den samme stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et konfidens-interval. S t a n d a r d N o r m a l D i s t r i b u t i o n S t a n d a r d N o r m a l D i s t r i b u t i o n 0 . 4 0 . 4 0 . 3 0 . 3 ) ) z z ( ( 0 . 2 0 . 2 f f 0 . 1 0 . 1 0 . 0 0 . 0 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 Z Z

  29. S a m p l i n g D i s t r i b u t i o n o f t h e M e a n S a m p l i n g D i s t r i b u t i o n o f t h e M e a n 0 . 4 0 . 9 0 . 8 0 . 7 0 . 3 0 . 6 0 . 5 ) ) x x 0 . 2 ( ( f f 0 . 4 0 . 3 0 . 1 0 . 2 0 . 1 0 . 0 0 . 0 x x 95% konfidensinterval: n = 20 95% konfidensinterval: n = 40 Stikprøvestørrelsen og bredden af konfidens-intervallet Når man tager stikprøver fra den samme population og bruger det samme konfidens niveau, så jo større stikprøvestørrelse, n, jo smallere et konfidens interval.

  30. Eksempel på tavlen

  31. t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). Middelværdien er altid lig 0. Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. t fordelingen er fladere og har tykkere haler en standard normal fordelingen. t fordelingen går mod standard normalfordelingen nå antallet af frihedsgrader vokser. Student’s t fordeling Hvis populations standard afvigelsen, σ, erukendt, erstat σmed stikprøve standard afvigelsen, s. Hvis populationen er normal, så er: t-fordelt med (n-1) frihedsgrader (degrees of freedom). Standard normal t, df=20 t, df=10  

  32. Konfidens interval for  når  er ukendt - t fordelingen Et (1-)100% konfidens interval for  når  er ukendt (og man antager en normalfordelt population): hvor er værdien i t fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er.

  33. df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 60 1.296 1.671 2.000 2.390 2.660 120 1.289 1.658 1.980 2.358 2.617 1.282 1.645 1.960 2.326 2.576 t Fordelingen t D i s t r i b u t i o n : d f = 1 0 0 . 4 0 . 3 } } Areal = 0.10 Areal = 0.10 ) t ( 0 . 2 f 0 . 1 0 . 0 } } -1.372 1.372 0 -2.228 2.228 t Areal = 0.025 Arela = 0.025 For store frihedsgrader kan t fordelingen approksimeres ved en standard normal fordeling.

  34. Eksempel 6-2 En aktie analytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standard afvigelse på s = 3.5%. Antag en normal population og giv et 95% konfidens interval for den gennemsnitlige gevinst på denne aktie. Den kritiske værdi aft for df = (n -1) = (15 -1) = 14 og et højre halet areal påα/2 = 0.025 er: Konfidens intervallet er: df t0.100 t0.050 t0.025 t0.010 t0.005 --- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 . . . . . . . . . . . . . . . . . . 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 . . . . . . . . . . . . . . . . . .

  35. Konfidens interval for populations andelen, p, for store stikprøver

  36. Eksempel 6-4 Hvor stor en andel har udenlandske firmaer af det amerikanske marked for et eller andet produkt. En stikprøve på 100 forbrugere udtages og 34 af disse bruger det udenlandske produkt; resten bruger det amerikanske produkt. Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

  37. Konfidens interval for populations variansen: Chi i anden (2) fordelingen • Stikprøve variansen, s², er en central estimator for populations variansen σ². • Konfidens intervaller for populations variansen baseres på 2 fordelingen. • 2 fordelingen er sandsynligheds fordelingen for en sum af uafhængige kvadrerede standard normal fordelte stokastiske variable. • Middelværdien er lig med antallet af frihedsgraden, E(X)=df • Variansen er lig med to gange antallet af frihedsgrader, V(X)=2df

  38. En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre. Fordelingen er højre skæv. Fordelingen går mod normal fordelingen, når antallet af frihedsgrader vokser. 2 fordelingen C h i - S q u a r e D i s t r i b u t i o n : d f = 1 0 , d f = 3 0 , d f = 5 0 0 . 1 0 df = 10 0 . 0 9 0 . 0 8 0 . 0 7 0 . 0 6 ) df = 30 2  5 0 . 0 ( f 0 . 0 4 df = 50 0 . 0 3 0 . 0 2 0 . 0 1 0 . 0 0 0 5 0 1 0 0  2

  39. Sandsynligheder i 2fordelingen Areal i højre hale .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 Areal i venstre hale df .005 .010 .025 .050 .100 .900 .950 .975 .990 .995 1 0.0000393 0.000157 0.000982 0.000393 0.0158 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60 3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84 4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86 5 0.412 0.554 0.831 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30 13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80 16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16 19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58 20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00 21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40 22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80 23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18 24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56 25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93 26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29 27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.65 28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34 30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

  40. Konfidens interval for populations variansen Et (1-)100% konfidens interval for populations variansen * (hvis populationen er normal fordelt) er givet som: hvor er fraktilen i 2fordelingen og er fraktilen. Bemærk: Fordi 2 fordelingen er skæv, er konfidens-intervallet for populations- variansen ikke symmetrisk.

  41. Eksempel 6-5 En maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidens interval for populations variansen,2.

  42. C h i - S q u a r e D i s t r i b u t i o n : d f = 2 9 0 . 0 6 0 . 0 5 0.95 0 . 0 4 ) 2  0 . 0 3 ( f 0 . 0 2 0.025 0.025 0 . 0 1 0 . 0 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0  2 Eksempel Areal i højre hale df .995 .990 .975 .950 .900 .100 .050 .025 .010 .005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34 30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

More Related