1 / 23

Grundlæggende teoretisk statistik

Grundlæggende teoretisk statistik. Multinomiske modeller. Multinomiske modeller. Anvendelsesområder Goodness-of-fit test – Test på om et data-materiale passer på en given fordeling Multinomialfordelingen Binomialfordelingen Poisson-fordelingen Normalfordelingen Test på repræsentativitèt

garren
Download Presentation

Grundlæggende teoretisk statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Grundlæggende teoretisk statistik Multinomiske modeller

  2. Multinomiske modeller • Anvendelsesområder • Goodness-of-fit test – • Test på om et data-materiale passer på en given fordeling • Multinomialfordelingen • Binomialfordelingen • Poisson-fordelingen • Normalfordelingen • Test på repræsentativitèt • Test på uafhængighed i tabeller • Test på homogenitèt i tabeller • Kategoriserede data (tabel-data)!

  3. Multinomial fordeling • I en Binomial-fordeling er der 2 muligheder • Mærkede og Ikke-mærkede • Konstant sandsynlighed på p for at udtrække en mærket” i stikprøven på n • Antal mærkede, X ~ b(n,p) • I en Multinomial-fordeling er der mange (k) muligheder • Konstant sandsynlighed på p1, p2, p3,.., pk • Stikprøve på n • (X1, X2, X3,….Xk)~ M(n, p1, p2, p3,.., pk)

  4. Test i multinomialfordeling • Ovenstående tabel viser antal udrykninger til brand i 2002 fra Beredskabscenter Aalborg • Er antal udrykninger til brand ligeligt fordelt over årets 12 måneder? • Vi skal altså undersøge: H0: p1= p2= p3=…….. = p12 =1/12 eller om antal udrykninger i de 12 måneder er multinomialfordelt med n=539 og alle pi=1/12

  5. Test i multinomialfordeling • Vi beregner det forventede antal udrykninger pr. måned, hvis H0 er sand, d.v.s. 1/12 pr. måned. • samt test-statistikken, Q • hvor Husk, at alle ei≥ 5 (3 i BWH!)

  6. Test i multinomialfordeling • Q kan nu beregnes til: • Ved f=12-1=11 frihedsgrader og 5% signifikansniveau fås den kritiske værdi til 19,68. • P-værdi / sign.sandsynligheden beregnes til 0,000002 • H0 afvises derfor, og antal udrykninger til brand er ikke ligeligt fordelt over årets 12 måneder

  7. Multinomialfordelingstest i Bewi – 4.3a Fortsættes

  8. Multinomialfordelingstest i Bewi

  9. Repræsentativitets-test • Test i multinomial-fordeling • Svarer din stikprøves fordeling til populationens • Sjældent en ligelig fordeling • Eksempel • En stikprøve på 120 er udtaget tilfældigt fra en virksomheds kundedatabase. Stikprøvens fordeling på kundegrupper og disses størrelse er vist i tabellen. Er stikprøven repræsentativ?

  10. Repræsentativitets test

  11. Repræsentativitetstest i Bewi-4.3a • Bemærk at andèlene i populationen skal udregnes!

  12. Test i normalfordelingen • Tykkelsen af et produceret emne kvalitetskontrolleres for bl.a. tykkelsen. Ovenfor er vist resultatet af målingen i en stikprøve på 25 emner. • Spørgsmål: Er tykkelsen af emnet, normalfordelt: X ~ N(μ,σ2) med μ=5 mm og σ= 0,08, som er kvalitetskravet.

  13. Test i normalfordelingen Normalfordelingen deles f.eks. op i 5 stk. 20% intervaller. Det betyder, at vi vil forvente 5 observa-tioner i hvert interval, hvilket er det minimale antal, der skal være i hver ”celle”. (BWH siger dog 3)

  14. Test i normalfordelingen • Intervallerne bestemmes således: • Herefter tælles antal observationer op i hvert interval:

  15. Test i normalfordelingen • Nu kan teststatistikken Q beregnes, som under H0 er chikvadrat fordelt med f = c-a-1, hvor • c er antal celler, her 5 • a er antal parametre i fordelingen der estimeres. Her estimeres der ikke nogen, men a kan være 2, hvis både μ og σ skal estimeres. • Ved et test-/signifikansniveau på α = 0,05 fås den kritiske værdi til 9,49 ved f=4 • Hvis Q er mindre end 9,49 accepteres H0 om at tykkelsen af emnet, X ~ N( 5 ; 0,0064)

  16. Uafhængighedstest • En repræsentativ stikprøve på n=3113 personer. • Der er én forklarende, uafhængig variabel (indkomst) og én forklaret, afhængig variabel (ferieanvendelse). • Begge variable er målt på nominal skala. (Den grupperede indkomst dog her på ordinal skala) • Den simultane fordeling er en multinomialfordeling med 35 sandsynligheder Spørgsmål: Er der uafhængighedmellem ferieanvendelse og indkomst?

  17. Uafhængighedstest • Statistisk uafhængighed vil sige at • Altså at de simultane sandsynligheder er de marginale sandsynligheder ganget sammen.

  18. Uafhængighedstest • I eksemplet overfor er • Hvis der er uafhængighed, vil observationen X31 (fij) derfor teoretisk være lig (rækkesum x søjlesum) / n, som derfor bliver den forventede værdi (eij) i cellen, ved uafhængighed.

  19. Uafhængighedstest • Jo større forskel der er mellem observationen, (fij) og den forventede værdi, (eij) – ved uafhængighed - i hver celle jo mere taler for afhængighed mellem de 2 variable (indkomst og ferieanvendelse) • Teststatistikken bliver • Husk, at alle Eij≥ 5 (3 i BWH)

  20. Uafhængighedstest • Når vi derfor tester • H0: Uafhængighed mellem de 2 variable • og antager H0 er sand vil • Da r=7 og s=5 fås antal frihedsgrader =(7-1)(5-1)=24 • Ved signifikansniveau, α = 0,05 vil den kritiske værdi ved opslag i Bewi 2g, ved fraktilen 0,95 være 36,42. • Hvis Q beregnes til en værdi på minimum 36,42 forkastes H0: Uafhængighed.

  21. Homogenitetstest • I eksemplet nedenfor er udtrukket en stikprøve af kunder fra hvert af en virksomheds 3 markedsområder. Stikprøverne er på hhv. 200, 100 og 50. Kunderne har vurderet firmaets service. • Spørgsmålet er nu om kunderne i de 3 markedsområder vurderer firmaets service ens (d.v.s. der er homogenitèt i opfattelsen). • Spørgsmålet kan imidlertid også formuleres: Er der uafhængighed mellem opfattelse af servicen og markedsområdet? • Homogenitetstesten svarer derfor til uafhængighedstesten, men der er nu tale om sammenligning af flere multinomialfordelinger!

  22. Homogenitetstest • Hvilken andèl vil vi forvente, der svarer ”Under middel” hvis der ingen forskel er på de 3 markedsområder? • Vores bedste estimat er 96/350, altså kolonne-summen delt med den samlede stikprøve. • Hvor mange kunder vil vi så forvente der svarer ”Under middel” i hvert markedsområde: • Europa: 96/350 ud af 200 • Sydamerika: 96/350 ud af 100 • Asien: 96/350 ud af 50 • Disse størrelser svarer til de forventede værdier i uafhængighedstesten! • Beregning af de forventede værdier for opfattelsen ”Middel” og ”Over middel” sker nu på samme måde. • Teststatistikken Q beregnes nu - på samme måde som ved uafhængighedstesten!

  23. Kapitel H - Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • AØT: Opgave 58, 62, 69, E5 • BWH: U7-21, U6-34, U9-4 • Supplerende opgaver på nettet

More Related