240 likes | 625 Views
Grundlæggende teoretisk statistik. Multinomiske modeller. Multinomiske modeller. Anvendelsesområder Goodness-of-fit test – Test på om et data-materiale passer på en given fordeling Multinomialfordelingen Binomialfordelingen Poisson-fordelingen Normalfordelingen Test på repræsentativitèt
E N D
Grundlæggende teoretisk statistik Multinomiske modeller
Multinomiske modeller • Anvendelsesområder • Goodness-of-fit test – • Test på om et data-materiale passer på en given fordeling • Multinomialfordelingen • Binomialfordelingen • Poisson-fordelingen • Normalfordelingen • Test på repræsentativitèt • Test på uafhængighed i tabeller • Test på homogenitèt i tabeller • Kategoriserede data (tabel-data)!
Multinomial fordeling • I en Binomial-fordeling er der 2 muligheder • Mærkede og Ikke-mærkede • Konstant sandsynlighed på p for at udtrække en mærket” i stikprøven på n • Antal mærkede, X ~ b(n,p) • I en Multinomial-fordeling er der mange (k) muligheder • Konstant sandsynlighed på p1, p2, p3,.., pk • Stikprøve på n • (X1, X2, X3,….Xk)~ M(n, p1, p2, p3,.., pk)
Test i multinomialfordeling • Ovenstående tabel viser antal udrykninger til brand i 2002 fra Beredskabscenter Aalborg • Er antal udrykninger til brand ligeligt fordelt over årets 12 måneder? • Vi skal altså undersøge: H0: p1= p2= p3=…….. = p12 =1/12 eller om antal udrykninger i de 12 måneder er multinomialfordelt med n=539 og alle pi=1/12
Test i multinomialfordeling • Vi beregner det forventede antal udrykninger pr. måned, hvis H0 er sand, d.v.s. 1/12 pr. måned. • samt test-statistikken, Q • hvor Husk, at alle ei≥ 5 (3 i BWH!)
Test i multinomialfordeling • Q kan nu beregnes til: • Ved f=12-1=11 frihedsgrader og 5% signifikansniveau fås den kritiske værdi til 19,68. • P-værdi / sign.sandsynligheden beregnes til 0,000002 • H0 afvises derfor, og antal udrykninger til brand er ikke ligeligt fordelt over årets 12 måneder
Multinomialfordelingstest i Bewi – 4.3a Fortsættes
Repræsentativitets-test • Test i multinomial-fordeling • Svarer din stikprøves fordeling til populationens • Sjældent en ligelig fordeling • Eksempel • En stikprøve på 120 er udtaget tilfældigt fra en virksomheds kundedatabase. Stikprøvens fordeling på kundegrupper og disses størrelse er vist i tabellen. Er stikprøven repræsentativ?
Repræsentativitetstest i Bewi-4.3a • Bemærk at andèlene i populationen skal udregnes!
Test i normalfordelingen • Tykkelsen af et produceret emne kvalitetskontrolleres for bl.a. tykkelsen. Ovenfor er vist resultatet af målingen i en stikprøve på 25 emner. • Spørgsmål: Er tykkelsen af emnet, normalfordelt: X ~ N(μ,σ2) med μ=5 mm og σ= 0,08, som er kvalitetskravet.
Test i normalfordelingen Normalfordelingen deles f.eks. op i 5 stk. 20% intervaller. Det betyder, at vi vil forvente 5 observa-tioner i hvert interval, hvilket er det minimale antal, der skal være i hver ”celle”. (BWH siger dog 3)
Test i normalfordelingen • Intervallerne bestemmes således: • Herefter tælles antal observationer op i hvert interval:
Test i normalfordelingen • Nu kan teststatistikken Q beregnes, som under H0 er chikvadrat fordelt med f = c-a-1, hvor • c er antal celler, her 5 • a er antal parametre i fordelingen der estimeres. Her estimeres der ikke nogen, men a kan være 2, hvis både μ og σ skal estimeres. • Ved et test-/signifikansniveau på α = 0,05 fås den kritiske værdi til 9,49 ved f=4 • Hvis Q er mindre end 9,49 accepteres H0 om at tykkelsen af emnet, X ~ N( 5 ; 0,0064)
Uafhængighedstest • En repræsentativ stikprøve på n=3113 personer. • Der er én forklarende, uafhængig variabel (indkomst) og én forklaret, afhængig variabel (ferieanvendelse). • Begge variable er målt på nominal skala. (Den grupperede indkomst dog her på ordinal skala) • Den simultane fordeling er en multinomialfordeling med 35 sandsynligheder Spørgsmål: Er der uafhængighedmellem ferieanvendelse og indkomst?
Uafhængighedstest • Statistisk uafhængighed vil sige at • Altså at de simultane sandsynligheder er de marginale sandsynligheder ganget sammen.
Uafhængighedstest • I eksemplet overfor er • Hvis der er uafhængighed, vil observationen X31 (fij) derfor teoretisk være lig (rækkesum x søjlesum) / n, som derfor bliver den forventede værdi (eij) i cellen, ved uafhængighed.
Uafhængighedstest • Jo større forskel der er mellem observationen, (fij) og den forventede værdi, (eij) – ved uafhængighed - i hver celle jo mere taler for afhængighed mellem de 2 variable (indkomst og ferieanvendelse) • Teststatistikken bliver • Husk, at alle Eij≥ 5 (3 i BWH)
Uafhængighedstest • Når vi derfor tester • H0: Uafhængighed mellem de 2 variable • og antager H0 er sand vil • Da r=7 og s=5 fås antal frihedsgrader =(7-1)(5-1)=24 • Ved signifikansniveau, α = 0,05 vil den kritiske værdi ved opslag i Bewi 2g, ved fraktilen 0,95 være 36,42. • Hvis Q beregnes til en værdi på minimum 36,42 forkastes H0: Uafhængighed.
Homogenitetstest • I eksemplet nedenfor er udtrukket en stikprøve af kunder fra hvert af en virksomheds 3 markedsområder. Stikprøverne er på hhv. 200, 100 og 50. Kunderne har vurderet firmaets service. • Spørgsmålet er nu om kunderne i de 3 markedsområder vurderer firmaets service ens (d.v.s. der er homogenitèt i opfattelsen). • Spørgsmålet kan imidlertid også formuleres: Er der uafhængighed mellem opfattelse af servicen og markedsområdet? • Homogenitetstesten svarer derfor til uafhængighedstesten, men der er nu tale om sammenligning af flere multinomialfordelinger!
Homogenitetstest • Hvilken andèl vil vi forvente, der svarer ”Under middel” hvis der ingen forskel er på de 3 markedsområder? • Vores bedste estimat er 96/350, altså kolonne-summen delt med den samlede stikprøve. • Hvor mange kunder vil vi så forvente der svarer ”Under middel” i hvert markedsområde: • Europa: 96/350 ud af 200 • Sydamerika: 96/350 ud af 100 • Asien: 96/350 ud af 50 • Disse størrelser svarer til de forventede værdier i uafhængighedstesten! • Beregning af de forventede værdier for opfattelsen ”Middel” og ”Over middel” sker nu på samme måde. • Teststatistikken Q beregnes nu - på samme måde som ved uafhængighedstesten!
Kapitel H - Opgaver • Opgavesamling i Statistik 2009 fra Statistica: • AØT: Opgave 58, 62, 69, E5 • BWH: U7-21, U6-34, U9-4 • Supplerende opgaver på nettet