290 likes | 672 Views
Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller. Chi-i-anden Test. Chi-i-anden test omhandler data, der har form af antal eller frekvenser . Antag, at n observationer kan inddeles i k kategorier.
E N D
Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Chi-i-anden Test • Chi-i-anden test omhandler data, der har form af antal eller frekvenser. • Antag, at n observationer kan inddeles i k kategorier. • LadOivære antallet af observationer, der falder i den i’te kategori. • Lad Ei være det forventede antal obser-vationeri’te kategori under antagelse af, at en given H0 hypotese er sand.
Chi-i-anden Teststørrelse • Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. • Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. • Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.
Chi-i-anden Test for Goodness of Fit • Vi opstiller en hypotese om at data x1,…,xn er en stikprøve fra en bestemt fordeling, fx. multinomial- eller normalfordelingen. • Vi bestemmer, hvordan hvert xi tilhører en af k kategorier. • Under antagelse af at H0 er sand udregner vi hvor mange xi’er vi forventer falder i den j’te kategori, Ej. • Via X2-teststørrelsen sammenligner vi dette med det faktiske observerede antal Oi.
Goodness of Fit: Multinomial fordelingen • Multinomial fordelingen er en udvidelse af binomial fordelingen. • For multinomial fordelingen gælder • at en observation kan falde i en af k forskellig kategorier. • sandsynligheden for at en observation falder i den i’te kategori er pi. • summen af pi’erne er 1. • Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i’te kategori Ei=npi.
Goodness of Fit: Multinomial Nul-hypotesen og alternativ hypotesen: H0: Sandsynligheden for hændelserne H1, H2...,Hk er givet ved p1,p2,...,pk H1: Sandsynligheden for de k hændelser er ikke specificeret ved nul-hypotesen. H0: Antag ens sandsynligheder, p1= p2= p3 = p4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed 12 40 8 20 80 Expected(np) 20 20 20 20 80 (O-E) -8 20 -12 0 0 H0 afvises på signifikansniveau 0.01.
Goodness of Fit: Multinomial • SPSS: Analyze → Nonparametric Tests → Chi-square… • Hvis de ’expected counts’ er forskellige, så kan de indsættrs her
Goodness of Fit: Multinomial • SPSS: • Observede og forventede ’counts’ • Teststørrelse og p-værdi
P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Hypotese: Data x1,…,xn, følger en en standard normalfordeling (N(0,σ2) ). • Ide: Vi inddeler normalfordelingen i k ”bidder”. • Vi udregner sandsynligheden for at standard normalfordelt tal falder i den j’te ”bid”. • Dernæst kan vi ”genbruge” multinomal eksemplet.
P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Vi anvender følgende inddeling: -1, -0.44, 0, 0.44 og 1. • Vi har da 6 kategorier: • 1. kategori: Z ≤ -1 • 2. kategori: -1 < Z ≤ -0.44 • 3. kategori: -0.44 < Z ≤ 0 • 4. kategori: 0 < Z ≤ 0.44 • 5. kategori: 0.44 < Z ≤ 1 • 6. kategori: 1 < Z • Hvad er sandsynligheden for at Z er i 5. kategori? • Det samme som P[0.44 < Z ≤ 1] = ”Areal af 5. område i figuren” = 0,1713. (Kan findes vha. tabel)
P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Vi kan bestemme sandsynligheden pifor den i’te kategori. • Vi har da 6 sandsynligheder • 1. kategori: p1 = 0,1578 • 2. kategori: p2 = 0,1713 • 3. kategori: p3 = 0,1700 • 4. kategori: p4 = 0,1700 • 5. kategori: p5 = 0,1713 • 6. kategori: p6 = 0,1578 • Har vi n observationer, forventer vi Ei=npi observationer i den i’te kategori. • Vi kan nu udregne X2 teststørrelsen.
Kontingenstabeller • Hidtil: Følger en kategorisk variabel en given fordeling? • Nu: Er to kategoriske variable uafhængige? • Fx uafhængighed mellem følgende to kategoriske variable: • Jobtype (4 kategorier, Uden, Lavt-, mellem og højtlønnet) • Helbred (5 kategorier: meget dårligt til meget godt) • Værktøj: Kontingenstabeller (cross-tabs) • I en kontingenstabel er hver ”celle” et antal / frekvens.
Kontingenstabeller • Kontingstabellen består af r rækker og c kolonner. • Første kategoriske variabel (Helbred)har c kategorier. • Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) • Oij er antallet af observationer (personer), hvor Helbred er tilhører i’te Helbreds-kategori og Jobtype j’te Jobtype.
Kontingenstabel • Rier rækketotalen, dvs. totale antal observationer af Jobtype = i. • P( i ) = P( Jobtype = i ) = ”Sandsynlighed for at en tilfældig valgt person har Jobtype i” • P( i ) = Ri / n = ”antal med Jobtype = i / total antal personer”.
Kontingenstabel • Cjer kolonnetotalen, dvs. totale antal observationer af Helbred = j. • P( j ) = P( Helbred = j ) = ”Sandsynlighed for at en tilfældig valgt person har Helbred=j” • P( j ) = Cj / n = ”antal med Helbred = j / total antal personer”.
Test for uafhængighed • X2 teststørrelsen er dvs. en sum over alle rækker og søjler. • X2 følger approksimativt en Χ2-fordeling med (r-1)(c-1) frihedsgrader. • Eij er det forventede antal observationer i celle (i,j) under antagelse af, at H0 er sand (uafhængighed). • Hvis P( i ∩ j ) er sandsynligheden for at en tilfældig valgt person er i celle (i,j), da er Eij = n P( i ∩ j ).
Kontingenstabel: Uafhængighed • Lad P( i ∩ j ) = P( Jobtype = i og Helbred = j ) • Under H0 (uafhængighed) gælder (pr definition): P( i ∩ j ) = P( i )P( j ) • Forventede frekvens er (som ved multinomial) Eij = n P( i ∩ j ) • Fra før har vi: P( i ) = Ri / n og P( j ) = Cj / n . • Dvs. Eij= n (Ri / n )( Cj / n ) = RiCj / n.
Kontingenstabel: Eksempel • To kategoriske variabel: • Industry: Service eller Nonservice • Result: Profit eller Loss • SPSS: Analyze → Descriptive Statistics → Crosstabs • Forventede frekvenser og række procenter tilvælges under ’Cells’.
Kontingenstabel: Eksempel • H0: Industry og Result er uafhængige • H1: Der er en sammenhæng ml Industry og Result. • For 2×2 tabeller anvendes en kontinuitets korrektion (såkaldt Yates korrektion) af teststørrelsen X2: • c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. • Yates korrigeret X2 = 26,92. • Kritisk værdi: Χ20.05(1) = 3,84 • Da 29,92 > 3,84 forkaster vi H0 – dvs. vi accepterer hypotesen om, at Industry og Result er afhængige.
Kontingenstabel: Eksempel • I SPSS vælges ’Chi-square’ i ’Statistics’ menuen i ’Crosstabs’. • Resultat i SPSS. Bemærk ’Continuity Correction’:
Chi-i-anden Test af Andele • Hidtil: Vi har spurgt n personer og analyseret sammenhængen mellem to kategoriske variable, fx helbred og jobtype. • Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer? • Eksempler: • Er andelen der stemmer hhv, ”til venstre”, ”i midten”, ”til højre” den samme for 18-25 årige, 26-35 årige, 36-65 årige og over 65 år? • Er andelen af personer med grøn tandbørste den samme blandt hjemløse og ikke-hjemløse?
Chi-i-anden Test af Andele • Fremgangsmåde: Vi bestemmer hvor mange tilfældigt udvalgte vi vil spørge i hver population (fx i hver aldersgruppe). • Dvs. vi fastlægger kolonne-totalerne. • Meget nyttig, hvis en af populationerne naturligt er meget mindre end de andre, fx hjemløse.
Chi-i-anden Test af Andele • Selvom vi kolonne totalerne er fastlagte ændrer ikke ved udregning af teststørrelsen eller antal frihedsgrader!! • Vi har stadig • Hvor Eij er udregnet som før og X2 følger en Χ2 fordeling med (r-1)(c-1) frihedsgrader. • Dvs. Eij = RiCj/ n.
Test af andele: Eksempel • Er andelen af skades-anmeldelser den samme i tre aldersgrupper? 100 tilfældige kunder udvalgt i hver aldersgruppe. • Forventede frekvenser: Eij = RiCj / n. • Antal frihedsgrader: (c-1)(r-1) = (3-1)(2-1) = 2 • Kritisk værdi: Χ20,05(2) = 5,99. • Teststørrelse: X2 =
Uduelige piger… eller…? • Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid. • Resultat: Mænd 72,5% Kvinder 57,5% • Forskellen er statistisk signifikant!
Stratificeret Analyse • Vi har også spurgte om hvilket fakultet folk har studeret ved (INS eller Samf). • Vi udfører nu analyses separat for hvert fakultet: • (Vi siger vi stratificerer efter fakultet)
Simpsons Paradoks • Internt på de to fakulteter er der ingen forskel mellem mænds og kvinders gennem-førsels procent! • Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre på tid. • Mænd er lige modsat…
Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 og 83% i 2007 • Vi antager de har spurgt 1000 tilfældige personer begge år. • Dvs. 860 svarede ja i 2005 og 830 i 2007. • H0 hypotese: Andelen af utrygge er den samme de to år!
Flyskræk! • Da det er en 2×2 tabel bruger vi Yates korrektionen: • Kritisk værdi: Χ20,05(1) = 3,84 • Teststørrelse: X2 =