1 / 29

Chi-i-anden Test

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller. Chi-i-anden Test. Chi-i-anden test omhandler data, der har form af antal eller frekvenser . Antag, at n observationer kan inddeles i k kategorier.

gezana
Download Presentation

Chi-i-anden Test

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

  2. Chi-i-anden Test • Chi-i-anden test omhandler data, der har form af antal eller frekvenser. • Antag, at n observationer kan inddeles i k kategorier. • LadOivære antallet af observationer, der falder i den i’te kategori. • Lad Ei være det forventede antal obser-vationeri’te kategori under antagelse af, at en given H0 hypotese er sand.

  3. Chi-i-anden Teststørrelse • Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. • Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. • Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.

  4. Chi-i-anden Test for Goodness of Fit • Vi opstiller en hypotese om at data x1,…,xn er en stikprøve fra en bestemt fordeling, fx. multinomial- eller normalfordelingen. • Vi bestemmer, hvordan hvert xi tilhører en af k kategorier. • Under antagelse af at H0 er sand udregner vi hvor mange xi’er vi forventer falder i den j’te kategori, Ej. • Via X2-teststørrelsen sammenligner vi dette med det faktiske observerede antal Oi.

  5. Goodness of Fit: Multinomial fordelingen • Multinomial fordelingen er en udvidelse af binomial fordelingen. • For multinomial fordelingen gælder • at en observation kan falde i en af k forskellig kategorier. • sandsynligheden for at en observation falder i den i’te kategori er pi. • summen af pi’erne er 1. • Konsekvens: Har vi n observationer, så er det forventede antal observationer i den i’te kategori Ei=npi.

  6. Goodness of Fit: Multinomial Nul-hypotesen og alternativ hypotesen: H0: Sandsynligheden for hændelserne H1, H2...,Hk er givet ved p1,p2,...,pk H1: Sandsynligheden for de k hændelser er ikke specificeret ved nul-hypotesen. H0: Antag ens sandsynligheder, p1= p2= p3 = p4 =0.25 og n=80 Preference Tan Brown Maroon Black Total Observed 12 40 8 20 80 Expected(np) 20 20 20 20 80 (O-E) -8 20 -12 0 0 H0 afvises på signifikansniveau 0.01.

  7. Goodness of Fit: Multinomial • SPSS: Analyze → Nonparametric Tests → Chi-square… • Hvis de ’expected counts’ er forskellige, så kan de indsættrs her

  8. Goodness of Fit: Multinomial • SPSS: • Observede og forventede ’counts’ • Teststørrelse og p-værdi

  9. P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Hypotese: Data x1,…,xn, følger en en standard normalfordeling (N(0,σ2) ). • Ide: Vi inddeler normalfordelingen i k ”bidder”. • Vi udregner sandsynligheden for at standard normalfordelt tal falder i den j’te ”bid”. • Dernæst kan vi ”genbruge” multinomal eksemplet.

  10. P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Vi anvender følgende inddeling: -1, -0.44, 0, 0.44 og 1. • Vi har da 6 kategorier: • 1. kategori: Z ≤ -1 • 2. kategori: -1 < Z ≤ -0.44 • 3. kategori: -0.44 < Z ≤ 0 • 4. kategori: 0 < Z ≤ 0.44 • 5. kategori: 0.44 < Z ≤ 1 • 6. kategori: 1 < Z • Hvad er sandsynligheden for at Z er i 5. kategori? • Det samme som P[0.44 < Z ≤ 1] = ”Areal af 5. område i figuren” = 0,1713. (Kan findes vha. tabel)

  11. P a r t i t i o n i n g t h e S t a n d a r d N o r m a l D i s t r i b u t i o n 0.1700 0.1700 0 . 4 0.1713 0.1713 0 . 3 ) z 0.1587 0.1587 0 . 2 ( f 0 . 1 z 0 . 0 1 -1 - 5 0 5 -0.44 0.44 Goodness of Fit: Normalfordeling • Vi kan bestemme sandsynligheden pifor den i’te kategori. • Vi har da 6 sandsynligheder • 1. kategori: p1 = 0,1578 • 2. kategori: p2 = 0,1713 • 3. kategori: p3 = 0,1700 • 4. kategori: p4 = 0,1700 • 5. kategori: p5 = 0,1713 • 6. kategori: p6 = 0,1578 • Har vi n observationer, forventer vi Ei=npi observationer i den i’te kategori. • Vi kan nu udregne X2 teststørrelsen.

  12. Kontingenstabeller • Hidtil: Følger en kategorisk variabel en given fordeling? • Nu: Er to kategoriske variable uafhængige? • Fx uafhængighed mellem følgende to kategoriske variable: • Jobtype (4 kategorier, Uden, Lavt-, mellem og højtlønnet) • Helbred (5 kategorier: meget dårligt til meget godt) • Værktøj: Kontingenstabeller (cross-tabs) • I en kontingenstabel er hver ”celle” et antal / frekvens.

  13. Kontingenstabeller • Kontingstabellen består af r rækker og c kolonner. • Første kategoriske variabel (Helbred)har c kategorier. • Anden kategoriske variabel (Jobtype) har r kategorier. Celle (3,4) • Oij er antallet af observationer (personer), hvor Helbred er tilhører i’te Helbreds-kategori og Jobtype j’te Jobtype.

  14. Kontingenstabel • Rier rækketotalen, dvs. totale antal observationer af Jobtype = i. • P( i ) = P( Jobtype = i ) = ”Sandsynlighed for at en tilfældig valgt person har Jobtype i” • P( i ) = Ri / n = ”antal med Jobtype = i / total antal personer”.

  15. Kontingenstabel • Cjer kolonnetotalen, dvs. totale antal observationer af Helbred = j. • P( j ) = P( Helbred = j ) = ”Sandsynlighed for at en tilfældig valgt person har Helbred=j” • P( j ) = Cj / n = ”antal med Helbred = j / total antal personer”.

  16. Test for uafhængighed • X2 teststørrelsen er dvs. en sum over alle rækker og søjler. • X2 følger approksimativt en Χ2-fordeling med (r-1)(c-1) frihedsgrader. • Eij er det forventede antal observationer i celle (i,j) under antagelse af, at H0 er sand (uafhængighed). • Hvis P( i ∩ j ) er sandsynligheden for at en tilfældig valgt person er i celle (i,j), da er Eij = n P( i ∩ j ).

  17. Kontingenstabel: Uafhængighed • Lad P( i ∩ j ) = P( Jobtype = i og Helbred = j ) • Under H0 (uafhængighed) gælder (pr definition): P( i ∩ j ) = P( i )P( j ) • Forventede frekvens er (som ved multinomial) Eij = n P( i ∩ j ) • Fra før har vi: P( i ) = Ri / n og P( j ) = Cj / n . • Dvs. Eij= n (Ri / n )( Cj / n ) = RiCj / n.

  18. Kontingenstabel: Eksempel • To kategoriske variabel: • Industry: Service eller Nonservice • Result: Profit eller Loss • SPSS: Analyze → Descriptive Statistics → Crosstabs • Forventede frekvenser og række procenter tilvælges under ’Cells’.

  19. Kontingenstabel: Eksempel • H0: Industry og Result er uafhængige • H1: Der er en sammenhæng ml Industry og Result. • For 2×2 tabeller anvendes en kontinuitets korrektion (såkaldt Yates korrektion) af teststørrelsen X2: • c=2 kolonner og r=2 rækker: (c-1)(r-1)=1 frihedsgrader. • Yates korrigeret X2 = 26,92. • Kritisk værdi: Χ20.05(1) = 3,84 • Da 29,92 > 3,84 forkaster vi H0 – dvs. vi accepterer hypotesen om, at Industry og Result er afhængige.

  20. Kontingenstabel: Eksempel • I SPSS vælges ’Chi-square’ i ’Statistics’ menuen i ’Crosstabs’. • Resultat i SPSS. Bemærk ’Continuity Correction’:

  21. Chi-i-anden Test af Andele • Hidtil: Vi har spurgt n personer og analyseret sammenhængen mellem to kategoriske variable, fx helbred og jobtype. • Nu: Er andelen af forskellige af bestemte kategorier ens for en række forskellige populationer? • Eksempler: • Er andelen der stemmer hhv, ”til venstre”, ”i midten”, ”til højre” den samme for 18-25 årige, 26-35 årige, 36-65 årige og over 65 år? • Er andelen af personer med grøn tandbørste den samme blandt hjemløse og ikke-hjemløse?

  22. Chi-i-anden Test af Andele • Fremgangsmåde: Vi bestemmer hvor mange tilfældigt udvalgte vi vil spørge i hver population (fx i hver aldersgruppe). • Dvs. vi fastlægger kolonne-totalerne. • Meget nyttig, hvis en af populationerne naturligt er meget mindre end de andre, fx hjemløse.

  23. Chi-i-anden Test af Andele • Selvom vi kolonne totalerne er fastlagte ændrer ikke ved udregning af teststørrelsen eller antal frihedsgrader!! • Vi har stadig • Hvor Eij er udregnet som før og X2 følger en Χ2 fordeling med (r-1)(c-1) frihedsgrader. • Dvs. Eij = RiCj/ n.

  24. Test af andele: Eksempel • Er andelen af skades-anmeldelser den samme i tre aldersgrupper? 100 tilfældige kunder udvalgt i hver aldersgruppe. • Forventede frekvenser: Eij = RiCj / n. • Antal frihedsgrader: (c-1)(r-1) = (3-1)(2-1) = 2 • Kritisk værdi: Χ20,05(2) = 5,99. • Teststørrelse: X2 =

  25. Uduelige piger… eller…? • Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid. • Resultat: Mænd 72,5% Kvinder 57,5% • Forskellen er statistisk signifikant!

  26. Stratificeret Analyse • Vi har også spurgte om hvilket fakultet folk har studeret ved (INS eller Samf). • Vi udfører nu analyses separat for hvert fakultet: • (Vi siger vi stratificerer efter fakultet)

  27. Simpsons Paradoks • Internt på de to fakulteter er der ingen forskel mellem mænds og kvinders gennem-førsels procent! • Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre på tid. • Mænd er lige modsat…

  28. Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 og 83% i 2007 • Vi antager de har spurgt 1000 tilfældige personer begge år. • Dvs. 860 svarede ja i 2005 og 830 i 2007. • H0 hypotese: Andelen af utrygge er den samme de to år!

  29. Flyskræk! • Da det er en 2×2 tabel bruger vi Yates korrektionen: • Kritisk værdi: Χ20,05(1) = 3,84 • Teststørrelse: X2 =

More Related