1 / 31

Lektionens dele

Statistik og kvantitativ metode Sociologiuddannelsen, efterår 2005 Lektion 8, onsdag den 10. november Associationer mellem nominal- og ordinalskalerede data. Lektionens dele. Indledning – univariate og bivariate fordelinger, tabelprocentuering, variables måleniveau mm. Chi2-test.

zed
Download Presentation

Lektionens dele

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistikog kvantitativ metodeSociologiuddannelsen, efterår 2005Lektion 8, onsdag den 10. novemberAssociationer mellem nominal- og ordinalskalerede data

  2. Lektionens dele • Indledning – univariate og bivariate fordelinger, tabelprocentuering, variables måleniveau mm. • Chi2-test. • Gamma som korrelationskoefficient og hypotesetest.

  3. Fordelingen af ’Tro på Gud’ betinget af vær-dien på kønsvariablen (kun ’rå’ frekvenser) Univariate og bivariate fordelinger To enkeltvariables fordeling

  4. Hvilke procenter skal som hovedregel angives i den bivariate fordeling? ”Most bivariate analyses identify one variable as a response variable and the other variable as an explanatory variable. Then, it is standard to form the conditional distribution for the response variable, within categories of the explanatory variable.”(Agresty & Finlay, s. 251-252) Det fremgår af de betingede fordelinger af gudstro, at der er sammenhæng i stikprøven: kvinder har større tendens til at tro på Gud end mænd. Spørgsmålet er, om det også gælder for populationen som helhed.

  5. Betingede fordelinger(betinget af værdien på kønsvariablen) Betingede og marginale fordelinger Marginal fordeling(svarer til den univariate fordeling)

  6. Nominal- og ordinalskalerede data • Både nominelle og ordinale variable tilhører den gruppe, der kan kaldes for kategoriske eller diskrete variable, hvor det gælder, at de kan antage et begrænset antal faste værdier eller betegnelser. • Ved nominelle variable kan der ikke siges mere end dette, at der er forskellige kategorier. Der er således ikke nogen speciel rangorden for disse. Eksempel: • Ved ordinale variable kan de forskellige kategorier ordnes logisk i rækkefølge, sådan at den talkode, man giver de enkelte kategorier har en betydning. Eksempel:

  7. Et eksempel med tydelig monoton/rangordensmæssig sammenhæng Jo mere urbaniseret område, man bor i, jo mindre tendens er der til, at man tror på Gud. Altså negativ sammenhæng mellem urbaniseringsgrad og tro på Gud.

  8. Eksemplet er ikke nær så let at tolke ved de ’rå’ frekvenser

  9. Kolonneprocenter er heller ikke gode, når variablene er sat ind i tabellen på denne måde

  10. Ofte vil man bede SPSS om at printe både de rå frekvenser og en procentstørrelse ud På den måde kan man nemmere bedømme, om de forskellige betingede fordelinger kunne være opstået pga. tilfældigheder.

  11. Man kan også nemt omstrukturere tabellen, så den bliver mere overskuelig: Det gøres ved først at dobbeltklikke på tabellen. Dernæst højreklikkes, og man vælge ’Pivoting Trays’. Herefter kan tabellen omstruktureres ved at flytte rundt på ’pile-firkanterne’.

  12. Chi2-testen for uafhængighed mellem to variable • Det er tydeligt, at der i stikprøven er forskel i troen på Gud mellem mænd og kvinder, men det er vigtigt formelt at teste, om denne forskel også med stor sandsynlighed eksisterer i populationen, og at forskellen i stikprøven ikke blot kan skyldes en tilfældigt opstået skævhed i stikprøven. • Selvom der ikke er noget i vejen for at benytte rangordens-koefficienter som test for sammenhæng mellem to dikotome nominelle variable, vises i de følgende slides en chi2-test.

  13. Grundtræk i Chi2-test for uafhængighed mellem to variable To variable er uafhængige, hvis de betingede fordelinger er ens i populationen. Chi2-testen går ud på at teste en nul-hypotese om uafhængighed mellem to kategoriske variable på baggrund af stikprøvedataene: H0: Variablene er statistisk uafhængige (ingen sammenhæng) HA: Variablene er statistisk afhængige (sammenhæng) Chi2 -værdien er en teststørrelse på samme måde som z og t er det. Chi2 -værdien er imidlertid chi2-fordelt (se Figur 8.2 i A&F), men det gælder også her, at jo højere værdi, jo mindre p-værdi (ved samme antal frihedsgrader).

  14. Chi2-testen benytter antal forventede og observerede værdier i beregningerne • Det forventede antal observationer i hver tabelcelle er det antal observationer, som man kunne forvente, hvis der var uafhængighed mellem variablene, og givet at de marginale fordelinger er som i tabellen. • Man ville altså ved uafhængighed forvente, at der for både mænd og kvinder gjaldt, at 43,3 pct. sagde ’nej’, mens 56,7 pct. sagde ’ja’.

  15. 2) Man finder det forventede antal i hver celle under antagelse om uafhængighed således: 3) Til hver celle udregnes nu en chi2-værdi: 4) Derpå sammenlægges alle disse chi2-værdier til en samlet chi2 -værdi for tabellen: Trinnene i beregningen af p-værdien For at komme til test-statistikken (Chi2-værdien): 1) Man har som udgangspunkt antal observerede i hver celle i tabellen. 5) Til slut findes den tilhørende p-værdi, enten i chi2 -tabellen eller vha. computer.

  16. Beregning af chi2 -værdi Beregning af f0(Antal forventede i hver celle) hvor ’o’ = antal observeredeog ’e’ = antal forventede

  17. Fra SPSS får man resultaterne af chi2-testen under krydstabellen • Her findes p-værdien for chi2-testen øverst ud for ’Pearson Chi-Square’. • Især for 2x2 tabeller kommer der andre resultater ud. Fisher’s Exact Test er f.eks. for små stikprøver (uden for pensum). • Bemærkningen i parantes om at det er en ’2-sided’ test angår i øvrigt ikke chi2-testen.

  18. Nogle karakteristika ved chi2-testen • Testen angiver ikke noget om sammenhængens styrke, men kun om der statistisk set kan siges at være sammenhæng. • For at være en gyldig test kræves som minimum mere end én forventet observation i hver celle, og helst ikke mere end 20 pct. af cellerne må have mindre end fem forventede observationer. • Testen benytter ikke oplysninger om eventuel rangorden i kategorierne, hvilket i nogle tilfælde er en fordel og i andre en ulempe: • Det er en fordel i de tilfælde, hvor der enten ikke er nogen rangorden på variablenes kategorier, eller hvor sammenhængen i hvert fald ikke er rangordensmæssig. • Det er en ulempe i de tilfælde, hvor der er en rangordensmæssig sammenhæng. I det tilfælde findes der andre test-størrelser, der er stærkere.

  19. Selve Chi2-testen er ikke særlig specifik Sammenhængen er signifikant på 0,05-niveau, men kan man sige noget mere specifikt om, hvor de afgørende forskelle mellem forventede og observerede er placeret?

  20. Residualanalyse ifm. Chi2-testen • De enkelte cellers afvigelser fra det forventede antal, eller residualer (fo – fe), er vanskelige at tolke i deres rå form (ikke vist i tabel). • Residualerne er imidlertid hver for sig normalfordelte, og der kan beregnes en tilhørende standardfejl, sådan at der også til hver enkelt residual kan beregnes en såkaldt justeret, standardiseret residual (i output-tabellen kaldet ’Adjusted Residual). Der ses her efter værdier med absolut værdi på ca. 2 og derover (antal forventede skal dog samtidig helst være fem eller derover).

  21. Korrelationskoefficienten Gamma • I tilfælde af at man har at gøre med rangordnede data (ordinal-skalerede variable), og man samtidig har en hypotese om, at sammenhængen mellem de to variable er rangordensmæssig/monoton, bør man benytte en rangordens-korrelationskoefficient. • En rangordens-korrelationskoefficient fortæller om sammenhængens retning (fortegn) og styrke – med værdier mellem –1 og +1. Desuden benyttes en sådan koefficient ofte ifm. hypotesetest, hvor H0 lyder, at værdien af koefficienten i populationen er lig med 0. • Der findes en del af disse – Kendall’s tau b og c, Sommers’ d, Spearman, Gamma osv. Vi skal stort set alene se på Gamma.

  22. Jo højere uddannelse, jo højere placerer man typisk sig selv i social klasse. Gamma-koefficienten viser også en stærk sammenhæng: Eksempel på positiv sammenhæng

  23. Jo højere værdi på urbaniseringsvariablen, jo mere tendens er der til lav værdi på variablen for tro på Gud Eksempel på negativ sammenhæng

  24. Beregningen af Gamma Formlen for Gamma: hvor C er lig med antal mulige konkordante par i tabellen, og D er lig med antal mulige diskordante par i tabellen. • Et par af observationer siges at være konkordante, hvis den observation, der har højst værdi på den ene variabel, også har højst værdi på den anden. • Et par af observationer siges at være diskordante, hvis den observation, der har højst værdi på den ene variabel, har lavere værdi på den anden.

  25. Eksempel på beregning af Gamma C = 67(128+245+72)+90(245+72)+182(72) = 71.449 D = 134(90+182+104)+128(182+104)+245(104) = 112.472

  26. Sikkerhedsinterval og hypotesetest for Gamma Sikkerhedsinterval: Hypotesetest:

  27. Ved hypotesetest benyttes en lidt anderledes udregnet standardfejl – under forudsætning af at nulhypotesen er korrekt. Fra tabellen herover kan denne beregnes som: Standardfejlen for Gamma Standardfejlen er forskellig, afhængigt af om der er tale om sikkerhedsinterval eller hypotesetest (ligesom det i øvrigt er tilfældet med test for forskel i andele mellem to grupper). Ved beregning af sikkerhedsinterval benyttes ’Asymp. Std. Error’, her lig med 0,047

  28. Lavere p-værdi for Gamma-testen, selvom det er samme krydstabel Gamma kan i visse situationer bedre ’spotte’ sammenhænge

  29. Læg dernæst mærke til Cramer’s V og Gamma!(Cramer’s V er baseret på Chi2) Men i nogle situationer er det omvendt! Læg i tabellen mærke til den kurveagtige sammen-hæng!

  30. Gamma som PRE-mål (Proportional Reduction in Error) Antal par der gættes fejl uden kendskab til hvem i et par, der er kvinde, og hvem der er mand: Antal par der gættes fejl med kendskab til hvem i et par, der er kvinde, og hvem der er mand: da man så ved, at der er flest diskordante par, gættes samtlige par diskordante, og fejlgættene bliver så alle de konkordante, altså antal fejlgæt lig med 45507.

  31. Odds og Odds Ratio ved 2 × 2 tabeller Odds for at tro på Gud for mænd: Odds for at tro på Gud for kvinder: Odds ratio:

More Related