Univariate og bivariate fordelinger

Statistikog kvantitativ metodePolitik & Administration og Samfundsfag3. semester efterår 2006Lektion 8, tirsdag den 31. oktoberSammenhæng mellem to diskrete variable

Fordelingen af ’Tro på Gud’ betinget af vær-dien på kønsvariablen (kun ’rå’ frekvenser) Univariate og bivariate fordelinger To enkeltvariables fordeling

Hvilke procenter skal som hovedregel angives i den bivariate fordeling? ”Most bivariate analyses identify one variable as a response variable and the other variable as an explanatory variable. Then, it is standard to form the conditional distribution for the response variable, within categories of the explanatory variable.”(Agresty & Finlay, s. 251-252) Det fremgår af de betingede fordelinger af gudstro, at der er sammenhæng i stikprøven: kvinder har større tendens til at tro på Gud end mænd. Spørgsmålet er, om det også gælder for populationen som helhed.

Betingede fordelinger(betinget af værdien på kønsvariablen) Marginal fordeling/randfordeling Betingede og marginale fordelinger

Et andet eksempel med tydelig sammenhæng Jo mere urbaniseret område, man bor i, jo mindre tendens er der til, at man tror på Gud.

Eksemplet er ikke nær så let at tolke ved de ’rå’ frekvenser

Kolonneprocenter er heller ikke gode, når variablene er placeret i tabellen på denne måde

Ofte vil man bede SPSS om at printe både de rå frekvenser og en procentstørrelse ud På den måde kan man nemmere bedømme, om de forskellige betingede fordelinger kunne være opstået pga. tilfældigheder.

Man kan også nemt omstrukturere tabellen, så den bliver mere overskuelig: Det gøres ved først at dobbeltklikke på tabellen. Dernæst højreklikkes, og man vælge ’Pivoting Trays’. Herefter kan tabellen omstruktureres ved at flytte rundt på ’pile-firkanterne’.

Man kan selvfølgelig også vælge at præsentere sammenhængen grafisk Procent der tror på Gud

Chi2-testen for uafhængighed mellem to variable • Det er tydeligt, at der i stikprøven er forskel i troen på Gud mellem mænd og kvinder, men det er vigtigt formelt at teste, om der også i populationen med stor sandsynlighed eksisterer en forskel, dvs. om forskellen i stikprøven blot kunne skyldes tilfældig skævhed i stikprøven. • Selvom der ikke er noget i vejen for at benytte rangordens-koefficienter som test for sammenhæng mellem to dikotome nominelle variable, vises i de følgende slides en chi2-test.

Grundtræk i Chi2-test for uafhængighed mellem to variable • To variable er uafhængige, hvis de betingede fordelinger er ens i populationen. • Chi2-testen går ud på at teste en nul-hypotese om uafhængighed mellem to kategoriske variable på baggrund af stikprøvedataene: H0: Variablene er statistisk uafhængige HA: Variablene er statistisk afhængige • Chi2 -værdien er en teststørrelse på samme måde som z og t er det. Chi2 -værdien er imidlertid chi2-fordelt (se Figur 8.2 i A&F), men det gælder også her, at jo højere værdi, jo mindre p-værdi (ved samme antal frihedsgrader).

Chi2-testen benytter antal forventede og observerede værdier i beregningerne • Det forventede antal observationer i hver tabelcelle er det antal observationer, som man kunne forvente, hvis der var uafhængighed mellem variablene, og givet at de marginale fordelinger er som i tabellen. • Man ville altså ved uafhængighed forvente, at der for både mænd og kvinder gjaldt, at 43,3 pct. sagde ’nej’, mens 56,7 pct. sagde ’ja’.

2) Man finder det forventede antal i hver celle under antagelse om uafhængighed således: 3) Til hver celle udregnes nu en chi2-værdi: 4) Derpå sammenlægges alle disse chi2-værdier til en samlet chi2 -værdi for tabellen: Trinnene i beregningen af p-værdien For at komme til test-statistikken (Chi2-værdien): 1) Man har som udgangspunkt antal observerede i hver celle i tabellen. 5) Til slut findes den tilhørende p-værdi, enten i chi2 -tabellen eller vha. computer.

Beregning af chi2 -værdi Beregning af fe(Antal forventede i hver celle) hvor ’o’ = antal observeredeog ’e’ = antal forventede (Der mangler en del mellemregninger i ovenstående!)

Fra SPSS får man resultaterne af chi2-testen under krydstabellen • Her findes p-værdien for chi2-testen øverst ud for ’Pearson Chi-Square’. • Især for 2x2 tabeller kommer der andre resultater ud. Fisher’s Exact Test er f.eks. for små stikprøver (uden for pensum). • Bemærkningen i parantes om at det er en ’2-sided’ test angår i øvrigt ikke chi2-testen.

Eksempel hvor man ikke ville kunne benytte Gamma Erhvervsvariablen kan antage flere end to forskellige værdier, samtidig med at den er nominelt skaleret. Derfor kan der ikke benyttes Gamma korrelations-koefficient. Chi2 kan derimod stadigvæk benyttes.

Nogle karakteristika ved chi2-testen • Testen angiver ikke noget om sammenhængens styrke, men kun om der ser ud til at være sammenhæng eller ej. • For at være en gyldig test kræves som minimum mere end én forventet observation i hver celle, og helst ikke mere end 20 pct. af cellerne må have mindre end fem forventede observationer. • Testen benytter ikke oplysninger om eventuel rangorden i kategorierne, hvilket i nogle tilfælde er en fordel og i andre en ulempe: • Det er en fordel i de tilfælde, hvor der enten ikke er nogen rangorden på kategorierne, eller hvor sammenhængen i hvert fald ikke er rangordensmæssig. • Det er en ulempe i de tilfælde, hvor der er en rangordensmæssig sammenhæng. I det tilfælde findes der andre test-størrelser, der er stærkere.

Korrelationskoefficienten Gamma • I tilfælde af at man har at gøre med rangordnede data (ordinal-skalerede variable), og man samtidig har en hypotese om, at sammenhængen mellem de to variable er rangordensmæssig (monoton), bør man benytte en rangordens-korrelationskoefficient. • En rangordens-korrelationskoefficient fortæller om sammenhængens retning (fortegn) og styrke – med værdier mellem –1 og +1. Desuden benyttes en sådan koefficient ofte ifm. hypotesetest, hvor H0 lyder, at værdien af koefficienten i populationen er lig med 0. • Der findes en del af disse – Kendall’s tau b og c, Sommers’ d, Spearman, Gamma osv. Vi skal stort set alene se på Gamma.

Gamma koefficientens styrke Perfekt positiv sammenhæng +1,00 Stærk positiv sammenhæng +0,30 Moderat positiv sammenhæng +0,20 Svag positiv sammenhæng +0,10 Ingen nævneværdig sammenhæng 0,00 -0,10 Svag negativ sammenhæng -0,20 Moderat negativ sammenhæng -0,30 Stærk negativ sammenhæng Fra Nielsen & Kreiner (1998):SPSS. Introduktion til databehandling & statistisk analyse. Jurist- og Økonomforbundets Forlag. Perfekt negativ sammenhæng -1,00

Jo højere uddannelse, jo højere placerer man typisk sig selv i social klasse. Gamma-koefficienten viser også en stærk sammenhæng: Eksempel på positiv sammenhæng

Jo højere værdi på urbaniseringsvariablen, jo mere tendens er der til lav værdi på variablen for tro på Gud Eksempel på negativ sammenhæng

Endnu et eksempel med rangordensmæssig sammenhæng I denne krydstabel findes en meget tydelig monoton tendens, sådan at højere skoleuddannelse giver tendens til, at respondenten svarer i retning af post-materialistiske værdier. Med en rangkorrelationskoefficient som f.eks Gamma kan man i fortættet form beskrive den sammenhæng, der ses i tabellen.

SPSS-tabel med sammenhængsmål til krydstabellen – bl.a. Gamma • Gamma-værdien fortæller, at der er tale om en moderat til stærk sammenhæng mellem de to variabler. Dette er imidlertid et deskriptivt mål og angår alene stikprøvens data. Hvad gælder så for populationen? • Man kan f.eks. beregne et sikkerhedsinterval for Gamma. Ved et 95 pct. sikkerhedsinterval angives et interval, hvorom det kan siges, at Gamma i populationen med 95 pct. sikkerhed ligger indenfor. • Et sådan sikkerhedsinterval fås ved at gå ca. to standardfejl på hver side af Gamma-estimatet fra stikprøven.

Estimeret Gamma: 0,305 95 pct. sikkerhedsintervalPopulationens Gamma-værdi ligger med 95 pct. sikkerhed her inden for. Beregning af 95 pct. sikkerhedsinterval for Gamma

Hypotesetest med Gamma SPSS foretager automatisk en hypotesetest for os, hvor nulhypotesen lyder, at Gamma i populationen er lig med nul. I dette tilfælde forkastes nulhypotesen. Testen har denne form: Men vær opmærksom på, at standardfejlen ved hypotesetest er anderledes end ved beregning af sikkerhedsinterval (fremgår af note b til tabellen)! Som oftest vil forskellen dog være marginal.

Beregningen af Gamma Formlen for Gamma: hvor C er lig med antal mulige konkordante par i tabellen, og D er lig med antal mulige diskordante par i tabellen. • Konkordant par: Et par af observationer siges at være konkordant, hvis den observation, der har højst værdi på den ene variabel, også har højst værdi på den anden. • Diskordant par: Et par af observationer siges at være diskordant, hvis den observation, der har højst værdi på den ene variabel, har lavere værdi på den anden.

Eksempel på beregning af Gamma C = 67(128+245+72)+90(245+72)+182(72) = 71.449 D = 134(90+182+104)+128(182+104)+245(104) = 112.472

Lavere p-værdi for Gamma-testen, selvom det er samme krydstabel Gamma kan i visse situationer bedre ’spotte’ sammen-hænge end Chi2

Læg dernæst mærke til Cramer’s V og Gamma!(Cramer’s V er baseret på Chi2) Men i nogle situationer er det omvendt! Læg i tabellen mærke til den kurveagtige sammen-hæng!

Et lignende eksempel, blot kraftigere tendens

Der afsluttes med en række interessante komparationer mellem lande (alle med angivelse af rækkeprocenter)

I spørgeskemaet står der:Forestil Dem, at de er passager i en bil, der føres af en af Deres gode venner. De ved, at han kører for hurtigt. Han påkører en fodgænger. Deres ven beder Dem fortælle politiet, at han overholdt fartgrænsen. Har Deres ven ret til at forvente, at De bekræfter, at han overholdt fartgrænsen?

Univariate og bivariate fordelinger