160 likes | 649 Views
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl. 10.00 ved Henrik Lolle. Krydstabel, simpel 2 × 2.
E N D
Kvantitativ metode del 1Gymnasielærer-kursus forår 2007Aalborg UniversitetSammenhænge ml. variabler,styrke og signifikansTirsdag den 20. marts, kl. 10.00ved Henrik Lolle
Krydstabel, simpel 2 × 2 • Sammenhæng mellem køn og tro på Gud. Lavet i Surveybank på ISSP Religion 1998 og overført til Excel. • Der er tydeligvis en sammenhæng i stikprøven, sådan at kvinder har større tendens til at tro på Gud end mænd. • Men gælder dette også for populationen (den voksne danske befolkning)?
Statistiske test angående sammenhænge samt korrelation • Der findes et stort antal forskellige test og mål for sammenhængsstyrke til at beskrive sammenhængen mellem to variabler. • Med disse test og mål kan man sige noget om ikke blot forhold i stikprøven, men også om populationen. • De forskellige test og komprimerede sammenhængsmål er ’designet’ til forskellige typer af data (nominal, ordinal og interval/ratio). • I det følgende skal der ses på følgende test og mål: • Chi2-test • Gamma korrelationskoefficient • Pearson’s r/lineær regression
Chi2-test for uafhængighed mellem to variabler (kan ikke foretages i Nesstar) • Chi2-test for uafhængighed mellem to variabler benyttes ifm. såkaldte diskrete data, hvilket blot betyder, at de pågældende variabler kan antage et begrænset antal værdier. • Endvidere er Chi2-testen meget generelt brugbar, da der ikke gælder andre betingelser for dataene, end at de skal være diskrete. Værdierne behøver således ikke kunne rangordnes. Testen kan derfor benyttes ifm. alle typer af data, der kan præsenteres i krydstabeller (ifm. nominelle, ordinale og kategoriinddelte intervalskalerede variabler). • Chi2-testen går ud på at teste en nulhypotese om uafhængighed mellem to diskrete variable på baggrund af stikprøvedataene:Forkastes nulhypotesen, kan den alternative hypotese, der påstår, at der er sammenhæng, godtages. H0: Variablene er statistisk uafhængige i populationen HA: Variablene er statistisk afhængige i populationen
Gamma korrelationskoefficient (ikke i Nesstar) • Gamma korrelationskoefficienten kan benyttes som både signifikanstest og som styrkemål. Gamma benyttes til ordinalskalerede data, typisk ifm. variabler fra spørgeskema med svarkategorier som f.eks. meget enig, enig, hverken enig eller uenig, uenig og meget uenig. • Bemærk i øvrigt, at alle variabler, der kan antage i alt kun to forskellige værdier (såkaldt dikotome variabler) altid kan betragtes som ordinalskalerede ifm. sådanne analyser. • Gamma korrelationskoefficienten måles, som stort set alle korrelationskoefficienter, på en skala fra ÷1 til +1. Endeværdierne er perfekte sammenhænge, og 0 står for ingen rangordensmæssig sammenhæng. • Ved brug af Gamma som teststørrelse benyttes som oftest en nulhypotese, der påstår, at Gamma er lig med 0 i populationen. Hvis denne, ud fra tallene i stikprøven, kan afvises som lidet sandsynlig, kan den alternative hypotese, der påstår, at der er en sammenhæng, godtages.
Pearson’s r/lineær regression • Pearson’s r er den nok mest benyttede korrelationskoefficient overhovedet. Den er designet til intervalskalerede variabler og til såkaldte kontinuerte data (i modsætning til diskrete data), men man tillader meget ofte at slække på de formelle statistiske krav, da det er en forholdsvis ’robust’ metode (robust overfor afvigelser fra kravene). • Pearson’s r beskriver styrken af en lineær sammenhæng. Med andre ord, hvis sammenhængen ikke tilnærmelsesvist er lineær, giver det ikke mening at benytte Pearson’s r. Det er jo sjældent tilfældet i praksis, at sammenhænge er helt lineære, men igen her er der plads til at slække lidt på kravene. Scatterplots kan i nogle situationer benyttes til vurdering af, hvorvidt der er linearitet eller ej. • Pearson’s r er lig med den standardiserede regressionskoefficient i en simpel (bivariat) lineær regression. Den ikke standardiserede koefficient er blot hældningskoefficienten i den rette linje, der ud fra en bestemt beregningsmetode (Ordinary Least Squares) beskriver dataene bedst.
Beregning af Chi2-værdien? • Chi2-testen benytter de ’rå’ frekvenser samt de såkaldte ’forventede’ frekvenser i beregningen af Chi2-værdien. • De forventede frekvenser er under antagelse om uafhængighed, dvs. at de betingede procentfrekvenser er ens og lig med den marginale fordeling. • Stor uoverensstemmelse ml. observerede og forventede frekvenser i tabellen giver stor Chi2-værdi, og des større Chi2-værdi, des mere usandsynligt, givet tabellens størrelse, er det, at der ikke er sammenhæng i populationen. • I eksemplet her er den samlede uoverensstemmelse (den summerede Chi2-værdi i tabellen) lig med 17,782.
Selve Chi2-testen i Excel • I Excel findes en funktion, der pba. observerede og forventede frekvenser i en krydstabel kan foretage en Chi2-test. • Mellemresultatet, der ikke vises i Excel, er Chi2-værdien, og ud fra denne samt oplysning om tabellens antal kolonner og rækker, beregnes resultatet. • Resultatet udtrykkes ved en p-værdi (en sandsynlighed). • P-værdien udtrykker sandsynligheden for, at der bliver beregnet en Chi2-værdi mindst lige så stor som den fundne, under forudsætning af at der ikke er sammenhæng i populationen.
Chi2-værdien og Chi-fordelingen På internettet kan man finde statistikregnere, der kan beregne p-værdier på baggrund af Chi2-værdier. Af denne fremgår også selve Chi-fordelingen. Denne er dog forskellig, afhængig af antal kolonner og rækker i tabellen. Chi2-testen er den eneste af de test, vi kommer ind på her, der ikke benytter sig af normalfordelingens egenskaber. Testen er altid enkeltsidet. Des højere Chi-værdi, og givet tabellens antal af rækker og kolonner, des mindre sandsynlighed, og des større grund til at afvise nulhypo-tesen om uafhængighed (ingen sammenhæng). http://www.georgetown.edu/faculty/ballc/webtools/web_chi.html
Chi2-test via internettet På internettet findes også en regner, der kan foretage Chi2-test ud fra en kryds-tabel. Dvs. her skal man ikke engang, som i Excel, selv beregne forventede værdier. http://www.georgetown.edu/faculty/ballc/webtools/web_chi.html
Eksempel med Gamma og Pearson’s r Gamma = 0, 74Kendall tau-c = 0,61Z = 35,9 Sign.: < 0,001 Pearson’s r = 0,707Z = 46,7 Sign.: < 0,001 Beregnet fra: http://statpages.org/ordinal.html Beregnet fra Surveybanken Eksemplet viser, at man uden at gøre megen skade i hvert fald i nogle situationer vil kunne analysere ordinalskalerede variabler med Pearson’s r og altså lineær regression. Dette er dog ikke et forsvar for så uden videre at gøre dette til en vane i forskningen.
Multipel lineær regression En stor del af alderseffekten og effekten fra urbanisering forklares ved uddannelsesvariablen. At de ældre og respondenterne i ikke-urbaniserede områder er mere værdipolitisk højreorienterede, skyldes altså for en stor dels vedkommende, at disse typisk har lavere uddannelse – her udtrykt alene ved om de har ungdomsudd.