600 likes | 993 Views
Kvantitativ metode del 2 MAP efterår 2006 Lørdag den 8. december Analyse. Indhold. Datafangst Data og datakvalitet Kodning og ’kodebog’ Analysestrategi Analysemetoder Analyse af enkeltvariable/univariat analyse Bivariat analyse Kontrol og specificering (eller elaborering). Datafangst.
E N D
Kvantitativ metode del 2MAP efterår 2006Lørdag den 8. decemberAnalyse
Indhold • Datafangst • Data og datakvalitet • Kodning og ’kodebog’ • Analysestrategi • Analysemetoder • Analyse af enkeltvariable/univariat analyse • Bivariat analyse • Kontrol og specificering (eller elaborering)
Datafangst • Stikprøven liste over personer er udgangspunkt • Indsamlingsmetoder, f.eks.: • Post • Telefon • CAPI og CATI • Internet • E-mail • Rykkerprocedure • Oplæring af interviewere og andre metoder til forøgelse af svarprocent og den pålidelighed • Fortrolighed og anonymitet • Analyserammen: stikprøven minus bortfald
Data og datakvalitet • Data og datasæt, f.eks. i: • Excel • SPSS • SAS • STATA • Survey Exact • MLwiN • Kodebog, med angivelse af bl.a.: • Struktur • Variabelnavne • labels/formater • måleniveau • Bortfald • Svarprocent • Bortfaldsanalyse • vejning/poststratificering
Datamatricen i et tværsnitsdesign (her i form af spørgeskemaundersøgelse og SPSS-format) Variable Respon-denter
Variable og deres måleniveau (repetition) • En variabel er en egenskab eller karakteristik, der kan knyttes til de enkelte analyseenhederne, og som varierer mellem disse. • Til en variabel er knyttet et bestemt måleniveau. Spørgsmålet om måleniveau er vigtigt, da dette bestemmer, hvilke analysemetoder der er mulige. Normalt typologiseres måleniveauerne i: • Nominel skala (forskelle mellem kategorier) • Ordinær skala (kategorierne kan rangordnes) • Intervalskala (afstanden mellem kategorier/værdier er kendt) • Forholdstal-/ratioskala (ud over kendt afstand også et naturligt nulpunkt) • De to sidste betragtes som oftest sammenhængende. Endvidere betragter man ofte to-delte mål som en speciel type, jævnfør pensum.
1 2 3 4 5 6 8 9 Meget tilfreds Noget tilfreds Hverken eller Noget utilfreds Meget utilfreds Ved ikkeVil ikke svareIrrelevant Kodning • Sædvanligvis knytter man til hvert muligt svar i en spørgeskemaunder-søgelse en talværdi. Denne talværdi kan så fungere blot som en kode eller som en meningsfuld rang eller værdi, alt afhængig af variablens måleniveau. • I visse tilfælde benyttes selve svaret som kode/værdi – f.eks. hvis respondenten bedes notere sin indkomst i kroner. • Men i langt de fleste tilfælde bliver respondentens svar konverteret fra et kryds ud for et fortrykt svar til en talkode, som i eksemplet: Hvor tilfreds er du med folkeskole-området i din kommune?(sæt ét kryds)
1 2 3 4 5 6 8 9 Meget tilfreds Noget tilfreds Hverken eller Noget utilfreds Meget utilfreds Ved ikkeVil ikke svareIrrelevant 1 Tilfreds 2 Hverken eller 3 Utilfreds Missing Omkodning/rekodning samt beregning af nye variable • Som oftest forestår der efter endt kodning og før analysen (eller side-løbende med analysen) et større arbejde med omkodninger/rekodninger. • En af de mest hyppigt forekomne rekodninger er forening af kategorier, sådan at den nye, rekodede variabel indeholder færre kategorier end den oprindelige, som i eksemplet her: • Ud over rekodninger vil der ofte også være behov for beregninger af nye variable ud fra en eller flere eksisterende variable – f.eks ifm. dannelse af indeks/skala.
Skalaer/indeks kan forbedre såvel pålidelighed som gyldighed • Mange begreber, som f.eks. køn, alder, stilling, partistemme osv. er ret ukomplicerede at finde mål for gennem en enkelt variabel, sådan at målet bliver både pålideligt og gyldigt. • Ved mere abstrakte begreber som f.eks. depression, politisk deltagelse, demokratisk sindelag og konservatisme kan det være en stor fordel at benytte en serie af spørgsmål/variable til at indfange begrebet bedst muligt. • Ofte vil man inden den egentlige analyse af skillelinjer og årsagssammenhænge samle serien af sådanne variable til en enkelt variabel. I sin mest simple (og meget benyttede) form beregnes den nye variabel til at være lig med summen eller gennemsnittet af den serie af variable, der prøver at indfange begrebet.
Analysestrategi • Univariat analyse • Analyse ifm. dannelse af nye variable • Bivariat analyse • Elaborering samt andre typer af multivariat analyse • Opsummering og konklusion
Analysemetoder • Univariate præsentationer af fordelinger (diagrammer og frekvenstabeller). • Univariate statistiske mål (for typisk værdi og spredning). • Krydstabelanalyse med tilhørende statistiske mål. • Lineær regression, variansanalyse og kovariansanalyse. • Logistisk, multinomial og ordinal regression. • Klyngeanalyse. • Faktoranalyse. • Korrespondanceanalyse. • Etc.
Hvad bestemmer den specifikke kombination af strategi og metoder? • Problemstilling • Hypoteser • Variablenes måleniveau • Rapportens målgruppe • Vaner, tradition og evner/viden
Analyse af enkeltvariable - Frekvenstabeller • Før de egentlige analyser af sammenhænge mellem variable er det en god ide at foretage univariat analyse. • Til variable, der kan antage forholdsvis få forskellige værdier, benyttes ofte frekvenstabeller. Det drejer sig typisk om nominelt eller ordinalt skalerede variable. • Nedenstående variabel (alder) er oprindelig ratioskaleret, men er her i en omkodet (ordinalskaleret) version.
Analyse af enkeltvariable - Figurer Aldershistogram • Hvis variablen kan antage forholdsvis mange forskellige værdier, som f.eks. alder i oprindelig form, er det ofte en fordel at printe et histogram eller søjlediagram i stedet for. • Samtidigt kan i øvrigt beregnes forskellige statistiske mål. I eksemplet er beregnet gennem-snit og standardafvigelse. Også stikprøvestørrelsen fremgår.
Statistiske mål for centraltendens og spredning • Centraltendens • Gennemsnit • Median • Typisk værdi/Modus • Spredning • Modalprocent • Variationsbredde • Kvartilafvigelse • Varians (ikke nævnt i pensum) • Standardafvigelse
Statistiske skøn 95 pct. sikkerhedsinterval for gennemsnit: 95 pct. sikkerhedsinterval for andele:
Eksempel: Højere skat på el? Der er et flertal i stikprøven, der går ind for betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning, men hvordan med populationen?
Sikkerhedsinterval for andele på eksemplet med elpriser • Meningsmålingen fra Gallup, februar 2007, viser altså, at 58 pct. i en stikprøve på 1.149 personer, tilfældigt udvalgt blandt den danske befolkning på 18 år og derover, går ind for at betale mere for elektriciteten, hvis det hjælper i kampen mod den globale opvarmning. • Undersøgelsesspørgsmål: Indenfor hvilket interval ligger denne andel i populationen med 95 pct. sikkerhed (selv under den ’konservative’ antagelse, at alle ’ved ikke’-svarerne vil ende med at gå imod højere skat? • 95 pct. sikkerhedsinterval hvor indenfor populationens andel ligger: • Med 95 pct. sikkerhed ligger andelen i populationen altså over 50 pct.
Endnu et eksempel: Valgbarometer SF er ifølge valgbarometeret gået frem siden valget i 2005. Men hvordan med sikkerheden i konklusionen om at SF er gået frem i populationen? Jeg antager, at dem, der har svaret ’ved ikke’ enten ikke vil stemme eller vil fordele sig som de øvrige.
Sikkerhedsinterval for andele på eksemplet med valgbarometeret • 95 pct. sikkerhedsinterval for tilslutning til SF: Hvilket også kan skrives således: • På baggrund af barometret kan man altså med 95 pct. sikkerhed sige, at tilslutningen til SF ligger højere end ved valget i 2005. • Vær imidlertid opmærksom på, at dette er et sikkerhedsinterval, ikke en formel test for forskel fra valgets 6 pct. Når det drejer sig om andele, kan der i sjældne tilfælde forekomme forskel i konklusion, afhængigt af om man benytter sikkerhedsinterval eller formel hypotesetest.
Fordelingen af ’Tro på Gud’ betinget af vær-dien på kønsvariablen (kun ’rå’ frekvenser) Bivariat fordeling - krydstabel To enkeltvariables fordeling
Hvilke procenter skal som hovedregel angives i den bivariate fordeling? • Hvis man, som det ofte er tilfældet, kan udpege den ene variabel som den afhængige og den anden som den uafhængige, så er det standard, at vise procentfordeling af den afhængige variabel, opdelt på den uafhængige variabels værdier (forklaring følger). En sådan procentuering kaldes også for den betingede fordeling af den afhængige variabel. Her den betingede fordeling af Gudstro. • Det fremgår af den betingede fordeling, at der er sammenhæng i stikprøven: kvinder har større tendens til at tro på Gud end mænd. • Spørgsmålet er, om det også gælder for populationen som helhed.
Betingede fordelinger(betinget af værdien på kønsvariablen) Marginal fordeling/randfordeling Betingede og marginale fordelinger
Et andet eksempel med tydelig sammenhæng Jo højere uddannelse, jo mere er man uenig i, at arbejde blot er for pengenes skyld.
Eksemplet er ikke nær så let at tolke ved de ’rå’ frekvenser
Kolonneprocenter er heller ikke gode, når variablene er placeret i tabellen på denne måde
Ofte vil man bede SPSS om at printe både de rå frekvenser og en procentstørrelse ud På den måde kan man nemmere bedømme, om de forskellige betingede fordelinger kunne være opstået pga. tilfældigheder.
Man kan også nemt omstrukturere tabellen i SPSS, så den bliver mere overskuelig: Det gøres i SPSS ved først at dobbeltklikke på tabellen. Dernæst højreklikkes, og man vælge ’Pivoting Trays’. Herefter kan tabellen omstruktureres ved at flytte rundt på ’pile-firkanterne’.
Chi2-testen for uafhængighed mellem to variable • Det er tydeligt, at der i stikprøven er forskel i troen på Gud mellem mænd og kvinder. • Men kan hvor sikker kan man være på, at der også i populationen eksisterer en forskel? • Kan forskellen i stikprøven blot skyldes tilfældig skævhed i stikprøveudtrækningen?
Grundtræk i Chi2-test for uafhængighed mellem to variable • To variable er uafhængige, hvis de betingede fordelinger er ens i populationen. • Chi2-testen går ud på at teste en nul-hypotese om uafhængighed mellem to kategoriske variable på baggrund af stikprøvedataene: H0: Variablene er statistisk uafhængige HA: Variablene er statistisk afhængige
Chi2-testen benytter antal forventede og observerede værdier i beregningerne • Det forventede antal observationer i hver tabelcelle er det antal observationer, som man kunne forvente, hvis der var uafhængighed mellem variablene, og givet at de marginale fordelinger er som i tabellen. • Man ville altså ved uafhængighed forvente, at der for både mænd og kvinder gjaldt, at 43,3 pct. sagde ’nej’, mens 56,7 pct. sagde ’ja’.
Fra SPSS får man resultaterne af chi2 -testen nedenunder krydstabellen • Signifikansniveauet eller p-værdien (’p’ for probability), som er resultatet af Chi2-testen angives i dette tilfælde til 0,000 (dvs. < 0,0005). • P-værdien er sandsynligheden for, i en stikprøve med den givne størrelse, at finde mindst lige så store forskelle mellem de betingede fordelinger som i den aktuelle tabel, hvis der i popula-tionen ingen forskel er (dvs. hvis nulhypotesen er korrekt). • Her forkastes nulhypotesen, fordi hvis den var korrekt, så ville det i praksis være umuligt at trække en så skæv stikprøve blot ved tilfældigheder. • Den alternative hypotese accepteres derfor (’proof by contradiction’)
Korrelationskoefficienten Gamma • Hvis man har at gøre med rangordnede data (ordinalskalerede variable), og man samtidig har en hypotese om, at sammenhængen mellem de to variable er rangordensmæssig (monoton), bør man benytte en rang-korrelationskoefficient. • En rang-korrelationskoefficient fortæller om sammenhængens retning (fortegn) og styrke – med værdier mellem –1 og +1. Desuden benyttes en sådan koefficient ofte ifm. hypotesetest, hvor H0 lyder, at værdien af koefficienten i populationen er lig med 0. • Dikotome variable kan altid, uanset måleniveau, benyttes ifm. rangkorrelationskoefficienter • Der findes en del af disse – Kendall’s tau b og c, Sommers’ d, Spearman, Gamma osv. Der ses alene på Gamma i det følgende.
Gamma koefficientens styrke Perfekt positiv sammenhæng +1,00 Dette er én tolkning. Der er langt fra enighed om, hvordan man kan karakterisere forskellige værdier af Gamma. Stærk positiv sammenhæng +0,30 Moderat positiv sammenhæng +0,20 Svag positiv sammenhæng +0,10 Ingen nævneværdig sammenhæng 0,00 -0,10 Svag negativ sammenhæng -0,20 Moderat negativ sammenhæng -0,30 Stærk negativ sammenhæng Fra Nielsen & Kreiner (1998):SPSS. Introduktion til databehandling & statistisk analyse. Jurist- og Økonomforbundets Forlag. Perfekt negativ sammenhæng -1,00
Gamma-koefficienten viser også en stærk og statistisk signifikant sammenhæng: P-værdien tolkes substantielt på samme måde som ved Chi2-testen. Der er derfor her tale om en meget sikker sammenhæng. Eksempel på positiv sammenhæng Jo højere uddannelse, jo mere er man typisk uenig i, at man arbejder blot for at tjene penge.
Eksempel på negativ sammenhæng Jo højere værdi på urbaniseringsvariablen, jo mere tendens er der til lav værdi på variablen for tro på Gud
Lavere p-værdi for Gamma-testen, selvom det er samme krydstabel Gamma kan i visse situationer bedre ’spotte’ sammenhænge end Chi2
Læg dernæst mærke til Cramer’s V og Gamma!(Cramer’s V er baseret på Chi2) Men i nogle situationer er det omvendt! Læg i tabellen mærke til den kurveagtige sammen-hæng!
Procent-difference på ca. 20 Signifikant Gamma i forventet positiv retning Eksempel på trivariat analyse (A1) Først bivariat:
Eksempel på trivariat analyse (A2) Kontrol for egen skoleuddannelse (’Lav’ udtaget pga. pladshensyn)
Eksempel på trivariat analyse (A3) Den fulde tabelfrekvenser og rækkeprocenter
’Lokale’ Gammakoefficienter Bivariat Kontrolleret Eksempel på trivariat analyse (A4) • I tolkningen bør man se efter følgende: • Markante forskelle mellem de lokale Gamma’er (interaktion/specificerende tredje-variabel) • Markant ændring fra bivariat til kontrolleret Gamma-værd (forklaring) • Det mest afgørende i dette eksempel er ændringen fra bivariat til kontrolleret Gamma (se nærmere på næste planche!).
Trivariat: Faders uddannelse Selv- placering Egen uddannelse Denne effekt er fundet ved at se på den bivariate sammenhæng ml. Faders uddannelse og Egen uddannelse. Denne effekt er fundet ved at se på sammenhængen ml. Egen uddannelse og Selvplacering, kontrolleret for Faders uddannelse. Eksempel på trivariat analyse (A5) Grafisk illustration af sammenhænge. Her er der tale om forklaring. Bivariat: Faders uddannelse Selv- placering
Eksempel på trivariat analyse (A6) Konklusion: Effekten fra faderens uddannelse på respondentens selvplacering i samfundspyramiden er for i hvert fald langt den største part en indirekte effekt gennem respondentens egen uddannelse. Respondentens egen uddannelse er altså en mellemkommende variabel i dette tilfælde.
Eksempel på trivariat analyse (B1) Uddannelsesgrad og seksuelle relationer med andre end partner
Eksempel på trivariat analyse (B2) Kontrol for alder i tre kategorier:
Eksempel på trivariat analyse (B3) De tre lokale Gamma’er plus bivariat (’Zero-Order’) og partial Gamma (’First-Order’ fordi der er én kontrolvariabel):
Eksempel på trivariat analyse (B4) • Konklusion: • Om man helt eller delvist bifalder utroskab afhænger tilsyneladende af uddannelsesgrad, sådan at jo højere uddannelse, jo mere bifalder man typisk utroskab. • Sammenhængens styrke afhænger imidlertid af ens alder, sådan at stigende alder betyder stærkere effekt fra uddannelse. Der er altså interaktion mellem alder og uddannelse. Man kan også sige, at alder specificerer sammenhængen mellem uddannelse og synet på utroskab. • Det skal tilføjes, at ovenstående stadigvæk kun kan betragtes som en indledende analysekonklusion.
Eksempel på trivariat analyse (B5) Grafisk illustration af sammenhænge. Her er der tale om interaktion. Uddannelse Syn påutroskab Bivariat Uddannelse Syn påutroskab Trivariat Alder