320 likes | 560 Views
Statistik og kvantitativ metode Politik/Administration og Samfundsfag 3. semester efterår 2004 Lektion 11, mandag den 3. november Indekskonstruktion (Lektion 10 ifølge pensumplan inden ændring). Hvorfor lave sammensatte mål?.
E N D
Statistikog kvantitativ metodePolitik/Administration og Samfundsfag3. semester efterår 2004Lektion 11, mandag den 3. novemberIndekskonstruktion(Lektion 10 ifølge pensumplan inden ændring)
Hvorfor lave sammensatte mål? Ved mere komplekse og abstrakte begreber som f.eks. tillid til politikere, politisk selvtillid, moral i familien, servicetilfredshed, social klasse osv, dannes ofte mål, der er sammensat af en serie variable. De vigtigste grunde til at lave sådanne sammensatte mål er: • Forbedring af validiteten: et enkelt aspekt i form af en enkelt variabel er som oftest ikke tilstrækkeligt til at indfange et komplekst begreb. • Forbedring af reliabiliteten: lidt på samme måde som et stikprøvegennemsnit rammer mere effektivt end en enkelt observation, rammer et sammensat mål mere effektivt end et enkelt. • Simplificering af analysefasen: i stedet for at skulle analysere på en serie variable, kan man nøjes med at analysere på en enkelt, nemlig det sammensatte mål.
Forskellige typer af sammensatte mål I pensum behandles stort set kun såkaldt ’refleksive indeks/skalaer’. Der findes imidlertid andre vigtige typer af sammensatte mål. En grov opdeling kunne f.eks. give følgende tre hovedtyper: • Typologier • Formative indeks • Refleksive indeks
Refleksive indeks Et refleksivt indeks dannes af en serie indikatorer, der kan kaldes for ’effekt’-indikatorer, fordi de tænkes at være effekter af en bagvedliggende (ofte kaldet ’latent’) variabel: Den latente og ikke direkte målbare variabel kunne f.eks. være ’depression’. Latentvariabel Indikator 1 Indikator 2 Indikator 3 Indikator 4 Indikatorvariablene kunne så være mål for, om respondenten er anspændt, ængstelig, trist til mode og lider af søvnbesvær.
Hvordan finder man de rette items til et refleksivt indeks? Første skridt er definition og operationalisering (se f.eks. figur 4.1 i de Vaus). de Vaus beskriver proceduren med udgangspunkt i, at man foretager en stor pilotundersøgelse for at udsøge de rette items. Som oftest vil man imidlertid af forskellige årsager springe dette led over. Når dataene er i hus, har man så en serie items, hvorfra man vil finde de bedste til at måle den latente variabel. Hertil findes forskellige analysemetoder – f.eks. korrelationsmatricer, Cronbach’s alpha og faktoranalyse.
Korrelationsmatricer er det simpleste • Hvis de items, der er udvalgt som indikatorer for en latent variabel, virkelig også i stor udstrækning måler denne variabel, så må det også formodes, at de enkelte items korrelerer med hinanden. • Ofte vil man derfor som noget af det første i sin undersøgelse af en række items til et indeks få beregnet korrelationskoefficienter for samtlige bivariate sammenhænge mellem variablene. Herved fås en såkaldt korrelationsmatrice med samtlige items ud af begge dimensioner samt en diagonal bestående at ene et-taller, fordi en variabels korrelation med sig selv er lig med 1. • Man kan imidlertid ikke på ren statistisk vis sikre sig, at indekset bliver en valid måling af den latente variabel, i hvert fald kun at validiteten bedres via forbedret reliabilitet.
Reliabilitetstest i SPSS, bl.a. med Cronbach’s alpha I SPSS kan kan man med proceduren ’Reliability’ foretage forskellige former for test af, hvor god en samlet serie af items er til at danne et refleksivt indeks ud fra. • Der kan bl.a. herved fås en korrelationsmatrice, ’item-to-scale coefficients’ (i SPSS kaldt for ’Item-Total Correlations’) samt ’Cronbach’s alpha’, som er et enkelt mål for, hvor godt serien af items korrelerer indbyrdes (man kalder det også for intern koncistens). • En tommelfingerregel siger, at item-to-scale coefficienterne skal være på minimum 0,3, og at alpha skal være på minimum 0,7 (ofte accepteres dog lidt lavere værdier). Værdien af alpha stiger med stigende indbyrdes korrelation mellem variablene samt med et stigende antal variable.
Eksempel: Kommunalpolitisk selvtillid (’internal local political efficacy’) I det følgende gennemgås et eksempel med en latent variabel for ’kommunalpolitisk selvtillid’. Der ses på indikaterer, og der foretages reliabilitets- og faktoranalyse. Politisk selvtillid kan eksempelvis defineres som: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i politiske handlinger(Alan Acock et al 1985). Den lokalpolitiske selvtillid kan derfor defineres som: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i lokalpolitiske handlinger
Items der skal måle begrebet(Indikatorerne) I et spørgeskema er respondenterne blevet bedt om at erklære sig mere eller mindre enige i følgende udsagn: • Jeg anser mig selv som vel kvalificeret til at deltage i kommunalpolitik • Jeg har nogenlunde forståelse af de vigtigste politiske spørgsmål, som vedrører min kommune • Jeg kunne gøre et ligeså godt arbejde som medlem af kommunalbestyrelsen, som de fleste andre • Kommunalpolitikken i min kommune er undertiden så kompliceret, at en person som mig ikke forstår, hvad der foregår Endvidere skulle de svare på følgende spørgsmål: • Hvor godt informeret mener De, at De er med hensyn til, hvad der sker kommunalpolitisk i deres kommune?
Simple additive indeks • Items som de viste egner sig til simple additive indeks (ofte kaldet for en Likert skala), hvor variablenes værdier blot skal summeres, eller alternativt hvor der beregnes en gennemsnitsværdi (substantielt fungerer det ens). • Dog skal man være opmærksom på, om spørgsmålene eller udsagnene ’vender’ ens, sådan at høj score på alle variable betyder enten høj eller lav score på den latente variabel. I eksemplet her, er der ét udsagn, der vender modsat de andre, nemlig udsagnet om politikkens kompleksitet. Værdierne på dette item skal derfor vendes om. • Det mest overskuelige er under alle omstændigheder at danne nye variable for samtlige oprindelige, sådan at man har dem alle liggende i forlængelse af hinanden i datamatricen.
Resultater fra ’Reliability’-proceduren (1) Korrelations-matrixen hvor de enkelte bivariate korrelationer fremgår (Pearson’s r korrelationskoefficient)
Resultater fra ’Reliability’-proceduren (2) Udvalgte resultat-tabeller fra analysen: Læg først mærke til, om alt for stor en andel af casene udgår af analysen pga. manglende besvarelser. Læg dernæst mærke til, om Cronbach’s Alpha har en værdi på omkring 0,7 eller derover. I det er tilfælde er det ok. Check så, om de enkelte Item to Scale Coefficients er på 0,3 eller derover. Check endelig til slut også, om der med fordel kan fjernes items fra indekset.
Konklusion pba. reliabilitetsanalysen • Ved samtlige items ses item-to-scale coefficients på over 0,3 • Selve alpha-værdien ligger lige under 0,7 • Ingen udtagelse af enkelt-items vil kunne få alpha til at stige De valgte items godtages til at kunne udgøre et indeks for kommunalpolitisk selvtillid!
Er indekset éndimensionelt? Definitionen af den kommunalpolitiske selvtillid igen: borgernes selvopfattelse af at kunne forstå politik og være kompetente nok til at deltage i lokalpolitiske handlinger Der kan allerede i den nominelle definition af begrebet spores to dimensioner – en der går på forståelse/viden og en anden der går på handling. Det er da også disse to dimensioner, der er forsøgt indfanget. Det skal derfor undersøges, om der også i svarene på spørgsmålene udskiller sig sådanne to dimensioner. Dvs.: nok korrelerer alle variablene til en vis grad indbyrdes, men er det sådan, at der kan udskilles to grupper af variable, der korrelerer mere internt med hinanden i gruppen end eksternt?
Dimension 1:Viden Dimension 2:Handling • Forståelse • Kompleksitet • Informeret • Kvalificeret til politisk handlen • Kommunalbestyrelsesarbejde Som operationaliseringen af begrebet ser ud Kommunalpolitiskselvtillid
Faktoranalyse reducerer kompleksitet ved at udskille dimensioner/faktorer Faktoranalyse kan bruges til at reducere kompleksitet i en serie variable, sådan at der kan dannes et mindre antal faktorer i stedet. Til hver faktor (i nogle tilfælde blot en enkelt) kan man så eventuelt danne et refleksivt indeks. Faktoranalysen danner selv sådanne indeks, og målet i proceduren er, at finde nogle få dimensioner/faktorer, der kan forklare så stor som muligt variation i de enkelte variable. (I kursus-pensum samt forelæsning gives en lidt summarisk gennemgang af faktoranalyse, så det anbefales at ty til anden litteratur, hvis I benytter metoden senere ifm. større projekter.)
Faktoranalyse • Faktoranalysen består af en lang række lineære regressionsanalyser, og der er derfor formelt set krav om intervalskalerede variable. • Som oftest slækkes der dog mere end ved ordinær regressionsanalyse på disse krav. • De fleste vil sige, at faktoranalyse kan benyttes ved ordinærskalerede variable med fem kategorier eller mere, og hvor variablene ikke har meget skæve fordelinger. • Og mange vil endvidere turde lave faktoranalyse på ordinærskalerede variable med færre end fem kategorier samt også på dummy-variable. • Atter andre vil sige, at det ordinalskalerede variable med forholdsvis få kategorier også kan forsvares, men man i givet fald skal benytte særlige korrelationskoefficienter i beregningerne (Phi eller polichoriske/ tethrachoriske korrelationer). • En grund til at man ofte slækker noget på kravene, er at man ofte blot vil betragte resultaterne som en grovskitse.
’Communalities’ angiver under ’Extraction’, hvor megen varians den eller de udtrukne faktorer forklarer ved hver enkelt variabel. F.eks. forklares ca. 75 pct. af variansen ved variablen RC14 (’Kvalificeret’). Resultater fra faktoranalysen (1) Bartlett’s Test viser, om der overhovedet findes nogen sam-menhæng mellem variablene. Den skal være signifikant på 0,05 niveau. Kaiser-Meyer-Olkin målet (KMO) viser endvidere, om variablene ’klumper sammen’ og derfor kan anvendes til faktor-analyse. Denne skal helst være over 0,5 og gerne også omkring 0,7 eller derover.
Her følger fort-sættelse af tabellen: Resultater fra faktoranalysen (2) SPSS udskiller som default dimensioner med ’eigenvalues’ på mindst 1. Eigenvalues summerer til antallet af variable, og de fortæller noget om, hvor stor en andel af variatioen, hver enkelt dimension forklarer (af værdierne på variablene i analysen)
Resultater fra faktoranalysen (3) ’Component Matrix’ viser en såkaldt ’uroteret løsning’, og den er som regel vanskelig at tolke. ’Rotated Component Matrix’ viser faktor loadings for roteret løsning, og størrelserne i tabellen angiver Pearson korrelationskoefficienter mellem hver af de to faktorer og de enkelte variable. Det ses forholdsvis tydeligt, at faktor 1 (component 1) korrelerer stærkt med variablene for forståelse, kompliceret og informeret, mens faktor 2 korrelerer forholdsvis stærkt med variablene for kvalificeret og evne som politiker.
Faktor 1(ortogonalrotation) Med grøn streg er vist roteret løsning. Her fås en mere lige fordeling af forklaret varians mellem faktorerne. Dette letter tolk-ningen, da der herved fås mere entydige faktorer. Faktor 2(ortogonalrotation) Hvad vil det sige at rotere?(her ortogonal rotation) Faktor 2(uroteret) RC18 Med sort streg er vist uroteret løsning. RC17 RC15 Faktor 1(uroteret) RC14 RC16
Kommentarer til faktoranalysen Man kan altså danne et samlet indeks over den kommunalpolitiske selvtillid, men faktoranalysen indikerer, at det muligvis er bedre at danne to forskellige indeks – et over handlingsaspekterne og et over vidensaspekterne. I faktoranalysen fra eksemplet er der tale om en såkaldt ’ortogonal’ rotation. En sådan benyttes til faktorer, der ikke er korrelerede. Det er ikke sikkert, at det er fornuftigt i dette tilfælde, og man kan i stedet for forsøge med en såkaldt ’oblique’ rotation. Et tegn på, at faktorerne er korrelerede, er, hvis de enkelte variable korrelerer ikke uvæsentligt med andre end den primære faktor, som den er knyttet til. I SPSS: Varimax er en ortogonal rotationsmåde, mens Direct Oblimin er en oblique rotationsmåde.
Oblique rotation Faktor 2(uroteret) Faktor 2(oblique rotation) Faktor 1(oblique rotation) RC18 RC17 RC15 Faktor 1(uroteret) RC14 Læg mærke til, at akserne i den roterede løsning ikke står vinkelret på hinanden! RC16
Faktorloadings fra oblique rotation Ved oblique rotation tolkes som oftest på de faktor-loadings, der har overskriften ’Pattern Matrix’. De viser ikke korrelationskoefficienter, men derimod standardiserede regressionskoefficienter med hver enkelt item som afhængig variabel. Det fremgår, at tolkningen nu er endnu bedre for en to-faktor model (loadings på den ikke primære faktor er nu endnu lavere).
Scree plot Man anbefaler som regel at udtrække de faktorer, der ligger over ’knæ-leddet’. I det her tilfælde vil det vel egentlig alene sige faktor nummer 1, og Scree plot’et modsiger i så fald kriteriet om at udtrække faktorer med eigenvalues på 1 og derover (der var to). (Der er aldrig én sikker metode!)
Konklusion Personligt ville jeg nok prøve med såvel et samlet indeks som to del-indeks over de to dimensioner. Viser det sig i analysen, at der ikke er den store forskel i resultaterne med de to delindeks, kan man jo benytte det samlede i stedet for (men skrive, at der forsøgsvis er foretaget analyser med de to del-indeks også).
Den praktiske dannelse af indeks pba. faktoranalyse Man kan vælge lade SPSS beregne indeks ud fra resultaterne i faktoranalysen, men mange vælger blot at bruge faktoranalysen som en rettesnor for, hvilke items, der ’går godt sammen’, hvorefter de konstruerer simple additive indeks ved at summere eller beregne gennemsnit af de respektive variable.
Problemet med missing values I det viste eksempel er der i de enkelte variable hver især maksimalt omkring fem procent af casene, der har manglende værdi, men hvis man i et samlet indeks kun vil have valid værdi, hvis alle fem spørgsmål er besvaret, så falder der omkring ti procent af casene ud. Denne metode kaldes for ’listwise’ sletning af cases. Man kunne overveje at erstatte missing values med valide. Spørgsmålet er så blot, hvordan man skal foretage denne erstatning. Skyldtes de mange missing values i stedet en enkelt ’dårlig’ variabel, kunne man overveje at udtage denne.
Minimering af problemet med missing values Én måde at forsøge at minimere tabet af cases på, er ved at erstatte missing values med en midterkategori i variablene. En som regel lidt bedre måde er at erstatte missing values med gennemsnittet af valide værdier for samme case. Dvs. hvis en respondent har fået værdierne 2, 2, 1, og 3 samt en missing value i den sidste variabel, skal denne tildeles værdien 2. Man skal dog være varsom her. Det ville f.eks. ikke være særlig lødigt at erstatte fire missing values pba. oplysning om en enkelt valid værdi. Man kan f.eks. kræve, at respondenten i dette tilfælde med de fem spørgsmål/udsagn skal have besvaret mindst de tre, førend der kan dannes en valid indeksværdi.
Problemet med variable på forskellig skala eller med meget forskellig fordeling Hvis de variable, som man har tænkt sig at benytte ifm. et indeks, har forskellig skala, vil de også blive vægtet forskelligt i et additivt indeks (de vil blive mere eller mindre betydningsfulde for indeksværdien). Har man f.eks. en variabel med fire kategorier samt fire variable med fem, vil det være oplagt at forøge variationsbredden på den første variabel, sådan at der kom et ’hul’ i midten. Ikke i alle tilfælde er der dog en enkelt oplagt løsning. Et lignende problem opstår, hvis variablene blot har meget forskellige empiriske fordelinger. I begge situationer kan man vælge at foretage z-standardisering af variablene, men der skal i så fald også foretages substantielle overvejelser.
Efterfølgende brug af indekset Efterfølgende benyttes indekset som en ordinær variabel i analyserne, enten i rå form eller f.eks. i en tilstand, hvor den er rekodet til at kunn antage færre værdier, sådan at den kan benyttes i forbindelse med tabelanalyse. I dens rå form, hvor den kan antage mange værdier, taler mange for, at man kan betragte den som en intervalskaleret variabel, fordi afvigelserne fra intervalskala i de enkelte variable udligner sig i sammenlægningen. Hvis man godtager det, kan man benytte indekset f.eks i forbindelse med lineær regressionsanalyse.
Der findes andre typer af refleksive indeks (ikke pensum) Ud over de additive indeks af Likert-typen findes andre væsensforskellige refleksive indeks. Der findes således også ’differentielle’ og ’kommulative’ skalaer. ’Thurstone’-skalaen er et eksempel på førstnævnte og ’Guttman’-skalaen på sidstnævnte.