160 likes | 278 Views
Workshop 4 - 8. maj 2003. Faktoranalyse. Hvad er faktoranalyse?.
E N D
Workshop 4 - 8. maj 2003 Faktoranalyse
Hvad er faktoranalyse? Faktoranalyse benyttes til at forsimple en kompleks sammenhængsstruktur mellem en række variable. En serie variable kan således inddeles i blokke/faktorer, eller latente variable som de ofte kaldes. I eksemplet herunder* skitseres det, hvordan en serie spørgsmål vedrørende moral i privatsfæren ved hjælp af faktoranalyse kan minimeres til tre faktorer. Faktorer Variable Relationelmoral Beholde fundne penge Lyve til egen fordel Forkert tilbagebetaling i forretning Frisindethed Udenomsægteskabeligt forhold Indtagelse af hash/marihuana Børne-opdragelse Give barn lussing * Fra Jørgen Goul Andersen (1998): Borgerne og lovene. Rockwool Fondens Forskningsenhed – Aarhus Universitetsforlag.
Hvorfor er det smart? • For det første kan der ofte ligge en selvstændig interesse i at finde ud af, hvordan variablene ’klumper sig sammen’. • For det andet kan faktoranalyser benyttes som indledende skridt til analyser, hvor man i stedet for de oprindelige variable benytter faktorerne. F.eks. kan man på sædvanligvis danne et indeks over de variable, der tilsammen udgør en faktor. • For det tredje kan man benytte faktoranalyser som en kontrol for egnetheden af et indeks, man påtænker at danne. Hvis faktoranalysen f.eks. tydeligt udskiller én faktor, hvor alle variable har signifikant betydning for dannelsen af denne, vil dette kunne validere indekset.
Hvilke variable kan benyttes i faktoranalyse? • Da faktoranalysen består af en lang række lineære regressionsanalyser, er der formelt set krav om intervalskalerede og normalfordelte variable. • Som oftest slækkes der dog mere end ved ordinær regressionsanalyse på disse krav. • De fleste vil sige, at faktoranalyse kan benyttes ved ordinærskalerede variable med fem kategorier eller mere, og hvor variablene ikke har meget skæve fordelinger. • Og mange vil endvidere turde lave faktoranalyse på ordinærskalerede variable med færre end fem kategorier samt også på dummy-variable. • Atter andre vil sige, at det kan forsvares med ordinalskalerede variable med forholdsvis få kategorier, men man i givet fald skal benytte særlige korrelationskoefficienter i beregningerne (Phi eller polichoriske/ tethrachoriske korrelationer). • En grund til at man ofte slækker noget på kravene, er at man ofte blot vil betragte resultaterne som en grovskitse.
Eksempel i SPSS:fra Robert L. Miller et al (2002): SPSS for Social Scientists (Datasættet kan downloades fra http://www.palgrave.com/sociology/miller I et spørgeskema er respondenterne bl.a. blevet spurgt, hvor almindeligt det er at være udsat for forskellige typer af gener i kvarteret, hvor de bor. Først skal vises en simpel model med syv variable, og hvor der kun findes én faktor. Dernæst skal vises en lidt mere kompleks model med yderligere fire variable, hvor der via faktoranalysen udskilles to faktorer – dog ikke helt entydigt.
Syv variable, orthogonal rotation – én dimension/faktor List of variables Name Position Label NOISYNGB 14 Noisy neighbours/loud parties? Q134 GRAFFITI 15 Graffiti on walls/buildings? Q135 TEENONST 16 Teenagers hanging round street Q136 DRUNKS 17 Drunks/tramps on the streets ? Q137 RUBBISH 18 Rubbish or litter lying about? Q138 HMGDBAD 19 Homes+gardens in bad condition? Q139 VANDALS 20 Vandalism+deliberate damage? Q140
Resultater fra simpel model (1. hold) Bartlett’s Test viser, om der overhovedet findes nogen sam-menhæng mellem variablene. Den skal være signifikant på 0,05 niveau. Kaiser-Meyer-Olkin målet (KMO) viser endvidere, om variablene ’klumper sammen’ og derfor kan anvendes til faktor-analyse. Denne skal helst være over 0,5 og gerne også omkring 0,7 eller derover. ’Communalities’ angiver under ’Extraction’, hvor megen varians den eller de udtrukne faktorer forklarer ved hver enkelt variabel. F.eks. forklares ca. 56 pct. af variansen ved variablen GRAFFITI.
Resultater fra simpel model (2. hold) SPSS bliver (ved Principal Component analyse) ved med at lave faktorer, indtil al varians er fordelt. Herved fås lige så mange faktorer, som der er variable, og det er der ikke vundet meget ved. En gængs regel er at udskille faktorer med ’Eigenvalue’ på én eller derover. I eksemplet her gælder det kun for den først udtrykne faktor (den faktor der er beregnet til at kunne forklare mest varians. Eigenvalue størrelserne summerer altid til antallet af variable i analysen. Den udtrukne faktor forklarer i alt ca. 52 pct. af variansen i variablene.
Resultater fra simpel model (3. hold) Et ’Scree Plot’ er en grafisk metode til at bestemme antal faktorer i den færdige model. Man siger her, at faktorer over ’albueleddet’ skal med – dvs. den første her. I ’Component Matrix’ vises såkaldte ’factor loadings’. I en løsning med kun en faktor er de lig med Pearson korrelationskoefficienten mellem variablene og faktoren.
Udvidelse af modellen: fire variable yderligere, stadig orthogonal rotation (De fire variable med fed type er nye.) List of variables Name Position Label NOISYNGB 14 Noisy neighbours/loud parties? Q134 GRAFFITI 15 Graffiti on walls/buildings? Q135 TEENONST 16 Teenagers hanging round street Q136 DRUNKS 17 Drunks/tramps on the streets ? Q137 RUBBISH 18 Rubbish or litter lying about? Q138 HMGDBAD 19 Homes+gardens in bad condition? Q139 VANDALS 20 Vandalism+deliberate damage? Q140 BURGLARY 22 Incidence of burglary in this area Q142 VEHTHEFT 23 Cars broken into/stolen in this areaQ143 ATTACKS 24 People attacked in the street? Q144 ILLDRUGS 25 People dealing in illegal drugs? Q145
Resultater fra udvidet model (1. hold) To faktorer bliver nu udtrukket. Hvis der ikke ’roteres’ får den første faktor ’lov til’ at forklare ca. 47 pct. af variansen. Efter rotation (se følgende dias) forklarer denne ca. 32 pct., mens den anden forklarer ca. 25 pct.
Rotation Faktor 2 • • • • • Faktor 1 • • • • De stiplede koordinater viser faktormodellen efter rotation. En mere lige fordeling af forklaret varians mellem faktorerne letter tolkningen, da der herved fås mere entydige faktorer.
Resultater fra udvidet model (2. hold) ’Component Matrix’ viser den uroterede løsning, og den er som regel vanskelig at tokle. ’Rotated Component Matrix’ viser faktor loadings for roteret løsning, og størrelserne i tabellen er Pearson korrelationskoefficienter mellem hver af de to faktorer og de enkelte variable (altså som ved løsningen med én faktor).
Oblique rotation (man tillader faktorerne at være korrelerede) Ofte kan også factor loadings fra en orthogonal roteret løsning være vanskelige at tolke, fordi nogle variable ’loader’ på mere end en faktor. Én måde, hvorpå dette måske kan løses, vil være at tillade de dannede faktorer at korrelere. Det gøres ved en såkaldt ’oblique’ rotation. Faktor 2 • • • • • • • • Faktor 1
Resultater fra udvidet model med oblique rotation For den roterede løsning vises nu to tabeller med koefficienter. I ’Structure Matrix’ præsenteres Pearson korrelationskoefficienter som ved de foregående eksempler. ’Pattern Matrix’ er den, der som oftest præsenteres som factor loadings, og disse viser de standardiserede partielle regressionskoefficienter med faktorerne som uafhængige variable og hver af de 11 variable som afhængige.
Modellen er stadigvæk ikke helt tilfredsstillende For det første er korrelationen mellem de to faktorer lige lovlig stor (-0,52) For det andet ser et plot over løsningen ikke rigtig godt ud. Variablene skal helst ’klumpe’ sig mere sammen omkring akserne.