630 likes | 1.09k Views
Faktorenanalyse. Faktorenanalyse Einführung Hauptachsen Voraussetzungen Berechnung Korrelationsmatrizen Faktorladungen, Kommunalitäten und Eigenwerte Anzahl der Faktoren Faktorrotation Faktoren zweiter Ordnung. Einführung. Faktorenanalyse
E N D
Faktorenanalyse Faktorenanalyse • Einführung • Hauptachsen • Voraussetzungen • Berechnung • Korrelationsmatrizen • Faktorladungen, Kommunalitäten und Eigenwerte • Anzahl der Faktoren • Faktorrotation • Faktoren zweiter Ordnung 10_factor_analysis1
Einführung Faktorenanalyse • Die Faktorenanalyse gehört zum den multivariatenVerfahren, d.h. es werden mehrere (abhängige) Variablen parallel untersucht • Ziel ist die Vereinfachung eines komplexen Datensatzes • Dazu werden viele Variablen zu wenigen Faktoren zusammengefasst • Man sagt: „Die Items (eines Fragebogens) laden auf einem Faktor“ • Dabei stellen die Items manifeste Variablenund die Faktoren latente Variablen da 10_factor_analysis2
Einführung Manifeste Variablen werden in Rechtecken dargestellt. Latente Variablen werden in Kreisen dargestellt. 10_factor_analysis3
Einführung 10_factor_analysis4
Ziele der Faktorenanalyse Konstruktion / Überprüfung von Fragebögen: • Items zu einem psychologischen Konstrukt werden formuliert. • Mit einer explorativen Faktorenanalyse (EFA) werden Subskalen gebildet, d.h. Item, die etwas Ähnliches messen, werden zu Faktoren zusammengefasst. • Mit einer konfirmatorischen Faktorenanalyse (CFA) kann eine auf theoretischer Ebene begründete Skalenstruktur überprüft werden ( Strukturgleichungsmodelle, z.B. AMOS). • Im Folgenden wird nur die explorative Faktorenanalyse besprochen! 10_factor_analysis 5
Durchführung der Faktorenanalyse • Ein Datensatz mit n Variablen kann als eine Punktewolke im „n-dimensionalen Raum“ dargestellt werden: • 2 Variablen (x, y) 2 Dimensionen • 3 Variablen (x, y, z): 3 Dimensionen 10_factor_analysis 6
Durchführung der Faktorenanalyse • Bei einem Fragebogen gibt es natürlich viel mehr als 3 Items. • Dies ist nicht mehr graphisch darstellbar. • Daher wird das Vorgehen mit einer 3-dimensionalen Darstellung veranschaulicht. • Als Faktoren werden neue Achsen gesucht, die die Punktewolke möglichst gut beschreiben. • Die Achsen werden jeweils so gewählt, dass sie möglichst viel Varianz aufklären. • Die Varianz ist in der Richtung am größten, in der die Punktewolke ihre größte Ausdehnung hat. 10_factor_analysis 7
Hauptachsen • Die erste Hauptachse (λ1, „Lambda“) wird so gelegt, dass sie die Punktewolke in „der größten Breite“ durchschneidet. λ1 10_factor_analysis 8
Hauptachsen • Die zweite Hauptachse (λ2) muss von der ersten Achse unabhängig sein • Dies ist dann der Fall, wenn die Achsen senkrecht aufeinander stehen. • Dabei wird die Achse wieder so gelegt, dass die maximale restliche Varianz aufgeklärt wird. λ2 λ1 10_factor_analysis 9
Hauptachsen • Die dritte Hauptachse (λ3) muss von der ersten und der zweiten Achse unabhängig sein. • Die Achse muss also einen rechten Winkel zu beiden anderen Achsen bilden. • Im 3-dimensionalen Raum ist die Lage dieser Achse durch die der beiden anderen Achsen festgelegt. λ2 λ1 λ3 10_factor_analysis 10
Hauptachsen Anzahl der Hauptachsen • Für jede Punktewolke gibt es theoretisch so viele unabhängige Achsen, wie es Variablen gibt. • Nach der Achsenbildung wird eine Person durch die Koordinaten auf den neuen Achsen dargestellt. • Ziel ist eine Datenreduktion: • Es ist nichts gewonnen, wenn die Person durch die gleiche Anzahl neuer Koordinaten dargestellt wird, wie vorher Variablenwerte bekannt waren. • Es werden möglichst wenige Faktoren gebildet • Die Anzahl der Achsen (Faktoren) kann aufgrund von theoretischen Überlegungen erfolgen, oder sie wird nach empirischen Kriterien bestimmt. 10_factor_analysis 11
Hauptachsen • Wenn weniger Achsen gewählt werden als Variablen vorhanden sind (1 Achse bei 2 Variablen), dann bleibt ein Rest nicht aufgeklärter Varianz übrig +1 + 0 + + -1 + 10_factor_analysis 12
Voraussetzungen • Für die Faktorenanalyse werden mehrere (p) Variablen(z.B. Items eines Fragebogens) benötigt, wobei für jede Person der Wert auf jeder Variablen bekannt sein muss (Messwiederholung). • Dabei muss gelten: • Intervallskalenniveauder Variablen • Normalverteilungder Variablen • Anzahl Vpn: N ≥ 3·p (Richtwert) • Es werden nur lineare Zusammenhänge abgebildet. 10_factor_analysis 13
Berechnung • Matrix der Variablenwerte: XNxp • Matrix der standardisierten Werte: ZNxp • Korrelationsmatrix: Rpxp Kommunalitätsproblem • Reduzierte Korrelationsmatrix: hRpxp Extraktionsproblem • Faktorenladungsmatrix: Apxq Rotationsproblem • Rotierte Faktorenladungmatrix: A`pxq Faktorwerteproblem • Faktorenwertematrix: A`Nxq N: Vpn p Variablen q Faktoren Iterative Abschätzung 10_factor_analysis 14
Matrix der Variablenwerte • In einer Zeile stehen jeweils die Werte einer Vpnfür alle pVariablen. • In einer Spalte stehen die Werte aller Vpn für eine Variable. 10_factor_analysis 15
Matrix der standardisierten Werte • Alle Variablen („Spalten“) werden z-standardisiert, d.h. die Werte einer Spalte haben nun einen Mittelwert von M = 0 und eine Standardabweichung von SD = 1. 10_factor_analysis 16
Korrelationsmatrix • Die Korrelationsmatrix R beinhaltet die bivariaten (paar-weisen) Korrelationen aller Variablen. Auf der Hauptdiagonale steht immer der Wert 1, da jede Variable mit sich selbst „perfekt“ korreliert (rii=1). 10_factor_analysis 17
Korrelationsmatrix • Eine Faktorenanalyse ist nur dann sinnvoll, wenn der Datensatz substantielle Korrelationen aufweist. • Dies ist dann der Fall, wenn sich die Korrelationsmatrix (R) signifikant von der Einheitsmatrix (E) unterscheidet. • Eine statistische Überprüfung ist mit dem Bartlett-Test möglich. 10_factor_analysis 18
Das Fundamentaltheorem • Das Fundamentaltheorem der Faktorenanalyse besagt, dass sich jeder der standardisierten Werte als Linearkombination der Faktorwerte und der Faktorladungen beschreiben lässt: • mit: • ZNxp: standardisierte Ausgangsmatrix • FNxp: Faktorwertematrix • Apxp: Faktorladungsmatrix • zij: standardisierter Wert der Person i auf der Variable j • p: Anzahle der Variablen = Anzahl der Faktoren (nur am Anfang) 10_factor_analysis 19
Faktorladungen • Die Faktorladungen sind die Korrelationen der Faktorwerte mit den Ausgangswerten der Variablen. • Personen, die hohe Werte auf dem Faktor haben, haben auch hohe Werte auf x (und umgekehrt) • Hohe Korrelation von x und λ. • Die Korrelation eines Faktors und einer Variablen hängt vom Winkel ab: r = cos(α) • Beispiel: α = 0° r = 1α = 90° r = 0 10_factor_analysis 20
Die Faktorladungsmatrix • Die Faktorladungsmatrixenthält die Faktorladungen (Korrel-ationen) aller Variablen auf allen Faktoren: p: Variablen q: Faktoren 10_factor_analysis 21
Aufgeklärte Varianz • Quadriert man die Faktorladungen, ergeben sich Determinationskoeffizienten • Diese geben an, wie viel Varianz einer Variablen durch diesen Faktor aufgeklärt wird. p: Variablen q: Faktoren 10_factor_analysis 22
Kommunalität • Die Kommunalität (h²) einer Variablen ist die insgesamt durch alle Faktoren aufgeklärte Varianz dieser Variablen. • Die Kommunalität wird als „Zeilensumme“ in der Matrix der Determinationskoeffizienten berechnet. • Die Kommunalität nimmt immer Werte zwischen 0 (0% aufgeklärte Varianz) und 1 (100% aufgeklärte Varianz) an. p: Variablen q: Faktoren „Kommunalität der Variablen j“ 10_factor_analysis 23
Eigenwert • Der Eigenwert (λ) eines Faktors gibt an, wie viel Varianz dieser Faktor an allen Variablen aufklärt. • Der Eigenwert wird als „Spaltensumme“ in derMatrix der Determinationskoeffizienten berechnet. • Der Wertebereich des Eigenwerts hängt von der Anzahl der Variablen ab: 0 < λ < p. • Ein Eigenwert von 1 bedeutet, dass ein Faktor insgesamt soviel Varianz aufklärt, wie eine (jede) der standardisierten Variablen aufweist. • Je größer der Eigenwert eines Faktors, desto „besser“ ist ein Faktor. • Eine Selektionsstrategie zur Bestimmung der Anzahl der Faktoren besteht darin, alle Faktoren mit λ>1 zu akzeptieren. 10_factor_analysis 24
Formen der FA • „Kommunalitätsproblem“: Wie viel Varianz von jeder Variablen wird zu Beginn der FA aufgeklärt, also bevor die endgültige Lage der Faktoren bekannt ist? • Wenn die Variable selbst als Faktor berücksichtigt wird: h² = 1 • Wenn nur die anderen Variablen berücksichtigt werden: h² < 1 • Bei der Hauptkomponentenanalyse (PCA = PrincipalComponent Analysis) wird zu Beginn des Optimierungsprozesses eine Kommunalität von 1 angenommen. • Bei der Hauptachsenanalyse wird zu Beginn des Optimierungsprozesses die Kommunalität für jede Variable geschätzt 10_factor_analysis 25
Formen der FA Inhaltlicher Unterschied: • Hauptkomponentenanalyse: • Die insgesamt aufgeklärte Varianz wird maximiert. • Es kann Faktoren geben, auf denen nur eine einzige Variable hoch lädt. • Dieses Verfahren wird von Bortz empfohlen • Haupachsenanalyse: • Es werden Faktoren bevorzugt, auf denen viele Variablen laden. • Dieses Verfahren wird von Leonhart empfohlen. 10_factor_analysis 26
Das „Extraktionsproblem“ • Bei der Berechnung der FA werden genau so viele Faktoren wie Variablen gebildet. • Um das Ziel der Datenreduktion zu erreichen, werden später die Faktoren weggelassen, die wenig Varianz aufklären. • Unterschiedliche Kriterien: • Kaiser-Gutman-Regel • Kriterium der extrahierten Varianz • Screetest • Theoriegeleitetes Vorgehen 10_factor_analysis 27
Das „Extraktionsproblem“ Kaiser-Gutman-Regel • Nach der Kaiser-Gutman-Regel werden nur Faktoren mit einem Eigenwert > 1 berücksichtigt. • Nach diesem Kriterium werden also alle Faktoren berücksichtigt, die zumindest den Varianzanteil einer Variablen aufklären. • Voraussetzungen: • N > 5·p • Faktorenzahl zwischen p/5 und p/3 10_factor_analysis 28
Das „Extraktionsproblem“ Kriterium der extrahierten Varianz • Es wird festgelegt, wie viel Varianz aufgeklärt werden soll. • Problem: Es kann kaum begründet werden, welcher Varianzanteil hier gewählt wird (z.B. 50%, 90%) • Vorgehen: • Die Faktoren werden nach ihren Eigenwerten sortiert: • Alle Eigenwerte werden aufsummiert Sum(λ) = p • Für jeden Eigenwert wird der Anteil aufgeklärter Varianz als λ / p berechnet. • Es werden alle Faktoren berücksichtigt, bis die kumulierte Varianz das Kriterium übertrifft. 10_factor_analysis 29
Das „Extraktionsproblem“ 3 Faktoren klären über 50% der Merkmals-varianz auf. Kaiser-Gutman Kriterium 10 Faktoren klären über 90% der Merkmalsvarianz auf. Eigenwerte 10_factor_analysis 30
Das „Extraktionsproblem“ Screetest • Der Scree-Test (Geröll-Test) ist eine graphische Methode um eine sinnvolle Anzahl von Faktoren zu bestimmen. • Dazu werden die Eigenwerte der Faktoren als Graphik dargestellt. • Es werden nur Faktoren ausgewählt, bevor der Graph eine „Ebene“ erreicht. • Problem: Oft ist dieses Kriterium nicht eindeutig! 10_factor_analysis 31
Das „Extraktionsproblem“ 10_factor_analysis 32
Das „Extraktionsproblem“ Theoriegeleitetes Vorgehen • SPSS erlaubt es auch, die Anzahl der Faktoren selbst zu wählen • So ist es möglich, auszuprobieren, ob sich eine inhaltlich sinnvolle Lösung ergibt. • Beispiel: • Es wird aufgrund theoretischer Überlegungen erwartet, dass sich die Aufgaben eines Intelligenztests drei Faktoren zuordnen lässt: • Räumliches Vorstellungsvermögen • Mathematische Intelligenz • Sprachliches Intelligenz • Es wird eine Lösung mit 3 Faktoren berechnet, und überprüft, ob die Items wie erwartet auf den Faktoren laden. 10_factor_analysis 33
Das „Rotationsproblem“ Unterschiedliche Rotationsverfahren: • Zunächst wird die Position der Faktoren so gewählt, dass Sie jeweils soviel Varianz wie möglich aufklären. • Wenn die Zahl und Lage der Faktoren bestimmt ist, können die Achsen um den Koordinaten Ursprung rotiert (gedreht) werden, ohne, dass Informationen verloren gehen. • Durch die Rotation ändern sich natürlich die Faktorladungen • Ziel der Rotation ist eine Einfachstruktur, d.h. jeder Faktor soll auf einigen Variablen sehr hoch und auf anderen Variablen sehr gering laden. • Dann sind Faktoren leichter inhaltlich zu interpretieren. 10_factor_analysis 34
Das „Rotationsproblem“ • Unterschiedliche Rotationsverfahren: • Bei der orthogonalen Rotation bleiben die Faktoren unabhängig, d.h. sie stehen senkrecht aufeinander. • Bei der obliquen Rotation sind „schiefwinklige“ Zusammenhänge zwischen den Faktoren erlaubt. 10_factor_analysis 35
Das „Rotationsproblem“ Orthogonale Rotation • Vorteil ist die Unabhängigkeit der Faktoren, d.h. es kommt zu einer maximalen Vereinfachung der Daten (Informationen ist nicht mehrfach abgebildet). • Das bekannteste Verfahren der orthogonalen Rotation ist die „Varimax“-Methode. • Bei dieser Methode werden die Spaltensummen der quadrierten Faktorladungsmatrix maximiert. 10_factor_analysis 36
Das „Rotationsproblem“ Oblique Rotation • Vorteil der obliquen Methode ist die Möglichkeit, Faktoren höherer Ordnung zu bestimmen. • Dazu werden die Fakorwerte jeder Person erneut faktorisiert. • Beispiel: • 100 Items eines Intelligenztests lassen sich auf 8 Aufgabentypen reduzieren. • Diese 8 Aufgaben laden auf drei Faktoren: Räumliches Vorstellungsvermögen; Mathematische Intelligenz; Sprachliches Intelligenz • Die drei Faktoren 2. Ordnung laden auf einem „Generalfaktor“ • Das bekannteste Verfahren der obliquen Rotation ist die „Oblimin“-Methode. 10_factor_analysis 37
Das „Rotationsproblem“ 10_factor_analysis 38
SPSS SPSS - Beispiel • Der Fragebogen zur Lehrevaluation wird faktorenanalytisch untersucht. • Dazu werden die 15 Items des Fragebogens in eine Faktorenanalyse eingegeben • Analyse: Hauptkomponenten • Rotation: Varimax • Extraktion: Kaiser-Guttman 10_factor_analysis 39
SPSS 10_factor_analysis 40
SPSS 10_factor_analysis 41
SPSS Hauptkomponenten oder Hauptachsenanalyse wählen Graphik für Scrreetest Kaiser-Guttman Kriterium 10_factor_analysis 42
SPSS Varimax (orthogonal) oder obimil (oblique) Rotation wählen 10_factor_analysis 43
SPSS Varimax (orthogonal) oder obimil (oblique) Rotation wählen 10_factor_analysis 44
SPSS Die Ausgabe wird übersichtlicher, wenn man kleine Faktor-Ladungen nicht anzeigen lässt 10_factor_analysis 45
SPSS 10_factor_analysis 46
SPSS 10_factor_analysis 47
SPSS 10_factor_analysis 48
SPSS 10_factor_analysis 49
SPSS SPSS – Beispiel 2 • Der Fragebogen zur Lehrevaluation wird faktorenanalytisch untersucht. • Dazu werden die 15 Items des Fragebogens in eine Faktorenanalyse eingegeben • Analyse: Hauptkomponenten • Rotation: Oblimin • Extraktion: 3 Faktoren 10_factor_analysis 50