220 likes | 383 Views
Strukturgleichungsmodelle. Eine Einführung. X 1. X 2. X 1. X 2. X 1. X 2. X 1. X 2. X 1. X 3. X 2. Kausalität und Korrelation. X 1 ist korreliert mit X 2 . X 1 ist Ursache für X 2 . X 2 ist Ursache für X 1 . X 1 und X 2 beeinflussen sich gegenseitig.
E N D
Strukturgleichungsmodelle Eine Einführung
X1 X2 X1 X2 X1 X2 X1 X2 X1 X3 X2 Kausalität und Korrelation • X1 ist korreliert mit X2. • X1 ist Ursache für X2. • X2 ist Ursache für X1. • X1 und X2 beeinflussen sich gegenseitig. • X1 und X2 werden von X3 beeinflußt. • X1 , X2 und X3 sind miteinander korreliert. • X1 und X2 sind kausal für X3. X4 verursacht die Korrelation zwischen X1 und X2. • X1 und X2 sind kausal für X3. X1 ist kausal für X2. • X1 ist kausal für X2, X2 ist kausal für X3. • ....
Ein Strukturgleichungsmodell zurück
X manifeste Variable (gemessen) X latente Variable (Konstrukt), auch: Fehler 1 Regression („kausale Beziehung“)(mit fixiertem Gewicht) Korrelation (deskriptiv) Syntax, Terminologie endogene (abhängige) Variablen: mindestens ein gerichteter Pfeil zeigt auf sie exogene (unabhängige) Variablen: kein gerichteter Pfeil zeigt auf sie. Exogene Variablen sind immer korrelativ verknüpft. Kein Pfeil: r=0.
Performance in Grad School Aptitude Happiness Smiling 2 1 Happiness 1 1 SocialSupport SocialSupport Laughing 2 1 1 Family 1 PreviousHappiness 1 Contentment 2 Knowledge Grades Skills 1 1 1 Friends Satisfaction 2 1 1 Verbal 1 1 Performance in Grad School Analytic 1 1 Quantitative Aptitude r14 r10 r11 r12 r1 r2 r15 r3 r13 r4 r16 r5 Messmodelle und Strukturmodell • Messmodell: Verknüpfung zwischen latenter Variable und ihren (manifesten) Indikatoren • Strukturmodell: Verknüpfung zwischen latenten Variablen
Modellparameter • Diejenigen Größen, die durch das Modell festgelegt werden sollen: • Alle exogenen Variablen (inkl. Fehler, Residuen)(endogene Variablen werden ja „erklärt“...) • Alle (nicht fixierten) Pfade: • Regressionen (sofern kein fixiertes Gewicht dransteht) • Korrelationen (die man einzeichnet, der Rest ist auf 0 fixiert) Happiness
Daten • Alle Varianzen von manifesten Variablen (Anzahl p) • Alle Kovarianzen zwischen manifesten Variablen(Anzahl p · (p – 1) / 2) • Alle Tripelvarianzen (Anzahl p · (p – 1) · (p – 2) / 6) • zusammen: p · (p + 1) / 2 Happiness
Identifizierbarkeit • Anzahl Daten < Anzahl Modellparameter: unteridentifiziertModell nicht lösbar. X + Y = 1. • Anzahl Daten = Anzahl Modellparameter: exakt identifiziert Modell lösbar, aber nicht prüfbar. X = 1. • Anzahl Daten > Anzahl Modellparameter: überidentifiziertModell lösbar und prüfbar. X = 1 X = 2.
1 Performance in Grad School Aptitude SocialSupport PreviousHappiness r7 r8 r9 r16 r14 r13 r6 d2 r15 Definitionsgleichungen • Jede endogene Variable wirdper Regression erklärt: PGS = b1·A + b2·SS + b3·PH + d2 • Die Korrelation zwischen jedem denkbaren Paar exogener Variablen wird festgelegt: rr6,r16 = R1, rr7,r15 = R1, rr8,r14 = R3, rr9,f13 = R4, rr6,r7 = rr6,r8 = rr6,r9 = ... = 0. Happiness
Strukturgleichungen • Definitionsgleichungen für (p) manifeste Variablen auflösen, bis rechts nur noch exogene Variablen stehen. • Alle (p · (p+1) / 2) Varianzen und Kovarianzen mit Hilfe der Definitionsgleichungen „erklären“: • Z = aX + bY: VZZ = a²VXX + b²VYY + 2abVXY. • W = cU + dV: VZW = acVXU + adVXV + bcVYU + bdVYV. zurück
PreviousHappiness Smiling 1 Laughing 1 Contentment 1 Satisfaction 1 Friends r2 Lineare Abhängigkeiten • Manchmal reichen viele Gleichungen nicht, um viele unbekannte Größen zu bestimmen: • X + Y = 10. • 2X + 2Y = 20. • 3X + 3Y = 30. • ... • Wenn alle fortführenden Pfade einer latenten Variable frei (nicht fixiert) sind, können Gewichte und Varianz gegeneinander ausgespielt werden. 1 1 Happiness zurück
1 Messung 1 Fehler 1 1 Messung 2 Fehler 2 1 Messung 3 Fehler 3 Ein einfaches Meßmodell was fehlt? 1 • Definitionsgleichungen: • M1 = 1 · K + F1 • M2 = a · K + F2 • M3 = b · K + F3 • cor(F1,F2) = cor(F1,K) = cor(F1,F3) = cor(F2,K) = cor(F2,F3) = cor(F3,K) = 0 Konstrukt • Identifizierbarkeit: exakt. 6 Modellparameter, 6 (Ko-)Varianzen. • Strukturgleichungen • VM1M1 = 1²·VKK + VF1F1+ 2·VKF1 • VM2M2 = a²·VKK + VF2F2 • VM3M3 = b²·VKK + VF3F3 • VM1M2 = 1·a·VKK • VM1M3 = 1·b·VKK • VM2M3 = a·b·VKK
1 1 Messung 1 Messung 2 Fehler 1 Konstrukt 1 Messung 2 Messung 3 Fehler 2 1 Messung 1 Fehler 1 1 Fehler 2 Konstrukt 1 Fehler 3 1 Messung 4 Fehler 4 Weitere einfache Meßmodelle 1 1
1 Messung 1 Fehler 1 1 Konstrukt 1 Messung 2 Fehler 2 1 Messung 3 Fehler 3 Identifikationsgleichungen zurück • Strukturgleichungen • VM1M2 = 1·a·VKK • VM1M3 = 1·b·VKK • VM2M3 = a·b·VKK • VM1M1 = 1²·VKK + VF1F1 • VM2M2 = a²·VKK + VF2F2 • VM3M3 = b²·VKK + VF3F3 umformen • Identifikationsgleichungen • VKK = VM1M2VM1M3 / VM2M3 • a = VM2M3 / VM1M3 • b = VM2M3 / VM1M2 • VF1F1 = VM1M1 – VM1M2VM1M3 / VM2M3 • VF2F2 = VM2M2 – VM2M3VM1M2 / VM1M3 • VF3F3 = VM3M3 – VM2M3VM1M3 / VM1M2 • lokal identifizierbar: Jede einzelne Unbekannte ist identifizierbar.
Messung 2 Messung 3 1 Messung 1 Fehler 1 1 Fehler 2 Konstrukt 1 Fehler 3 1 Messung 4 Fehler 4 Identifikationsgleichungen • 9 Unbekannte, 10 Ko/Varianzen, ... aber • nicht lokal identifizierbar: VKK ist nicht identifizierbar.
Identifikationsgleichungen • dienen der Diagnostik (Identifizierbarkeit) • Die unbekannten Parameter werden anders bestimmt! • wäre ja auch zu peinlich, wenn für überbestimmte Variablen mehrere verschiedene Werte herauskommen
V11 V21 V22 V31 V32 V33 Kovarianzmatrizen • Stichprobenkovarianzmatrix • Vxy = <xy> – <x> <y> = (x–<x>)·(y–<y>) / n • geschätzte Populationskovarianzmatrix(„beobachtete Kovarianzmatrix“) • Sxy = (x–<x>)·(y–<y>) / (n–1) = Vxy · n / (n–1) • implizierte Kovarianzmatrix • xy() ist eine Funktion des Vektors der unbekannten Parameter S-Gl. / I-Gl.
S11 S21 S22 S31 S32 S33 11 2122 313233 Kovarianzmatrizen • geschätzte Populationskovarianzmatrix Sxy • implizierte Kovarianzmatrix xy() • Diskrepanzfunktion F[S, ()] • F[S,T] 0 • F[S,T] = 0 S = T • F[S,T] + F[T,U] F[S,U] • Iterativ verändern, so daß F kleiner wird. • Wenn F minimiert wurde, gilt als geschätzt.
Diskrepanzfunktionen • unweighted least squares:FULS[S, ()] = Sum [Sxy – xy()]² • skaliert mit Wertebereich der manifesten Variablen S-Gl. / I-Gl. • generalized least squares:FGLS[S, ()] = Sum [Sxy – xy()]² / ||S||² • ist für große Stichproben df²-verteilt,mit df = m – p · (p+1) / 2 Freiheitsgraden.
Hypothesenprüfung • Nullhypothese H0: S = () • diesmal nicht theoriefreie Verneinung von H1, sondern theoriekonforme Vorhersage. Grund: Verteilung bekannt, testbar. • Alternativhypothese H1: S () • theoriefreie Verneinung von H0. • -Fehler-Niveau festlegen, z. B. p = 0.05 • wenn p(²|H0) p: Modell verwerfen • wenn p(²|H0) > p: ???
Kausalität und Korrelation • X1 ist korreliert mit X2. • X1 ist Ursache für X2. • X2 ist Ursache für X1. • X1 und X2 beeinflussen sich gegenseitig. • X1 und X2 werden von X3beeinflußt. X1 X2 1 X1 X2 e2 1 e1 X1 X2 X1 X2 X3 1 1 1 1 e1 X1 X2 e2
SGM für eine einfache Korrelation • X ist korreliert mit Y. • X ist Ursache für Y. X Y 1 X Y e • Definitionsgleichungen: • y = a + b · x + e • cor(x,e) = 0 • Strukturgleichungen • Vxx = Vxx • Vyy = b²·Vxx + Vee+ 2·Vxe • Vxy = b·Vxx+ Vxe • Identifikationsgleichungen • Vxx = Vxx • b = Vxy/Vxx = rxy · (Vyy/Vxx) • Vee = Vyy – b²·Vxx= Vyy · (1 – rxy²)