800 likes | 973 Views
Multivariate Statistische Verfahren. Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen. Wozu multivariate Statistik, und was ist das überhaupt?. Georg Wilhelm Friedrich Hegel. 27. August 1770 – 14.November 1831. Das Wahre ist das Ganze.
E N D
Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen
Wozu multivariate Statistik, und was ist das überhaupt? Multivariate Verfahren
Georg Wilhelm Friedrich Hegel 27. August 1770 – 14.November 1831 Das Wahre ist das Ganze. Das Ganze aber ist nur das durch seine Entwicklung sich vollendende Wesen. Es ist von dem Absoluten zu sagen, dass es wesentlich Resultat, dass es erst am Ende das ist, was es in Wahrheit ist; und hierin eben besteht seine Natur, Wirkliches, Subjekt oder Sichselbstwerden zu sein. (Aus der Vorrede zur Phänomenologie des Geistes) Multivariate Verfahren
„Variablen“ „objektive“ „subjektive“ Psychischer Zustand „physikalische“ Umgebung Sozio-ökonomische Bedingung Fähigkeit Physiologische Größen Ansichten, Meinungen etc etc Multivariate Verfahren
Verfahren explorieren „schließen“ Klassifizieren/diskriminieren „Strukturen“ Multivariate Verfahren
Multiple Regression Diskrimination-Klassifikation Faktorenanalyse/ Hauptachsentransformation Kanonische Korrelation Korrespondenzanalyse (Kontingenztabellen) Multivariate Verfahren
Überblick 1. Multiple Regression: Gegeben ist eine Menge von etwa p Prädiktorvariablen, anhand derer eine abhängige Variable y „vorhergesagt“ werden soll 2. Faktorenanalyse Ziel: Die Beziehungen (Kovarianzen zwischen einer größeren Anzahl gemessener Variablen durch die Wirkung einer kleineren Anzahl „latenter“, voneinander unabhängiger Variablen zu erklären. 3. Diskriminanzanalyse Ziel: Suche nach einer Gewichtung beobachtbarer Merkmale („Symptome“) zum Zweck optimaler Kategorisierung. 4. Kanonische Korrelation Ziel: Die Kanonische Korrelation ist eine Verallgemeinerung der multiplen Regression; es sollen die latenten Strukturen zweier verschiedener Variablensätze (oder des gleichen Variablensatzes in einer Vorher-Nachher-Messung) miteinander verglichen werden. 5. Korrespondenzanalyse Ziel: Die Identifikation latenter Strukturen, die die Zusammenhänge in einer Kontingenztabelle erklären („Faktorenanalyse von Häufigkeiten“) Multivariate Verfahren
Multiple Regression Multivariate Verfahren
Multiple Regression Multivariate Verfahren
Multiple Regression Multivariate Verfahren
Multiple Regression Multivariate Verfahren
Vorbereitende Betrachtungen zur Motivation Ein simples Beispiel: Körpergewicht als Funktion der Körperlänge: Das übliche Regressionsmodell: K-Gewicht = a K-Länge + b + e e = „Fehler“ (unabhängig von der K-Länge) • Aber das Gewicht hängt sicher noch von weiteren Faktoren ab: • Stoffwechsel (genetisch, epigenetisch. etc) • Bewegung • Essgewohnheiten (kulturelle, psychische Einflüsse Alle diese Effekte (plus reine Messfehler, etwa beim Ablesen der Waage) definieren den „Fehler“. Gibt es eine Möglichkeit, die physische Erscheinung eines Menschen durch eine minimale Menge voneinander unabhängiger Eigenschaften auszudrücken? Multivariate Verfahren
Vorbereitende Betrachtungen zur Motivation Übergang von korrelierenden Koordinaten (Körperlänge, Körpergewicht) zu nicht korrelierenden Koordinaten (Körpergrösse, Stoffwechsel) Formal: Koordinatentransformation bzw. Rotation des ursprünglichen Koordinatensystems! Multivariate Verfahren
Vektoren und Matrizen I Vektoren: Multivariate Verfahren
Vektoren und Matrizen I Multivariate Verfahren
Vektoren und Matrizen I Matrix Vektor Multivariate Verfahren
Vektoren und Matrizen I Vektoren: Multivariate Verfahren
Vektoren und Matrizen I Vektoren: Multivariate Verfahren
Vektoren und Matrizen I Standardisierung: Multivariate Verfahren
Vektoren und Matrizen I Skalarprodukt und der Winkel zwischen den Vektoren Multivariate Verfahren
Bestimmung der Parameter IIIa Wechseln zu Vektoren und Matrizen ! Multivariate Verfahren
Faktorenanalyse – Hauptachsentransformation (PCA) als Approximation (multiple Regression) (Faktorenmodell) Multivariate Verfahren
Beispiel: Evaluation einer Vorlesung Multivariate Verfahren
Zusammenfassung der Daten in einer Matrix Fragen: Spalten Zeilen: Personen Korrelationen: Multivariate Verfahren
Faktorenanalyse: Hauptkomponenten Multivariate Verfahren
Faktorenanalyse: Hauptkomponenten Start- bzw. Standardlösung Rotation (Interpretation) (WS 2003/2004) Multivariate Verfahren
WS 2004/2005 Multivariate Verfahren
Weiteres zum Faktorenmodell: die PCA-Approximation Das Faktorenmodell: i – Person j – Test, gemessene Variable Multivariate Verfahren
Approximation: die Hauptachsentransformation (Principal Component Analysis – PCA) Plausibilitätsbetrachtungen I: zwei Variable – Körperlänge (X1) und Körpergewicht (X2) Multivariate Verfahren
Plausibilitätsbetrachtungen II: • Abweichungen des Gewichts von der Vorhersage ist „zufällig“: • Menge der Nahrungsaufnahme am Vortag • Zeitpunkt der Messung (vor oder nach dem Frühstück) • Sport am Vortag oder kein Sport • etc etc etc 2. Aber es gibt auch systematische Aspekte: unabhängig von der Körperlänge variieren • Stoffwechselintensität • Sozioökonomischer Status, formale Bildung: Fritten versus haute cuisine • etc etc Multivariate Verfahren
Plausibilitätsbetrachtungen III: Es war: Der „Fehler“ wird durch die zufällige Variation der latenten Variablen L2 erklärt. (Hinweis: mehr als zwei latente Variable können hier nicht betrachtet werden, obwohl mehr als zwei solche Variable wirksam sein können. ) Multivariate Verfahren
Bestimmung der Parameter I Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen. Aber die latenten Variablen müssen ja anhand der gemessenen Variablen berechnet werden! Daher: Die Antwort findet man leicht, wenn man den Marizenkalkül heranzieht! Multivariate Verfahren
Bestimmung der Parameter II Multivariate Verfahren
Bestimmung der Parameter III Multivariate Verfahren
Bestimmung der Parameter IV Damit ist das Problem, die latenten Variablen zu bestimmen, im Prinzip gelöst. Multivariate Verfahren
Zusammenfassung der Überlegungen: unbekannt Multivariate Verfahren
Interpretation der SVD Ausprägung des j-ten Tests auf den latenten Dimensionen. Ausprägung der i-ten Person auf den latenten Dimensionen. Merke: es gibt keinen Fehlerterm!!! Multivariate Verfahren
Bestimmung der Parameter IV Man berechnet also die Eigenvektoren und Eigenwerte von X‘X und bestimmt damit die latenten Vektoren L. Die Transformationen von X nach L und umgekehrt von L nach X werden durch zueinander inverse Matrizen bewirkt. • Fragen: • Welche Eigenschaften hat die Lösung (Eindeutigkeit etc), und • Wie ist diese Lösung zu interpretieren? Multivariate Verfahren
Diskussion der Lösung: Rotation und Reduktion Berechnung der latenten Variablen aus den Daten. Das Modell: Daten in X werden durch latente Variablen L erklärt. Multivariate Verfahren
Diskussion der Lösung: Rotation und Reduktion I - Rotation Konfiguration der Personen im (Zahlen) Raum der korrelierten gemessenen Variablen. Konfiguration der Personen im Raum der unkorrelierten latenten Variablen. Rotation Man beachte: maximale Ausdehnung der Konfiguration längs der ersten Achse L1, zweitgrößte Ausdehnung bezüglich L2! Multivariate Verfahren
Diskussion der Lösung: Rotation und Reduktion II - Reduktion Ist die Variation der Punkte bezüglich der L2-Achse klein, kann man annehmen, dass diese Variation nur „Fehler“ repräsentiert. Dann muß nur eine latente Variable, L1, ange-nommen werden. Dies ist die „Reduktion“. Anmerkung: L1 ist nicht notwendig identisch mit der Regressionsgraden! Multivariate Verfahren
Diskussion der Lösung: formale Bedeutung der Eigenvektoren I Ellipsen. Multivariate Verfahren
Diskussion der Lösung: formale Bedeutung der Eigenvektoren II Rotation von Ellipsen Nicht achsenparallel: achsenparallel: Gesucht: Transformationsmatrix T derart, dass x = Ty Aber die Vektoren y definieren eine achsenparallele Ellipse, also muß T‘MT = N eine Diagonalmatrix sein! Welche Orientierung haben die Eigenvektoren? Dann folgt aber, dass T die Matrix der Eigenvektoren von M ist, und N enthält die zugehörigen Eigenwerte! Multivariate Verfahren
Diskussion der Lösung: formale Bedeutung der Eigenvektoren III Orientierung der Eigenvektoren von M: T Die Eigenvektoren der symmetrischen Matrix M haben die gleiche Orientierung wie die Hauptachsen der durch M definierten Ellipse! Daher die Rede von der ‚Hauptachsentransformation‘. Multivariate Verfahren
Transformationsmatrix im Fall einer Ellipse (2-dimensionaler Fall) Kennt man den Winkel, kann man T explizit angeben. Andererseits ist der Winkel im Allgemeinen nicht bekannt. Multivariate Verfahren
Diskussion der Lösung: formale Bedeutung der Eigenvektoren VI C = X‘X bzw. R = Z‘Z sind symmetrische Matrizen und definieren deshalb stets ein Ellipsoid! Die Orientierung der Eigenvektoren von C bzw. R entsprechen den Orientierungen der durch C bzw. R definierten Ellipsoide. Die Matrix der Eigenvektoren von C bzw. R definiert die Transformation (Rotation) des achsenparallelen in ein nicht achsenparalleles Ellipsoid. Multivariate Verfahren
Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen I Vorbetrachtung: Die Singularwertzerlegung (SVD) von X. Multivariate Verfahren