240 likes | 389 Views
Forschungsstatistik I. Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz. Stunde 09.02.06. Themen der Woche. Partialkorrelation Multiple Korrelation und Regression. x 1. x. x 2. x 1. x. x 2.
E N D
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 09.02.06
Themen der Woche • Partialkorrelation • Multiple Korrelation und Regression
x1 x x2 x1 x x2 Deutungsmöglichkeiten der bivariaten Korrelation • Kausalität:X1® X2 • Latente Drittvariable: • Direkte und indirekte Kausalität:
z rzx rzy G G rxy x y Partialkorrelation Die Korrelation zweier Variablen, die vom Effekt anderer (spezifizierter) Variablen bereinigt wurden. Prüfung einer Kausalvermutung: rxy komme dadurch zustande, daß z ursächlich auf x und y einwirkt:
rexey x y rxy z z Partialkorrelation Prüfung • Sage x aus z voraus und berechne Residuen ex • Sage y aus z voraus und berechne Residuen ey • Berechne die Korrelation rexey Ist Partialkorrelation (Korrelation rexey) Null, so beruht die Korrelation rxy tatsächlich nur auf der Einwirkung von z.
Partialkorrelation Y aus Z X aus Z ex und ey korrelieren: [Tafelbeispiele]
Datenbeispiel X: Rechnen Y: Sprache Z: Förderdauer rxy=.56 rxz=.72 ryz=.73 Korreliert Rechnen und Sprache nur, weil die Kinder Frühförderung erhalten haben?
rxy.z=.07 Datenbeispiel: Korr. der Residuen X: Rechnen Y: Sprache Z: Förderdauer Residuen: Korrelation der Residuen: Ja: Ohne die Frühförderung sind Rechen- und Sprachleistung unabhängig! [Tafelbetrachtung]
Multiple Regression Ziele • Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren • Mit konkreten Meßvariablen • Information über die Wichtigkeit einzelner Einflußgrößen im Kontext von Multikollinearität
Multiple Korrelation & Regression Variable X, Y, Z: Sage Z aus X und Y vorher ! Die ß- Koeffizienten müssen nach dem Kleinstquadratkriterium bestimmt werden!
Beobachtetes Kriterium Vorhergesagtes Kriterium Allgemeine Schätzgleichung
Schätzfehler: Optimierungskriterium für die Regressionsgewichte: wobei Modellformulierung Schätzung der Regressionsgewichte
Modellformulierung, standardisiert Kriterium: mit die additive Konstante fällt weg, nur Gewichte für Prädiktoren Schätzung der Regressionsgewichte
Lösung: Normalgleichungen Vektorschreibweise: Multipliziere nacheinander mit jedem Prädiktor, summiere über Fälle und teile durch N, führt auf: Schätzung der Regressionsgewichte
Normalgleichungen in Matrix Notation System: wobei: Lösung: Inverse Prädiktorkorrelationsmatrix vormultiplizieren Schätzung der Regressionsgewichte
3 Variablen Fall Kleinstquadratkriterium: Für den 3 Variablenfall (x,y,z) bequem nach Standardisierung über Normalgleichungen zu lösen! führt auf: [Tafelrechnung]
Multipler Korrelationskoeffizient Bedeutung aus Varianzzerlegung: Schätzung der Regressionsgewichte
1) Ist die Korrelation der vorhergesagten Werte mit den beobachteten Werten Z Multipler Korrelationskoeffizient Im 3 Variablenfall: • 2) Ist immer größer oder gleich der größten Einzelkorrelation • 3) Sein Quadrat gibt wieder den Anteil der Vorhersagevarianz an der Gesamtvarianz an:
Multiple Korrelation & Regression Interpretation • Sind die Prädiktoren unabhängig, so sind die ß-Gewichte • gleich den Kriteriumskorrelationen und die aufgeklärte • Varianz ist die Summe der Quadrate der ß-Gewichte 1) • Sind die Prädiktoren abhängig (interkorreliert), so • unterscheiden wir 3 Fälle: 2) • Der Pädiktor enthält Information, die schon der andere Prädiktor enthält: er ist redundant • Der Prädiktor unterdrückt irrelevante Varianzanteile in dem anderenPrädiktor: er ist ein Suppressor • Der Prädiktor besitzt Kriteriumsvarianz, die der andere Prädiktor nichtbesitzt und unterdrückt irrelevante Varianz des anderen Prädiktors:er ist valide und nützlich. Interpretation
Interpretation der Lösung 1.Unabhängige Prädiktoren Bei rein unabhängigen Prädiktoren sind die b- Gewichte identisch mit den Kriteriumskorrelationen Der multiple Determinationskoeffizient ist dann einfach die Summe der quadrierten Kriteriumskorrelationen (=erklärter Varianzanteil) Interpretation
Interpretation: abhängige Prädiktoren Untersuchung der Abhängigkeit im Kontext von Multikollinearität • Bedeutet die Abhängigkeit Redundanz, d.h. messen die vielen Variablen Aspekte gemeinsam, so daß man prinzipiell weniger (latente) Variablen benötigt? (unerwünschter Aspekt) • Erfassen die Abhängigkeiten Teile der Kontamination der Variablen und wirken so optimierend auf die gesamte Schätzgleichung (Suppressionseffekt, erwünscht)? Interpretation
Multiple Korrelation & Regression Redundanz Die Variable j ist redundant zur Vorhersage von Variable k, Wenn gilt: Nützlichkeit der Variable j zur Vorhersage von k: • so existieren Suppressionseffekte. U ist der Betrag, um den R2 wächst durch Aufnahme von Variable j in die Gleichung. [Tafelbeispiele] Interpretation
Identifikation von Suppressionseffekten Für mehr als 3 Variablen über die Nützlichkeit: Variable j ist Suppressor, wenn gilt Also die Zunahme der erklärten Varianz durch Aufnahme der Variable muss grösser sein als die quadrierte einzelne Validität. Für nur 3 Variablen (x,y,z) relativ einfach (z = Kriterium): Variable y ist Suppressor, wenn gilt Interpretation
Multiple Korrelation & Regression Suppression rxz ryz=0 rxy X Y Z Y „bindet“ irrelevante Kriteriumsinformation Partialkorrelation rxz.y ist erheblich größer als rxz [Berechnungsbeispiele, Venn-Diagramme]