530 likes | 658 Views
Multiple Regression. Gliederung Strukturgleichung Regressionskoeffizienten Der F -Test Quadratsummen Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS
E N D
Multiple Regression Gliederung • Strukturgleichung • Regressionskoeffizienten • Der F-Test • Quadratsummen • Determinationskoeffizient • Selektion der Prädiktoren • Voraussetzungen der Multiplen Regressionsanalyse • Die Multiple Regression in SPSS • Mediator- und Moderatoranalysen mit der Multiplen Regression 02_multiple_regression1
Ziel der Multiplen Korrelation Ziel der Multiplen Regression • Vorhersage eines Merkmals (Kriterium) • durch mehrere andere Merkmale (Prädiktoren) Beispiel • Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, … • Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren, … 02_multiple_regression2
Beispiel Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren Frage:Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden? 02_multiple_regression3
Graphische Darstellung der multiplen Regression Optimismus β1 soziales Netz β2 Psychische Gesundheit β3 Stressoren … 02_multiple_regression4
Die Strukturgleichung Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung: • Die bivariate Regression: • Die multivariate (multiple) Regression: 02_multiple_regression5
b-Gewichte • Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung: • b1, b2, b3, a • Interpretation der b-Gewichte: • Das Vorzeichen gibt die Richtung des Effekts an. • Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird. • Aber: Das Gewicht häng von der Skalierung (dem Wertebereich)von x und y ab. • Einfacher zu interpretieren sind die standardisierten Gewichte (β). • Die β-Gewichte haben einen Wertebereich von -1 bis +1 • Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analysez-standardisiert werden. • b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren! 02_multiple_regression6
Methode der kleinsten Quadrate Bestimmung der Parameter • Die Parameter (b1, … , bk, a) werden so bestimmt, dass der Vorhersagefehler minimal ist: • Dazu wird die „Methode der kleinsten Quadrate“ verwendet: • Vorteile: • das Vorzeichen der Differenz fällt weg • große Abweichungen werden stärker berücksichtigt als kleine Abweichungen. 02_multiple_regression7
Methode der kleinsten Quadrate 02_multiple_regression8
Methode der kleinsten Quadrate 02_multiple_regression9
Signifikanztests Signifikanztests der multiplen Regression • Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt? F-Test • Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag? t-Tests für alle Prädiktoren 02_multiple_regression10
Quadratsummen • Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. • Als Maß für die Varianz werden die sogenannten „Quadratsummen“ verwendet. • „Quadratsumme“ = „SumofSquares“ = SS • Die Quadratsumme ist ein unstandardisiertesMaß für die Varianz • Es gilt: Aufgeklärte Varianz nicht-erklärbare Varianz 02_multiple_regression11
Quadratsummen standardisiert:„Mean Sums ofSquares“ unstandardisiert:„Sums of Squares“ df1 df2 K: Anzahl der Prädiktoren N: Anzahl der Probanden 02_multiple_regression12
Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes: • Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen. • Der kritische F-Wert wird aus einer Tabelle abgelesen(berücksichtigt werden df1, df2, α) • Femp > Fkrit bedeutet: • Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt • Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen 02_multiple_regression13
Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes aus R² Auflösen nach SSreg: Auflösen nach SSres: 02_multiple_regression15
Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes aus R² Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt. 02_multiple_regression16
Der F-Test der Multiplen Regression Beispiel 1: Gewichtsverlust • Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden? • Berechnung der Multiplen Korrelation 02_multiple_regression17
Der F-Test der Multiplen Regression Der F-Test (für N=18) Weil Femp> Fkritgilt: • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt • x1 und x2 können y vorhersagen 02_multiple_regression18
Der F-Test der Multiplen Regression Beispiel 2: Psychische Gesundheit • Kann die psychische Gesundheit Optimismus, Qualität des „sozialen Netzes“ und der Stressbelastung vorhergesagt werden? • Berechnung der Multiplen Korrelation • R = .73 • R² = .54 • N = 60 • Weil Femp> Fkritgilt: • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt • x1 und x2 können y vorhersagen 02_multiple_regression19
t-Tests für die Parameter t-Tests für die Parameter • Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind. • Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft. • Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450) • Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet. • Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden. • Auch für die additive Konstante ird ein t-Test durchgeführt • Diese Tests gelten nur im Kontext der verendeten Prädiktoren! 02_multiple_regression20
Korrigiertes R² R² überschätzt Populationszusammenhang • Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population • Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R² • Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1) • Beispiel: k=3; N=10: E(R²) = 2/9 = .22 • Empfehlung: Verhältnis N/K von mind. 20, besser 30 • Beispiel: k=2, N=40: E(R²) = 1/39 = .03k=2, N=60: E(R²) = 1/59 = .02 02_multiple_regression21
Korrigiertes R² Lösung: Korrigiertes R² • Schrumpfungskorrektur nach Olkin & Pratt: • Beispiel: k=3; N=20; R² = .50 02_multiple_regression22
Auswahl der Prädiktoren • In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten. • Dabei sollte immer ein „sparsames“ Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert. • Mögliche Strategien • Hypothesengeleitetes Vorgehen: • „Einschluss“ • Hierarchische Regressionsanalysen: • Vorwärts Selektion • Rückwärts Eliminierung • Schrittweises Vorgehen 02_multiple_regression23
Auswahl der Prädiktoren Einschluss - Strategie • A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie) • Vorteile: • Hypothesengeleitetes Vorgehen • Nachteile: • Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) • Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern. • Möglicherweise werden wichtige Prädiktoren „vergessen“ 02_multiple_regression24
Auswahl der Prädiktoren Hierarchisches Regressionsanalysen • Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt. • Vorteile: • Minimum an Prädiktoren • Exploratives Vorgehen möglich • Nachteile: • „Capitalizationof Chance“ wegen der Bevorzugung hoch korrelierender Prädiktoren • Kein hypothesengeleitetes Vorgehen 02_multiple_regression25
Auswahl der Prädiktoren Vorwärts - Selektion • Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen. • Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität). • Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht,ist die endgültige Auswahl gefunden. 02_multiple_regression26
Auswahl der Prädiktoren Rückwärts - Eliminierung • Zunächst werden alle Prädiktoren eingeschlossen. • Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt. • Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen. 02_multiple_regression27
Auswahl der Prädiktoren Schrittweise Selektion: • Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt. • Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt. • Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können. 02_multiple_regression28
Voraussetzungen Voraussetzungen der Multiplen Regression • Multivariate Normalverteilung aller Variablen(schwer zu überprüfen) • Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme. • Weitere Einschränkung:Es werden nur lineare Zusammenhänge gefunden. 02_multiple_regression29
Die Multiple Regressionsanalyse in SPSS regression /dependentpg /method enter opt, sn, str 02_multiple_regression30
SPSS 02_multiple_regression31
SPSS 02_multiple_regression32
Weitere Regressionsanalysen Weitere Regressionsanalysen • Mediatoranalyse • Wird der Zusammenhang von X und Y durch M vermittelt? • Moderatoranalyse • Wird der Zusammenhang von X und Y durch M beeinflusst? 02_multiple_regression33
Mediatoranalyse Mediatoranalyse • Fragestellung: „Wird der Zusammenhang von X und Y durch M vermittelt?“ • Beispiel: „Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt?“ • Es wird also eine Annahme zur Kausalität gemacht • Es wird untersucht, wie die Motivation wirkt. • Literatur: • Baron, R. M., & Kenny, D. A. (1986). The moderator-mediatordistinction in socialpsychologicalresearch: Conceptual, strategic, andstatisticalconsiderations. Journal ofPersonalityandSocialPsychology, 51(6), 1173-1182. 02_multiple_regression34
Mediatoranalyse Prädiktor Kriterium Motivation Note Lerndauer Mediator 02_multiple_regression35
Mediatoranalyse Schritt 1 • Regression von Y auf X.(Regression der Note auf die Motivation)Y = b X + a • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b ≠ 0), kann eine Mediation vorliegen. bY,X≠0 Motivation Note Lerndauer 02_multiple_regression36
Mediatoranalyse Schritt 2 • Regression von M auf X.(Regression der Lerndauer auf die Motivation) M = b X + a • Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note bM,X≠0 Lerndauer 02_multiple_regression37
Mediatoranalyse Schritt 3 • Regression von Y auf M.(Regression der Note auf die Lerndauer) Y = b M + a • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note bY,M≠0 Lerndauer 02_multiple_regression38
Mediatoranalyse Schritt 4 • Regression von Y auf X und M.(Regression der Note auf die Lerndauer und die Motivation) Y = b1 X + b2 M + a • Ergebnis: • bX,M = 0: „Vollständige Mediation“ • |bX,M|> 0 ,aber kleiner als in Schritt 1: „partielle Mediation“ • bX,Mgleich wie in Schritt 1: Keine Mediation bX,M=0 Motivation Note bY,M≠0 Lerndauer 02_multiple_regression39
Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden. • Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt. 02_multiple_regression40
Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden. 02_multiple_regression41
Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden. 02_multiple_regression42
Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≈0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note • „Vollständige Mediation“ 02_multiple_regression43
Moderatoranalyse Moderatoranalyse • Fragestellung: „Wird der Zusammenhang von X und Y durch M beeinflusst?“ • Beispiel: „Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst?“ • Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit. • Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird. 02_multiple_regression44
Moderatoranalyse Prädiktor Kriterium Lerndauer Note math. IQ Moderator Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression 02_multiple_regression45
Moderatoranalyse Hinweise: • Für jede Ausprägung von M müsste eine eigene Regres-sionsgeradegezeigt werden • Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen. Note math. IQ + math. IQ - Lerndauer 02_multiple_regression46
Moderatoranalyse Grundüberlegung: • Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst? • Y = b1 X + a1 (1) • Es wird angenommen, dass b1 und a1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können: • b1= b2 M + a2(2) • a1= b3M + a3 (3) • Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt… 02_multiple_regression47
Moderatoranalyse • Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet. • Das Regressionsgewicht von MX (b1‘= b2) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt! Prädiktoren(UV‘s) Regressions-Koeffizienten 02_multiple_regression48
Moderatoranalyse • 1. Schritt: z-Transformation von X und M (dies ist aus mathe-matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird). • 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M). • 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P • Interpretation des Regressionsgewichts von P: • b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden • b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden • b≈0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M. 02_multiple_regression49
Moderatoranalyse in SPSS *** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependentnote /method enter ZlernZmIQ P. • Mit dem Befehl „descriptives /save“ werden Variablen z-transformiert. • Es entstehen neue Spalten im Datenfenster, bei denen ein „Z“ vor den ursprünglichen Variablennamen gehängt wurde. • Mit „compute“ wird eine neue Variable P als Produkt von Zlernund ZmIQberechnet. 02_multiple_regression50