1 / 53

Multiple Regression

Multiple Regression. Gliederung Strukturgleichung Regressionskoeffizienten Der F -Test Quadratsummen Determinationskoeffizient Selektion der Prädiktoren Voraussetzungen der Multiplen Regressionsanalyse Die Multiple Regression in SPSS

tien
Download Presentation

Multiple Regression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Multiple Regression Gliederung • Strukturgleichung • Regressionskoeffizienten • Der F-Test • Quadratsummen • Determinationskoeffizient • Selektion der Prädiktoren • Voraussetzungen der Multiplen Regressionsanalyse • Die Multiple Regression in SPSS • Mediator- und Moderatoranalysen mit der Multiplen Regression 02_multiple_regression1

  2. Ziel der Multiplen Korrelation Ziel der Multiplen Regression • Vorhersage eines Merkmals (Kriterium) • durch mehrere andere Merkmale (Prädiktoren) Beispiel • Vorhersage der Klausurnote durch mathematischen Fähigkeiten Anzahl der Vorlesungs- und Tutoratsbesuche, Anzahl der Arbeitsstunden zu Hause, Motivation, Interesse, … • Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren, … 02_multiple_regression2

  3. Beispiel Beispiel: Vorhersage der Psychischen Gesundheit durch Optimismus, Qualität des „sozialen Netzes“, Stressoren Frage:Wie kann die psychische Gesundheit durch die drei Prädiktoren vorhergesagt werden? 02_multiple_regression3

  4. Graphische Darstellung der multiplen Regression Optimismus β1 soziales Netz β2 Psychische Gesundheit β3 Stressoren … 02_multiple_regression4

  5. Die Strukturgleichung Die Vorhersage erfolgt, wie bei der binären Regression, durch eine einfache Strukturgleichung: • Die bivariate Regression: • Die multivariate (multiple) Regression: 02_multiple_regression5

  6. b-Gewichte • Ziel der Regressionsanalyse ist also die Bestimmung der Parameter der Regressionsgleichung: • b1, b2, b3, a • Interpretation der b-Gewichte: • Das Vorzeichen gibt die Richtung des Effekts an. • Der Betrag gibt an, wie stark ein Prädiktor gewichtet wird. • Aber: Das Gewicht häng von der Skalierung (dem Wertebereich)von x und y ab. • Einfacher zu interpretieren sind die standardisierten Gewichte (β). • Die β-Gewichte haben einen Wertebereich von -1 bis +1 • Sie entsprechen den b-Gewichten wenn alle Variablen vor der Analysez-standardisiert werden. • b-Gewichte (und β) sind abhängig von der Auswahl der Prädiktoren! 02_multiple_regression6

  7. Methode der kleinsten Quadrate Bestimmung der Parameter • Die Parameter (b1, … , bk, a) werden so bestimmt, dass der Vorhersagefehler minimal ist: • Dazu wird die „Methode der kleinsten Quadrate“ verwendet: • Vorteile: • das Vorzeichen der Differenz fällt weg • große Abweichungen werden stärker berücksichtigt als kleine Abweichungen. 02_multiple_regression7

  8. Methode der kleinsten Quadrate 02_multiple_regression8

  9. Methode der kleinsten Quadrate 02_multiple_regression9

  10. Signifikanztests Signifikanztests der multiplen Regression • Wird ein statistisch bedeutsamer Anteil der Varianz des Kriteriums durch alle Prädiktoren gemeinsam aufgeklärt?  F-Test • Leisten die einzelnen Prädiktoren einen bedeutsamen Beitrag?  t-Tests für alle Prädiktoren 02_multiple_regression10

  11. Quadratsummen • Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil. • Als Maß für die Varianz werden die sogenannten „Quadratsummen“ verwendet. • „Quadratsumme“ = „SumofSquares“ = SS • Die Quadratsumme ist ein unstandardisiertesMaß für die Varianz • Es gilt: Aufgeklärte Varianz nicht-erklärbare Varianz 02_multiple_regression11

  12. Quadratsummen standardisiert:„Mean Sums ofSquares“ unstandardisiert:„Sums of Squares“ df1 df2 K: Anzahl der Prädiktoren N: Anzahl der Probanden 02_multiple_regression12

  13. Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes: • Um dem empirische F-Wert zu interpretieren, wird dieser mit einem kritischen F-Wert verglichen. • Der kritische F-Wert wird aus einer Tabelle abgelesen(berücksichtigt werden df1, df2, α) • Femp > Fkrit bedeutet: • Ein bedeutsamer Teil der Kriteriumsvarianz wird aufgeklärt • Die Prädiktoren sind geeignet, um das Kriterium vorherzusagen 02_multiple_regression13

  14. 02_multiple_regression14

  15. Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes aus R² Auflösen nach SSreg: Auflösen nach SSres: 02_multiple_regression15

  16. Der F-Test der Multiplen Regression Berechnung des empirischen F-Wertes aus R²  Eine Multiple Regression / Korrelation kann auf Signifikanz geprüft werden, wenn man R² kennt. 02_multiple_regression16

  17. Der F-Test der Multiplen Regression Beispiel 1: Gewichtsverlust • Kann der Gewichtsverlust durch Training und Kalorienaufnahme vorhergesagt werden? • Berechnung der Multiplen Korrelation 02_multiple_regression17

  18. Der F-Test der Multiplen Regression Der F-Test (für N=18) Weil Femp> Fkritgilt: • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt • x1 und x2 können y vorhersagen 02_multiple_regression18

  19. Der F-Test der Multiplen Regression Beispiel 2: Psychische Gesundheit • Kann die psychische Gesundheit Optimismus, Qualität des „sozialen Netzes“ und der Stressbelastung vorhergesagt werden? • Berechnung der Multiplen Korrelation • R = .73 • R² = .54 • N = 60 • Weil Femp> Fkritgilt: • Ein bedeutsamer Teil der Varianz von y wird aufgeklärt • x1 und x2 können y vorhersagen 02_multiple_regression19

  20. t-Tests für die Parameter t-Tests für die Parameter • Wenn die Regressionsanalyse insgesamt einen statistisch bedeutsamen Zusammenhang aufdeckt ist noch nichts darüber bekannt, welche Prädiktoren wichtig für die Varianzaufklärung sind. • Dazu werden die einzelnen b-Gewichte separat auf Signifikanz geprüft. • Dies geschiet mit t-Tests für alle Parameter (zur Berechnung: vgl. Bortz, S. 450) • Es wird jeweils die Nullhypothese geprüft, dass sich das jeweilige b-Gewicht nicht von 0 unterscheidet. • Bei einem nicht-Signifikanten Ergebnis kann der entsprechende Prädiktor also weggelassen werden. • Auch für die additive Konstante ird ein t-Test durchgeführt • Diese Tests gelten nur im Kontext der verendeten Prädiktoren! 02_multiple_regression20

  21. Korrigiertes R² R² überschätzt Populationszusammenhang • Die Vorhersage in einer Stichprobe überschätzt Vorhersage in anderen Stichproben bzw. in der Population • Je kleiner die Stichprobe und je größer die Anzahl der Prädiktoren desto größer die Überschätzung von R² • Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1) • Beispiel: k=3; N=10: E(R²) = 2/9 = .22 • Empfehlung: Verhältnis N/K von mind. 20, besser 30 • Beispiel: k=2, N=40: E(R²) = 1/39 = .03k=2, N=60: E(R²) = 1/59 = .02 02_multiple_regression21

  22. Korrigiertes R² Lösung: Korrigiertes R² • Schrumpfungskorrektur nach Olkin & Pratt: • Beispiel: k=3; N=20; R² = .50 02_multiple_regression22

  23. Auswahl der Prädiktoren • In der Praxis stellt sich das Problem, welche und wie viele Prädiktoren für die Vorhersage ausgewählt werden sollten. • Dabei sollte immer ein „sparsames“ Vorgehen gewählt werden, weil eine große Prädiktormenge eine Überschätzung von R² fördert. • Mögliche Strategien • Hypothesengeleitetes Vorgehen: • „Einschluss“ • Hierarchische Regressionsanalysen: • Vorwärts Selektion • Rückwärts Eliminierung • Schrittweises Vorgehen 02_multiple_regression23

  24. Auswahl der Prädiktoren Einschluss - Strategie • A priori Auswahl der aufzunehmenden Prädiktoren (aufgrund von Vorwissen oder Theorie) • Vorteile: • Hypothesengeleitetes Vorgehen • Nachteile: • Möglicherweise Aufnahme von mehr Prädiktoren als erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten) • Dies kann zu einer Verringerung des F-Wertes führen (wegen der größeren Anzahl der Zähler-Freiheitsgrade), und damit die Teststärke verringern. • Möglicherweise werden wichtige Prädiktoren „vergessen“ 02_multiple_regression24

  25. Auswahl der Prädiktoren Hierarchisches Regressionsanalysen • Die am besten passenden Prädiktoren werden post-hoc (empirisch) bestimmt. • Vorteile: • Minimum an Prädiktoren • Exploratives Vorgehen möglich • Nachteile: • „Capitalizationof Chance“ wegen der Bevorzugung hoch korrelierender Prädiktoren • Kein hypothesengeleitetes Vorgehen 02_multiple_regression25

  26. Auswahl der Prädiktoren Vorwärts - Selektion • Aus einer Menge möglicher Prädiktoren wird der Prädiktor mit der höchsten Validität zuerst aufgenommen. • Unter den verbleibenden Prädiktoren wird immer derjenige ausgewählt, der den größten Teil der verbleibenden Varianz aufklärt (=höchste inkrementelle Validität). • Wenn kein Prädiktor die aufgeklärte Varianz signifikant erhöht,ist die endgültige Auswahl gefunden. 02_multiple_regression26

  27. Auswahl der Prädiktoren Rückwärts - Eliminierung • Zunächst werden alle Prädiktoren eingeschlossen. • Dann wird immer der Prädiktor weglassen, der am wenigsten zur Vorhersage beiträgt. • Wenn der Ausschluss eines Prädiktors zu einer signifikanten Reduktion der aufgeklärten Varianz führen würde, wird der Selektionsprozess abgebrochen. 02_multiple_regression27

  28. Auswahl der Prädiktoren Schrittweise Selektion: • Es wird abwechseln ein Vorwärts- und ein Rückwärtsschritt durchgeführt. • Dadurch werden Variablen, die im Kontext neu aufgenommener Prädiktoren keine Varianz mehr aufklären, im Nachhinein wieder entfernt. • Diese Schritte werden so lange wiederholt, bis keine weiteren Variablen ein- oder ausgeschlossen werden können. 02_multiple_regression28

  29. Voraussetzungen Voraussetzungen der Multiplen Regression • Multivariate Normalverteilung aller Variablen(schwer zu überprüfen) • Aber: bei großen Stichproben (mindestens 20 Probanden pro Prädiktor) ist die Regressionsanalyse robust gegenüber Verletzungen dieser Annahme. • Weitere Einschränkung:Es werden nur lineare Zusammenhänge gefunden. 02_multiple_regression29

  30. Die Multiple Regressionsanalyse in SPSS regression /dependentpg /method enter opt, sn, str 02_multiple_regression30

  31. SPSS 02_multiple_regression31

  32. SPSS 02_multiple_regression32

  33. Weitere Regressionsanalysen Weitere Regressionsanalysen • Mediatoranalyse • Wird der Zusammenhang von X und Y durch M vermittelt? • Moderatoranalyse • Wird der Zusammenhang von X und Y durch M beeinflusst? 02_multiple_regression33

  34. Mediatoranalyse Mediatoranalyse • Fragestellung: „Wird der Zusammenhang von X und Y durch M vermittelt?“ • Beispiel: „Wird der Zusammenhang von Motivation und Note durch Lernaufwand vermittelt?“ • Es wird also eine Annahme zur Kausalität gemacht • Es wird untersucht, wie die Motivation wirkt. • Literatur: • Baron, R. M., & Kenny, D. A. (1986). The moderator-mediatordistinction in socialpsychologicalresearch: Conceptual, strategic, andstatisticalconsiderations. Journal ofPersonalityandSocialPsychology, 51(6), 1173-1182. 02_multiple_regression34

  35. Mediatoranalyse Prädiktor Kriterium Motivation Note Lerndauer Mediator 02_multiple_regression35

  36. Mediatoranalyse Schritt 1 • Regression von Y auf X.(Regression der Note auf die Motivation)Y = b X + a • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und X zeigt (b ≠ 0), kann eine Mediation vorliegen. bY,X≠0 Motivation Note Lerndauer 02_multiple_regression36

  37. Mediatoranalyse Schritt 2 • Regression von M auf X.(Regression der Lerndauer auf die Motivation) M = b X + a • Nur wenn sich ein signifikanter Zusammenhang zwischen M und X zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note bM,X≠0 Lerndauer 02_multiple_regression37

  38. Mediatoranalyse Schritt 3 • Regression von Y auf M.(Regression der Note auf die Lerndauer) Y = b M + a • Nur wenn sich ein signifikanter Zusammenhang zwischen Y und M zeigt (b ≠ 0), kann eine Mediation vorliegen. Motivation Note bY,M≠0 Lerndauer 02_multiple_regression38

  39. Mediatoranalyse Schritt 4 • Regression von Y auf X und M.(Regression der Note auf die Lerndauer und die Motivation) Y = b1 X + b2 M + a • Ergebnis: • bX,M = 0: „Vollständige Mediation“ • |bX,M|> 0 ,aber kleiner als in Schritt 1: „partielle Mediation“ • bX,Mgleich wie in Schritt 1: Keine Mediation bX,M=0 Motivation Note bY,M≠0 Lerndauer 02_multiple_regression39

  40. Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. Die Note kann durch die Motivation vorhergesagt werden. • Hinweis: Das b-Gewicht ist negativ, da es bei hoher Motivation zu geringen (guten) Noten kommt. 02_multiple_regression40

  41. Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. die Lerndauer kann durch die Motivation vorhergesagt werden. 02_multiple_regression41

  42. Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≠0, (sig.) d.h. die Note kann durch die Lerndauer vorhergesagt werden. 02_multiple_regression42

  43. Mediatoranalyse in SPSS *** step 1. reg /dependentnote /method enter mot. *** step 2. reg /dependent lern /method enter mot. *** step 3. reg /dependentnote /method enter lern. *** step 4. reg /dependentnote /method enter mot lern. • b≈0, (n.s.), d.h. die Motivation leistet über die Lerndauer hinaus keinen Beitrag mehr zur Vorhersage der Note • „Vollständige Mediation“ 02_multiple_regression43

  44. Moderatoranalyse Moderatoranalyse • Fragestellung: „Wird der Zusammenhang von X und Y durch M beeinflusst?“ • Beispiel: „Wird der Zusammenhang von Lerndauer und Note durch mathematische Intelligenz beeinflusst?“ • Hypothese: Die gleiche Lernzeit wirkt sich bei Probanden mit hoher mathematischer Fähigkeit stärker aus als bei Probanden mit geringer mathematischer Fähigkeit. • Im Gegensatz zur Mediatiorvariablen (M) wird nicht angenommen, dass die Moderatorvariable durch die UV (X) beeinflusst wird. 02_multiple_regression44

  45. Moderatoranalyse Prädiktor Kriterium Lerndauer Note math. IQ Moderator Die Moderatorvariable wirkt nicht direkt auf die Note, sondern auf den Zusammenhang, d.h. auf das b-Gewicht der Regression 02_multiple_regression45

  46. Moderatoranalyse Hinweise: • Für jede Ausprägung von M müsste eine eigene Regres-sionsgeradegezeigt werden • Oft erden nur 2 Geraden gezeigt, z.B. für Probanden die eine Standardabeichung über bzw. unter dem Mittelwert liegen. Note math. IQ + math. IQ - Lerndauer 02_multiple_regression46

  47. Moderatoranalyse Grundüberlegung: • Wie wird die Regressionsgerade der Regression von Y auf X durch M beeinflusst? • Y = b1 X + a1 (1) • Es wird angenommen, dass b1 und a1 von M abhängen, d.h. dass beide Koeffizienten durch eine Regression auf M vorhergesagt werden können: • b1= b2 M + a2(2) • a1= b3M + a3 (3) • Jetzt werden die Gleichungen (2) und (3) in (1) eingesetzt… 02_multiple_regression47

  48. Moderatoranalyse • Es wird nun eine Regression mit den drei Prädiktoren X, M und MX berechnet. • Das Regressionsgewicht von MX (b1‘= b2) gibt an, ob und wie stark die Steigung der ursprünglichen Regression von M abhängt! Prädiktoren(UV‘s) Regressions-Koeffizienten 02_multiple_regression48

  49. Moderatoranalyse • 1. Schritt: z-Transformation von X und M (dies ist aus mathe-matischen Gründen empfehlenswert, auf die hier nicht weiter eingegangen wird). • 2. Schritt: Berechnung eines neuen Prädiktors: P = z(X) ∙ z(M). • 3. Schritt: Berechnung einer Regression von Y auf z(X), z(Y) und P • Interpretation des Regressionsgewichts von P: • b > 0 (sig): Je größer M, desto höher (positiver) die Steigung der ursprünglichen Regressionsgeraden • b < 0 (sig) : Je größer M, desto geringer (negativer) die Steigung der ursprünglichen Regressionsgeraden • b≈0 (n.s.): Keine Moderation des Zusammenhangs von X und Y durch M. 02_multiple_regression49

  50. Moderatoranalyse in SPSS *** step 1. desc lern, mIQ /save. *** step 2. compute P = Zlern*ZmIQ. *** step 3. reg /dependentnote /method enter ZlernZmIQ P. • Mit dem Befehl „descriptives /save“ werden Variablen z-transformiert. • Es entstehen neue Spalten im Datenfenster, bei denen ein „Z“ vor den ursprünglichen Variablennamen gehängt wurde. • Mit „compute“ wird eine neue Variable P als Produkt von Zlernund ZmIQberechnet. 02_multiple_regression50

More Related