370 likes | 598 Views
Eine kleine Wiederholung. Unterscheidung zwischen: Korrelationsanalyse Lineare Regressionsanalyse. Korrelationsanalyse. X 1 und X 2 sind metrisch. Anwendungsbeispiel:
E N D
Eine kleine Wiederholung Unterscheidung zwischen: Korrelationsanalyse Lineare Regressionsanalyse
Korrelationsanalyse X1 und X2 sind metrisch • Anwendungsbeispiel: • Es wird der Zusammenhang zwischen der Anzahl bisheriger Arbeit-geber (X1) und dem Einkommen (X2) untersucht (ungerichteter Zusammenhang).
Lineare Regressionsanalyse Y ist metrisch X1, X2 und X3 sind metrisch oder dummysiert (nein = 0/ ja = 1) --------------------------------------------------------------------------------------------------------------- Y = Kriterium, Regressand X = Prädiktor, Regressor • Anwendungsbeispiel: • Es wird der Einfluss der Anzahl bisheriger Arbeitgeber (X1) sowie weiterer Variablen (X2 = Alter, X3 = Nationalität) auf das Einkommen (Y) untersucht (gerichteter Zusammenhang).
Einfache lineare Regressionsanalyse • Bei b1 bzw. b handelt es sich um einen Steigungsparameter. Es gilt eine Regressionsgerade zu lokalisieren, • die die empirischen Werte am besten repräsentiert • um die die Punkte im Streudiagramm minimal abweichen/streuen • Gerade steht als Repräsentant für die Beziehung zwischen X und Y • Gerade wird auch als die Linie der kleinsten Quadrate gezeichnet, die Vorgehensweise nennt man auch Ordinary Least Squares (OLS, Methode der kleinsten Quadrate)
Darstellung einer linearen Beziehung a) Geometrische Darstellung Regressionsgerade b) Algebraische Darstellung Regressionsgleichung a = Regressionskonstante bzw. Schnittpunkt der Geraden y’i mit der Y-Achse • Das ist jener (Erwartungs-)Wert von Y, wenn X = 0 ist b = Steigung der Geraden • +b = Es besteht eine positive Beziehung zwischen X und Y(Gerade verläuft im Streudiagramm von links unten nach rechts oben) • -b = Es besteht eine negative Beziehung zwischen X und Y(Gerade verläuft im Streudiagramm von links oben nach rechts unten)
Die Methode der kleinsten Quadrate Die beste Gerade ist diejenige, bei der wir den geringsten Fehler in der Vor-hersage der Y-Werte auf der Basis der X-Werte begehen sollte für jede Messung so gering wie möglich sein Positive und negative Abweichungen von den vorhergesagten Werten sollen sich nicht zu Null addieren. Die Messwertabweichungen werden folglich quadriert, die Summe aller Abweichungen minimiert:
Varianzzerlegung (1) bzw. Regressions-residuum ei bzw. • Wenn eine Beziehung zwischen X und Y besteht, dann muss der Vorhersagefehler E2 kleiner sein als E1. • Wenn E2 = E1, dann besteht zwischen X und Y kein Zusammenhang.
Varianzzerlegung (2) • Inhaltliche Bedeutung des Residuums: • Regressionsresiduen enthalten die Anteile der Kriteriumsvariablen Y, die durch die Prädiktorvariable X nicht erfasst werden. • In diesen Anteilen sind Messfehler der Kriteriumsvariablen enthalten, aber vor allem auch Bestandteile des Kriteriums, die durch andere, mit der Prädiktorvariablen nicht zusammenhängende Merkmale erklärt werden können. • Des Weiteren berechnen wir die bzw.
Varianzzerlegung (3) Gesamtvariation (E1) = Nicht erklärte Variation (E2) + Erklärte Variation bzw. Gesamtvarianz (E1) = Nicht erklärte Varianz (E2) + Erklärte Varianz Die Varianz der y-Werte (Gesamtvarianz) setzt sich additiv aus der Varianz der Regressionsresiduen (Nicht erklärte Varianz) und der Varianz der vorhergesagten (geschätzten) y’-Werte (Erklärte Varianz) zusammen. bzw.
Varianzzerlegung (4) • Es gilt: • Die Varianz der Residuen ist bei perfekter Korrelation (r = 1) gleich Null und für r = 0 identisch mit der Varianz der y-Werte, d.h. E2 = E1. • Hierzu gegenläufig verändert sich die Varianz der vorhergesagten • y-Werte (Erklärte Varianz). Sie entspricht der Varianz der y-Werte (Gesamtvarianz), wenn r = 1 ist, und sie ist gleich Null, wenn kein Zusammenhang besteht.
Berechnung der Regressionskoeffizienten a und b (zur Bestimmung der Regressionsgeraden und der vorhergesagten y’-Werte): +b besagt, dass mit der Zunahme (Abnahme) der X-Variablen um 1 Einheit, die Y-Variable um b Einheiten steigt (sinkt). -b besagt, dass mit der Zunahme (Abnahme) der X-Variablen um 1 Einheit, die Y-Variable um b Einheiten sinkt (steigt). Wertebereich ist [-∞; +∞] a spiegelt den Erwartungswert der Y-Variablen wider, unter der Bedingung, dass die X-Variable den Wert Null annimmt.
Exkurs: Wie kommt es zu b und a? Die Regressionsgerade muss so gewählt werden, dass die Differenz der beobachteten Werte von den vorhergesagten minimal wird: Die Regressionskoeffizienten a und b sind dann das Resultat der partiellen Ableitungen („Normalengleichungen“):
Ein Beispiel: X = Alter, Y = Einkommen (in 100 Euro) Wie ermittelt wir a und b?
Wie zerlegen wir die Varianz? Nicht erklärte Variation Gesamtv. Erklärte Variation Regressionsgleichung: yi = a + b ∙ xi + eiyi = y’i + ei
Maße der einfachen linearen Regressionsanalyse: • 1) Koeffizient r2: • wird auch Proportionale Fehlerreduktion, Erklärter Variationsanteil, • Determinationskoeffizient und Bestimmtheitsmaß genannt. Interpretation: r2 besagt, dass die Variable X .... % (r2 ∙ 100) der Variation der Variable Y linear erklärt bzw. determiniert. Der Wertebereich ist [0; 1]. In unserem Beispiel:
Koeffizient der Nichtdetermination (1 - r2): • Der Wert des Koeffizienten besagt, dass .... % der Variation der Variable Y nicht mit der Variable X linear erklärt werden kann (wird in SPSS nicht berechnet). • Die Variation der Variablen Y wird durch andere Faktoren (Variablen), die unbekannt sind, determiniert. • Es gilt: r2 + (1 - r2) = 1 In unserem Beispiel: 1 - r2 = 1 - 0,158 = 0,842
2) Korrektur des r2-Wertes: (erst relevant in der multiplen Regressionsanalyse) K = Anzahl der Fälle J = Anzahl der unabhängigen Variablen K - J - 1 = Freiheitsgrade (df) Warum? • Das Bestimmtheitsmaß wird in seiner Größe durch die Anzahl der Regressoren (unabhängigen Variablen) beeinflusst. Daher wird der Kennwert korrigiert. In unserem Beispiel:
3) Pearsonsche Produkt-Moment-Korrelationskoeffizient r: 1. Berechnungsmöglichkeit: Nachteil: Der Wert des Korrelationskoeffizienten ist hier grundsätzlich vorzeichenlos (Berechnung in SPSS). 2. Berechnungsmöglichkeit: Der Wertebereich ist hier [-1; +1]. In unserem Beispiel nach Formel (1):
In Lehrbüchern findet man folgende Hinweise: 1 Brosius, Felix (2002): SPSS 11.0. Bonn: mitp-Verlag, S. 501.
4)Kovarianz: • Die Kovarianz ( cov(x,y) ) ist ein Maß für den Grad des miteinander Variierens bzw. Kovariierens der Messwertreihen von X und Y (wird in SPSS im Rahmen der Regressionsanalyse nicht berechnet) Je höher die Kovarianz ist, desto enger ist der Zusammenhang zwi-schen den Variablen. Nachteil: Die Kovarianz ist abhängig vom Maßstab der zugrunde liegenden Variablen bzw. von deren Varianz. Es gilt: cov(x,y)max = ± sx·sy In unserem Beispiel: cov(x,y) = 320/10 = 32 , cov(x,y)max = 12,13 · 6,63 = 80,46 In SPSS erhält man fürcov(x,y) = 320/10 - 1 = 35,556
Zusammenhang zwischen cov(x, y) und r: • Normiert man die Kovarianz durch die beiden Standardabweichun-gen von X und Y, dann erhält man den Korrelationskoeffizienten r. • Die Division der Kovarianz durch das Produkt der Standardab-weichungen hat zur Folge, dass Maßstabs- bzw. Streuungsunter-schiede zwischen den Variablen kompensiert werden. • Die Korrelation zweier Variablen entspricht der Kovarianz der z-transformierten Variablen bzw. dem durchschnittlichen Produkt korrespondierender z-Werte.
Exkurs: Z-Transformation von X und Y = 0, sz = 1 sx = 12,13, sy = 6,63
Berechnung von Beta (Standardisierter Steigungskoeffizient): • Beta repräsentiert den Steigungskoeffizienten b der z-transfor-mierten Variablen X und Y. D.h. der Steigungskoeffizient b wird bei Standardisierung der Variablen X und Y zu Beta. Der Wertebereich ist [-1; +1] • Warum wird b standardisiert? • b wird durch die Messeinheit der Variablen beeinflusst und ent-zieht sich damit einer direkten Vergleichbarkeit im Rahmen der multiplen Regressionsanalyse. Dort wird für jeden b-Wert (bj) ein Beta-Wert berechnet (Betaj). Der Wertebereich ist [-∞; +∞]. In der einfachen Regressionsanalyse ist Beta= r(redundante Information). In unserem Beispiel: Beta= , r = 0,398
Das ist kein Zufall. Für die einfache Regressionsanalyse gilt immer: • b = Beta= r = cov(x,y), wenn X und Y z-transformiert sind • Standardisierte Regressionskonstante a = 0 (gilt auch für die multiple Regressionsanalyse) • Warum ist das so? • a = 0, da • Jede z-transformierte Variable besitzt immer einen Mittelwert von Null • und eine Standardabweichung von Eins (also s = 1). • b = Beta = r = cov(x,y), da und • und Verkürzt: , wobei sx = 1 und sy = 1
Standardschätzfehler/Standardfehler des Schätzers: • Der Standardschätzfehler kennzeichnet die Streuung der y-Werte um die Regressionsgerade und ist damit ein Gütemaß für die Genauigkeit der Regressionsvorhersage. • Die Genauigkeit der Regressionsvorhersage wächst mit kleiner werdendem Standardschätzfehler. • Der Standardschätzfehler ermittelt sich aus der Wurzel des Mittels der Quadrate der Residuen. Ohne den Korrekturfaktor K-J-1 hätten wir keine erwartungstreue Schätzung, die Streu-ung der y-Werte um die vorhergesagten Werte würde unterschätzt. K = Anzahl der Fälle J = Anzahl der unabhängigen Variablen K - J - 1 = Freiheitsgrade (df) In unserem Beispiel:
F-Test: • Der F-Test prüft die Güte der Vorhersage der Daten durch die Regressionsgleichung (Globale Prüfung der Regressionsfunktion). • Es wird die Nullhypothese geprüft, dass die unbekannten, wahren Regressions-/Steigungsparameter β1 sich nicht von Null unter-scheiden. • Die Nullhypothese H0 lautet: β1 = 0 Es liegt kein Einfluss in der Grundgesamtheit vor • Die Alternativhypothese H1 lautet: β1 ≠ 0 (β0 bzw. a ist in der Hypo-these nicht eingeschlossen) K - J - 1 = df , K = Anzahl der Fälle, J = Anzahl der unabhängigen Variablen
Ermittlung des theoretischen F-Wertes (Ftheoretisch), ein Auszug aus der F-Tabelle: • Wenn Fempirisch > Ftheoretisch, dann wird H0 zugunsten H1 verworfen. • Der Zusammenhang ist dann statistisch signifikant. In unserem Beispiel: , Ftheoretisch = 5,32 H0 wird beibehalten. Der Zusammenhang ist auf dem 5%-Niveau nicht signifikant.
Standardfehler (standard error, s.e. bzw. sb): • Der Standardfehler kennzeichnet die Streuung der Regressions-koeffizienten a und b um den Populationsparameter und ist damit ein Gütemaß für die Genauigkeit der Parameterschätzung. • Die Genauigkeit des Regressionskoeffizienten wächst mit kleiner werdendem Standardfehler. • Er bildet darüber hinaus die Basis für die Berechnung des Konfidenzintervalls für a und b. Der Standardfehler von b (sb) = In unserem Beispiel:
T-Test: • Der T-Test prüft, ob die Regressionskoeffizienten a und b in der Grundgesamtheit signifikant von Null verschieden sind. • Es wird die Nullhypothese geprüft, dass die unbekannten, wahren Regressionskoeffizienten β0 bzw. a und β1 sich nicht von Null unterscheiden. • Die Nullhypothese H0 lautet: β0 = 0, β1 = 0 • Die Alternativhypothese H1 lautet: β0 ≠ 0, β1 ≠ 0 Je größer der Standardfehler (sb) ist, desto kleiner fällt der empirische T-Wert aus. D.h. es ist um so wahrscheinlicher, dass H0 nicht abgelehnt wird. Der empirische T-Wert sollte > ± 1,96 sein, damit H0 abgelehnt wird. In unserem Beispiel:
Ermittlung des theoretischen T-Wertes (Ttheoretisch), ein Auszug aus der Student-Tabelle: • Wenn tempirisch > ttheoretisch, dann wird H0 zugunsten H1 verworfen. • Der Zusammenhang ist dann statistisch signifikant. In unserem Beispiel: tempirisch = 1,226, ttheoretisch = 2,306 H0 wird beibehalten. Der Zusammenhang ist auf dem 5%-Niveau nicht signifikant.
F-Test und T-Test: • Bei nur einer unabhängigen Variablen ist der F-Test für das Modell auch ein Test der einen Variablen, deren Einfluss hier durch den T-Test geprüft wird. • Im Fall der einfachen linearen Regression reicht es aus, nur einen dieser beiden Tests durchzuführen. F-Test in der multiplen Regressionsanalyse: H0: β1 = β2 = … = βj = 0H1: mindestens ein β-Parameter ≠ 0 (β0 ist nicht eingeschlossen) T-Test in der multiplen Regressionsanalyse: H0: β0 = 0, β1 = 0, …, βj = 0 H1: β0 ≠ 0, β1 ≠ 0, …, βj ≠ 0
Konfidenzintervall: • Das Konfidenzintervall gibt Aufschluss darüber, in welchem Intervall der unbekannte Populationsparameterβ0 und β1 liegt. • Es wird der Frage nachgegangen, welchen Wert die unbekannten, wahren Regressionskoeffizienten annehmen? • Je größer das Konfidenzintervall ist, desto ungenauer ist die Parameterschät-zung in der Grundgesamtheit bzw. desto unzuverlässiger ist die gefundene Regressionsfunktion bezüglich dieses Parameters. • Die Breite des Konfidenzintervalls hängt insbesondere von der Höhe des Standardfehlers (sb) ab. Je größer sb ist, desto größer fällt das Konfidenzinter-vall aus und beinhaltet um so wahrscheinlicher den Wert „Null“. In unserem Beispiel erhalten wir für β1 (95%-Konfidenzintervall):
Wie sieht das Ganze in SPSS aus? Modellzusammenfassung (b) a Einflußvariablen : (Konstante), Alter b Abhängige Variable: Einkommen (in 100 Euro) ANOVA (b) F-Test: Da der p-Wert > α(= 0,05) ist, wird H0 nicht abgelehnt a Einflußvariablen : (Konstante), Alter b Abhängige Variable: Einkommen (in 100 Euro) Koeffizienten (a) T-Test für β0 und β1: Da der p-Wert > α (0,05) ist, wird H0 nicht abgelehnt a Abhängige Variable: Einkommen (in 100 Euro)