Modellprämissen der linearen Regression

Modellprämissen der linearen Regression • Anzahl der erklärenden Variablen < Anzahl der Fälle • Linearität in den Regressionsparametern • Keine exakte Multikollinearität (keine exakte Abhängigkeit der Prädiktoren)  relevant bei der multiplen Regressionsanalyse Residuendiagnostik (ei): • Residuen haben einen Erwartungswert von Null • Homoskedastizität (alle Residuen besitzen die gleiche konstante Varianz) • Normalverteilung der Residuen • Keine Autokorrelation (für jedes Residuenpaar ei und ej ist die Korrelation gleich Null)  relevant bei der Analyse von Zeit-reihen

Linearität (Modellverstoß: keine Linearität): • Im Fall von Nichtlinearität liefert die Regressionsgerade nicht mehr die besten Schätzer (d.h. sie minimieren nicht mehr den Abstand zwischen tatsächlichen und geschätzten Werten) • Die Folge ist eine Verzerrung der Schätzwerte der Parameter, d.h. die Schätzwerte bj streben mit wachsendem Stichprobenumfang nicht mehr gegen die wahren Werte βj. Prüfung: • Begutachtung der Punkteverteilung im Streudiagramm (Plot) • Begutachtung der Partialdiagramme: Regression der bereinigten Regressoren auf das bereinigte Kriterium (Partielle Korrelation, Korrelation der Regressionsresiduen)

Begutachtung der Punkteverteilung im Streudiagramm: Begutachtung der Partialdiagramme:  Nach Elimination der Effekte der anderen Einflussgrößen verbleibt ein starker linearer Zusammenhang zwischen X und Y. Grundsätzliche Lösungstrategie: Transformation der unabhängigen Variablen, z.B. Quadrierung: y = a + b ∙ x2, Logarithmierung: y = a + b ∙ ln(x)

(Keine exakte) Multikollinearität: • Mit zunehmender Multikollinearität werden die Schätzungen der Regressionsparameter unzuverlässiger. Dies macht sich bemerk-bar am Standardfehler der Regressionskoeffizienten (sb), der größer wird. • Bei perfekter Multikollinearität ist eine Schätzung der Regressi-onskoeffizienten bj nicht mehr möglich. Prüfung: • Betrachtung der Korrelationsmatrix der unabhängigen Variablen • Besser: Durchführung von Regressionsanalysen jeder unab-hängigen Variablen X auf die übrigen unabhängigen Variablen • Am besten: Berechnung der Toleranz und des VIF-Wertes

Toleranzder Regressoren: Koeffizient der Nichtdetermination: Der Wertebereich ist [0; 1] R2j: Bestimmtheitsmaß, unter Zugrundelegung eines Regressionsmodells, in dem Xj die abhängige Variable und die übrigen X des ursprünglichen Regressions-modells die unabhängigen Variablen bilden. • Die Toleranz einer Variablen gibt den Varianzanteil wieder, der durch die anderen unabhängigen Variablen in der Modellgleichung nicht erklärt wird. • Eine Variable mit einer geringen Toleranz wird durch die anderen unabhängigen Variablen in hohem Maße determiniert. Grenzwert der Toleranz: • R = 0,7 (Grenzwert, ab da großes Anwachsen von sb) R2 = 0,49, Tj = 1 - 0,49 = 0,51 • R = 0,8 (Grenzwert in der Praxis)  R2 = 0,64, Tj = 1 - 0,64 = 0,36

Variance Inflation Factor (VIF) der Regressoren: VIF ist der Kehrwert (Inverse) der Toleranz. Der Standardfehler wird um den Faktor √VIF erhöht. Beispiel: Tj = 0,51  VIF = 1,96, Tj = 0,36  VIF = 2,78 Allgemein gilt: • Bei T- und VIF-Werten nahe 1 kann (nahezu) von linearer Unabhängigkeit der Regressoren ausgegangen werden. • Niedrige Toleranzwerte und hohe VIF-Werte weisen dagegen auf Multikollinearitätsprobleme hin. Lösungsstrategie: • Entfernung von Prädiktor(en) mit hoher Multikollinearität • Zusammenfassung von hoch korrelierenden Prädiktoren (z.B. Indexbildung)

Erwartungswert der Residuen ist gleich Null (E(e/ε) = 0)(Modellverstoß: E(ε) ≠ 0): E(ε) = 0: Residuen erfassen nur zufällige Effekte. D.h. Schwankungen der Residuen gleichen sich im Mittel aus. E(ε) ≠ 0 (Systematik in den Fehlertermen): Wenn relevante Regressoren nicht berücksichtigt sind, eine falsche funktionale Form angenommen wird, die Stichprobenaus-wahl nicht zufällig ist, die Messwerte von Y systematisch zu hoch/niedrig gemessen werden, dann erfassen die Residuen systematische Effekte. Folge: Der systematische Fehler geht in die Berechnung von a ein (verzerrte Schätzung), Schätzverfahren sind nicht mehr erwar-tungstreu und ungültig.

Homoskedastizität (Varianzhomogenität der Residuen) (Modellverstoß: Heteroskedastizität): • Wenn die Streuung der Residuen in einer Reihe von Werten der prognostiziertenabhängigen Variablen nicht konstant ist, d.h. wenn die Fehlerterme systematisch streuen, dann liegt Heteroske-dastizität vor. • Heteroskedastizität führt zu Ineffizienz der Schätzung und verfälscht den Standardfehler des Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls und der Testverfahren ungenau und unzuverlässig. • Möglicher Grund: Residualwerte sind abhängig von einem oder mehreren Regressoren Prüfung: • Residuenplot: Standardisierte Residuen werden gegen die standardisierten geschätzten yi-Werte geplottet.

Berechnung standardisierter vorhergesagter Werte: Mittelwert = 0, s = 1 Berechnung standardisierter Residuen: Mittelwert = 0, s = 1 ei = yi - y’i se = Standardfehler des Schätzers

Residuenplot: Idealtypisch ist, wenn die Residuen unsystematischum die Nulllinieschwanken.

Ein statistischer Test zur Prüfung von Heteroskedastizität: Goldfeld-Quandt-Test: Unterteilung der Stichprobe in zwei Unterstichproben z.B. nach: a. dem Zeitfaktor t bei Zeitreihen b. einer bestimmten Variablen bei Querschnittsdaten (z.B. Schulbildung) 2. Getrennte OLS-Regression und Vergleich der Varianzen auf signifikante Unterschiede Grundidee: Bestimmte Variable verursacht die Heteroskedastizi-tät und muss beseitigt werden. Nachteil: Nur einfache Formen von Heteroskedastizität (d.h. von einer Variable ausgehend) identifizierbar. Mit dem White-Test können höhere Formen von Heteroskedastizität geprüft werden.

Normalverteilung der Residuen: • Bei Verletzung der Linearitäts- oder Varianzhomogenitätsan-nahme kann die Normalverteilung der Residuen nicht geprüft werden. • Die Annahme ist für die Durchführung statistischer Tests (T-Test, F-Test) von Bedeutung. Hierbei wird unterstellt, dass b0 und bj normalverteilt sind. Wäre dies nicht der Fall, wären auch die Tests nicht gültig. • Aber: Je größer die Stichprobe ist, desto eher kann man von einer asymptotischen Normalverteilung der Fehler ausgehen. Prüfung: • Histogramm für die standardisierten Residuen mit eingezeichneter Normalverteilungskurve und • P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus tatsächliche Residuen. - Zudem Statistische Tests zur Prüfung der Normalverteilungsannahme: Kolmogorov-Smirnov-Test, Skewness-Kurtosis Test, Shapiro-Wilk Test

Histogramm für die standardi-sierten Residuen mit eingezeich-neter Normalverteilungskurve: Residuen weichen nicht von Normal-verteilung ab: kein Verstoß P-P-Diagramm der erwarteten Residuen bei Normalverteilung versus tatsächliche Residuen: Vergleich: Häufigkeitsverteilung der standardisierten Residuen mit Normalverteilungskurve. Vergleich: Kumulierte Häufigkeitsver-teilung der standardisierten Residuen mit kumulierter Normalverteilung (durchgezogene Linie).

(Keine) Autokorrelation: • Autokorrelation (Korrelation zwischen zwei aufeinander folgen-de Residualgrößen ei und ej) tritt vor allem bei Zeitreihen auf. • Die Abweichungen von der Regressionsgeraden sind dann nicht mehr zufällig, sondern von den Abweichungen der vorangehen-den Werte abhängig. • Autokorrelation führt zu Verzerrungen bei der Ermittlung des Standardfehlers der Regressionskoeffizienten. Damit wird auch die Schätzung des Konfidenzintervalls verzerrt. Prüfung: • Durbin-Watson-Test

Durbin-Watson-Test: Berechnung des Durbin-Watson-Wertes d: Es gilt: d = 0  Perfekt positive Autokorrelation d = 2  Keine Autokorrelation d = 4  Perfekt negative Autokorrelation Wertebereich: 0 < d < 4

Die Nullhypothese (H0) lautet: Es liegt keine Autokorrelation vor (ρ = 0). Die Alternativhypothese (H1) lautet: Es liegt Autokorrelation vor (ρ  0). Zusammenhang zwischen d und ρ : d = 0  ρ = 1  Perfekt positive Autokorrelation d = 2  ρ = 0  Keine Autokorrelation d = 4  ρ = -1  Perfekt negative Autokorrelation ρ gibt die Stärke der Autokorrelation an Anhand einer Tabelle (Kritischer Wert der Durbin-Watson-Statis-tik) kann der Vertrauensbereich abgelesen werden. Liegt d außer-halb dieses Bereichs, wird H0 abgelehnt. Berechnung:

Modellprämissen der linearen Regression

Modellprämissen der linearen Regression

Presentation Transcript

Class Outline

Notes 6: Multiple Linear Regression

Chapter 14 Multiple Regression Analysis and Model Building

Illustration of Regression Analysis

Multinomial Logistic Regression: Complete Problems

Regression-Discontinuity Design

V. Regression Diagnostics

Multilevel Regression Models

Regression Models

The Least Squares Principle

Relationships Regression

Correlation and L inear Regression

Statistical Inference and Regression Analysis: GB.3302.30

Lecture 5 Advanced (= Modern) Regression Analysis

Statistics in Medicine

Binary Logistic Regression

Chapter 12: Analyzing Association Between Quantitative Variables: Regression Analysis

MT2004

Regression Analysis with SPSS

Welkom

Lecture Slides