130 likes | 320 Views
Multikollinearität. Wann spricht man von Multikollinearität? Wenn zwei oder mehrere erklärende Variablen in einem linearen Zusammenhang zueinander stehen. Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität besteht oder nicht, sondern wie stark diese ausgeprägt ist.
E N D
Multikollinearität Wann spricht man von Multikollinearität? • Wenn zwei oder mehrere erklärende Variablen in einem linearen Zusammenhang zueinander stehen. • Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität besteht oder nicht, sondern wie stark diese ausgeprägt ist. • Da sich Multikollinearität auf die nicht stochastischen exogenen Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht der Grundgesamtheit. Einige Faustregeln zur Erkennung von Multikollinearität: • Hohes R2, bei gleichzeitig insignifikanten t-Werten • Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist hoch, d.h. > 0.8 • Bei mehr als zwei erklärenden Variablen: Überprüfung der partiellen Korrelationskoeffizienten • Um in einer Mehrfachregression zu prüfen, welche Variablen sich wie beeinflussen, kann eine Hilfsregression durchgeführt werden
Multikollinearität Beispiel : Hohe Korrelation zwischen erklärenden Variablen x1 und x2 kann ein Indiz für Multikollinearität sein Sichtbar an:r1,2 1 (Korrelationskoeffizient misst die lineare Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h. hoch)
Multikollinearität Eigenschaften: • Perfekte Multikollinearität liegt fast nie vor • Wird Multikollinearität „diagnostiziert“, handelt es sich dabei meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden Daten – exogenen Variablen – mangelt es an Informationsgehalt • Multikollinearität bedeutet nicht zwingend schlechte Datenqualität, wenn z.B. die Störgröße einen geringen Einfluss hat
Multikollinearität • Je höher die Multikollinearität, umso höher die Varianz der Schätzer • Bei Regression mit zwei erklärenden Variablen lautet Varianz von b1: • Hohe Multikollinearität kann durch große Variation s211 oder durch geringe Störgrößenvarianz 2 kompensiert werden:
Multikollinearität Allgemein gilt: Genauigkeit eines Schätzers ist um so größer (Varianz und Standardfehler umso kleiner), je größer die Varianz der erklärenden Variablen ist.
Multikollinearität Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in einer Mehrfachregression vorliegen: y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x22 , x4 = Alter • Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen Variablen ein Indikator für Multikollinearität war, ist es nun das Bestimmtheitsmaß R24_123...n einer sog. Hilfsregression in Falle von Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen Variablen steht: x4 = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + u, x4 = Alter Interpretation: R24_123...n misst die Erklärungskraft der Variablen x1 , x2 usw. für die Werte der Variable x4 , wobei hohes R24_123..n hohe Multikollinearität signalisiert • Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen der Mehrfachregression
Multikollinearität Beispiel : r4_12...n = 0.999787
Multikollinearität Praktische Konsequenzen der Multikollinearität: • Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeitbeeinträchtigt • Die hohen Varianzen bzw. Kovarianzen führen zu breiten Konfidenzintervallen, und somit zu - einer höheren Akzeptanz der Nullhypothese: Ho=0 , d.h. Irrtumswahrscheinlichkeit für den Fehler 2. Art – falsche Hypothese wird nicht verworfen – steigt - insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes R2
L A B I H J K G E C D F Multikollinearität Darstellung von Varianzen und Kovarianzen einzelner Variablen einer Zweifachregression: • Überschneidungen E und F: • geringe Multikollinearität • Lediglich C und D liefern Informationen für die Parameterschätzung • Informationen in E sind den exogenen Variablen nicht individuell zurechenbar: gemeinsamer Einfluss • G ist Variation der endogenen Variable, die nicht durch die exogenen Variablen erklärt werden kann: Einfluss der Störgrößen Keine Überschneidung zwischen den Variationen der zwei exogenen Variablen: Variablen unabhängig, KEINE Multikollinearität Überschneidungen mit der endogenen Variable (A und B) dienen zu Parameterschätzung • Überschneidungen J und K • zwischen den Variationen • der exogenen Variablen • J > E , aber L < G: d.h. stärkere Multikollinearität, ABER höhere Erklärungsgüte • H und I liefern Informationen für die Parameterschätzung
Multikollinearität Veranschaulichung der Folgen anhand der Variablen Berufserfahrung und Alter y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x22 , x4 = Alter • Schwierigkeiten, getrennte Effekte beider Variablen nachzuweisen • ungenaue Schätzer, d.h. sehr hohe Varianz • niedrige t-Werte, insignifikante Koeffizienten
Multikollinearität Interpretation des Outputs, bei dem zwei erklärende Variablen – Alter und Berufserfahrung - hoch korreliert sind: • Die Koeffizienten für die korrelierten Variablen sind nicht signifikant von Null verschieden, da die Werte der t-Statistik I t I < 2 sind: I tAlter I = 1,06 und I tBerufserf I = 1,38 • Auch haben die Variablen Alter und Berufserfahrung vergleichsweise hohe Standardfehler • Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und Prob.Berufserf=17% hoch • Insignifikant Lösungen?
Multikollinearität 1. Lösungsansatz: Erhöhung der Anzahl der Observationen - Zeitreihen: z.B. Quartalsdaten statt Jahresdaten - Querschnitt: z.B. OECD statt G7 - Paneldaten 2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen 3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen 4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann allerdings auch zu Verzerrung der Schätzung führen, falls die exogene Variable trotz Korrelation einen großen Erklärungsgehalt hat