Wann spricht man von Multikollinearität?

Multikollinearität Wann spricht man von Multikollinearität? • Wenn zwei oder mehrere erklärende Variablen in einem linearen Zusammenhang zueinander stehen. • Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität besteht oder nicht, sondern wie stark diese ausgeprägt ist. • Da sich Multikollinearität auf die nicht stochastischen exogenen Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht der Grundgesamtheit. Einige Faustregeln zur Erkennung von Multikollinearität: • Hohes R2, bei gleichzeitig insignifikanten t-Werten • Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist hoch, d.h. > 0.8 • Bei mehr als zwei erklärenden Variablen: Überprüfung der partiellen Korrelationskoeffizienten • Um in einer Mehrfachregression zu prüfen, welche Variablen sich wie beeinflussen, kann eine Hilfsregression durchgeführt werden

Multikollinearität Beispiel : Hohe Korrelation zwischen erklärenden Variablen x1 und x2 kann ein Indiz für Multikollinearität sein Sichtbar an:r1,2 1 (Korrelationskoeffizient misst die lineare Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h. hoch)

Multikollinearität Eigenschaften: • Perfekte Multikollinearität liegt fast nie vor • Wird Multikollinearität „diagnostiziert“, handelt es sich dabei meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden Daten – exogenen Variablen – mangelt es an Informationsgehalt • Multikollinearität bedeutet nicht zwingend schlechte Datenqualität, wenn z.B. die Störgröße einen geringen Einfluss hat

Multikollinearität • Je höher die Multikollinearität, umso höher die Varianz der Schätzer • Bei Regression mit zwei erklärenden Variablen lautet Varianz von b1: • Hohe Multikollinearität kann durch große Variation s211 oder durch geringe Störgrößenvarianz 2 kompensiert werden:

Multikollinearität Allgemein gilt: Genauigkeit eines Schätzers ist um so größer (Varianz und Standardfehler umso kleiner), je größer die Varianz der erklärenden Variablen ist.

Multikollinearität Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in einer Mehrfachregression vorliegen: y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x22 , x4 = Alter • Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen Variablen ein Indikator für Multikollinearität war, ist es nun das Bestimmtheitsmaß R24_123...n einer sog. Hilfsregression in Falle von Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen Variablen steht: x4 =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + u, x4 = Alter Interpretation: R24_123...n misst die Erklärungskraft der Variablen x1 , x2 usw. für die Werte der Variable x4 , wobei hohes R24_123..n hohe Multikollinearität signalisiert • Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen der Mehrfachregression

Multikollinearität Beispiel : r4_12...n = 0.999787

Multikollinearität Praktische Konsequenzen der Multikollinearität: • Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeitbeeinträchtigt • Die hohen Varianzen bzw. Kovarianzen führen zu breiten Konfidenzintervallen, und somit zu - einer höheren Akzeptanz der Nullhypothese: Ho=0 , d.h. Irrtumswahrscheinlichkeit  für den Fehler 2. Art – falsche Hypothese wird nicht verworfen – steigt - insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes R2

L A B I H J K G E C D F Multikollinearität Darstellung von Varianzen und Kovarianzen einzelner Variablen einer Zweifachregression: •  Überschneidungen E und F: • geringe Multikollinearität • Lediglich C und D liefern Informationen für die Parameterschätzung • Informationen in E sind den exogenen Variablen nicht individuell zurechenbar: gemeinsamer Einfluss • G ist Variation der endogenen Variable, die nicht durch die exogenen Variablen erklärt werden kann: Einfluss der Störgrößen  Keine Überschneidung zwischen den Variationen der zwei exogenen Variablen: Variablen unabhängig, KEINE Multikollinearität Überschneidungen mit der endogenen Variable (A und B) dienen zu Parameterschätzung •  Überschneidungen J und K • zwischen den Variationen • der exogenen Variablen • J > E , aber L < G: d.h. stärkere Multikollinearität, ABER höhere Erklärungsgüte • H und I liefern Informationen für die Parameterschätzung

Multikollinearität Veranschaulichung der Folgen anhand der Variablen Berufserfahrung und Alter y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x22 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x22 , x4 = Alter • Schwierigkeiten, getrennte Effekte beider Variablen nachzuweisen • ungenaue Schätzer, d.h. sehr hohe Varianz • niedrige t-Werte, insignifikante Koeffizienten

Multikollinearität

Multikollinearität Interpretation des Outputs, bei dem zwei erklärende Variablen – Alter und Berufserfahrung - hoch korreliert sind: • Die Koeffizienten für die korrelierten Variablen sind nicht signifikant von Null verschieden, da die Werte der t-Statistik I t I < 2 sind: I tAlter I = 1,06 und I tBerufserf I = 1,38 • Auch haben die Variablen Alter und Berufserfahrung vergleichsweise hohe Standardfehler • Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und Prob.Berufserf=17% hoch • Insignifikant Lösungen?

Multikollinearität 1. Lösungsansatz: Erhöhung der Anzahl der Observationen - Zeitreihen: z.B. Quartalsdaten statt Jahresdaten - Querschnitt: z.B. OECD statt G7 - Paneldaten 2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen 3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen 4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann allerdings auch zu Verzerrung der Schätzung führen, falls die exogene Variable trotz Korrelation einen großen Erklärungsgehalt hat

Wann spricht man von Multikollinearität?