220 likes | 367 Vues
Statistik: 8.3.04. Relationen zwischen metrischen Merkmalen. Beispiel: Wohnungsmarkt. Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m 2 ) Angebotspreis (1000 EUR). Wohnungsmarkt. Punkte- oder Streudiagramm ( scatterplot ). Randverteilungen. Fläche der
E N D
Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen
Beispiel: Wohnungsmarkt Für 16 Angebote von Eigentumswohnungen wurden registriert: • Fläche der Wohnung (m2) • Angebotspreis (1000 EUR) PI Statistik, SS 2004 (5)
Wohnungsmarkt Punkte- oder Streudiagramm (scatterplot) PI Statistik, SS 2004 (5)
Randverteilungen Fläche der Wohnung (m2) Preis (1000 EUR) PI Statistik, SS 2004 (5)
Randverteilungen Kenngrößen PI Statistik, SS 2004 (5)
Standardisieren Merkmal X : x1, …, xn Stichprobenkennzahlen: Standardisieren: Standardisierte Daten: z1, …, zn Stichprobenkennzahlen: PI Statistik, SS 2004 (5)
Beispiel: Wohnungsmarkt Standardisierte Daten: PI Statistik, SS 2004 (5)
Korrelationskoeffizient Produkt-Moment Korrelationskoeffizient: oder mit der Kovarianz Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3 r = 0.826 PI Statistik, SS 2004 (5)
Korrelationskoeffizient Korrelationskoeffizient ist ein (durch das Standardisieren) normiertes Maß für den linearen Zusammenhang Eigenschaften: • -1 ≤ r ≤ 1 • |r| ist Maß für die Stärke des linearen Zusammenhanges • |r|=1: perfekte lineare Abhängigkeit • |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1) um Gerade • Sign(r) ist Maß für Richtung des linearen Zusammenhanges • Sign(r)=1: steigende Gerade • Sign(r)=-1: fallende Gerade PI Statistik, SS 2004 (5)
Beziehungen: Beispiele 0.997 -0.977 -0.289 -0.067 PI Statistik, SS 2004 (5)
Rang Korrelationskoeffizient nach Spearman • Korrelationsmaß für ordinale Merkmale • Auch anwendbar auf Rangzahlen für metrische Merkmale • Definition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen PI Statistik, SS 2004 (5)
Berechnung von r sp • Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X • Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri) • Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r : • Alternative Schreibweise: PI Statistik, SS 2004 (5)
Beispiel: Schulnoten r sp = 0.430 PI Statistik, SS 2004 (5)
Typen von Beziehungen zwischen Merkmalen • Kausaler Zusammenhang • Wenn es kalt ist, steigen die Heizkosten • Rauchen macht Lungenkrebs • Gemeinsame Response • Die fleißige Studentin bekommt viele gute Noten • Zahl der Babys und der Störche wird weniger • Vermengung (confounding) • Sloppy lifestyle Hypothese und Lungenkrebs PI Statistik, SS 2004 (5)
Typen von Beziehungen zwischen zwei Merkmalen x und y x y x y x y x ist kausal für y z z x, y sind gemeinsame Response auf z y: Effekte von x und z sind vermengt PI Statistik, SS 2004 (5)
Vorsicht! • Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation! • Zahl der Babys und der Störche sind hoch positiv korreliert!? • Einkommen und Konsum sind hoch positiv korreliert • Ausreißer haben großen Effekt auf den Wert des Korrelationskoeffizienten • Nicht-lineare Beziehungen! PI Statistik, SS 2004 (5)
Lineare Regression Gerade, die die Datenwolke im Streudiagramm bzw. die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiert Wohnungsmarkt: Daten und Regressionsgerade PI Statistik, SS 2004 (5)
Lineare Regression, Forts. Abhängiges Merkmal: Y Unabhängiges Merkmal: X Regressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept) Methode der kleinsten Quadrate: Wähle die Koeffizienten so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden Schätzer: PI Statistik, SS 2004 (5)
Wohnungsmarkt, Forts. Geschätzte Regressionsgerade PI Statistik, SS 2004 (5)
Wohnungsmarkt Geschätzte Regressionsgerade • Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen; • dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro • Residuen: • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen PI Statistik, SS 2004 (5)
Regression in EXCEL • Analysefunktion „Regression“ • Statistische Funktionen • RGP: liefert die Koeffizienten der linearen Regression • SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert nach Anpassen der linearen Regression • Und andere PI Statistik, SS 2004 (5)
Regression in EXCEL: Ausgabe: Zusammenfassung PI Statistik, SS 2004 (5)