1 / 46

Datenanalyse und deskriptive Statistik

Datenanalyse und deskriptive Statistik. Einleitung Explorative Datenanalyse Kennwerte statistischer Verteilungen Statistik in der Messtechnik. Einleitung. Statistik: Zweig der angewandten Mathematik zerfällt in Deskriptive Statistik: Beschreibt Datenmengen

Télécharger la présentation

Datenanalyse und deskriptive Statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenanalyse und deskriptive Statistik • Einleitung • Explorative Datenanalyse • Kennwerte statistischer Verteilungen • Statistik in der Messtechnik Ausgleichungsrechnung I Gerhard Navratil

  2. Einleitung Statistik: Zweig der angewandten Mathematik zerfällt in • Deskriptive Statistik: Beschreibt Datenmengen • Induktive Statistik: Schließt von kleinem Ausschnitt auf das Ganze (siehe Kapitel 8 ) Ziel: Verständnis der statistischen Konzepte Vorgangsweise: Empirische Betrachtung anhand geodätischer Messungen Ausgleichungsrechnung I Gerhard Navratil

  3. Aufgaben der deskriptiven Statistik Wir beschreiben die ‚Wirklichkeit‘ oft mit Zahlen, z.B. • Jahresbilanz eines Unternehmens • Verhältnis Waldflächen – Gesamtfläche eines Landes • … Mit deskriptiver Statistik stellen wir die Zahlen zusammen  Aussagen über Struktur und Gesetzmäßigkeiten Ausgleichungsrechnung I Gerhard Navratil

  4. Beispiel 1 Distanz mehrfach mit einem Maßband gemessen Was können wir herauslesen? Häufigkeit der Einzelwerte Minimum/Maximum Lücke? Bessere Ergebnisse bei mehr Messungen? Ausgleichungsrechnung I Gerhard Navratil

  5. Beispiel 1 Fortsetzung 80 Messungen Minimum ist kleinergeworden Lücke schmaler Problem bleibt: welchen Wert verwenden wir zum Rechen? Aus der Praxis möglicherweise bekannt: Mittelwert Ausgleichungsrechnung I Gerhard Navratil

  6. Beispiel 2 Strecke mit 3Geräten ge-messen CharakterisierenderWert? Mittelwert574,751 m Ausreißer? Ausgleichungsrechnung I Gerhard Navratil

  7. kategorisch metrisch repräsentieren physikalische Größen Skalenniveaus • Nominalskala: Identität • Ordinalskala: Ordnungsrelation • Intervallskala: Differenzen • Rationalskala: Quotienten • Absolutskala: natürliche Maßeinheit Ausgleichungsrechnung I Gerhard Navratil

  8. Nominalskala Werte dienen nur zur Benennung z.B. Beruf, Geschlecht, Blutgruppe Erfüllt sind folgende Bedingungen • Reflexivität: a= a • Symmetrie: a = b b = a • Transitivität: a = bb = c a = c Sortieren nicht erlaubt! Ausgleichungsrechnung I Gerhard Navratil

  9. Ordinalskala Reihung der Werte z.B. Resultat eines Wettbewerbs, militärischer Rang, akademischer Grad Keine Aussage über die Abstände der Klassen Erfüllt sind folgende Bedingungen • Konnexivität: es gilt immer a > b oder a < b oder a = b • Transitivität: a > bb > c a > c Spezialfall: Rangskala – jeder Wert genau einmal vertreten Ausgleichungsrechnung I Gerhard Navratil

  10. Intervallskala Differenzen von Werten sind vergleichbar Aber: Kein absoluter Nullpunkt, Verhältnisse sind also nicht sinnvoll z.B. Temperatur in Grad Celsius, geogr. Länge Zusätzliche Operationen: Addition, Subtraktion  Mittelbildung möglich Ausgleichungsrechnung I Gerhard Navratil

  11. Verhältnis-/Rationalskala Besitzt absoluten Nullpunkt z.B. Temperatur in Kelvin, Distanz zwischen zwei Punkten Multiplikation und Division möglich Ausgleichungsrechnung I Gerhard Navratil

  12. Absolutskala Entspricht einer Rationalskala, aber: Es gibt eine natürliche Maßeinheit Maßeinheit meist: Stück (im weitesten Sinne) z.B. Anzahl der Teilnehmer Ausgleichungsrechnung I Gerhard Navratil

  13. Skalenniveaus in Vermessung und Geoinformation Vermessung: i.A. metrische Daten (also Intervall- oder Rationalskala) GIS: Metrische Daten möglich (z.B. Straßen-breite, Lichtintensität einzelner Bildpunkte)Oft aber auch kategorische Daten (Bodenbedeckung, Eigentümer, …) Ausgleichungsrechnung I Gerhard Navratil

  14. Methoden der explorativen Datenanalyse Ausgangspunkt: Ungefähre Vorstellung, wie unsere Datenmenge aussehen sollte (stochastisches Modell) Daten, die nicht ins Modell passen, sollen eliminiert werden: Ausreißer Im Beispiel 2: Messwert 574,173m (Messfehler, Schreibfehler???) Nachträgliches Ändern von Daten problematisch  Eliminieren Ausgleichungsrechnung I Gerhard Navratil

  15. Erster Schritt Überblick verschaffen Urliste muss also anschaulich dargestellt werden 2 Möglichkeiten • Tabellarische Darstellung • Grafische Darstellung Ausgleichungsrechnung I Gerhard Navratil

  16. Tabellarische Darstellung Einteilung der Daten in Klassen Zu jeder Klasse werden Häufigkeiten angegeben (wie viele Werte sind in der Klasse) Ausgleichungsrechnung I Gerhard Navratil

  17. Klassenbildung Aufteilung des Wertebereiches in Teil-bereiche (Klassen) – Vollständige Überdeckung des Wertebereiches Wenige Klassen: Übersichtlich aber großer Informationsverlust Faustformeln: Ausgleichungsrechnung I Gerhard Navratil

  18. Klassengrenzen Klassenbreite: Bei offenen Klassen liegen die xmin und xmax in den offenen Klassen (erste und letzte Klasse) Arithmetischer Mittelwert der Klassengrenzen: Klassenmitte Oft nur mehr Klassenmitte und Häufigkeit gegeben Werte auf Klassengrenze fallen halb in jede Klasse Ausgleichungsrechnung I Gerhard Navratil

  19. Häufigkeitstabellen (1) Anzahl der Elemente pro Klasse Unterscheidung • absolut – relativ • Häufigkeit – Häufigkeitssumme Absolute Häufigkeit ki – Probe Absolute Häufigkeitssumme: Anzahl der Werte, die einen bestimmten Wert nicht übersteigen Ausgleichungsrechnung I Gerhard Navratil

  20. Häufigkeitstabellen (2) Relative Häufigkeiten hi – Probe Relative Häufigkeitssumme: Absolute Häufigkeitssumme dividiert durch Gesamt-zahl der Beobachtungen Ausgleichungsrechnung I Gerhard Navratil

  21. Häufigkeitstabellen (3) Ausgleichungsrechnung I Gerhard Navratil

  22. Darstellung als Funktion (empirische) Verteilungsfunktion Ordnet jedem Beobachtungswert die absolute (relative) Häufigkeit(ssumme) zu z.B. Die Sprungstellen lassen sich vermeiden Ausgleichungsrechnung I Gerhard Navratil

  23. Graphische Darstellungen • Histogramm • Kurvendarstellung • Stamm-und-Blatt-Plan Ausgleichungsrechnung I Gerhard Navratil

  24. Histogramm Ausgleichungsrechnung I Gerhard Navratil

  25. Kurvendarstellung Direkte Darstellung der Werte möglich, aber: Sortierung notwendig! sonst: anderes Ergebnis Entspricht: Häufigkeitssummenkurve Ausgleichungsrechnung I Gerhard Navratil

  26. Relative Häufigkeitssummenkurve Ausgleichungsrechnung I Gerhard Navratil

  27. Stamm-und-Blatt-Plan Ausgleichungsrechnung I Gerhard Navratil

  28. Kennwerte empirischer Häufigkeitsverteilungen (1) Häufigkeitsverteilung: Zusammenhang zwischen Beobachtungswerten und Häufigkeiten • Einzelnes Merkmal: univariate Verteilung • Zwei Merkmale: bivariate Verteilung • Sonst: multivariate Verteilung Ausgleichungsrechnung I Gerhard Navratil

  29. Kennwerte empirischer Häufigkeitsverteilungen (2) Kenngrößen charakterisieren • Lage • Streuung • Form Jeder Messwert hat Rangzahl (Ordnungs-nummer in der Folge der Beobachtungen) Üblicherweise berechnet aus großen Beobachtungsreihen (n=10 absolutes Minimum, oft n>100) Ausgleichungsrechnung I Gerhard Navratil

  30. auch: Perzentil Lagekennwerte (1) • Minimaler/maximaler Wert • Arithmetisches Mittel • Geometrisches Mittel • Quantile: Zerlegt die Datenmenge in zwei Bereiche – a-Quantil trennt a% der Daten ab (z.B. 0,1-Quantil oder 10%-Quantil) • Median: 0,5-Quantil – Ausgleichungsrechnung I Gerhard Navratil

  31. Lagekennwerte (2) • Quartile: 0,25- und 0,75-Quantil • Modalwert: Am häufigsten vorkommender Wert Ausgleichungsrechnung I Gerhard Navratil

  32. Streuungskennwerte • Spannweiten • SpannweiteD=xmax-xmin • QuartilsspannweiteD0,25=x3/4-x1/4 • Empirische Varianz: • Empirische Standardabweichung: • Empirischer Variationskoeffizient: Ausgleichungsrechnung I Gerhard Navratil

  33. Zentrieren und Standardisieren • Zentrierter Beobachtungswert • Standardisierter Beobachtungswert Ausgleichungsrechnung I Gerhard Navratil

  34. Form-Kennwerte • Schiefe: 3. Potenz der standardisierten Beobachtungswerte3. standardisierte zentrale Moment • Wölbung (Kurtosis): 4. standardisierte zentrale Moment • Exzess: Ausgleichungsrechnung I Gerhard Navratil

  35. Eigenschaften • Resistenz: Verhalten bei Ausreißern – Median hohe Resistenz, Mittelwert niedrige • Optimalitätseigenschaften: Lagekenn-werte sollen die Datenmenge ‚optimal‘ repräsentierenerfüllte Kriterien: Ausgleichungsrechnung I Gerhard Navratil

  36. Statistische Begriffe in der Messtechnik (1) • Wahrer Wert: Tatsächlicher Wert des Merkmals (ist leider unbekannt, kann aber explizit vorge-geben sein – Winkelsumme) • Quasi-wahrer Wert: Hochgenaue Messung, deren Abweichung vom wahren Wert so gering ist, dass sie im vorliegenden Fall vernachlässigt werden kann (auch: richtiger Wert, Sollwert) • Erwartungswert: Mittelwert aller theoretisch möglichen Messwerte (Schätzwert: empirischer Mittelwert) Ausgleichungsrechnung I Gerhard Navratil

  37. Statistische Begriffe in der Messtechnik (2) • Abweichung: Differenz Messgröße (Ist-Wert) – Bezugsgröße (Soll-Wert) • Wahre Abweichung: Bezugsgröße ist der wahre WertSystematischer + zufälliger Anteil • Systematische Abweichungen: Mathe-matisches/physikalisches Modell nicht richtig • Zufällige Abweichungen: Nicht beherrschbare, nicht einseitig gerichtete Einflüsse (stochastische Einflüsse) • Grober Fehler: Irrtümer (durch Kontrollen eliminiert) Ausgleichungsrechnung I Gerhard Navratil

  38. Ausgleichungsrechnung I Gerhard Navratil

  39. Deskriptive Statistik im Vermessungswesen Unterschied systematische – zufällige Abweichungen schafft Probleme Elimination zufälliger Abweichungen durch Mittelbildung Elimination systematischer Einflüsse durch • Messanordnung (z.B. 2 Fernrohrlagen, Nivellement aus der Mitte) • rechnerische Korrektur (z.B. atmosphärische Korrekturen, Prismenkonstante) Annahme im weiteren Verlauf der Vorlesung: Keine systematischen Einflüsse vorhanden Ausgleichungsrechnung I Gerhard Navratil

  40. Erwartungswert bekannt, ich verbrauche also keine Messung um einen Erwartungswert zu bestimmen. Bekannter Erwartungswert Quasi-wahrer Wert m bekannt (z.B. Messung des Nullwinkels) Zufällige Abweichungen: ei = xi – m in Vektor e zusammengefasst Maß für die Streuung: (theoretische) Standardabweichungauch: mittlerer Fehler(Statistik: empirisch) Ausgleichungsrechnung I Gerhard Navratil

  41. negative Abweichung Diesmal n-1, da wir den Schätzwert für den Erwartungswert bestimmen müssen! Empirische Schätzung des Erwartungswertes Schätzwert für den Erwartungswert: arithmetisches Mittel Verbesserung Empirische Standardabweichung Ausgleichungsrechnung I Gerhard Navratil

  42. Weitere Kennwerte • Arithmetisches Mittel der Verbesserungs-Absolutbeträge (durchschnittlicher Fehler) • Median der Verbesserungs-Absolutbeträge (wahrscheinlicher Fehler) • Bei großem n gilt: Ausgleichungsrechnung I Gerhard Navratil

  43. Weitere übliche Fehlermaße • Relativer Fehler: Standardabweichung in Relation zur Messgrößez.B. Strecke von 1km und s=5mm  • Helmert‘scher Punktlagefehler: Standardabweichung der Koordinaten bekannt: Ausgleichungsrechnung I Gerhard Navratil

  44. Genauigkeit – Präzision - Richtigkeit • Genauigkeit: Wie genau stimmen die Messdaten mit dem Bezugswert überein?Zusammengesetzt aus Präzision (innere G.) und Richtigkeit (äußere G.) • Präzision: Wie gut ist die Wiederholbar-keit der Messungen? • Richtigkeit: Wie gut stimmen Erwartungs-wert und wahrer Wert überein? Ausgleichungsrechnung I Gerhard Navratil

  45. Ausgleichungsrechnung I Gerhard Navratil

  46. Zusammenfassung • Datenmengen werden mit Kenngrößen charakterisiert • Darstellung erfolgt meist graphisch (Histogramm oder Häufigkeitssummenkurve) • Oft wird eine Klasseneinteilung vorgenommen • Physikalische Größen haben einen unbekannten ‚wahren Wert‘ • Die Abweichungen werden Fehler genannt (zufällig, systematisch, grob) • Zufällige Fehler auch Verbesserungen Ausgleichungsrechnung I Gerhard Navratil

More Related