1.62k likes | 1.84k Vues
Datenqualität sichern Wenn sich Controlling und Buchhaltung streiten. Praxisseminar zu Datenqualitätsanalysen mit der Service GmbH als Fallbeispiel. Agenda. Teurer Datensumpf" oder "Schlechte Daten kosten einfach nur viel Geld"
E N D
Datenqualität sichern Wenn sich Controlling und Buchhaltung streiten Praxisseminar zu Datenqualitätsanalysen mit der Service GmbH als Fallbeispiel
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
...oder so? So...
So... ...oder so?
Marketing Werbung Adresse Liefer-schein KD-Daten Spedition Stamm- daten Lager Order Kredit OK BedarfAdresseKredit-daten Bestell-daten Rechnung Kunden-betreuer Mahnung Logistik- system Buch-haltung Kunde Kunde Bezahlung Reklamation Verkaufs-daten Angebot Bestand Ohne Daten kein Business Daten sind der Treibstoff der Prozesse Information Chain Operative Prozesse
Marketing Werbung Adresse Liefer-schein KD-Daten Spedition Stamm- daten Lager Order Kredit OK BedarfAdresseKredit-daten Bestell-daten Rechnung Kunden-betreuer Mahnung Logistik- system Buch-haltung Kunde Kunde Bezahlung Reklamation Verkaufs-daten Angebot Bestand Ohne Daten kein Business Schlechte Daten sind wie Sand im Getriebe der Geschäftsprozesse Information Chain Operative Prozesse
SCM ERP optimal CRM Akzeptabel Aber nicht optimal Potentiell falsch Nicht glaubhaft Data Warehouse Verlässlichkeit Wo findet das Profiling / die Fehlersuche statt? Getrennte Aufbereitung von Daten Einheitliche Wandlung der Daten Einheitliche Wandlung der Daten Unter- schiedliche Daten und Fehlerquellen Pot. Fehler Data Marts Bereitstellung
SCM ERP CRM Data Warehouse Wo findet das Profiling / die Fehlersuche statt? Getrennte Aufbereitung von Daten Einheitliche Wandlung der Daten Einheitliche Wandlung der Daten Unter- schiedliche Daten und Fehlerquellen Pot. Fehler BI Tool A Data Marts Bereitstellung BI Tool B Konsoli- dierung Konsolidierter Datenbereich BI Tool C
SCM ERP CRM Data Warehouse Datenqualität bezogen auf den Warehousing – Prozess Unter- schiedliche Daten und Fehlerquellen • Heterogene Datenmodelle / Konsistenz / Homonyme / Synonyme • Kontinuität des Ladevorgangs / Vollständigkeit • Widerspruchsfreiheit zwischen den Quellen BI Tool A Data Marts Bereitstellung BI Tool B Konsoli- dierung Konsolidierter Datenbereich BI Tool C
SCM ++ ERP CRM + - -- Data Warehouse Metadaten Verlässlichkeit Datenqualität bezogen auf den Warehousing – Prozess Unter- schiedliche Daten und Fehlerquellen • Heterogene Datenmodelle / Konsistenz / Homonyme / Synonyme • Kontinuität des Ladevorgangs / Vollständigkeit • Widerspruchsfreiheit zwischen den Quellen BI Tool A Data Marts Bereitstellung BI Tool B Konsoli- dierung Konsolidierter Datenbereich • Eindeutige Datenobjekte Beschreibungen • Homonyme / Synonyme • Anwendungsneutral BI Tool C
Data Warehouse Wo sollten Korrekturen stattfinden Correction Data Load Operative Anwendung Vorsysteme bzw. Fachabteilungen sind in der Pflicht!
Data Warehouse Operative Anwendung Operative Anwendung Operative Anwendung Wo sollten Korrekturen stattfinden ? Correction Data Load
Die Qualität von Data Warehouse daten wird immer wichtiger MIS Controlling Analytisches CRM Informationsbasis Oracle Data Warehouse Operatives CRM ProduktManagement Call Center Internetzugriffe Diversifizierung Marketing-Material Beschwerden
Warum wächst die Herausforderung der Qualität der Daten Gewachsene Bedeutungdes Faktors Information für den Erfolg von Unternehmen. Fehlende Praxis inDatenmanagement Daten-qualität Immer häufigereProzessänderungen Ausufernde Datenmengen Vermehrtes Inseltum durch Fertig-Anwendungen
Was ist Datenqualität?Aspekte (Dimensionen) der Datenqualität Korrekt Stimmig Vollständig Dokumentiert Redundanzfrei Aktuell Verfügbar (Access) Nützlich (TCO) Handhabbar Vertrauenswürdig Harmonisch Brauchbarkeit der Daten!
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
Die SERVICE GmbH Fallbeispiel
SERVICE GmbH Die SERVICE GmbH • Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk • Handwerksleistung • Darlehen • Großhandel für Baumärkte und Einzelhandel • Haushaltswaren • Heimwerker • Gartenbedarf • KFZ-Zubehoer • Elektroartikel • Bereich Internet-/Versandhandel • Computerteile
SERVICE GmbH Die SERVICE GmbH • Unterscheidung • Privatkunden • Firmenkunden • Kundenkarte • Privatkunden • Entstand aus Zusammenschluss mehrerer Vertriebsgesellschaften • Integration der Stammdaten „mit Hindernissen“
SERVICE GmbH Erwartungen aus dem Unternehmen • Buchhaltung: Es fehlen Daten • Warum sind die Spediteursrechnungen so hoch? • Sind alle Bestellungen korrekt bezahlt worden? • Wie hoch sind die Versandkosten pro Lieferung? • Was wurde storniert? • Controlling: Vergleichbarkeit fehlt • Was kosten Produkte im Einkauf? • Wie teuer wurden Produkte verkauft? • Wie rentabel sind einzelne Produkte? • Marketing: Absatzzahlen sind nicht aussagefähig • Wie viel Kunden gibt es? • Lohnt die Kundekarte? • Welche Segmentierung gibt es? • Vertrieb: wünscht leichtere Auswertungen • Was sind wichtige Produkte? • Was sind rentable Sparten? • Hat sich der Servicebereich gelohnt? • Management: Kennzahlen fehlen • Wie hoch sind die liquiden Mittel? • Wie hoch sind die Außenstände? Vertrieb Marketing Buchhaltung Management Controlling
Bekannte Probleme: • Bestimmte Lieferungen erreichen nie den Adressaten • Adressen falsch • Die Lieferung wird auch nicht bezahlt • Oft Privatkunden • Von bestimmten Artikeln werden sehr viele Stückzahlen verkauft • In den Statistiken laufen diese Produkte jedoch unter Verlustbringern • (Verpackungsmengen stimmen nicht mit denen bei den Lieferanten bezahlten Mengen überein) • Was geschieht mit den Retouren? • Lieferantenname in Produkte_Stamm passt nicht auf die Lieferantennummer in der Lieferantentabelle • Es gibt auch keine passenden Felder
Strategische Fragestellungen • Welches sind die wirklich profitablen Produkte/Services? • Wo wird am meisten Kapital gebunden? • Welche Produkte beschaffen am meisten Kapital? • Welche Produkte verursachen den höchsten Aufwand? • Wie sind die Trends? • Auf welche Bereiche soll man sich künftig stärker fokussieren • Einzelhandel? • Servicevermittlung? • Großkundengeschäft? • Kann die verkaufte Menge genau festgestellt werden? • Welcher Vertriebsmitarbeiter macht welchen Umsatz? • Wie hoch ist die Kapitalrückflussquote • Ausstände? • Kreditlimits? • Liquide Mittel für Neuinvestitionen? Das Analysemodell zeigt oft andere (strategische) Fragestellungen auf, die zunächst nicht auf der operativen Ebene offensichtlich sind.
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-/Verfahrenstechniken • Fallbeispiel Service GmbH
„Induktives und deduktives“ Vorgehen • Wir wissen, vermuten Dinge die nicht stimmen • Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten • Wir lassen uns überraschen, was da noch kommt • Wir stöbern in den Daten und • entdecken Auffälligkeiten • beginnen zu kombinieren • stellen Hypothesen auf • versuchen Zusammenhänge zu beweisen Vermutungen verifizieren Neues entdecken
. . . . . . Vorgehensweisen / Methoden im Data Profiling Metadaten Data Quality Assessement Erwartungen an die Datenqualität Abgleich Neue Erkenntnisse (Überraschungen) Assertion Testing Metadata Verification Discovery Bottom up Data Profiling Unternehmensdaten
Methoden und Hilfsmittel • Datenmodellierung • Datenqualitätsprüfmethoden • Data Profiling • Data Profiling Tool • Attribut-Klassifizierung (Namen) • Kategorisierung von Qualitätsregeln • ETL-Tool • Datenbank
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
Problemkomplexe Ressourcen Geschäftsregeln Neudefinition Beziehungen Abgleich-Alt Erwartungen Hierarchien Monitoring Priorisieren Modelle Kosten Owner Objekte Werte Daten Fach Felder User Vorgehensmodell Datenqualitätsanalyse Zieldefinition Bestandsaufnahme Planen Strukturanalysen Top Down Bottom Up Regelanalysen Umsetzung Ergebnisse 6 Phasen, 95 Aktivitäten, 16 Ergebnis-Templates, 1 Metamodell, Klassifizierungen
Vorgehensmodell für Datenqualitätsprojekte GeschäftsfelderData Owner / Daten-Interessenten / KonsumentenDQ-ErwartungenBekannte SchwachstellenKostenPrioritäten Erheben der Grunddaten(Ist-Daten, Wahrnehmungen, Ziele) ObjektmodellDatenflüsse und – SchnittstellenBekannte Geschäftsregeln Beschreibung der Geschäftsprozesse (Ist-Daten, Wahrnehmungen, Ziele) VollständigkeitsbetrachtungBetrachtung der VerständlichkeitSchlüsselanalysen / BeziehungsanalysenAnalyse von HierarchienSuche nach Redundanzen (z. B. Normalisierung)Mengenanalyse / Stammdatenabgleiche Daten-/Modell-Prüfungen Detailanalyse Überprüfen der GeschäftsregelnAnalyse der erkannten SchwachstellenVerifizieren der DQ Erwartungen
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
Datenmodellierung Ziel: Aufspüren und Minimierung von Redundanzen als eine der Hauptursachen von Datenfehlern • Schlüssel • Identifizierung von Dingen • Functional Dependencies • Versteckte Abhängigkeiten • Beziehungen • Existenzabhängigkeit • Orphans • Childless • Normalisierung • One Fact One Place
Normalisierung • 1. Normalform • Eine Entity ist in der 1. Normalform, wenn jedes seiner Attribute genau einen Wert in sich aufnimmt. Sammlungen von Werten in Attributen oder unterschiedliche Verwendungen sind nicht erlaubt. Die Werte sollten nicht weiter teilbar, sondern von granularer Natur sein. • 2. Normalform • Eine Entität befindet sich in der 2. Normalform, wenn alle Attribute von dem kompletten Schlüssel abhängig sind. • 3. Normalform • Eine Entität befindet sich in der 3. Normalform, wenn alle Attribute von dem Primary Key abhängen und nicht von Nicht-Schlüssel anderen Attributen mitbestimmt werden (funktionale Abhängigkeit).
3. Normalform Primary Key Nichtschlüssel-Attribut Nicht von einem Schlüssel Abhängige Attribute
Funktionale Abhängigkeit Zusätzliche „verborgene“ Functional Dependency Tabelle PRODUKTE_STAMM Artikelnummer (PK) Artikelname Beschreibung Artikelgruppennummer Artikelgruppe Functional Dependency über Primary Key (PK)
Funktionale Abhängigkeit Tabelle ARTIKEL_GRUPPE Artikelgruppennummer Artikelgruppe Beschreibung Redundante Daten mit der Gefahr von fehlerhaftenEinträgen Zusätzliche „verborgene“ Functional Dependency Tabelle PRODUKTE_STAMM Artikelnummer (PK) Artikelname Beschreibung Artikelgruppennummer Artikelgruppe Functional Dependency über Primary Key (PK)
Agenda • Teurer Datensumpf" oder"Schlechte Daten kosten einfach nur viel Geld" • Einweisung in das Planspiel „Service GmbH“„Wenn Controlling auf die Buchhaltung schimpft“ Eine simulierte Firma mit (einigen) Problemen. • Hilfsmittel für die systematische Vorgehensweisen bei Datenqualitätsanalysen • Vorgehensmodell – Der rote Faden • Metadaten-Dokumentation – Data Quality Plan • Datenmodellierung – Die Grundlage • Feldliste – Das klassische Hilfe • Sonst.: Profiling Tool / ETL Tool / Datenbank • Die wichtigsten Analyse-Techniken • Die wichtigsten Analyse-Verfahren • Fallbeispiel Service GmbH
Wortstammanalyse hilft bei der Klassifizierung von Column-Namen Hauptwort Eigenschafts- benennung Basistyp Kunden_Wohnart_Nr unter- schiedliche Wohnungs- arten sind durch- nummeriert Information zu einem Kunden wird beschrieben Die Art und Weise, wie ein Kunde wohnt wird beschrieben Bezugsobjekt BeschreibendeInformation Charakter desAttributes
Basistypgruppe Feldyp und Art des Wertes Rolle in Ab-hängigkeits-be-ziehung Sind NULLs erlaubt Muss Eindeutigkeit vorliegen Identifikatoren und bezeichnende Begriffe meist numerisch LHS nein ja Beschreibungen, Erzählungen, Texte meist Text , beliebige Zeichen RHS ja nein Klassifikatoren alphanumerisch, in Bezug setzende Begriffe, oft wenige Werte RHS eher nicht, eine Klassifizierung sollte für alle Sätze gelten nein Zustände meist Text , beliebige Zeichen RHS eher nicht, denn Zustände sollten für alle Sätze gelten, nein Zeiten Date / Time RHS ja nein Sequenzen, Aufzählungen Zählwerte) meist numerisch, oft versteckte Schlüsselkandidaten LHS nein ja Mengen meist numerisch, einfache Zahlenwerte ohne weitere Angaben RHS nein, wenn etwas gezählt wird, sollte es immer gezählt warden ja Operatoren und abgeleitete Größen meist Text , beliebige Zeichen RHS nein ja meist numerisch, einfache Zahlenwerte ohne weitere Angaben (brauchen i. d. R. eine relativierende Bezugsgröße z. B. Preis -> Währung) RHS nein ja Maße, Bezugsgrößen, Einheiten meist Text , beliebige Zeichen RHS nein ja Werte (brauchen i. d. R. eine relativierende Bezugsgröße z. B. Preis -> Währung)
Feldliste select substr(table_name,1,18) Tab, substr(column_name,1,28) Col, substr(data_type,1,8) Typ, substr(data_length,1,3) Len, '| ' Nul, '| ' Basis, '| ' Bus, '| ' Syn_zu, '| ' Hom_zu, '| ' Dom, '| ' Max, '| ' Min Fromdba_tab_columns wheretable_name in ('PRODUKTE_STAMM', 'BESTELLUNG', 'LIEFERUNG', 'STORNIERUNG', 'BEST_POSITION', 'Zahlung', 'PRODUKTE_STAMM', 'ARTIKEL_GRUPPE', 'ARTIKELSPARTE', 'KUNDEN_STAMM', 'LIEFERANT', 'LAGER') andowner = 'SG' order bycol Über alle Tabellenhinweg Alphabetisch sortiert nach Spaltennamen Hilft beim Erkennen von Homonymen und Synonymen Hilft bei der Bewertung der Tauglichkeit von Spaltennamen Erlaubt Vorahnungen von Schlüsselkandidaten