2.66k likes | 3.6k Vues
Datenbanken und Informationssysteme - Data Warehouse, Data Mining, Business Intelligence -. Prof. Dr. K. Huckert, Projektgruppe Praxisorientierte Informatik, Hochschule für Technik und Wirtschaft des Saarlandes . Datenbanken und Informationssysteme. Inhalt: 1. Einführende Bemerkungen
E N D
Datenbanken und Informationssysteme-Data Warehouse, Data Mining,Business Intelligence - Prof. Dr. K. Huckert, Projektgruppe Praxisorientierte Informatik, Hochschule für Technik und Wirtschaft des Saarlandes
Datenbanken und Informationssysteme Inhalt: 1. Einführende Bemerkungen 2. Praxisbeispiel eines Data Warehouse 3. Grundlagen Data Warehouse 4. OLAP und SQL 5. Data Warehouse-Architektur 6. Praktikum 7. Data Mining 8. Praktikum
Datenbanken und Informationssysteme Literatur: Azevedo, Pedro/Brosius, Gerhard/Dehnert, Stefan/Neumann, Berthold/Scheerer, Benjamin: Business Intelligence und Reporting mit dem SQL Server 2005. Microsoft Press 2006 Chamoni, Peter/Gluchowski, Peter (Hrsg.): Analytische Informationssysteme. Springer 3. Auflage 2006 Kemper, Hans-Georg/Mehanna, Walid/Unger, Carsten: Business Intelligence. Vieweg 2. Auflage 2006 Lusti, Markus: Data Warehousing und Data Mining: - Eine Einführung in entscheidungsunterstützende Systeme-. Springer 2. Auflage 2002 Sattler, Kai-Uwe/Saake, Gunter: Data-Warehouse-Technologien. Vorlesungsskript im WS 2006/2007,Internet-Quelle: http://www.tu-ilmenau.de/fakia/fileadmin/template/FakIA/Strukt-Fakultaet_IA/ipim/dbis/dwt/dwt-1.pdf bis dwt-11.pdf Vossen, Gottfried: Datenbanksysteme: - Datenintegration und –analyse -, Manuskripte zum Fernstudium Allgemeine Informatik, Koblenz 2.Auflage 2005
Datenbanken und Informationssysteme Einführende Bemerkungen
Datenbanken und Informationssysteme Definition Informationsintegration: Unter Informationsintegration (Datenintegration) versteht man das Zusammenführen von Daten und Inhalten aus verschiedenen Quellen und Anwendungen zu einer einheitlichen Menge. Beispiele: Produktdatenmanagement Führungsinformationssystem • CAD-Daten - Plandaten • Marketinginformationen - operative Daten aus Vertrieb, • ERP-DatenProduktion, Finanzwesen - externe Daten (volkswirtschaftl. Daten, Branchendaten) Daten sind unterschiedlich repräsentiert (Darstellungsform, Dateien, Datenbanken, unterschiedliche Hardware)
Datenbanken und Informationssysteme Problematik Informationsintegration: • Semantik • Redundanz • Heterogenität
Datenbanken und Informationssysteme Formen von Datenintegration • Virtuelle Systeme • Materialisierte Systeme
Datenbanken und InformationssystemeVirtuelles System (anfrageorientierte Integration)
Datenbanken und Informationssysteme Erläuterungen: Wrapper: Programm, das die Quelldaten in ein gemeinsames Datenmodell verpackt. Wirkungsweise ist die Informationsextraktion in ein bestimmtes Muster. Integrator: Programm, das unter Verwendung von Metadateninformationen, die unterschiedlichen Quelldaten zusammenführt. Stellt in der Regel auch Mechanismen zum Suchen, Lesen, Schreiben, Verdichten, Visualieren etc. bereit. Anstelle eines zentralen Integrators kann auch ein Mediator verwendet werden. Ein Mediator kombiniert und restrukturiert Daten, die vom Wrapper geliefert wird. Beispielsweise für bestimmte Clienten für bestimmte Anwendungen. Techniken: Eigenentwicklungen, ODBC (JDBC) , XML etc.
Datenbanken und Informationssysteme Materialisierte Systeme Unterschied zum virtuellen System: Es wird ein separater, integrierter Datenbestand dauerhaft („materialisiert“) aufgebaut. Unterklassifikation materialisierte Systeme: Universelles Datenbanksystem: Daten werden in einem weiteren Datenbanksystem materialisiert. Neben klassischen Daten häufig auch Bild-, Text- und Videodaten (XML-Daten). Datenlager (Data Warehouse): Daten werden aus den gegebenen Quellen aufbereitet (selektiert, aggregiert), um dann für statistische Auswertungen und Analysen verwendet zu werden. Vor allem für Decision Support Systeme von Interesse.
Datenbanken und Informationssysteme Beispiel: Suchmaschinen Web
Datenbanken und Informationssysteme Praxisbeispiel eines Data Warehouses der LARS Data GmbH
Data Warehouse - Verwendungszweck Auswertung der Kennzahlen des Betriebes, Berichte, Analysen • alle Kenngrößen schnell und umfassend überblicken • Informationen topdown analysieren (Gesamtsumme -> Beleg) • Abweichungen/ Aufälligkeiten erkennen • Zusammenhänge/ Regeln/ Trends erkennnen • Chancen und Risiken erkennen Anwender: Management, Controlling, ...
Data Warehouse Architektur Reporting, Analysen Operative Systeme Data Warehouse Relationale Datenstrukturen (Tabellen) Multidimensionale Datenstrukturen (Cubes) Extraktionstools DTS, Bodi, ...
Multidimensionale Datenstrukturen • Gegenstand der Analyse/ Betrachtung: Mengen, Werte • Betrachtung aus multidimensionaler Sicht (Dimensionen) • Hierarchische Strukturen innerhalb der Dimensionen • Verdichtung der Werte für jede beliebige Elementkombination aus jeder Hierarchie, Beispiele • Stückzahl Artikel X in 2003 an Kunden Müller • Wert Warengruppe A im Monat 02/2003 für Kundengruppe XYZ • Stückzahl Artikel 4711 am 01.02.03 an Kunde 123 • Gesamtwert aller verkaufter Waren in 2002 und 2003 Dimension Zeit Hierachie Monat: Jahr ->Quartal -> Monat -> Tag Dimension Zeit Hierachie Woche: Jahr -> Woche -> Tag Dimension Produkt Hierarchie: Hauptgruppe -> Untergruppe -> Artikel Dimension Kunde Hierachie Kundengruppe -> Kunde Faktentabelle Verkauf
Data Warehouse im Pressevertrieb Die LaRS Data GmbH hat eine effiziente Data Warehouse Lösung für den Pressevertrieb entwickelt Das Produkt ist bisher bei 15 Pressegrossisten produktiv Ergänzend hat LaRS Data im Auftrag des Bundesverbandes Presse Grosso eine zentrale webbasierte Lösung realisiert Die standardisierten Strukturen und Verfahren sind auf andere Branchen direkt portierbar.
Data Warehouse im Pressevertrieb Presse Großhändler • bezieht Presseprodukte: Zeitschriften, Zeitungen von den Verlagen • beliefert Einzelhändler: Kioske, Tankstellen, Märkte, ... • ist Alleinauslieferer an die Einzelhändler in seinem Presse-Grosso-Gebiet • hat Dispositionsrecht: Er entscheidet über das Sortiment beim Einzelhändler • hat Remissionspflicht: Nicht verkaufte Ware nimmt er vom Einzelhändler zurück Ziele • effiziente marktorientierte Verteilung der Produkte • Minimierung der Remissionen bei nur geringen entgangenen Verkäufen Das Presse-Grosso-Informationssystem der LaRS Data GmbH bildet diesen Pressevertrieb in einer Business Intelligence Lösung ab.
Datenmodell Hauptgruppe (25) EVT-Jahr (3) Geschäftsart (10) • 25 weitere Dimensionen • Zeitdimensionen • Verlage • Erscheinungsweisen • Nullverkäufe • Ausverkäufe • Kundenbetreuer • Öffnungszeiten • Schließzeiten, ... Untergruppe (190) EVT-Quartal 12 Untergruppe (50) Objekt (6.000) EVT-Woche (150) Kunde (3000) Heftfolge (150.000) EVT-Datum (1100) Ca. 100 Kennzahlen des Pressevertriebs: Lieferungen, Remissionen, Verkauf, Umsatz, Quoten, … Granulat: 30-150 Millionen Datensätze
Kennzahlen Kennzahlen im Presse-Grosso-Informationssystem, u.a. • Liefermengen: Hauptlieferung, Nachlieferung, Lieferberichtigungen, Remissionen • Umsätze: Verlage, Grossist, Einzelhändler • Roherlös, Nettowarenwert • SQR-Remission, Soll-Remission • Quoten: Remissionsquote, Nachlieferquote, Ausverkaufsquote,... • Anzahl eingeschalteter Einzelhändler, Anzahl Heftfolgen,... • Durchschnitte: durchschnittliche Mengen und Werte pro EH, pro Woche, pro Heftfolge • Mengen und Werte bezogen auf soziodemografische Daten: Einwohner, Männer, Frauen, Haushalte • für jede Kombination von Dimensions-Elementen abrufbar
Nutzenpotentiale • Kontrolle und Optimierung der Dispositionsverfahren • Argumentation in Verhandlungen/ Gesprächen mit Verlagen • Unterstützung der Außendienstmitarbeiter und der Kundenbetreuer in der Kundenberatung • Auffälligkeiten bei Reklamationen (Qualitätsmanagement) • Optimierungspotentiale bei Nullverkäufen, Ausverkäufen • Tendenzen der Geschäftsentwicklung • Ablösung bisheriger individueller Controlling-Berichte
Datenbanken und Informationssysteme Weitere Beispiele für betriebswirtschaftliche Anwendungen
Datenbanken und Informationssysteme • Informationsbereitstellung - Kennzahlen für die Abwicklung von Geschäftsprozessen im Bereich Planung, Forecasting, Budgetierung • Anwender: Führungskräfte, Controlling • Formen der Bereitstellung • Query-Ansätze (frei definierte Anfragen) • Reporting (vordefinierte Berichte) • Redaktionell aufbereitete, personalisierte Informationen • Analyse (Business Intelligence) • Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten
Datenbanken und Informationssysteme Weiteres kommerzielles Einsatzbeispiel • Wal-Mart (Marktführer amerikanischer Einzelhandel) • 2003: 300 TB • Bis zu 20.000 Anfragen pro Tag • Sehr hoher Detaillierungsgrad (Artikelumsätze, Lagerbestand, Kundenverhalten) • Standortanalysen • Untersuchung von Marketing-Aktionen • Auswertung von Kundenbefragungen • Basis für Warenkorbanalyse, Kundenklassifizierung
Datenbanken und Informationssysteme Beispiele für wissenschaftliche und technische Anwendungen
Datenbanken und Informationssysteme Wissenschaftliche Anwendungen • Beispiel: Project Earth Observing System (Klima- und Umweltforschung) • täglich 1,9 TB meteorologischer Daten • Aufbereitung und Analyse mit statistischen Methoden Technische Anwendungen: • Öffentlicher Bereich: Umweltdaten (Wasseranalysen)
Datenbanken und Informationssysteme Zusammenfassung Kennzeichen Data Warehouse (Quelle: Wikipedia) • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können • Umfassende Information über Geschäftsobjekte und Zusammenhänge • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
Datenbanken und Informationssysteme Aufgaben: 1. Welche Anwendungen kann man sich vorstellen, bei denen eine Integration eine Rolle spielt? 2.Vorteile/Nachteile Virtualisierung und Materialisierung. 3. Wie würden Sie den Begriff Data Warehouse charakterisieren? 4. Lesen Sie in der Wikipedia den Artikel „Data Warehouse“ 5. Versandhandel Riemenschneider (aus Bachelor-Vorlesung Datenbanken) . Einsatz in 10 Filialen, die international agieren. Man konstruiere inhaltlich ein mögliches Data Warehouse.
Datenbanken und Informationssysteme Lösung zu 1. Produktdatenbanksysteme /Umsätze, Käufe in Internetshops, Umsätze Filialsysteme, firmenübergreifende Anwendungen (z.B. interne + externe Daten) wie Verbandslösungen, Entscheidungsunterstützungssysteme im Umweltbereich Lösung zu 2. Vorteile Virtualisierung: kein weiteres DB-System erforderlich Vorteile Materialisierung: Antwortzeiten sind besser, Aktualisierung billiger als ständige Neuzusammenstellung
Datenbanken und Informationssysteme Lösung zu 3. Zusammenfassung Kennzeichen Data Warehouse • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining (Entscheidungsunterstützung) • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können • Umfassende Information über Geschäftsobjekte und Zusammenhänge • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
Datenbanken und Informationssysteme Lösung zu 5. Wichtig!! Zuerst überlegen, welche Auswertungen sinnvoll sind!! D.h. welche betriebswirtschaftlichen Kennzahlen sind interessant Gesamtumsatz, Regionumsatz, Quartalsumsatz, Jahresumsatz/Region/Unterregion, Artikelumsatz/Region/Zeit, Artikelgruppenumsatz, Kundenumsatz, Kundengruppe, Top 10 – Listen, Flop-Listen, Saisonlisten
Datenbanken und Informationssysteme Lösung zu 5. (Unterscheidung Fakten zu Dimensionen) Fakten Dimension Filiale Gebiet (Total/Land/Region/Stadt) Land Zeit ( Jahr/Quartal/Monat/Woche/Datum) Bestellnummer Artikel (Gesamt/Hauptgruppe/Untergruppe/Artikel) Bestelldatum Kunden (Großhandel/Einzelhandel) (Lieferdatum) Kundennummer Kundenname Postleitzahl (Kundentyp) (Geschlecht) Artikelnummer Artikelbezeichnung Artikelkategorie Einzelpreis Menge Bestellwert (Beurteilung, Note)
Datenbanken und Informationssysteme Grundlagen Data Warehouse
Datenbanken und Informationssysteme Begriff OLTP/Data Warehouse OLTP = OnLine Transactional Processing • Klassische operative Informationssysteme (z.B. ERP-Systeme) - Erfassung und Verwaltung von Daten - Transaktionale Verarbeitung: kurze Lese-/Schreibzugriffe auf wenige Datensätze - Verarbeitung durch jeweilige Fachabteilung Data Warehouse - Analyse im Mittelpunkt - lange Lesetransaktionen auf vielen Datensätzen - Integration, Konsolidierung und Aggregation der Daten
Datenbanken und Informationssysteme Definition Begriff Data Warehouse • „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management´s decision-making process.“ (Inmon (1996), S. 33) • „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“
Datenbanken und Informationssysteme Charakteristika Begriff Data Warehouse • subject-oriented (Themenorientierung): Die Auswahl der in das Data-Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma,...), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen. • integrated (Vereinheitlichung): Im Data-Warehouse werden die in verschiedenen (operativen) Quellsystemen in meist heterogenen Strukturen vorliegenden ausgewählten Daten in vereinheitlichter Form gehalten. (interne und externe Quellen) • time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data-Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data-Warehouse nötig (Einführung der Dimension "Zeit"). Keine Änderungen der Daten im Data Warehouse. • nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
Datenbanken und Informationssysteme Weitere Begriffe: Data-Warehouse-Prozess: alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart • externe Teilsicht auf das Data Warehouse • durch Kopieren • anwendungsspezifisch
Datenbanken und Informationssysteme Definition Business Intelligence (nach Kemper et al.) Unter Business Intelligence (BI) wird ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. • BI-Werkzeuge dienen ausschließlich der Entwicklung von BI-Anwendungen • BI-Anwendungssysteme bilden Teilaspekte des BI- Gesamtansatzes ab.
Datenbanken und Informationssysteme Historische Wurzeln • 60er Jahre: MIS (Management Information System) - verdichtete extrakte kleiner Datenbestände - Aufbereitung statischer (vorgeplanter Berichte) - Mainframe • 80er Jahre: EIS (Executive Information System), DSS (Decision Support System) - Berichtsgeneratoren - Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-up, Drill-down) - Modellierungskomponenten (Planungssprachen) - Client/Server, GUI • 1992: Einführung Data Warehouse-Begriff durch W.H. Inmon • 1993: Definition des Begriffes OLAP durch E.F.Codd • ...........