1 / 259

Datenbanken und Informationssysteme - Data Warehouse, Data Mining, Business Intelligence -

Datenbanken und Informationssysteme - Data Warehouse, Data Mining, Business Intelligence -. Prof. Dr. K. Huckert, Projektgruppe Praxisorientierte Informatik, Hochschule für Technik und Wirtschaft des Saarlandes . Datenbanken und Informationssysteme. Inhalt: 1. Einführende Bemerkungen

colleen
Télécharger la présentation

Datenbanken und Informationssysteme - Data Warehouse, Data Mining, Business Intelligence -

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenbanken und Informationssysteme-Data Warehouse, Data Mining,Business Intelligence - Prof. Dr. K. Huckert, Projektgruppe Praxisorientierte Informatik, Hochschule für Technik und Wirtschaft des Saarlandes

  2. Datenbanken und Informationssysteme Inhalt: 1. Einführende Bemerkungen 2. Praxisbeispiel eines Data Warehouse 3. Grundlagen Data Warehouse 4. OLAP und SQL 5. Data Warehouse-Architektur 6. Praktikum 7. Data Mining 8. Praktikum

  3. Datenbanken und Informationssysteme Literatur: Azevedo, Pedro/Brosius, Gerhard/Dehnert, Stefan/Neumann, Berthold/Scheerer, Benjamin: Business Intelligence und Reporting mit dem SQL Server 2005. Microsoft Press 2006 Chamoni, Peter/Gluchowski, Peter (Hrsg.): Analytische Informationssysteme. Springer 3. Auflage 2006 Kemper, Hans-Georg/Mehanna, Walid/Unger, Carsten: Business Intelligence. Vieweg 2. Auflage 2006 Lusti, Markus: Data Warehousing und Data Mining: - Eine Einführung in entscheidungsunterstützende Systeme-. Springer 2. Auflage 2002 Sattler, Kai-Uwe/Saake, Gunter: Data-Warehouse-Technologien. Vorlesungsskript im WS 2006/2007,Internet-Quelle: http://www.tu-ilmenau.de/fakia/fileadmin/template/FakIA/Strukt-Fakultaet_IA/ipim/dbis/dwt/dwt-1.pdf bis dwt-11.pdf Vossen, Gottfried: Datenbanksysteme: - Datenintegration und –analyse -, Manuskripte zum Fernstudium Allgemeine Informatik, Koblenz 2.Auflage 2005

  4. Datenbanken und Informationssysteme Einführende Bemerkungen

  5. Datenbanken und Informationssysteme Definition Informationsintegration: Unter Informationsintegration (Datenintegration) versteht man das Zusammenführen von Daten und Inhalten aus verschiedenen Quellen und Anwendungen zu einer einheitlichen Menge. Beispiele: Produktdatenmanagement Führungsinformationssystem • CAD-Daten - Plandaten • Marketinginformationen - operative Daten aus Vertrieb, • ERP-DatenProduktion, Finanzwesen - externe Daten (volkswirtschaftl. Daten, Branchendaten) Daten sind unterschiedlich repräsentiert (Darstellungsform, Dateien, Datenbanken, unterschiedliche Hardware)

  6. Datenbanken und Informationssysteme Problematik Informationsintegration: • Semantik • Redundanz • Heterogenität

  7. Datenbanken und Informationssysteme Formen von Datenintegration • Virtuelle Systeme • Materialisierte Systeme

  8. Datenbanken und InformationssystemeVirtuelles System (anfrageorientierte Integration)

  9. Datenbanken und Informationssysteme Erläuterungen: Wrapper: Programm, das die Quelldaten in ein gemeinsames Datenmodell verpackt. Wirkungsweise ist die Informationsextraktion in ein bestimmtes Muster. Integrator: Programm, das unter Verwendung von Metadateninformationen, die unterschiedlichen Quelldaten zusammenführt. Stellt in der Regel auch Mechanismen zum Suchen, Lesen, Schreiben, Verdichten, Visualieren etc. bereit. Anstelle eines zentralen Integrators kann auch ein Mediator verwendet werden. Ein Mediator kombiniert und restrukturiert Daten, die vom Wrapper geliefert wird. Beispielsweise für bestimmte Clienten für bestimmte Anwendungen. Techniken: Eigenentwicklungen, ODBC (JDBC) , XML etc.

  10. Datenbanken und Informationssysteme Materialisierte Systeme Unterschied zum virtuellen System: Es wird ein separater, integrierter Datenbestand dauerhaft („materialisiert“) aufgebaut. Unterklassifikation materialisierte Systeme: Universelles Datenbanksystem: Daten werden in einem weiteren Datenbanksystem materialisiert. Neben klassischen Daten häufig auch Bild-, Text- und Videodaten (XML-Daten). Datenlager (Data Warehouse): Daten werden aus den gegebenen Quellen aufbereitet (selektiert, aggregiert), um dann für statistische Auswertungen und Analysen verwendet zu werden. Vor allem für Decision Support Systeme von Interesse.

  11. Datenbanken und InformationssystemeMaterialisiertes System

  12. Datenbanken und Informationssysteme Beispiel: Suchmaschinen Web

  13. Datenbanken und Informationssysteme Praxisbeispiel eines Data Warehouses der LARS Data GmbH

  14. Data Warehouse - Verwendungszweck Auswertung der Kennzahlen des Betriebes, Berichte, Analysen • alle Kenngrößen schnell und umfassend überblicken • Informationen topdown analysieren (Gesamtsumme -> Beleg) • Abweichungen/ Aufälligkeiten erkennen • Zusammenhänge/ Regeln/ Trends erkennnen • Chancen und Risiken erkennen Anwender: Management, Controlling, ...

  15. Data Warehouse Architektur Reporting, Analysen Operative Systeme Data Warehouse Relationale Datenstrukturen (Tabellen) Multidimensionale Datenstrukturen (Cubes) Extraktionstools DTS, Bodi, ...

  16. Multidimensionale Datenstrukturen • Gegenstand der Analyse/ Betrachtung: Mengen, Werte • Betrachtung aus multidimensionaler Sicht (Dimensionen) • Hierarchische Strukturen innerhalb der Dimensionen • Verdichtung der Werte für jede beliebige Elementkombination aus jeder Hierarchie, Beispiele • Stückzahl Artikel X in 2003 an Kunden Müller • Wert Warengruppe A im Monat 02/2003 für Kundengruppe XYZ • Stückzahl Artikel 4711 am 01.02.03 an Kunde 123 • Gesamtwert aller verkaufter Waren in 2002 und 2003 Dimension Zeit Hierachie Monat: Jahr ->Quartal -> Monat -> Tag Dimension Zeit Hierachie Woche: Jahr -> Woche -> Tag Dimension Produkt Hierarchie: Hauptgruppe -> Untergruppe -> Artikel Dimension Kunde Hierachie Kundengruppe -> Kunde Faktentabelle Verkauf

  17. Data Warehouse im Pressevertrieb Die LaRS Data GmbH hat eine effiziente Data Warehouse Lösung für den Pressevertrieb entwickelt Das Produkt ist bisher bei 15 Pressegrossisten produktiv Ergänzend hat LaRS Data im Auftrag des Bundesverbandes Presse Grosso eine zentrale webbasierte Lösung realisiert Die standardisierten Strukturen und Verfahren sind auf andere Branchen direkt portierbar.

  18. Data Warehouse im Pressevertrieb Presse Großhändler • bezieht Presseprodukte: Zeitschriften, Zeitungen von den Verlagen • beliefert Einzelhändler: Kioske, Tankstellen, Märkte, ... • ist Alleinauslieferer an die Einzelhändler in seinem Presse-Grosso-Gebiet • hat Dispositionsrecht: Er entscheidet über das Sortiment beim Einzelhändler • hat Remissionspflicht: Nicht verkaufte Ware nimmt er vom Einzelhändler zurück Ziele • effiziente marktorientierte Verteilung der Produkte • Minimierung der Remissionen bei nur geringen entgangenen Verkäufen Das Presse-Grosso-Informationssystem der LaRS Data GmbH bildet diesen Pressevertrieb in einer Business Intelligence Lösung ab.

  19. Datenmodell Hauptgruppe (25) EVT-Jahr (3) Geschäftsart (10) • 25 weitere Dimensionen • Zeitdimensionen • Verlage • Erscheinungsweisen • Nullverkäufe • Ausverkäufe • Kundenbetreuer • Öffnungszeiten • Schließzeiten, ... Untergruppe (190) EVT-Quartal 12 Untergruppe (50) Objekt (6.000) EVT-Woche (150) Kunde (3000) Heftfolge (150.000) EVT-Datum (1100) Ca. 100 Kennzahlen des Pressevertriebs: Lieferungen, Remissionen, Verkauf, Umsatz, Quoten, … Granulat: 30-150 Millionen Datensätze

  20. Kennzahlen Kennzahlen im Presse-Grosso-Informationssystem, u.a. • Liefermengen: Hauptlieferung, Nachlieferung, Lieferberichtigungen, Remissionen • Umsätze: Verlage, Grossist, Einzelhändler • Roherlös, Nettowarenwert • SQR-Remission, Soll-Remission • Quoten: Remissionsquote, Nachlieferquote, Ausverkaufsquote,... • Anzahl eingeschalteter Einzelhändler, Anzahl Heftfolgen,... • Durchschnitte: durchschnittliche Mengen und Werte pro EH, pro Woche, pro Heftfolge • Mengen und Werte bezogen auf soziodemografische Daten: Einwohner, Männer, Frauen, Haushalte • für jede Kombination von Dimensions-Elementen abrufbar

  21. Beispielauswertungen, Hardcopy 1

  22. Beispielauswertungen, Hardcopy 2

  23. Beispielauswertungen, Hardcopy 3

  24. Nutzenpotentiale • Kontrolle und Optimierung der Dispositionsverfahren • Argumentation in Verhandlungen/ Gesprächen mit Verlagen • Unterstützung der Außendienstmitarbeiter und der Kundenbetreuer in der Kundenberatung • Auffälligkeiten bei Reklamationen (Qualitätsmanagement) • Optimierungspotentiale bei Nullverkäufen, Ausverkäufen • Tendenzen der Geschäftsentwicklung • Ablösung bisheriger individueller Controlling-Berichte

  25. Datenbanken und Informationssysteme Weitere Beispiele für betriebswirtschaftliche Anwendungen

  26. Datenbanken und Informationssysteme • Informationsbereitstellung - Kennzahlen für die Abwicklung von Geschäftsprozessen im Bereich Planung, Forecasting, Budgetierung • Anwender: Führungskräfte, Controlling • Formen der Bereitstellung • Query-Ansätze (frei definierte Anfragen) • Reporting (vordefinierte Berichte) • Redaktionell aufbereitete, personalisierte Informationen • Analyse (Business Intelligence) • Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten

  27. Datenbanken und Informationssysteme Weiteres kommerzielles Einsatzbeispiel • Wal-Mart (Marktführer amerikanischer Einzelhandel) • 2003: 300 TB • Bis zu 20.000 Anfragen pro Tag • Sehr hoher Detaillierungsgrad (Artikelumsätze, Lagerbestand, Kundenverhalten) • Standortanalysen • Untersuchung von Marketing-Aktionen • Auswertung von Kundenbefragungen • Basis für Warenkorbanalyse, Kundenklassifizierung

  28. Datenbanken und Informationssysteme Beispiele für wissenschaftliche und technische Anwendungen

  29. Datenbanken und Informationssysteme Wissenschaftliche Anwendungen • Beispiel: Project Earth Observing System (Klima- und Umweltforschung) • täglich 1,9 TB meteorologischer Daten • Aufbereitung und Analyse mit statistischen Methoden Technische Anwendungen: • Öffentlicher Bereich: Umweltdaten (Wasseranalysen)

  30. Datenbanken und Informationssysteme

  31. Datenbanken und Informationssysteme Zusammenfassung Kennzeichen Data Warehouse (Quelle: Wikipedia) • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können • Umfassende Information über Geschäftsobjekte und Zusammenhänge • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz

  32. Datenbanken und Informationssysteme Aufgaben: 1. Welche Anwendungen kann man sich vorstellen, bei denen eine Integration eine Rolle spielt? 2.Vorteile/Nachteile Virtualisierung und Materialisierung. 3. Wie würden Sie den Begriff Data Warehouse charakterisieren? 4. Lesen Sie in der Wikipedia den Artikel „Data Warehouse“ 5. Versandhandel Riemenschneider (aus Bachelor-Vorlesung Datenbanken) . Einsatz in 10 Filialen, die international agieren. Man konstruiere inhaltlich ein mögliches Data Warehouse.

  33. Datenbanken und Informationssysteme Lösung zu 1. Produktdatenbanksysteme /Umsätze, Käufe in Internetshops, Umsätze Filialsysteme, firmenübergreifende Anwendungen (z.B. interne + externe Daten) wie Verbandslösungen, Entscheidungsunterstützungssysteme im Umweltbereich Lösung zu 2. Vorteile Virtualisierung: kein weiteres DB-System erforderlich Vorteile Materialisierung: Antwortzeiten sind besser, Aktualisierung billiger als ständige Neuzusammenstellung

  34. Datenbanken und Informationssysteme Lösung zu 3. Zusammenfassung Kennzeichen Data Warehouse • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining (Entscheidungsunterstützung) • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können • Umfassende Information über Geschäftsobjekte und Zusammenhänge • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz

  35. Datenbanken und Informationssysteme Lösung zu 5. Wichtig!! Zuerst überlegen, welche Auswertungen sinnvoll sind!! D.h. welche betriebswirtschaftlichen Kennzahlen sind interessant Gesamtumsatz, Regionumsatz, Quartalsumsatz, Jahresumsatz/Region/Unterregion, Artikelumsatz/Region/Zeit, Artikelgruppenumsatz, Kundenumsatz, Kundengruppe, Top 10 – Listen, Flop-Listen, Saisonlisten

  36. Datenbanken und Informationssysteme Lösung zu 5. (Unterscheidung Fakten zu Dimensionen) Fakten Dimension Filiale Gebiet (Total/Land/Region/Stadt) Land Zeit ( Jahr/Quartal/Monat/Woche/Datum) Bestellnummer Artikel (Gesamt/Hauptgruppe/Untergruppe/Artikel) Bestelldatum Kunden (Großhandel/Einzelhandel) (Lieferdatum) Kundennummer Kundenname Postleitzahl (Kundentyp) (Geschlecht) Artikelnummer Artikelbezeichnung Artikelkategorie Einzelpreis Menge Bestellwert (Beurteilung, Note)

  37. Datenbanken und Informationssysteme Grundlagen Data Warehouse

  38. Charakteristika operativer und dispositiver Daten

  39. Datenbanken und Informationssysteme Begriff OLTP/Data Warehouse OLTP = OnLine Transactional Processing • Klassische operative Informationssysteme (z.B. ERP-Systeme) - Erfassung und Verwaltung von Daten - Transaktionale Verarbeitung: kurze Lese-/Schreibzugriffe auf wenige Datensätze - Verarbeitung durch jeweilige Fachabteilung Data Warehouse - Analyse im Mittelpunkt - lange Lesetransaktionen auf vielen Datensätzen - Integration, Konsolidierung und Aggregation der Daten

  40. Datenbanken und Informationssysteme

  41. Datenbanken und Informationssysteme

  42. Datenbanken und Informationssysteme Definition Begriff Data Warehouse • „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management´s decision-making process.“ (Inmon (1996), S. 33) • „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“

  43. Datenbanken und Informationssysteme Charakteristika Begriff Data Warehouse • subject-oriented (Themenorientierung): Die Auswahl der in das Data-Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma,...), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen. • integrated (Vereinheitlichung): Im Data-Warehouse werden die in verschiedenen (operativen) Quellsystemen in meist heterogenen Strukturen vorliegenden ausgewählten Daten in vereinheitlichter Form gehalten. (interne und externe Quellen) • time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data-Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data-Warehouse nötig (Einführung der Dimension "Zeit"). Keine Änderungen der Daten im Data Warehouse. • nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.

  44. Datenbanken und Informationssysteme Weitere Begriffe: Data-Warehouse-Prozess: alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart • externe Teilsicht auf das Data Warehouse • durch Kopieren • anwendungsspezifisch

  45. Datenbanken und Informationssysteme

  46. Datenbanken und Informationssysteme

  47. Datenbanken und Informationssysteme Definition Business Intelligence (nach Kemper et al.) Unter Business Intelligence (BI) wird ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden. • BI-Werkzeuge dienen ausschließlich der Entwicklung von BI-Anwendungen • BI-Anwendungssysteme bilden Teilaspekte des BI- Gesamtansatzes ab.

  48. Einsatzfeld von BI-Anwendungssystemen

  49. Datenbanken und Informationssysteme

  50. Datenbanken und Informationssysteme Historische Wurzeln • 60er Jahre: MIS (Management Information System) - verdichtete extrakte kleiner Datenbestände - Aufbereitung statischer (vorgeplanter Berichte) - Mainframe • 80er Jahre: EIS (Executive Information System), DSS (Decision Support System) - Berichtsgeneratoren - Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-up, Drill-down) - Modellierungskomponenten (Planungssprachen) - Client/Server, GUI • 1992: Einführung Data Warehouse-Begriff durch W.H. Inmon • 1993: Definition des Begriffes OLAP durch E.F.Codd • ...........

More Related