1 / 125

Data Warehouse Day 3

Data Warehouse Day 3. Day 2 Review / Recall. What are the 4 key characteristics of Data Warehouse ? Explain them ! Define a Independent and a dependent Data Mart ! Name the distinctions between Data Warehouses and Data Marts ! What are the most common schema designs ?

Télécharger la présentation

Data Warehouse Day 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Warehouse Day 3 Day 2 Review / Recall What are the 4 key characteristics of Data Warehouse ? Explain them ! Define a Independent and a dependent Data Mart ! Name the distinctions between Data Warehouses and Data Marts ! What are the most common schema designs ? What different kind of data are in a Data Warehouse ? BA Lörrach, WI 4.Semester 4/21/2002

  2. Data Warehouse and Analysis Where we are ? BA Lörrach, WI 4.Semester 4/21/2002

  3. Data Warehouse and Analysis Where we are ? BA Lörrach, WI 4.Semester 4/21/2002

  4. Data Warehouse and Analysis Where we are ? BA Lörrach, WI 4.Semester 4/21/2002

  5. Data Warehouse and Analysis Analysewerkzeuge: Darstellung • Tabellen • Pivot-Tabellen := Kreuztabellen • Analyse durch Vertauschen von Zeilen und Spalten • Veränderung von Tabellendimensionen • Schachtelung von Tabellendimensionen (Integration weiterer Dimensionen) • Graphiken • Bildliche Darstellung großer Datenmengen - Wuerfel • Netz-, Punkt-, Oberflächengraphen • Text und Multimedia-Elemente • Ergänzung um Audio- oder Videodaten • Einbeziehung von Dokumentenmanagementsystemen BA Lörrach, WI 4.Semester 4/21/2002

  6. Data Warehouse and Analysis Analysewerkzeuge: Darstellung - Pivot BA Lörrach, WI 4.Semester 4/21/2002

  7. Data Warehouse and Analysis Analysewerkzeuge: Realisierung • Standard Reporting: • Reporting-Werkzeuge des klassischen Berichtswesens • Berichtshefte: • Graphische Entwicklungsumgebungen zur Erstellung von Präsentationen von Tabellen, Graphiken, etc. • Ad-hoc Query & Reporting: • Werkzeuge zur Erstellung und Präsentation von Berichten • Verbergen von Datenbankanbindung und Anfragesprachen BA Lörrach, WI 4.Semester 4/21/2002

  8. Data Warehouse and Analysis Analysewerkzeuge: Realisierung II • Analyse-Clients: • Werkzeuge zur mehrdimensionalen Analyse • beinhalten Navigation, Manipulation (Berechnung), erweiterte Analysefunktionen und Präsentation • Spreadsheet Add-Ins: • Erweiterung von Tabellenkalkulationen für Datenanbindung und Navigation • Entwicklungsumgebungen: • Unterstützung der Entwicklung eigener Analyseanwendungen • Bereitstellung von Operationen auf multidimensionalen Daten BA Lörrach, WI 4.Semester 4/21/2002

  9. Data Warehouse and Analysis Werkzeuge fuer Entscheider • Report- u. Abfragegeneratoren • Statistik • Dokumenten-Retrieval • aktive Informationsfilter • Prozeßmodellierung • geographische Informationssysteme • Führungsinformation • Entscheidungsunterstützung • Abteilungsspezifische Tools • industriespezifische Tools • Online Analytical Processing • Data Mining BA Lörrach, WI 4.Semester 4/21/2002

  10. Data Warehouse and Analysis Online Analytical Processing (OLAP) • dynamische, multidimensionale Analyse von Daten mit dem Ziel der Aufdeckung neuer oder unerwarteter Beziehungen zwischen Variablen • Typische Fragestellungen: • „Mit welchem Produkt wird der größte Umsatz in einer Region gemacht ?“ • „Wie verhält sich der Umsatz im Vergleich zum letzten Jahr?“ • Ansatz: • multidimensionale Sichtweise auf Daten • Anpassung des Datenmodells • Präsentationsunterstützung BA Lörrach, WI 4.Semester 4/21/2002

  11. Data Warehouse and Analysis E.F. Codd (1993): Anforderungen an OLAP-Werkzeuge OLAP - Coddsche Regeln • 1. Multidimensionale konzeptionelle Sichtweise • Betrachtung von (betriebwirtschaftlichen) Kenngrößen aus Sicht verschiedener Dimensionen • 2. Transparenz • bzgl. Zugriff auf Daten aus unterschiedlichen Quellen • 3. Zugriffsmöglichkeit • interne und externe Quellen • 4. Gleichbleibende Antwortzeit bei der Berichterstellung • Antwortzeit unabhängig von der Anzahl der Dimensionen und des Datenvolumens BA Lörrach, WI 4.Semester 4/21/2002

  12. Data Warehouse and Analysis E.F. Codd (1993): Anforderungen an OLAP-Werkzeuge OLAP - Coddsche Regeln II • 5. Client-Server-Architektur • Trennung von Speicherung, Verarbeitung, Präsentation • offene Schnittstelle zum OLAP-Server • 6. Generische Dimensionalität • einheitliche Behandlung aller Dimensionen • aber -> spezielle Zeitdimensionen • 7. Dynamische Behandlung dünn besetzter Matrizen • Anpassung des physischen Schemas an die Dimensionalität und Datenverteilung (sparsity) • 8. Mehrbenutzer-Unterstützung • konkurrierende Zugriffe • Sicherheits- und Integritätsmechanismen, Zugriffsrechte BA Lörrach, WI 4.Semester 4/21/2002

  13. Data Warehouse and Analysis E.F. Codd (1993): Anforderungen an OLAP-Werkzeuge OLAP - Coddsche Regeln III • 9. Uneingeschränkte kreuzdimensionale Operationen • automatische Ableitung der Berechnungen, die sich aus den Hierarchiebeziehungen der Dimensionen ergeben (Aggregationen) • Definition eigener Berechnungen • 10. Intuitive Datenbearbeitung • ergonomische, intuitive Datenbearbeitung • Navigation über Daten, Ausrichtung von Konsolidierungspfaden • 11. Flexible Berichterstellung • Erstellung von Berichten mit beliebiger Datenanordnung • 12. Unbegrenzte Anzahl von Dimensionen und Ebenen • keine Einschränkungen der Anzahl der unterstützten Dimensionen (häufig jedoch max. 5-8) BA Lörrach, WI 4.Semester 4/21/2002

  14. Data Warehouse and Analysis OLAP - Definition FASMI (Fast Analysis of Shared Multidimensional Information) • Es soll ein schneller Zugriff (nicht länger als 20 Sekunden) selbst bei aufwendigen Abfragen möglich sein. • Datenanalysen sollen mit Hilfe von statistischen Verfahren und Geschäftslogik durchführbar sein. • Die OLAP-Datenbasis muß von mehreren Benutzern gleichzeitig genutzt werden können. • Für den Benutzer sollen alle von ihm benötigten Daten, unabhängig von Menge oder Herkunft, bereitgestellt werden. BA Lörrach, WI 4.Semester 4/21/2002

  15. Data Warehouse and Analysis OLAP - FASMI II • Die konzeptionelle Sicht auf die Daten muß von mehrdimensionaler Natur sein. • physischer multidimensionaler Datenstruktur • virtuellen Multidimensionalität der Datenbank • beruht auf einer relationalen Datenhaltung in denormalisierter Form (Star- bzw. Snowflake-Schema) • Unter einer multidimensionalen Datenstruktur ist die Darstellung von Daten anhand von mehrdimensionalen Datenwürfeln zu verstehen und nicht wie im relationalen Datenmodell in zweidimensionalen Tabellen. BA Lörrach, WI 4.Semester 4/21/2002

  16. Data Warehouse and Analysis OLAP - Sources 1. Operational System 2. Warehouse a) Relational b) Multidimensional BA Lörrach, WI 4.Semester 4/21/2002

  17. Data Warehouse and Analysis OLAP - Architectures • ROLAP Relational On Line Analytical Processing • relationale Datenspeicherung - Tabellenform • MOLAP Multidimensional On Line Analytical Processing • multidimensional Datenspeicherung, n-dimensionaler Würfel (n-dim data cube) • HOLAPHybrid On Line Analytical Processing • Speicherung eines Teils des DWH’s in Form von Würfeln (Performance), bei miss-hit wird aus relationalen RDBMS ein neuer Würfel generiert. • DOLAPDesktop On Line Analytical Processing • Analysesoftware und Datenspeicherung erfolgt auf der Clientseite BA Lörrach, WI 4.Semester 4/21/2002

  18. Data Warehouse and Analysis OLAP - ROLAP Operationale Datenbank- schicht Applikationsschicht (Serverseite) Presentationschicht (Clientseite) Summary Tabels Applikations- server SQL API Data Warehouse Visualisierung durch multi- dimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP Funktionalität Metadaten multidimensional modelliertes DWH, basierend auf einem relationalen Datenbanksystem operationale Datenbestände, legacy systeme, externe Datenquellen, Benchmarking, Börsendienste, etc. BA Lörrach, WI 4.Semester 4/21/2002

  19. Data Warehouse and Analysis OLAP - ROLAP Eigenschaften • relationale Datenbank als Datenbasis für die OLAP Analyse • multidimensionale Sichten (views) durch tabellarische Aufbereitung der Daten, mittels standard SQL Abfragen (multidimensionalen Anfragen - GROUP-BY-Erweiterungen CUBE-Operator) • Multidimensionale Erweiterungen: MDX, OLE DB for OLAP (Microsoft), Oracle Express, Discoverer • basieren auf relationalem Starschema (oder Snowflake Schema) mit Facts, Dimensions • Vorberechnete Summary Tables (materialized views) verbessern die Performance BA Lörrach, WI 4.Semester 4/21/2002

  20. Data Warehouse and Analysis OLAP - ROLAP Vorteile und Nachteile • Verwendet robuste (bereits bewährte) relationale Datenbanken • Verständlicher (DBA) Datenzugriff (nur SQL) • Datenimport • Sicherheitsmechanismen bestehen bereits (auf relationaler Ebene) • Große Datenmengen (größer als 100 Gbyte) BA Lörrach, WI 4.Semester 4/21/2002

  21. Data Warehouse and Analysis OLAP - MOLAP Operationale Datenbank- schicht Presentationschicht (Clientseite) Applikationsschicht (Serverseite) Applikations- server API MQL SQL Visualisierung durch multi- dimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP Funktionalität Multidimensionale Datenbank DWH in Form von Würfeln physikalisch gespeichert, intelligente Indexstrategie operationale Datenbestände, legacy systeme, externe Datenquellen, Benchmarking, Börsendienste, etc. Metadaten BA Lörrach, WI 4.Semester 4/21/2002

  22. Data Warehouse and Analysis OLAP - MOLAP Eigenschaften • Multidimensionale Datenbank für effiziente Speicherung von multidimensionale OLAP Abfragen • multidimensionale Sicht durch Aufbereitung der Daten in einem n-dimensionalen Würfel • multidimensionales Datenmodell -> BA Lörrach, WI 4.Semester 4/21/2002

  23. Data Warehouse and Analysis OLAP - MOLAP Vorteile und Nachteile + Performance bei kleineren Datenmengen ( < 10 Gbyte) + Meist eigene multidimensionale Abfragesprache (verständlicher als SQL) + Hinzufügen von Dimensionen und Hierarchien ist leichter +/- Problematik von dünnbesetzten Würfel muß gelöst werden - Eingeschränkte Datenmengen (Performance sinkt) - multidimensionale Abfragesprache -> Transformation Standard SQL notwendig - Nicht jeder mögliche Datenwürfel kann vorberechnet werden. - Bei miss-hit muß auf dahinterliegendes relationale RDBMS zugegriffen werden. BA Lörrach, WI 4.Semester 4/21/2002

  24. Data Warehouse and Analysis OLAP - HOLAP Operationale Datenbank- schicht Presentationschicht (Clientseite) Applikationsschicht (Serverseite) Applikations- server API MQL Metadaten Visualisierung durch multi- dimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP Funktionalität operationale Datenbestände, legacy systeme, externe Datenquellen, Benchmarking, Börsendienste, etc. Data Warehouse BA Lörrach, WI 4.Semester 4/21/2002

  25. Data Warehouse and Analysis OLAP - HOLAP Eigenschaften • Nutzt die Vorteile der relationalen als auch multidimensionalen OLAP Anwendung • multidimensonale Datenbank wird für häufige Abfragen erstellt • multidimensionale Data Marts • hochaggregierte Daten - schnelle Antwortzeit • relationale Datenbank wird für seltenere Abfragen verwendet - große Mengen an Daten BA Lörrach, WI 4.Semester 4/21/2002

  26. Data Warehouse and Analysis OLAP - HOLAP Vorteile und Nachteile + Vereinigt das beste aus den beiden (ROLAP && MOLAP) Welten + MDDB System greift nicht mehr auf die operationalen Daten zu, sondern auf ein relationales DWH + keine Summary Tabelen (Problem DWH Maintenance !) mehr notwendig - Aufwendige Architekturkonzept, unterschiedliche Technologien werden vermischt BA Lörrach, WI 4.Semester 4/21/2002

  27. Data Warehouse and Analysis OLAP - DOLAP Operationale Datenbank- schicht Presentationschicht (Clientseite) ODBC Applikations- server PC-DBMS API Extrakt aus einem DWH oder opera-tionalen Datenbe-ständen Metadaten Visualisierung durch multi- dimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP Funktionalität oft wird auch ein spezielle Filestruktur als Datenbasis für den DOLAP Applika- tionsserver generiert. operationale Datenbestände, legacy systeme, externe Datenquellen, Benchmarking, Börsendienste, etc. BA Lörrach, WI 4.Semester 4/21/2002

  28. Data Warehouse and Analysis OLAP - DOLAP Eigenschaften • Speicherung der Daten am Client (PC) • OLAP Applikations- und Datenbankserver laufen auf der Clientseite • Antwortzeit wird gering gehalten (kein Kommunikationsoverhead durch Netzwerk) • begrenzte Kapazität (PC Datenbank, Ressourcen) • Endanwender wird ein Auszug aus dem zentralen Data Warehouse auf seinen Client gestellt. BA Lörrach, WI 4.Semester 4/21/2002

  29. Data Warehouse and Analysis OLAP - DOLAP Vorteile und Nachteile + Für kleinere klar abgegrenzte Anwendungsgebiete gut geeignet + Sicherheit kann gewährleistet werden, DWH (DBA) Administrator steuert die Erstellung der Extrakte für die einzelnen Endanwender - Endanwender sieht zumeist nur einen Ausschnitt aus dem zentralen Data Warehouse, Analysen könnten dadurch falsch interpretiert werden - Anwendungen sind oft alte Reportgeneratoren (statische Berichte) mit hinzugefügter OLAP Funktionalität - Anwendungen verwenden zum Teil keine Datenbank, sondern erzeugen eine Filestruktur auf dem Client - Oft greifen DOLAP Anwendungen direkt auf die operationalen Datenbestände zu. BA Lörrach, WI 4.Semester 4/21/2002

  30. Data Warehouse and Analysis OLAP - Multidimensionales Datenmodell • Datenmodell ausgerichtet auf Unterstützung der Analyse • Datenanalyse im Entscheidungsprozeß • Betriebswirtschaftliche Kennzahlen (Erlöse, Gewinne, Verluste, etc.) stehen im Mittelpunkt • Betrachtung der Kennzahlen aus unterschiedlichen Perspektiven (zeitlich, regional, produktbezogen) -> Dimensionen • Unterteilung der Auswertedimensionen möglich (Jahr, Quartal, Monat) -> Hierarchien oder Konsolidierungsebenen BA Lörrach, WI 4.Semester 4/21/2002

  31. Data Warehouse and Analysis OLAP - Multidimensionales Datenmodell II • Kennzahlen/Fakten (engl. facts): • (verdichtete) numerische Meßgrößen • Beschreiben betriebswirtschaftliche Sachverhalte • Beispiele: Umsatz, Gewinn, Verlust, Deckungsbeitrag • Typen: • Additive Fakten: (additive) Berechnung zwischen sämtlichen Konsolidierungsebenen der Dimensionen möglich, z.B. Einkaufswert • Semi-additive Fakten: (additive) Berechnung nur für ausgewählte Menge von Hierarchieebenen, z.B. Lagerbestand • Nicht-additive Fakten: keine additive Berchnung möglich, z.B. Durchschnitts- oder prozentuale Werte BA Lörrach, WI 4.Semester 4/21/2002

  32. Data Warehouse and Analysis OLAP - Multidimensionales Datenmodell III • Dimension: • beschreibt mögliche Sicht auf die assoziierte Kennzahl • endliche Menge von Dimensionselementen (Hierarchieobjekten), die eine semantische Beziehung aufweisen • dienen der orthogonalen Strukturierung des Datenraums • Hierarchien in Dimensionen: einfach und parallel - Examples ? • Beispiele: Produkt, Geographie, Zeit BA Lörrach, WI 4.Semester 4/21/2002

  33. Data Warehouse and Analysis OLAP - Multidimensionales Datenmodell IV • Würfel (engl. cube, eigentlich Quader): • Grundlage der multidimensionalen Analyse • Kanten -> Dimensionen • Zellen -> ein oder mehrere Kennzahlen (als Funktion der Dimensionen) • Anzahl der Dimensionen -> Dimensionalität • Visualisierung • 2 Dimensionen: Tabelle • 3 Dimensionen: Würfel • >3 Dimensionen: Multidimensionale Domänenstruktur BA Lörrach, WI 4.Semester 4/21/2002

  34. Data Warehouse and Analysis OLAP - Cube BA Lörrach, WI 4.Semester 4/21/2002

  35. Data Warehouse and Analysis OLAP - Cube Example BA Lörrach, WI 4.Semester 4/21/2002

  36. Data Warehouse and Analysis OLAP - Operationen auf multidimensionalen Datenstrukturen BA Lörrach, WI 4.Semester 4/21/2002

  37. Data Warehouse and Analysis OLAP - Operationen auf multidimensionalen Datenstrukturen • Standardoperationen • Pivotierung • Roll-Up, Drill-Down • Drill-Across • Slice, Dice BA Lörrach, WI 4.Semester 4/21/2002

  38. Data Warehouse and Analysis OLAP - Operationen - Pivotierung/Rotation BA Lörrach, WI 4.Semester 4/21/2002

  39. Data Warehouse and Analysis OLAP - Operationen -Drill/Roll-Up • Beispiel: • Land->Staat->Region • Tag -> Monat -> Quartal -> Jahr • Beim Drill-/Roll-up werden die Werte auf der nächst höheren • Hierarchieebene analysiert • Dimensionalität bleibt erhalten Dimension REGION BA Lörrach, WI 4.Semester 4/21/2002

  40. Data Warehouse and Analysis OLAP - Operationen -Drill-Down / Across • komplementär zu Roll-Up • Navigation von aggregierten Daten zu Detail-Daten entlang der Klassifikationshierarchie • Untersuchen der Daten in einem feineren Detaillierungsgrad innerhalb einer Dimension • Untersuchen von Detaildaten • Drill-Across: • Wechsel von einem Würfel zu einem anderen Dimension REGION BA Lörrach, WI 4.Semester 4/21/2002

  41. Data Warehouse and Analysis OLAP - Operationen - Roll-Up, Drill-Down BA Lörrach, WI 4.Semester 4/21/2002

  42. Data Warehouse and Analysis OLAP - Operationen - Slice • Erzeugen individueller Sichten • Slice: • Herausschneiden von „Scheiben“ aus dem Würfel • Verringerung der Dimensionalität • Beispiel: alle Werte des aktuellen Jahres BA Lörrach, WI 4.Semester 4/21/2002

  43. Data Warehouse and Analysis OLAP - Operationen - Slice BA Lörrach, WI 4.Semester 4/21/2002

  44. Produkt Sicht z.B. Produktmanager Regionale Sicht z.B. Gebietsleiter Region Region Zeit Zeit Produkt Produkt • alle Regionen • gesamter Zeitraum • ein Produkt (Filter) • alle Produkte • gesamter Zeitraum • eine Region (Filter) Data Warehouse and Analysis OLAP - Operationen - Slice - Beispiel BA Lörrach, WI 4.Semester 4/21/2002

  45. Data Warehouse and Analysis OLAP - Operationen - Dice • Erzeugen individueller Sichten • Dice: • Herausschneiden einen „Teilwürfels“ • Erhaltung der Dimensionalität, Veränderung der Hierarchieobjekte • Beispiel: die Werte bestimmter Produkte oder Regionen BA Lörrach, WI 4.Semester 4/21/2002

  46. Data Warehouse and Analysis OLAP - Operationen - Dice - Example BA Lörrach, WI 4.Semester 4/21/2002

  47. Data Warehouse and Analysis OLAP - Analyse-Werkzeuge • Business Objects: Business Objects • Cognos: • Powerplay, BI Platform • Hyperion: • Hyperion OLAP • Essbase • IBM: Visualizer • Informix: Metacube • Seagate: Holos, Seagate Info • Oracle: Express Server • Brio: Brio Enterprise • Arcplan Information Servies: • inSigth, dynaSight BA Lörrach, WI 4.Semester 4/21/2002

  48. Data Warehouse and Analysis Data Mining and the Sept. 11th ? • Applied Systems Intelligence (ASI): • eine Global Information Base, die feindliche Operationen automatisch aufspüren soll • Nips, ein Numerically Integrated Profiling System • stellt Verbindungen zwischen Bankgeschäften und Reiseaktivitäten her • Choice Point • verkauft Kundendaten an das FBI • Nora (Non-Obvious Relationship Awareness) • Reservierungen für Flüge, Hotels und Mietwagen • Informationen aus über 4000 Quellen, in denen Daten von über einer Million Menschen zusammenlaufen • Datenmuster eines Passagiers mit dem eines Elements auf der Liste der bad guys überein • Alarm am Ticketschalter BA Lörrach, WI 4.Semester 4/21/2002

  49. Data Warehouse and Analysis Data Mining - Definition • Der Begriff Data Mining steht für das Suchen nach wertvollen Geschäftsinformationen in einer großen Datenbank und für „das Graben nach einer wertvollen Informationsader.“ • Data Mining kann als Teilprozess des Knowledge Discovery angesehen werden • Knowledge Discovery ist ein neuer Begriff in der Data Warehouse-, OLAP und Data Mining Problematik. • Er bezeichnet den gesamten Entdeckungsprozeß ausgehend von der Formulierung einer Frage bis zur Interpretation der Ergebnisse. • Data Mining ist der „Kunde“ im Data Warehouse BA Lörrach, WI 4.Semester 4/21/2002

  50. Data Warehouse and Analysis Data Mining - Knowledge Discovery in Databases (KDD) • Iterativer und interaktiver Prozeß • 1. Festlegung von Problembereich und Zielen • 2. Datensammlung und –bereinigung • 3. Auswahl und Parametrisierung der Analysefunktionen und –methoden • 4. Data Mining/Mustererkennung • 5. Bewertung und Interpretation der Ergebnisse • 6. Nutzung des gefundenen Wissens BA Lörrach, WI 4.Semester 4/21/2002

More Related