1 / 69

Kierunki rozwoju technologii informatycznych: Hurtownie Danych

Kierunki rozwoju technologii informatycznych: Hurtownie Danych. dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji. Plan wykładu. Problemy eksploatacji SIP Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura Punkty krytyczne HD

lilith
Télécharger la présentation

Kierunki rozwoju technologii informatycznych: Hurtownie Danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kierunki rozwoju technologii informatycznych: Hurtownie Danych dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji

  2. Plan wykładu • Problemy eksploatacji SIP • Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura • Punkty krytyczne HD • Projektowanie Hurtowni Danych

  3. Systemy Informacyjne Przedsiębiorstw (SIP)

  4. Rodzaje SIP • Systemy transakcyjne (ST) • Systemy informowania kierownictwa (MIS) • Systemy wspomagania podejmowania decyzji (DSS) • Systemy eksperckie (EIS)

  5. Eksploracja danych w ST • Olbrzymia ilość rekordów • Ukryte zależności między danymi • Oczekiwanie na odpowiedź • Ciągły wzrost objętości zbiorów danych • Wiele tabel i relacji między nimi • Opis rzeczywistości w wybranym obszarze funkcjonowania przedsiębiorstwa

  6. Systemy Informowania Kierownictwa (MIS) • Zasilane zagregowanymi danymiz transakcyjnych systemów dedykowanych • Źródło danych dla MIS znajduje się wewnątrz organizacji • Postać danych i stopień agregacji adekwatne do potrzeb informacyjnychi decyzji podejmowanych przez kierownictwo średniego szczebla

  7. Systemy Wspomagania Decyzji (DSS) • Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych • Źródło danych to systemy transakcyjne • Uwzględniają szerszy aspekt prowadzenia biznesu • Stopień agregacji danych uwzględnia różne wymiary analiz • Stosowane na szczeblu taktycznym (kierownictwo wyższego szczebla np. dyrektorzy departamentów)

  8. Systemy eksperckie (EIS) • Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu • Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu • Wykorzystują wewnętrzne i zewnętrzne źródła danych • Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)

  9. Systemy DSS i EIS w procesach decyzyjnych Wymagania: • Całościowe spojrzenie na organizację • Prawidłowa ocena aktualnej sytuacji organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej • Możliwość przeprowadzania analizw dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji

  10. Pojęcie Hurtowni Danych (HD) • Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji • Zintegrowany bank danych wspomagający procesy decyzyjne • Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa Funkcjonalność

  11. Pojęcie Hurtowni Danych (HD) • Repozytorium danych z procedurami ich ładowania do HD • Repozytorium uzupełnione minihurtowniami danych • Repozytorium, minihurtownie danych oraz aplikacje analityczne Infrastruktura

  12. Hurtownia Danych - gdzie leży prawda? Hurtownie danych służą do podejmowania decyzji zarządczych Bill Inmon

  13. Definicja HD System baz danych zawierający dane: • zorientowane tematycznie • zintegrowane • zorganizowane w czasie • trwałe do wspomagania podejmowania decyzji strategicznych.

  14. Zorientowanie tematyczne HD • Zgromadzone dane opisują problemy • Lokalizacja danych uzależniona od ich treści ekonomicznych • Dane zorientowane na podejmowanie decyzji w różnych obszarach działania

  15. Integralność danych w HD • Czystość - ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary) • Poprawność - kontrola danych pobieranychz systemów szczebla operacyjnego • Właściwa agregacja - wybór zmiennych agregujących

  16. Element czasu w HD • Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat) • Czas jako wymiar innych danych • Dane tworzą szeregi czasowe • Dane załadowane do HD nie są w czasie aktualizowane

  17. Trwałość danych w HD • W HD dopuszcza się operacje: • ładowania danych • dostępu do danych • W HD nie przeprowadza się operacji aktualizacji załadowanych danych • Dane analityczne przechowywane sąw postaci gotowych agregatów

  18. Cele budowy HD • Realizacja misji przedsiębiorstwa • Zwiększenie konkurencyjności firmy • Osiąganie celów biznesowych • Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa

  19. Zadania realizowane przy wykorzystaniu HD • Budowa modelu ekonomicznego • Weryfikacja hipotez biznesowych • Identyfikacja trendów i zależności • Określanie ryzyka • Alokacja zasobów

  20. Przykłady celów biznesowych • Badanie rentowności produktów, oddziałów,współpracy z klientami, spółek zależnych • Analiza ryzyka działalności • Prognozowanie sprzedaży • Wyznaczenie kosztu operacji handlowych • Badanie struktury sprzedaży • Budowa systemów sprawozdawczości zarządczej Hurtownia Danych - źródło nowych zysków

  21. Hurtownie danych a CRM • Lojalność klientów wobec organizacji • Rezygnacje klientów ze współpracyi powody takiej decyzji • Rodzaj produktu czy usługi (mix-produkt) oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej • Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych

  22. Hurtownie danych w e-biznesie • Średnia wartość transakcji w internetowym biurze maklerskim • Wartość kredytów zaciągniętych przez Internet • Rodzaje lokat zakładanych przez Internet, ich średnia wysokość i czas lokaty • Wartość przelewu bankowego dokonanego drogą elektroniczną • Średnia wartość transakcji przy użyciu kart płatniczych

  23. Dlaczego nie wykorzystać ST? • Brak właściwych danych • Zapytania przekrojowe znacznie obciążają bieżącą pracę ST • Bazy danych w ST nie są zoptymalizowane do analitycznego przetwarzania danych • Uzyskanie informacji globalnych wymaga złączenia wielu tabel baz danych • Duża zmienność stanu baz danych

  24. Różnice między HD i ST (1) HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.: • Dane w HD mają charakter zagregowany, w ST - szczegółowy • HD zawiera wybrane dane, ST - wszystkie dane • ST zawierają zawsze dane aktualne, HD - archiwalne (obraz tych danych) Fizyczna separacja HD i ST

  25. Różnice między HD i ST (2) Struktura i przetwarzanie danych: • ST przechowują dane w postaci znormalizowanej, HD - nadmiarowość danych • ST oparte są na przetwarzaniu transakcyjnym, w HD - brak transakcji • ST pozwalają na zapis, odczyt, usuwaniei modyfikację danych, w HD - tylko odczyt • ST zasilane są stałym i równomiernym strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu

  26. 4 powody separacji HD i ST • Wydajność • Dostęp do danych • Format danych • Jakość danych

  27. Podobieństwa HD i ST • Oparte na bazach danych • Posiadają wbudowane języki przetwarzania danych • Przechowywane dane można graficznie prezentować • Możliwość wprowadzania danych

  28. Hurtownie Danych a DSS/EIS • DSS/EIS posiadają rozbudowane narzędzia analizy danych • DSS/EIS nie są odpowiednio wyposażonew narzędzia organizacji danych • HD dostarczają dla DSS/EIS wsparciaw postaci baz danych • HD dostarczają danych niezbędnych dla DSS/EIS

  29. Użytkownicy HD • Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze) • Analitycy biznesowi • Pracownicy merytoryczni • Informatycy

  30. Wymagania użytkowników wobec HD • Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym) • Udzielanie szybkich odpowiedzi • Kompleksowa analiza danych • Właściwy sposób prezentowania informacji • Wiarygodność informacji zarządczej

  31. Klasyczny model HD

  32. Architektura HD

  33. Elementy architektury HD • Dedykowane źródłowe systemy transakcyjne organizacji • Oprogramowanie zasilania danymi bazy danych hurtowni • Wielowymiarowa baza danych oraz system zarządzania bazą danych • Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych

  34. Struktura funkcjonalna HD Użytkownik końcowy

  35. Zarządzanie HD • Sposoby dostępu do danych w ST: • interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ... • język SQL, 4GL • Walidacja, czyszczenie, formatowaniei agregacja danych • Zasilanie HD: • procedury analizy statystycznej • odświeżanie danych • metadane opisujące proces zasilania HD

  36. Organizacja HD - metadane • Modele danych: • relacyjny model danych, • inne modele (np. hierarchiczny, gwiazdy, płatek śniegu) • Sposób zasilania danymi • Architektura HD: • scentralizowana • rozproszona (data marts) • Dostęp użytkowników

  37. Metadane - co jeszcze składa się na HD? • Struktura danych hurtowni uwzględniająca wymagania SWD • Sposób transformacji danych operacyjnych (algorytmy) • Relacje między modelem danychw systemach operacyjnych a HD • Historia zasilania HD danymi operacyjnymi Kontekst

  38. Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych Kompletność Nadrzędna kontrola Dokumentowanie działań, odpowiedzialności Organizacja metadanych

  39. Eksploatacja HD • Zapytania i raporty: • filtrowanie danych, język 4GL i SQL • Techniki analizy danych: • MOLAP, ROLAP, HOLAP • Wizualizacja danych: • wykresy, drzewa decyzyjne, statystyka • Wspomaganie procesów decyzyjnych: • ekonometria, badania operacyjne, prognozowanie • Publikacja wyników w formacie HTML

  40. Struktura danych w HD • Szczegółowe dane bieżące • Archiwalne dane szczegółowe • Dane częściowo zagregowane • Silnie zagregowane dane • Metadane

  41. Zasilanie HD Wprowadzanie danych do HD, opartych na danych operacyjnych. • Wybór danych • Lokalizacja danych • Transformacja danych do zunifikowanej postaci • Integracja danych • Częstotliwość zasilania

  42. Organizacja zasilania HD • Ludzie biznesu i informatycy • Zespoły zadaniowe: • projekt struktury hurtowni • analiza danych źródłowych • logika konwersji danych • budowa i generowanie procedur konwersji • zapewnienie jakości danych • Zrozumienie wymagań związanychz konwersją i przepływów danych

  43. Projekt zasilania HD • Plan konwersji danych operacyjnych • Definicja specyfikacji konwersji • Ekstrakcja danych operacyjnych do postaci schematów pośrednich • Konwersja schematów pośrednich do postaci danych ładowanych • Agregacja danych • Ładowanie i indeksowanie danych • Zapewnienie jakości danych

  44. Plan konwersji danych • Określa najlepszy sposób migracji danych do hurtowni • Uwzględnia: • dostępne zasoby danych, • liczność danych, • liczbę różnych schematów danych, • metody i platformy dostępu, • języki ekstrakcji danych, • strukturę hurtowni, • liczbę wymaganych agregacji

  45. Specyfikacja konwersji danych • Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika) • Inne zewnętrzne źródła informacji • Opis procesów: • ekstrakcji danych do postaci schematu pośredniego, • konwersji schematu pośredniego, • agregacji danych, • migracji danych do baz danych hurtowni, • walidacji danych Dokumentacja !!!

  46. Ekstrakcja danych w schematy pośrednie • Zwiększenie użyteczności programów do czyszczenia danych, transformacjii integracji • Zachodzi w środowisku systemów transakcyjnych • Procedury identyfikacji starychi nowych danych operacyjnych • Izolowanie niezbędnych danych

  47. Konwersja schematów pośrednich • Identyfikacja wzorców danych i liczby pól • Określenie kontekstu i przeznaczenia danych • Korekcja danych w oparciu o listy • Eliminacja nadmiarowych rekordów • Rezultat: • dane o wymaganym poziomie granulacji • dane dla tabel wymiarów i tabel faktów • klucze wybierania danych

  48. Agregacja danych • Miejsce wykonania - poza serwerem hurtowni • Powody: • narzędzia agregacji są szybsze niż RDBMS • pewność wykonania • szybkość i skuteczność wbudowanych procedur ładowania danych zagregowanych

  49. Ładowanie i indeksowanie danych • Umieszczenie danych na serwerze hurtowni • Tworzenie tabel faktów i wymiarów • Indeksowanie: • natychmiastowe • z opóźnieniem • Koordynacja procesów

  50. Nadrzędny charakter kontroli etapów zasilania Dokumentowanie działań Aktywny udział użytkowników Dobra znajomość strukturyi znaczenia danych źródłowych Zrozumienie procesów zasilania Zatwierdzanie etapów zasilania Zapewnienie jakości danych

More Related