1 / 38

SKLADIŠTA PODATAKA

SKLADIŠTA PODATAKA. Beli Krešimir Boršćak Ivo Varaždin, 17. siječanj 2006. Osnove skladištenja podataka. Skladištenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljeća

lorant
Télécharger la présentation

SKLADIŠTA PODATAKA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SKLADIŠTA PODATAKA Beli Krešimir Boršćak Ivo Varaždin, 17. siječanj 2006.

  2. Osnove skladištenja podataka • Skladištenje podataka je novi koncept koji se pojavio sredinom 90-tih godina 20. stoljeća • Skladište podataka ili Data Warehouse(DW) je proces integracije podataka u jedan repozitorij iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izveštaje • Osnovni cilj skladištenja podataka je prikupljanje i distribucija informacija kroz preduzeće - točnije ostvarenje principa "Biti uvijek na usluzi korisniku informacija"

  3. Povijesni pregled razvoja skladištenja podataka • sustavi 70-tih godina su bili monolitni sustavi sa centraliziranim “mainframe” računalom-naslijedeni sustavi (engl. Legacy systems) • 80-tih godina dolazi do popularizacije osobnih računala • vrhunac sustava za analizu prije pojave skladištenja podataka bili su sustavi za potporu odlučivanju i izvršni informacijski sustavi • pojava koncepta Intraneta i korištenja web baziranih aplikacija-putem Intraneta podaci u skladištu podataka postaju dostupni svima unutar kompanije • tijekom 90-tih se javila potreba za nečim što se danas zove skladište podataka

  4. Osnovni pojmovi • “Skladište podataka je baza podataka koja sadrži povijesne, nepromijenjive podatke koji su logički i fizički izvučeni iz raznih izvora. Ti podaci se u skladu s definiranim modelom učitavaju u skladište i integriraju s postojećim podacima, a sve to u svrhu potpore poslovnom odlučivanju.” • “Skladištenje podataka je proces integracije podataka o poslovanju neke organizacije u jednu bazu podataka iz koje krajnji korisnici mogu raditi izvješća, postavljati upite i analizirati podatke.”

  5. Osnovni pojmovi • “Iskopavanje podataka (engl. data mining) je proces automatskog otkrivanja prethodno nepoznatih obrazaca i odnosa među podacima u bazi podataka.” • OLAP (engl. On-Line Analytic Processing) obuhvaća skupa alata koji krajnjem korisniku pružaju potporu poslovnom odlučivanju, a temelje se na dimenzijskom (višedimenzijskom) pristupu. • Metapodaci (podaci o podacima, engl. metadata) je izraz koji označava sekundarne, pomoćne podatke koji sadrže informacije o podacima u skladištu podataka ili sadrže informacije kako te podatke najlakše obraditi.

  6. Značajke skladišta podataka • pristup podacima je najefikasniji ako su ti podaci odvojeni od podataka pohranjenih u operacijskim sustavima • jedan od razloga za razdvajanje je da podaci u skladište podataka mogu doći i iz više izvora • Takoder bitan razlog je da se procesi obrade transakcije i analize podataka bitno razlikuju odnosno da postoji razlika između transakcijskih (operacijskih) sustava i sustava za analizu • transakcijski sustav (često se naziva i OLTP – On-Line Transaction Processing) pridaje najveću važnost raspoloživosti i brzini obrade i ne smije se dozvoliti da analiza podataka dovede do degradacija performansi transakcijskog sustava-ključni razlog razdvajanja

  7. Značajke skladišta podataka Razlike između OLTP i skladišta podataka

  8. Ciljevi skladištenja podataka • Skladište podataka mora omogućiti pristup podacima bitnim za neku organizaciju ili kompaniju • Podaci u skladištu podataka moraju biti konzistentni • Podaci se u skladištu podataka mogu kombinirati na sve moguće načine (engl. dice and slice requirement) • Skladište podataka nisu samo podaci, već ono mora sadržavati i skup alata za postavljanje upita (engl. query tools), alata za analizu i predstavljanje informacije • Skladište podataka je mjesto gdje se objavljuju korišteni podaci • Kvaliteta podataka u skladištu je pokretač poslovnog restrukturiranja

  9. Dimenzijski model • “Dimenzijski model je tehnika logičkog dizajna koja teži prikazivanju podataka na standardiziran, intuitivan način koji omogućava pristup podacima velikom brzinom.” Prikaz dimenzijskog modela podataka u obliku kocke

  10. Struktura dimenzijskog modela se sastoji od jedne tablice sa složenim ključem koje se naziva tablicom činjenica (engl. fact table) i više tablica dimenzija (engl. dimensional tables) od kojih svaka ima jednostavan ključ koji je dio složenog ključa tablice činjenica. Takva struktura se često zove zvijezda spoj (engl. star-join schema) Prikaz tipičnog dimenzijskog modela

  11. Tablice činjenica • tablica činjenica je mjesto gdje se spremaju brojčani poslovni pokazatelji • svaki od tih pokazatelja se nalazi negdje na presjeku svih dimenzija • ti pokazatelji se nazivaju činjenicama i otuda se tablica zove tablica činjenica • tipičan primjer za činjenicu je npr. atribut koji sadrži ukupnu vrijednost proizvoda prodanog određeni dan • najbolje i najkorisnije činjenice su: brojčane, kontinuirano vrednovane i zbrojive • tablica činjenica ima složeni ključ i on se sastoji od svih primarnih ključeva dimenzijskih tablica

  12. Dimenzijske tablice • Dimenzijske tablice spremaju podatke vezane za svaku pojedinu dimenziju • Dimenzije daju činjenicama kontekst, one su prirodni poslovni parametri koji određuju svaku činjenicu • Dimenzije se opisuju u dimenzijskim tablicama koristeći iscrpne tekstualne opise • Dimenzijska tablica bi trebala imati što veći broj atributa jer se tako povećava broj ograničenja u upitima, a time se povećava i količina informacija koja je korisniku dostupna • Dimenzijske tablice su denormalizirane radi jednostavnosti dizajna i učinkovitijeg izvođenja upita

  13. Jedna tipična dimenzijska tablica Dimenzija vremena

  14. OLAP • Izrazom “On-Line Analytical Processing” (OLAP) označena je kategorija softverske tehnologije koja omogućava korisnicima (analitičarima, menadžerima) da steknu uvid u podatke kroz brz, konzistentan, interaktivan pristup različitim mogućim pogledima na informacije transformirane iz sirovih podataka da bi odrazile stvarnu dimenzionalnost poslovanja kako ga shvača korisnik Uloga OLAP-a

  15. OLAP • OLAP je pojam koji izvorno potiče od E.F. Codda, a opisuje informacijski sustav za brz, konzistentan i interaktivan pristup i manipulaciju multidimenzionalnim podacima koji dolaze iz različitih izvora, a spremljeni su u skladištu podataka • Funkcionalnost OLAP-a ostvarena je kroz mogućnost multidimenzionalnih analiza konsolidiranih korporativnih podataka koje uključuju: modeliranje korištenjem dimenzija i hijerarhija podataka, analize trendova kroz određena vremenska razdoblja, projekciju podataka kroz what-if scenarije, podskupove podataka, bušenje (drill down) do nižih nivoa detaljnosti podataka • OLAP je obično implementiran u klijent-server okruženju

  16. OLAP postoji u dva temeljna oblika s obzirom na formu u kojoj su podaci spremljeni: relacijski (ROLAP-Relational On Line Analitycal Processing) i multidimenzionalni (MOLAP- Multidimensional On Line Analitycal Processing), te u hibridnom obliku (HOLAP-Hybrid On Line Analitycal Processing) koji za više nivoe sumarizacije koristi multidimenzionalni oblik, ali omogućuje dril-down do nižih nivoa sumarizacije koji su smješteni u relacijskoj tablici • U posljednje vrijeme koristi se i izraz FASMI - Fast Analysis of Shared Multidimenzional Data

  17. Aktivnosti u izradi skladišta podataka • Analiza izvora podataka • Postupak pripreme podataka • Postupak uskladištenja podataka • Analiza podataka

  18. Rudarenje podataka • Rudarenje podataka se može opisati kao netrivijalan proces identifikacije neospornih, novih, potencijalno korisnih i razumljivih uzoraka i odnosa među podacima u skladištu podataka. • Ima više modela i algoritama koji se koriste, te se ovisno o primjeni odabire najpogodniji.

  19. Rudarenje podataka • Najpoznatije metode rudarenja podataka su: -klasifikacija i regresija (algoritmi neuralnih mreža i stabla odlučivanja), - klasteriranje (identificiranje i grupiranje sličnih podataka), - sažimanje i vizualizacija, - modeliranje zavisnosti, asocijacije i sekvencijalna analiza,te - analiza vremenskih serija

  20. Rudarenje podataka • Skladište podataka, ne samo da predstavlja veliki skup podataka i informacija, već mora omogućiti upotrebu analitičkih sredstava koji omogućavaju: - otkrivanje uzoraka - predviđanje ponašanja korisnika - izradu analize tržišta

  21. Rudarenje podataka • Data mining analize se u biti baziraju na metodama raspoznavanja uzoraka i koriste se za rješavanje slijedećih zadataka: • razvrstavanje • predviđanje • procjena vrijednosti • grupiranje • opisivanje i vizualizacija podataka

  22. Business intelligence • BI je krovni naziv za skup metoda, alata i aplikacija koje omogućavaju prikupljanje, analizu, distribuciju i djelovanje na osnovu poslovnih informacija, sa ciljem donošenja boljih poslovnih odluka • BI daje pogled na cijelu kompaniju, pri ćemu svatko može dobiti upravo onu informaciju koja mu je potrebna • BI omogućava proaktivan način vođenja kompanije • BI sustav je izvorno bio namijenjen decision makerima, odnosno ljudima koji donose poslovne odluke

  23. Business intelligence • BI sistem ne postoji kao gotov proizvod, postoje proizvođači koji nude tehnološke platforme i znanja za implementaciju • Uvođenje BI sustava je projekt koji nema kraja • Postavlja se pitanje cijene ovakvih sustava i troškova informacija

  24. Iskustva u izgradnji sustava skladišta podataka • Vođenje projekta - Statistike kažu da između 50 i 60% projekata izgradnje skladišta podataka ne uspijeva u ostvarenju zadanih ciljeva - Oracle PJM je metodologija koja se uz određene prilagodbe koristi za vođenje projekta - ključne institucije u ovom dijelu su: - sponzor (sponzorski odbor) i - voditelj projekta

  25. Iskustva u izgradnji sustava skladišta podataka • Izgradnja sustava - Neke od ključnih uloga u projektnom timu za koje je potreban ovakav angažman su: stručnjak za dohvat izvorišnih podataka, administrator podataka, analitičar i naravno krajnji korisnici - Krajnji korisnici kojima su namijenjene aplikacije razlikuju se od korisničke populacije produkcijskih sustava - Spremnost korisnika na upotrebu sustava jedan je od ključnih faktora uspjeha projekta u cjelini

  26. Iskustva u izgradnji sustava skladišta podataka • Sustav prijenosa podataka - Sustav prijenosa podataka predstavlja najteži zadatak u cijelom procesu izgradnje sustava skladišta podataka i na njega otpada približno 60% ukupnog vremena - Sam proces može se podijeliti u nekoliko faza i to: - dohvat, - transport, - prihvat, - prilagodba i - punjenje.

  27. Iskustva u izgradnji sustava skladišta podataka • Kvaliteta podataka -Loša kvaliteta podataka, prema istraživanjima SAS Instituta, uzrok je neuspjeha u 70% projekata izgradnje skladišta podataka -Kako bi se moglo provesti testiranje kvalitete podataka potrebno je prvo utvrditi karakteristike kvalitetnih podataka: - ispravnost, - potpunost, - konzistentnost, - jedinstvenost i - pravovremenost.

  28. Iskustva u izgradnji sustava skladišta podataka • Sigurnost podataka -Sigurnosti podataka se u pravilu ne poklanja dovoljna pažnja, a skladište podataka je vrlo osjetljivo na pitanja sigurnosti - Kada se prisjetimo da se u skladište podataka pohranjuju i podaci o konkurenciji, predviđanja, planovi, scenariji dakle ne samo povijesni podaci onda je jasno koliko je pitanje sigurnosti osjetljivo i kakva mogućnost zloupotrebe takvih podataka postoji

  29. Iskustva u izgradnji sustava skladišta podataka • Sigurnost podataka - Slijedi nekoliko uputa koje mogu olakšati rješavanje pitanja sigurnosti: - utvrdite trenutnu politiku spram sigurnosti unutar organizacije - utvrdite da li i koji tajni podaci će biti pohranjeni u skladište podataka - definirajte tko sve može pristupiti sustavu - gdje će pravila sigurnosti biti implementirana - koliko će implementacija sigurnosti koštati - što će se poduzeti u slučaju evidentiranog kršenja pravila

  30. Iskustva u izgradnji sustava skladišta podataka • Prezentacija podataka – korisničke aplikacije - Korisničke aplikacije u sustavu skladišta podataka mogu biti od skupine izvještaja do specijalističkih aplikacija za prognoziranje, data mining - Loše je za uspješnost projekta predati korisnicima skladište podataka i alate za izradu izvještaja i ad-hoc upita bez unaprijed pripremljenih izvještaja i očekivati da će ih većina koristiti

  31. Skladište u HZZ-u • Situacija u HZZ-u - Dolaskom u HZZ naišlo se na postojeću CLIPPER aplikaciju, uz koju su se izvješća generirala ručno. - Uzmemo li u obzir organizaciju rada i sustava, podaci su bili redundantno pohranjeni na više mjesta ( gotovo na svakom PC računalu – klijentu ). Izvješća su bila u tekstulanom formatu, a zbog čestog verzioniranja programa i načina replikacije podataka postojala je mogućnost razlike istog izvještaja na različitim lokacijama.

  32. Skladište u HZZ-u • Cilj i poslovna rješenja • Samim time, razvila se želja za automatizacijom samog procesa, kao i brzim odgovorima na kompliciranije upite nad bazom • Napravljeni su sljedeći moduli : 1. Sistemski modul za prijenos podataka iz postojećih aplikacija (Clipper i ostale) 2. Aplikativni modul za funkcionalnu-tehnološku nadogradnju i zamjenu postojećih aplikacija (Clipper i ostale)

  33. Skladište u HZZ-u • Projekt HZZ-DW obuhvaća: - procese dohvata, prihvata, prilagodbe i punjenje postojećih podataka iz produkcije u skladište podataka - izrada i razvoj OLAP kocki ( mjere, dimenzije...) - izvještavanje i publiciranje na Web ( 'Čarobnjak' ) - implementiranje i održavanje

  34. Skladište u HZZ-u • Za izradu skladišta podataka korištena je Microsoft tehnologija : -SQL Server 2000 Enterprise ( Windows 2000 Server ), - SQL Server Developer ( Windows 2000 Profesional ) - Analyses Services SQL Servera - SQL Server Service, • za prezentaciju podataka : - MDX upiti - Active X kontrola za Prekapanje - Excell Pivot tabele .

  35. Skladište u HZZ-u

  36. ARHITEKTURA EXCEL OWC ODC PRODUKCIJA DWH OLAP ČAROBNJAK REPORT ASP (MDX) XLS HTML SCHEDULER XLS HTML Skladište u HZZ-u

  37. Skladište u HZZ-u

  38. Literatura • http://www.geocities.com/elvirko/skladistenje_i_analiza_informacija.html • http://www.efzg.hr/inc.visits.aspx?id=2452 • http://www.in2.hr/data/docs/BI_DWH-iskustva.doc • http://www.in2.hr/data/docs/HZZ-DW.doc • http://www.ekonomist.co.yu/magazin/ebit/16/h$s/h$s4.htm • http://www.skladistenje.com/download/ IzgradnjaSkladistaPodataka.pdf • http://www.alfatec.hr/pojmovnik_list.asp

More Related