1 / 100

Uvod u Data Warehousing i OLAP

Pregled sadr

samson
Télécharger la présentation

Uvod u Data Warehousing i OLAP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. OLTP sistemi Data Warehousing Razvoj skladita podataka Arhitektura dimenzionog modela OLAP sistemi Uvod u Data Warehousing i OLAP

    2. Pregled sadraja Uvod u Data Warehousing Razumevanje data warehouse sistema je veoma bitno kada se projektuju i implementiraju sistemi za podrku odlucivanju. Projektovanje Data Warehouse Pre nego to se kreira OLAP baza podataka, neophodno je razumeti komponente data warehouse-a koje se koriste pri izgradnji OLAP baze podataka. Definisanje OLAP reenja OLAP tehnologija predstavlja jednu alternativu tehnologiji relacione baze podataka. OLAP nudi brzi i fleksibilan pregled podataka, analizu i navigaciju. Razumevanje OLAP modela i primena OLAP kocke Kako primeniti koncepte projektovanja Data Warehouse-a da bi se projektovali i kreirali OLAP modeli. Opisuju se osnove OLAP kocke demonstriranjem metoda za vizuelizaciju multidimenzionalnih baza podataka.

    3. Sirovi podaci vs. poslovne informacije Kompanija svakodnevno prikuplja velike kolicine podataka. Ti podaci su cesto sirove cinjenice koje odraavaju tekuce stanje poslovanja. Sirov podatak: Maloprodajni lanac prodavnica internacionalne muzicke kuce prikuplja podatke o prodaji za svaki kupljeni proizvod, podatke o obrtu kapitala i dr. Sirov podatak opisuje na primer, da lanac prodavnica u Beogradu prodaje 10000 evra vrednosti prodate robe u Junu 2003. Finansijska institucija prikuplja podatke o svim racunima i utedevinama klijenata. Sirov podatak na primer, moe pokazati da je Sefan M. podigao 50 evra sa svog racuna jutros u Amsterdamu. Izvedene informacije: S obzirom da je vrednost prodate robe u 2002. godini iznosio 15.000 evra, a postavljen cilj za 2003. godinu je bio 20.000 evra, ocigledno je da lanac prodavnica u Beogradu nije ispunio eljeni cilj. Analiza poslovanja treba da odredi posledice pada prodaje. Pitanja koja se postavljaju su: Koji se proizvodi prodaju, a koji ne?, Koji je efekat promocije proizvoda?. Stefan ivi u Beogradu, ali u proteklih pet meseci, Stefan je podizao novac u Londonu, Oslo-u, Stockolm-u, to dovodi do zakljucka da on cesto putuje po Evropi. S toga bi moda on bio zainteresovan za specijalnu kreditnu karticu koji mu omogucava neogranicen pristup svom racunu u 16 razlicitih zemalja uz odgovarajucu godinju clanarinu. Pitanja koja se postavljaju nakon ove analize su: Koji je prosecan dnevni bilans njegovog racuna?, Za koje proizvode bi bio zainteresovan?

    4. OLTP sistemi OLTP (on-line transaction processing) sistemi su operacioni sistemi koji prikupljaju poslovne transakcije i snabdevaju podacima data warehouse ili data mart. Skladite podataka (Data Warehouse DW) je analiticka baza podataka namenjena samo za citanje i koristi se kao osnova sistema za podrku odlucivanju. Primeri OLTP operacionih sistema: aplikacije pracenja porudbina, aplikacije usluga klijenata (npr., otvaranje racuna klijentima), bankarske funkcije (npr, depoziti) itd. Jedna od karakteristika koja razdvaja transakcione sisteme od analitickih jeste dizajn baze podataka: Transakcioni sistemi su dizajnirani tako da preuzimaju podatke, vre izmene nad postojecim podacima, daju izvetaje, odravaju integritet podataka i upravljaju transakcijama to je bre moguce. Analiticki sistemi nisu predvideni da obavljaju ove poslove. Oni se dizajniraju za veliki broj podataka namenjenih samo za citanje, obezbedujuci informacije koje se koriste za donoenje odluka.

    5. Data Warehousing (DW) Skladitenje podataka - DW je proces integracije podataka u jedan repozitorijum iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izvetaje. Karakteristike DW: Organizacija. Podaci su organizovani po predmetu i sadre relevantne informacije za podrku odlucivanju. Konzistentnost. Podaci u razlicitim operacionim bazama podataka se drugacije ifriraju. U DW ti podaci ce biti ifrovani na konzistentan nacin. Vremenski. Podaci se cuvaju mnogo godina kako bi se iskoristili za pracenje trendova, prognoze i vremensko poredenje. Multidimenzionalni. Obicno data warehouse koristi multidimenzionalnu strukturu. Web-zasnovani. Danas je DW dizajniran tako da obezbedi jedno efikasno okruenje za web zasnovane aplikacije. Warehousing koncept je skladitenje agregiranih, ekstrahovanih i filtriranih podataka u meta baze, koje omogucavaju slojevit, multidimenzionalni pristup podacima, kakav je potreban za donoenje odluka najvieg stratekog nivoa. Skladite podataka je informaciona baza podataka dizajnirana za podrku jedne ili vie klasa analitickih zadataka, kao to su nadgledanje i izvetavanje, analiza i dijagnoza i simulacija i planiranje.

    6. Komponente DW sistema DW sistem sadri mnoge komponente koje prenose podatke sa izvornih sistema do korisnika koji izvravaju analizu podataka: Izvori podataka Izvorni sistemi su operacioni sistemi, npr. OLTP sistemi koji mogu biti relacioni. Oblast za pripremu podataka skup procesa koji cisti, transformie, povezuje i priprema izvorne podatke za koricenje u DW. Podaci se transformiu u konzistente formate. Oblast za pripremu podataka se nalazi na jednom ili nekoliko kompjutera, ne mora da bude zasnovana na relacionoj tehnologiji, ne podrava koristnicke izvetaje. Data Mart je podskup DW koji sadri podatke specificne za odredenu poslovnu aktivnost kao to su finansije ili analiza klijenata. Data martovi mogu biti ukljuceni u DW, mogu se izgraditi u relacionim ili OLAP bazama podataka i mogu detaljne ili sumarne podatke koje se mogu ili ne deliti kroz data mart-ove. Data Warehouse moe se definisati i kao virtuelna unija data mart-ova sa integrisanim informacijama koje su deljive kroz data mart-ove ili kao centralizovano, integrisano skladite podataka koje obezbeduje podatke data mart-ovima.

    7. Komponente DW sistema

    8. Razvoj skladita podataka Pri izgradnji skladita podataka najbitniji su sami podaci, a ne poslovni procesi i funkcije, kao to je to slucaj sa transakcionim sistemima. Za razvoj skladita podataka potrebno je: izvriti analizu izvora podataka, pripremiti podatake, izgraditi skladite podataka.

    9. Razvoj skladita podataka

    10. 1. Analiza izvora podataka Osnovni izvori podataka za koncept skladita podataka su operativni (transakcioni), tzv. OLTP (On-Line Transaction Processing) podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka. Analiza izvornih podataka se smatra kljucnim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajuca pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najcece u glavama onih koji treba da koriste skladite podataka. Analiza izvora podataka prolazi kroz sledece faze: 1.1. Prikupljanje zahteva, 1.2. Planiranje skladita podataka, 1.3. Izbor tehnike analize podataka.

    11. 1.1. Prikupljanje zahteva U ovoj fazi razvoja skladita podataka, razmatraju se poslovne potrebe i zahtevi buducih korisnika sistema. Prikupljanje izvornih (source-driven) zahteva Metoda bazirana na definisanju zahteva koricenjem izvornih podataka u proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela izvornih podataka. Glavna prednost: podravanje svih podataka, svodenje na minimum vreme potrebno korisniku u ranim fazama (stanjima) projekta. Nedostaci: umanjivanjem kosrisnikovog uceca povecava se rizik od promaaja ispunjenja zahteva korisnika, oduzima dosta vremena.

    12. 1.1. Prikupljanje zahteva (nastavak) Prikupljanje korisnickih (User-Driven) zahteva Prikupljanje korisnickih zahteva je metoda koja se bazira na definisanju zahteva istraivanjem funkcija kojima korisnik tei, odnosno koje korisnik izvrava. Ovo se obicno postie kroz seriju sastanaka i/ili intervjua sa korisnikom. Glavna prednost ovog pristupa je to se koncentrie na ono to je potrebno, a ne na ono to je dostupno. Ovaj pristup proizvodi upotrebljivo skladite podataka u kracem vremenskom periodu. Postupak prikupljanja zahteva: Intervjuisanje kljucnih ljudi u organizaciji, npr: analiticari, menaderi i izvrioci. Utvrditi protok informacija u i iz svakog odelenja (koji izvetaji i dokumentacija pristiu u odelenje, kako se koriste, ko ih koristi, koliko cesto pristiu itd. Dobijene podatke organizovati u nekoliko sekcija, kao to su: Podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i Zahtevi vezani za podatke (opis svih polja podataka koja se koriste, novi detalja, izvori). Organizovane podatke proslediti svim ucesnicima intervjua radi miljenja i eventualnih korekcija.

    13. 1.2. Planiranje skladita podataka

    14. 1.3. Izbor tehnike analize podataka

    15. b. Viedimenzionalna analiza Viedimezionalna analiza - je nacin da se proire mogucnosti upita i izvetaja. Ovo znaci da se umesto izvravanja viestrukih upita podaci struktuiraju da bi se omogucio brz i lak pristup odgovorima na pitanja koja se tipicno postavljaju. Na primer, interesuje vas koliko je odredenih proizvoda prodato odredenog dana, u odredenoj prodavnici i u odredenom rasponu cena. Onda za dalju analizu elite da znate koliko prodavnica je prodalo odredeni proizvod, u odredenom rasponu cena, odredenog dana. Ova dva pitanja zahtevaju slicne informacije, ali jedna posmatrane iz ugla proizvoda, a druga iz ugla prodavnice. Viedimenzionalna analiza zahteva model podataka koji ce omoguciti da se podaci lako i brzo mogu pogledati iz bilo koje moguce perspektive ili dimenzije. Poto se koristi vie dimenzija, model mora da obezbedi nacin da se podacima brzo pristupa (ako se koriste visoko normalizovane strukture podataka, bice potrebno mnogo grupisanja izmedu tabela koje sadre razlicite dimenzije podataka i mogu znacajno uticati na performanse).

    16. c. Tehnika analize podataka Data mining Data mining je relativno nova tehnika analize podataka. Tehnika otkrivanja - Veoma je razlicita od upita i izvetaja, kao i od viedimenzionalnih analiza, po tome to koristi tehniku otkrivanja. Ovo znaci da ne pitate odredeno pitanje vec koristite odredene algoritme koji analiziraju podatke i izvetavaju ta su otkrili. Za razliku od upita, izvetaja i viedimenzionalnih analiza, gde je korisnik morao da kreira i izvrava upite zasnovane na hipotezama, data mining trai odgovore na pitanja koja ne moraju biti prethodno postavljana. Otkrivanje moe imati formu pronalaenja znacaja u vezama izmedu odredenih elemenata podataka, klasterisanja odredenih elemenata podataka ili neki drugi obrazac u koricenju odredenih skupova elemenata podataka. Nakon iznalaenja ovih obrazaca, algoritmi mogu da iz njih izvedu pravila. Ova pravila tada mogu biti koricena da se generie model koji ima eljeno ponaanje, identifikuje veze medu podacima, otkriva obrasce i grupie klastere zapisa sa slicnim atributima.

    17. 2. Priprema podataka U procesu razvoja skladita podataka priprema podataka je jedna od najbitnijih aktivnosti. Dalji proces razvoja skladita podataka bice uspean samo ako je ova aktivnost uspeno zavrena. ETL (Ekstrakcija/Transformacija/Punjenje) je najkoplikovaniji proces u citavom projektu. Izvori podataka se nalaze na razlicitim platformama, koje su upravljane razlicitim operativnim sistemima i aplikacijama. Svrha ETL procesa je da spoji podatke iz heterogenih platformi u standardni format (slika). ETL proces pocinje sa reformatiranjem podataka koji treba da unificira formate podatka sa razlicitih izvora. U drugom koraku se reava problem konzistentnosti koji se javlja usled redundantnosti podataka. Na kraju se pristupa cicenju onih podataka koji naruavaju poslovna pravila.

    18. Heterogeni izvori podataka

    19. Tipicni problemi izvora podataka nekonzistentnost primarnih kljuceva cesto se primarni kljucevi izvornih zapisa podataka ne poklapaju. Na primer, moe postojati pet fajlova o klijentima, gde svaki od njih ima razliciti atribut kao primarni kljuc klijenta. Ovi razliciti kljucevi klijenata se moraju konsolidovati ili transformisati u jedan standardizovani kljuc klijenta (Slika).

    20. Tipicni problemi izvora podataka nekonzistentnost vrednosti podataka mnoge organizacije dupliciraju svoje podatke. Termin dupliciranje se odnosi na elemente podataka koji su kopija originalnog podatka. Tokom vremena, usled anomalija auriranja, ovi duplicirani podaci imaju totalno razlicite vrednosti. razliciti formati podataka elementi podataka kao to su datumi i novcani podaci (currencies) mogu biti uskladiteni u totalno razlicitim formatima. netacne vrednosti podataka da bi se korigovale netacne vrednosti podataka, mora se definisati logicko cicenje. ETL algoritmi cicenja podataka treba da se aktiviraju svaki put kada se podatak puni. Stoga, programi transformacije ne smeju biti pisani na brzinu, vec se moraju razviti na jedan struktuiran nacin.

    21. Tipicni problemi izvora podataka sinonimi i homonimi redundantne podatke nije uvek lako prepoznati usled toga to isti elementi podataka imaju razlicite nazive. S obzirom da sinonimi i homonimi[1] ne smeju postojati u okruenju, neophodno je preimenovati date elemente podataka. ugradena logika procesa neki operacioni sistemi su ekstremno stari. Oni cesto sadre nedokumentovane i arhaicne relacije izmedu pojedinih elemenata podataka. Takode, obicno koriste i neke kodove, kao na primer, vrednost 00 podrazumeva da je poiljka vracena, dok FF znaci da je prosledena na kraju meseca. Specifikacije procesa transformacije moraju da reflektuju ovu logiku. [1] Homonimi (homonym) su reci koje se isto piu i izgovaraju, ali imaju razlicita znacenja (cest slucaj u engleskom jeziku).

    22. ETL proces Generalno, prvi zadatak je proces konverzije sistema gde se mapiraju najpogodniji elementi podataka u ciljne fajlove ili baze podataka. Kada se kae najpogodniji elementi podataka misli se na one podatke koji su najslicniji po imenu, definiciji, velicini, duini i funkcionalnosti. Drugi zadatak je pisanje programa konverzije (transformacije) kako bi se transformisali izvorni podaci. Ovi programi moraju da ree probleme dupliciranih zapisa, prilagodavanja primarnih kljuceva i odsecanja ili povecavanja velicine elemenata podataka. Ono to uglavnom nedostaje ETL programima su cicenje i uskladivanje podataka, na koje treba obratiti panju kod projektovanja procesa punjenja. Kod procesa punjenja istorijskih podataka koji su obicno staticni, treba obratiti panju na one podatke koji nisu vie u upotrebi i novih podataka koji se dodaju tokom godina.

    23. 2.1. Ekstrakcija podataka Programi ekstrakcije podataka treba da vre sortiranje, filtriranje, cicenje i da agregiraju sve zahtevane podatke. Programi ekstrakcije moraju da prepoznaju koji od redundantnih izvornih fajlova ili baza podataka su zapisi sistema. Na primer, isti izvorni element podatka kao to je Naziv klijenta moe da postoji u nekoliko izvornih fajlova i baza podataka. Ova redundantnost treba da se sortira i konsoliduje, to ukljucuje korake sortiranja i spajanja, preko odredenih kljuceva i vrednosti podataka.

    24. Ekstrakcija i cicenje podataka Ova faza se sastoji od sledecih zadataka: a. razvoj procedura za ekstrakciju podataka, b. razvoj procedura za cicenje podataka. a. Razvoj procedura za ekstrakciju podataka Podaci koji ce se koristiti u skladitu podataka moraju se ekstrahovati iz transakcionih sistema (baza podataka u okviru nekog sistema) koji sadre te podatke. Podaci se inicijalno ekstrahuju u procesu kreiranja skladita podataka, a kasnije se na osnovu odrednih procedura vri dodavanje novih podataka u skladite podataka. Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni podaci nalaze u jednoj relacionoj bazi, ali moe da bude i veoma kompleksna operacija, ako su podaci smeteni u viestrukim heterogenim transakcionim sistemima. Cilj procesa ekstrakcije podataka je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za ucitavanje u skladite podataka.

    25. b. Razvoj procedura za cicenje podataka Zbog problema koji se prilikom ekstrakcije podataka javljaju, podaci dobijeni ekstrakcijom se moraju "cistiti". Cicenje podataka podrazumeva: proveru postojanja logickih greaka, "poboljanje" podataka i eliminisanje ostalih greaka. Provera logickih greaka ukljucuje proveru vrednosti atributa usled razlicitog oznacavanja pojmova, proveru atributa u kontekstu ostalih podataka u redu, proveru atributa u kontekstu redova druge tabele koja je povezana, proveru veza izmedu redova iste ili povezanih tabela (provera prenesenih kljuceva). "Poboljanje" podataka je proces cicenja kojim se tei da podaci dobiju puno znacenje. Primer za ovo su podaci o imenima i adresama. Eliminisanje ostalih greaka je proces u kome se odlucuje o sudbini podataka koji su nepotpuni ili nemaju veliko znacenje. Ovi podaci se mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladite podataka sa tim svojim nesavrenostima.

    26. 2.2. Transformacija podataka Koristeci pravilo 80/20, 80% ETL procesa je transformacija podataka, dok je ostalih 20% ekstrakcija i punjenje. Projektovanje programa transformacije je veoma komplikovano, narocito kada su podaci ekstrakovani iz heterogenih operativnih okruenja. Pored transformisanja izvornih podataka zbog nekompatibilnosti tipa podataka, duine ili netacnosti, najveci deo transformacione logike ce ukljucivati i preracunavanje podataka za multidimenzionalno skladitenje.

    27. Transformacija podataka U ovoj fazi potrebno je: definisati izvore podataka i tipove transformacija koje treba izvriti nad podacima i ostvariti mapiranje podataka iz izvorita u odredita. Pre pocetka procesa transformacije podataka, tim strucnjaka koji radi na projektu dizajniranja skladita podataka definie fizicki model podataka za skladite podataka i generie eme. Faza mapiranja i transformacije podataka sastoji se od sledecih zadataka: kreiranje plana transformacije podataka, razvoj procedura za transformaciju podataka, razvoj procedura za ucitavanje podataka, testiranje procedura, generisanje meta podataka.

    28. a. Kreiranje plana transformacije podataka Planom je potrebno odrediti najbolji put migracije izvornih podataka do skladita podataka. Analiziraju se raspoloivi resursi, kolicina izvornih podataka, razlicite izvorne eme, razliciti nacini pristupanja podacima, struktura skladita podataka i potreban broj agregacija. Planom se dokumentuju sve izvorne platforme, metode pristupa i programski jezik koji je potreban za ekstrakciju podataka. Prelazne eme - Obicno se izvorni podaci prvo smetaju u prelazne eme. Prelazne eme su zajednicki interfejs za sve izvorne sisteme. One se ne podudaraju u potpunosti ni sa izvornim ni sa odredinim emama. Koriste se da bi se poboljali procesi "cicenja" i transformacije podataka. Analiza izvora podataka - Nakon kreiranja plana transformacije podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti koji ce se podaci mapirati u odredini sistem i koja je to logika potrebna da bi se izvrila migracija podataka.

    29. b. Razvoj procedura za transformaciju podataka Pod transformacijom podataka se podrazumeva proces kojim se uskladuju razliciti nacini prikazivanja podataka razlicitih sistema u jedinstveni oblik. Na primer, neki sistemi mogu oznacavati pol ljudi sa 1 za muki pol i 2 za enski pol. Ako se u skladitu podataka ovo oznacavanje vri sa M i Z, onda mora postojati proces koji ce transformisati 1 u M i 2 u Z. Transformacija podataka je kritican korak u razvoju skladita podataka. U okviru procesa transformacije vri se poslednja priprema podataka pre ucitavanja. Tipicna transformacija podataka ukljucuje: prevodenje polja sa vie imena u jedno polje, razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, prevodenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u DA i NE), kreiranje i dodavanje kljuceva za tabele dimenzija.

    30. c. Punjenje podataka Finalni korak kod ETL procesa je punjenje ciljnog skladita podataka, koja se postie na dva nacina, i to: unoejem novih redova u tabele ili koristeci DBMS-ov alat za punjenje. Kod projektovanja programa za punjenje treba obratiti panju na referencijalni integritet i indeksiranje.

    31. Razvoj procedura za ucitavanje podataka Procedure za ucitavanje podataka treba da izvravaju sledece aktivnosti: Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se obezbediti formati pogodni za smetanje u skladite podataka. Prenoenje podataka iz starijih sistema u skladite podataka. Vri se raspakivanje podataka, njihovo poredenje, kombinovanje i transformacija u oblik pogodan za skladite podataka. Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak sortiranja podataka po odredenim atributima na osnovu kojih se, zatim, vri sumiranje. Tako sumirani podaci se smetaju u skladite podataka. Kreiranje kljuceva za agregacione zapise. Svi zapisi u tabelama, a samim tim i agregacije, moraju imati kljuceve. Ovaj korak se razlikuje od prethodnog jer su kljucevi za agregacione zapise u potpunosti vetacki i ne smeju biti identicni primarnim kljucevima tabele cinjenica. Prema tome, strucni tim mora dizajnirati aplikaciju koja ce generisati takve kljuceve. Obrada neucitanih podataka. Pri procesu smetanja podataka u skladite podataka cesto se deava da se neki podaci ipak ne ucitaju, najcece zbog referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji, koja ce obezbedivati referencijalni integritet podataka. Indeksiranje podataka. Po zavrenom procesu smetanja podataka u skladite podataka, svi indeksi se moraju aurirati.

    32. Primer dokumenta mapiranja izvora-ka-cilju Na kraju je neophodno dokumentovati ETL specifikacije transformacije pomocu dokumenta mapiranja izvora-ka-cilju (source-to-target mapping document) koji treba da lista sve tabele i kolone sa njihovim tipovima i duinama podataka (Tabela). Takode, treba prikazati ETL dijagram toka procesa (ETL process flow diagram) koji prikazuje zavisnosti procesa izmedu ekstrakovanja, sortiranja i spajanja, transformacije, privremeno kreiranih fajlova i tabela, procesa rukovanja sa grekama, aktivnosti uskladivanja nekonzistentnosti i redosleda punjenja podataka.

    33. d. Testiranje procedura Da bi se utvrdila ispravnost rada procedura za ekstrakciju i ucitavanje podataka, mora se izvriti njihovo testiranje. Provera kvaliteta podataka - Testiranje procedura se, najcece, ostvaruje proverom kvaliteta podataka, tako to se zadaju upiti nad skladitem podataka koji prebrojavaju podatke ili ih prikazuju u vidu grafikona sa kojih se moe utvrditi da li su podaci u rasponu koji je ocekivan. Po zavrenoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka.

    34. e. Izrada meta baze podataka Meta baza podataka, odnosno recnika podataka je baza podataka o bazi podataka. Meta baza podataka cuva sve podatke o podacima mapirajuci izvorni u ciljni sistem i uspostavlja vezu izmedu podataka sa izvora i cilja. Oni cuvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj bazi i transformaciono-integracionu logiku. Tek po postavci meta baze podataka moe se krenuti dalje u izdvajanje podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i organizovanje pre punjenja DW.

    35. Skladita meta podataka Skladita meta podataka mogu biti: centralizovana postoji jedna baza podataka (relaciona ili objektno-orijentisana) i jedna aplikacija za odravanje. decentralizovana skladite meta podatke u bazama podataka koje se nalaze na razlicitim lokacijama. distribuirana preko XML reenja, meta podaci ostaju na svojim originalnim pozicijama, odnosno na razlicitim alatima.

    36. 3. Izgradnja skladita podataka Izgradnja skladita podataka se sastoji od sledecih zadataka: denormalizacija podataka, definisanje hijerarhija, kreiranje agregacija, kreiranje fizickog modela, generisanje baze podataka, ucitavanje podataka.

    37. a) Denormalizacija podataka Prvi korak je identifikacija dimenzija i atributa koja podseca na klasicno projektovanje upotrebom ER modela i zove se dimenziono modeliranje. Dimenziono modeliranje je tehnika logickog dizajna ciji je cilj prezentacija podataka u obliku koji obezbeduje visoke performanse sistema radi vrenja analize podataka. U dimenzionom modeliranju, strukture podataka su tako organizovane da opisuju mere i dimenzije. Mere su numericki podaci smeteni u centralnoj, takozvanoj tabeli cinjenica (fakt tabela). Dimenzije su standardni poslovni parametri koji definiu svaku transakciju. Osnovu za izradu dimenzionog modela predstavljaju meta podaci, na osnovu kojih se vri definisanje hijerarhija, elemenata i atributa, normalizacija i denormalizacija i definisanje agregacija. Svaka dimenziona tabela ima svoj primarni kljuc, a svi oni ucestvuju u stvaranju primarnog kljuca tabele cinjenica. Ovakvi modeli se nazivaju emama zvezde. Tabele cinjenica sadre podatke koji su, najcece, numerickog tipa i mogu sadrati veliki broj zapisa.

    38. Primeri dvodimenzionih i trodimenzionih modela podataka

    39. Razliciti pogledi na iste podatke

    40. Primer normalizovane i denormalizovane reprezentacije podataka Sve dimenzione tabele su denormalizovane, to znaci da se isti podaci cuvaju na vie mesta da bi se obezbedila jednostavnost i poboljale performanse.

    41. Arhitektura dimenzionog modela Kod denormalizovanog modela dimenzije su organizovane u emu zvezde, a kod normalizovaog u emu snene pahuljice. Postoje situacije u kojima ema zvezde nije pogodna za skladitenje podataka. Osnovni razlozi za to su: denormalizovana ema zvezde moe zahtevati previe memorijskog kapaciteta, veoma velike dimenzione tabele mogu uticati na pad performansi sistema. Ovi problemi se mogu reiti normalizacijom dimenzija, cime se ema zvezde prevodi u emu pahulje. Glavni nedostatak eme pahulje je njena sloenost u odnosu na emu zvezde, cime se oteava odravanje skladita podataka. Zato je potrebno vriti normalizaciju samo onih dimenzija koje sadre mnogo redova podataka i koje imaju mnogo atributa. Najcece se postiu najbolji rezultati ako se izvri normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj nacin se dolazi do delimicne eme pahulje. ema galaksije predstavlja kolekciju ema zvezda, tj. ako se ne moe kreirati model koji bi imao samo jednu cinjenicnu tabelu, tada je potrebno povezati dve eme zvezde da bi se zadovoljile potrebe korisnika.

    42. ema zvezde, pahulje i galaksije

    43. ema zvezde Fizicka arhitektura dimenzionog modela opisana je pomocu eme zvezde definisane sa dve vrste tabela dimenzione tabele (dimension table) i tabele cinjenica (fact table). Tabela cinjenica sadri kvantitativne podatke o poslovima koji opisuju specificne dogadaje u poslovanju, kao to su bankarske transakcije ili prodaja proizvoda, a koje korisnici analiziraju. Moe sadrati i agregirane podatke, kao to je npr., mesecna prodaja. Ovi podaci su najcece numerickog tipa i mogu se sastojati i od nekoliko miliona redova i kolona. Dimenzione tabele su znatno manje i sadre podatke koji opisuju dati posao, tj. one podatke po kojima se vri analiziranje. Ti podaci se nazivaju atributi. Na primer, kod maloprodaje dimenzione tabele opisuju kako se izracunavaju podaci o prodaji. Osnovne prednosti eme zvezde su to omogucava definisanje sloenih viedimenzionih podataka u vidu jednostavnog modela, smanjuje broj fizickih veza koje se moraju procesirati pri zadavanju upita, cime se postie poboljanje performansi sistema i omogucava proirenje skladita podataka uz relativno jednostavno odravanje. Velika mana eme zvezde je to se povecava redundantnost podataka.

    44. Jednostavna ema zvezde Svaka tabela mora sadrati primarni kljuc ciji sadraj jedinstveno identifikuje zapise. Na primeru, primarni kljuc tabele cinjenica je sastavljen od tri spoljna kljuca. Spoljni kljuc je kolona jedne tabele, cija je vrednost definisana kao primarni kljuc druge tabele.

    45. ema zvezde

    46. Komponente tabele cinjenica

    47. Karakteristike dimenzione tabele Dimenziona tabela predstavlja poslovne entitete (npr. Prozvod, klijent) Sadri atribute koji obezbeduju kontekst za numericke podatke koji su uskladiteni u tabeli cinjenica. Prikazuje podatke organizovane u hijerarhije omogucava korisnicima pregledanje detaljnih i zbirnih podataka. Svaka dimenziona tabela sadri jednu ili vie hijerarhija.

    48. ema zvezde na primeru EDIFACT fakture

    49. b) Definisanje hijerarhija Dimenzione tabele memoriu sledece elemente: traenje hijerarhijskih relacija u svakoj dimenziji, definisanje opisnih atributa svake dimenzije. Dimenzije veoma cesto mogu biti organizovane u hijerarhiji. Na primer, kod dimenzije proizvod, mogu postojati tri dimenziona elementa: prozvod, grupa i vrsta proizvoda. U ovom modelu moemo reci da dimenzioni element "proizvod" predstavlja najnii hijerarhijski nivo u dimenziji proizvod, dok vrsta proizvoda predstavlja najvii nivo. Posmatranje podataka iz razlicitih, ali blisko povezanih perspektiva omogucava da korisnik analizira podatke na razlicitim nivoima detalja. Drill-down - Postupak prelaska sa nivoa sa manjim brojem detalja na nivo sa vecim brojem detalja naziva se sputanje u dubinu (drill down) i predstavlja zahtev korisnika da mu se prikae vie detalja. Na primer, poto se pronade podatak o prodaji nekog regiona, sputa se nanie da bi se saznalo kako se prodaja odvija po optinama. Geografski podaci vezani za prodaju mogli bi se organizovati u sledecu hijerarhiju: SVET > KONTINENT > DRAVA > OBLAST > GRAD Drill-up - Postupak prelaska sa nivoa sa vecim brojem detalja na nivo sa manjim brojem detalja, na tzv. sumarne podatke, naziva se dizanje navie (drill up). Na primer, upit bi mogao prezentovati prodaju u odnosu na neke regione. Drill across koristi se za povezivanje dve ili vie cinjenicnih tabela na istom nivou hijerarhije.

    50. ema pahulje Definie hijerarhiju koristeci viedimenzione tabele - ema pahulje je varijacija eme zvezda u kojoj su hijerarhija dimenzije skladitene u viedimenzione tabele. Na primer, dimenzija Proizvod je skladitena u tri tabele: kategorija proizvoda, podkategorija proizvoda i proizvod. Normalizovana je. Podrana je unutar analitickih usluga. (samo jedna dimenziona tabela se pridruuje tabeli cinjenica, dok su ostale dimenzione tabele povezane sa spoljnim kljucem).

    51. c) Kreiranje agregacija Agregacijama se sumiraju detalji podataka i smetaju u posebne tabele. Na primer, moguce je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajuci ih iz svake prodavnice, tj. najnieg nivoa detalja. Glavni razlozi kreiranja agregacija su da se poboljaju performanse upita, tj. da se smanji vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvrenje upita. Agregacije zasnovane na SQL naredbama Jedan od nacina na koji se mogu kreirati agregacije jeste koricenje SQL naredbi. Iako ovaj nacin nije najbolji po pitanju performansi sistema, on je najjednostavniji. Agregacije koje nisu zasnovane na SQL naredbama U slucaju kreiranja agregacija koje nisu zasnovane na SQL naredbama, potrebno je razviti specijalizovane programe, to uslonjava procese razvoja i odravanja skladita podataka. Na primer, ako se izvri sortiranje redova podataka po dimenziji Vreme, u tabeli ce se prvo nalaziti redovi podataka koji se odnose na Dan, iza njih ce biti redovi podataka koji se odnose na Nedelju itd. Zatim se na svakom mestu prelaza sa jednog nivoa dimenzije na drugi (na primer, sa Dana na Nedelju) kreiraju podzbirovi za taj nivo dimenzije. Pri tome je moguce iskoristiti prednosti paralelnog procesiranja jer su podaci podeljeni po grupama (jedan proces moe racunati podzbirove vezane za nivo Dan, a drugi za nivo Nedelja). Tako dobijene podzbirove treba ucitati i izvriti agregaciju. Time je proces agregacije podataka zavren.

    52. d) Kreiranje fizickog modela U okviru kreiranja fizickog modela baze podataka, izvodi se postupak prevodenja logickog modela u fizicki model prikazan preko dijagrama entiteti veze koji fokusira podatke. Neposredno pre kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome ce biti implementirana baza podataka. Generisanje fizickog modela treba da rei probleme: Multiplikativnosti - definie broj instanci jednog entiteta (buduca tabela u bazi) u relaciji sa jednom instancom drugog entiteta. Referencijalnog integriteta - zahteva da unesena vrednost atributa odgovara vrednosti atributa koji je primarni kljuc druge tabele. Referenacijalni integritet se definie za operacije ubacivanja, brisanja i auriranja. Kreiranja indeksa - je izvreno automatski za sve primarne kljuceve u entitetima i za prenesene kljuceve u entitetu Ispit. Ovo se radi iz razloga to ce se buduca pretraivanja u okviru skladita podataka vriti na osnovu ovih polja.

    53. Fizicki model eme zvezde za primer EDIFACT fakture

    54. e) Generisanje baze podataka Aktivnost generisanja baze podataka vri se koricenjem SQL jezika. Naime, alat u kome je izvreno kreiranje fizickog modela (npr. ERWin) omogucava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka. U sledecem koraku se vri izvravanje DDL datoteka pomocu Query Analyzer-a, alata koji je sastavni deo SQL Servera 2005. Ovaj alat omogucava direktno zadavanje SQL naredbi i njihovo izvravanje u cilju generisanja baze podataka. Kada se svi ovi poslovi uspeno urade, baza (skladite) podataka je generisana. f) Ucitavanje podataka U toku ucitavanja se mogu eventalno izvriti jo neke transformacije, mada bi sa transformacijama podataka trebalo zavriti pre ucitavanja zbog problema konzistentnosti baze. Za ucitavanje podataka moe se koristiti alat MS SQL Server-a DTS (Data Transformation Services) i njegova procedura ucitavanja podataka pomocu takozvanih DTS paketa.

    55. Pregled procesa razvoja skladita podataka

    56. Izgradnja Data Warehouse-a

    57. OLAP sistemi OLAP reenja omogucavaju korisnicima brz i fleksibilan pristup podacima i predstavljaju nadgradnju skladita podataka. Interaktivno analiticko procesiranje (On line Analytical Processing OLAP) namenjeno je on-line analizama i izvetavanjima. Krajnjem korisniku je neophodno sledece: da moe da postavi bilo koje poslovno pitanje, da bilo koji podatak iz preduzeca koristi za analizu, mogucnost neogranicenog izvetavanja. U tu svrhu se koriste analiticki OLAP sistemi koji obezbeduju informacije koje se koriste za analizu problema ili situacija. Analiticko procesiranje se primarno vri koricenjem poredenja ili analiziranjem ablona i trendova. Na primer, analiticki sistem bi mogao da prikae kako se odredena vrsta tampaca prodaje u razlicitim delovima zemlje. Takode, mogao bi da prikae i kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se proizvod prvi put pojavio na tritu.

    58. OLAP sistemi omogucavaju jednostavnu sintezu, analizu i konsolidaciju (agregacija podataka po zadatom kriterijumu) podataka. Koriste se za intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima. OLAP sistemi podravaju kompleksne analize koje sprovode analiticari i omogucavaju analizu podataka iz razlicitih perspektiva (poslovnih dimenzija). OLAP sistemi kao skladita podataka koriste multidimenzionalnost i denormalizaciju. Osnovni elementi OLAP sistema su: baza podataka, koja slui kao osnova za analizu, OLAP server, za upravljanje i manipulaciju podacima, interfejs sistem, prema korisniku i prema drugim aplikacijama, alati za administriranje. OLAP sistemi

    59. OLAP serveri OLAP pristup mora od hardvera da poseduje poseban racunar, tzv. OLAP server, na koji se povezuju relacione BP, eksterni izvori podataka i ostali interni podaci, koji su podrani grafickim interfejsima, radnim tabelama i ostalim PC alatima. OLAP serveri koriste viedimenzione strukture za cuvanje podataka i veza izmedu njih. Viedimenzione strukture se najbolje vizuelizuju kao kocke podataka i kao kocke u kockama podataka. Svaka strana kocke se naziva dimenzijom. Dimenzija predstavlja kategoriju podataka, kao to su tip proizvoda, region, vreme itd. Svaka celija kocke sadri agregirane podatke koji su u vezi sa dimenzijama. Na primer, jedna celija moe sadrati podatke o ukupnoj prodaji za dati proizvod i region u toku jednog meseca. OLAP serveri podravaju tipicne analiticke operacije: konsolidacija ovom operacijom se vri agregacija podataka po zadatom kriterijumu, drill down/up ove operacije omogucavaju prikazivanje vie ili manje detalja podataka, isecanje (slice & dice) ove operacije obezbeduju prikazivanje podataka iz razlicitih perspektiva, pri cemu se isecanje najcece vri po vremenskoj dimenziji da bi se analizirali trendovi (na primer, jedan isecak kocke moe prikazivati sve podatke o prodaji za zadati tip proizvoda za sve regione, a drugi isecak moe prikazivati sve podatke o prodaji po kanalima za svaki tip proizvoda).

    60. Zahtevi OLAP sistema Interfejs OLAP sistema treba da omoguci korisniku komforan rad, samostalno izvodenje analitickih operacija i dobijanje pregleda i poslovne grafike, bez znanja programiranja i strukture baze podataka. Zahtevi koje OLAP mora da ispuni su: mogucnost rada sa velikim skupom podataka i velikim brojem korisnika, kratko vreme odziva na upit, mogucnost rada sa podacima sa razlicitim nivoima detalja, sposobnost proracuna sloenih matematickih funkcija, podrka za ta-ako analizu, modelovanje i planiranje, jednostavnost uvodenja i odravanja sistema, zatita podataka, mogucnost rada sa velikim brojema alata pomocu kojih ce se pristupati podacima, vriti analiza i prikazivati podaci.

    61. Komponente OLAP baze podataka OLAP baza podataka je definisana sledecim komponentama: Numericke mere Mere su vrednosti podataka ili cinjenice koje korisnici analiziraju. Primeri mera su Prodaja, Jedinice, Trokovi prodate robe itd. Dimenzije dimenzije predstavljaju poslovne kategorije koje obezbeduju kontekst numerickim merama. Dimenzijama OLAP je lake navigirati nego dimenzijama eme zvezde. Kocke Kocke kombinuju sve dimenzije i sve mere u jedan konceptualni model.

    62. OLAP dimenzije vs. Relacione dimenzije

    63. Osnove dimenzija

    64. Definisanje kocke Kocka je logicka struktura skladitenja OLAP baze podataka. Kocka kombinuje dimenzije i mere kako bi korisnici mogli da prave upite. Kocka definie skup povezanih dimenzija koje formiraju jednu n-dimenzionalnu mreu: Svaka celija kocke sadri jednu vrednost; Vrednost svake celije je presek dimenzije. Mere su numericke vrednosti koje korisnici analiziraju. Svaka kocka mora da sadri barem jednu meru, ali ne moe da ima vie od 1024 mera. Karakteristike mere su: Mere su numericke; Mere odgovaraju cinjenicama u tabeli cinjenica. Samo jedna tabela cinjenica se moe koristiti za kreiranje kocke; Mere su preseci svih dimenzija i nivoa ...

    65. Definisanje kocke

    66. Pravljenje upita nad kockom

    67. Definisanje krike (engl. slice) ili podskupa kocke

    68. Rad sa dimenzijama i hijerarhijama Glavna svrha OLAP baza podataka je da obezbede fleksibilne modele za pronalaenje podataka. Dimenzije i hijerarhije omogucavaju tu fleksibilnost. Dimenzije omogucavaju slice i dice: Slice - izbor jednog clana iz dimenzije. Na primer: ukoliko elite da se fokusirate na samo jedan proizvod, slice vam omogucava da ignoriete sve osim eljenog proizvoda. Dice kada primenjujete dice na kocki, onda postavljate vie clanova iz jedne dimenzije na jednu osu i vie clanova druge dimenzije na drugu osu. Ovakav nacin vam omogucava da sagledate meduodnose clanova razlicitih dimenzija. Hijerarhija vam omogucava drill down i drill up: Drill Down - Sve dimenzije sadre hijerarhiju i za vecinu dimenzija hijerarhija se sastoji od vie nivoa. Vie nivoa hijerarhije omogucava drill down po jednom clanu hijerarhije. Drill down omogucava da se fokusirate samo na odredene podatke ili oblast problema. Drill Up Vide se samo zbirne informacije clanova. Omogucava da se sagleda opta slika.

    69. Rad sa dimenzijama i hijerarhijama Dimenzije vam dozvoljavaju Slice

    70. Arhitekture OLAP sistema Postoje sledece arhitekture OLAP sistema: viedimenzioni OLAP (MOLAP), relacioni OLAP (ROLAP), hibridni OLAP (HOLAP). MOLAP i ROLAP se razlikuju po nacinu fizickog cuvanja podataka. Kod MOLAP sistema podaci se cuvaju u viedimenzionoj strukturi, a u slucaju ROLAP sistema podaci se cuvaju u relacionim bazama podataka.

    71. a. Viedimenzioni OLAP (MOLAP) MOLAP baze podataka imaju sledeca ogranicenja: ogranicenje fizicke velicine skupa podataka sa kojima mogu da barataju. ogranicenje na broj dimenzija koje jo uvek obezbeduju dobre performanse sistema. da bi se vrila bilo kakva analiza, potrebno je prvo ucitati podatke u viedimenzione strukture. Pri tome se vre razni proracuni da bi se kreirale agregacije i popunili podaci, to vremenski moe trajati relativno dugo. Po zavrenom procesu, korisnik moe zapoceti analizu. Prednost MOLAP sistema je to obezbeduju odlicne performanse sistema kada se radi sa vec sracunatim podacima (agregacijama). Nedostatak MOLAP sistema je tekoca dodavanja novih dimenzija.

    72. Arhitektura MOLAP sistema

    73. b. Relacioni OLAP (ROLAP) ROLAP sistemi pristupaju podacima direktno iz skladita podataka i rade sa relacionim bazama podataka. ROLAP sistemi mogu da rade sa velikim skupovima podataka. Cim se odredi izvor podataka, korisnik moe zapoceti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekuci podaci. Kod ROLAP sistema ne postoje ogranicenja po pitanju broja dimenzija koja postoje u slucaju MOLAP sistema.

    74. Karakteristike ROLAP i MOLAP sistema Neke karakteristike MOLAP i ROLAP sistema: ROLAP sistemi su optimizovani za pristupanje podacima, dok su MOLAP sistemi optimizovani za prikupljanje podataka. Prednost ROLAP sistema je to su sumarne tabele kreirane direktno u RSUBP-u, cime se obezbeduje kratko vreme odziva sistema na upit i to su tabele veoma citljive. Viedimenziona analiza moguca je koricenjem ROLAP i MOLAP sistema, Za manje kolicine podataka ROLAP sistemi imaju skoro iste performanse kao i MOLAP sistemi, MOLAP sistemi nisu pogodni za rad sa velikim skupom podataka, MOLAP sistemi su manji od ROLAP sistema, te je potrebno manje U/I operacija pri pribavljanju podataka, to uslovljava da su MOLAP sistemi bri.

    75. c. Hibridni OLAP (HOLAP) HOLAP alati mogu pristupati i relacionim i viedimenzionim bazama podataka. Cilj koricenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analiticke mogucnosti) i ROLAP alata (dinamicki pristup podacima). Pri tome se ne moe reci da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogucnost izvravanja vrlo sloenih SQL naredbi. Cilj je bio da se zadre sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogucnosti za rad sa viedimenzionim bazama podataka. Potrebe korisnika su: viedimenzioni pogled na podatke ovu mogucnost poseduju i MOLAP i ROLAP alati, odlicne performanse sistema ovu mogucnost poseduju MOLAP alati, analiticka fleksibilnost (za potrebe simulacija) ovu mogucnost poseduju MOLAP alati, pristup podacima u realnom vremenu ovu mogucnost poseduju ROLAP alati, veliki kapacitet podataka ovu mogucnost poseduju ROLAP alati.

    76. Vendori OLAP-a http://www.olapreport.com These charts from the Olap Report show the impact that Microsoft has had in completely redefining the market and the near exit of some of its major competitors. This has a beneficial result in terms of creating a critical mass for an OLAP platform that smaller ISVs can target with additional tools to extend functional in specialist areas and for vertical markets such as Manufacturing & Healthcare. SQL Server 2005 delivers such a broad range of new functionality that the value proposition of the Microsoft platform will increase even further.These charts from the Olap Report show the impact that Microsoft has had in completely redefining the market and the near exit of some of its major competitors. This has a beneficial result in terms of creating a critical mass for an OLAP platform that smaller ISVs can target with additional tools to extend functional in specialist areas and for vertical markets such as Manufacturing & Healthcare. SQL Server 2005 delivers such a broad range of new functionality that the value proposition of the Microsoft platform will increase even further.

    77. Evaluacija

    78. Uvod u Data mining Otkrivanje znanja (Knowledge Discovering) Definisanje Data mininga Primene Data mininga Data mining modeli Koraci kod izgradnje DM modela OLAP data mining

    79. Data mining i otkrivanje znanja Korisnici informacionih sistema s pravom zakljucuju da su im uvodenjem automatizovanog informacionog sistema obecavali sve i svata, a dobili su samo gomilu podataka. Cak i najboljem analiticaru je teko da identifikuje kljucne informacije koje su relevantne za upravljanje poslovanjem. Data mining je automatski ili poluautomatski proces koji izvodi znacajna pravila ili obrasce iz ogromne kolicine podataka. Data mining programi analiziraju delove podataka da bi identifikovali veze izmedu naizgled "nepovezanih podataka". Data mining je proces otkrivanja znanja (Knowledge Discovery in Databases - KDD). koji omogucuje korisnicima da shvate sisteme i veze izmedu njihovih podataka. Data mining otkriva oblike i trendove u sadraju ove informacije. Data mining otkriva relacije naeg svakodnevnog komuniciranja sa podacima.

    80. Definisanje Data mininga Osnovna poruka data mininga jeste da je potrebno da iz ogromne kolicine operativnih podataka i veza koje se ne mogu odmah sagledati definiu odgovarajuce relacije, obrasci ponaanja, to u krajnjem slucaju treba da od podataka da potrebne informacije. Data mining se moe definisati kao proces podrke odlucivanju u kojem se trae abloni infomacija u podacima. Osnovni cilj data mininga jeste otkrivanje skrivenih veza, predvidivih sekvenci i tacnih klasifikacija. Ovo pretraivanje moe vriti korisnik, na primer izvodenjem upita (tada je to zaista teko) ili ga moe vriti neki "pametni" program koji automatski pretrauje bazu umesto korisnika i nalazi znacajne ablone. Kada se ona nade, informacija treba da se prezentuje na odgovarajuci nacin, sa grafikonima, izvetajima itd.

    81. Primene Data mininga Reklamiranje na Internetu Data mining se moe koristiti za klasifikovanje grupa klijenata sa slicnim informacijama, kako bi se ciljno reklamiralo. Kada se korisnik na primer registruje na e-commerce Web sajt koji prodaje sportsku opremu tada DBMS prikuplja informacije o klijentu, kao to su pol, godine, omiljeni sport i dr. Koricenjem tehnika data mininga, web sajt ce prikazivati baner sa motivima golfa za mukarce i dr. Kada kupujete putem Interneta, ponekad vam se ponude i dodatni proizvodi za koje je Web sajt predvideo da cete moda biti zainteresovani. Takva preporuka se zasniva na tehnikama data mininga koji pretrauje obrasce klijenata koji su na primer kupili istu knjigu koju vi sada kupujete. Sistem preporucuje: Ukoliko vam se dopada x knjiga, proverite i sledece ponudene knjige. Upravljanje kreditnim rizikom Kada uzimate kredit, banka prikuplja irok opseg informacija o vama, kao na primer prihodi, godine staa, bracni status, kreditna sposobnost itd. Koricenjem data mining tehnika, banka moe da predvidi da li ste dobar ili rizican klijent za davanje kredita i takva informacija ce odlucivati o odobravanju kredita.

    82. Data mining modeli Nekoliko tehnika data mininga vam omogucava identifikovanje obrazaca u ogromnim broju podataka. Modeli Analysis Services SQL Servera su Drvo odlucivanja (Decision Trees) popularan metod za klasifikaciju i predvidanje. Koricenjem serije pitanja i pravila za kategorizaciju podataka, mogu se predvideti da ce izvesni tipovi imati specificne ishode. Na primer, osoba u starosnom dobu izmedu 25-35 godina koja zaraduje 60.000/godinje, najverovatnije ce biti zainteresovana da podigne kredit za stan nego neko u starosnoj grupi od 15-24 godina. Na osnovu godina, dohotka i dr. istorijskih cinjenica, algoritam drveta odlucivanja ce izracunati izglede da nekoj osobi trebaju neke odredene usluge. Pravila asocijacije (Association Rules) ovaj algoritam pomae u identifikovanju relacija izmedu razlicitih elemenata. On grupie po slicnosti, odnosno koristi se za pronalaenje grupe artikala koji se najcece zajedno dogadaju u jednoj transakciji. Na primer, koristi se kod unakrsne prodaje gde se belee veze izmedu artikala i predvida za koji proizvod ce jo biti zainteresovan da kupi. Ovaj algoritam moe da radi sa enormno velikim katalozima. Bio je testiran na pola miliona artikala. Naive Bayes ovaj algoritam se koristi da jasno pokae razlicitosti u odredenim promenljivama kod razlicitih elemenata podataka. Na primer, promenljiva: dohodak jednog domacinstva se razlikuje za svakog klijenta u bazi podataka i moe da poslui kao predskazatelj za buduce kupovine. Sequence Clustering tehnika klasteringa omogucava grupisanje zapisa podataka koji su slicni na osnovu sekvenci prethodnih dogadaja. Na primer, sa klasteringom moete segmentirati klijente sa slicnim karakteristikama u grupe. Korisnici Web aplikacije cesto prate razlicite putanje kroz sajt. Ovaj algoritam moe da grupie klijente prema njihovom redosledu otvaranja stranica na sajtu kako bi pomogli u analizi korisnika i u odredivanju koje su putanje profitabilnije od drugih. Ovaj algoritam se takode moe koristiti u predvidanju koju ce sledecu stranicu korisnik posetiti. Vremenske serije (Time Series) ovaj algoritam se koristi za analizu i prognozu vremenski zasnovanih podataka. Prodaje su najcece analiziran i prognoziran podatak. Ovaj algoritam trai ablone prolazeci kroz viestruke serije podataka tako da poslovanje moe da odredi kako razliciti elementi uticu na analiziranu seriju. Neuronske mree (Neural Nets) kao to covek uci na osnovu iskustva tako moe i racunar. Neuronske mree modeluju neuronske veze u ljudskom mozgu i na taj nacin simuliraju ucenje. Ukoliko sastavljate podatke gde su ulazne i izlazne cinjenice poznate, racunar moe da nauci iz tih obrazaca i postavi pravila i matematicke faktore kako bi npr., pomogao izracunavanje ili predvideo izlaznu vrednost. Pretpostavimo da elite da prodate kola, nekoliko faktora utice na prodajnu cenu kao to su godine, stanje, proizvodac, model itd. Analizirajuci cene kola, neuronske mree mogu da kreiraju seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje. Text Mining ovaj algoritam analizira nestruktuirane tekstualne podatke. Na primer, kompanije mogu da analiziraju nestruktuirani podatak kao to je deo za komentare gde klijenti unose svoje utiske, zadovoljstvo o proizvodu i druge komentare. Memorijsko zasnovano prosudivanje Memory-based reasoning (MBR) je tehnika data mininga koja se koristi za predvidanje i klasifikaciju. Na primer, ukoliko pacijent ima nekoliko simptoma, doktor ce na osnovu iskustva sa slicnim pacijentima dati dijagnozu. Doktor izvrava dijagnozu koristeci oblik MBR-a.

    83. Algoritmi Data Mining-a All data mining tools, including Microsoft SQL Server 2005 Analysis Services, use multiple algorithms. Analysis Services, of course, is extensible; third party ISVs can develop algorithms that snap in seamlessly to the Analysis Services data mining framework. Depending on the data and the goals, different algorithms are preferred, and each algorithm can be used for multiple problems. All data mining tools, including Microsoft SQL Server 2005 Analysis Services, use multiple algorithms. Analysis Services, of course, is extensible; third party ISVs can develop algorithms that snap in seamlessly to the Analysis Services data mining framework. Depending on the data and the goals, different algorithms are preferred, and each algorithm can be used for multiple problems.

    84. Uvodni primer Koji je kljucni atribut za predvidanje da li ce svreni srednjokolci upisati fakultet ili ne? Postavljana su im sledeca pitanja: Kog su pola? Koliki je prihod njihovih roditelja? Koliki im je IQ? Da li ih roditelji ohrabruju da nastave studiranje ili ne? Da li planiraju da upiu fakultet? Da bi na osnovu prikupljenih podataka utvrdili koliko studenata ce nastaviti kolovanje, neophodno je da se postavi upit koji broji zapise studenata koji ele i onih koji ne ele da nastave kolovanje.

    85. Pretpostavimo da ste zainteresovani da odredite koji atribut ili kombinacija atributa imaju najveci uticaj da predvidi verovatnocu studenata koji ce upisati fakultet. Ovo je sloeniji upit i zahteva koricenje tehnika data mininga. Primenjujuci algoritam drveta odlucivanja otkrivene su sledece relacije: Najuticajniji atribut je ohrabrivanje njihovih roditelja da upiu fakultet. Oni studenti koje roditelji ohrabruju da upiu fakultet, 60 % planira da upie fakultet i to uglavnom oni sa visokim IQ.. Uvodni primer (nastavak)

    86. Drvo odlucivanja

    87. Koraci kod izgradnje DM modela Izbor tehnike data mininga Identifikovanje slucaja (case) Izbor entiteta koji treba da se predvidi Identifikovanje podataka za analizu Opciono kreiranje dimenzije i virtuelne kocke iz rezultujuceg modela Obrada modela i prikupljanje rezultata.

    88. Metodologija kreiranja Data Mining modela

    89. Integracija data mininga sa skladitem podataka Danas se radi na integraciji data mining alata sa skladitem podataka. Postoji vie razloga za ovu integraciju. Prvo, data mining alati zahtevaju postojanje "precicenih" i integrisanih podataka. Tradicionalni data mining alati bi iz tih razloga prvo izvrili transfer podataka (moda i stotine gigabajta) putem mree. Nakon zavrenog rada cesto se javlja potreba za novim podacima, to bi znacilo da bi se ceo proces transfera morao ponoviti. Pri ovome se neprestano moralo voditi racuna o zatiti podataka i grekama pri prenosu. Drugi razlog za integraciju data mining alata sa skladitem podataka jeste poboljani korisnicki interfejs. Stariji data mining alati su zahtevali postojanje niza strucnjaka da bi se postigli zadovoljavajuci rezultati. Danas, svaki poznavalac SQL jezika moe koristiti mogucnosti data mininga. Treci razlog za integraciju su performanse sistema i mogucnost proirivanja koje obezbeduje skladite podataka, a koje su potrebne za data mining alate.

    90. Tradicionalni i integrisani prilaz

    91. OLAP data mining OLAP i data mining ne bi trebalo razmatrati kao odvojene procese vec da ih treba u potpunosti spojiti. Komponente OLAP data mininga su: relaciona baza podataka koja sadri granularne podatke (ne mora biti skladite podataka), OLAP koji obezbeduje brz pristup sumarnim podacima izmedu vie dimenzija, viedimenzioni proces otkrivanja koji ce vriti otkrivanje izmedu dimenzija i spajati rezultate. Bez upotrebe OLAP data mininga, moguce je izostaviti kljucne informacije ili se mogu dobiti netacni rezultati.

    92. Izgradnja Data Mining modela sa OLAP podacima Uvod u scenario Clanske kartice Izbor Data Mining tehnike Izbor slucaja (case) Selekcija entiteta za predvidanje Selekcija podataka za analizu (training data) Kreiranje dimenzije i virtuelne kocke Ispitivanje Data Mining modela

    93. Uvod u scenario Clanske kartice Direktor marketinga eli da oceni trenutni program clanskih kartica. Da bi zadrao postojece klijente i ispunio njihova ocekivanja, eli da identifikuje mogucnosti kako bi povecao nivo usluga kod svih kartica: zlatna, srebrna, bronzana i obicna. Raspoloive informacije od klijenata su pol, bracni status, godinji prihodi, nivo obrazovanja. Da bi predvideli faktore koji uticu na izbor odgovarajuce kartice koristicemo Data mining: Koristicemo tehniku drveta odlucivanja da bi pronali obrazac za izbor clanske kartice. Odabracemo Klijente kao dimenziju slucaja (case dimension). Odabracemo Clansku kartu kao informaciju koju ce koristiti algoritam DM da bi identifikovao obrasce. Iskoristice se raspoloive informacije o klijentima kako bi se pronaao obrazac. Ispitati drvo odlucivanja.

    94. Izbor tehnike Data Mininga

    95. Izbor slucaja (case)

    96. Selektovanje entiteta za predvidanje

    97. Selektovanje podataka za analizu (training data)

    98. Kreiranje dimenzije i virtuelne kocke

    99. Ispitivanje Data Mining modela

    100. Ispitivanje zavisnosti mree

More Related