Adatminőség

Adatminőség Minőségi adatok biztosítása az adattárházakban Készítette: Fehér Péter (peter.fhr@gmail.com)

Előfeldolgozás Az adattárházban lévő adatok minősége alapvetően a forrásrendszerekben lévő adatok minőségétől függ. Az adatok egy ún. „előfeldolgozási metóduson” esnek át, mielőtt az adattárházba kerülnének. Az előfeldolgozás 4 területe: Adattisztítás Adatok integrálása Adatok transzformálása Adatok redukálása Készítette: Fehér Péter (peter.fhr@gmail.com)

Készítette: Fehér Péter (peter.fhr@gmail.com)

1. Adattisztítás A való életben az adatok legtöbbször igen hiányosak, zajosak, inkonzisztensek. Különböző eljárásokat használunk ezek kiküszöbölésére. Készítette: Fehér Péter (peter.fhr@gmail.com)

1.1 Hiányzó adatok Hogyan töltsük ki a hiányzó értékeket? Figyelmen kívül hagyjuk az adott rekordot Manuális kitöltés Globális konstans Átlagérték Csoportosított átlagérték Legvalószínűbb érték Torzítják az adatokat! Készítette: Fehér Péter (peter.fhr@gmail.com)

1.2 Zajos adatok Zaj: véletlenszerű hiba vagy ingadozás Hogyan simítsuk a zajokat? Kosarazás Klaszterezés Számítógépes/emberi vizsgálat Regresszió Készítette: Fehér Péter (peter.fhr@gmail.com)

1.2.2 Kosarazás Nyers adatok: 21, 8, 15, 24, 21, 25, 4, 34, 28 Rendezett adatok: 4, 8, 15, 21, 21, 24, 25, 28, 34 Eredeti kosarak:1. kosár: 4, 8, 152. kosár: 21, 21, 243. kosár: 25, 28, 34 Simítás átlagok szerint: 1. kosár: 9,9, 92. kosár: 22, 22, 223. kosár: 29,29, 29 Simítás határok szerint:1. kosár: 4,4, 152. kosár: 21, 21, 243. kosár: 25, 25, 34 Készítette: Fehér Péter (peter.fhr@gmail.com)

1.2.3 Klaszterezés A hasonló értékeket klasztereknek nevezett csoportokba osztják fel. Azok az értékek lesznek szélsőségesek, amelyek nem tartoznak egy klaszterhez sem. Készítette: Fehér Péter (peter.fhr@gmail.com)

1.2.4 Számítógépes/emberi vizsgálat A számítógép átvizsgálja az adatokat, majd azokat, amiknél a várttól való eltérés átlép egy bizonyos küszöbértéket, felcímkézi. Ezt követően egy ember átvizsgálja az így kigyűjtött adatokat, hogy ellenőrizze a számítógép munkáját. Gyorsabb, mint a teljes adatállomány manuális átvizsgálása. Készítette: Fehér Péter (peter.fhr@gmail.com)

1.2.5 Regresszió Az adatainkat egy függvényre illesztjük. Lineáris regresszió esetén az adatok egy egyenesre való illeszkedését, többdimenziós lineáris regresszió esetén pedig egy síkra való illeszkedését vizsgáljuk. Készítette: Fehér Péter (peter.fhr@gmail.com)

2. Adatok integrálása Az adatok integrálása alatt a több forrásból származó adatok egy koherens adatbázisba történő egyesítését értjük. Az integrálás során számos probléma felmerülhet: egyedazonosítási anomália, redundancia, ellentmondó értékek. Készítette: Fehér Péter (peter.fhr@gmail.com)

2.1 Egyedazonosítási anomália Hogyan feleltethetőek meg egymásnak a különböző forrásból érkező, eltérő nevű, ám mégis ekvivalens értékű attribútumok?A válasz: metaadatok. (erre még később visszatérünk ) Készítette: Fehér Péter (peter.fhr@gmail.com)

2.2 Redundancia Egy attribútum akkor redundáns, ha a többi rendelkezésre álló attribútumból kiszámítható. Megoldás: korrelációanalízis Redundancia nem csak attribútumok között szerepelhet, hanem a sorok között is, természetesen ezt is szűrni kell. Készítette: Fehér Péter (peter.fhr@gmail.com)

2.3 Ellentmondó értékek Ellentmondó értékeket okozhat az, ha a különböző rendszerekben különböző reprezentációval tárolják az adatokat. (pl.: angolszász és metrikus rendszer közötti eltérések) Készítette: Fehér Péter (peter.fhr@gmail.com)

3. Adatok transzformálása A transzformálás során a forrásadatokat a célnak megfelelő formába hozzuk. Módszerek: Simítás Összevonás Adatok általánosítása Normalizálás Attribútumok konstrukciója Készítette: Fehér Péter (peter.fhr@gmail.com)

3.1 Összevonás Az adatokon összevonási, összegzési műveleteket hajtunk végre. Akkor alkalmazzuk, amikor kevésbé részletes adatokra van szükségünk. (pl.: napi adatokból havi összegzés) Készítette: Fehér Péter (peter.fhr@gmail.com)

3.2 Adatok általánosítása Az alacsony szintű fogalmakat egy fogalmi hierarchia segítségével magasabb szintű fogalomra cseréljük. (pl.: pontos cím helyett csak a várost tároljuk) Készítette: Fehér Péter (peter.fhr@gmail.com)

3.3 Normalizálás Az attribútumok értékeit átskálázzuk, hogy azok egy bizonyos értéktartományba essenek (pl.: [0,1]).Típusai: Min-max normalizálás Standardizálás Decimális skálázás Készítette: Fehér Péter (peter.fhr@gmail.com)

3.4 Attribútumok konstrukciója A meglévő attribútumokból újakat hozunk létre. Például: vezetéknév + keresztnév = teljes_név szélesség + magasság = terület (redundancia?) Készítette: Fehér Péter (peter.fhr@gmail.com)

4. Adatok redukálása Az adatok redukálása során az adathalmaz egy olyan reprezentációját kapjuk, amelyik méretben jelentősen kisebb az eredetihez képest, mégis jól megőrzi az adatok integritását. Készítette: Fehér Péter (peter.fhr@gmail.com)

4.1 Összevonás adatkockába Készítette: Fehér Péter (peter.fhr@gmail.com)

4.2 Dimenziócsökkentés A dimenziócsökkentés úgy redukálja az adathalmaz méretét, hogy az irreveláns attribútumokat és/vagy dimenziókat eltávolítja. Erre olyan módszereket alkalmaznak, amelyek az attribútumok egy részhalmazát választják ki: Előrelépéses kiválasztás (üres halmazt bővíti) Visszalépéses kiválasztás (teljes halmazt csökkenti) Előző kettő kombinációja Készítette: Fehér Péter (peter.fhr@gmail.com)

4.3 Adatok tömörítése Kódolási és transzformációs műveletek során egy tömörített reprezentációt állítunk elő. Ha az eredi adatok információveszteség nélkül visszaállítható, akkor veszteségmentes tömörítésről, ellenkező esetben veszteséges tömörítésről beszélünk. Két fő alkalmazott eljárás: wavelet transzformációk, főkomponens-analízis. Készítette: Fehér Péter (peter.fhr@gmail.com)

4.4 Számosságcsökkentés Léteznek paraméteres és nem paraméteres eljárások. Paraméteres eljárások például a regressziós és loglineáris modellek. A loglineáris modellek segítségével minden cella értékének valószínűsége megbecsülhető a kockahálót alkotó kisebb részkockák alapján. Nem paraméteres eljárások: hisztogramok, klaszterezés, mintavételezés. Készítette: Fehér Péter (peter.fhr@gmail.com)

Mintavételezési technikák Készítette: Fehér Péter (peter.fhr@gmail.com)

4.5 Diszkretizáció Diszkretizáció során az attribútumok által felvett értékek számát csökkentjük az értékkészlet intervallumokra osztásával. (fogalmi hierarchiákat generálunk) Készítette: Fehér Péter (peter.fhr@gmail.com)

Köszönöm a figyelmet! Felhasznált irodalom: Jiawei Han, MichelineKamber - Adatbányászat - Koncepciókéstechnikák David Marco – Building and ManagingtheMetadataRepository : A FullLifecycleGuide Fon Silvers – Building and Maintaining a Data Warehouse Wikipedia Készítette: Fehér Péter (peter.fhr@gmail.com)

Adatminőség

Adatminőség

Presentation Transcript