120 likes | 257 Vues
SQL Server 2012 Codename Denali. Data Quality Services. Grzegorz Stolecki. Specjalne podziękowania dla Marcina Szeligi – współautora slajdów. Agenda. Problem jakości danych Usługa Data Quality Services Baza wiedzy Oczyszczanie danych Parowanie i deduplikacja danych
E N D
SQL Server 2012 Codename Denali Data Quality Services Grzegorz Stolecki Specjalne podziękowania dla Marcina Szeligi – współautora slajdów
Agenda • Problem jakości danych • Usługa Data Quality Services • Baza wiedzy • Oczyszczanie danych • Parowanie i deduplikacja danych • Integracja z usługą SSIS O mnie… Grzegorz Stolecki grzegorz.stolecki@plssug.org.pl • Konsultant i trener Business Intelligence od 1998 roku • SQL Server MVP
To jakość jest najważniejsza • Jakość danych jest miarą ich przydatności • Zależy od użycia danych • Ilość cyfrowych danych podwaja się co niecałe dwa lata • W tym roku utworzonych zostało już 1,8 zetabajta danych
Data Quality Services Ocena jakości danych Monitorowanie procesu poprawy jakości danych Poprawa błędnych i uzupełnienie niekompletnych danych Wyszukanie i usunięcie powtarzających się danych
Funkcje Data QualityServices • Zarządzanie wiedzą i danymi referencyjnymi • Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich • Poprawa, deduplikacjaistandaryzacja danych • Oczyszczanie i deduplikacja danych • Monitorowanie i zarządzanie procesem poprawy jakości danych • Administracja
Parowanie i deduplikacja • Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 • Microsoft, Gates, One Microsoft way, Redmond WA • Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA • Microsfot, W. H. Gates, Redmond, WA • Określenie reguł porównywania • Identyfikacja duplikatów • Trening • Wykrycie duplikatów • Wybór poprawnych rekordów • Usunięcie duplikatów Klient DQS – Wyniki parowania
Integracja z usługą SSIS SSIS Data Flow Baza wiedzy Serwer DQS Pakiet SSIS Nowe rekordy Źródło danych Zadanie Data Correction Przeznaczenie danych Poprawki & sugestie Reguły Poprawione rekordy Dane referencyjne Błędne rekordy
Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS DQS- Podsumowanie Bazujące na wiedzy Proste w użyciu Otwarte
Dziękuję za uwagę ! Q & A