110 likes | 235 Vues
Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych. Izabela Brzezińska. Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR). PRWWR działa od 1997r. jako projekt Ministerstwa Zdrowia i Opieki Społecznej Obejmuje 74% powierzchni Polski, 72% populacji
E N D
Ekstrakcja wiedzy z Polskiego Rejestru Wrodzonych Wad Rozwojowych Izabela Brzezińska
Polski Rejestr Wrodzonych Wad Rozwojowych (PRWWR) • PRWWR działa od 1997r. jako projekt Ministerstwa Zdrowia i Opieki Społecznej • Obejmuje 74% powierzchni Polski, 72% populacji • Ponad 32 000 wpisów dzieci z wrodzonymi wadami rozwojowymi • Od 2001 r. członek EUROCAT’u- zrzeszania rejestrów europejskich
Zbiór danych do analizy • Zbiór 867 dzieci z zespołem Downa, spośród których 290 ma wrodzoną wadę serca • 10 atrybutów warunkowych (np. masa urodzen., wiek płodowy, kariotyp, itd.) • 1 atrybut decyzyjny (wada_serca={tak, nie}) • Problemy: brakujące wartości, niespójności • Jakie czynniki wpływają na występowanie wrodzonych wad serca wśród dzieci z zespołem Downa?
Etapy procesu odkrywania wiedzy • Identyfikacja dziedziny problemu, • wybór/tworzenie docelowych danych, • wstępne przetwarzanie danych, • wybór zadania i algorytmów odkrywania wiedzy, • pozyskiwanie wiedzy z danych, • interpretacja i ocena wyników poszukiwań.
Wstępne przetwarzanie danych • Usunięcie duplikatów • Identyfikacja obserwacji nietypowych • Dyskretyzacja atrybutów ciągłych • Uwzględnianie nieznanych wartości
Wybrana metoda analizy danych • Teoria zbiorów przybliżonych jako narzędzie do uwzględniania niespójności mogącej być wynikiem granularności dostępnej informacji, • Narzędzie: ROSE 2.0, algorytm Explore, indukcji satysfakcjonującego zbioru reguł,
Inne metody • Instance based learning (IBL1-3), • Indukcja drzew decyzyjnych (C4.5), • Regresja logistyczna (Statistica 6.0)
Dodatkowe eksperymenty • Selekcja - w celu zrównoważenia liczności obu klas decyzyjnych • Projekcja • 9 atrybutów warunkowych • 8 atrybutów warunkowych
Kierunki dalszych badań • Rozszerzenie analizy na zbiór z atrybutem decyzyjnym wskazującym rodzaj/skalę wady serca, • Ekstrakcja wiedzy z innych obszarów Rejestru, • Zastosowanie innych podejść ekstrakcji wiedzy, np.sieci neuronowe, podejścia biorące pod uwagę uporządkowanie dziedzin atrybutów według preferencji, • Analiza skalowalności wybranych metod ekstrakcji wiedzy.