1 / 13

Z ískávání znalostí z medicínských textů

Z ískávání znalostí z medicínských textů. Petr Kolesa EuroMISE Centrum. Osnova. Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie. Práce.

guang
Télécharger la présentation

Z ískávání znalostí z medicínských textů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum

  2. Osnova • Systém pro dotazování na interakce a kontraindikace léků • Amilcare - nástroj pro information extraction (IE) • PDT – nástroj pro zpracování přirozeného jazyka (NLP). • Užití ontologie

  3. Práce • Cíl: dotazy nad „databází“ léků • interakce, kontraindikace: je možné pacientovi s diagnózou D1, D2, D3, stavem S1, S2 podat lék L, když užívá léky L1, L2 a L3 • Znalosti získat z příbalových letáků

  4. Formalizace příbalových letáků • Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. • výhoda – člověk stejně musí projít celý text • je žádoucí použít deep analysis, supervised learning • Člověk transformuje, systém se mu snaží pomáhat.

  5. Ukázka textu • Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.

  6. AMILCARE • Dosažené výsledky • nízké hodnoty precision (17 %) i recall (14 %) • Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % • Jak zlepšit: • Dodat další informace • Provést normalizaci textu

  7. Zpracování přirozeného jazyka • Přidat morfologické informace: lemma, morf. značka (pád, číslo) • Jen lemma: P: 44 %, R: 27 % • Lemma + morf. značka: problém nejednoznačnosti • Učení jen na morf. značkách • Pokud to bude málo, budou dodány informace o povrchové struktuře věty

  8. Normalizace textu • Normalizace: • překlepy, idiosynkratika (mmHg vs mm Hg) • výčtové typy, gazetteers • obecná normalizace na úrovni vět je příliš složitá • Letáky produkované jednou firmou mají stejnou strukturu.

  9. Co s výsledky IE • Vím, kde v textu leží to, co mě zajímá. Co s tím? • Krok od povrchové struktury k tomu, co to znamená (slova → koncept) • Seznam „synonym“, kanonická fráze • navrhne počítač, určí člověk • glaukom: zelený zákal, zelený oční zákal, zelený zákal oční • Mapování konceptů na ontologii

  10. UMLS • Unified Medical Language System • vyvíjí National Library of Medicine • obsahuje několik zdrojových slovníků • ICD-10 (MKN 10) • MeSH • Snomed CT • … • „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny.“

  11. UMLS – příklad • Patří diazepam do skupiny léků ovlivňujících CNS?

  12. Použití ontologie • Zdá se, že pro potřeby „léků“ UMLS vyhovuje • Problémy: • mapování čeština  angličtina • rozdílné léky v USA a ČR

  13. Dosavadní výsledky • Překvapivě nízká hodnoty precision a recall • Pro potřeby IE je třeba text normalizovat: gazetteers • Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje • Mapování na UMLS je obtížné ale možné • Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.

More Related