Download
named entity recognition s u en m na slovensk men n.
Skip this Video
Loading SlideShow in 5 Seconds..
Named entity recognition s učením na slovenské mená PowerPoint Presentation
Download Presentation
Named entity recognition s učením na slovenské mená

Named entity recognition s učením na slovenské mená

117 Vues Download Presentation
Télécharger la présentation

Named entity recognition s učením na slovenské mená

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Named entity recognition s učenímna slovenské mená Michal Jesenský Vyhľadávanie Informácií 2010/2011

  2. Zadanie, motivácia • Trénovanie modelu na rozpoznávanie pomenovaných entít (ľudských mien) na slovenských textoch a použitie tohto modelu • Pomenované entity nie je ľahké kategorizovať do slovníka ani databázy • Závisí od kontextu viet, či sa jedná o entitu a o akú entitu sa jedná • Na toto je vhodné použiť trénovacie algoritmy na rozsiahlej množine textov • Použitá je knižnica OpenNlp, ktorá trénuje a modely a využíva ich na detekciu pomocou spôsobu maximálnej entropie

  3. Podobné riešenia • Stanford Named Entity Recognizer (NER) • http://nlp.stanford.edu/software/CRF-NER.shtml • YooName • http://yooname.wordpress.com/ • OpenCalais • http://www.opencalais.com/

  4. Postup práce • Vytvorenie sloveského korpusu • Získanie zoznamu slovenských mien zo slovenského kalendára http://calendar.zoznam.sk/ • Získanie 200 riadkov textu pre každé meno zo stránky http://www.korpus.sk/ • Použitie regulárnych výrazov pre spracovanie riadkov na vety a otagovanie mien aj s priezviskami aj vo viacerých pádoch ako v 1. • Výsledok okolo 113000 riadkov s otagovanými menami • Optimalizácia korpusu – zníženie počtu mien, ktoré sa vyskytujú viac ako 450 - 500 krát v nejakom páde • Výsledok okolo 96000 riadkov s otagovanými menami

  5. Postup práce pokr. • Vygenerovanie modelu z oboch typov trénovacích dát so základnými nastaveniami (cutoff 5, iterations 100, default Feature Generator) • Vygenerovanie modelov s vlastnými nastaveniami trénovania (cutoff 10, 25, iterations 200, custom Feature Generator) • Implementácia GUI v Java swing na zjednodušenie práce s trénovaním a použitím modelu na rozpoznávanie • Nutnosť vygenerovať model sentencedetectora, lebo na rozpoznávanie mien v texte, musí byť text formátovaný 1 veta 1 riadok ako v trénovacích dátach

  6. Softvér

  7. Softvér pokr.

  8. Vyhodnotenie • Vytvorené modely majú dobrú presnosť (precission) • Trénovacie dáta max 92%, min 82% • Testovacie dáta max 92%, min 79% • Ale neoznačia veľké množstvo entít (recall) • Trénovacie dátamax64 %, min 13% • Testovacie dáta max 46%, min 14%