180 likes | 317 Vues
Nástroje na sumarizáciu textu. Róbert Móro prof. Mária Bieliková. 7.4.2011. Sumarizácia textu. Vytvorenie stručnej a presnej reprezentácie obsahu dokumentu Vyňatie najdôležitejšej informácie zo zdrojového textu Motivácia Informačné preťaženie Orientácia v množstve zdrojov.
E N D
Nástroje na sumarizáciu textu Róbert Móro prof. Mária Bieliková 7.4.2011
Sumarizácia textu • Vytvorenie stručnej a presnej reprezentácie obsahu dokumentu • Vyňatie najdôležitejšej informácie zo zdrojového textu • Motivácia • Informačné preťaženie • Orientácia v množstve zdrojov
Typy sumarizátorov • Forma súhrnu • Extrakt • Abstrakt • Účel • Indikatívny • Informatívny • Hodnotiaci
Typy sumarizátorov • Záber • Všeobecné súhrny • Založené na dopyte • Tematicky zamerané • Aktualizačné • Zamerané na používateľa
Prehľad základných metód • Heuristické • Luhn – frekvencia termov • Edmundson – pozične významné termy • Štatistické • tf*idf • Bayesova klasifikácia
Prehľad základných metód • Metódy strojového učenia • Rozhodovacie stromy • ale v zásade ľubovoľný klasifikátor... • Metódy využívajúce súvislosti v texte • RST (teória rétorických štruktúr) • Lexikálne reťazce • Objekty a ich väzby
Prehľad základných metód • Metódy modifikujúce pôvodný text • Kompresia • „cut& paste” • Grafové • PageRank • TextRank • LexRank
Prehľad základných metód • Algebraické • LSA (Latentná sémantická analýza) • NMF (Non-Negative Matrix Factorization)
Analýza sumarizátorov • SWEet • Musutelsa • Almus • Open Text Summarizer • MEAD
SWEeT • ZCU v Plzni • Sumarizátor tém na webe • Implementácia v Jave • Využíva Musutelsasumarizátor
Musutelsa • ZCU v Plzni • Implementácia v Jave • Založený na LSA • Multidokumentovásumarizácia • Vstup/výstup z/do XML • Stop slová, lematizátor • Metódy na evaluáciu
Almus • ZCU v Plzni • Implementácia v Jave • (aktualizačná) multidokumentovásumarizácia • Založený na LSA • Zohľadňuje „rozprávanie“ • Vstup z XML, výstup text
Open Text Summarizer • Opensource, v0.5.0 • Implementácia v C, existuje aj Ruby wrapper • Knižnica (libots) aj konzolová aplikácia • Založený na tf (frekvencii termov), využíva stemming • Vstup text, výstup text/HTML • Integrácia v textových editoroch (Gedit, AbiWord,...)
Open Text Summarizer • tl;dr.it
MEAD • Opensource platforma • Universityof Michigan • Implementácia v Perl • Multidokumentová, mnohojazyková sumarizácia • Dáta v XML • Automatická extrakcia čŕt • Klasifikátory, evaluačné metódy, ...
Užitočné odkazy • Ježek, K., Steinberger, J.: Sumarizacetextů. In Proc. ofAnnualDatabaseConf. DATAKON, 2010, pp.3-23. • http://textmining.zcu.cz/publications/SumarizDATAKON.pdf • SWEeT • http://tmrg.kiv.zcu.cz:8080/sweet/ • Musutelsa • http://www.musutelsa.jamstudio.eu/ • Almus • http://textmining.zcu.cz/?lang=en§ion=download
Užitočné odkazy • OTS • http://libots.sourceforge.net/ • https://github.com/ssoper/summarize • tl;dr.it • http://tldr.it/ • http://omgbloglol.com/post/1373695996/from-tl-dr-to-techcrunch-my-rumble-apps-story • http://intridea.com/posts/pay-no-attention-to-the-code-behind-the-curtain-the-tech-behind-tldrit • MEAD • http://www.summarization.com/mead/