1 / 22

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka. Karol Furdík, Peter Bednár. Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/. Obsah prezentácie. Motivácia a hlavné ciele

moeshe
Télécharger la présentation

Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Využitie knižnice Jbowl pri spracovaní prirodzeného jazyka Karol Furdík, Peter Bednár Centrum pre informačné technológie spoločné pracovisko Ústavu informatiky SAV a FEI Technickej univerzity v Košiciach http://www.tuke.sk/fei-cit/

  2. Obsah prezentácie Motivácia a hlavné ciele Architektúra Podporované úlohy dolovania v textoch (Text Mining) • Analýza dokumentov • Tvorba TM modelu pre kategorizáciu textov • Tvorba TM modelu pre zhlukovanie dokumentov Príklady použitia - aplikácie Plány do budúcnosti

  3. Motivácia a hlavné ciele (1) Požiadavky kladené na systém / platformu: • nástroje na predspracovanie (potenciálne) veľkých kolekcií textových dokumentov, • narábanie s rôznymi textovými formátmi (voľný text, HTML, XML,...) a jazykmi, • Indexácia a vyhľadávanie informácií v týchto kolekciách, • Rozhranie pre znalostné modely (napr. ontológie). Existujúce systémy: • indexácia a vyhľadávanie (Lucene, EGOTHOR), NLP (GATE, JavaNLP), KDD nástroje (Weka, KDD Package), ontológie (KAON), • príliš úzko zamerané na tú-ktorú podúlohu, preto nevhodné na dolovanie v textoch a sémantické vyhľadávanie.

  4. Motivácia a hlavné ciele (2) Jbowl - Open Source knižnica v jazyku Java, ponúkajúca funkcie na podporu: • inteligentného vyhľadávania informácií, sumarizácie, extrakcie informácií z textov, • dolovania znalostí v textoch, zhlukovania, kategorizácie, klasifikačných úloh. Hlavné charakteristiky: • rozšíriteľná modulárna architektúra, • platforma na predspracovanie (vrátane NLP metód) a indexáciu rozsiahlych textových kolekcií, • funkcie na vytváranie a vyhodnocovanie riadených aj neriadených modelov pre dolovanie v textoch.

  5. API TME MOR Architektúra: komponenty Architektúra Jbowl je rovnaká ako štandard Java Data Mining API (JSR 73):http://www.jcp.org/en/jsr/detail?id=73 Rozhranie (API): • triedy a rozhrania pre prístup k službám TME. Jadro (TME, Text Mining Engine): • infraštruktúra TM služieb, • riadenie TM úloh (napr. analýza dokumentov, tvorba a testovanie modelu, aplikovanie modelu na nové údaje, štatistické výpočty, import a export údajov z/do MOR,...). Údaje (MOR, Mining Object Repository): • perzistentné uloženie TM objektov.

  6. Architektúra: funkčné moduly documents XML Lucene index Thesaurus analysis Tokenization Sentence chunking POS tagging NP chunking data Statistics TF IDF Term selection models categorization clustering keyword extraction/ summarization information extraction utils Collections Matrixes BLAS Neimplementované, alebo čiastočne implementované

  7. Analýza dokumentov (1) Objektová reprezentácia dokumentu zahŕňa: • textový obsah delený na sekcie (kapitoly, paragrafy), • metadáta (id, name, dataset, a pod.), • zoznam kategórií popisujúcich obsah. <document id="12" name="Reuters-21578-12“ dataset="ModApte-train"> <category>topics.commodity.exchange</category> <category>topics.wheat-commodity</category> <title> OHIO MATTRESS MAY HAVE LOWER 1ST QTR NET </title> <text> Ohio Mattress Co said its first quarter, ending February 28, profits may be below the 2.4 mln dlrs, earned in the first quarter of fiscal 1986. ... </text> </document>

  8. Analýza dokumentov (2) Delenie textu na značky - tokens: • tokens sú slová (reťazce alfanumerických znakov), číslice, diakritické znaky. Značkovanie (tokenization) sa vykonáva pomocou značkovacích filtrov (token filters). Filtre slúžia na: • zmenu textu niektorej značky (na malé písmená, stemming), • pridanie informácie k značke (POS tagging, WSD), • odstránenie niektorých značiek (stop-words), • spájanie značiek (frázy).

  9. Príklad: 1) značkovanie tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 .

  10. Príklad : 2) slovné druhy tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 . verbs nouns adjectives adverbs

  11. Príklad : 3) stemming tokenizer POS stemming gazetteer stop words Ohio Mattress Co said its first quarter , ending February 28 profits may be below the 2.4 mln dlrs earned in the first quarter of fiscal 1986 .

  12. Príklad : 4) termíny, frázy tokenizer POS stemming gazetteer stop words Ohio Mattress Co say its first quarter , end February 28 profit may be below the 2.4 mln dlrs earn in the first quarter of fiscal 1986 .

  13. Príklad : 5) stop-words tokenizer POS stemming gazetteer stop words Ohio Mattress Co say its first quarter , end February 28 profit may be below the 2.4 mln dlrs earn in the first quarter of fiscal 1986 .

  14. Vektorová reprezentácia Dokument di je reprezentovaný ako vektor v n-rozmernom príznakovom priestore (n je počet príznakov, termov - terms) Príznaky reprezentujú napr.: • slová, korene slov • frázy, n-gramy • významy slov (WordNet synsety) Hodnoty “váh” vektorov: • binárne • frekvencia termov • tf-idf váhovanie: t1 t2 t3 t4 t5 ... tn d1 d2 d3 ... dm

  15. Kategorizácia textov Klasifikácia dokumentov do niektorých z preddefinovaných kategórií. • Aplikácie: • indexovanie pre vyhľadávacie systémy (information retrieval): • kontrolovaný slovník - tezaurus, • anotácia dokumentov (napr. pomocou pojmov ontológie), • filtrovanie textov: • filtrovanie spam / junk mailov. • Manuálna kategorizácia je časovo náročná a drahá. • Kontrolované učenie (vyžaduje sa trénovacia množina vopred zaradených dokumentov).

  16. Algoritmy klasifikácie Implementované v knižnici Jbowl: • Jednoduché porovnávanie termov • Support Vector Machine - lineárna klasifikácia • k-Nearest neighbors • Rozhodovacie stromy - rôzne kombinácie orezávania a rastu • Perceptron • Bayesovský klasifikátor (binomiálny a multinomiálny) • Winnow • Boosting - metóda na zvýšenie presnosti klasifikátorov

  17. Zhlukovanie dokumentov Úloha: nájsť v kolekcii zhluky dokumentov s podobným obsahom. Nekontrolované učenie (trénovacia množina dokumentov nie je potrebná). Aplikácie: • organizovanie dokumentov v digitálnych knižniciach, • automatická tvorba ontológií. Metódy a algoritmy (implementované v Jbowl): • k-Means, • SOM (Self organizing maps) • GHSOM (Growing hierarchical SOM)

  18. Aplikácie eGovernment: Projekt Webocracy (http://www.webocrat.sk), eLearning: Projekt KP-Lab (http://www.kp-lab.org), GRID: GridMiner - objavovanie znalostí v heterogénnych a distribuovaných priestoroch údajov. Aplikačná oblasť: medicínske texty. Riešitelia: TU Viedeň, TU Košice (http://www.gridminer.org), Vyhľadávanie informácií s použitím metód zhlukovania, Extrakcia informácií pomocou metód NLP, vrátane morfologickej a syntaktickej analýzy slovenčiny, viaceré diplomové a dizertačné práce na TU Košice.

  19. Aplikácie: projekt Webocracy Web Technologies Supporting Direct Participation in Democratic Processes, IST-1999-20364 http://www.webocrat.sk Aplikačná oblasť: eGovernment. ontológia text mining inteligentné vyhľadávanie vektorová reprezentácia analýza dokumentov indexácia full-text vyhľadávanie Jbowl knižnica Špecifická funkcionalita systému Webocrat

  20. Aplikácie: projekt KP-Lab Knowledge Practices Laboratory, IST-2006-27490 http://www.kp-lab.org Aplikačná oblasť: eLearning.

  21. Budúce úlohy Dokumentácia: dokončiť a publikovať dokumentáciu, vrátane príkladov použitia / implementácie pre typové úlohy, WSD modul: navrhnúť a implementovať modul pre dezambiguáciu, zjednoznačnenie určenia slovných tvarov, Rozšírenie slovníkov, a to 1) pridaním ďalších atribútov (sémantických a lexikálnych kategórií), 2) doplnením slovníkových hesiel (napr. zo špecializovaných korpusov), Rozhranie na OWL ontológie, konverzia formátov RDF/OWL/WSMO. Rozvoj komunity: podporovať a usmerňovať aktivity pri vývoji nových verzií knižnice Jbowl; rozširovať možnosti aplikovania v rôznych výskumných oblastiach.

  22. Ďakujem Vámza pozornosť. Web:http://sourceforge.net/projects/jbowl/ Licencia: GNU LESSER GENERAL PUBLIC LICENSE Autor: Peter Bednár, Peter.Bednar@tuke.sk

More Related