1 / 11

Slovenský stemmer mimoslovníkových slov

Slovenský stemmer mimoslovníkových slov. Vyhľadávanie informácií 2012/2013 Michal Žilinčík. Motivácia. Stemming , lematizácia Rôzne tvary slov v jazyku Problém pre IR („Adam“ != „ Adamovému “) Slová mimo slovníka Mená, priezviská, geografické názvy Slovníkový algoritmus

tovah
Télécharger la présentation

Slovenský stemmer mimoslovníkových slov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Slovenský stemmermimoslovníkových slov Vyhľadávanie informácií 2012/2013 Michal Žilinčík

  2. Motivácia • Stemming, lematizácia • Rôzne tvary slov v jazyku • Problém pre IR („Adam“ != „Adamovému“) • Slová mimo slovníka • Mená, priezviská, geografické názvy • Slovníkový algoritmus • Gramatické pravidlá? Štatistický prístup?

  3. Možné prístupy • S pravidlami týkajúcimi sa jazyka • Produkčný algoritmus – je možné z uloženého koreňa dostať analyzované slovo? • Lematizácia, POS tagging – spresnenie vďaka rozpoznaniu slovného druhu alebo vetného člena • Pravidlá pre prípony a predpony • Rôzne ďalšie pravidlá, výnimky, metódy • Porovnávanie spoluhlások • Kompenzácia zmäkčovania • Kompenzácia vyhadzovania samohlások pri skloňovaní (otec, otcom) • Bez znalosti jazyka • Štatistický prístup

  4. Existujúce riešenia / slovenský stemmer Gramatický prístup Štatistický Funkcia D – dĺžka dlhšieho slova – prvá odlišná pozícia stem je najdlhší spoločný prefix • úplné vypustenie samohlások • úplné odstránenie diakritiky • kompenzácia zmien krátkych slabík na dlhé pri skloňovaní • detekcia niektorých výnimiek (cudzie slová) • odstránenie samohlások z koncov slov a kompenzácia ich vypúšťania pri skloňovaní • ď, ť, ň, ľ => d, t, n, l • odstránenie pádových prípon podľa (neúplného) zoznamu

  5. Riešenie / gramatický prístup • Analýza slabých miest algoritmov • Sledovanie úspešnosti na vybratých príkladoch • Odstraňovanie prípon • Odstraňovanie posledných dvoch skupín samohlások • Zmäkčovanie d, t, n, l • Analýza slovných druhov, rozdiely oproti slovníkovým slovám • napr. mená a priezviská • Rozšírenie zoznamu prípon (podstatné mená, privlastňovacie a vlastnostné prídavné mená) • Odstraňuje sa najdlhšia prípona • Výnimka: „ov“ často tvorí zloženú príponu • Ďalšie pravidlá • Slová kratšie než tri znaky

  6. Riešenie / gramatický prístup / príklad

  7. Riešenie / štatistický prístup • Prevzatie funkcie D • Empirické stanovanie hraničnej hodnoty • 1,2 • Problematické: Fico != Fica vs. Miro != Mir • Pôvodný prístup: • a,b sú slová; ak D(a, b) < hranica, tak patria do jedného klastra a ich stem je najdlhší spoločný prefix • nevyhovujúce

  8. Riešenie / štatistický prístup / modifikácia hranica = 1 • Bratislavčanmi • Stem1 = Bratislavčanmi • Bratislavčan • D(Bratislavčanmi, Bratislavčan) = 0,25 • Stem1 = Bratislavčan • Bratislave • D(Bratislavčan, Bratislave) = 0,5833 • Stem1 = Bratislav hranica = 1 • Bratislavčanmi • Stem1 = Bratislavčanmi • Bratislave • D(Bratislavčanmi, Bratislave) = 1,0625 • Stem1 = Bratislavčanmi • Stem2 = Bratislave • Neporovnávať stem a nové slovo, ale všetky objavené tvary slova s novým slovom

  9. Softvér

  10. Príklad výsledkov

  11. Zhodnotenie • Gramatický stemmer • Problém s krátkymi slovami • Možné riešenie: funkcia, ktorá pridáva dĺžke slova väčšiu váhu • Zlepšenie oproti predchádzajúcemu projektu – nepoužívanie stemu • Zníženie rýchlosti • Štatistický stemer • Problém s príponami „-ký“ a „-ský“ • Riešenie: stačí doplniť do zoznamu • Rýchly (všetky tvary sa dajú nezávisle na sebe upraviť na rovnaký stem) • Ľahšie rozšírenie pravidlami, ale len do istej miery • Hybridný prístup

More Related