1 / 20

Lemmald

Lemmald. Nýtt lemmunarforrit fyrir íslensku Anton Karl Ingason Íslensk málfræði, Háskóla Íslands. Lemmun. Að finna grunnmynd orðs, lemmu Orð: hestsins, hestanna, hesti, ... Lemma: hestur Skylt því að stofna (e. stemming ) Tilgangur með lemmun í tungutækni

aimee
Télécharger la présentation

Lemmald

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lemmald Nýtt lemmunarforrit fyrir íslensku Anton Karl Ingason Íslensk málfræði, Háskóla Íslands

  2. Lemmun • Að finna grunnmynd orðs, lemmu • Orð: hestsins, hestanna, hesti, ... • Lemma: hestur • Skylt því að stofna (e. stemming) • Tilgangur með lemmun í tungutækni • Að finna tengsl milli skyldra orðmynda (leit) • Að minnka og einfalda gögn (þjálfun í tölvunámi) • Hugmyndin um rétta lemmu skiptir hér litlu máli og spillir jafnvel fyrir (ath. esperantísk lemma?)

  3. Notkunardæmi: Samhengisháð ritvilluleit • Við gætum notað orðið matur sem merkingarlega vísbendingu um að skrifa eigi lyst en ekki list í tiltekinni setningu. • Ekki víst að málheild innihaldi setningar með öllum fallmyndum orðsins matur í bland við lyst. • Hefur þú lyst á matnum? • Hver hefur lyst á öllum þessum mat? • Við misstum alla lyst vegna matarins í flugvélinni. • Við höfum alltaf lyst á að klára matinn okkar. • Maturinn var borðaður með bestu lyst. • Gott væri að geta fellt þessi dæmi saman í þjálfun og keyrslu leiðréttingaforrits

  4. Tengsl milli orðmynda hest hesti hestur hestanna hests hestunum hesturinn hestana hestur hestinn hestarnir hestinum hestum hestar hestsins hesta

  5. Staða mála • Ekkert lemmunarforrit til sem er sérstaklega hannað fyrir íslensku • CST Lemmatizer sem er óháður tungumáli hefur verið þjálfaður fyrir íslensku • Þörf fyrir Lemmald: • Íslenskt forrit sem hægt er að þróa áfram þannig að íslenskri málfræði sé gerð skil í kóðanum • Java-forrit sem þægilegt er að tengja við íslensk tungutæknitól (IceNLP, Samhengisháð ritvilluleit) • Eykur skilning á meðferð flókinna beyginga í tungutækni með því að prófa nýjar aðferðir

  6. Verkefnið skilgreint • Í skilningi Lemmalds felst lemmun í því að útfæra fallið: lemma( orðmynd, mark ) • orðmynd mark > lemmaHún fpven > húnmætti sfg3eþ > mætamanninum nkeþg > maður • Afleiðingar: • Greining á samhengi alfarið í höndum markara • Ályktun að orðmynd og mark skili alltaf ótvíræðri lemmu er ekki alveg 100% rétt (td. muni, á).

  7. Auðlindir sem byggt er á • BLARK-einingar: • IceTagger (Hrafn Loftsson) • Málheild Íslenskrar orðtíðnibókar (SÁ) • Beygingarlýsing íslensks nútímamáls (SÁ) • Sýnir mikilvægi BLARK-hugsunar • Einingar styrkja hver aðra • ... og gera þróun á nýjum einingum mögulega • Hér vantar: • Betri greiningu á samsettum orðum (í vinnslu!)

  8. Sérkenni Lemmalds • Forrit með svipaðan tilgang skiptast yfirleitt í tvennt eftir aðferðum: • Handsmíðaðar reglur (málfræðileg nálgun) • Tölvulærðar reglur (tölfræðileg nálgun) • Lemmald notar engar handsmíðaðar reglur en nálgunin er þó að miklu leyti málfræðileg • Reynt að blanda saman kostum aðferðanna • Val á lemmunarreglu byggist aðallega á: Stigveldi málfræðilegra auðkenna

  9. Gögn og þekking á gögnum • Árangur í tölvulærðum reglum byggist á • Almennri lærdómsaðferð (tölfræðileg þekking) • Gögnum sem vélin fær til að læra af og uppbyggingu þessara gagna (þekking á gögnum) • Gögnin í þessu tilviki orðmynd og mark • móður nvee • Einfaldast að líta á þetta sem tvo strengi • Ef markið er notað með flóknari hætti skiptir máli hvernig það er gert

  10. Gögnum hent í vélina • Er skynsamlegt að henda bara gögnum í vélina og láta hana læra? • Hafa gögnin formgerð og hver er hún? • nvee: nafnorð, kvenkyn, eintala, eignarfall • nafnorð+kvenkyn, kvenkyn+eintala, eignarfall+eintala • nvee? n, v, e, e? nve?, nv?, ee? • Greinilega mögulegt að nota mark á fleiri vegu en sem einn streng, en hvernig?

  11. Hliðstæða úr hljóðkerfisfræði • Tvígildir þættir notaðir til að greina málhljóð • [±cons] [±sonor] [±later] [±strid] [±contin] [±round] [±anter] [±distrib] [±back] [±high] [±low] [±nasal] [±ATR] [±RTR] [±spread gl] [±constr gl] [±voiced]

  12. Hliðstæða úr hljóðkerfisfræði (Kenstowicz 1994)

  13. Stigveldi málfræðilegra auðkenna • Látum nafnorðið <móður,nvee> hafa fjögur auðkenni sem raðast frá sértæku til almennsorð markmóður nveemóður nv[*] nveemóður [*] • Ekki endilega besta stigveldið, en virkar ágætlega fyrir lemmun

  14. Lemmald þjálfað • Nafnorðið <móður,nveo> kemur fyrir í þjálfunarsafni (ath. þolfall) • Reglur smíðaðar upp úr þessuorð mark reglamóður nveo ur>irmóður nv ur>ir[*] nveo ur>irmóður [*] ur>ir • Og svo talið hversu oft hver regla gefur rétta niðurstöðu í þjálfunarsafninu

  15. Lemmað • Inntak fyrir lemmun er <móður,nvee> (eignarfall) • Þetta mynstur er óþekkt (kom ekki fyrir í þjálfunarsafni). Stigveldið er notað til að slá af kröfum um nákvæmni í málfræðilega skynsamlegri röð • Við viljum t.d. ekki að forritið noti reglu fyrir lýsingarorðið móður í staðinn (þ.e. r>r) • Sértækasta þekkta mynstrið er <móður,nv> og því er reglan (ur>ir) notuð • Ströng yfirskipun (e. strict domination) skiptir hér máli. Sértækasta þekkta mynstrið er notað og þegar það finnst skipta lægra sett mynstur engu máli

  16. Stigveldi málfræðilegra auðkenna • Stigveldið fær góðar málfræðilegar hugmyndir eins og að velja mynstur úr nafnorði í sama kyni í stað þess að velja mynstur úr lýsingarorði sem er eins (eða nafnorði í sama kyni í stað nafnorðs í öðru kyni) • Tímasparandi kostir tölvulærðra reglna nýttir en málfræðileg þekking birtist í skipulagi stigveldisins (formgerð gagnanna)

  17. Ýmis vandamál • Samsett orð eru líklega stærsta vandamálið sem er sérstakt fyrir íslenska tungutækni • Gildir einnig um sum skyld mál • Dæmi götusópari • Orðið í heild er óþekkt og málfræðilegi hausinn sópari er einnig óþekktur (í OTB-málheild). • Greining sem byggist á lengstu þekktu endingu skiptir þessu götusó-pari og lemman verður götusópar. • Erfitt að eiga við án alvöru orðhlutagreiningar

  18. Einingar Lemmalds • Stiveldi málfræðilegra auðkenna • Greining á samsettum orðum • Greining á u-hljóðvarpi • Leiðréttingaeining sem keyrir síðast • Tenging við Beygingarlýsingu íslensks nútímamáls (krefst gagnagrunnsþjóns) • Hægt að kveikja/slökkva á einingunum í stillingum forritsins

  19. Árangur • Miðað við rétt markað inntak • Grunnvirkni (Stigveldisaðferð eingöngu) 97,85% • + Greining á samsettum orðum 98,38% • + Greining á u-hljóðvarpi 98,42% • + Eftirvinnsla (leiðréttingar) 98,54% • + Beygingarlýsing íslensks nútímamáls 99,55% • CST Lemmatizer 98,99% (sambærilegt við 98,54%) • Tölur lækka um u.þ.b. 2% við að nota IceTagger markað inntak sem er 91,55% rétt • Dæmi um að bæði forrit klúðri því sem hitt gerir rétt

  20. Framhaldið • Lemmald með fullkomnari aðferð innan hvers sértækniþreps ætti að ná betri árangri. Á þessu verður tekið í væntanlegri næstu útgáfu. • Nauðsynlegt að þróa betri greiningu á samsettum orðum en þetta tengist fleiri verkefnum og er í raun sjálfstæð BLARK-eining • Engu að síður er árangurinn nú þegar nógu mikill til að nota forritið í hagnýt verkefni

More Related