1 / 180

Evaluating an Agglutinative Segmentation Model for ParaMor

Evaluating an Agglutinative Segmentation Model for ParaMor. Christian Monson Jaime Carbonell Alon Lavie Lori Levin Carnegie Mellon University. Turkish Morphology – Beads on a String. One Turkish Word. götür. ül. m. ü yor. s u n. present progressive. 2 nd person singular. take.

halima
Télécharger la présentation

Evaluating an Agglutinative Segmentation Model for ParaMor

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Evaluating an Agglutinative Segmentation Model for ParaMor Christian Monson Jaime Carbonell Alon Lavie Lori Levin Carnegie Mellon University

  2. Turkish Morphology – Beads on a String One Turkish Word götür ül m üyor sun present progressive 2nd person singular take passive negative I am not being taken

  3. Computational Morphology Improves: Machine Translation Turkish-English (Oflazer, 2007) Czech-English (Goldwater and McClosky, 2005) Speech Recognition Finnish (Creutz, 2006) Grapheme-to-Phoneme Conversion German (Demberg, 2007) Information Retrieval English, German, Finnish (Kurimo et al., 2008)

  4. Morphology is Complex Operations Suffix, Prefix, Reduplication, … Purpose Inflection vs. Derivation Morphophonology Ambiguity

  5. Complexity Demands Time and Expertise Kemal Oflazer Expert on Turkish Computational morphology Time 3 - 4 Months to manually build a basic Turkish analyzer Plus lexicon development and maintenance

  6. The Solution Raw Text Unsupervised Morphology Induction

  7. The Solution Raw Text ?

  8. Techniques for Unsupervised Morphology Induction Transition Likelihood Harris (1955) – Finite State Automata Bernhard (2007)

  9. Techniques for Unsupervised Morphology Induction Transition Likelihood Harris (1955) – Finite State Automata Bernhard (2007) Minimum Description Length Goldsmith (2001, 2006) Creutz’s Morfessor (2006)

  10. Techniques for Unsupervised Morphology Induction Transition Likelihood Harris (1955) – Finite State Automata Bernhard (2007) Statistical or Minimum Description Length Goldsmith (2001, 2006) Creutz’s Morfessor (2006) The Paradigm Snover (2002) ParaMor (2004, 2007)

  11. What is a Paradigm? ül m üyor sun götür present progressive 2nd person singular take passive negative

  12. Paradigms Structure Inflectional Morphology Person & Number ül m üyor sun götür present progressive 2nd person singular take passive negative

  13. Paradigms Structure Inflectional Morphology Person & Number ül m üyor um götür um present progressive take passive negative 1st person singular

  14. Paradigms Structure Inflectional Morphology Person & Number ül m üyor um götür um Ø present progressive take passive negative 3rd person singular

  15. Paradigms Structure Inflectional Morphology Person & Number ül m üyor um götür um Ø uz present progressive take passive negative

  16. Paradigms Structure Inflectional Morphology Paradigm Paradigm Mutually substitutable morphological operations ül m üyor um götür um Ø uz present progressive take passive negative

  17. Paradigms Structure Inflectional Morphology yecek Tense & Aspect Person & Number Voice Polarity üyor ül m um um Ø uz

  18. Paradigms Structure Inflectional Morphology yecek Paradigms Paradigm Mutually substitutable morphological operations üyor ül m um um Ø uz

  19. The ParaMor Algorithm yecek Paradigm Paradigm Mutually substitutable strings üyor ül m um um Ø uz

  20. The ParaMor Algorithm yecek Candidate Stems Paradigm üyor ül m um um Ø uz 1 Morpheme Boundary

  21. The ParaMor Algorithm Simplifying Assumptions Suffixes only 70% of the World’s Languages are Suffixing (Dryer, 2005) No morphophonology Only a High-Level Overview

  22. The ParaMor Algorithm Identify Paradigms in 3 Steps

  23. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms

  24. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm

  25. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter

  26. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms

  27. This Presentation Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms • Example Search • Full Description in Monson et al. (SIGMORPHON 2007)

  28. This Presentation Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms Agglutinative Segmentation Model

  29. This Paper Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms 2 Filters Adapted from Harris (1955) and Goldsmith (2006)

  30. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms

  31. Search for Candidate Paradigms Spanish Example Propose a morpheme boundary at every character boundary in every word Consolidate identical candidate suffixes into paradigm seeds autorizaciones buscabamos costas importadoras vallas … Word List 50,000 Types s 10697

  32. Search for Candidate Paradigms Identify the most frequent mutually replaceable candidate suffix Stems that occur with one suffix in a paradigm will likely occur with other suffixes in that paradigm autorizaciones buscabamos costaØ costas importadoraØ importadoras vallaØ vallas … Ø s 5513 s 10697

  33. Search for Candidate Paradigms A Parameter halts the introduction of suffixes When the most frequent mutually replaceable candidate suffix severely decreases the stem count Ø r s 281 autorizaciones buscabamos costar costaØ costas importadoraØ importadoras vallaØ vallas … Ø s 5513 s 10697

  34. Search for Candidate Paradigms Move on to the next most frequent paradigm seed Ø r s 281 Ø s 5513 a 9020 s 10697

  35. Search for Candidate Paradigms a as o os 899 a o os 1418 Ø r s 281 a o 2325 Ø s 5513 a 9020 s 10697

  36. Search for Candidate Paradigms Ø dadas do dos n ndo r ron 115 a as o os 899 Ø do n r 357 Ø n r 512 a o os 1418 Ø r s 281 Ø n 1863 a o 2325 Ø s 5513 n 6039 a 9020 s 10697

  37. Search for Candidate Paradigms Ø dadas do dos n ndo r ron 115 a as o os 899 Ø do n r 357 Ø n r 512 a o os 1418 Ø r s 281 Ø es 845 Ø n 1863 a o 2325 Ø s 5513 es 2750 n 6039 a 9020 s 10697

  38. Search for Candidate Paradigms a adaadasadoados an ar aronó 148 Ø dadas do dos n ndo r ron 115 a an ar ó 355 a as o os 899 Ø do n r 357 a an ar 417 Ø n r 512 a o os 1418 Ø r s 281 a an 1045 Ø es 845 Ø n 1863 a o 2325 Ø s 5513 an 1784 es 2750 n 6039 a 9020 s 10697

  39. Search for Candidate Paradigms ra rada radas rado rados ran rarraronró 23 a adaadasadoados an ar aronó 148 Ø dadas do dos n ndo r ron 115 strada stradas strado strar stró 7 a an ar ó 355 a as o os 899 strada strado strar stró 8 rada radas rado rados 53 Ø do n r 357 strada strado stró 9 rada rado rados 67 a an ar 417 Ø n r 512 a o os 1418 Ø r s 281 strada strado 12 rada rado 89 a an 1045 Ø es 845 Ø n 1863 a o 2325 Ø s 5513 strado 15 rado 167 an 1784 es 2750 n 6039 a 9020 s 10697 ...

  40. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms

  41. A Few of the 42 Final Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima

  42. A Few of the 42 Final Paradigms 4 SuffixesØmenente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 SuffixesØ es idad idades mente ísima Number on Nouns

  43. A Few of the 42 Final Paradigms 4 Suffixes Ø menente mente s 11 Suffixesa amente as illa illas oor ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima Number & Gender on Adjectives

  44. A Few of the 42 Final Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes arara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en ererlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imosir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima Verbal Suffixes

  45. The ParaMor Algorithm Identify Paradigms in 3 Steps • Search for candidate paradigms • Cluster candidates modeling the same paradigm • Filter Segment Words Using the discovered paradigms Agglutinative Segmentation Model

  46. Segment Words Using the Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima administradas ‘Feminine gender nouns under administration’

  47. Segment Words Using the Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima administr + ad + a + s Past Participle Plural Feminine

  48. Segment Words Using the Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación adaadasado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima administradas

  49. Segment Words Using the Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima administradas administrada Also in corpus

  50. Segment Words Using the Paradigms 4 Suffixes Ø menente mente s 11 Suffixes a amente as illa illas o or ora oras ores os 41 Suffixes a aba aban acion aciones ación ada adas ado ador adora adoras adores ados amos an ando ante antes ar ara aran aremos arla arlas arlo arlos arme aron arse ará arán aré aría arían ase e en ándose é ó 29 Suffixes e edor edora edoras edores en er erlo erlos erse erá erán ería erían ida idas ido idos iendo iera ieran ieron imiento imientos iéndose ió í ía ían 20 Suffixes ida idas ido idor idores idos imos ir iremos irle irlo irlos irse irá irán iré iría irían ía ían 29 Suffixes ce cedores cemos cen cer cerlo cerlos cerse cerá cerán cería cida cidas cido cidos ciendo ciera cieran cieron cimiento cimientos cimos ció cí cía cían zca zcan zco 6 Suffixes Ø es idad idades mente ísima administradas administrada

More Related