Download
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי PowerPoint Presentation
Download Presentation
עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי

עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי

103 Vues Download Presentation
Télécharger la présentation

עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. עיבוד שפות טבעיות - שיעור שלישיניתוח מורפולוגי אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן 89-680

  2. בנית מנתח מורפולוגי • המטרות: • Recognizer: האם מילה היא תקנית או לא • Generator: מייצר מילים מניתוח מורפולוגי מסוים • Parser: נותן ניתוח מורפולוגי למלים • Stemmer:נותן בסיס (stem) של מילה • לא יעיל ולפעמים גם אי אפשר לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. 89-680

  3. בניית מנתח מורפולוגי... • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680

  4. Finite-State Automaton for English Nominal Inflection – Regular: fox, dog, city: add s – Irregular: goose, mouse, sheep (memorize) 89-680

  5. הטמעת המילון באוטומט 89-680

  6. Finite State Transducer • To go beyond mere recognition, we need a transducer • A transducer maps between one set of symbols and another; a finite state transducer does this via a finite automaton. • An FST can be seen as a recognizer, generator or translator. 89-680

  7. Two-Level Morphology • Two-level morphology represents a word as a correspondence between a lexical level, which represents a simple concatenation of morphemes making up a word, and the surface level, which represents the actual spelling of the final word. 89-680

  8. FSTs 89-680

  9. English Nominal Inflection FST 89-680

  10. הוספת חוקי איות ל-FST • ישנם חוקי איות שהם תלויי הקשר • למשל - • cat + N + PL -> cats • fox + N + PL -> foxes 89-680

  11. “Three” level morphology • ניתן לצרף מכונות FST אחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. • לטיפול בחוקי האיות יוצרים שלוש שכבות: • Lexical • Intermediate • Surface 89-680

  12. Orthographic Rules FST We need an FST to add an e between an x, s or z and intermediate before the s at morpheme boundary at the end of a word. A key point of this transducer is that irrelevant stuff passes that through unchanged. 89-680

  13. Composition of FSTs • Actually running a cascade as a cascade can turn out to be a pain... • it is hard to manage all the tapes • it fails to take advantage of the restricting power of all the machines • So... • it is better to compile the cascade into a single large machine with two tapes (input and output) 89-680

  14. English Derivation • Much more complex than inflectional • As an example, consider adjectives • Big, bigger, biggest • Cool, cooler, coolest, coolly • Red, redder, reddest • Clear, clearer, clearest, clearly, unclear, unclearly • Happy, happier, happiest, happily • Unhappy, unhappier, unhappiest, unhappily • Real, unreal, silly 89-680

  15. English Adjective Derivation 89-680

  16. What’s wrong? • Accepts all adjectives above, but • Also accepts unbig, readly, realest • Common problem: over generation • Solution? • Need classes of roots that say which can occur with which suffixes 89-680

  17. Revised FSA 89-680

  18. And it can get much morecomplex… 89-680

  19. Stemming • Lexicon Free • The stem is not the same as the morphological root (it is not necessarily a lexical item!) • In IR • the key is to acquire the stems, not to make any real use of morphological structure, hence the term • Small performance improvements in practice (if any!!!) • with larger documents, less needed • Introduces errors: e.g. organization  organ 89-680

  20. Porter Stemmer • Example Rules: • Step 1a • SSES -> SS (caresses  caress) • IES -> I (ponies  poni, ties  ti) • SS -> SS (caress  caress) • S  (cats  cat) • Step 1b • (m>0) EED  EE (feed  feed, agreed  agree) • (*v*) ED  (plastered  plaster, bled  bled) (*v*) ING   (motoring  motor, sing  sing) 89-680

  21. Porter Algoritm • Step 2 • (m>0) ATIONAL -> ATE relational -> relate • (m>0) TIONAL -> TION conditional -> condition • (m>0) ENCI -> ENCE valenci -> valence • (m>0) ANCI -> ANCE hesitanci -> hesitance • (m>0) IZER -> IZE digitizer -> digitize • (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical • (m>0) ENTLI -> ENT differentli -> different • Etc… 89-680

  22. Human Morphological Processing • How are multi-morphemic words represented in the minds of human speakers? • full-listing hypothesis vs. minimum redundancy hypothesis 89-680

  23. Experiments • Stanners et al. 1979: a word is recognized faster if it has been seen before (priming) • lifting  lift, burned  burn • selective / select • i.e. different representations for inflection and derivation. • Marsen-Wilson et al. 1994: spoken derived words can prime their stems, but only if their meaning is close: • government  govern, • department / depart 89-680

  24. 89-680

  25. Some more on Words • Type vs. token • Word senses • How many words are there in the following sentence: “If she is right and I am wrong then we are way over to the right of where we ought to be.” • Zipfs Law: f 1/r 89-680

  26. Summary • והמשפחה: 3 מילים • סוכריות:מורפולוגיה • גזירה: סוכר  סוכריה • הטיה: סוכריה סוכריות,אכלנו • ניתן למדל מורפולוגיה ע"י FST • Stemming 89-680

  27. Homework 89-680