270 likes | 425 Vues
עיבוד שפות טבעיות - שיעור שלישי ניתוח מורפולוגי. אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן. בנית מנתח מורפולוגי. המטרות: Recognizer : האם מילה היא תקנית או לא Generator : מייצר מילים מניתוח מורפולוגי מסוים Parser : נותן ניתוח מורפולוגי למלים Stemmer :נותן בסיס ( stem ) של מילה
E N D
עיבוד שפות טבעיות - שיעור שלישיניתוח מורפולוגי אורן גליקמן המחלקה למדעי המחשב אוניברסיטת בר אילן 89-680
בנית מנתח מורפולוגי • המטרות: • Recognizer: האם מילה היא תקנית או לא • Generator: מייצר מילים מניתוח מורפולוגי מסוים • Parser: נותן ניתוח מורפולוגי למלים • Stemmer:נותן בסיס (stem) של מילה • לא יעיל ולפעמים גם אי אפשר לשים בלקסיקון את כל המילים על צורת ההטיה שלהן. 89-680
בניית מנתח מורפולוגי... • כדי לבנות מנתח מורפולוגי יש צורך ב: • לקסיקון - רשימת שורשים stems ו-affixes, עם מידע כללי כגון האם ה-stem הוא שם עצם, פועל וכו'. • Morphotactics - המודל לסידור המורפמות (איזו מורפמה היא תחילית ואיזו סופית) • חוקים אורתוגרפיים orthographic rules חוקי הכתיב - שינויים החלים במילה למשל - y-> ie כמו במקרה שלcity + -s -> cities 89-680
Finite-State Automaton for English Nominal Inflection – Regular: fox, dog, city: add s – Irregular: goose, mouse, sheep (memorize) 89-680
הטמעת המילון באוטומט 89-680
Finite State Transducer • To go beyond mere recognition, we need a transducer • A transducer maps between one set of symbols and another; a finite state transducer does this via a finite automaton. • An FST can be seen as a recognizer, generator or translator. 89-680
Two-Level Morphology • Two-level morphology represents a word as a correspondence between a lexical level, which represents a simple concatenation of morphemes making up a word, and the surface level, which represents the actual spelling of the final word. 89-680
FSTs 89-680
הוספת חוקי איות ל-FST • ישנם חוקי איות שהם תלויי הקשר • למשל - • cat + N + PL -> cats • fox + N + PL -> foxes 89-680
“Three” level morphology • ניתן לצרף מכונות FST אחת לשנייה, כך שהפלט של האחת היא הקלט של השנייה. • לטיפול בחוקי האיות יוצרים שלוש שכבות: • Lexical • Intermediate • Surface 89-680
Orthographic Rules FST We need an FST to add an e between an x, s or z and intermediate before the s at morpheme boundary at the end of a word. A key point of this transducer is that irrelevant stuff passes that through unchanged. 89-680
Composition of FSTs • Actually running a cascade as a cascade can turn out to be a pain... • it is hard to manage all the tapes • it fails to take advantage of the restricting power of all the machines • So... • it is better to compile the cascade into a single large machine with two tapes (input and output) 89-680
English Derivation • Much more complex than inflectional • As an example, consider adjectives • Big, bigger, biggest • Cool, cooler, coolest, coolly • Red, redder, reddest • Clear, clearer, clearest, clearly, unclear, unclearly • Happy, happier, happiest, happily • Unhappy, unhappier, unhappiest, unhappily • Real, unreal, silly 89-680
English Adjective Derivation 89-680
What’s wrong? • Accepts all adjectives above, but • Also accepts unbig, readly, realest • Common problem: over generation • Solution? • Need classes of roots that say which can occur with which suffixes 89-680
Revised FSA 89-680
Stemming • Lexicon Free • The stem is not the same as the morphological root (it is not necessarily a lexical item!) • In IR • the key is to acquire the stems, not to make any real use of morphological structure, hence the term • Small performance improvements in practice (if any!!!) • with larger documents, less needed • Introduces errors: e.g. organization organ 89-680
Porter Stemmer • Example Rules: • Step 1a • SSES -> SS (caresses caress) • IES -> I (ponies poni, ties ti) • SS -> SS (caress caress) • S (cats cat) • Step 1b • (m>0) EED EE (feed feed, agreed agree) • (*v*) ED (plastered plaster, bled bled) (*v*) ING (motoring motor, sing sing) 89-680
Porter Algoritm • Step 2 • (m>0) ATIONAL -> ATE relational -> relate • (m>0) TIONAL -> TION conditional -> condition • (m>0) ENCI -> ENCE valenci -> valence • (m>0) ANCI -> ANCE hesitanci -> hesitance • (m>0) IZER -> IZE digitizer -> digitize • (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical • (m>0) ENTLI -> ENT differentli -> different • Etc… 89-680
Human Morphological Processing • How are multi-morphemic words represented in the minds of human speakers? • full-listing hypothesis vs. minimum redundancy hypothesis 89-680
Experiments • Stanners et al. 1979: a word is recognized faster if it has been seen before (priming) • lifting lift, burned burn • selective / select • i.e. different representations for inflection and derivation. • Marsen-Wilson et al. 1994: spoken derived words can prime their stems, but only if their meaning is close: • government govern, • department / depart 89-680
Some more on Words • Type vs. token • Word senses • How many words are there in the following sentence: “If she is right and I am wrong then we are way over to the right of where we ought to be.” • Zipfs Law: f 1/r 89-680
Summary • והמשפחה: 3 מילים • סוכריות:מורפולוגיה • גזירה: סוכר סוכריה • הטיה: סוכריה סוכריות,אכלנו • ניתן למדל מורפולוגיה ע"י FST • Stemming 89-680
Homework 89-680