1 / 47

Análisis Morfológico

Análisis Morfológico. Introducción Morfología Análisis morfológico Uso de técnicas de estados finitos en morfología Aprendizaje automático de la morfología de una lengua. Morfología 1. Morfología Funciones Flexión Derivación Composición Resultado categorización morfosintáctica

linus
Télécharger la présentation

Análisis Morfológico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis Morfológico • Introducción • Morfología • Análisis morfológico • Uso de técnicas de estados finitos en morfología • Aprendizaje automático de la morfología de una lengua

  2. Morfología 1 • Morfología • Funciones • Flexión • Derivación • Composición • Resultado • categorización morfosintáctica • Ej. categorías Parole • Ej. Penn Treebank tagset • rasgos morfológicos • Problemas • alteraciones fonológicas • morfotáctica ej. VMIP1S0 ej. VBD

  3. Morfología 2 • Problemas • sufijos flexivos  sufijos derivativos • la derivación implica a veces cambio semántico que además no es siempre predecible • ej. extensiones de significado • reglas léxicas • Un sufijo derivativo puede ir seguido de su flexión • amar => amante => amantes • La flexión no cambia la categoría gramatical, la derivación a veces si • La flexión afecta a otras palabras de la oración • concordancia

  4. Morfología, Modelos Computacionales • Funciones • Flexión, Derivación, Composición • Morfotáctica • Reglas de formación de palabras • Combinaciones posibles entre morfemas • Encadenamiento simple • modelos complejos raiz/patrón • Regularidad y cercanía dependientes de la lengua • Alteraciones fonológicas (Morfofonología) • cambios al unir los morfemas • origen: fonología, morfología, ortografía • variables en número y complejidad • p.ej. armonía vocálica

  5. Morfemas • 1 morfema: • evitar • 2 morfemas: • evitable = evitar + able • 3 morfemas: • inevitable = in + evitar + able • 4 morfemas: • inevitabilidad = in + evitar + able + idad

  6. Morfología Flexiva • número • house houses • cheval chevaux • casa casas • tiempo verbal • walk walkes walked walking • amo amas aman ... • género • niño niña

  7. Morfología Derivativa • Forma de la derivación • sin cambio barcelonés • prefijación inevitable • sufijación importantísimo • infijación • Origen • verbo => adjetivo tardar => tardío • verbo => nombre sufrir => sufrimiento • nombre => nombre actor => actorazo • nombre => adjetivo atleta => atlético • adjetivo => adjetivo rojo => rojizo • adjetivo => adverbio alegre => alegremente

  8. Morfología Derivativa vs Flexiva • sufijos flexivos <> sufijos derivativos • la derivación implica a veces cambio semántico que además no es siempre predecible • ej. extensiones de significado • reglas léxicas • Un sufijo derivativo puede ir seguido de su flexión • amar => amante => amantes • La flexión no cambia la categoría gramatical • La flexión afecta a otras palabras de la oración

  9. Análisis morfológico 1 • Tipos de analizadores morfológicos • formarios • eficiencia • poca variación (ej. inglés) • extensibilidad • construcción a partir de un generador morfológico • lenguas muy flexivas • derivación, composición • técnicas de estados finitos • autómatas • analizadores de un nivel • transductores • analizadores de dos o más niveles Maco+ Atserias et al, 1998 Roche,Schabes, 1997 Kornai, 1999 Martí, 1988 Koskenniemi, 1983 Sproat, 1993

  10. Modelos de cómputo 1 • Mezcla de conocimiento lingüístico y procedimental • Sistemas automáticos. Multilingüismo. Corpus • Problema de la eficiencia • Problema de la sobregeneración

  11. Modelos de cómputo 2 • Criterios de clasificación • Poder descriptivo • Flexión, Derivación, Composición • Análisis y Generación • Enfoque • Basados en léxico • Basados en paradigma (Calder,89) • Tratamiento de la morfotáctica • Estados Finitos • Unificación • Tratamiento de la morfofonología • Estados Finitos • Métodos ad-hoc • Elementos del léxico • Morfemas • Segmentos de palabra

  12. Morfología un nivel Sistema AMCAS (Marti,89) RV1 RV RNA1 START RNA F RGN INFIJ

  13. SISTEMA AMCAS 1 DICCIONARIO RAICES DICCIONARIO SUFIJOS MODELOS SUFIJO MODELOS RAIZ REGLAS TEXTO ENTRADA ANALIZADOR MORFOLOGICO ESTADOS TEXTO ETIQUETADO AUTOMATA

  14. DICCIONARIO DE RAICES (FRAGMENTO) RAIZ MODELO PROPIEDADES DIVISIBLE "d" D (("B1" "DORW")("TVM" "VI") ("SEM" "DECIR-1")) nil "de" PREP () nil "del" PREP () nil "deposit" AM (("TGN" "OM") ("BL" "&3")) nil "dese" AM (("TGN" "OM") ("B1" "OSOJ") ("TVM" "VI")) nil "dich" HECH (("TGN" "OM") ("CONJ" "3")) nil "dich" DETN (("DET" "DEM")) nil "dich" PRON (("PRN" "DEM") ) nil "diner" NOM ("B1" "DAF") ("B2" "ALM") ("SEM" "DINERO-1")) nil "directori" NOM () nil SISTEMA AMCAS 2

  15. DICCIONARIO DE SUFIJOS (FRAGMENTO) SUFIJO MODELO PROPIEDADES DIVISIBLE "a" AASAM (("NUM" "SG")) nil "a AASFEM (("NUM" "SG")) nil "a" GAF (("GEN" "FEM")("NUM" "SG")) nil "a" GAM (("NUM" "SG")) nil "a" GBAJ (("GEN" "FEM")("NUM" "SG")) nil "a" GBAW (("GEN" "FEM")("NUM" "SG")) nil "a" GN1 (("GEN" "FEM")("NUM" "SG")) nil "a" GOAJ (("GEN" "FEM")("NUM" "SG")) nil "a" IMP (("NUM" "SG")("PERS" "2")) nil "a" IPO (("NUM" "SG")("PERS" "3")) nil "a" SP2 (("NUM" "SG")("PERS" "1/3")) nil "aba" IMA (("PERS" "1")("NUM" "SG")) nil "lo" PROE (("ENCL" "LO")("BL" "&1")) nil "me" PROE (("BL" "&1")) nil "&" GBF&1 (("NUM" "SG")) nil "&" GBM&1 (("NUM" "SG")) nil SISTEMA AMCAS 3

  16. SISTEMA AMCAS 4 DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO) MODELO PROPIEDADES CSS (("CAT" "CONJ") ("TCON" "CSS") ("BL" "SI")) D (("CAT" "VERB") ("TV" "D")) DETD1 (("CAT" "DET") ("PERS" "1") ("TGN" "EAO") ("BL" "SI") ("DET" "DEM"))

  17. DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO) MODELO PROPIEDADES AASAM (("GEN" "AMBI")) AASFEM (("GEN" "FEM") ("CAT" "ADJ")) GAF (("CAT" "NOM") ("GEN" "FEM")) GAM (("CAT" "NOM") ("GEN" "MASC")) GBAJ (("CAT" "ADJ")) GBAW (("CAT" "ADJ")) GN1 () GOAJ (("CAT" "ADJ")) IMP (("CAT" "VERB") ("TEMP" "PRES") ("PROE" "SI") ("MODO" "IMP")) IPO (("CAT" "VERB") ("TEMP" "PRES") ("BL" "SI") ("MODO" "IND")) PROE () SP2 (("CAT" "VERB") ("TEMP" "PRES") ("MODO" "SUBJ")) & () SISTEMA AMCAS 5

  18. SISTEMA AMCAS 6 DICCIONARIO DE REGLAS (FRAGMENTO) EST_INI EST_FIN MODELO CONDICIONES RNA1 RGN OOSMAS (("TGN" "OAJ")) RV F BL (("BL" "SI")) RV F & (("BL" "&1")) RV RV PROE (("PROE" "SI")) RV1 INFIJ CC (("U" "CCVD")) RV1 RGN AASFEM (("T1" "OAJ")) RV1 RGN GAF (("T1" "AF")("TGN" "AF")) RV1 RGN GAM (("TGN" "AM")) RV1 RGN GOAJ (("B1" "TOJ")) RV1 RV IMP (("TV" "R")("TV" "ACUE) ("TV" "ADC") ("TV" "ADZ")("TV" "D")) RV1 RV IPO (("TV" "PONG")("TV" "R")("TV" "HIZ") ("TV" "PUED")) RV1 RV SPB (("TV" "PONG")("TV" "SEP")("TV" "D")) START RV1 D ()

  19. Morfología de dos niveles 1 • Modelo general para lenguas con encadenamiento de morfemas • Independencia entre información lingüística y analizador • Válido para análisis y generación • Distinción entre nivel léxico y superficial • Reglas paralelas para expresar la morfofonología • Implementación simple • Elementos: Sistema léxico + Reglas

  20. Morfología de dos niveles 2 • Reglas morfológicas • Expresan las relaciones entre caracteres (superficie) y morfemas y permiten la descomposición de una cadena de caracteres en una estructura morfémica de la palabra • Reglas de deletreo (spelling rules) • Trabajan a nivel de las letras que constituyen la palabra • Reglas gramática de la palabra (word grammar rule) • Permiten definir la composición entre morfemas en términos de abstracciones sobre las propiedades de éstos, al margen de su realización léxica • Ritchie,Pulman,Black,Russell,87

  21. reglas gramática de la palabra 1 Caracterizan la morfología abstrayendo de los detalles de las cadenas concretas Secuencias correctas de morfemas Concatenaciones válidas Categoría sintáctica de la palabra resultante Categoría (de una palabra, morfema o fragmento) es un conjunto de pares <atributo, valor> Ej. (GPSG): plural noun == ((N +) (V -) (PLU +) (BAR 0))

  22. reglas gramática de la palabra 2 alias noun = ((N +) (V -) (BAR 0)) alias verb = ((N -) (V +) (BAR 0)) alias adj = ((N +) (V +) (BAR 0)) variable C = {noun, adj} regla del plural: (C (PLU + )) --> (C (PLU - )), ((PLU +)) gatos ((N +) (V -) (PLU +) (BAR 0)) lexicón : gato => (noun (PLU -)) ... s => ((PLU +)) ...

  23. reglas gramática de la palabra 3 regla de prefijación: ((BAR 0)) --> ((FIX PRE)), ((BAR 0)). regla de sufijación: ((BAR 0) (N +)) --> ((BAR 0)), ((N +) (FIX SUF)). regla de sufijación verbal: ((N -) (V +) (AUX VAL) (BAR 0)) --> ((AUX VAL) (BAR 0)), ((FIX SUF) (N -) (V +)).

  24. Input Output cat cat + N + sg cats cat + N + pl cities city + N + pl merging merge + V + pres_part caught (catch + V + past) or (catch + V + past_part) Análisis morfológico con FSA • Entrada: • forma • Salida • lema + rasgos morfológicos

  25. Elementos del analizador • Lexicon de morfemas • raiz (stem) + afijos • Morfotáctica • qué combinaciones de morfemas son válidas • cats = cat + s • Alteraciones fonológicas • Reglas ortográficas (spelling rules): cambios al producirse la combinación • city + s = cities

  26. reg_noun irreg_pl_noun irreg_sg_noun plural fox sheep sheep -s cat mice mouse dog plural (-s) reg_noun 2 0 1 irreg_pl_noun irreg_sg_noun Ejemplo: flexión nominal en inglés morfotáctica

  27. o f x a c t s o g d  y n e m e e o s u i c Integración de lexicón y morfotáctica fog cat dog donkey mouse mice LetterTransducers

  28. Morfología de dos niveles upper level léxico cat + N cat + N + pl lower level superficie cat cats c:c a:a t:t +N: +pl:s

  29. Utilización de un FST 1 • Como reconocedor • recibe dos cadenas de entrada (una léxica y una superficial) y responde cierto o falso según una sea transducción de la otra • Como generador • genera pares de cadenas • Como traductor • recibe una cadena superficial y genera su transducción léxica

  30. Utilización de un FST 2 • Simplificaciones notacionales • default pairs • a:a • morpheme separator ^ • end of word # • default correspondence pairs • feasible pairs • default correspondences + explicit correspondences in the rules • any @ a b c … z ‘ ^ # a b c … z ‘  

  31. reg_noun irreg_pl_noun irreg_sg_noun plural fox sheep sheep s cat m o:i u: ce mouse dog g o:e o:e se goose reg_noun +pl:s +N: 0 1 4 2 irreg_sg_noun +sg: +N: 2 5 +sg: irreg_pl_noun +N: +pl: 3 6 Transductor con rasgos morfológicos

  32. nivel léxico f o x +N +pl nivel intermedio f o x ^ s nivel superficial f o x e s Integración de morfotáctica y variación fonológica morfotáctica spelling rules

  33. o f x a c t +pl:^s +N: o g d +sg: y n e m e +sg: o s u e +pl: o:i +N: c +u: e +N: Integración de lexicón y morfotáctica fog cat dog donkey mouse mice

  34. name description example consonant doubling single letter consonant beg/begging doubled before -ing/-ed e deletion silent e dropped before -ing/-ed make/making e insertion e added after -s,-z,-x,-ch,-sh before -s watch/watches y replacement -y changes to -ie before -s, to i before -ed try/tries k insertion verbs ending with voyel +c add -k panic/panicked spelling rules

  35. Reglas de dos niveles • a:b  Contexto_izquierdo ___ Contexto_derecho • el item léxico a debe corresponder al item superficial b cuando se encuentra en el contexto • a:b  Contexto_izquierdo ___ Contexto_derecho • el item léxico a sólo puede corresponder al item superficial b cuando se encuentra en el contexto • a:b  Contexto_izquierdo ___ Contexto_derecho • el item léxico a debe corresponder al item superficial b cuando se encuentra en el contexto y sólo entonces • a:b / Contexto_izquierdo ___ Contexto_derecho • el item léxico a no puede corresponder al item superficial b cuando se encuentra en el contexto correspondencia operador contextos

  36. ejemplo e-insertion :e  [xsz]^: ___ s#  descomposición / :e [xsz]^: ___ s# : / [xsz]^: ___ s#

  37. Reglas de deletreo (spelling) 1 epenthesis + : e <=> {< {s:s c:c} h:h> s:s x:x z:z} --- s:s contexto <=> => context restriction <= surface coercion C: {...} V: {a,e,i,o,u,y} C2: {...} =: cualquiera ejemplo: box + s box e s

  38. Reglas de deletreo 2 e-deletion e : 0 <=> = :C2 --- <+:0 V:= > or <C:C V:V> --- < +:0 e:e > or <c:c g:g> --- < +:0 {e:e i:i} > or l:0 --- +:0 or c:c --- < +:0 a:0 t:t b:b> mov e + ed mov ed agre e + ed agre ed

  39. Reglas de deletreo 3 a-deletion a : 0 <=> <c:c e:0 +:0> --- t:t redu c e + a t ion redu c t ion ... contexto izdo foco contexto ... dcho

  40. estado\input s:s x:x z:z ^: #: :e @:@ 0 1 1 1 0 _ 0 0 1 1 1 1 2 _ 0 0 2 1 1 1 0 3 0 0 3 4 _ _ _ _ _ _ 4 _ _ _ _ _ 0 _ #:# @:@ #:# z:z s:s x:x s:s :s ^: 4 3 2 1 0 z:z s:s x:x z:z s:s x:x ^: @:@ #:# @:@ #:# Transductor :e [xsz]^: ___ s#

  41. estado\input s:s x:x z:z ^: #:# @:@ 0 1 1 1 0 0 0 1 1 1 1 2 0 0 2 3 1 1 0 0 0 3 1 1 1 0 _ 0 @:@ ^: @:@ #:# ^: z:z s:s x:x s:s ^: 3 2 1 0 z:z s:s x:x z:z x:x z:z s:s x:x ^: @:@ #:# @:@ #:# Transductor :e /[xsz]^: ___ s#

  42. nivel léxico f o x +N +pl nivel intermedio f o x ^ s nivel superficial f o x e s Integración de morfotáctica y variación fonológica Lexicon-FST FST1 FST2 FSTn spelling rules ...

  43. Intersección y composición de FST Lexicon-FST Lexicon-FST Lexicon-FST • FSTA FST1 ... FSTn FSTA= FST1  ...  FSTn composición intersección

  44. Aprendizaje automático de la morfología 1 • Problema • Paradigma raiz + afijos • Obtención de las raices • Clasificación de las raices en modelos • Dos aproximaciones • Sin utilizar conocimiento morfológico alguno • Goldsmith, 2001 • Brent, 1999 • Snover, Brent, 2001, 2002 • Cuando se dispone de conocimiento morfológico • Oliver at al, 2002

  45. Aprendizaje automático de la morfología 2 • Análisis morfológico automático • Identificación de fronteras entre morfemas • Zellig Harris • {prefix, suffix} conditional entropy • bigrams y trigrams con alta probabilidad de constituir un morfema • descubrimiento de patrones o reglas de correspondencia entre pares de palabras • Aproximación global (top-down) • Golsdmith, Brent, de Marcken

  46. Aprendizaje automático de la morfología 3 • Sistema de Goldsmith basado en MDL (Minimum Description Length) • Partición inicial: palabra -> raiz + sufijo • split-all-words • Un buen candidato a {raiz, sufijo} en una palabra lo es también en (muchas) otras palabras • MI (mutual information) strategy • Convergencia más rápida • Obtención de Signatures • Regular {signatures, stem, suffixes} • Más de una raiz, más de un sufijo • MDL

  47. Aprendizaje automático de la morfología 4 • Análisis morfológico semi-automático • Oliver, 2004 • Parte de un paquete de reglas morfológicas escritas a mano • TL:TF:Desc • terminación del lema • terminación de la forma • categoría morfológica • Lista de clases no flexivas, clases cerradas y palabras irregulares • Corpus • serbo-croata 9 Mw • ruso 16 Mw

More Related