200 likes | 853 Vues
La estructura de la oración. Sintaxix Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica. ¿Qué es la sintaxis?. Cómo se agrupan las palabras
E N D
La estructura de la oración Sintaxix Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica
¿Qué es la sintaxis? • Cómo se agrupan las palabras • Una gramática enlista los principios bajo los cuales se agrupan las palabras, es el conjunto de reglas que describe que es válido en un lenguaje • Gramáticas clásicas: • Pensadas para gente que conoce el lenguaje • Definiciones y reglas soportadas sólo por ejemplos • Gramáticas explícitas: • Descripción formal • Programables y validadas sobre datos
¿Para qué la sintaxis? • Cómo se relacionan las palabras en una oración • Formalizar las relaciones entre las palabras de una oración es el primer paso para entender su contenido
Sintaxis • Entrada: • Secuencia de pares (lema, tags) • Salida: • Estructura de la frase (árbol sintáctico) con nodos anotados (lema, tags, función) • Estudia: • La relación de lemas y categorías morfológicas con estructuras de frase • Puede usar categorías sintácticas como sujeto, verbo, objeto, etc. • Por ejemplo: • (yo/PT1PS) ví/VP1PS un/DI perro/NCS • ( (yo)FN ( (ví)V ((un)DET (perro)N)FN )FV )S
En busca de un formalismo Actualmente existen dos enfoques: • Restringir las teorías derivadas de las gramáticas dependientes del contexto • Extender las teorías derivadas de las gramáticas independientes del contexto En cualquiera de los dos casos: • el trabajo en la búsqueda de una teoría gramatical pertinente proveerá elementos para una comprensión indirecta sobre la naturaleza y organización del aparato cognitivo humano
Sin embargo… • Sólo estamos interesados de manera secundaria en la búsqueda de explicaciones sobre cómo el ser humano “entiende” el lenguaje • Nuestro principal objetivo es que las computadoras realicen tareas útiles e interesantes involucrando el lenguaje humano.
Formalizando el lenguaje Tres ideas principales • Constituyentes • Un grupo de palabras que actúan como una unidad • El gato escandaloso es mío • Ayer murió el gato escandaloso • Relaciones gramaticales • Formalización de la ideas de la gramática tradicional • Sujeto; Objetos • El gato escandaloso durmió en el tejado • Subcategorización y relaciones de dependencia • El verbo querer es seguido de verbos en indicativo • El verbo encontrar todo lo contrario • Pertenecen a distintas subcategorías
Constituyentes • Muchos tipos de constituyentes • Frase nominal / grupo nominal • Cómo lo reconocemos, qué palabras lo forman: • Antecede al verbo • Describe un referente • El constituyente puede colocarse como un todo en diferentes lugares en la oración, no sus palabras • El gato come en el patio • En le patio come el gato • Come el gato en el patio • *Come gato en el patio el
Modelando la estructura • Usando las gramáticas libres de contexto (Phrase-Structure Grammars) • Tenemos un conjunto de reglas o producciones • Describen las maneras de cómo los símbolos del lenguaje pueden agruparse • Y un lexicón de palabras y símbolos • Son los elementos básicos, las piezas a partir de las cuales se construyen las expresiones del lenguaje
Reglas para FN • Una frase nominal puede formarse • a partir de un artículo y un nominal • o de un nombre propio • y un nominal puede formarse de un nombre con o sin adjetivo
Reglas para FN FN → Artículo Nominal FN → NombrePropio Nominal → Nombre | Nombre Adjetivo • Las reglas pueden establecerse jerárquicamente de manera que podemos incluir por ejemplo las reglas que nos relacionan con el lexicón: Artículo → un Artículo → el • Símbolos terminales y no-terminales • Una regla determina un orden de uno o más terminales o no-terminales
Ejemplo • Gramática para expresiones matemáticas
CFG • Entonces una frase puede ser derivada a partir del no-terminal FN • Una CFG puede ser usada para generar frases cualesquiera • Una secuencia de reescritura es llamada una derivación • Una derivación puede ser representada gráficamente a través de un árbol sintáctico (parse tree) • Una CFG cuenta con un símbolo inicial
Ejemplos de componentes principales • FN - NP (noun phrase) • S (sentence) • VP (verb phrase) • PP (prepositional phrase)
S NP VP Verb PP Mi hermano comió una manzana Ejemplo Verb comió VP Verb NP S NP VP
3 vistas de una regla • generación (producción): S NP VP • parsing (análisis): S NP VP • verificación: S = NP VP • Hasta aquí el mecanismo es muy sencillo es necesario enriquecer las reglas con características para capturar las relaciones entre los constituyentes: S[features…] = NP[features…] VP[features…]
Extendiendo las CFGs • A través de características incluímos las ideas de relaciones gramaticales y subcategorización Morfologíade la palabra: Verbo[head=comer, tense=pasado, num=sing, person=3,…] comió Proyecciónde características a constituyentes superiores VP[head=, tense=, num=…] V[head=, tense=, num=…] NP Concordancia entre constituyentes hermanos: S[head=, tense=] NP[num=,…] VP[head=, tense=, num=…]
num=sing num=sing num=sing comió Generando una frase Verb[head=comer, tense=presente, num=sing, person=3,…] comió VP[head=, tense=, num=…] V[head=, tense=, num=…] NP S[head=, tense=] NP[num=,…] VP[head=, tense=, num=…] S NP VP Verb NP Mi hermano comío una manzana
num=sing num=sing comió Analizando una frase Verb[head=comer, tense=presente, num=sing, person=3,…] comió VP[head=, tense=, num=…] V[head=, tense=, num=…] NP S[head=, tense=] NP[num=,…] VP[head=, tense=, num=…] S NP VP Verb NP Mi hermano comío una manzana
ha él ido • Infinidad de características(tense, number, person, gaps, vowels, commas, wh, etc., etc....)