Aplicaciones del PLN

Aplicaciones del PLN • Traducción Automática • Recuperación de la Información • Information Retrieval (IR) • Búsqueda de la • Question Answering (Q&A) • Resumen automático • Clasificación de documentos

Traducción Automática 1 • Proceso de pasar un texto en una lengua fuente a uno en una lengua objetivo preservando una serie de propiedades • la principal es el significado • TA textual vs oral • TA vs Traducción asistida • MAHT, HAMT • Historia de la TA

Traducción Automática 2 • Algunas lecturas introductorias • Generales • Juan Alberto Alonso (2000) La Traducció automàtica capítulo 4 de Les tecnologies del llenguatge, M.A.Martí (ed) UOC • Joseba Abaitua (1997) • http://www.uvigo.es/webs/sli/paxinas/abaitua.html • TA estocástica • Kevin Knight (1999) • http://www.isi.edu/natural-language/people/knight.html • Horacio Rodriguez (2001) Técnicas estadísticas para la TA • http://www.lsi.upc.es/~horacio/doctorat/tapln/StochasticMT.zip • Otras fuentes • http://www.clsp.jhu.edu/ws99/projects/mt/ • http://www.iti.upv.es/~fcn/ • http://www.iti.upv.es/~prhlt/

Traducción Automática 3 • Aproximaciones básicas • Sistemas de traducción directa • Sistemas basados en transfer • Sistemas basados en Interlingua • Memorias de traducción • Sistemas probabilísticos vs simbólicos

Traducción Automática 4 Interlingua E. Semántica E. Semántica transfer semántico E. Sintáctica E. Sintáctica transfer sintáctico E. Léxica E. Léxica traducción directa Texto fuente Texto objetivo

Traducción Automática 5 • Recorrido histórico • 1940's nacimiento (Weaver & Booth, GAT, CETA, ...) • 1950's investigación activa (Systran, Metal, ...) • 1966 Informe ALPAC • hasta 1975 travesía del desierto • 1975 hasta 1985 resurgencia (Europa y Japón) • Eurotra, Atlas, • 1985 recuperación gradual

Traducción Automática 6 • Razones de la recuperación • Necesidad • Cambio (humilde!!) en las expectativas • Potencia de computación • WWW • Desarrollo de la LC • Sistemas estadísticos e híbridos

Traducción Automática Estadística • Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f). Modelodellenguaje objetivo Modelo de la traducción

Noisy Channel Model 1 e f ê Noisy Channel Decoder • Problemas • obtención de los modelos • P(f|e) • P(e) • búsqueda de ê (decoder)

Noisy Channel Model 2 • P(f|e) • Asegura una "buena" traducción de las palabras del texto • P(e) • Asegura una "buena" gramaticalidad del texto en la lengua objetivo

Proceso de Traducción f' Lexicon Model Transformación Alignment Model f Language Model Decoder e Transformación e'

Modelos estadísticos del lenguaje • Modelos estadísticos • Modelos del lenguaje (LM) • Vocabulario (V), palabra • w  V • Lenguaje (L), oración • s  L • L  V* normalmente infinito • s = w1,…wN • Probabilidad de s • P(s)

Implementación de LM • Implementación intuitiva • Enumerar s  L • Calcular las p(s) • Parámetros del modelo |L| • Simplificaciones • historia • hi = { wi, … wi-1} • Modelos de Markov

Modelo de traducción 1 • P(f|e) • fuente: f = f1f2...fm • objetivo: e = e1e2…el • alineamiento: a = a1a2…am • en general • a  {1,…,m}  {1,…,l} • se suele tomar • a: {1,…,m}  {0,…,l} • a(j)  0 a fj le corresponde ea(j) • a(j) = 0 fj no está alineada • A(f,e) es el conjunto de alineamientos posibles • existen 2lm alineamientos

Modelo de traducción 2 • Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables) • Modelos clásicos de traducción • IBM 1: sólo probabilidades léxicas • IBM 2: + posición • IBM 3: + fertilidad • ...

Alineamientos 1 and the program has been implemented 1 2 3 4 5 6 le programme a été mis en application 1 2 3 4 5 6 7

Alineamientos 2 the balance was the territory of the aboriginal people 1 2 3 4 5 6 7 8 9 le reste appartenait aux autochtones 1 2 3 4 5

Alineamientos 3 the poor don't have any money 1 2 3 4 5 6 les pauvres sont demunis 1 2 3 4

Alineamientos 4 NULL Mary did not slap the green witch 0 1 2 3 4 5 6 7 Mary no dió una bofetada a la bruja verde 1 2 3 4 5 6 7 8 9 alineamiento: [1, 3, 4, 4, 4, 0, 5, 7, 6]

Alineamientos 5 x x x x x x x x witch green the slap not did Mary Mary no dió una bofetada a la bruja verde 1 2 3 4 5 6 7 8 9

Recuperación de la Información 1 La IR trata de la Representación, Almacenamiento, Organización y acceso a las Unidades de Información Textos (documentos) Hipertextos, Multimedia, ...

Componentes de un SRI (Oard,Dorr,96) {0,1} juicio humano: j espacio de las consultas: Q espacio de los documentos: D Consulta Documento q d representación 1 representación 2 espacio de representación: R función de comparación: c {0,1}

Sistema ideal c(q(cons), d(doc)) = j(cons, doc) cons Q doc D

Proceso de la Recuperación de Información texto consulta Interfaz de usuario texto Opeaciones textuales realimentación representación operaciones sobre la consulta Indexado consulta Gestor de BD Búsqueda Indices documentos recuperados documentos clasificados Base de textos Clasificación

Características de los SRI • Tipo de información almacenada • Texto, voz, información estructurada • Lenguaje de consulta • Exacto, ambiguo • Tipo de emparejamiento • Exacto, aproximado • Tipo de información deseada • Vaga, precisa • Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.

Operaciones sobre los documentos • Preproceso • análisis léxico, estandarización • formas no estándard, fechas, números, siglas, locuciones, lexías, ... • lematización • análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter • filtrado • Stopwords (diccionarios negativos) • Clasificación • manual • automática • clasificación • clustering • Compresión

Indexado • indexado manual vs automático • indicadores • objetivos: estructurales • subjetivos: textuales (de contenido) • indexado pre-coordinado vs post-coordinado • términos simples vs términos en contexto Modelo más corriente: Bag of simple words

Representación de los documentos • Modelos clásicos • texto completo • booleano • vectorial • probabilístico • Variantes evolucionadas del modelo probabilístico • Bayesiano • Redes de inferencia • Redes de creencia • paradigmas alternativos • Modelo vectorial generalizado • Modelo booleano extendido • Latent Semantic Indexing • Redes neuronales

Operaciones de consulta Modelo booleano simple Expresiones booleanas sobre términos que aparecen en el documento o palabras clave. Conectivos: AND, OR, NOT, paréntesis Extensiones: restricciones de distancia (nivel párrafo, nivel frase, adyacencia) ventana fija o variable Modelo booleano extendido: ponderación de términos: frecuencia del término en el documento, en la colección, normalización Expansión de las consultas uso de F.Conocimiento externas (ej. WN) extensión con sinónimos y/o hiperónimos truncado de términos generalización morfológica relevance feedback

Medidas de calidad de la recuperación recuperados = a + b relevantes = a + d recall (cobertura) = a / (a + d) precisión = a / (a + b) a recuperado b d recall = están todos los que son precisión= son todos los que están c relevante Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

Modelo booleano t1 t2 t3 ... ti ... tm d1 0 1 0 d2 1 0 1 0 d3 ... dj ... dn atributos: todos los términos (palabras, lemas, multipalabras, ...) que aparecen en la colección (excepto los stopwords) filas: cada documento representado por un vector de booleanos (1 si el término aparece en el documento, 0 en caso contrario). Hay n documentos columnas: cada término representado por un vector de booleanos. Hay m términos no es posible una respuesta ponderada no se tiene en cuenta ni frecuencia ni orden ni importancia de los términos

Modelo Vectorial 1 t1 t2 t3 ... ti ... tm d1 d2 d3 ... dj wij ... dn wij peso (relevancia) del término j en el documento i Forma más corriente de definir la relevancia tfij frecuencia del término tj en el documento di dfj # documentos en los que aparece tj idfj log (N / dfj ) wij = tfij *idfj

Modelo Vectorial 2 Otra forma dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad) dvj = Q - Qj Q densidad sin seleccionar el término tj N = # documentos Qj densidad seleccionando el término tj relevancia: wij = tfij *dvj

Modelo Vectorial 3 Otra forma C = centroide de la colección de documentos Q densidadrespecto al centroide C El cálculo de la relevancia es idéntico al caso anterior En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a una distancia

Medidas de similitud Medida de similitud Producto escalar Coeficiente de Dice Coseno Coeficiente de Jaccard Modelo booleano Modelo vectorial

IR y LN • Recursos de LN • Tareas de PLN • Indexado • palabras, raices, lemas, acepciones, multitérminos • , frases, … • problemas: • nombres propios • palabras desconocidas • unidades no estándar • polisemia • => Sólo levemente mejor que usar monotérminos (formas) • Recuperación • expansión de las consultas

CLIR • Cross Language Information Retrieval • Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas • Técnicas • Traducir los documentos • Traducir las consultas • Proyectar unos y otras a un espacio de indexado neutral • Limitaciones • Los textos de las consultas son más cortos que los documentos • El contexto (y la fiabilidad) al traducir la consulta es menor • Los errores de traducción son menos graves en los documentos

Aproximaciones a CLIR (Oard,97) CLIR Texto libre Vocabulario Controlado Basado en Corpus Basado en Conocimiento Corpus paralelos Corpus comparables Corpus monolingües Basado en Diccionarios Basado en Ontologías Alineación de documentos Alineación de oraciones Alineación de términos Basado en Tesauros

Sistemas de Q&A Un sistema de QA parte de una consulta expresada en lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho) Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN Question Answering 1

Algunos sistemas de QA accesibles a través de Internet: START http://www.ai.mit.edu/projects/infolab/globe.html IO search engine http://www.ionaut.com:8400/ Webclopedia http://www.isi.edu/natural-language/projects/webclopedia/ AskJeeves http://www.ask.com LCC http://www.languagecomputer.com/ Question Answering 2

Aparición en las competeciones del TREC a partir del TREC-8 (1999) Disciplinas relacionadas Recuperación de la información (obviamente) y disciplinas afines (I routing, filtering, harvesting, ...) Answer Finding Dada una base de preguntas y respuestas (como las habituales FAQ) se trata de localizar la (s) pregunta (s) más próximas a la planteada para devolver su (s) respuesta (s) FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/ Interfaces en LN a bases de datos Sistemas de Integración de información (InformationIntegration, II) Extracción de la Información (InformationExtraction, IE) Question Answering 3

Q&A, Qué leer • Horacio Rodriguez (2001) • http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip • Documentos de las conferencias TREC • TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html • TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html • TREC-10 http://trec.nist.gov/pubs/trec10/t10_proceedings.html http://www.isi.edu/natural-language/projects/webclopedia/ http://www.seas.smu.edu/~sanda/ http://www.cs.utexas.edu/users/sanda/ http://www.languagecomputer.com/ http://www.dlsi.ua.es/~vicedo/ http://www.dlsi.ua.es/~antonio/

Q&A en las evaluaciones del TREC Evaluación del TREC 9

Q&A en las evaluaciones del TREC y CLEF • Participación del grupo Talp (UPC) en • TREC 2003 • CLEF 2004 • TREC 2004

Q&A, Arquitectura básica 1 • Uso detécnicas de IR • utilizar las palabras de la pregunta como términos de una consulta y recuperar los documentos más relevantes de acuerdo a ella. • Extensiones de tipo heurístico para localizar la respuesta • Más adecuadas en la competición de 250 bytes • Pero ... • no todas las palabras de la pregunta son relevantes para buscar la respuesta • recuperar el documento relevante no concluye la tarea, hay que extraer de él la respuesta.

Q&A, Arquitectura básica 2 La mayoría de los sistemas de QA se organizan en 4 subtareas • Tratamiento de la pregunta • IR de los documentos relevantes • Segmentación en fragmentos, • IR de los fragmentos • Extracción de la respuesta.

Q&A, Arquitectura básica 3 Normalmente las cuatro tareas se abordan en secuencia • Tratamiento de la pregunta Términos relevantes Tipo de pregunta Foco ... • IR de los documentos • relevantes Documentos relevantes • Segmentación en fragmentos, • IR de los fragmentos fragmentos relevantes • Extracción de la respuesta. respuesta

Resumen Automático 1 • A summary is a reductive transformation of a source text into a summary text by extraction or generation • Sparck-Jones, 2001

Resumen Automático 2 • Localizar las partes de un texto que son relevantes (para las necesidades de un usuario) y producir un resumen de las mismas • Sum vs IE • IE • Se define a priori la estructura a extraer • “Sé lo que deseo, búscamelo” • Sum • No tiene por qué haber una definición previa de criterios de interés • “Qué hay aquí de interesante”

Resumen automático, Qué leer • Tutorial • E.Hovy, D. Marcu (1998) • Horacio Rodriguez (2001) Summarization • http://www.lsi.upc.es/~horacio/doctorat/tapln/Summarisation.zip

Aplicaciones del PLN

Aplicaciones del PLN

Presentation Transcript

PLN September SIG

APLICACIONES DEL ALGEBRA LINEAL

PLN Basics

Aplicaciones del Silicio

APLICACIONES

Seminari de Traducció Automàtica Aplicacions del PLN

Pertumbuhan PLN

The PLN Challenge

Aplicaciones del PLN

Aplicaciones medicinales del aloe vera

Aplicaciones del Cómputo Móvil

PLN Reflection

PLN Growth

PIIC/PLN Updates

Aplicaciones

PLN Knowledge Center

Cap. 5 Aplicaciones del condicionamiento operante

Aplicaciones del Big Data a la Inteligencia del Negocio

Aplicaciones DEL SISTEMA PORTUARIO ESPAÑOL

Aplicaciones del Modelo de Variograma

rec pln

"PLN" Me!