1 / 19

Modelos

Modelos de Texto Estructurado M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea. Algebraic. Set Theoretic. Generalized Vector Lat. Semantic Index Neural Networks. Structured Models. Fuzzy Extended Boolean. Non-Overlapping Lists Proximal Nodes.

ravi
Télécharger la présentation

Modelos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modelos de Texto Estructurado M.Andrea Rodríguez TastetsDIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea

  2. Algebraic Set Theoretic Generalized Vector Lat. Semantic Index Neural Networks Structured Models Fuzzy Extended Boolean Non-Overlapping Lists Proximal Nodes Classic Models Probabilistic boolean vector probabilistic Inference Network Belief Network Browsing Flat Structure Guided Hypertext Modelos U s e r T a s k Retrieval: Adhoc Filtering Browsing

  3. Introducción • Respuesta a consultas basadas en palabras claves considera que los documentos son planos, i.e., una palabra en el título tiene el mismo peso que una palabra en el cuerpo del documento. • La estructura de los documentos es una pieza adicional de información de la cual se puede obtener ventaja. • Por ejemplo, palabras en el título y subtítulo pueden tener un peso mayor.

  4. Introducción • Considere la siguiente necesidad de información: • Retrieve all documents which contain a page in which the string “atomic holocaust” appears in italic in the text surrounding a Figure whose label contains the word earth • La consulta correspondiente puede ser: • same-page( near(“atomic holocaust”, Figure( label( “earth” ))))

  5. Definición Básica • Match point: la posición en el texto de una secuencia de palabras que iguala la consulta: • Consulta: “atomic holocaust in Hiroshima” • Doc dj: contiene 3 líneas con este string • Entonces, doc dj contiene 3 match points • Region: una porción contigua del texto • Node: un componente estructural del texto tal como un capítulo, sección, etc..

  6. Listas No sobrepuestas • Basado en Burkowski, 1992. • Idea: divide el texto en regiones no superpuestas las cuales son coleccionadas en una lista • Existen muchas formas de dividir el texto en partes no superpuestas que producen múltiples listas: • una lista de capítulos • una lista de secciones • una lista de subsecciones • Regiones de texto desde listas pueden superponerse

  7. Listas No sobrepuestas L0 Capítulo L1 Sección L2 Subsección L3

  8. Listas No sobrepuestas • Implementación: • archivo invertido simple que combina texto y regiones de texto • cada entrada de este archivo invertido está asociada a la lista de regiones de texto • listas de regiones de texto pueden mezclarse con listas de palabras claves

  9. Listas No sobrepuestas • Regiones no se sobreponen, lo cual limita las consultas que se pueden preguntar • Tipos de consultas: • seleccione una región que contenga una palabra dada • seleccione una región A que no contenga una región B (regiones A y B pertenecen a distintas listas) • seleccione una región que no esté contenida en ninguna otra región

  10. Conclusiones • El modelo de listas no superpuestas es simple y permite implementaciones eficientes • Pero, permite un conjunto limitado de tipos de consultas • El modelo no incluye ninguna herramienta para ranking de documentos por grado de similaridad a la consulta • Qué significa similaridad estructural?

  11. Nodos Proximales • Basado en Navarro and Baeza-Yates, 1997 • Idea: definir estructuras de indexación jerárquicas independientes sobre el mismo texto. • Cada una de estas jerarquías está compuesta de capítulos, secciones, párrafos,etc.. • Múltiples jerarquías pueden ser definidos • Dos jerarquías pueden referirse a regiones que se sobreponen

  12. Definiciones • Cada estructura de indexación está compuesta de • capítulos • secciones • subsecciones • párrafos • líneas • Cada uno de estos componentes es llamado nodo • Cada nodo está asociado a una región de texto

  13. Nodos Proximales Capítulo Secciones Subsecciones Subsubsecciones holocaust 10 256 48,324

  14. Nodos Proximales • Puntos claves: • En el índice jerárquico, un nodo puede estar contenido dentro de otro nodo • Pero, dos nodos de una misma jerárquica no se sobreponen • La lista invertida por palabras claves complementa el índice jerárquico • La implementación es más compleja que la de lista no superpuestas

  15. Nodos Proximales • Consultas son expresiones regulares: • búsqueda por strings • referencias a componentes estructurales • combinación de esto • El modelo es una compromiso entre expresividad y eficiencia • Consultas son simples pero pueden ser procesadas eficientemente • Es un model más expresivo que las lista no superpuestas

  16. Nodos Proximales • Consulta: encuentre las secciones, las subsecciones y las subsubsecciones que contengan la palabra “holocaust” • [(*section) with (“holocaust”)] • Procesamiento de consulta simple: • Atraviese la lista invertida por “holocaust” y determine todos los puntos de igualdad (match points) • Use los match points para buscar en el índice jerárquico por los componentes estructurales

  17. Nodos Proximales • Consulta: [(*section) with (“holocaust”)] • Procesamiento de consulta sofisticado: • obtenga la primera entrada en la lista invertida por “holocaust” • use este match point para buscar en el índice jerárquico por los componentes estructurales • El componente de matching más interno: uno más pequeño • Evaluar si el componente más interno incluye la segunda entrada en la lista invertida por “holocaust” • Si es así, evaluar la tercera entrada y así sucesivamente • Esto permite evaluar eficientemente los nodos cercanos (o proximales)

  18. Conclusiones • El modelo permite la formulación de consultas que son más sofisticadas de las permitidas por el modelo de listas no superpuestas • Para acelerar el procesamiento de consulta, nodos cercanos son inspeccionados • Tipos de consultas que son consultadas pueden estar limitadas (todos los nodos en la respuesta deben venir de la misma jerarquía de índice) • El modelo refleja un compromiso entre expresividad y eficiencia

  19. Modelo de Browsing • Exploración de documentos • Tipos de browsing: • flat: se explora un espacio plano (ej. espacio de documentos como puntos en un espacio n-dimensional) • Guiado por estructura: directorios que agrupan jerárquicamente documentos. • Hypertext: es una estructura de navegación interactiva de alto nivel. Consiste de nodos los cuales están correlacionados por enlaces dirigidos en una estructura de grafo.

More Related