200 likes | 392 Vues
Modelos de Texto Estructurado M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea. Algebraic. Set Theoretic. Generalized Vector Lat. Semantic Index Neural Networks. Structured Models. Fuzzy Extended Boolean. Non-Overlapping Lists Proximal Nodes.
E N D
Modelos de Texto Estructurado M.Andrea Rodríguez TastetsDIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea
Algebraic Set Theoretic Generalized Vector Lat. Semantic Index Neural Networks Structured Models Fuzzy Extended Boolean Non-Overlapping Lists Proximal Nodes Classic Models Probabilistic boolean vector probabilistic Inference Network Belief Network Browsing Flat Structure Guided Hypertext Modelos U s e r T a s k Retrieval: Adhoc Filtering Browsing
Introducción • Respuesta a consultas basadas en palabras claves considera que los documentos son planos, i.e., una palabra en el título tiene el mismo peso que una palabra en el cuerpo del documento. • La estructura de los documentos es una pieza adicional de información de la cual se puede obtener ventaja. • Por ejemplo, palabras en el título y subtítulo pueden tener un peso mayor.
Introducción • Considere la siguiente necesidad de información: • Retrieve all documents which contain a page in which the string “atomic holocaust” appears in italic in the text surrounding a Figure whose label contains the word earth • La consulta correspondiente puede ser: • same-page( near(“atomic holocaust”, Figure( label( “earth” ))))
Definición Básica • Match point: la posición en el texto de una secuencia de palabras que iguala la consulta: • Consulta: “atomic holocaust in Hiroshima” • Doc dj: contiene 3 líneas con este string • Entonces, doc dj contiene 3 match points • Region: una porción contigua del texto • Node: un componente estructural del texto tal como un capítulo, sección, etc..
Listas No sobrepuestas • Basado en Burkowski, 1992. • Idea: divide el texto en regiones no superpuestas las cuales son coleccionadas en una lista • Existen muchas formas de dividir el texto en partes no superpuestas que producen múltiples listas: • una lista de capítulos • una lista de secciones • una lista de subsecciones • Regiones de texto desde listas pueden superponerse
Listas No sobrepuestas L0 Capítulo L1 Sección L2 Subsección L3
Listas No sobrepuestas • Implementación: • archivo invertido simple que combina texto y regiones de texto • cada entrada de este archivo invertido está asociada a la lista de regiones de texto • listas de regiones de texto pueden mezclarse con listas de palabras claves
Listas No sobrepuestas • Regiones no se sobreponen, lo cual limita las consultas que se pueden preguntar • Tipos de consultas: • seleccione una región que contenga una palabra dada • seleccione una región A que no contenga una región B (regiones A y B pertenecen a distintas listas) • seleccione una región que no esté contenida en ninguna otra región
Conclusiones • El modelo de listas no superpuestas es simple y permite implementaciones eficientes • Pero, permite un conjunto limitado de tipos de consultas • El modelo no incluye ninguna herramienta para ranking de documentos por grado de similaridad a la consulta • Qué significa similaridad estructural?
Nodos Proximales • Basado en Navarro and Baeza-Yates, 1997 • Idea: definir estructuras de indexación jerárquicas independientes sobre el mismo texto. • Cada una de estas jerarquías está compuesta de capítulos, secciones, párrafos,etc.. • Múltiples jerarquías pueden ser definidos • Dos jerarquías pueden referirse a regiones que se sobreponen
Definiciones • Cada estructura de indexación está compuesta de • capítulos • secciones • subsecciones • párrafos • líneas • Cada uno de estos componentes es llamado nodo • Cada nodo está asociado a una región de texto
Nodos Proximales Capítulo Secciones Subsecciones Subsubsecciones holocaust 10 256 48,324
Nodos Proximales • Puntos claves: • En el índice jerárquico, un nodo puede estar contenido dentro de otro nodo • Pero, dos nodos de una misma jerárquica no se sobreponen • La lista invertida por palabras claves complementa el índice jerárquico • La implementación es más compleja que la de lista no superpuestas
Nodos Proximales • Consultas son expresiones regulares: • búsqueda por strings • referencias a componentes estructurales • combinación de esto • El modelo es una compromiso entre expresividad y eficiencia • Consultas son simples pero pueden ser procesadas eficientemente • Es un model más expresivo que las lista no superpuestas
Nodos Proximales • Consulta: encuentre las secciones, las subsecciones y las subsubsecciones que contengan la palabra “holocaust” • [(*section) with (“holocaust”)] • Procesamiento de consulta simple: • Atraviese la lista invertida por “holocaust” y determine todos los puntos de igualdad (match points) • Use los match points para buscar en el índice jerárquico por los componentes estructurales
Nodos Proximales • Consulta: [(*section) with (“holocaust”)] • Procesamiento de consulta sofisticado: • obtenga la primera entrada en la lista invertida por “holocaust” • use este match point para buscar en el índice jerárquico por los componentes estructurales • El componente de matching más interno: uno más pequeño • Evaluar si el componente más interno incluye la segunda entrada en la lista invertida por “holocaust” • Si es así, evaluar la tercera entrada y así sucesivamente • Esto permite evaluar eficientemente los nodos cercanos (o proximales)
Conclusiones • El modelo permite la formulación de consultas que son más sofisticadas de las permitidas por el modelo de listas no superpuestas • Para acelerar el procesamiento de consulta, nodos cercanos son inspeccionados • Tipos de consultas que son consultadas pueden estar limitadas (todos los nodos en la respuesta deben venir de la misma jerarquía de índice) • El modelo refleja un compromiso entre expresividad y eficiencia
Modelo de Browsing • Exploración de documentos • Tipos de browsing: • flat: se explora un espacio plano (ej. espacio de documentos como puntos en un espacio n-dimensional) • Guiado por estructura: directorios que agrupan jerárquicamente documentos. • Hypertext: es una estructura de navegación interactiva de alto nivel. Consiste de nodos los cuales están correlacionados por enlaces dirigidos en una estructura de grafo.