1 / 48

Recuperação de Informação Clássica

Recuperação de Informação Clássica. Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]. Fases e Etapas de um Sistemas de RI. Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos

natala
Télécharger la présentation

Recuperação de Informação Clássica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recuperação de Informação Clássica Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999] Flávia Barros CIn-UFPE

  2. Fases e Etapas de um Sistemas de RI • Etapas da Fase 1 - Criação da Base de índices • Aquisição (seleção) dos documentos • Preparação dos documentos • Criação da representação dos documentos • Indexação dos documentos • Criação da base de índices invertidos • Etapas da Fase 2 - Consulta à Base de índices • Construção da consulta (query) • Busca (casamento com a consulta do usuário) • Ordenação dos documentos recuperados • Apresentação dos resultados • Feedback de relevância

  3. Roteiro • Tipos de consultas • Operações sobre consultas • Expansão de consultas • Reformulação de consultas • Feedback de relevância CIn-UFPE

  4. Tipos de Consultas • Existem diversos tipos de consultas que podem ser submetidas aos sistemas de RI • Contudo... • Nem todos os tipos podem ser usados em todos os sistemas • Isso vai depender do modelo de RI adotado pelo sistema

  5. Tipos de Consultas • Consultas baseadas em Palavras-Chaves • Baseadas em palavras isoladas • Com contexto • Booleanas • Em Linguagem Natural • Com casamento de Padrão • Com estrutura

  6. Consultas baseadas em Palavras-chave • Tipos • Baseadas em palavras isoladas • Com contexto • Booleanas • Em Linguagem Natural • Permitem ordenamento das respostas • segundo a função de relevância do modelo de RI adotado • Segundo algum outro critério adicional

  7. Consulta baseada em Palavras-chave isoladas • SingleKeyword query • Tipo mais simples de consulta a um sistema de RI • Consiste em uma lista de palavras • Sem operadores booleanos explícitos • Porém funciona como ‘OR’ • Funcionamento geral • O sistema de RI recupera todos os documentos que contêm pelo menos uma das palavras da consulta • Em seguida, os documentos recuperados são ordenados de acordo com o modelo de RI implementado pelo sistema

  8. Consultas com ContextoConsideram a posição das Palavras • Alguns sistemas de RI são capazes de buscar palavras dentro de algum “contexto” • Documentos onde as palavras da consulta aparecem próximas uma da outra podem ser mais relevantes do que aqueles onde as palavras aparecem distantes • Ex.: “recuperação” e “informação” no contexto de docs. sobre o tema de Recuperação de Informação • A consulta também é formulada como uma lista de palavras • Contudo, a ordenação dos documentos depende da posição das palavras nesses documentos

  9. Consultas com ContextoPosição das Palavras • Como verificar essa proximidade? • Depende da implementação do sistema de RI • E.g., Bases de índices invertidos que guardam a posição onde cada palavra ocorre em cada documento

  10. Consultas com Contexto Grupos Nominais • Consultas baseadas em Grupos Nominais (GN) • recuperam documentos com um GN específico • i.e., lista de palavras contíguas no texto do documento • ex., “inteligência artificial” • Pode levar em consideração stopwords e/ou stemming • Exemplo - “venda carro” casa com • “venda de carros” • “vendendo carro”,…

  11. Consultas com Contexto Grupos Nominais • A Base de índices do sistema de RI deve armazenar as posições de cada palavra no documento • Processo de recuperação • Recuperar os documentos que contêm todas as palavras da consulta • Registrando as posições de cada palavra nos docs • Fazer a intersecção entre documentos recuperados • Para eliminar redundâncias • Verificar a ocorrência do GN (palavras contíguas)

  12. Consultas com Contexto Distância máxima permitida • Consulta semelhante a GN, porém • considera a distância máxima permitida entre os termos da consulta • Exemplo: “carro; corrida; 2” • Consulta com os termos “carro” e “corrida” com distância máxima de 2 palavras entre esses termos • Exemplo de doc: “…carro que ganhou a corrida…” • As palavras não precisam estar na mesma ordem em que foram definidas na consulta • Exemplo: “…corrida terminou com carro…” • Pode também levar em conta stemming e/ou stopwords

  13. Consultas com ContextoOrdenação dos Documentos • Documentos que satisfazem uma consulta com Contexto podem ser ordenados da mesma forma que no caso das consultas básicas • i.e., de acordo com o modelo de RI implementado pelo sistema • Para consultas que levam em conta a posição das palavras, a distância entre os termos também pode ser levada em conta para definir a relevância do documento • Ex.: documento com o texto “…corrida de carro…” seria mais relevante que documento com texto “…carro que ganhou a corrida…”

  14. Consultas Booleanas • Palavras combinadas com operadores booleanos: • OR: (ki OR kj ) • AND: (ki AND kj ) • BUT: (ki BUT kj ) • Satisfaz ki but notkj • Em geral, sistemas de RI não usam o operador NOT • Uma vez que um número muito grande de documentos poderia ser recuperado • Operador BUT restringe o universo de documentos • Problema • Usuários inexperientes têm dificuldades com lógica booleana

  15. Consultas BooleanasRecuperação com índices invertidos • Palavra isolada • Recupera documentos contendo essa palavra • OR • Recupera docs. com ki e kj , e faz a união dos resultados • AND • Recupera docs. com ki e kj , e faz a interseção dos resultados • BUT • Recupera docs. com ki e kj , e utiliza o conjunto complementar dos resultados

  16. Consultas em Linguagem Natural • Em geral, consultas de texto completo são consideradas como strings arbitrárias pelos sistemas de RI de propósito geral • Excluímos aqui os sistemas de Pergunta-Resposta, e os sistema de RI com interface em Linguagem Natural • No modelo Espaço Vetorial, essas consultas • São tratadas como um “bag” de palavras • São processadas usando métodos padrão de recuperação com Espaço Vetorial

  17. Casamento de Padrão • Alguns sistemas de RI permitem consultas que “casam” com strings • em lugar de apenas palavras isoladas • Um padrão é descrito por um conjunto de características sintáticas • Padrão simples • ex., uma palavra, um prefixo, um sufixo, etc • Padrão complexo • ex., expressões regulares

  18. Casamento de Padrão • Estamos interessados em documentos que contêm segmentos de texto que casam com o padrão especificado • Isso requer estruturas de dados e algoritmos mais sofisticados do que índices invertidos para uma recuperação eficiente

  19. Casamento de PadrãoPadrões Simples • Prefixos • Padrão que casa com o início da palavra • “anti” casa com “antiguidade”, “anticorpos”, etc. • Sufixos • Padrão que casa com o final da palavra • “ções” casa com “canções”, “infecções”, etc. • Substrings • Padrão que casa seqüências quaisquer de caracteres • “cid” casa com “capacidade”, “genocídio” etc. • Intervalos • Pares de strings que casam com qualquer palavra “alfabeticamente” entre eles • “tin” to “tix” casa com “tipo”, “tiro”, “tísico”, etc.

  20. Casamento de Padrões Simples Tratamento de Erros • Permite a recuperação de documentos com palavras “similares” a uma dada palavra • Caso de consulta ou documentos com erros • Erros de edição, erros de OCR, espaço no meio da palavra, dentre outros • Recupera documentos que são similares até um dado limite, medido por • Distância de edição • Levenstein distance • Subseqüência comum mais longa • Longest Common Subsequence (LCS)

  21. Casamento de Padrões Simples Tratamento de Erros • Distância de edição - Levenstein distance • Número mínimo de caracteres deletados, adicionados ou substituídos necessários para tornar os 2 strings equivalentes • “casamento” para “casmento” tem distância = 1 • “casamento” para “casammentto” tem distância = 2 • “casamento” para “cazammeno” tem distância = 3

  22. Casamento de Padrões Simples Tratamento de Erros • Subseqüência comum mais longa • Computa o tamanho da subseqüência de caracteres mais longa comum aos dois strings • Uma subseqüência de um string é obtida pela eliminação de zero ou mais caracteres • Exemplos: • “casamento” e “asamento” = 8 • “casamento” e “casammentto” = 5

  23. Casamento de Padrões Complexos Expressões Regulares • Linguagem para compor padrões complexos a partir de padrões simples • Um caractere individual é uma expressão regular (ER) • União • Se e1 e e2 são ERs, então (e1 | e2 ) é uma ER que casa com tudo que e1 ou e2 casam • Concatenação • Se e1 e e2 são ERs, então e1 e2 é uma ER que casa com um string que consiste em um substring que casa com e1 imediatamente seguido de um substring que casa e2 • Repetição (Kleene closure): • Se e1 é uma ER, então e1* é uma ER que casa com uma seqüência de zero ou mais strings que casam com e1

  24. Casamento de Padrões Complexos Expressões Regulares • Exemplos de Expressões Regulares • (u|e)nabl(e|ing) casa com • unable • unabling • enable • Enabling • (un|en)*able casa com • able • unable • unenable • enununenable

  25. Consultas com Estrutura • Assumem que o documento possui uma estrutura que pode ser explora na busca • Estruturas hierárquicas em forma de árvore • Conjunto fixo de campos (meta-dados) • e.g. título, autor, resumo, etc. • Permitem consultas por textos que ocorrem em campos específicos: • “inteligência artificial” • aparecendo no título do capítulo livro capítulo capítulo título seção título seção título subseção

  26. Operações sobre as Consultas • Expansão de Consultas • Reformulação de consultas • Feedback de Relevância

  27. Expansão de Consultas • Objetivo: • Adicionar novos termos (correlacionados) à consulta • Motivação • Aumentar a quantidade de documentos recuperados • Cobertura do sistema de RI

  28. Expansão de consultas usando Tesauros • Para cada termo t da consulta, expande a consulta com os sinônimos e palavras relacionadas a t contidos no tesauro • Esse método geralmente aumenta acobertura da recuperação • Recupera mais documentos • Porém, pode diminuir significativamente a precisão • Recuperar documentos irrelevantes • Particularmente para termos ambíguos

  29. Expansão de Consulta com WordNet • WordNet • http://wordnet.princeton.edu/ • Adiciona sinônimos no mesmo synset • Adiciona hipônimos para inserir termos especializados • Adiciona hiperônimos para generalizar uma consulta • Adiciona outros termos relacionados para expandir a consulta

  30. Expansão com Tesauro Estatístico Análise Automática Global • Tesauros produzidos manualmente • são limitados no tipo de relações semânticas que representam • Termos semanticamente relacionados podem ser descobertos a partir de análises estatísticas em um corpus de documentos

  31. Análise Automática Global • Constrói matrizes que “quantificam” associações entre termos • Matriz de associação • Considera a co-ocorrência (ou freqüência comum) dos termos em todos os documentos do corpus • Matriz de correlação métrica • considera a distância entre os termos nos documentos do corpus • as distâncias entre todas as ocorrências desses termos no mesmo documento são contadas, o que indiretamente quantifica a co-ocorrência dos termos • Expande consultas usando os termos mais similares estatisticamente • i.e., com maior associação

  32. Análise Automática Global • Ocultei os slides do cálculo das matrizes de associação e de correlação métrica...

  33. Análise Automática Global Expansão da Consulta • Regra Geral • Para cada termo i da consulta, expanda a consulta com os n termos j com maior valor de cij (correlação) • Mais de um fator de correlação pode ser combinado para escolher os termos para a expansão • Por exemplo, pegar os n maiores termos de ambas as matrizes e fazer a interseção • determinando que termos estão relacionados em ambas as matrizes

  34. Expansão da ConsultaProblemas com a Análise Global • Ambigüidade • pode introduzir termos estatisticamente relacionados que, mesmo assim, são irrelevantes para a consulta • “Apple computer”  “Apple red fruit computer” • apple e red fruit estão relacionados no corpus de docs. • Porém, red fruit não é relevante para a consulta original • Redundância • Uma vez que os termos adicionados são correlacionados aos termos da consulta original, a expansão pode não recuperar muitos documentos adicionais

  35. Expansão da ConsultaAnálise Automática Local • Após a consulta inicial, determina termos correlacionados analisando os m primeiros documentos recuperados • i.e., de melhor ranking • Esta análise se baseia apenas em um conjunto “local” de documentos específico para uma consulta • Evita ambigüidade, uma vez que considera apenas documentos relevantes em um contexto • “Apple computer”  “Apple computer Powerbook laptop”

  36. Análise Global vs. Análise Local • Análise Global • requer computação intensiva off-line • durante a construção da matriz de correlações entre termos • Análise Local • Requer menos computação para cálculo das correlações • Entretanto, esse cálculo é refeito para cada consulta em tempo de execução • Análise local tem gerado melhores resultados experimentais

  37. Expansão de Consultas Conclusões • Expansão de consultas com termos relacionados pode melhorar desempenho do sistema de RI • Particularmente, a cobertura • Contudo, termos similares devem ser escolhidos com cuidado para evitar perda de precisão

  38. Reformulação da consultaFeedback de relevância • Após apresentar os resultados de uma consulta, o sistema de RI pode permitir ao usuário fornecer feedback sobre um ou mais documentos recuperados • Esse feedback pode ser usado para reformular a consulta inicial • Novos resultados serão produzidos com base na consulta reformulada • Processo é interativo e iterativo

  39. Consultainicial Consulta revisada Documentos reordenados 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc2 2. Doc4 3. Doc5 . . 1. Doc1  2. Doc2  3. Doc3  . . Documentos ordenados Reformulação da consulta Feedback Arquitetura para Feedback de Relevância documentos Sistemas de RI Rankings

  40. Feedback de relevânciaRepesagem de Termos • Term reweighting • Objetivo: • Aumentar o peso dos termos que aparecem em documentos relevantes e diminuir o peso de termos que aparecem em documentos irrelevantes • Existem diversos algoritmos para reformular consultas com base em repesagem de pesos

  41. Feedback de relevânciaRepesagem de Termos • Reformulação de consulta para o Modelo Vetorial • Nesse modelo, consultas e documentos são representados como vetores de pesos • Modelo vetorial recupera documentos que são similares à consulta do usuário • Se soubéssemos a priori que documentos são relevantes, saberíamos quais consultas seriam as mais adequadas • As consultas ideais seriam aquelas mais similares aos documentos relevantes no espaço vetorial

  42. Feedback de relevânciaRepesagem de Termos • Reformulação de Consulta para o Modelo Vetorial • Adicione à consulta inicial os vetores dos documentos considerados com relevantes • Subtraia da consulta inicial os vetores dos documentos considerados com irrelevantes • Desta forma, os pesos da consulta são reformulados, aproximando-se dos documentos relevantes

  43. Feedback de relevânciaRepesagem de Termos • Métodos: • Método Rochio Padrão • Método Ide • Método Ide “Dec Hi” • Ocultei os slides porque é muita fórmula……..

  44. Feedback de relevância Repesagem de Termos • Comparação dos Métodos • Todos os métodos, de uma forma geral, melhoram os resultados da RI • Resultados experimentais não indicam uma dominância clara de nenhum método • Geralmente, parâmetros são definidos como constantes iguais a 1 • Alguns autores usam apenas o conjunto dos documentos relevantes (ou seja = 0 ) • Método de Feedback Positivo

  45. Feedback de relevância • Porque Feedback não é largamente usado • Usuários algumas vezes relutam em fornecer feedback explícito • Requer maior tempo de computação • Às vezes, dificulta o entendimento de porque um determinado documento foi recuperado

  46. Pseudo-Feedback • Usa feedback de relevância sem uma entrada explícita do usuário • Apenas assume que os top m documentos recuperados são relevantes, e então reformulam a consulta • É um método de feedback positivo • Melhorou o desempenho de RI no corpus do TREC

  47. Consulta inicial Consulta Reformulada Documentos reordenados 1. Doc1 2. Doc2 3. Doc3 . . 1. Doc2 2. Doc4 3. Doc5 . . 1. Doc1  2. Doc2  3. Doc3  . . Documentos Ordenados Reformulação da consulta Pseudo Feedback Arquitetura de Pseudo-Feedback Corpus de Documentos Sistema RI Rankings

  48. Próxima aula • Construção de bases de índices • Definição das equipes e dos projetos

More Related