1 / 17

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação. Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais. Motivação. Quantas versões de indexadores temos para cada uma dos grupos presentes?

phelan-orr
Télécharger la présentation

Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Biblioteca de suporte para desenvolvimento de sistemas de Recuperação de Informação Bruno Augusto Vivas e Pôssas 09/04/2003 Departamento de Ciência da Computação Universidade Federal de Minas Gerais

  2. Motivação • Quantas versões de indexadores temos para cada uma dos grupos presentes? • Esses indexadores eram o foco inicial de investigação? • Quanto tempo foi gasto na criação da infra-estrutura para a investigação em questão? LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  3. Objetivo • Fomentar a pesquisa em recuperação de informação • direcionando todos os esforços de implementação diretamente no foco de investigação • disponibilizando um ambiente integrado de desenvolvimento e avaliação dos resultados • facilitando a transmissão de conhecimentos entre os grupos de pesquisa envolvidos LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  4. Biblioteca: Composição • Módulos: • Coleta • Processamento • Indexação • Classificação • Filtragem • Busca • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  5. Biblioteca: Composição • Módulos: • Validação e avaliação dos resultados • Coleções de referência • Visualização • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  6. Metodologia de Desenvolvimento • Modelagem inicial de cada módulo a partir das experiências dos grupos envolvidos • Desenvolvimento guiado por um processo simples e não burocratizado de engenharia de software • Documentação e testes de regressão de cada módulo implementado LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  7. Decisões de Projeto • Ambiente de desenvolvimento: • Qualquer ambiente integrado ao savannah • Ambiente de execução: • Multi-plataforma • Linguagem de programação: • Ansi C/C++ • Java • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  8. Decisões de Projeto • Módulo de Coleta: • capaz de coletar documentos, imagens, áudio, vídeo, ... • implementação baseada no software wget (http://www.wget.org) LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  9. Decisões de Projeto • Módulo de Processamento: • capaz de processar e extrair o conteúdo de documentos nos seguintes formatos: • SGML, HTML e XML • coleções de referência LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  10. Decisões de Projeto • Módulo de Indexação: • capaz de indexar grandes coleções de documentos • técnicas de compressão • informação posicional • informação de links • determinação de passagens LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  11. Decisões de Projeto • Módulo de Busca: • capaz de recuperar documentos a partir da necessidade de informação dos usuários para cada um dos modelos clássicos • booleano • vetorial • probabilístico • extensão dos modelos implementados através da análise de links LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  12. Decisões de Projeto • Módulo de Validação e Avaliação dos Resultados: • capaz de validar e avaliar os resultados dos modelos de recuperação de informação a partir das métricas usuais: • revocação (recall) • precisão (precision) • tempo de resposta • recursos utilizados (memória, etc) • ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  13. Decisões de Projeto • Módulo para Coleções de Referência: • capaz de extrair e processar os documentos, tópicos e conjuntos resposta das principais coleções de referência • TReC, CACM, CFC, CISI, MEDL, etc • capaz de determinar o conjunto resposta de um determinada consulta a partir da mesma metodologia utilizada pela NIST • pool de respostas LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  14. Decisões de Projeto • Módulo de Visualização: • capaz de apresentar os documentos retornados a partir de uma consulta • simples lista ordenada de documentos baseados na similaridade com a consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  15. Prova de Conceito • Combinação dos módulos implementados para a criação de uma máquina de busca simplificada • Disponibilização da biblioteca como contribuição para a comunidade de recuperação de informação • mg, smart, ... LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  16. Decisões de Projeto • Módulo de Classificação: • capaz de acessar e navegar sobre uma ontologia representada por um thesaurus • capaz de determinar a partir de passagens e do conjunto de definições presentes em um thesaurus, qual a melhor classificação para um documento LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

  17. Decisões de Projeto • Módulo de Filtragem: • capaz de determinar a relevância de um novo documento a partir de uma consulta LATIN - Laboratório para Tratamento de Informação - Universidade Federal de Minas Gerais

More Related