1 / 21

Avalia ções Conjuntas : Visão Geral

Avalia ções Conjuntas : Visão Geral. Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics. O que é avalia ção conjunta ?. Compara os resultados de vários sistemas participantes usando: Tarefas de controle iguais ou similares;

laken
Télécharger la présentation

Avalia ções Conjuntas : Visão Geral

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Avaliações Conjuntas:Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

  2. O que é avaliação conjunta? • Compara os resultados de vários sistemas participantes usando: • Tarefas de controle iguais ou similares; • Mesma coleção de dados; • Mesmas métricas. • Todos os itens acima são baseados em concordância prévia entre os participantes. SINTEF

  3. Objetivos • Encorajar a pesquisa baseada em dados reais; • Aumentar a comunicação entre a indústria, a academia e o governo através da criação de um fórum aberto de discussões; • Acelerar a transferência de tecnologia entre os laboratórios de pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais; • Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais. SINTEF

  4. Elementos da avaliação conjunta • Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada. • Requisitos genéricos para a tarefa de controle: • Pode ser facilmente realizada por um operador humano; • Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN; • Requisitos genéricos para as métricas: • Deve existir concordância em um formalismo de referência comum a todos os participantes; • As métricas devem ser diretas e de fácil entendimento. SINTEF

  5. Fases da Avaliação Conjunta Participantes: pesquisa, indústria e governo Artigos Avaliação Treinamento Tarefas de controle Métricas Coleção de teste Conferência Ensaio Resultados Organização: governo, pesquisa e indústria SINTEF

  6. Evolução Tarefas Tarefas Discussão sobre metodologia Nova Avaliação Conjunta Avaliação Conjunta Métricas Métricas Coleção - Treinamento - Teste - Respostas certas Coleção SINTEF

  7. Tipos de avaliação em geral • Avaliação de pesquisa básica • Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos. • Avaliação de tecnologia • Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido. • Avaliação de uso • Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto • Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa • Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia. SINTEF

  8. ATIS MUC TREC SUMMAC DUC CLEF ARC GRACE Morpholympics Senseval/Romanseval Parseval NTCIR Avaliações conjuntas realizadas http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html SINTEF

  9. ATIS - Air Travel Information System • Duração: de 1989 a 1995. • Tarefa: Responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. • A portabilidade dos sistemas de compreensão de línguas não avaliada. • Não estava claro como desenvolver ferramentas robustas que permitiriam a rápida construção destes tipos de sistemas em novos domínios SINTEF

  10. MUC - Message Understanding Conference • Duração: 1987 a 1998. • Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. • Ex: Atividades terroristas nas Américas. • Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. • Avaliação baseada em preenchimento de gabaritos (templates) • Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. • Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. • Identificação de coreferência: ligar as várias menções da mesma entidade. SINTEF

  11. TREC - Text REtrieval Conference • Início: 1992 • Tarefas principais: • Routing: Mesmas questões perguntadas a uma base de dados dinâmica. • Ad hoc: Novas questões são perguntadas a uma base de dados estática. • Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos: • Contendo entre 500.000 e 1.000.000 de documentos completos • Formado principalmente de textos jornalísticos e de agências de notícias. • Também possui documentos oficiais e resumos de artigos sobre computação. SINTEF

  12. Julgamentos de Relevância nas TRECs • Método de pooling: • Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. • Reúne-se por tópico todas as respostas enviadas e remove-se as duplicações. • Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão. • A lista final do método de pooling será considerada a resposta correta. SINTEF

  13. SUMMAC - TIPSTER Text Summarization Evaluation • Início: 1997 • Tarefas principais: • Ad hoc • Criação de sumários indicativos e focados no usuário para um tópico particular. • Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico. • Categorização • Criação de sumários genéricos • Determinar se estes sumários são efetivos na captura de qualquer informação no documento fonte que permita corretamente categorizar este documento. • Os dados usados são das TRECs. SINTEF

  14. DUC - Document Understanding Conference • Início: 2001 • Tarefas principais: • Sumário individual: Produzir um resumo de 100 palavras para cada documento; • Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”. • Os dados utilizados vieram da TREC-9 (question-answering track). SINTEF

  15. Criação de Sumários por Humanos Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm Sumários individuais A B Documentos C Sumários coletivos A: Ler os documentos em papel. B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento. C: Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais. D,E,F: Recortar, colar e reformular para reduzir o tamanho do sumário pela metade. 400 D 200 E 100 F 50 SINTEF

  16. CLEF - Cross-Language Evaluation Forum • Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000. • Objetivos: • Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval) • Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês). • Atrair mais participantes europeus para este tipo de tarefa de avaliação • A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis) • Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente. SINTEF

  17. ARC - Actions de Recherche Concertées • Início: 1994 • Possui 7 tarefas de controle organizadas como segue: • Linguística, Informática e Corpora escritos(ILEC) • Recuperação de Informação • Alinhamento de corpus bi e multilíngues • Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos • Linguística, Informática e Corpora orais (ILOR) • Ditado vocal • Diálogo oral • Síntese de fala • Cada tarefa de controle possui a mesma estrutura organizacional • Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes. SINTEF

  18. GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation • Início: 1995 • Objetivos iniciais: • Etiquetadores morfossintáticos para o francês; • Analisadores sintáticos para francês (abandonado) • Corpus de treinamento • Tamanho em torno de 10 milhões de palavras; • Distribuido entre trabalhos literários e artigos jornalísticos. SINTEF

  19. Senseval/Romanseval • Início: 1998 • A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas românicas (francês e italiano). • Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês. • Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos. • Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. • Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma outra língua. SINTEF

  20. Parseval • A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação. • A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes. • A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas. SINTEF

  21. NTCIR - NII-NACSIS Test Collection for IR Systems • Início: 1998 • Projetado para fomentar a pesquisa em recuperação de informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas. • Fortemente baseada no modelo das TRECs • Tarefas: • Recuperação de informação em textos em chinês. • Recuperação de informação em textos em japonês e inglês. • Sumarização de textos: sumarização de artigos japoneses de vários tipos SINTEF

More Related