1 / 31

Construção, Manutenção e Disponibilização de Corpora

Construção, Manutenção e Disponibilização de Corpora. Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio. III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP. Atividades do sub-projeto. Definição dos Protocolos e Padrões de Representação dos Documentos

vevina
Télécharger la présentation

Construção, Manutenção e Disponibilização de Corpora

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP

  2. Atividades do sub-projeto • Definição dos Protocolos e Padrões de Representação dos Documentos • Disponibilização dos Córpus de Treinamento • Construção da Plataforma de Acesso aos Córpus– o Portal de Córpus • PLUS: disponibilização do córpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic: http://moodle.icmc.usp.br/philologic-plnbr1/http://moodle.icmc.usp.br/philologic-plnbr2/http://moodle.icmc.usp.br/philologic-plnbr3/

  3. Definição dos Protocolos e Padrões de Representação dos Documentos • 1.1 Adotamos o padrão XCES para anotação: • dos cabeçalhos dos textos dos córpus • da estrutura geral (parágrafos e sentenças) • 1.2 Essas 2 últimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima. • 1.3 A anotação é stand-off, mas oferecemos também a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC) • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas

  4. Updates • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas • Dois RT: • Aluísio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O Cabeçalho em Xml para os Textos do Córpus e o Editor Web de Cabeçalhos. Nilc-Tr-07-05, Junho 2007, 69 p. • Aluísio, S. M., Muniz, F.A.M. (2007). Instalação e Administração do Portal de Córpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.

  5. Disponibilização dos Córpus de Treinamento • Córpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Público • amostra aleatória estratificada e proporcional à distribuição do córpus global do projeto PLN-BR com relação aos textos dos cadernos. • Ela é formada por 1% dos textos do córpus maior e possui somente notícias e reportagens (o que equivale a 1.024 textos). • Córpus para treinamento de classificadores de conteúdo (PLN-BR CATEG - 9.780.220 tokens) – Restrito aos membros • Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Córpus Gold Standard

  6. Updates • GOLD receberá a última versão das anotações POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.

  7. Construção da Plataforma de Acesso aos Córpus– o Portal de Córpus [1] • A plataforma possui: • um Editor Web de Cabeçalhos que preenche um banco de dados (BD) com informações dos cabeçalhos dos textos. Com os dados dos textos no BD há a possibilidade de: • várias formas de pesquisa aos textos dos córpus e montagem de sub-córpus. • O sub-córpus criado com as pesquisas: • é disponibilizado para download seguindo o padrão XCES, a partir dos dados do banco de dados e em texto crú • pode ainda ser consultado via uma ferramenta de exploração gráfica – o PEx-Corpus Tool [2] • O PEx-Corpus é uma adaptação do projeto Projection Explorer (PEx) que permite inspecionar visualmente um subcórpus para explorar o seu conteúdo e criar outros subcórpus com base numa seleção de tópicos. [1] http://www.nilc.icmc.usp.br:8180/portal/ [2] http://www.lcad.icmc.usp.br/~paulovic/pex/

  8. Updates: Resultados de Pesquisa, Divulgação • Só 1 artigo sobre o Portal – precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores • Disponibilização do código do Portal na Incubadora Fapesp • Ótimo para divulgação e facilidade de acesso • Uso do Portal em 2 mestrados: • Filipi Silveira (Vera Strube) – agregou funcionalidades de compilação de córpus a partir de vários formatos e funcionalidades para análise de córpus e vai deixar disponível publicamente o Entrelinhas • Fernando Muniz (Sandra Aluísio) – vai integrar o Portal num ambiente colaborativo de geração de produtos terminológicos e-termos, integrar métodos prontos para extração de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatização de manuais de software, via simplificação textual

  9. Proposta de pesquisa - artigos • Mostrar como o Portal pode ser integrado em projetos maiores de compilação/uso de córpus via 2 estudos de caso: • Entrelinhas (Vera Strube) • E-Termos + Métodos de Extração de Termos (Sandra, Gladis e Renata) • Mostrar usos do PLN-BR FULL para • Glosagem da Wordnet.Br e sua Indexação à WordNet de Princeton (Bento) • Aprendizagem Automática de Informações Lexicais (Violeta)

  10. Coisas que não sei • Não sei como os córpus foram usados pelos subprojetos: • Sumarização Automática e Recuperação da Informação Textual • Representação do Conhecimento Textual • Mas adoraria saber ;)

  11. Fernando Muniz • Vai explicar a parte técnica do Portal

  12. Portal de Córpus do Projeto PLN-BR Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Aluísio

  13. O Portal de Córpus • Desenvolvido usando tecnologias open source • Arquitetura Cliente-Servidor • Um portal de Córpus compatível com XCES • Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rápidas • Acesso público em: http://www.nilc.icmc.usp.br:8180/portal/ • Download do Portal disponível na Incubadora Fapesp: http://incubadora.fapesp.br/projects/portal-corpus/

  14. Client Side Server Side MySQL Header Editor + Corpus Uploader(java applet) texts XCES Browser(Portal) Web server(servlet container) search results PEx-Corpus Tool(java applet) XCES, text, annotations Senter + ANC Tools Portal de Córpus client/server architecture

  15. Portal de Córpus • Características • Acesso controlado • Córpus público ou privado • Inserir/Editar informações de cabeçalho (Header editor) • Inserir/Editar anotações stand-off (Header editor) • Funções de busca para construir subcorpora • Text type, keywords, Bibliographic data, newspaper sections • PEx-corpus tool (visual document map)

  16. Efetuando buscas • Efetuar login • Selecionar córpus • Selecionar tipo de Busca • Fazer download do resultado • Mapeamento de documentos através da ferramenta PEx-Corpus

  17. Efetuando buscas

  18. Efetuando buscas - resultado

  19. Header Editor • Acesso restrito • Usuário, senha, endereço do servidor, nome da base de dados • Possui uma interface gráfica (java applet) que permite ao usuário • criar, manter e visualizar informações do cabeçalho de textos que estão armazenados em um banco de dados MySQL • Cada córpus é armazenado em um base de dados diferente • Opção de inserir vários textos de uma vez

  20. Conexão com o banco de dados

  21. Administração do portal • Administração de usuários • Administração de Córpus • Criar, desativar, alterar • Atualização do portal com notícias • Configurações gerais • Links, arquivos, páginas do portal • www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp

  22. Recomendações • A utilização da ferramenta de busca e do PEx-Córpus pode ser feita a partir de qualquer computador com acesso à internet e um navegador web disponível. • A utilização do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.

  23. Portal Interno • Acesso restrito – Cadastro independente do Portal de Córpus • Endereço: http://www.nilc.icmc.usp.br:8180/portalinterno/ • Córpus disponíveis: PLN-BR CATEG (30.000) PLN-BR FULL (100.000)

  24. PLN-BR FULL no Philologic • Acesso restrito • Parte 1 - 1994-1997 • http://moodle.icmc.usp.br/philologic-plnbr1/ • Parte 2 - 1998-2001 • http://moodle.icmc.usp.br/philologic-plnbr2/ • Parte 3 - 2002-2005 • http://moodle.icmc.usp.br/philologic-plnbr3/

  25. contato fernando.muniz@gmail.com Obrigado!

More Related