310 likes | 373 Vues
Construção, Manutenção e Disponibilização de Corpora. Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio. III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP. Atividades do sub-projeto. Definição dos Protocolos e Padrões de Representação dos Documentos
E N D
Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP
Atividades do sub-projeto • Definição dos Protocolos e Padrões de Representação dos Documentos • Disponibilização dos Córpus de Treinamento • Construção da Plataforma de Acesso aos Córpus– o Portal de Córpus • PLUS: disponibilização do córpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic: http://moodle.icmc.usp.br/philologic-plnbr1/http://moodle.icmc.usp.br/philologic-plnbr2/http://moodle.icmc.usp.br/philologic-plnbr3/
Definição dos Protocolos e Padrões de Representação dos Documentos • 1.1 Adotamos o padrão XCES para anotação: • dos cabeçalhos dos textos dos córpus • da estrutura geral (parágrafos e sentenças) • 1.2 Essas 2 últimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima. • 1.3 A anotação é stand-off, mas oferecemos também a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC) • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas
Updates • Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal • Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas • Dois RT: • Aluísio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O Cabeçalho em Xml para os Textos do Córpus e o Editor Web de Cabeçalhos. Nilc-Tr-07-05, Junho 2007, 69 p. • Aluísio, S. M., Muniz, F.A.M. (2007). Instalação e Administração do Portal de Córpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.
Disponibilização dos Córpus de Treinamento • Córpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Público • amostra aleatória estratificada e proporcional à distribuição do córpus global do projeto PLN-BR com relação aos textos dos cadernos. • Ela é formada por 1% dos textos do córpus maior e possui somente notícias e reportagens (o que equivale a 1.024 textos). • Córpus para treinamento de classificadores de conteúdo (PLN-BR CATEG - 9.780.220 tokens) – Restrito aos membros • Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Córpus Gold Standard
Updates • GOLD receberá a última versão das anotações POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.
Construção da Plataforma de Acesso aos Córpus– o Portal de Córpus [1] • A plataforma possui: • um Editor Web de Cabeçalhos que preenche um banco de dados (BD) com informações dos cabeçalhos dos textos. Com os dados dos textos no BD há a possibilidade de: • várias formas de pesquisa aos textos dos córpus e montagem de sub-córpus. • O sub-córpus criado com as pesquisas: • é disponibilizado para download seguindo o padrão XCES, a partir dos dados do banco de dados e em texto crú • pode ainda ser consultado via uma ferramenta de exploração gráfica – o PEx-Corpus Tool [2] • O PEx-Corpus é uma adaptação do projeto Projection Explorer (PEx) que permite inspecionar visualmente um subcórpus para explorar o seu conteúdo e criar outros subcórpus com base numa seleção de tópicos. [1] http://www.nilc.icmc.usp.br:8180/portal/ [2] http://www.lcad.icmc.usp.br/~paulovic/pex/
Updates: Resultados de Pesquisa, Divulgação • Só 1 artigo sobre o Portal – precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores • Disponibilização do código do Portal na Incubadora Fapesp • Ótimo para divulgação e facilidade de acesso • Uso do Portal em 2 mestrados: • Filipi Silveira (Vera Strube) – agregou funcionalidades de compilação de córpus a partir de vários formatos e funcionalidades para análise de córpus e vai deixar disponível publicamente o Entrelinhas • Fernando Muniz (Sandra Aluísio) – vai integrar o Portal num ambiente colaborativo de geração de produtos terminológicos e-termos, integrar métodos prontos para extração de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatização de manuais de software, via simplificação textual
Proposta de pesquisa - artigos • Mostrar como o Portal pode ser integrado em projetos maiores de compilação/uso de córpus via 2 estudos de caso: • Entrelinhas (Vera Strube) • E-Termos + Métodos de Extração de Termos (Sandra, Gladis e Renata) • Mostrar usos do PLN-BR FULL para • Glosagem da Wordnet.Br e sua Indexação à WordNet de Princeton (Bento) • Aprendizagem Automática de Informações Lexicais (Violeta)
Coisas que não sei • Não sei como os córpus foram usados pelos subprojetos: • Sumarização Automática e Recuperação da Informação Textual • Representação do Conhecimento Textual • Mas adoraria saber ;)
Fernando Muniz • Vai explicar a parte técnica do Portal
Portal de Córpus do Projeto PLN-BR Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Aluísio
O Portal de Córpus • Desenvolvido usando tecnologias open source • Arquitetura Cliente-Servidor • Um portal de Córpus compatível com XCES • Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rápidas • Acesso público em: http://www.nilc.icmc.usp.br:8180/portal/ • Download do Portal disponível na Incubadora Fapesp: http://incubadora.fapesp.br/projects/portal-corpus/
Client Side Server Side MySQL Header Editor + Corpus Uploader(java applet) texts XCES Browser(Portal) Web server(servlet container) search results PEx-Corpus Tool(java applet) XCES, text, annotations Senter + ANC Tools Portal de Córpus client/server architecture
Portal de Córpus • Características • Acesso controlado • Córpus público ou privado • Inserir/Editar informações de cabeçalho (Header editor) • Inserir/Editar anotações stand-off (Header editor) • Funções de busca para construir subcorpora • Text type, keywords, Bibliographic data, newspaper sections • PEx-corpus tool (visual document map)
Efetuando buscas • Efetuar login • Selecionar córpus • Selecionar tipo de Busca • Fazer download do resultado • Mapeamento de documentos através da ferramenta PEx-Corpus
Header Editor • Acesso restrito • Usuário, senha, endereço do servidor, nome da base de dados • Possui uma interface gráfica (java applet) que permite ao usuário • criar, manter e visualizar informações do cabeçalho de textos que estão armazenados em um banco de dados MySQL • Cada córpus é armazenado em um base de dados diferente • Opção de inserir vários textos de uma vez
Administração do portal • Administração de usuários • Administração de Córpus • Criar, desativar, alterar • Atualização do portal com notícias • Configurações gerais • Links, arquivos, páginas do portal • www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp
Recomendações • A utilização da ferramenta de busca e do PEx-Córpus pode ser feita a partir de qualquer computador com acesso à internet e um navegador web disponível. • A utilização do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.
Portal Interno • Acesso restrito – Cadastro independente do Portal de Córpus • Endereço: http://www.nilc.icmc.usp.br:8180/portalinterno/ • Córpus disponíveis: PLN-BR CATEG (30.000) PLN-BR FULL (100.000)
PLN-BR FULL no Philologic • Acesso restrito • Parte 1 - 1994-1997 • http://moodle.icmc.usp.br/philologic-plnbr1/ • Parte 2 - 1998-2001 • http://moodle.icmc.usp.br/philologic-plnbr2/ • Parte 3 - 2002-2005 • http://moodle.icmc.usp.br/philologic-plnbr3/
contato fernando.muniz@gmail.com Obrigado!