1 / 1

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do Nascimento Professor responsável : Reinaldo Viana Alvares. INTRODUÇÃO. Os Métodos de Avaliação.

Télécharger la présentation

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA. Acadêmico: João Paulo Figueira do Nascimento Professor responsável: Reinaldo Viana Alvares INTRODUÇÃO Os Métodos de Avaliação A área de Recuperação de Informação (RI) foi criada para auxiliar no gerenciamento de grande volume de informações que vem sendo gerado nos últimos anos. Uma das principais ferramentas utilizadas para auxiliar nesse processo são os Algoritmos de Stemming. O processo de stemming consiste em reduzir variações de uma palavra para uma forma única, denominada stem, que de forma aproximada representa o conceito atrelado à palavra. O estudo dos desses algoritmos pode tornar mais eficiente o processo de busca e recuperação da informação. Neste traablho, é feita uma avaliação de três algoritmos projetados para a língua portuguesa, usando três métodos de avaliação encontrados na literatura. Foram utilizados os seguintes métodos: Manual, Redução do Vocabulário e o de Paice. A amostra, retirada de ALVARES et all, é composta por 1.500 palavras . • Método Manual: um ser humano, define o stem de cada palavra. Após a execução do algoritmo, três medidas são obtidas: número de acertos; número de erros de overstemming e número de erros de understemming. • Redução do Vocabulário: consiste em verificar em quanto um algoritmo foi capaz de reduzir o número de palavras da amostra. • Método de Paice: a partir de uma amostra organizada em ‘grupos conceituais’, o método obtém quatro medidas: Overstemming Index (OI), Understemming Index (UI), Stemming Weight (SW) e Error Rate Relative to Truncation (ERRT). DESENVOLVIMENTO Resultados Os Algoritmos • Removedor de Sufixos da Língua Portuguesa (RSLP): desenvolvido por ORENGO e HUYCK, composto por 8 fases, conforme Figura 01: • Figura 01: RSLP (adaptado de FLORES) • STEMBR: desenvolvido por Alvares et all composto por 4 fases, conforme Figura 02: • Figura 02: STEMBR (adaptado de FLORES) • SNOWBALL (SNB): Desenvolvido por Porter em 2001 sua versão para o português é composta por cinco fases, conforme Figura 03: Os resultados dos testes realizados podem ser observados nas Figuras 04, 05 e 06 a seguir: Figura 04: Método Manual. Figura 05: Redução do Vocabulário. Figura 06: Método de Paice. CONCLUSÕES • O trabalho em avaliou três stemmers para a língua portuguesa, em uma amostra de 1500 palavras, usando três métodos: manual, redução do vocabulário, e o de Paice: • No método manual, o STEMBR ficou praticamente empatado com o RSLP. O STEMBR apresentou mais erros de overstemming. Já o RSLP, maior quantidade de understemming;O SNOWBALL foi obteve o pior resultado nos testes; • O SNOWBALL obteve maior redução do vocabulário; • Pelo Método de Paice, o SNOWBALL obteve maiores índices de overstemming e understemming. • Como trabalho futuro, cita-se aplicação dos algoritmos em uma amostra maior, bem como a realização de validação estatística dos resultados dos stemmers. Figura 03: Fluxograma do Snowball REFERÊNCIAS ALVARES,R.V.;GARCIA, A. C. B.; FERRAZ, I. STEMBR: A Stemming Algorithm for the Brazilian Portuguese Language. 2005, Springer. p. 693-701. CHAVES, M.S.; Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa.(Programa de Pós-Graduação em Ciência da Computação) – PUCRS, Porto Alegre. ORENGO, V. M.; HUYCK, C. R. A Stemming Algorithm for the Portuguese Languague. In: 8th International Symposium on String Processing and Information Retrieval (SPIRE). 2001, Laguna de San Raphael, Chile, p. 183-193. PAICE, C. D. An Evaluation Method for Stemming Algorithms. In: 17th ACM SIGIR Conference on Research and Development in Information Retrieval, W. B. Croft e C. J. Van Rijsbergen, Editors. 1994, ACM: Dublin, Ireland, p. 42-50. PORTER, M. F. Portuguese stemming algorithm. 2007. Disponível em <http://snowball.tartarus.org/algorithms/portuguese/stemmer.html>. Acesso em 30 de maio de 2010.

More Related