1 / 23

Classificação / Categorização de Documentos

Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr) MW-2008. Classificação / Categorização de Documentos. Roteiro. Aplicações Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Algoritmos Referências.

lexiss
Télécharger la présentation

Classificação / Categorização de Documentos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr) MW-2008 Classificação / Categorizaçãode Documentos

  2. Roteiro • Aplicações • Categorização de Documentos • Construção Manual do Classificador • Construção Automática do Classificador • Algoritmos • Referências

  3. Aplicações • Criação de Base de documentos especializadas • Manutenção de hierarquias • Yahoo • Filtragem e Recomendação • Emails • Filtro de Spam • Etc...

  4. Categorização de Documentos • Definição: • Atribuição de uma ou mais classes pré-definidas aos documentos • Objetivos: • Organizar os documentos • Facilitar a sua busca automática • Facilitar sua visualização

  5. Documentos Classe 2 Classe 1 Classe 3 Classificação

  6. Clustering X Classificação • Clustering • Criar grupos de documentos • Classes geradas automaticamente • Classificação • Determinar a que grupo pertence um documento • Classes pré-definidas

  7. Categorização de Documentos • Classificação Manual: • Classificação dos documentos por um especialista • Construção Manual do Classificador: • Sistemas baseados em conhecimento • Por exemplo: Base de Regras escrita manualmente • Construção Automática do Classificador: • Algoritmos de aprendizagem automática

  8. Construção do Classificador • Conjunto de treinamento/construção manual: • Aquisição do conhecimento ou Treinamento do algoritmo • Ajuste do sistema • Conjunto de teste: • Diferente do conjunto de treinamento • Avaliação do desempenho do sistema

  9. Aquisição do Conhecimento Formulação da Base de Conhecimento Construção da Base de Conhecimento Testes e Validação Nível de Conhecimento Nível Lógico Nível de Implementação Construção Manual do Classificador • Sistema baseado em Conhecimento: • Base de conhecimento • Máquina de Inferência (ex.: JEOPS)

  10. Construção Manual do Classificador • Base de Conhecimento: • Regras de Produção • Exemplo: • Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

  11. Dados classificados Classificador Comparador Dados de treinamento Ajuste dos resultados pelo desenvolvedor Construção Automática do Classificador • Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento.

  12. Construção Automática do Classificador Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Conhecimento Adicional Representação Final Categorização Indução

  13. Representação Inicial dos Documentos • Pré-processamento • Selecionar termos que vão representar o documento • Stoplist, stemming, thesaurus, termos compostos, ... • Associar pesos aos termos • Pesos booleanos, pesos com freqüência de ocorrência (TF), TF-IDF, TF-IDF normalizado, considerar formatação do texto, ...

  14. Representação Inicial dos Documentos • Montar uma tabela (matriz) onde: • Colunas indicam os termos que ocorrem no conjunto de documentos (vocabulário) • Linhas indicam os documentos do conjunto • O elemento tij indica o peso do termo j para o documento i • A representação do documentoi corresponde à linha i.

  15. Redução da Dimensão da Representação Inicial • Objetivo: • Reduzir o tamanho do vocabulário inicial da base • Reduzindo assim a representação dos documentos • para diminuir o risco de super-especialização do classificador gerado (overfitting) • Abordagens: • Seleção de atributos • Extração de atributos

  16. Redução da Dimensão da Representação Inicial • Seleção de atributos usa algum critério para filtrar termos irrelevantes ou redundantes • Cada termo recebe uma “relevância”, que é usada para ordenar a lista de termos • Exemplos de critérios de relevância • freqüência, ganho de informação,... • Extração de atributos combina termos existentes para criar novas dimensões • Exemplo: Semântica latente • Pode ser mais eficaz • mas as dimensões resultantes (conceitos) são de difícil interpretação

  17. (incerteza inicial) (incerteza final) (qtd. de incerteza removida) Seleção dos Termos: Entropia (mutualinformation) • A relevância do termo Wipara a classe Cjé medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição

  18. Seleção dos Termos: Coeficiente de Correlação • Coeficiente de Correlação entre o termo t e a classe Cj: Nr+ = documentos relevantes para Cjque contêm o termo t Nr- = documentos relevantes para Cjque não contêm t Nn+ = documentos não relevantes para Cjque contêm t Nn- = documentos não relevantes para Cjque não contêm t χ2:mede a dependência entre um termo t e a classe Cj

  19. Construção Automática de Classificadores • A partir da base de exemplos reduzidos e etiquetados induzir classificador • Técnicas utilizadas: • Árvores de decisão, indução de regras, aprendizagem baseada em instâncias (e.g., kNN), aprendizagem bayesiana (e.g., Naive Bayes), Redes Neurais (e.g., SVM),... • SVMs têm obtido bom desempenho

  20. Comparação das Abordagens

  21. Comparação das Abordagens

  22. Referências • Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006. • Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina • Slide de Flávia Barros: Mineração da Web

  23. Referências • Categorização de Documentos: • Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7-35. 1999. • Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996. • Sistemas Baseados em Conhecimento: • Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990. • Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

More Related