1 / 56

Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior

Análise de Dados Multi-Relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular. Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior. Roteiro. Introdução SVD Análise espectral de grafos

liseli
Télécharger la présentation

Rosa Virginia Encinas Quille Orientador: Prof. Dr. José Fernando Rodrigues Junior

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise de Dados Multi-Relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular Rosa Virginia EncinasQuille Orientador: Prof. Dr. José Fernando Rodrigues Junior

  2. Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

  3. Introdução Bases de dados relacionais

  4. IntroduçãoDomínio de dados DBLP

  5. IntroduçãoMotivação Instituição Grupo 1 N Participa Participa Participa M M M N M N Autor M Palavra chave Artigo N M N Área (tema) Participa Participa Participa M N Participa Participa 1 N 1 Evento Veículo 1 Participa

  6. IntroduçãoDescoberta de padrões e tomada de decisão Classificação Ordem Hipóteses Identificar os padrões Agrupamento Exceção Tomada de decisões

  7. IntroduçãoObjetivos • Investigar e desenvolver soluções em mineração de dados  metodologia analítica • Decomposição por Valor Singular e Técnicas de pré-processamento de texto  Análise exploratória de múltiplas relações.

  8. Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

  9. SVDLinha de evolução • Eugenio Beltrami (1873) • Camille Jordan (1874) • James Joseph Sylvester (1889) • Erhard Schmidt (1907) • Hermann Weyl (1912) • Gene Golub (1970) – Low-rankapproximation

  10. SVDSingular ValueDecomposition T • É uma matriz definida como ASV

  11. SVDLow-rankapproximation • Conjuntos de dados densos e esparsos • Problemas: • grandes matrizes  complexidade em tempo e espaço • dimensionalidade aparentemente alta  na verdade, baixa dimensionalidade intrínseca

  12. SVDLow-rankapproximation • As ações pelas quais se usam as decomposições são: • Remoção de ruído • Poupar espaço • Descrição de dados Tabela1: Técnicas de aproximações mais populares de decomposição.

  13. SVDExemplo de SVD A1 Autor A1 A2 A3 A4 A5 A6 A7 A2 Autor A1 A3 A2 A4 A3 A4 A5 A5 A6 A6 A7 A7

  14. SVDExemplo de SVD

  15. Trabalhos relacionados - SVDExemplo de SVD Começamos a partir de um grafo Professores Eventos 1 2 3 KDD 5 1 2 4 7 CIKM 1 5 6 3 15 7 2 ACMGIS 9 4 4 8 CVPR 5 6 2 9 1 AAAI 6 3 1 5 2 2 6 7 ICML 2 Matriz de adjacência

  16. Exemplo de SVD Segundo Fukunaga, é suficiente que mantenha o número de valores Singulares que totalize entre o 80% e 90%, da energia pelo sumatório Dos quadrados dos valores singulares.

  17. Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

  18. Análise espectral de grafos • Entidades como vértices e os relacionamentos como arestas. • A partir disso vai se trabalhar com derivação dos relacionamentos junto à análise de propriedades dos grafos

  19. Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. A1 A2 A3

  20. Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: n m Autor-Artigos 1 Autor Artigos 1 1,A1 1 2 3 4 1,A2 A1 1,A3 A2 2,A1 2,A2 A3 3,A1 3,A3 4,A1 4,A2 A B 4,A3 R

  21. Análise espectral de grafosDerivação de Relacionamentos • “Um autor publica vários artigos, os quais possuem múltiplos autores“. Grafo bipartido: Autores Artigos 1,A1 1 A1 1,A2 1,A3 2,A1 2 2,A2 A2 3,A1 4,A1 3 3,A3 4,A2 A3 4 4,A3 G W X W={1,2,3,4} X={A1,A2,A3} E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

  22. Análise espectral de grafosDerivação de Relacionamentos • co-autores, em álgebra relacional: Cálculo a partir do: Novo grafo: / Tal que: Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

  23. Análise espectral de grafosDerivação de Relacionamentos O grafo H “conectados por caminho de tamanho 2”, sub-conjunto do produto cartesiano de WxW. WxW={(1,1);(1,2);(1,3); (1,4); (2,1);(2,2);(2,3); (2,4),;(3,1);(3,2);(3,3); (3,4); (4,1);(4,2);(4,3); (4,4)} Autores Artigos 1 1,A1 A1 1,A2 2,A1 2,A1 1,A3 Y 2 2 2,A2 A2 f={y,z} 3,A1 3,A1 4,A1 H 3,A3 3 3 4,A2 A3 4,A3 G 4 X W E={(1,A1);(1,A2) ;(1,A3) ;(2,A1) ;(2,A2) ;(3,A1) ;(3,A3) ;(4,A1) ;(4,A2) ;(4,A3)}

  24. Análise espectral de grafosExemplo de SVD baseado em grafo Grafo exemplo - relacionamento “professor participa de evento” muitos-para muitos entre instâncias de professores e instâncias de eventos. Os pesos das arestas indicam quantas participações de um dado professor em um dado evento.

  25. Análise espectral de grafosExemplo de SVD baseado em grafo T A V U S mxn mxr rxr rxn k=1 k=2 k=6

  26. Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

  27. Técnicas de processamento de textoTratamento com textos Pré-processamento para os títulos

  28. Técnicas de processamento de textoTokenização

  29. Técnicas de processamento de textoEliminação de stopwords As palavras   Irrelevantes

  30. Técnicas de processamento de textoSteamming • Palavra  stem • Eliminados afixos de derivação ou de flexão Pedra (palavra primitiva)-eira (afixo)pedra + eira = PEDREIRA (palavra derivada de pedra, que tem um significado próprio, diferente de sua palavra de origem) 

  31. Técnicas de processamento de textoTratamento com textos • Índice de distribuição de Theil • O índice varia entre 0 a 1; • 0 corresponde à menor concentração; • 1 corresponde à maior concentração.

  32. Técnicas de processamento de textoPrincipio de Pareto 80% 20%

  33. Técnicas de processamento de textoA curva de Zipf e os cortes de Luhn A curva de Zipf e os cortes de Luhn

  34. Roteiro • Introdução • SVD • Análise espectral de grafos • Técnicas de processamento de texto • Metodologia desenvolvida e seus resultados • Conclusões

  35. Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida • A metodologia desenvolvida compreende-se em sete passos. • Pré-processamento e limpeza de dados; • Modelagem de dados; • Transformação relacional; • Seleção de dados; • Processamento SVD; • Análise de dados; • Avaliação e interpretação.

  36. Metodologia desenvolvida e seus resultadosDescrição da Metodologia Desenvolvida Metodologia Desenvolvida

  37. Metodologia desenvolvida e seus resultados Pré-processamento e limpeza de dados • Pré-processamento e limpeza de dados  conversão de caracteres ASCII, tokenização, remoção de stopwords e stemming de termos • DBLP estão cheios de redundâncias, falta de conformidade, não-homogeneidade e ruído. • Aplicadas aos títulos, nomes de autores, eventos e veículos dos jornais. • Conversão de caracteres ASCII, tokenização, remoção de stopwords, e decorrente.

  38. Metodologia desenvolvida e seus resultados Modelagem de dados e transformação relacional • A DBLP está disponível em formato semi-estruturado XML; • Descreve-se a DBLP como um modelo entidade-relacionamento, transformando-o ainda mais em um banco de dados relacional. Modelo entidade- relação da DBLP

  39. Metodologia desenvolvida e seus resultados Seleção de dados Entidades envolvidas no análise • Estes números são de processamento algébrico bastante grande, portanto, filtra-se através da análise de sua distribuição.

  40. Metodologia desenvolvida e seus resultados Seleção de autores (a) (b) Distribuição dos autores-artigos. (a) número de artigos x número de autores. (b) Rank-plot sobre o índice do autor x número de artigos. • O gráfico mostra uma distribuição de cauda longa em que a maioria dos autores não tem mais de 22 artigos essa porção corresponde a 1016354 autores.

  41. Metodologia desenvolvida e seus resultados Seleção de termos • Artigos carregam mais informação do que simplesmente definindo instâncias; todos eles têm um título composto por um conjunto de termos semânticos.

  42. Metodologia desenvolvida e seus resultados Experimentos com SVD para a detecção de comunidades • Para os experimentos, usam-se conjuntos de dados de eventos(todas as conferências e workshops), veículos(todas as conferências, workshops e revistas), autores e termos. Com estes conjuntos de entidades, foram considerados três casos experimentais.

  43. Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Scree-plot dos níveis de energia da SVD de Termos (com Theil) x Veículos

  44. Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (com Theil) x Veículos -- termos mais importantes (mais alto score) em 6 comunidades principais.

  45. Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos Termos (Theil-only) x Veículos -- dois veículos como áreas de especialidade - segunda e terceira comunidades.

  46. Metodologia desenvolvida e seus resultados Caso 1: Termos (Theil) x Veículos • Nota-se, no entanto, que a análise realizada, neste caso, não contava com um corte adequado dos termos; • Este fato levou a um pequeno número de comunidades e para alguns grandes temas de investigação; • Isto deveu-se ao fato de que muitos termos comuns estão poluindo a análise SVD, a qual ficou com informações semanticamente pobres. • É a afirmação de que uma seleção mais fina de termos, como conseguido usando-se a teoria de Luhn, pode melhorar significativamente os resultados analíticos da SVD. Este fato é demonstrado na próxima seção.

  47. Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Scree-plot dos níveis de energia da SVD para os Termos (Luhn) x Veículos.

  48. Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- termos mais frequentes em 6 comunidades.

  49. Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) Termos (Luhn) x Veículos (Luhn) -- as seis principais conferências e revistas na segunda e 16a. comunidades.

  50. Metodologia desenvolvida e seus resultados Caso 2: Termos (Luhn) x Veículos (Luhn) • Neste segundo experimento  foi possível observar que o processamento SVD foi significativamente melhorado pela seleção de termos com base na filtragem semântica. • As comunidades  mais bem caracterizadas tanto em termos quanto em veículos, proporcionando um panorama interessante da pesquisa em ciência da computação.

More Related