1 / 42

Mineração de Textos

Mineração de Textos. Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br http://www.dme.im.ufrj.br/braga.html c.p. 2386 20.001-970 Rio de Janeiro, R.J. Mineração de dados. Mineração de dados O que é ? Metodologia básica Mineração de textos Para que serve Como é feita Exemplos.

orrick
Télécharger la présentation

Mineração de Textos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br http://www.dme.im.ufrj.br/braga.html c.p. 2386 20.001-970 Rio de Janeiro, R.J.

  2. Mineração de dados • Mineração de dados • O que é ? • Metodologia básica • Mineração de textos • Para que serve • Como é feita • Exemplos

  3. Mineração de dados • O que é: • A mineração de dados é uma metodologia para predição e classificação em grandes massas de dados observacionais, sem a tendenciosidade e a limitação de uma análise baseada exclusivamente na experiência do especialista.

  4. Mineração de Dados • Armazém de dados • Seleção dos dados de interesse • Pré-processamento • Transformações matemáticas • Classificação ou Previsão

  5. Mineração de Dados

  6. Mineração de Dados

  7. Mineração de Dados

  8. Mineração de Dados

  9. Mineração de Dados • Classificação Não-Supervisionada: Tem por objetivo a separação das observações em sub-grupos ou classes. Segmentação é a criação de classes.

  10. Mineração de Dados

  11. Mineração de Dados • Classificação Supervisionada: Determinar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já rotulada.

  12. Mineração de Dados • 1. Problema: identificar clientes que se interessariam em comprar CDB´s. • 2. Dados: amostra de 150.000 clientes dos quais se mediram os seguintes atributos: idade, renda, variáveis demográficas, lucratividade, nível do depósito, freqüência de investimentos, ocasião das aplicações entre outras. • 3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário. • 4. Modelo : Árvore de decisão

  13. Mineração de Dados • 5. Avaliação: A árvore explicou 80% do comportamento dos clientes • 6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicação em CDB´s • 7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.

  14. Mineração de Dados

  15. Mineração de Dados • Análise de Associação: Determinar uma associação significativa entre diferentes observações.

  16. Mineração de Dados

  17. Mineração de Dados • Predição: Prever o valor de um atributo em função das observações de outros atributos.

  18. Mineração de textos • O objetivo da Mineração de Textos é o processamento de informação textual, extraindo índices numéricos significativos a partir do texto e então tornar esta informaçãoacessível para os programas disponíveis nos sistemas de mineração de dados.

  19. Mineração de textos • Podem ser analisadas palavras, agrupamentos de palavras, ou mesmo documentos entre si através das suas similaridades ou de suas relações com outras variáveis de interesse num projeto de mineração de textos.

  20. Mineração de textos • O objetivo na fase inicial do projeto é “transformar textos em números (índices significativos” , que podem então ser incorporados em outras análises tais como classificação supervisionada ou não supervisionada.

  21. Mineração de textos • Algumas aplicações típicas para mineração de textos: • Análise de questões abertas em questionários. • Processamento automático de mensagens, “e-mails”, etc... • Busca de referências em uma coleção de artigos, motores de busca.

  22. Mineração de textos • Mais apropriado para um grande número de textos de tamanho médio ou pequeno. • Não deve ser tratado como uma caixa preta. A intervenção do analista é necessária. • Soluções não podem ser importadas de outra língua.

  23. Mineração de textos • Etapas em um Projeto de Mineração de Textos: • Entrada dos textos • Pré-processamento • Cálculo de frequências • Indexação Semântica • Visualização • Classificação Não Supervisionada(“clustering”) • Classificação Supervisionada (“preditive data mining”)

  24. Mineração de textos • Entrada dos textos m1 Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobre os aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menor risco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SA CSN – COMPANHIA SIDERURGICA NACIONAL ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mail ou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI

  25. Mineração de textos • Entrada dos textos m2 Visitar Bordeaux, uma das regiões vinícolas mais importantes do mundo, já é um privilégio. Imagine ter a honra de participar de uma degustação com o Sommelier pessoal da Baronesa Philippine de Rothschild , tendo como pano de fundo o lendário Château Mouton Rothschild. Quer visitar um dos maiores museus da história do vinho e jantar no restaurante Saint Julien? Participando desta promoção você ganha cupons para concorrer a esta mágica viagem, com direito a acompanhante. Acompanhe o roteiro da viagem: Dia 1: Viagem a Paris Dia 2: Trem TGV com destino a Bordeaux. Dia 3: Visita ao Chatêau Mouton Rothschild Visita ao Museu, caves e salas de barricas; Degustação com o sommelier pessoal da Baronesa Philippina Almoço no Restaurante Saint Julien Dia4: Visita a Saint Emillion Dia5: Retorno a Paris / Brasil.

  26. Mineração de textos • Entrada dos textos m3 Cursos via Internet Calendario de cursos de Outubro de 2007 Curso Básico de Segurança em Instalações e Serviços em Eletricidade - NR 10 De: 20/10/2007 à 18/12/2007 Eletricistas, Eletrotécnicos, Operadores, Técnicos, Supervisores, Auxiliares de Manutenção, Mecânicos de Refrigeração, Engenheiros, Gerentes de Construção, Operação e Manutenção; Membros da CIPA, Técnicos e Engenheiros de Segurança e outros interessados responsáveis pela área elétrica e de segurança das instituições em geral. Proteger os trabalhadores que interagem com instalações elétricas, inclusive os que atuam em suas proximidades para fins de ...Saiba mais... Acompanhamento Os participantes terão o acompanhamento do engenheiro de segurança do trabalho habilitado, Sr. Benedito Lázaro Belut, durante todo o curso, para dirimir suas dúvidas. Formação do Tutor: ENGENHARIA DE AVALIAÇÕES - 2000 ENGENHARIA DE SEGURANÇA DO TRABALHO - 1995 ENGENHARIA ELÉTRICA UNESP – (FUNDAÇÃO EDUCACIONAL) – BAURU/SP - 1983 TECNOLOGIA DE SISTEMAS ELÉTRICOS – FUNDAÇÃO EDUCACIONAL – BAURU/SP - 1980 TÉCNICO ELETROTÉCNICA / COLÉGIO TÉCNICO INDUSTRIAL DE BOTUCATU/SP – 1976 37 Cursos de atualização áreas de: Elétrica, Informática, Segurança, Qualidade e Gestão. Investimento de R$ 666,00 por R$ 499,00 (quatrocentos e noventa e nove reais ).

  27. Mineração de textos • Textos agrupados em uma planilha

  28. Mineração de textos • Pré-processamento: • 1) Exclusão de palavras e números, baseada no tamanho, nas letras inicial e final ou outros critérios. • 2) Manutenção ou exclusão de palavras baseada em uma lista previamente definida. • 3) Identificação de sinônimos e antônimos. • 4) Determinação de radicais

  29. Mineração de textos • Pré-processamento: • 1) Exclusão de palavras e números, baseada no tamanho, nas letras inicial e final ou outros critérios. Caracteres válidos: letras latinas e algarismos arábicos Tamanho mínimo da palavra, tamanho máximo, número máximo de consoantes, etc...

  30. Mineração de textos • Pré-processamento: • 2) Manutenção de palavras (lista de inclusão) e eliminação de palavras (lista de exclusão). Há também uma lista de “multipalavras” para inclusão. Lista de inclusão: curso, treinamento, atualização, especialização... Lista de exclusão: o, de, para, até, ser, estarei, estarei, ter, haver... Lista de multipalavras: estado da arte, mineração de dados...

  31. Mineração de textos • Pré-processamento: • 3) Identificação de sinônimos e antônimos. Lista de sinônimos: profissional=técnico=executivo=empregado Lista de antônimos: junior x senior

  32. Mineração de textos • Pré-processamento: • 4) Determinação de radicais Lista de radicais: arquia- autarquia, monarquia

  33. Cálculo de frequências: 1) Log-frequências 2) Frequências binárias 3) Frequências relativas a textos 4) Frequências de palavras 5) Frequências inversas Mineração de textos

  34. Cálculo de frequências: 2) Frequências binárias Mineração de textos

  35. Indexação Semântica: Decomposição em Valores Singulares Mineração de textos

  36. Decomposição em Valores Singulares Mineração de textos

  37. Decomposição em Valores Singulares Mineração de textos

  38. Classificação Não Supervisionada Mineração de textos

  39. Mineração de textos Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobre os aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menor risco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SA CSN – COMPANHIA SIDERURGICA NACIONAL ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mail ou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI

  40. Mineração de textos f1: deposit the cash and check in the bank f2: the river boat is on the bank f3: borrow based on credit f4: river boat floats up the river f5: boat is by the dock near the bank f6: with credit, I can borrow cash from the bank f7: boat floats by dock near the river bank f8: check the parade route to see the floats f9: along the parade route

  41. Mineração de textos 1-2 do que 1-3

  42. Mineração de textos

More Related