1 / 71

Técnicas de Mineração de Dados na Agricultura

Técnicas de Mineração de Dados na Agricultura. Palestrante: Raquel Stucchi Boschi. O problema da explosão de dados. Dados, informação e conhecimento. O que é mineração de dados? Estatística versus mineração de dados. O processo de descoberta de conhecimento em banco de dados (KDD).

mckile
Télécharger la présentation

Técnicas de Mineração de Dados na Agricultura

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Técnicas de Mineração de Dados na Agricultura Palestrante: Raquel Stucchi Boschi

  2. O problema da explosão de dados. Dados, informação e conhecimento. O que é mineração de dados? Estatística versus mineração de dados. O processo de descoberta de conhecimento em banco de dados (KDD). Uma visão geral das tarefas de mineração. Exemplos de aplicação na agricultura. Índice

  3. O Problema da Explosão de Dados Avanços em diversas áreas tecnológicas Crescimento explosivo na capacidade de GERAR, COLETAR E ARMAZENAR dados. Tipos de Dados: Científicos: satélites, sondas, pesquisas... Sociais: censo, estudos de comportamento.... Comerciais e econômicos: transações bancárias, acesso a servidores... Registro Simples!

  4. Somos ricos em dados e pobres em informação e conhecimento. O Problema da Explosão de Dados MOTIVAÇÃO PARA MINERAÇÃO DE DADOS

  5. Dado, Informação e Conhecimento Dados • Algo bruto; é a matéria-prima da qual podemos extrair informação. Operações lógicas Informação • Dado processado, com significado e contexto bem definido. Conhecimento Interpretações • Uso inteligente da informação; é a informação contextualizada e utilizada na prática.

  6. Dados Faturamento de vendas Região NE = R$300 Região SE= R$1.000 Informação Operações lógicas Estabelecimento  Parâmetro de comparação Meta= R$300 Meta= R$2.000 Interpretações Conhecimento Ações a implementar, as decisões a tomar.

  7. O que é mineração de dados? Analista Tarefas de Mineração de Dados Conhecimento Dados

  8. O que é mineração de dados? • Processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveisembutidos em grandes volumes de dados, por meio da aplicação de algoritmos específicos (FAYYAD et al., 1996). • Padrões podem ser: • expressões descrevendo parte dos dados; • modelos aplicáveis aos dados.

  9. Processamento de consultas (“query processing”); Sistemas Especialistas; Pequenos programas para análise estatística. O que não é mineração de dados?

  10. Estatística x Mineração • Número de pontos analisado é pequeno • Número de pontos analisado é muito grande • É baseada em hipótese (rejeita ou aceita) • Atividade exploratória • Uma amostra dos dados é suficiente • Quanto maior a quantidade de dados, melhor.

  11. Qual o maiorconjunto de dados quevocêjáanalisou? Fonte: http://www.kdnuggets.com/

  12. FerramentasmaisutilizadasparaMineração de Dados % usuários 2010 % usuários 2011 Fonte: http://www.kdnuggets.com/

  13. Exemplo 1 DADOS Registros de venda de automóveis das concessionárias de uma determinada marca em todo o país. CONHECIMENTO DESCOBERTO SE(tipo = pick–up)E(sexo = M) E (idade < 28)ENTÃO(acessórios = completo) (85%) DECISÃO Lançar um novo modelo de pick-up com jogo completo de acessórios e cores atrativas a jovens do sexo masculino.

  14. Exemplo 2 DADOS Cadastro de 500 mil clientes de uma loja de roupas. CONHECIMENTO DESCOBERTO • 7% dos clientes são casados; • Faixa etária de 31 a 40 anos; e • Pelo menos 2 filhos. ? Campanha de Marketing Importante: inicialmente não foi elaborada uma consulta para identificar clientes com esses perfis. Mineração é uma atividade EXPLORATÓRIA !

  15. Principais Fases do Processo de KDD Selecionar um conjunto de dados para mineração Dados

  16. Principais Fases do Processo de KDD Identificação/Eliminação de ruídos e dados faltantes Pode consumir 60% ou mais do tempo no processo de KDD Dados

  17. Principais Fases do Processo de KDD • Identificar atributos relevantes, • reduzir variáveis, normalizar valores • de atributos, etc. Dados

  18. Principais Fases do Processo de KDD • Seleção da tarefa adequada e • extração de padrões Dados

  19. Principais Fases do Processo de KDD • Visualização, transformação, • filtro de padrões redundantes, etc.

  20. Novos:os padrões descobertos devem possuir um certo grau de novidade. Úteis:os padrões descobertos devem ter potencial de conduzir a ações com utilidade. Compreensíveis:linguagem compreendida pelos usuários  análise mais profunda. Característica de padrões interessantes Padrões interessantes representam CONHECIMENTO

  21. Um padrão é interessante quando atende, de forma global, às qualidades desejadas: Validade; Novidade; Utilidade; Simplicidade. Padrões são dependentes do domínio de aplicação e do usuário!! Um padrão também é interessante quando valida uma hipótese que o usuário pretendia confirmar. Característica de padrões interessantes

  22. Tarefas na Mineração de Dados Envolvem aprendizado com um conjunto de dados para posterior predição do atributo definido como meta. Consistem na identificação de padrões inerentes a determinado banco de dados.

  23. Tarefas na Mineração de Dados

  24. Clusterização • Técnica inicial de exploração; • Identificar um conjunto finito de clusters (agrupamentos); • Os conjunto devem ser: • Mais homogêneo possível dentro de si; • Mais heterogêneo possível em relação a outro conjunto. • Não é necessário identificar os agrupamentos desejados ou os atributos a serem utilizados

  25. Clusterização “Processo para organizar objetos em grupos nos quais seus membros sejam de alguma forma similares”.

  26. Aplicações Gerais • Reconhecimento de padrões; • Análise de dados climáticos; • Agrupamento de pacientes com mesmos sintomas; • Marketing e business: segmentação de mercado; • Web: classificação de documentos; • Uso da terra; • Seguro.

  27. Métodos baseados em particionamento K cluster Banco de dados D Registros Semelhantes • Muitos padrões nos dados  Difíceis Interpretação • A “Clusterização” reduz a complexidade dentro de cada “Cluster”. • Algoritmo  K-Means

  28. k-means: algoritmo Input: k, D Output: K centróides e os objetos de cada cluster

  29. PASSO 1 • Seleção “arbitrária” de “K” pontos para serem os “Centros de Cluster” Escolha Inicial de “Centros de Cluster”

  30. PASSO 2 • Associar cada registro ao “Centro de Cluster” mais próximo. Atenção a esse Registro! Associação de cada Registro aos “Centros de Cluster”

  31. PASSO 3 • Calcular os novos “Centros de Cluster” • Média das coordenadas de todos os pontos associados a cada “Centro de Cluster” Novos “Centros de Cluster” após 1a. Iteração

  32. PASSO 4 • Associar cada registro aos novos “Centros de Cluster” Associações de Registros aos Novos “Centros de Cluster”

  33. k-means: algoritmo • PROCESSO ITERATIVO • Passos 2, 3 e 4 são repetidos até que não ocorra mais mudanças no conjunto de registros que compõem cada “Cluster” Dist. intracluster Dist. intercluster

  34. k-means: algoritmo • OBSERVAÇÕES: • Normalização dos dados; • Necessidade de especificar k, a priori; • Experimentar vários ke avaliar o conjunto de “Clusters” obtido exceto no caso em que se tem alguma razão a priori para definição do k. • Melhor conjunto de “Clusters”  padrão inesperado  ações que possam vir a ser um diferencial competitivo.

  35. Classificação • Predição de um valor categórico (atributo meta). • Tentativa de definição de modelos, regras. • conjunto de exemplos pré-classificados corretamente; • posterior classificação de exemplos novos e desconhecidos; • Árvore de decisão  técnica mais utilizada!

  36. Classificação • Dado um conjunto de registros (dataset): • Cada registro contém um conjunto de atributos, em que um dos atributos é chamado classe. • O conjunto de dados é dividido em 2 subconjuntos: • conjunto de treinamento para construir o modelo; • conjunto de teste para validar o modelo; • Divisão do dataset: conjunto de treinamento (2/3) e conjunto de teste (1/3)

  37. Classificação – Conjunto de Exemplos Atributos Preditivos Atributo Meta Dataset Conjunto de Treinamento (2/3) Conjunto de Teste (1/3)

  38. Classificação Passo 1: encontrar um modelo para o atributo classe como uma função dos valores dos outros atributos. algoritmo usado Indução Criação do Modelo Modelo Conjunto de Treinamento Aplicação do Modelo Dedução Conjunto de Teste Passo 2: registros não conhecidos devem ser associados à classe com a maior precisão possível.

  39. Exemplo - Árvore de Decisão Aparência nó raiz sol chuva nublado umidade vá ventando ≤78 sim não ≥78 nó folha vá Não_vá Não_vá vá nó folha Figura 3 - Exemplo de uma árvore de decisão (Monard e Baranauuskas, 2005).

  40. Aplicando o modelo ao conjunto teste Aparência Início da raiz da árvore Conjunto de Teste sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá

  41. Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá

  42. Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá

  43. Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá

  44. Aplicando o modelo ao conjunto teste Início da raiz da árvore Conjunto de Teste Aparência sol chuva nublado umidade vá ventando ≤78 sim não ≥78 vá Não_vá Não_vá vá

  45. Regras de Classificação Antecedente Consequente SE Aparência = sol E umidade ≤78 ENTÃO Classe = vá Cada regra representa um nó folha

  46. Classificação: Aplicações • Diagnóstico médico; • Classificar transações de cartão de crédito como legítima ou fraudulenta; • Avaliar riscos de empréstimos; • Classificação de solos; • Previsão de tempo, etc.

  47. Classificação X Clusterização • Aprendizado supervisionado (classificação) • Conjunto de treinamento com atributo meta com classe pré-definida; • Novas ocorrências são classificadas com base no conjunto de treinamento. • Aprendizado não supervisionado (clusterização) • Não existe classe pré-definida para nenhum dos atributos; • Um conjunto de observações é dado com o propósito de se estabelecer a existência das classes ou clusters.

  48. Relevância no Pré-Processamento • Limpeza dos dados: reduzir os ruídos e valores faltantes (missing). • No mundo real, dados são imperfeitos. • Derivado do próprio processo que gerou os dados; • Derivado do processo de aquisição dos dados; • Derivado do processo de transformação; • Classes rotuladas incorretamente; Ex: Dados de chuva. • Relevância na análise (featureselection) • Remover atributos irrelevantes ou redundantes ( ex: CEP).

  49. Problemas • Prevalência de Classe • Problema com desbalanceamento de classes em conjunto de exemplos Exemplo: distribuição (C1,C2) = (99,75%;0,25%) • Classe Majoritária (ou Prevalente) é C1 • Classe Minoritária é C2 Classificador que classifique novos exemplos como C1 teria uma precisão de 99,75%. E se a Classe C2 fosse, por exemplo, ocorrência de Geada...

  50. Problemas • Overfitting • Classificador Indução muito específica  Superajuste dos dados de treinamento • Ruído nos dados; • Excesso de procura. • Bom desempenho no conjunto de treinamento, mas um desempenho ruim em exemplos diferentes.

More Related