350 likes | 456 Vues
Monitoração de Qualidade de água com o uso de Dados simbólicos. Afonso Gustavo Ataide Ferreira. Cenário. Preocupação Mundial Escassez Conflitos Armados Mundo volta-se para a qualidade. (IQA) Iniciativas Brasileiras Conama ANA. Roteiro. Estado da Arte Metodologia Resultados
E N D
Monitoração de Qualidade de água com o uso de Dados simbólicos Afonso Gustavo Ataide Ferreira
Cenário • Preocupação Mundial • Escassez • Conflitos Armados • Mundo volta-se para a qualidade. (IQA) • Iniciativas Brasileiras • Conama • ANA
Roteiro • Estado da Arte • Metodologia • Resultados • Conclusões e Trabalhos Futuros
Estado da Arte Classificação de Amostras de Água
Classificação de Amostras de Água • CONRADS (MLP x Branch/BLTM) • YONG (SOM x MLP) • BARUAH (MLP)
Estado da Arte Análise de Dados Simbólicos
Análise de Dados Simbólicos • Dado Numérico • Dado Categórico • Conjuntos • Intervalos Numéricos • Conjuntos associados a pesos
Classificador Simbólico • Amostras: • Espaço:
Classificador Simbólico • Join:
Classificador Simbólico • Aprendizagem: • Sem Mutual Neighborhood Graph • Mutual Neighborhood Graph: • Múltiplas regiões. • Sem interseção com outras classes.
Classificador Simbólico • Classificação:
Metodologia Coleta de Dados Seleção de Variáveis Limpeza dos Dados Análise dos Dados Divisão dos Conjuntos
Coleta de Dados • Bases da CETESB • 35 Características • IQA e outros índices • onze rios, 239 amostras.
Seleção de Variáveis • Oxigênio Dissolvidos • Coliformes Fecais • Potencial Hidrogeniônico (pH) • Demanda Bioquímica de Oxigênio • Temperatura • Nitrogênio Total • Fósforo Total • Turbidez • Resíduo Total
Limpeza dos Dados • Valores não numéricos • Ex: NKT < 0,2
Limpeza dos Dados • Valores Ausentes: • Substituídos pela média da classe
Análise dos Dados • Tamanho do conjunto
Conjuntos de Treinamento e Teste • Hold-out estratificado (50 – 50)
Resultados Protótipo Experimentos
Protótipo • Java J2SE1.5 • Tanagra
Experimentos • Classificador Simbólico: • Taxa de Erro: 21,20% • Desempate: Maior Volume
Experimentos • K-Vizinhos (5-nn) • Distância: Euclidiana • Taxa de Erro: 28,84%
Experimentos • Classificador Simbólico: • Taxa de Erro: 29,63% • Desempate: Menor Volume
Resultados • Teste Estatístico • 1000 iterações
Conclusões • Classificador Simbólico um pouco melhor que o k-vizinhos • Performance ruim em algumas classes • Utilização de MNG aumentou taxa de erro.
Trabalhos Futuros • Mudança do formato de Região • H-Region • Adaptação do algoritmo de MNG • Testes com outras bases de Dados
Referências • ANA – Agência Nacional de Águas • Java – http://java.sun.com • ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data Analysis. Springer, Berlin, (1996) 92–102 • D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A Classifier for Quantitative Feature Values Based on a Region Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A. Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004 • TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching and Research. Disponível em: <http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.