110 likes | 221 Vues
Mineração de Dados (Mestrado de Informática) UCE – Sistema de Suporte à Decisão. Paulo J Azevedo Departamento de Informática ( pja@di.uminho.pt )
E N D
Mineração de Dados(Mestrado de Informática)UCE – Sistema de Suporte à Decisão Paulo J Azevedo Departamento de Informática (pja@di.uminho.pt) Sistemas de informação cada vez mais sofisticados, envolvendo elevadas quantidades de dados, motivam o desenvolvimento de técnicas de Análise Exploratória de Dados para apoio à Decisão Mineração de Dados - Apresentação
Extracção de “conhecimento” (relações não triviais entre os dados) em bases de dados • Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos) para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser visto como um processo de redução que permite uma sumarização dos dados. • Preparação e recolha dos dados (via Warehousing) • Data Mining (extracção das relações “escondidas” entre os dados recolhidos) • Pós-processamento e análise dos resultados • Visualização Mineração de Dados - Apresentação
Perguntas representativas dos problemas a tratar: • Mostrar as transacções que indiciam fraude ? • Quais os indivíduos que tem tendência a comprar o produto X ? • Quais os acessos ao servidor Y que tinham o intuito de “ataque” ? • A que clientes (ou tipo de clientes) deveremos enviar o catálogo de Natal ? • Quais os grupos que melhor caracterizam os nosso clientes ? • Como organizar (e apresentar ao utilizador) o resultado de uma pesquisa muito genérica no Google ? • Considerando o historial de concessão de crédito da nossa instituição deverá ser considerada a proposta Z ? • Sabendo o conjunto de páginas visitados, que tipo de produto consultará o utilizador no resto da sua sessão ? • Que padrões de aminoácidos, de elevado “interesse” biológico, se pode encontrar numa dada família de proteínas ? • Como se comporta um dado conjunto de aminoácidos ao longo do tempo (i.e. ao longo de um determinado processo sofrido pela proteína)? Mineração de Dados - Apresentação
Case Study (1) • Web sites Adaptativos • Amazon: site sugere novos interesses com base nas compras efectuadas. • Challange Netflix: http://www.netflixprize.com • Email Spam filtering, • Códigos Postais, • Handwriting recognition. • Crédito à Habitação • Apoio à decisão na atribuição de crédito baseando no historial da instituição. Mineração de Dados - Apresentação
Case Study (2) • DARPA challenge http://www.darpa.mil/grandchallenge/index.asp • Conduzir um veiculo autónomo no deserto durante cerca de 200 km. • Detecção de fraude nas chamadas de telefones móveis • Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html(propensão para os clientes de uma empresa de comunicações/cartões de crédito/etc mudar de fornecedor) • MicroArrays http://www.en.wikipedia.org/wiki/DNA_microarray • Análise de expressão de DNA (matriz de genes x amostras “situações”) Mineração de Dados - Apresentação
A Estrutura extraída dos dados pode ter a forma de: • Padrões sequenciais, • Motifs • Modelos de Previsão (árvores de decisão, redes neuronais, regras de decisão, etc), • Agrupamentos (clustering)/ Segmentação, • Regras de Associação. • Dependências entre dados (dependências funcionais, multivalor, etc) Mineração de Dados - Apresentação
O processo KDD Data Mining Transformação Interpretação DATA (reavaliação) Pré-processamento Selecção Visualização Mineração de Dados - Apresentação
Algumas ferramentas usadas durante o curso: • C4.5 • R • Cubist • Caren • Weka • Microsoft SQL Server • Outras… Mineração de Dados - Apresentação
Principais temas a estudar… • Modelos de Previsão: árvores de decisão, classificação, previsão numérica, simplificação de modelos, avaliação, composição de modelos, etc. • Regras de Associação: algoritmos, medidas de interesse, pruning, tratamento de numéricos, aplicações, etc. • Clustering: algoritmos, medidas de similaridade, tipos de clustering, etc. • Revisão de significância estatística Mineração de Dados - Apresentação
Avaliação • Proposta: • Teste Teórico • Projectos Prático : • Exercícios semanais • Projecto final com apresentação em grupo. • Nota = 0.5 x projecto + 0.5 x teste ????? Mineração de Dados - Apresentação
Biblio • Data Mining (Pratical Machine Learning tools and Techniques), Ian Witten & Eibe Frank, Morgan Kaufmann Publishers. (WEKA book) • Data Mining, Concepts and Techniques, Jiawei Han & Micheline Kamber, Morgan Kaufmann Publishers. • Apontamentos das aulas Mineração de Dados - Apresentação