Data mining Metáfora :

Subsistema de gestão de dados Data mining Metáfora : Minas – para extrair um diamante é necessário extrair primeiro uma série de escombros. Information overload - “procurar uma agulha num palheiro” Exemplo: search engines. Descoberta automática de informação. Processo “mágico” que transforma matéria em bruto em diamantes. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Principais características: • Revela dados escondidos, encobertos, não óbvios; • As ferramentas de data mining são normalmente usadas em ambientes cliente/servidor; • O utilizador é normalmente o utilizador final da informação que através de ferramentas de query pretende construir queries e receber respostas sem ter de recorrer à programação; • Obtêm-se muitas vezes resultados inesperados; • Devido às grandes quantidades de dados é muitas vezes necessário usar processamento paralelo. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Principais objectivos: • Previsão - Ex: alguns padrões da ondas sísmicas podem prever um tremor de terra com grande probabilidade; prever o que os clientes irão comprar com certos descontos. • Identificação - Certos padrões podem identificar a existência de um objecto, evento ou actividade. Ex: Intrusos de um sistema informático podem ser identificados pelos programas executados, ficheiros acedidos, tempo de CPU por sessão. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Principais objectivos (continuação): • Classificação - Podemos dividir os dados de modo a identificar diferentes classes ou categorias baseadas em combinações de parâmetros. Ex: os clientes de um supermercado podem ser classificados em compradores assíduos, compradores ocasionais, compradores à caça de promoções. A classificação pode ser usada para decompôr o problema em problemas mais simples. • Optimização - Podemos querer optimizar o uso de recursos limitados, tais como tempo, espaço, dinheiro ou matérias primas e maximizar os lucros obedecendo a determinadas restrições. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Aplicações: • Marketing - previsão de quantos clientes vão comprar um produto, classificação de clientes; • Banca - previsão de crédito mal parado e utilização fraudulenta de cartões de crédito; • Retalhistas - previsão de vendas e calendarização da distribuição; • Seguros - Previsão do número de queixas e dos custos correspondentes, detecção de fraudes; • Polícia - Reconhecimento de padrões nos crimes, no comportamento criminal; Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Aplicações (continuação): • Hardware/software - Previsão de avarias e de potenciais violações de segurança; • Companhias aéreas - Recolha de informação dos destinos mais escolhidos em vôos com escala, calendarização de tripulações; • Saúde - Correlacionamento da morada dos doentes com as doenças que têm; • Broadcasting - Definição da grelha de programas - o que é melhor para o prime time, maximização de lucro pela publicidade; • Indústria - optimização da capacidade de produção. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Formas de conhecimento: • Regras de associação - estas regras correlacionam a presença de um conjunto de items com a presença de outro conjunto de valores para outro conjunto de variáveis. Ex: um cliente que compra queijo e fiambre também compra pão. • Categorização ou segmentação - Um conjunto de dados pode ser separado em grupos com características semelhantes. Ex: os possiveis tratamentos para uma doença podem ser dividdos em grupos baseados nos efeitos secundários produzidos. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Data mining • Formas de conhecimento (continuação): • Padrões sequenciais - detectar associações entre eventos que ocorrem dentro de certos períodos de tempo. Ex: um doente que faz um bypass e posteriormente desenvolve uma concentração elevada de ureia no sangue e provável que sofra de insuficiência renal nos próximos 18 meses. • Padrões de séries temporais - Ex: 2 produtos têm o mesmo padrão de vendas durante o verão, mas diferentes no inverno; encontrar um período de tempo em que inflação desceu. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Selecção de dados • Limpeza • Enriquecimento • Codificação • Data mining (verdadeira fase de descoberta) • Relatório e apresentação da informação descoberta Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Exemplo: • Uma editora vende 5 tipos de revistas: automóveis, decoração, desporto, música e banda desenhada. O objectivo do processo de data mining é descobrir novos agrupamentos de clientes de modo a definir uma política de marketing. Estão interessados em questões como: • "Qual é o perfil típico de leitor das revistas de automóveis?“ • "Existe alguma correlação entre o gosto por automóveis e o gosto por banda desenhada?" Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Selecção de dados Consiste na selecção de dados operacionais do sistema de facturação, que contêm informação acerca das pessoas que subscreveram as diferentes revistas. De modo a facilitar o processo de descoberta de conhecimento é feita uma cópia dos dados operacionais e guardada numa base de dados separada. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Limpeza Problemas: erros de dactilografia, o cliente muda de residência e não avisa, o cliente fornece informação incorrecta, falta de consistência. Algoritmos de reconhecimento de padrãos podem ser usados para a limpeza dos dados. Se o data mining for executado numa data warehouse o processo de limpeza já estará efectuado. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Enriquecimento Suponhamos que compramos informação extra acerca dos clientes (data de nascimento, rendimento, quantidade de crédito, possuem carro e casa). Pela morada (bairro) pode inferir-se um rendimento. Podem também entrevistar-se uma amostra de clientes da base de dados, o que nos dará informação detalhada acerca do comportamento dos clientes. Há que incorporar esta informação na nossa base de dados. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Codificação Nesta fase selecciona-se apenas os registos que têm suficiente informação. Muitas vezes existem registos em que faltam muitos dados e que não é possível completá-los. Temos que decidir se vale a pena manté-los ou se os podemos apagar, uma vez que dado a falta de dados não servem para nada. Nalguns casos, especialmente na detecção de fraudes, a falta de informação pode ser um indício. Vamos agora fazer uma projeccção dos registos. Assumimos que não estamos interessados nos nomes dos clientes, uma vez que só queremos identificar certos tipos de clientes. Assim eliminamos os seus nomes. Até aqui a codificação consistiu apenas em operações de SQL. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Codificação (continuação) • Neste momento, a informação da nossa base de dados é ainda muito detalhada para ser usada como input de um algoritmo de reconhecimento de padrões. • Ex: • data de nascimento  classes de idades • Morada  código postal. • Data de subscrição  poderiam ser agrupadas em meses começando em 1990 ou anos. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Codificação (continuação) Poderiamos encontrar dependências do género: Um cliente com rendimento > 15.000 euros e idade entre 20 e 30 anos que subscreveu revistas de banda desenhada no mês M aparentemente irá subscrever uma revista de automóveis 5 anos depois. Ou identificar tendências como: O nº de revistas de decoração vendidas a clientes com rendimento entre 10.000 e 20.000 euros que vivem na região R está a aumentar. O modo como codificamos os dados determina o tipo de padrões e relações que vamos encontrar. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Codificação (continuação) • Exemplos de codificação: • Endereço - compressão da morada em 4 códigos de regiões. Quantos códigos e definição de regiões? • Data de nascimento - divisão em 10 classes discretas de 10 anos. • Rendimento - divisão em classes de 1000. Não só simplifica a informação, como cria classes de rendimento com a mesma ordem de magnitude das classes de crédito, o que facilita as comparações. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Codificação (continuação) • Exemplos codificação: • Crédito - divisão em classes de 1000. • Conversão de posse de carro “sim” ou “não” em 1 ou 0 - codificação binária melhora a eficiência dos algoritmos de reconhecimento de padrões. • Conversão da data de subscrição no nº do mês a partir de 1990 - facilita a análise de séries temporais. A codificação em dias seria detalhada demais, mas permitiria a análise de datas especiais como o dia de Natal, Páscoa, ou feriados nacionais. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Codificação (continuação) A cada subscrição corresponde um registo. Não muito apropriado para encontrar relações entre as diferentes revistas. Mais eficiente ter uma ideia de todas as revistas subscritas por cada cliente. Um registo apenas por cliente. Indexação por bitmaps Sistemas de Apoio à Decisão

Subsistema de gestão de dados Bitmap indexing Consiste na construção de um vector de bits para cada valor do domínio a ser indexado (coluna) (bom para domínios pequenos). Facilita a comparação, agregação e o cruzamento de dados. O bit 1 é colocado na posição n do vector se a linha n contiver o valor a ser indexado. Exemplo: Um inventário de 100 000 carros com um bitmap para indexar o tamanho do carro. Se tivermos 4 tamanhos possíveis - económico, compacto, gama média e gama alta - teriamos 4 vectores de bits cada um com 100 000 bits (12,5 K) para um tamanho de índice de 50 K. Sistemas de Apoio à Decisão

Subsistema de gestão de dados • Processo de descoberta do conhecimento • Data mining • Não é uma técnica única. Várias técnicas são usadas para permitir a extracção de informação a partir dos dados existentes: • Ferramentas de query • Técnicas de estatística • Métodos de visualização • Online analytical processing (OLAP) • Case-based learning - k vizinhaças mais próximas • Árvores de decisão • Regras de associação • Redes neuronais • Algoritmos genéticos Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Ferramentas de query versus data mining As ferramentas de query ajudam os utilizadores a encontrar factos novos e interessantes a partir de dados que eles armazenaram numa base de dados. Permitem-lhe fazer perguntas como: Qual o nº de automóveis vendidos no norte e no sul de portugal? Ao fazer esta pergunta o utilizador já sabe ou desconfia que o volume de vendas é afectado pela dinâmina do mercado regional. O utilizador fez uma suposição. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Ferramentas de query versus data mining Num estudo de data mining o utilizador não sabe o que pode influenciar o volume de vendas. Em vez de assumir uma relação entre a localização geográfica e o volume de vendas, ele pede à ferramenta de data mining que tente descobrir que factores mais influenciam o volume de vendas. Uma ferramenta de data mining não exige nenhuma suposição, ela tenta descobrir relações e padrões escondidos que nem sempre são óbvios. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Ferramentas de query versus data mining Data mining descobre padrões que guiam os utilizadores para as perguntas correctas a efectuar com as ferramentas de query tradicionais. Muitos vendedores de ferramentas de query já incluem componentes de data mining no seu software. 80% da informação de interesse pode ser conseguida através de uso de ferramentas de SQL. Os restantes 20% de informação escondida (encoberta) requere técnicas mais avançadas e estes 20% são de grande importância para muitas operações empresariais. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Adriaans P. And Zantinge D., 1996 Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Técnicas estatísticas Podemos começar por extrair informação simples como as médias de vendas das diversas revistas (329 clientes em cada 1000 subscrevem revistas de automóveis) ou a média dos atributos (média de idades dos clientes 46,9 anos). Estes dados são importantes, pois dão-nos uma ideia de como avaliar a performance dos algoritmos de reconhecimento de padrões. Suponhamos que queriamos prever quantos clientes irão comprar uma revista de automóveis. Um algoritmo que indique sempre que o cliente não vai comprar uma revista de automóveis estará correcto para 671 casos em cada 1000 (cerca de 70% das vezes). Um resultado trivial que se consegue através de um método extremamente simples chama-se previsão naife. Qualquer outro algoritmo deverá fazer melhor. Sistemas de Apoio à Decisão

Nº clientes 400 350 300 250 200 150 100 50 0 0 3 1 2 4 5 Nº revistas subscritas Subsistema de gestão de dados Sistemas de Apoio à Decisão

Nº subscrições 180 160 140 120 100 80 60 40 20 0 10 40 20 30 50 90 70 80 60 Idade dos compradores Subsistema de gestão de dados Sistemas de Apoio à Decisão

Nº subscrições 180 160 140 120 100 80 60 40 20 0 10 40 20 30 50 90 70 80 60 Idade dos compradores de revistas de automóveis Subsistema de gestão de dados Sistemas de Apoio à Decisão

Nº subscrições 100 90 80 70 60 50 40 30 20 10 0 10 40 20 30 50 90 70 80 60 Idade dos compradores de revistas de desporto Subsistema de gestão de dados Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Métodos de visualização Este métodos são muito úteis na identificação de padrões. Realidade virtual permite ao utilizador navegar em espaços artificiais. Animação pode ser usada para analisar dados históricos que evoluem ao longo do tempo. Busca de projecções de dados que revelem informação importante. Ambiente 3D interactivos, permitem ao utilizador alterar os dados a visualizar e escolher o ponto de vista. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Métodos de visualização Metáfora do espaço: Podemos determinar a distância entre 2 registos no espaço de dados: os registos que estiverem mais próximos uns dos outros terão mais coisas em comum; os registos mais afastados entre si pouco têm em comum. Para isto os dados devem estar normalizados. Os registos tornam-se pontos no espaço multidimensional e a distância entre eles pode ser pode ser quantificada (distância Euclidiana). Podem visualizar-se nuvens de dados. Sistemas de Apoio à Decisão

Idade Rendimento Crédito Cliente 1 32 40.000 10.000 Cliente 2 24 30.000 2.000 8 10 8 Cliente 2  (82 + 102 + 82) = 15 Cliente 1 Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Métodos de visualização Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Ferramentas de OLAP - Multidimensionalidade Podemos querer saber que tipo de revista é vendida numa determinada região por mês e por grupo de idade. Os decisores pode querer saber a resposta a um nº infindável de questões: agora querem saber as vendas ordenadas por região, idade e rendimento e amanhã os mesmos dados ordenados por crédito e idade. Normalmente estes dados fazem parte de uma enorme base de dados que deve ser acedida online. As ferramentas OLAP tentam resolver estas questões. Esta ferramentas guardam os dados em formato multidimensional. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Ferramentas de OLAP - Multidimensionalidade As ferramentas de OLAP não "aprendem" nada, não criam informação nova. Apenas facilitam o acesso e a visualização da informação existente. As ferramentas de data mining não necessitam de um formato de dados especial, podem trabalhar directamente sobre os dados da base de dados relacional. São mais poderosas. OLAP pode ser usados nos estados iniciais do processo de data mining revelando possíveis padrões a procurar. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Case-based learning - k vizinhaças mais próximas Quando interpretamos os registos como pontos no espaço de dados podemos definir o conceito de vizinhança: Os registos que estão próximos vivem na mesma vizinhança. Se quisermos prever o comportamento de um determinado indivíduo, começamos por analisar o comportamento de 10 indivíduos que estão próximos deste no espaço de dados. Calculamos a média do comportamento destes 10 indivíduos e este valor será a previsão do comportamento do nosso indivíduo. K é o nº de vizinhos que analisamos para prever o comportamento do nosso individuo. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Case-based learning - k vizinhaças mais próximas Este método é mais um método de busca que uma técnica de aprendizagem, embora o mais puro, pois o próprio conjunto de dados é usado como referência. Para grandes conjuntos de dados este algoritmos atinge uma complexidade elevada, por isso usa-se normalmente em sub-conjuntos da base de dados de tamanho limitado. Os algoritmos de data mining não devem ultrapassar a complexidade n (log n), onde n é nº de registos. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Árvores de decisão São adequadas para a classificação dos dados. (var1  […]) and (var 2 […]) and…(varn  […]) =>Objecto O pertence à classe C A ideia é descobrir as classes e as condições que as definem. A tentativa de prever se um dado cliente terá um dado comportamento implica a suposição que esse cliente pertence a um determinado tipo de grupo de clientes. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Árvores de decisão Se quisermos saber quem comprará revistas de automóveis, temos que determinar que atributos serão mais significativos - idade ou rendimento? Temos que investigar se existe algum limiar no valor da idade que separa os compradores dos não compradores. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Regras de associação As regras de associação são sempre definidas com base em atributos binários. Mus, Decor => Auto Quem lê revistas de música e de decoração muito provavelmente lê revistas de automóveis. O nº de regras de associação que podemos encontrar numa base de dados é quase infinito. É dificil separar o que é realmemente importante do que não serve para nada. É necessário medidas que permitam fazer esta distinção. Sistemas de Apoio à Decisão

Subsistema de gestão de dados Processo de descoberta do conhecimento Data mining Regras de associação Support (prevalência) - associações que tenham muitos registos na base de dados. nº de registos de respeitam a regra / nº de registos da base de dados Confidence (confiança) nº reg. RHS da regra /nº reg. LHS da regra nº de registo para automoveis / nº de registos para música e decoração Sistemas de Apoio à Decisão

Data mining Metáfora :