Fouille de données (Data Mining)

Fouille de données (Data Mining) Karine Zeitouni ISTY - 3ème année Université de Versailles Saint-Quentin Edition 2011-2012

Plan Général du Cours • Introduction • Principales techniques • Motifs fréquents • Associations • Classification et prédiction • Groupage et segmentation • Préparation des données • Filtrage et validation • Méthodologie et Standards • Fouille de données complexes • Motifs séquentiels • Fouille de texte • Fouille de données spatiales et spatiotemporelles • Etude de cas Fouille de données

I. Introduction

I. Introduction • Motivation : pourquoi le data mining ? • Métaphore • Définition • Applications • Fonctions du data mining • Lien aux autres disciplines • Historique • Marché du data mining et de la BI Fouille de données

1. Motivation (1) • De plus en plus de données qu’il faut « fouiller » • Accumulation de données due à la maturité des technologies de bases de données et à l’automatisation de collecte de données • Exemples de sources de données : • Celles générées par le commerce électronique : ex. Transactions • Entrepôts du Web : ex. Google • Réseaux sociaux et hébergement de documents : ex. Facebook, gmail… • Générées par des capteurs : ex. Images de télédétection • + Surveillance, Logs de tout genre, simulations, … Fouille de données

Motivation (2) • Volumétrie des entrepôts de données Réf. http://www.wintercorp.com/WhitePapers 6 Fouille de données

Motivation (3) • Pourquoi maintenant ? • L’utilisation dans l’industrie du data mining est récente • Les données sont produites électroniquement • Le contexte est ultra-concurrentiel • Les données sont archivées • Plateformes de calculs disponibles à bas prix • Des solutions et des compétences data mining disponibles • Un nouveau marché • Nouveau concept : Information as a product • Toute société ou organisme qui collecte des données valorisables est potentiellement un broker d’information, qu’il peut vendre ou en exploiter commercialement les modèles pour des utilisations essentiellement marketing. • Ex: Mots-clés pour les moteurs de recherche. Fouille de données

Paradoxe : trop données mais pas assez d’informations 2. Métaphore Trop de données... Fouille de données

Métaphore Difficulté d’accès à l’information… • Trop de données tue …l’information Fouille de données

Métaphore Trop de pistes à explorer... Fouille de données

Métaphore …pas d’accès facile à l’information Oh John, the computer doesn’t provide any ! What are we going to do ? Jane, we need a solution ! Fouille de données

Métaphore Ce dont on a besoin…. Automatisation • Générateur valideur d’hypothèses Fouille de données

3. Qu’est ce que le Data Mining ? • Objectif : • Par analogie à la recherche des pépites d ’or dans un gisement, le data mining vise : • à extraire des informations cachées par analyse globale ; • à découvrir des modèles (“patterns”) difficiles à percevoir car : • le volume de données est très grand • le nombre de variables à considérer est important • ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier) Fouille de données

Définition • La fouille de données est le processus visant : • L’extraction de connaissances, non triviales,implicites, préalablement inconnues et potentiellement utiles,depuis des données stockées dans de larges bases de données. • Ce qui n’est pas de la fouille de données : • L’analyse par requêtes • Les bases de données déductives et les systèmes experts • Les méthodes d’apprentissage (IA) et l’analyse statistique sur un petit ensemble d’observations. Fouille de données

Applications 4. Applications par domaine Services financiers • Attrition (churn) • Détection de fraudes • Identification opportunités de ventes Marketing • Gestion de la relation client (CRM) • Optimisation de campagnes marketing • Ventes croisées Télécommunications • Fidélisation (anti-churn) • Ventes croisées • Incidentologie Assurances, Secteur public • Indiquer les anomalies des comptes • Réduire le coût d’investissement d’activité suspecte • Détection de la fraudes Grande Distribution • Fidélisation • Ventes croisées • Analyses de panier • Détection de fraudes Sciences de la vie • Trouver les facteurs de diagnostic typiques d’une maladie • Alignement gênes & protéïnes • Identifier les capacités d’interaction de médicaments Internet • Personnalisation des pub affichées • Optimisation des sites web • Profilage et Recommendation Autre • Rech. d’info (web ou document) • Recherche par similarité (images…) • Analyse spatiale… Fouille de données

Applications Exemples d’application • Gestion et analyse commerciales • Analyse clientèle ou CRM analytique (gestion de la relation client) : • Qui sont mes clients ?Pourquoi sont-ils mes clients ?Comment les conserver ou les faire revenir ? • Marketing ciblé, actions commerciales, vente croisée : • Où placer ce produit dans les rayons ?Comment cibler plus précisément le mailing concernant ce produit ? • Analyse du risque • Prédiction, fidélisation des clients, contrôle qualité, compétitivité • Détection des fraudes, analyse des incidents • Autres applications • Gestion, indexation et classification de documents, du web et de la navigation sur Internet. • Moteurs de recherche intelligents. Fouille de données

Applications Data mining pour le CRM • Mieux connaître le client →Pour mieux le servir →Pour augmenter sa satisfaction →Pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver) • Data mining pour savoir : • Quel client restera fidèle et qui partira? • Quels produits proposer à quels clients? • Qu’est-ce qui détermine qu’une personne répondra à une offre donnée? • Quel est le prochain produit ou service qu’un client particulier désirera? Fouille de données

Applications Exemple 1 – analyse commerciale • Gisement de données • Opérations de carte de crédit, de cartes de fidélité, plaintes des clients, en plus des sondages marketing (publics), Web logs • CRM • Grouper les clients par classes homogènes selon leurs propriétés : âge, situation familiale, CSP, revenu, type de résidences, types de dépenses, etc. • Profilage des clients par classification : qui achète quoi ? • Ventes croisées • Associations/corrélations entre produits vendus • Usage du web – marketing et ventes sur internet • Découverte des préférences des clients, optimisation du site, etc. Fouille de données

Applications Exemple 2 : Anti-Churn • Application type dans le secteur des télécom • Bases de données des clients et des appels • Fichiers des réclamations • Qui sont les clients susceptibles de partir chez un concurrent ? Fouille de données

Applications Exemple 3 – Détection de fraudes • Santé • Anomalies dans les prescriptions • Assurances • détecte les fausses déclarations d’accidents • Finance • Transactions financières suspectes • Télécommunications • Caractérisation des modèles d’appels en fonction de la destination, du moment et de la durée et détection de déviation par rapport à la normale Fouille de données

Applications Exemple 4 : Application boursière • Portail boursier • conseil en achat / vente d'actions • Données de base • historique des cours • portefeuille client • Analyse du risque • Analyse technique du signal • Conseils d'achat – vente • Mise à disposition sur portail Fouille de données

5. Fonctions du Data Mining (1) • Caractérisation et discrimination • Généraliser, résumer, retrouver et contraster les caractéristiques des données (ou d’une partie) • Association • Association traditionnelle : PC à Pack Office [support = 1%, confiance = 75%] Diaper à Beer [support = 0.5%, confiance = 75%] • Association multi-dimensionnelle : âge(X, “20..29”) ^ revenu(X, “20..29K”) à achat(X, “PC”) [support = 2%, confiance = 60%] Corrélation ou causalité ? Fouille de données

Fonctions du Data Mining (2) • Classification et prédiction • Apprentissage de modèles permettant de décrire et de différencier des classes afin de classer les futures « individus » • Présentation : règles de classement (si ...alors), arbre de décision, réseaux neuronal • Ex : solvabilité des clients • Régression • Fonction mathématique y=a1*x1+a2*x2+...+an*xn + r ; r = résidu et y = variable à prédire • Ex : prédire le % de profit ou de perte des prêts d'une banque Fouille de données

Fonctions du Data Mining (3) • Classification ou segmentation non supervisée(clustering) • Découpage d’une population en sous-ensembles homogènes permettant de découvrir des classes • Son principe est de maximiser la similarité intra-classe tout en minimisant la similarité inter-classes • Ex : trouver une segmentation pertinente des clients pour guider les actions commerciales ou les affectations à des conseillers,… Fouille de données

Fonctions du Data Mining (4) • Analyse de déviations (bruit ou anomalies ?) • Par la non conformité au comportement général • Peut-être interprété comme un bruit à ne pas prendre en compte • ou comme une anomalie dans la détection de fraude • ou comme un événement intéressant par sa rareté • Tendances et évolutions • Analyse de séries temporelles dans le but de prédire l’évolution • Détection de motifs séquentiels fréquents ou périodiques • Ex1 : séquence d’achat d’un client • Ex2 : comportement collectif d’achats (périodicité) • Et la tendance et déviations sur des flots de données ? Fouille de données

6. Lien aux autres disciplines Bases de données Statistique Data Mining Intelligence Artificielle (IA) Visualisation Science de L’information Autres disciplines Fouille de données

DM / Stat. Data mining versus statistique • En statistique : • Quelques centaines d’individus • Quelques variables • Fortes hypothèses sur les lois statistiques • Importance accordée au calcul • Échantillon aléatoire. • En Data mining • Des millions d’individus • Des centaines de variables • Données recueillies sans étude préalable • Nécessité de calculs rapides • Corpus d’apprentissage. Fouille de données

Ce qui est nouveau en data mining • Expression et résolution des règles d'association • analyse de la consommation depuis <Num. transaction, articles achetés> • Extension de SQL par des requêtes inductives (ex. DMQL) • intro. de connaissances tq hiérarchie de concepts et définition des seuils • Nouveaux algorithmes : • ex. pour le clustering utilise des techniques d’indexation de bases de données pour l ’efficacité sur de GROS volumes de données • L’intégration de l’OLAP et du data mining • Par exemple, génération de hiérarchies de dimension par la classification automatique hiérarchique. Fouille de données

DM / KDD DM versus Systèmes décisionnels (1) • Knowledge Discovery in Databases (KDD) • Processus complet d’Extraction de Connaissances des Données (ECD) • Comprend plusieurs phases dont : • Le data warehousing • L’OLAP • Le data mining • Le reporting Fouille de données

DM / KDD Processus de KDD Fouille de données

DM / BI Business Intelligence • La Business Intelligence (BI) est un concept proposé par IBM, Microsoft, Oracle, … pour : • « Consolider la quantité gigantesque de données atomiques que les entreprises génèrent en information pour que les gens puissent les accéder, les comprendre et les utiliser » => Présenter l’information dans des formats plus utiles, en utilisant des outils d’exploration, de reporting et de visualisation avancés. • But : • Améliorer les performances décisionnelles de l'entreprise en répondant aux demandes d’analyse des décideurs non informaticiens et non statisticiens Fouille de données

Pyramide de la BI Niveau d’aide à la décision Utilisateur final Aide à la décision Analyste métier Présentation Techniques de Visualisation Data Mining Analyste de données Découverte des connaissances Exploration des données Analyse statistique, requêteurs, rapports Entrepôts et magasins de données Intégration, OLAP DBA Sources de données Documents, fichiers, SGBD opérationnels (OLTP), fournisseurs Fouille de données

7. Historique (1) Création et alimentation de fichiers (60) SGBD (70 - 80) BD Relationnelles & OLTP • BD avancées (>mi 80) • - Relationnel étendu, déductif • - Objet, objet-relationnel • Types spatial, multimédia, tempo. Datawarehouse/ Datamining (>fin 80) - OLAP - KDD • BD Web (>90) • BD semi-structurée (XML) • BD documents • BD mondiales (> 2000) • - Réseaux sociaux énormes • Flots de données • => Besoin de flexibilité et d’auto-admin • BD & RI convergents (> 2000) • Requêtes flexibles (Top-K, similarité) • BD probabilistes • KDD essentiel ! Fouille de données

Historique (2) • Le data mining n’est pas nouveau : • 1875 : Régression linéaire • 1936 : Analyse discriminante • 1943 : Réseaux de neurone • 1944 : Régression logistique • 1984 : Arbres de décision • 1990 : Apparition du concept de data mining Fouille de données

Historique (3): domaine de recherche • 1989 IJCAI Workshop on Knowledge Discovery in Databases • Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) • 1991-1994 Workshops on Knowledge Discovery in Databases • Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) • 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) • Journal of Data Mining and Knowledge Discovery (1997) • ACM SIGKDD conferences since 1998 and SIGKDD Explorations • Autres conférences sur le data mining • PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. • ACM Transactions on KDD starting in 2007 Fouille de données

SAS Entreprise Miner de SAS Statistiques, groupage, arbres de décision, réseaux de neurones, associations, ... SPSS Modeller (ex. Clementine) statistiques, classification, réseaux de neurones Intelligent Miner d'IBM modélisation prédictive (stat.), groupage, segmentation, analyse d'associations, détection de déviation, analyse de texte libre KXEN Utilise SVM pour le SRM (Structural Risk Minimization) Oracle 10g ODM SQL Server DM Logiciels libres : Weka RapidMiner (Univ. Dortmund) SIPINA/Tanagra (Univ. Lyon 2) Site de référence : kdnuggets.com Quelques produits Fouille de données

Fouille de données

Références ouvrages • René Lefébure et Gilles Venturi, Data Mining : Gestion de la relation client, personnalisations de site web, Eyrolles, mars 2001 • Georges Gardarin, Internet/intranet et bases de données : data web, data media, data warehouse, data mining, Eyrolles, avril 1999 • J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann (3ed. 2011) • X. Wu and V. Kumar. The Top Ten Algorithms in Data Mining. Chapman & Hall/CRC, 2009. • T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009 • P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 • D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 • S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 • U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 • G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 • The Vertica Analytic Database – Rethinking Data Warehouse Architecture WinterCorp Executive Report – 2008. http://www.wintercorp.com/WhitePapers Fouille de données

Glossaire des applications du data mining La maîtrise de l’information et de la connaissance permet : • CRM (Customer Relationship Management) • Améliorer la connaissance client, Identifier et prévoir la rentabilité client. • Accroître l’efficacité du marketing client pour le garder. • SRM (Supplier Relationship Management) • Classifier et évaluer l’ensemble des fournisseurs. • Planifier et piloter la stratégie Achat. • FI (Finance Intelligence) • Mesurer et gérer les risques. • SPM (Strategic Performance Management) • Déterminer et contrôler les indicateurs clé de la performance de l’entreprise • Tirer parti d’un avantage concurrentiel • HCM (Human Capital Management) • Modéliser la carte des RH (Ressources Humaines) • Aligner les stratégies RH, les processus et les technologies. Fouille de données

Fouille de données (Data Mining)

Fouille de données (Data Mining)

Presentation Transcript

Regression for Data Mining

Data Mining: Concepts and Techniques

Scalable Data Mining

Chapter 2 Data Mining

Data Mining Classification: Basic Concepts, Decision Trees, and Model Evaluation

Data Mining

Data Mining Tools

Data Mining: Proses Data Mining

CS 277: Data Mining Notes on Classification

CS 490 Sample Project Mining the Mushroom Data Set

Proses Data Mining

INTRODUCTION TO DATA MINING

Web Mining : A Bird ’ s Eye View

DATA MINING

Data Mining 2

DATA WAREHOUSING AND DATA MINING

Data Mining 資料探勘

Data Mining using Fractals and Power laws

CS590D: Data Mining Chris Clifton

DATA MINING LECTURE 4

Data Mining : Implementations

Data Mining using Fractals and Power laws