Data Mining: Concepts et Techniques

Data Mining: Concepts et Techniques

Plan du Cours • Introduction • Règles d’association • Classification et prédiction • Regroupement (Clustering) • Extraction de types complexes • Applications du Datamining et tendances actuelles (génomique)

Chapitre 1. Introduction • Motivation: Pourquoi le Data mining? • Ce qu’est le Data mining? • Data Mining: Sur quels types de données? • Fonctionnalités du Data mining • Intérêt des motifs (patterns) • Classification des systèmes de Data mining • Problèmes rencontrés

Motivation: Le besoin crée l’invention • Problème de l’explosion de données • Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché) • Beaucoup de données mais peu de connaissances ! • Solution: Data warehousing et data mining • Data warehousing et OLAP (On Line Analytical Processing) • Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données

Evolution des Bases de Données • 1960s: • Collecte des données, création des BD’s, IMS et le modèle réseau • 1970s: • Modèle et SGBD’s relationnels, SQL, transactions, OLTP • 1980s: • Modèles de données et SGBD’s avancés (relationnel étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.) • 1990s—2000s: • Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB

Ce qu’est le Data Mining • Data mining : • Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. • Autres appellations: • ECD (Extraction de Connaissances à partir de Données) • KDD (Knowledge Discovery from Databases) • Analyse de données/patterns, business intelligence, fouille de données, etc …

Pourquoi faire ? Applications potentielles • Analyse de données et aide à la décision • Analyse de marché • Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché • Analyse de risque • Détection de fraudes • Autres Applications • Text mining : news groups, emails, documents Web. • Optimisation des requêtes

Analyse de marché et management (1) • Les sources de données à analyser ? • Transactions avec carte de crédit, carte de fidélité, sondages • Marketing ciblé • Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière • Analyse croisée • Associations/co-relations entre ventes de produits • Prédiction basée sur ces associations

Applications • L’analyse d’une BD de transactionsd’un supermarché permet d’étudier le comportement des clients : • réorganiser les rayons • Ajuster les promotions • En VPC, regrouper les clients selon certains critères : • Cibler les « mailings » • L’analyse de données médicales : • Support pour la recherche • L’analyse de données financières : • Prédire l’évolution des actions • Organismes de crédit (dresser des profils de clients)

Applications • Détection de fraudes • en santé, services de cartes de crédit, télécommunications, etc. • Approche • Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires • Exemples • Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements • Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network)

Applications • Astronomie • Le laboratoire JPL a découvert 22 quasars en utilisant les techniques de datamining • Web • IBM a appliqué des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation. • Améliorer le WEB marketing

Datamining: Un processus dans l’ECD Connaissance Evaluation de patterns • Data mining: étape clé dans l’extraction de connaissances Data Mining Données intéressantes Sélection Data Warehouse Nettoyage de données Intégration Bases de données ou fichiers

Etapes du processus d’ECD • Comprendre le domaine d’application • Création d’un ensemble de données (sélection) • Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) • Choix des fonctionnalités du data mining • classification, consolidation, régression, association, clustering. • Choix de(s) l’algorithme(s) d’extraction • Datamining: Recherche des motifs (patterns) intéressants • Evaluation des Patterns et présentation • visualisation, transformation, suppression des patterns redondants, etc. • Utilisation de la connaissance extraite

Architecture typique d’un système de Data mining Interfacegraphique Evaluation des motifs Module Data mining Base de connaissances BD ouDatawarehouse Nettoyage & intégration Filtrage Data Warehouse BD’s

Datamining: sur quels types de données • BD’s relationnelles • Data warehouses • BD’s transactionnelles • BD’s avancées • BD’s objet et objet-relationnelles • BD’s spatiales • Séries temporelles • BD’s Textes et multimedia • BD’s Hétérogènes • WWW

Fonctionnalités du Data Mining • On distingue deux grandes familles de tâches réalisées en datamining • Description : consiste à trouver les caractéristiques générales relatives aux données fouillées • Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions futures

Quels types de motifs extraire ? (1) • Description de concepts: Caractérisation et discrimination • Caractérisation : Il s’agit de trouver des descriptions concises et précises de certains concepts. Ex: On a une table décrivant les clients d’une entreprise. • Contraster (régions sèches vs humides)

Quels types de motifs extraire ? (2) • Association (corrélation et causalité) • age(X, “20..29”) & revenu(X, “200..300KF”) à achète(X, “PC”) [support = 2%, confiance = 60%] • contient(T, “ordinateur”) à contient(T, “logiciel”) [1%, 75%]

Quels types de motifs extraire ? (3) • Classification et Prédiction • Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions • Ex : classifier les pays en se basant sur leurs climats, les voitures selon leurs carburants • Présentation: Arbres de décision, règles de classification, réseaux neuronaux • Prédiction: Prédire des valeurs inconnues • Démarche: • On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe • Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière

Quels types de motifs extraire ? (4) • Analyse de groupes (clusters) • Appelée aussi classification non supervisée • Le regroupement est basé sur le principe: maximiser la similarité intra-groupe et la minimiser entre groupes distincts • Le nom de chaque groupe est inconnu

Quels types de motifs extraire ? (5) • Analyse d’exceptions • Les objets non conformes à la tendance générale • Une exception peut être considérée comme du bruit mais aussi comme indice de fraude • Analyse de tendances • Tendance et déviation: analyse de régression • Extraction de séquences séquentiels, analyse de périodicités

Est-ce que tous les motifs découverts sont utiles? • Un système de data mining peut générer des milliers de motifs pas tous intéressants. C’est quoi un motif intéressant ? • Mesure d’intérêt : Un motif est intéressant s’il est facilement compréhensible, a un degré de certitude, nouveau, peut servir à valider (ou invalider) une hypothèse utilisateur • Mesure Objective vs. Subjective : • Objective: basée sur des mesures statistiques : support, confiance, etc. • Subjective: basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.

Peut-on trouver tous et queles motifs intéressants? • Trouver tous les patterns intéressants: Complétude • Association vs. classification vs. regroupement • Trouver que les patterns intéressants: Optimisation • Approches • D’abord les trouver tous puis filtrer • Ne générer que les motifs intéressants

Data Mining: Confluence de plusieurs Disciplines Statistique Technologie BD Data Mining Apprentissage Visualisation Théorie de l’information Autres Disciplines

Classification des systèmes (1) • Fonctionnalité générale • Data mining descriptif • Data mining prédictif • Différentes vues, différentes classifications • Types de BD’s à fouiller • Types de connaissances à découvrir • Types de techniques utilisées • Application ciblée

Classification des systèmes (2) • BD fouillée • Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc. • Connaissance recherchée • Association, classification, clustering, tendance, analyse de déviation, etc. • Multiples fonctions aux différents niveaux • Techniques utilisées • BD, data warehouse (OLAP), apprentissage, statistiques, visualisation, réseaux de neurones, etc. • Applications • télécommunication, banque, analyse de fraude, ADN, finance, Web, …

Problématiques • Méthodologie et interaction • Différents types de connaissances à extraire • Prise en compte des connaissances des experts • Langages de requête et data mining ad-hoc • Expression et visualisation des résultats • Prise en compte des données incomplètes ou avec bruit • Évaluation des motifs: notion d’intérêt • Performance et mise en échelle • Efficacité des algorithmes • Méthodes Parallèles, distribuées et incrémentales • Diversité des types de données • Relationnels, objets complexes, texte, …

Résumé • Data mining: Découverte de motifs intéressants à partir de grandes quantités de données • Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications • Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance • La fouille peut se faire sur différents types d’entrepôts de données • Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc. • Classification de SDM • Problématiques du data mining

Quelques systèmes • Intelligent miner d’IBM (couplé avec le SGBD DB2) • Classification, association, régression, analyse de séquences, regroupement • Entreprise miner de SAS • Multiples outils d’analyse statistique, classification, … • Mine set de Silicon graphics. • Classification, association et divers outils statistiques. Très puissant en terme de visualisation • Clémentine de SPSS • En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes • DBMiner de DBMiner technologie. • Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP

Bibliographie Titre: Datamining : Concepts and techniques. Auteurs : Jiawei Han & Micheline Kamber Editeur : Morgan Kaufmann 2000

Data Mining: Concepts et Techniques

Data Mining: Concepts et Techniques

Presentation Transcript

DCS 802 Data Mining Apriori Algorithm

DATA MINING Introductory and Advanced Topics Part II

Knime: a data mining platform

Data Mining: Concepts and Techniques — Slides for Textbook — — Chapter 6 —

Data Mining Classification: Basic Concepts, Decision Trees, and Model Evaluation

Data Mining

COEN 252 Computer Forensics

Data Mining: Concepts and Techniques — Chapter 5 — Mining Frequent Patterns

Data Mining Cluster Analysis: Basic Concepts and Algorithms

Weka – A Data Mining Toolkit

Data Mining: Concepts and Techniques

Data Quality Tips, Tricks and Techniques

CS 490 Sample Project Mining the Mushroom Data Set

Advance concepts in OOP

Data Mining: Concepts and Techniques

DATA WAREHOUSING AND DATA MINING

Association Rule Mining

COEN 152/252 Computer Forensics

Data Mining Cluster Analysis: Basic Concepts and Algorithms

Data Mining: Concepts and Techniques Cluster Analysis Li Xiong

Session 8-9 Data Resource Management

15-826: Multimedia Databases and Data Mining