Extraction des règles d’association à partir d’un corpus spécialisé

Extraction des règles d’association à partir d’un corpus spécialisé Jérôme AZÉ et Mathieu ROCHE Laboratoire de Recherche en Informatique Novembre 2002, Lille

Équipe Inférence et Apprentissage du LRI • Responsable d’équipe : Michèle SEBAG • Travaux réalisés sous la direction de Yves KODRATOFF Lille - novembre 2002

Motivations • Extraire des connaissances à partir d’un corpus spécialisé • Corpus étudié : • Corpus d’introduction d’articles en anglais écrits par des anglophones sur le domaine de la « fouille de données ». • 100 introductions (400Ko) Lille - novembre 2002

InputGen Input data-transformation data-record NatofInput data-stream data-rich Motivations • Obtenir une description précise du domaine étudié : taxonomie Lille - novembre 2002

Motivations • Extraire des connaissances spécifiques au corpus étudié : règles d’association BUT :Permettre à l’expert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié Lille - novembre 2002

Plan de l’exposé • Motivations • Taxonomie • Recherche terminologique • Construction de la taxonomie • Extraction des connaissances • Discrétisation • Extraction des règles d’association • Validations • Conclusions et perspectives Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Construction de la Taxonomie Corpus brut Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 2ème étape : Recherche de termes Corpus avec termes Étapes de notre travail 1ère étape : Nettoyage Corpus nettoyé Corpus brut Exemple de prise en compte de la terminologie du domaine :Considérer le terme "data mining" plutôt que chacun des mots "data" et "mining". Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Étapes de notre travail 1ère étape : Nettoyage Corpus nettoyé Corpus brut 2ème étape : Recherche de termes 3ème étape : Construction de la taxonomie Corpus avec termes Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1ère étape Corpus brut Corpus nettoyé Le nettoyage(1/2) Lille - novembre 2002

Le nettoyage(2/2) • Règle 1 On remplace les références aux articles ([lettres+année], [numéro], etc.) par "an article » ou "articles" si ces références sont précédées de la préposition "in", sinon on supprime ces références • Règle 2 : Un mot m suivi du mot "based" et non suivi des prépositions "on" ou "upon" m-based est un terme. Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus avec prise en compte de la terminologie Détection de la terminologie(1/11) 2ème étape data mining decision tree association rule intrusion detection Liste de termes Corpus nettoyé Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - The/DT increase/NN in/IN the/DT amount/NN of/IN data/NNS collected/VBN in/IN databases/NNS ... Étiqueteur de Brill Détection de la terminologie(2/11) Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The increase in the amount of data collected in databases ... Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(3/11) Étiqueteur grammatical Corpus étiqueté Corpus brut Amélioration de Brill : Ajouter : - des règles lexicales propres au domaine - des règles contextuelles Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(4/11) Étiqueteur grammatical Corpus brut Corpus étiqueté Extraction des candidats-termes • Candidats termes extraits : • Nom-Nom • Adjectif-Nom • Nom-Préposition-Nom • Nom-verbe_gérondif decision tree association rule data mining intrusion detection Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(5/11) Étiqueteur grammatical Corpus étiqueté Corpus brut Extraction des candidats-termes Sélection des “meilleurs” candidats-termes data mining decision tree association rule intrusion detection decision tree association rule data mining intrusion detection Lille - novembre 2002

Sélection des meilleurscandidats-termes du domaine Principe de la mesure utilisée : • Information Mutuelle : calcul du degré d’indépendance entre les deux mots qui composent les candidats-termes. Lille - novembre 2002

Mesure d’association[Jacquemin, 1997] Principe de la mesure utilisée : • isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. Lille - novembre 2002

Détection de la terminologie(8/11) • Évaluation des résultats Un expert du domaine fourni une liste de termes propres au domaine L . Lille - novembre 2002

Détection de la terminologie(9/11) • Évaluation des résultats Lille - novembre 2002

Paramètres ajoutés pour privilégier les termes du domaine • Élagage progressif • A la deuxième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la première itération. • Privilégier les termes déjà reconnus par des auteurs. • Privilégier les termes qui apparaissent dans des textes différents. Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Construction de la taxonomie(1/3) 3ème étape SP EXPERT et ROWAN Corpus avec prise en compte de la terminologie Lille - novembre 2002

Construction de la taxonomie(2/3) • Pour éviter la polysémie, on ne construit pas des concepts de mots mais des concepts de relations syntaxiques Lille - novembre 2002

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - SUBJ(2@increase 8@collect) VMODOBJ(8@collect 9@in 10@database) … Analyse de Shallow Parser Construction de la taxonomie(3/3) Analyse syntaxique Corpus nettoyé avec terminologie Relations grammaticales The increase in the amount of data collected in databases … Lille - novembre 2002

Classification conceptuellepar l’expert • Expert pour le domaine de la fouille de données : • Yves KODRATOFF • Expert pour le domaine de la biologie: • Oriane MATTE-TAILLIEZ Semi-automatique : Avec le logiciel d’aide à la classification ROWAN Lille - novembre 2002

Rowan • ENTREES • relations syntaxiques • (sortie de Shallow Parser) • SORTIE • taxonomie ROWAN • Fonctions de ROWAN • Visualisation  Aide à la décision • Induction  propose de classer automatiquement des relations dans des concepts Lille - novembre 2002

Troisième étape : construction de la taxonomie Lille - novembre 2002

Extrait d’une taxonomie 0 (compute:Verbe,association-rule:Objet) Output 0 (association-rule:Nom,from:Preposition,database:Nom) Output 0 (association-rule:Adjectif,learning:Nom) AlgoGene0 0 (accuracy:Sujet,represent:Verbe) AlgoMEE 0 (accuracy:Nom,of:Preposition,approach:Nom) AlgoMEE 0 association-rule Outout 1 AlgoGene0 AlgoGene1 1 AlgoMEE AlgoGene1 Lille - novembre 2002

0.20.45 0.01 0 0 0.054 … 0.015 0.121 0 0.108 … …. …. 22 1 0 0 1 … 1 2 0 2 … …. …. Représentation fréquentielle du corpus Représentation discrète du corpus Concept_1  concept_15 Concept_3  concept_8  concept_6 … Règles Taxonomie Extraction des connaissances Lille - novembre 2002

Connaissances recherchées • Règles d’association : AB • « il pleut »  « les parapluies sont ouverts » • bière, pain  couches-culottes • A : conjonction d ’attributs • B : un attribut • Attributs de type booléen Lille - novembre 2002

Données manipulées • Matrice des fréquences d’occurrence des concepts dans les textes • Besoin d’une représentation discrète des concepts Lille - novembre 2002

Discrétisation des donnéesPourquoi ? • Règles d’association  attributs discrets (booléens) • Données discrètes plus compréhensibles que données continues • taille = {1.81,1.12,1.78,1.64,1.68,1.50} • taille = {grand, petit, grand, moyen, petit} Lille - novembre 2002

Discrétisation des donnéesComment ? • Problème non supervisé • Utilisation d’informations a priori sur les résultats recherchés(Chickering, ICDM ’01) • a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) • a priori sur le nombre de valeurs discrètes Lille - novembre 2002

DiscrétisationNotre approche • Discrétisation de chaque attribut indépendamment les uns des autres • Isoler les valeurs nulles = absence du concept dans les textes • Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par l ’expert) Lille - novembre 2002

NatofInput Input Output NatofOutput KnownMethods 0 2 1 0 0 2 1 1 DiscrétisationUn exemple k=2 Lille - novembre 2002

DiscrétisationUn exemple Lille - novembre 2002

Extraction des règles d’association • Apriori (Agrawal, 93) • Utilisation de mesures de qualité • support, confiance, rappel, intensité de l’implication, etc. • utilisation de seuils d’élagage déterminés par l’utilisateur Lille - novembre 2002

AprioriAvantages / Inconvénients • Avantages • Efficace si les données sont peu corrélées • Permet de trouver rapidement les évidences contenues dans les données (règles ayant un support et une confiance élevés) Lille - novembre 2002

AprioriAvantages / Inconvénients • Inconvénients • Exponentiel en fonction du nombre d’attributs • Ne permet pas de trouver des pépites de connaissances dans les données (faible support et confiance élevée) • Génération d’un nombre très élevé de règles pour un couple (support, confiance) donné Lille - novembre 2002

Autre méthode • Objectifs • pouvoir extraire des pépites de connaissances dans les données • minimiser l’intervention de l’expert dans le processus d’extraction Lille - novembre 2002

Pépites de connaissances • Définition • faible support • confiance élevée • Support minimal a priori inconnu… donc inutilisable • Nouvelle mesure de qualité • moindre contradiction (Azé-Kodratoff, 2002) Lille - novembre 2002

A B Moindre Contradiction(1/2) Lille - novembre 2002

B B A A Moindre Contradiction(2/2) Lille - novembre 2002

Moindre ContradictionPropriétés • Ni monotone, ni anti-monotone… • pas d’élagage possible du treillis à l’aide de cette mesure • besoin de nouvelles conditions d’élagage • se focaliser sur les règles AB où B est réduit à un attribut et A est une conjonction d’attributs • ne pas spécialiser les « meilleures » règles • utiliser un seuil d’élagage « contextuel » Lille - novembre 2002

Moindre Contradiction • Seuil d’élagage « contextuel » • Soit  = { R / mc(R) > 0 } (confiance > 0.5) • soit E= moyenne () et E=écart-type() • seuil d’élagage T= E+E • Élagage des règles • Soit R une règle, si mc(R) > T alors R est présentée à l’expert mais aucune spécialisation de R ne sera calculée Lille - novembre 2002

ABCDE ABC ABD ABE ACD ACE ADE ABCD ABCE ABDE ACDE BCDE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE A B C D E  Exemple • Soit une base de données contenant 1000 enregistrements et 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). Lille - novembre 2002

ABC ABD ABE ACD ACE ADE ABCD ABCE ABDE ACDE BCDE BCD BCE BDE CDE A B C D E  Exemple • Soit  = {AB, AC, AD, BC, BE, CD, DE} • et {AD, CD} situées au delà de T ABCDE AB AC AD* AE BC BD BE CD* CE DE Lille - novembre 2002

A B C D E  Exemple • Soit  = {AB, AC, AD, BC, BE, CD, DE} • et {AD, CD} situées au delà de T ABCE ABC ABE ACE BCE BDE AB AC AD* AE BC BD BE CD* CE DE Lille - novembre 2002

Algorithme • Extraction des règles contenant K attributs en prémisse (initialement K = 1) et 1 seul en conclusion. • Étape Initiale • Étape itérative • Condition d’arrêt : ou ou K = Kmax Lille - novembre 2002

Extraction des règles d’association à partir d’un corpus spécialisé