html5-img
1 / 52

Extraction des règles d’association à partir d’un corpus spécialisé

Extraction des règles d’association à partir d’un corpus spécialisé. Jérôme AZÉ et Mathieu ROCHE Laboratoire de Recherche en Informatique Novembre 2002, Lille. Équipe Inférence et Apprentissage du LRI. Responsable d’équipe : Michèle SEBAG Travaux réalisés sous la direction de

lucky
Télécharger la présentation

Extraction des règles d’association à partir d’un corpus spécialisé

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extraction des règles d’association à partir d’un corpus spécialisé Jérôme AZÉ et Mathieu ROCHE Laboratoire de Recherche en Informatique Novembre 2002, Lille

  2. Équipe Inférence et Apprentissage du LRI • Responsable d’équipe : Michèle SEBAG • Travaux réalisés sous la direction de Yves KODRATOFF Lille - novembre 2002

  3. Motivations • Extraire des connaissances à partir d’un corpus spécialisé • Corpus étudié : • Corpus d’introduction d’articles en anglais écrits par des anglophones sur le domaine de la « fouille de données ». • 100 introductions (400Ko) Lille - novembre 2002

  4. InputGen Input data-transformation data-record NatofInput data-stream data-rich Motivations • Obtenir une description précise du domaine étudié : taxonomie Lille - novembre 2002

  5. Motivations • Extraire des connaissances spécifiques au corpus étudié : règles d’association BUT :Permettre à l’expert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié Lille - novembre 2002

  6. Plan de l’exposé • Motivations • Taxonomie • Recherche terminologique • Construction de la taxonomie • Extraction des connaissances • Discrétisation • Extraction des règles d’association • Validations • Conclusions et perspectives Lille - novembre 2002

  7. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Construction de la Taxonomie Corpus brut Lille - novembre 2002

  8. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 2ème étape : Recherche de termes Corpus avec termes Étapes de notre travail 1ère étape : Nettoyage Corpus nettoyé Corpus brut Exemple de prise en compte de la terminologie du domaine :Considérer le terme "data mining" plutôt que chacun des mots "data" et "mining". Lille - novembre 2002

  9. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Étapes de notre travail 1ère étape : Nettoyage Corpus nettoyé Corpus brut 2ème étape : Recherche de termes 3ème étape : Construction de la taxonomie Corpus avec termes Lille - novembre 2002

  10. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1ère étape Corpus brut Corpus nettoyé Le nettoyage(1/2) Lille - novembre 2002

  11. Le nettoyage(2/2) • Règle 1 On remplace les références aux articles ([lettres+année], [numéro], etc.) par "an article » ou "articles" si ces références sont précédées de la préposition "in", sinon on supprime ces références • Règle 2 : Un mot m suivi du mot "based" et non suivi des prépositions "on" ou "upon" m-based est un terme. Lille - novembre 2002

  12. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus avec prise en compte de la terminologie Détection de la terminologie(1/11) 2ème étape data mining decision tree association rule intrusion detection Liste de termes Corpus nettoyé Lille - novembre 2002

  13. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - The/DT increase/NN in/IN the/DT amount/NN of/IN data/NNS collected/VBN in/IN databases/NNS ... Étiqueteur de Brill Détection de la terminologie(2/11) Étiqueteur grammatical Corpus étiqueté Corpus nettoyé The increase in the amount of data collected in databases ... Lille - novembre 2002

  14. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(3/11) Étiqueteur grammatical Corpus étiqueté Corpus brut Amélioration de Brill : Ajouter : - des règles lexicales propres au domaine - des règles contextuelles Lille - novembre 2002

  15. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(4/11) Étiqueteur grammatical Corpus brut Corpus étiqueté Extraction des candidats-termes • Candidats termes extraits : • Nom-Nom • Adjectif-Nom • Nom-Préposition-Nom • Nom-verbe_gérondif decision tree association rule data mining intrusion detection Lille - novembre 2002

  16. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Détection de la terminologie(5/11) Étiqueteur grammatical Corpus étiqueté Corpus brut Extraction des candidats-termes Sélection des “meilleurs” candidats-termes data mining decision tree association rule intrusion detection decision tree association rule data mining intrusion detection Lille - novembre 2002

  17. Sélection des meilleurscandidats-termes du domaine Principe de la mesure utilisée : • Information Mutuelle : calcul du degré d’indépendance entre les deux mots qui composent les candidats-termes. Lille - novembre 2002

  18. Mesure d’association[Jacquemin, 1997] Principe de la mesure utilisée : • isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences. Lille - novembre 2002

  19. Détection de la terminologie(8/11) • Évaluation des résultats Un expert du domaine fourni une liste de termes propres au domaine L . Lille - novembre 2002

  20. Détection de la terminologie(9/11) • Évaluation des résultats Lille - novembre 2002

  21. Paramètres ajoutés pour privilégier les termes du domaine • Élagage progressif • A la deuxième itération de la recherche terminologique, privilégier les termes composés des mots issus des termes retenus à la première itération. • Privilégier les termes déjà reconnus par des auteurs. • Privilégier les termes qui apparaissent dans des textes différents. Lille - novembre 2002

  22. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Taxonomie Construction de la taxonomie(1/3) 3ème étape SP EXPERT et ROWAN Corpus avec prise en compte de la terminologie Lille - novembre 2002

  23. Construction de la taxonomie(2/3) • Pour éviter la polysémie, on ne construit pas des concepts de mots mais des concepts de relations syntaxiques Lille - novembre 2002

  24. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - SUBJ(2@increase 8@collect) VMODOBJ(8@collect 9@in 10@database) … Analyse de Shallow Parser Construction de la taxonomie(3/3) Analyse syntaxique Corpus nettoyé avec terminologie Relations grammaticales The increase in the amount of data collected in databases … Lille - novembre 2002

  25. Classification conceptuellepar l’expert • Expert pour le domaine de la fouille de données : • Yves KODRATOFF • Expert pour le domaine de la biologie: • Oriane MATTE-TAILLIEZ Semi-automatique : Avec le logiciel d’aide à la classification ROWAN Lille - novembre 2002

  26. Rowan • ENTREES • relations syntaxiques • (sortie de Shallow Parser) • SORTIE • taxonomie ROWAN • Fonctions de ROWAN • Visualisation  Aide à la décision • Induction  propose de classer automatiquement des relations dans des concepts Lille - novembre 2002

  27. Troisième étape : construction de la taxonomie Lille - novembre 2002

  28. Extrait d’une taxonomie 0 (compute:Verbe,association-rule:Objet) Output 0 (association-rule:Nom,from:Preposition,database:Nom) Output 0 (association-rule:Adjectif,learning:Nom) AlgoGene0 0 (accuracy:Sujet,represent:Verbe) AlgoMEE 0 (accuracy:Nom,of:Preposition,approach:Nom) AlgoMEE 0 association-rule Outout 1 AlgoGene0 AlgoGene1 1 AlgoMEE AlgoGene1 Lille - novembre 2002

  29. 0.20.45 0.01 0 0 0.054 … 0.015 0.121 0 0.108 … …. …. 22 1 0 0 1 … 1 2 0 2 … …. …. Représentation fréquentielle du corpus Représentation discrète du corpus Concept_1  concept_15 Concept_3  concept_8  concept_6 … Règles Taxonomie Extraction des connaissances Lille - novembre 2002

  30. Connaissances recherchées • Règles d’association : AB • « il pleut »  « les parapluies sont ouverts » • bière, pain  couches-culottes • A : conjonction d ’attributs • B : un attribut • Attributs de type booléen Lille - novembre 2002

  31. Données manipulées • Matrice des fréquences d’occurrence des concepts dans les textes • Besoin d’une représentation discrète des concepts Lille - novembre 2002

  32. Discrétisation des donnéesPourquoi ? • Règles d’association  attributs discrets (booléens) • Données discrètes plus compréhensibles que données continues • taille = {1.81,1.12,1.78,1.64,1.68,1.50} • taille = {grand, petit, grand, moyen, petit} Lille - novembre 2002

  33. Discrétisation des donnéesComment ? • Problème non supervisé • Utilisation d’informations a priori sur les résultats recherchés(Chickering, ICDM ’01) • a priori sur la distribution des données (uniforme, binomiale, gaussienne, etc.) • a priori sur le nombre de valeurs discrètes Lille - novembre 2002

  34. DiscrétisationNotre approche • Discrétisation de chaque attribut indépendamment les uns des autres • Isoler les valeurs nulles = absence du concept dans les textes • Equi-répartir les valeurs non nulles dans k valeurs discrètes (k fixé par l ’expert) Lille - novembre 2002

  35. NatofInput Input Output NatofOutput KnownMethods 0 2 1 0 0 2 1 1 DiscrétisationUn exemple k=2 Lille - novembre 2002

  36. DiscrétisationUn exemple Lille - novembre 2002

  37. Extraction des règles d’association • Apriori (Agrawal, 93) • Utilisation de mesures de qualité • support, confiance, rappel, intensité de l’implication, etc. • utilisation de seuils d’élagage déterminés par l’utilisateur Lille - novembre 2002

  38. AprioriAvantages / Inconvénients • Avantages • Efficace si les données sont peu corrélées • Permet de trouver rapidement les évidences contenues dans les données (règles ayant un support et une confiance élevés) Lille - novembre 2002

  39. AprioriAvantages / Inconvénients • Inconvénients • Exponentiel en fonction du nombre d’attributs • Ne permet pas de trouver des pépites de connaissances dans les données (faible support et confiance élevée) • Génération d’un nombre très élevé de règles pour un couple (support, confiance) donné Lille - novembre 2002

  40. Autre méthode • Objectifs • pouvoir extraire des pépites de connaissances dans les données • minimiser l’intervention de l’expert dans le processus d’extraction Lille - novembre 2002

  41. Pépites de connaissances • Définition • faible support • confiance élevée • Support minimal a priori inconnu… donc inutilisable • Nouvelle mesure de qualité • moindre contradiction (Azé-Kodratoff, 2002) Lille - novembre 2002

  42. A B Moindre Contradiction(1/2) Lille - novembre 2002

  43. B B A A Moindre Contradiction(2/2) Lille - novembre 2002

  44. Moindre ContradictionPropriétés • Ni monotone, ni anti-monotone… • pas d’élagage possible du treillis à l’aide de cette mesure • besoin de nouvelles conditions d’élagage • se focaliser sur les règles AB où B est réduit à un attribut et A est une conjonction d’attributs • ne pas spécialiser les « meilleures » règles • utiliser un seuil d’élagage « contextuel » Lille - novembre 2002

  45. Moindre Contradiction • Seuil d’élagage « contextuel » • Soit  = { R / mc(R) > 0 } (confiance > 0.5) • soit E= moyenne () et E=écart-type() • seuil d’élagage T= E+E • Élagage des règles • Soit R une règle, si mc(R) > T alors R est présentée à l’expert mais aucune spécialisation de R ne sera calculée Lille - novembre 2002

  46. ABCDE ABC ABD ABE ACD ACE ADE ABCD ABCE ABDE ACDE BCDE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE A B C D E  Exemple • Soit une base de données contenant 1000 enregistrements et 6 attributs (A, B, C, D, E et F). Considérons les règles concluant sur F (voir treillis des prémisses). Lille - novembre 2002

  47. ABC ABD ABE ACD ACE ADE ABCD ABCE ABDE ACDE BCDE BCD BCE BDE CDE A B C D E  Exemple • Soit  = {AB, AC, AD, BC, BE, CD, DE} • et {AD, CD} situées au delà de T ABCDE AB AC AD* AE BC BD BE CD* CE DE Lille - novembre 2002

  48. ABC ABD ABE ACD ACE ADE ABCD ABCE ABDE ACDE BCDE BCD BCE BDE CDE A B C D E  Exemple • Soit  = {AB, AC, AD, BC, BE, CD, DE} • et {AD, CD} situées au delà de T ABCDE AB AC AD* AE BC BD BE CD* CE DE Lille - novembre 2002

  49. A B C D E  Exemple • Soit  = {AB, AC, AD, BC, BE, CD, DE} • et {AD, CD} situées au delà de T ABCE ABC ABE ACE BCE BDE AB AC AD* AE BC BD BE CD* CE DE Lille - novembre 2002

  50. Algorithme • Extraction des règles contenant K attributs en prémisse (initialement K = 1) et 1 seul en conclusion. • Étape Initiale • Étape itérative • Condition d’arrêt : ou ou K = Kmax Lille - novembre 2002

More Related