1 / 68

Classification conceptuelle à partir des textes

Classification conceptuelle à partir des textes. Mathieu Roche Cours DESS II - 28 f é vrier 2003. Plan « Classification conceptuelle ». Généralités sur la classification conceptuelle Approche non supervisée : LSA Approches supervisées : Asium , Rowan , pré-traitements nécessaires.

orpah
Télécharger la présentation

Classification conceptuelle à partir des textes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classification conceptuelle à partir des textes Mathieu Roche Cours DESS II - 28 février 2003

  2. Plan « Classification conceptuelle » • Généralités sur la classification conceptuelle • Approche non supervisée : LSA • Approches supervisées : Asium, Rowan, pré-traitements nécessaires. Cours DESS II - Classification Conceptuelle - 28/02/2003

  3. Généralités sur la classification conceptuelle Cours DESS II - 28 février 2003

  4. classification conceptuelle Classification conceptuelle (1/3) Moyens de transports bateaux voitures Ensemble de connaissances Classification conceptuelle Cours DESS II - Classification Conceptuelle - 28/02/2003

  5. Classification conceptuelle (2/3) • Ensemble de connaissances = corpus Exemples : • Corpus de 100 introductions d’articles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko). • Corpus de plus de 6000 résumés d’articles en anglais sur la biologie Moléculaire (9424 Ko). • Corpus en français de plus de 1000 Curiculum Vitae (VediorBis,2470 Ko) • Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko). Cours DESS II - Classification Conceptuelle - 28/02/2003

  6. RelationAction Influence avis-extérieur esprit-de-conquête Expansion caractère-expansif personne-aussi-communicative Classification conceptuelle (3/3) • Exemple de classification spécialisée (construite à partir d’un corpus des Ressources Humaines) • Classification généraliste : WordNet Cours DESS II - Classification Conceptuelle - 28/02/2003

  7. Pourquoi utiliser une ontologie : les patrons d’extraction (1/2) • Généralisation des patrons d’extraction [Freitag, 1998] [Faure et Poibeau, 2000]. Exemple en biologie: …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 2patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription :  MSN2 encodes SpécificitéFacteur  MSN4 encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 28/02/2003

  8. Pourquoi utiliser une ontologie : les patrons d’extraction (2/2) Exemple (suite) …MSN2 encodes a zinc-finger transcriptional activator , ... …MSN4 encodes a DNA-binding component of the stress responsive system , ... 1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avec la connaissance sémantique. $TranscriptionActivitor encodes SpécificitéFacteur Cours DESS II - Classification Conceptuelle - 28/02/2003

  9. Pourquoi utiliser une ontologie : Analyse de données (1/4) • Extraire des connaissances spécifiques au corpus étudié : règles d’association [Azé et Roche, 2003]. BUT :Permettre à l’expert du domaine de mieux comprendre les interactions entre les différents concepts du corpus étudié. Cours DESS II - Classification Conceptuelle - 28/02/2003

  10. Corpus Classification conceptuelle Règles d’association Pourquoi utiliser une ontologie : Analyse de données (2/4) Remarque : intervention de l’expert tout au long du processus Cours DESS II - Classification Conceptuelle - 28/02/2003

  11. Pourquoi utiliser une ontologie : Analyse de données (3/4) • Extraction des connaissances Corpus des Ressources Humaines : stress  environnement Corpus de la Fouille de données : NatofInput Output Cours DESS II - Classification Conceptuelle - 28/02/2003

  12. Pourquoi utiliser une ontologie : Analyse de données : quelques règles (4/4) Cours DESS II - Classification Conceptuelle - 28/02/2003

  13. Une approche non supervisée :Latent Semantic Analysis Thomas K Landauer, Peter W. Foltz, Darrell Laham 1998 Cours DESS II - 28 février 2003

  14. Plan de l’exposé de LSA • Introduction • Méthode • Mesure de similarité utilisée • Exemple • Applications Cours DESS II - Classification Conceptuelle - 28/02/2003

  15. Introduction • Motivations : trouver la similarité entre deux mots (ou deux textes). • Cadre de travail : ensemble de documents textuels. Cours DESS II - Classification Conceptuelle - 28/02/2003

  16. Type de méthode • Méthode non supervisée • Méthode qui s’appuie sur le contexte des mots. Cours DESS II - Classification Conceptuelle - 28/02/2003

  17. - phrases - paragraphes - documents Occurrence des mots de chaque phrase X= mots Méthode (1/4) • Matrice relative aux mots du texte Cours DESS II - Classification Conceptuelle - 28/02/2003

  18. X X’ Méthode (2/4) • Normalisation log(1+xi) + entropie Cours DESS II - Classification Conceptuelle - 28/02/2003

  19. S r x r VT r x n X’ m x n U m x r Méthode (3/4) • Décomposition en valeurs propres : une matrice de rang r peut se décomposer de la manière suivante Cours DESS II - Classification Conceptuelle - 28/02/2003

  20. S r x r VT r x n X’’ m x n U m x r Méthode (4/4) • Approximation de la matrice X’ : construction sur seulement d dimensions d’une matrice X’’ qui est une approximation de la matrice originelle. Cours DESS II - Classification Conceptuelle - 28/02/2003

  21. Mesure de similarité utilisée • Mesure de Spearman (tendance des données à varier ensemble) où -1  R  1 Cours DESS II - Classification Conceptuelle - 28/02/2003

  22. Mesure de similarité utilisée • Mesure de Spearman Si R = -1 alors corrélation négative parfaite Si R = 1 alors corrélation positive parfaite Cours DESS II - Classification Conceptuelle - 28/02/2003

  23. Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computer system response time • c3: The EPS user interface management system • c4: system and human system enginneering testing of EPS • c5: Relation of user perceived response time to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quqsi-ordering • m4: Graph minor: A survey Cours DESS II - Classification Conceptuelle - 28/02/2003

  24. Exemple d’utilisation de LSA (1/5) • c1: Human machine interface for ABC computer applications • c2: A survey of user opinion of computersystemresponsetime • c3: The EPSuserinterface management system • c4: System and humansystem enginneering testing of EPS • c5: Relation of user perceived responsetime to error measurement • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Cours DESS II - Classification Conceptuelle - 28/02/2003

  25. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  26. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  27. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  28. Exemple d’utilisation de LSA (2/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  29. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graph minors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  30. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  31. Intuition de l’approximation : • m1: The generation of random, binary, orered trees • m2: The intersection graph of paths in trees • m3: Graphminors IV: Widths of trees and well-quasi-ordering • m4: Graph minors: A survey Exemple d’utilisation de LSA (3/5) 0.66 Cours DESS II - Classification Conceptuelle - 28/02/2003

  32. Normalisation X X’ X’’ Décomposition en valeurs propres + Approximation Exemple d’utilisation de LSA (4/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  33. c1 c2 c3 c4 c5 m1 m2 m3 m4 - - - - human 0 . 16 0 . 40 0 . 38 0 . 47 0 . 18 0 . 05 0 . 12 0 . 16 0 . 09 - - - - interface 0 . 14 0 . 37 0 . 33 0 . 40 0 . 16 0 . 03 0 . 07 0 . 10 0 . 04 computer 0 . 15 0 . 51 0 . 36 0 . 41 0 . 24 0 . 02 0 . 06 0 . 09 0 . 12 user 0 . 26 0 . 84 0 . 61 0 . 70 0 . 39 0 . 03 0 . 08 0 . 12 0 . 19 - - - - system 0 . 45 1 . 23 1 . 05 1 . 27 0 . 56 0 . 07 0 . 15 0 . 21 0 . 05 = X ' ' response 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 time 0 . 16 0 . 58 0 . 38 0 . 42 0 . 28 0 . 06 0 . 13 0 . 19 0 . 22 - - - - EPS 0 . 22 0 . 55 0 . 51 0 . 63 0 . 24 0 . 07 0 . 14 0 . 20 0 . 11 survey 0 . 10 0 . 53 0 . 23 0 . 21 0 . 27 0 . 14 0 . 31 0 . 44 0 . 42 - - - trees 0 . 06 0 . 23 0 . 14 0 . 27 0 . 14 0 . 24 0 . 55 0 . 77 0 . 66 - - - graph 0 . 06 0 . 34 0 . 15 0 . 30 0 . 20 0 . 31 0 . 69 0 . 98 0 . 85 - - minors - 0 . 04 0 . 25 0 . 10 0 . 21 0 . 15 0 . 22 0 . 50 0 . 71 0 . 62 Exemple d’utilisation de LSA (5/5) Cours DESS II - Classification Conceptuelle - 28/02/2003

  34. R = ?? Résultats (exo) : Matrice originale R = ?? Cours DESS II - Classification Conceptuelle - 28/02/2003

  35. R = ?? Résultats (exo) : matrice après normalisation et approximation R = ?? Cours DESS II - Classification Conceptuelle - 28/02/2003

  36. Résultats (exo) : Conclusion • Comparer R(humain, user) et R(human, minors) avec la matrice originale et la matrice normalisée et approximée. • Conclure... Cours DESS II - Classification Conceptuelle - 28/02/2003

  37. Applications (1/2) • Travail à partir de différents corpus (ensemble de textes homogènes) BUT : déterminer de manière automatique ou semi-automatique une classification conceptuelle du domaine. Cours DESS II - Classification Conceptuelle - 28/02/2003

  38. Applications (2/2) • Préparation des données en entrée de LSA :  Nettoyage  Prise en compte de la terminologie du domaine. Exemple : En biologie, considérer le terme "carboxyl-terminal" plutôt que chacun des mots "carboxyl" et "terminal". Cours DESS II - Classification Conceptuelle - 28/02/2003

  39. Deux approches supervisées :Asium et Rowan Cours DESS II - 28 février 2003

  40. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Construction des classes Corpus brut Cours DESS II - Classification Conceptuelle - 28/02/2003

  41. Asium (1/4) • Asium [Faure et Nedellec, 1998] utilise en entrée les textes d'un domaine analysés syntaxiquement. Il va ensuite extraire les triplets: - verbe, - préposition/fonction (si pas de préposition) - nom de tête du complément en forme lémmatisée. • Puis, on rassemble tous les noms apparaissants après un couple verbe/préposition (ou fonction). Ces listes de noms sont appelées classes de base. Elles sont reliées aux couples (verbe/préposition,fonction) qui ont permis de les créer. Cours DESS II - Classification Conceptuelle - 28/02/2003

  42. Asium (2/4) • Asium calcule ensuite une similarité entre toutes ces classes de base deux à deux. Les plus proches vont être assemblées pour former les classes apprises. • Ces classes apprises représentent les concepts du domaine. • Le simple calcul de similarité n'est pas suffisant pour apprendre les concepts d'un domaine, l'aide d'un expert est primordiale. En effet, certaines classes apprises peuvent comporter du bruit (erreurs d'analyse syntaxique). Cours DESS II - Classification Conceptuelle - 28/02/2003

  43. Asium (3/4) • Par exemple, les deux classes de base suivantes: • C1: voyager en (bateau, été, avion, hiver, voiture, train) • C2: se déplacer en (bateau, hiver, 4x4, vélo, avion) ont une bonne similarité. Néanmoins, leur agrégation ne représente pas un mais deux concepts. L'expert interviendra donc pour découper la classe apprise en deux concepts: Moyens de transport et Saisons. Cours DESS II - Classification Conceptuelle - 28/02/2003

  44. Asium (4/4) • De plus, l'expert devra vérifier que les inductions effectuées par Asium sont correctes. Ici les inductions effectuées sont : • voyager en 4x4 • voyager en vélo • se déplacer en été • se déplacer en voiture • se déplacer en train • Ces utilisations n'étant pas présentes dans les textes mais découvertes par Asium (induction). • Le calcul de similarité s'effectue entre toutes les classes de base deux à deux, puis l'expert valide la liste de toutes les classes apprises par Asium. Cours DESS II - Classification Conceptuelle - 28/02/2003

  45. Pré-traitements des données textuelles et utilisation de Rowan Cours DESS II - 28 février 2003

  46. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Étapes de notre travail(1/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut Cours DESS II - Classification Conceptuelle - 28/02/2003

  47. Le nettoyage • Types de nettoyage : - Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs) - Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références. - Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal carboxyl-termini, C00H-terminal, C02H-terminal, etc. par C-term. Cours DESS II - Classification Conceptuelle - 28/02/2003

  48. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 2ème étape : Recherche de termes Corpus avec termes Étapes de notre travail(2/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut Exemple de prise en compte de la terminologie du domaine :Considérer le terme « solution miracle » plutôt que chacun des mots « solution » et « miracle ». Cours DESS II - Classification Conceptuelle - 28/02/2003

  49. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Classification conceptuelle Étapes de notre travail(3/3) 1ère étape : Nettoyage Corpus nettoyé Corpus brut 2ème étape : Recherche de termes 3ème étape : Construction des classes Corpus avec termes Cours DESS II - Classification Conceptuelle - 28/02/2003

  50. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus avec prise en compte de la terminologie Détection de la terminologie(1/7) 2ème étape activité professionnelle tête froide circuit fermé intérêt général Liste de termes Corpus nettoyé Cours DESS II - Classification Conceptuelle - 28/02/2003

More Related