500 likes | 619 Vues
Structuration XML pour le text mining de données hétérogènes. Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay. Plan. Text mining de corpus hétérogènes Accès sémantique aux documents hétérogènes : le sens varie
E N D
Structuration XML pour le text mining de données hétérogènes Helka Folch Groupe LIR (Langues, Information, Représentations) Département Communication Homme-Machine LIMSI-CNRS - Orsay
Plan • Text mining de corpus hétérogènes • Accès sémantique aux documents hétérogènes : le sens varie • Architecture de corpus pour le text mining • Externaliser les annotations • Mémoriser les traitements • Topic Maps : Articuler des points de vues multiples sur un corpus • Projet Alliances : repérage de points de vues dans des forum électroniques • RDF : Mise à plat et articulation des assertions • Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire • Conclusion
Besoin : accès sémantique aux documents Web sémantique (W3C) : utopie d'une inter-langue parfaite ? • Goldfarb ("Monsieur SGML") : Topic Maps are the GPS of the information universe (Extreme Markup Languages Conference, 98) • Internet : adressage univoque de ressources au moyen d'URLs • Web sémantique : langage univoque pour décrire les événements de la Toile Topic Maps (ISO13250): Modèle d'annotation pour des cartes sémantiques navigables du Web ?
? ? Langage de l'économie, de la sociologie, etc. Langages médicaux (Mesh, UMLS,...) ISO 3166-2 ISO 639 De l'univoque au mouvant • Travail de OASIS et de W3C (consortiums pour la définition des standards du Web) : définition de nomenclatures univoques pour référencer des régions (ISO 3166-2), des langues (ISO 639), des aéroports (UN/LOCODE), etc.
Fonctionnel (pour le corps) Goût Composante organique Agent carbohydrate Edulcorant Variation du sens 1/4 Les entités changent de sens selon le réseau où elles figurent Sugar : Intersection de sens dans deux réseaux mais divergences Ontologie médicale (Mesh) Réseau sémantique lexical généraliste (WordNet)
Hyponymie Synonymie Variation du sens 2/4 Mesh • sweetinng • sweetener • organic compound WordNet • carbohydrate • saccharide • sugar • sugar • refined sugar Synset • sugarloaf • sugar loaf • loaf sugar • polysaccharide • polyose • wood sugar • xylose • lump sugar • cane sugar
Variation du sens 3/4 MeSH Analytical, Diagnostic and Therapeutic Techniques and Equipment Chemicals and Drugs Psychiatry and Psychology Anatomy Organisms WordNet Enzymes, Coenzymes, and Enzyme Inhibitors Carbohydrates and Hypoglycemic Agents Organic Chemicals Carbohydrates Carboxylic Acids Enzymes Alcohols Amino Sugars Glycosides Oxidoreductases Nucleotides Sugar Alcohols Alcohol Oxidoreductases Acids, Acyclic Nucleoside Diphosphate Sugars Carbohydrate Dehydrogenases Sugar Acids Adenosine Diphosphate Sugars Sugar Alcohol Dehydrogenases 1
Variation du sens 4/4 • Variation du sens dans les forums planétaires (Projet Alliances) - Associations (via Zellig) des synonymes de `monnaie alternative' : "troc" et "monnaie sociale", selon l'origine des intervenants impôt compte impôt flux hyperinflation socioéconomie_solidaire imaginaire économie_solidaire instrument fortune monnaie sociale monnaie sociale paiement pratique système résistance compte aide échange gestion Vision économique Europe Argentine Vision sociale Zellig (Habert, 98) : logiciel qui vise à dégager les classes sémantiques d'un corpus sur la base des dépendances syntaxiques partagées entre les mots.
Acquisition sémantique Corpus Annotation Text mining de corpus hétérogènes : une approche inductive • Corpus hétérogènes et évolutifs • Plusieurs points de vues sont représentés (pas forcément de convergence sur le sens des mots) • Les points de vues peuvent évoluer (corpus de veille) Absence d’ontologies pré-existantes applicables Approche inductive
Plan • Text mining de corpus hétérogènes • Accès sémantique aux documents hétérogènes : le sens varie • Architecture de corpus pour le text mining • Externaliser les annotations • Mémoriser les traitements • Topic Maps : Articuler des points de vues multiples sur un corpus • Projet Alliances • RDF : Mise à plat et articulation des assertions • Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire • Conclusion
Architecture de corpus pour le text mining de données hétérogènes • Constituer des corpus selon un point de vue donné à partir d’objets textuels de granularité variable; • Garder la trace des critères de constitution d'un corpus; • Garder la trace des traitements sur un corpus et leurs liens aux documents de départ; • Articuler sur la collection documentaire les résultats pas forcément convergents obtenus avec des traitements variés sur des corpus distincts provenant de cette même collection.
Plan • Text mining de corpus hétérogènes • Accès sémantique aux documents hétérogènes : le sens varie • Architecture de corpus pour le text mining • Externaliser les annotations • Mémoriser les traitements • Topic Maps : Articuler des points de vues multiples sur un corpus • Projet Alliances • RDF : Mise à plat et articulation des assertions • Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire • Conclusion
Topic Maps : Articuler des points de vues multiples sur un corpus Projet Alliances (2001-2003) (Claude Henry, Dépt. CHM, LIMSI): projet RNRT (LIMSI, LIP6, XEROX, FPH) Objectif : étude des convergences et divergences de points de vues dans des réseaux associatifs distribués.
(Indications scéniques, etc.) Da Capo Besoin d'un format d'annotation "externalisant" 1/5 • HyTime (ISO/IEC 10744:1997) : format de documents structurés multimédia • Origines : - langage SGML de description musicale - description d'un opéra • Objectif : - synchroniser des objets sur des flux spatiaux et temporels multiples Topic Maps (ISO 13250) : Modèle d'annotation pour définir des cartes sémantiques navigables XTM(ISO 13250:2000) : portage de Topic Maps en XML (Paroles, etc.)
Besoin d'un format d'annotation "externalisant" 2/5 • Synchroniser plusieurs flux d'annotation éventuellement divergents Participant1 Forum du projet Alliances Pays d'origine4 Participant3 Pays d'origine Participants Messages Jours Jour2 Jour3 jour1 Jour4
Besoin d'un format d'annotation "externalisant" 3/5 "farcir" externaliser HTML XLink XCES TEI • Notion de lien indépendant (HyTime) : stocké séparément des ressources qu'il relie • Notion de topic (Topic Maps) : lien indépendant qui regroupe des localisations du corpus autour d'un même sujet • Définition des liens séparée des ressources reliées : permet de modifier les liens sans modifier les documents eux-mêmes Participant1
Besoin d'un format d'annotation "externalisant" 4/5 Permet de faire coexister des annotations concurrentes sur les mêmes données SEGMENTATION2 SEGMENTATION1 Segment1 Segment1 Segment2 Segment2 Segment3 Segment3 Segment3 Segment4 Segment5 Segment6 Segment7 Je ne m ' étais pas occupée
Besoin d'un format d'annotation "externalisant" 5/5 • Les annotations concurrentes peuvent former des hiérarchies enchevêtrées. Si elles ne sont pas externalisées, la structure d'arborescence stricte d'un document XML l'interdit SEGMENTATION2 SEGMENTATION1 Segment1 Segment2 Segment1 Segment2 Flux de données • Les liens indépendants dans les annotations externes peuvent être à destination multiple (versus liens point à point dans HTML) • permet l'adressage d'objets discontinus Segment1 Segment2 je ne m'étais pas occupée
Recursivité de l’annotation • Le résultat d'un traitement peut lui-même être annoté par un autre traitement 3 Mise en évidence des sur et sous emplois relatifs des classes des clusterings (Lexico) Spécificités Cluster1 Spécificités Cluster2 2 Clustering (CHA) des parties (les participants) en R Participant1 Participant4 Participant5 1 Création d'un corpus partitionné (par participant) à partir de la signalétique Participant3 Fiches
Mémoriser les traitements Analyse LEXICO paramètres • Garder la trace des critères de constitution d'un corpus et des traitements réalisés (paramètres) scope Spécificités Cluster1 Spécificités Cluster2 scope Clustering R paramètres ... Participant1 Participant4 Participant5 • Notion de scope dans Topic Maps : permet de définir le contexte des propriétés d'un topic Participant3 Fiches
Paramétrage Zellig Paramétrage segmentation Revenir des traitements et des résultats aux corpus d'origine Contextes élémentaires scope EXTRACTION scope - Paramètres d'extraction (Pays d’origine 2 + 4) - Hypothèses de constitution du corpus Corpus Pays d'origine Participants Messages Jours jour3 jour7 jour1 jour15
Navigation mot -> contexte élémentaire -> co-texte visualiseur de Topic Maps Omnigator (http://www.ontopia.net) Type du topic Nom du topic Scope ou contexte Référence dans le corpus Propriété du topic: le contexte élémentaire
Plan • Text mining de corpus hétérogènes • Accès sémantique aux documents hétérogènes : le sens varie • Architecture de corpus pour le text mining • Externaliser les annotations • Mémoriser les traitements • Topic Maps : Articuler des points de vues multiples sur un corpus • Projet Alliances • RDF : Mise à plat et articulation des assertions • Projet P000f (EDF) : ré-utilisation de données pour l’analyse secondaire • Conclusion
Structuration RDF pour l’analyse secondaire • Projet de collaboration EDF R&D-LIMSI CNRS Fouille de données complexes et visualisation d’information (Projet P000f) 2003-2005 • Equipes • SOAD (Statistiques Optimisation et Aide à la Décision) EDF R&D • Sylvaine Nugier, Marie-Luce Picard, Yasmina Quatrain • CHM (Communication homme-machine) LIMSI – CNRS • Helka Folch, Benoît Habert, Christian Jacquemin, Frédéric Vernier
Problématique de la fouille de données complexes à EDF multi-relationnelles multi-sources
Problématique – Début de solution : l’analyse secondaire • L’analyse secondaire comme définie et pratiquée à EDF« réutiliser des données déjà capitalisées avec des objectifs d’analyse qui ne sont pas ceux pour lesquels elles étaient initialement collectées » • Le recours à l’analyse secondaire est motivé par : • les coûts • les gains méthodologiques apportés • Des précautions méthodologiques… • la mise à disposition des traces du contexte de l’analyse initiale, des stratégies, des hypothèses d’analyse en plus des données brutes.
Problématique – Périmètre des travaux • Les travaux décrits aujourd’hui portent uniquement sur la réutilisation de données contenant du texte • Approche multi-métier : sociologues, « data-miners » et chargés d’étude marketing • Sources de données traitées : • Bases de capitalisation d’entretiens • Forums de discussion • Enquêtes de satisfaction • Absence d’hypothèse de départ… • Absence d’ontologie
Transformer RDF TROIE Architecture globale Dixit Forum DD … Structuration de données Données Brutes Données Structurées Analyse et fouille de données complexes Alceste et Temis Importation Et Annotation Recherche Filtrage Exportation ACHILLES
http://www.forumDD.org/msg1.htm message_père titre http://www.forumDD.org/msg2.htm date l’énergie éolien 12/4/99 Valeur littérale Ressource Choix technique : RDF Articuler des assertions sur les métadonnées • Langage défini par le consortium W3C (www.w3.org) • Brique de base : le triplet <ressource><propriété><valeur>. <http://www.forumDD.org/msg1.htm, titre, "l’énergie éolien"> <http://www.forumDD.org/msg1.htm, date, "12/4/99" > <http://www.forumDD.org/msg1.htm, message_père, http://www.forumDD.org/msg2.htm >
Du graphe RDF à la syntaxe XML http://www.forumDD.org/msg1.htm message_père titre http://www.forumDD.org/msg2.htm date l’énergie éolien 12/4/99 Valeur littérale Ressource <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" <rdf:Description rdf:about=" http://www.forumDD.org/msg1.htm"> <titre> l’energie éolien </titre> <date>12/4/1999</date> <message_père> http://www.forumDD.org/msg2.htm</message_père> </rdf:Description> </rdf:RDF>
export Structuration : TROIE 1/4 $FILE: Intitule: Structure de l'offre destinée aux clients résidentiels f_DateFinEtude: 07/10/2001 ReferenceMKM: STUDEO 13109 valmeth: 1 Entretien individuel,2 Table ronde - Entretiens de groupe valmetbis: 1 Entretien individuel intext: Externe demographie: Particuliers MarcheAff: Particuliers Marcheseg: Particuliers sexe1: femme sexbis: age1: 53 agbis: csp: secrétaire de direction cspbis: nombre1: effectif1: stat: propiétaire maison: maison chiffre_1: principale chauffage: gaz energie1: électricité,gaz tarif1: base codepostal1: 35740 Doc_Type: Fiche signalétique d'entretien ValeurMethod: Entretien individuel logtab: 1 yn: Externe segment: Particuliers E : Vous choisiriez le gaz ? P : Oui, je pense. Si je devais faire une installation dans ma propre maison ce serait plutôt vers le gaz que je me dirigerais. E : A cause du coût ? P : Oui voilà.. A cause du coût et de la chaleur. La chaleur n’est pas la même. Peut-être que maintenant les installations sont plus performantes mais.. E : En tout cas vous leur demanderiez : s’il n’y a pas une autre chaleur électrique ? P : Oui, j’essaierais de voir s’il n’y a pas une autre solution. Je vois qu’à la maison, en plein hiver les chauffages sont pratiquement mis à fond et on n’a pas l’impression d’avoir chaud. La maison est très bien isolée, ce n’est pas ça.. En plus on a une dalle chauffante, au rez-de-chaussée, qui est allumée en permanence et par rapport à ça, on arrive sans allumer les convecteurs à une température constante de 19°. Ce qui est bien. Dans la journée on éteint les convecteurs puisqu’il n’y a personne et la température de la dalle maintien un minimum de chaleur. C’est surtout sur ce point là que j’insisterais. E : Donc, si nouveau fournisseur, vous lui poseriez quoi, comme question ? P : Je leur demanderais de prouver, par A plus B, que la chaleur électrique est aussi performante que celle au gaz, au niveau confort.
Structuration : TROIE 2/4 RDF : Séparation des données et des métadonnées
TROIE 3/4 RDF : Validation par rapport à un schéma ou vocabulaire <rdf:Description rdf:about="file:///ex_dixit/entretien_12_12"> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#entretien"/> <dixit:entretien_brut>ex_dixit/data/entretien_12_12.xml</dixit:entretien_brut> <dixit:segment_de_marche>PME-PMI</dixit:segment_de_marche> <dixit:donneesLogement> <dixit:maison>false</dixit:maison> <dixit:proprietaire>false</dixit:proprietaire> <dixit:principale>true</dixit:principale> <rdf:type rdf:resource="file:///schema_p00f/dixit.rdf#donneesLogement"/> <dixit:donneesLogement> </rdf:Description> Instance Espace de nom <rdf:RDF xmlns:rdf ="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xml:base ="file:///schema_p00f/dixit.rdf#"> <rdfs:Class rdf:ID="donneesLogement"/> <rdf:Property rdf:ID="proprietaire"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="maison"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> <rdf:Property rdf:ID="principale"> <rdfs:domain rdf:resource="#donneesLogement"/> <rdfs:range rdf:resource="&xsd;boolean"/> </rdf:Property> Schema Nom du schéma Contrainte sur le type de données
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) Une journée dans la vie d’une étude… : ACHILLES 1. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
Je veux connaître le potentiel d’utilisation de la climatisation réversible auprès des clients d’EDF SA…. Je veux les documents ayant trait à la chaleur et au froid (1) Je veux uniquement les documents reprenant l’avis de particuliers (2) Analyse_1.rdf Analyste Validation (2) Segment de marché = particuliers « chaleur » Eventuellement, retour en arrière « froid » (1) 3. Requêtage et filtrage Construction d’un corpus à partir de plusieurs sources par requêtage et filtrage.
TEMIS ALCESTE 3. export/import Analyse_1.rdf Analyste Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations Production des résultats Structuration Analyse_1.rdf
TEMIS ALCESTE 3. export/import Analyse_1.rdf Analyste Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations Espaces de noms RDF Production des résultats Structuration Analyse_1.rdf
TEMIS ALCESTE 3. export/import Analyse_1.rdf Analyste Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations Production des résultats Structuration Analyse_1.rdf
TEMIS ALCESTE <classe1, nom, ‘factures'> Assertion 1 Assertion sur Assertion < Assertion1 , auteur, ‘helka'> Assertion 2 3. export/import Analyse_1.rdf Analyste Analyse_1.rdf Export vers des logiciels d’analyse, import des résultats et des interprétations Production des résultats Structuration Analyse_1.rdf
Conclusion Topic Maps vs RDF pour le text mining • Topic Maps et RDF permettent : • Gérer séparément données et méta-données • Annoter des données de granularité variable • Réifier les annotations • Définir des schémas ou vocabulaires spécifiques validables • Topic Maps est plus adapté à la navigation • RDF est plus adapté au requêtage • Plus de maturité des logiciels disponibles pour RDF • Jena Java RDF API • IsaViz (pour visualiser et éditer les graphes RDF) • RDFDB (BD qui supporte RDF et le langage de requêtes RDFQL) • Ni Topic Maps ni RDF résolvent le problème de la normalisation sémantique des méta-données, seulement la normalisation syntaxique Mais !!