1 / 16

Organisation de l’entrepôt edot

Organisation de l’entrepôt edot. Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen. Entrepôt e.dot : Architecture. Services edot. Interface edot. Miel++. ActiveXML. ACWare. BD. Xyleme. CG. Entrepôt edot. Entrepôt e.dot. Entrepôt de travail

wayne
Télécharger la présentation

Organisation de l’entrepôt edot

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen

  2. Entrepôt e.dot : Architecture Services edot Interface edot Miel++ ActiveXML ACWare BD Xyleme CG Entrepôt edot

  3. Entrepôt e.dot • Entrepôt de travail • Échange de données entre les services • Stockage des résultats intermédiaires (validation) •  Schéma « orienté-services » • Entrepôt final • Interrogation par MIEL++ •  Schéma « orienté-domaine »

  4. Entrepôt de travail • Toutes les données (paramètres, fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt • Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt

  5. Organisation de l’entrepôt : Modèle ACWare • Modélisation des données : • Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés • Schéma : organisation des données • Modélisation des services : • Règles de mise-en-correspondance : Schéma  entrées/sorties de services Web • Modèle : Xquery (extraction) + Xupdate (MAJ)

  6. Entrepôt de travail : Contenu et Structure Globale • Initialisation : • Parmètres d’initialisation du crawler • Ontologie • Un ensemble de pages web • Un ensemble de documents PDF • Un ensemble de documents Excel • Pour chaque document/page: • Les résultats des traitements appliqués (services edot) E.Dot Initialisation ExcelDoc PageWeb PDFDoc

  7. Initialisation E.Dot Initialisation Version Crawl Ontologie String MaxNum MaxDur Souscriptions UrlsIncl UrlsExclus

  8. Ontologie edot Initialisation Ontologie SymPrevius Combase Merge infos schemaRel synonymes traduction taxonomie

  9. Pages web • Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements • Chaque document/page est identifié par une URL (clé) • Les résultats des traitements sont stockés « avec » le document/la page E.Dot PageWeb URL Acqu SML Xtab String

  10. Phase Acquisition PageWeb • Xyleme Crawler : • Fonction : crawl exhaustive et filtrage brut (monitor) • Résultat : {(URL, mots clés)} • E.Dot Filter : • Fonction : crawl + filtrage intelligent • Résultat : {(URL, contenu, score) • Thesus : • Fonction : classement • Résultat : {(URL, mots clés)} Acqu Date String Thesus Crawl Filter

  11. Crawl Xquery/Xupdate <crawl> <crawldate> xs:date </crawldate> [1] <notification> [0..*]<url> xs:string </url> [1] <subscription> xs:string </subscription> [1] <monitoring> xs:string </monitoring> [1] </notification> </crawl> Crawl Souscription Date Id String String Int

  12. Keywords Date 17/6/04 false ph aliment Thesus • Initialisation : Activate = true • Le service Thesus et lancé périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true • Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false Thesus Activate true

  13. EdotFilter <Filter> <Activate:$> <RequeteFilter:$/> <Type:$/> <Score:Int/> <TexteNettoye:$/> <ContenuBrut:$/> </Filter> Filter Activate Contenu Texte Date Requête Boolean Score Type

  14. <ExcelDoc> <URI:$/> <Contenu:$/> <Excel2Xtab:*/> <sml:*/> </ExcelDoc> <pdfDoc> <URI:$/> <Contenu:$/> <MetaPdf:*/> <pdf2Xtab:*/> <sml:*/> </pdfDoc> Schéma : ExcelDoc et pdfDoc

  15. Implantation de l’entrepôt • Le schéma ACWare est traduite en application ActiveXML : • Ensemble de documents XML intensionnels accessibles à travers des requêtes XQuery publiées sous forme de services Web • Limitations actuelles : • Gestion de grands volumes de documents/données • Outils d’exploration et de validation de l’entrepôt

  16. État d’avancement • Travail accompli : • Définition des signatures WSDL des services edot • Définition du schéma ACWare de l’entrepôt de travail • Travail en cours: • Intégration des services edot (requêtes entrées/sorties) dans le schéma ACWare • Interface graphique de conception et de pilotage interactif (pour la validation) • Intégration ActiveXML/Xylème Zone Server

More Related