Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales

IsidoreAccès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010

ENJEUX

Le projet – Les enjeux • Enjeux stratégiques • Un outil : des usages multiples • Un point d’accès aux données numériquesdes SHS • Un socle : une infrastructure applicative

Le projet – Les enjeux • Enjeux technologiques Des besoins « forts » en traitement des données Un outil industriel et évolutif Prendre en comptela diversité

Le projet – Les enjeux • Enjeux organisationnels • Méthode agile • Une maîtrise d’œuvre plurielle publique-privée

Méthode projet Enrichissement des données Moteur de recherche Gestion des référentiels Plateforme d’intégration Frontaux (proxy) Démonstrateur Intégration et IHM

Un projet classique ?

Principe du projet • Un projet classique en apparence Collecter Traiter Diffuser

Vision de la valorisation de l’information Contenu Bases d’indexation Texte … 2.0 Web RDF EndpointSparQL 3.0 xhtml+RDFa Linked Data Publication robots Captation / Extraction Annotation Inférence

Les particularités du projet • Collecter des données hétérogènes • primaires, secondaires • annuaires, bases de données, référentiels • Exploiter les métadonnéeset le texte intégral • Points durs : diversité, volumétrie

Les particularités du projet • Traiter Normaliser les données(qualité, forme, alignement) Enrichir(classification, URI pérenne, vignettes, extraction…)

Les particularités du projet • Diffuser avec le moteur de recherche • recherches plein texte, multicritères et à facettes • autocomplétion, correction orthographique • traitements linguistiques avancés

Les particularités du projet • Diffuser dans le Web de données Rendre accessibleà l’écosystème les données enrichies Se préparer auLinked/Open Data Permettre l’émergence de nouveaux outils exploitant les données

Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données COLLECTER TRANSFORMER ENRICHIR INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore ADMINISTRER Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

COLLECTER, transformer, enrichir

La réponse • AFS-PaF : Pipes and Filters • industrialisela chaîne de captation et de traitement des données • introduit un modèle d’Unité Documentaire évolutif et souple • fournit un cadre de développement et de configuration de haut niveau

Chaines de traitement • Créer des chaines de traitement par assemblage de modules Sources de données Module connecteur Modules de transformation et enrichissement

Des filtres • Un framework qui permet de construire des modules • 50+ filtres prêts à l’emploi • Un environnement d’exécution

Le document • Le document • est composite • est dynamique • évolue dans le temps • est un objet à gérer • à accéder de façonunifiée

Le Document • Document Manager abstrait le stockage et l’accès aux documents : • stockage « cloud » • créer / lire / écrire les couches

PAF ISIDORE Principes Généraux

Vue générale de la chaîne « PaF » Isidore Des sources multiples et des traitements ad-hoc • Sites Web • collecte par sitemap • extraction des données RDFa • Flux RSS • capitalisation « illimitée » • Entrepôts de publications : articles, revues, thèses, … • captation structurée : OAI-PMH, OAI-ORE • extraction des métadonnées : DC • Diverses sources structurées • annuaires de personnes, ressources, sources • conférences, séminaires, … Sources de données Connecteurs Modules Pipes&Filters spécifiques aux sources Modules Pipes&Filters communs Sites Web (sitemap) Flux RSS … Liens pérennes Entrepôts OAI … Annotation … Calenda … … Référentiels SKOS Fichiers XML de configuration des connecteurs AFS et des modules de normalisation

Chaîne de collecte et de traitement Une chaîne dédiée à la normalisation : 12 filtres Récupération de chaque ressource listée dans le Sitemap Extraction du RDFa Sérialisation du RDFa Passage dans un format pivot Normalisation de la date Normalisation de l’auteur Récupération Handle et imagette Ajout des informations sources/document Sérialisation du XML pivot

Chaine d’enrichissement Une chaîne dédiée à l’enrichissement : 14 filtres Classification sur la taxonomie HAL Classification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps Calenda Classification sur la taxonomie Géo Calenda Alignement des types de document Alignement des dates sur Thésaurus W (SIAF) Alignement des langues sur Lexvo Enrichissement des auteurs sur HAL Extraction des sujets sur Rameau, Pactols, Geonames Fusion des annotations

PAF ISIDOREFocus sur certains points

Maintenabilité - exemple • 745 sources de données PaF des données … Configuration des sources Isidore (application dédiée) PaF des sources Interface Utilisateur Fichiers XML de définition des sources Moteur de recherche dans les sources

La classification automatique • Classification par entrainement • le moteur utilise les documents déjà classés pour apprendre • puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus

L’alignement • Alignement des contenus sur des référentiels fr Français FR francais français Français Anglais en anglais eng english EN

L’Extraction • Extraction sur des référentiels Mots clefs Chaîne de caractères Est exprimé par Est décrit par Le moteur effectue unecomparaison morphologique Pour lier le mot-clé au concept Étiquette A noter qu’un algorithme permet de limiter le nombre d’annotations par contextualisation Est exprimé par Une ressource documentaire Chaîne de caractères Est décrit par Est décrit par Organise Concept Un thésaurus

Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffusion Applications Moteur de recherche Web des données INDEXER GENERER Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

Générer, Diffuser

Publication du RDF • Les données et enrichissements sont exportés en RDF en bout de chaine • Les triplets générés sont exploités • pour retour vers les sources sous forme normalisée • pour traiter des requêtes complexes • pour une exposition dans le Web de données Génération Chargement de l’entrepôt Entrepôt RDF Fichiers de triplets Corpus

Négociation de contenu • AFS et SPARQL sont des Web Service techniques • Ils sont enrobés dans une couche métier • un Web Service applicatif qui permet la négociation de contenu Description XML Description RDF Document

Favoriser l’utilisation • Pas de code spécifique • de la « configuration » : XSL et SPARQL au plus • limiter les coûts de développement / test • disposer d’une solution simple à faire évoluer

Une aide à l’intégration

Architecture

Architecture fonctionnelle globale Sources de données Collecte, traitement, indexation Diffuser Applications Service de recherche AFS indexation UI de démo Web : sites, flux Capter Annoter, filtrer Normaliser, dédoublonner génération du RDF Entrepôts OAI rechercheisidore Applications de gestion de la plateforme Isidore Configuration des sources (appli dédiée) Gestion des référentiels (ITM) Back Office moteur (BO-AFS) Entrepôts RDF SparQL endpoint Applications, Web Services

Architecture logique

Architecture physique • 6 serveurs : haute disponibilité • 2 frontaux : Web Services • 2 répondeurs, 1 indexeur • 1 triplestore et back-office

Merci de votre attention

Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales