1 / 23

L’action nationale de R&D SYNTAX

L’action nationale de R&D SYNTAX. Constat initial Objectif Durée Contenu Partenaires Organisation Budget Recoupements et apports Autres projets. Constat initial. nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents

qamar
Télécharger la présentation

L’action nationale de R&D SYNTAX

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. L’action nationale de R&D SYNTAX • Constat initial • Objectif • Durée • Contenu • Partenaires • Organisation • Budget • Recoupements et apports • Autres projets

  2. Constat initial • nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents • organisation des bases documentaires • traitement des contenus textuels de ces bases • différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels • maturation de l’ingénierie documentaire et linguistique • Technologies validées : • Couches basses: étiquetage morpho-syntaxique, chunking • Modules de plus haut niveau: extraction de termes, classification de documents, etc. • Stabilisation des technologies autour de XML (W3C) • Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques

  3. Objectif • rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés • intégration : les documents proviennent de sources multiples • gestion : indexation, classification et extraction d’informations terminologiques  • documents spécialisés : documents présents sur un Intranet d’entreprise ( documents quelconques sur Internet) • cela suppose • de compléter certains développements issus de projets INRIA ou industriels • de standardiser des formats d’échange entre de tels composants • de valider l’ensemble dans des conditions proches de l’opérationnel

  4. Contenu (1) • 3 sous-thèmes • gestion d’informations entrantes • acquisition et gestion de terminologies/lexiques multilingues • plate-forme de modélisation et de gestion de référentiels XML

  5. Sous-thème 1 : gestion d’informations entrantes • tâches • acquisition de textes • gestion de formats hétérogènes (Word, LateX, …) • documents natifs XML • intégration dans une base semi-structurée • méta-données • identification d’informations structurantes (date, auteur, noms propres) • annotation par les utilisateurs • annotation de surface, enrichissement • publication des annotations • classification (taxonomie existante ou non) • recherche de thèmes et segmentation (statistique) • identification de clefs d’indexation (linguistique)

  6. Sous-thème 1 : gestion d’informations entrantes documents hétérogènes documents natifs XML poste d’annotation qualifier établir des liens etc. base de documents métadonnées format vocabulaire édition accès annotation de surface date, … entités nommées : personnes, lieux, … structure indexation Segmentation (autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking classification non contrôlée classification contrôlée (ontologies, …)

  7. Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues • tâches • extraction de termes à partir de textes • étiqueteur morphosyntaxique (Part Of Speech tagger) • chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes • bases de lien termes-textes • reprise de bases lexicales existantes • édition collaborative des bases terminologiques

  8. Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues rédacteur technique traducteur terminologue liens ontologies base de textes graphe de termes poste d’édition collaborative extraction de termes Part Of Speech tagger reconnaissance de termes chunker importation de bases lexicales (Outilex) variabilité

  9. Sous-thème 3 : modélisation et gestion de référentiels XML • tâches • modélisation des structures (UML) • gestion du référentiel de modélisation • règles de passage et de génération de schéma XML, génération dynamique de modèles • récupération de sous-schémas XML existants, cohérence des référentiels • Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)

  10. Sous-thème 3 : modélisation et gestion de référentiels XML répertoires (ISO) = gestion du référentiel de modélisation modélisation catégories de données (genre, nombre, date de révision, …) = ensemble des descripteurs élémentaires squelette format UML spécification des éléments à identifier schéma XML autres formats valider (contrôler les postes d’édition) échantillon filtre données externes réutilisation de données existantes

  11. Durée et phasage (1) • 3 ans • 3 à 6 mois de discussion avec les partenaires • affiner le programme de travail • définir l’organisation à mettre en place • mettre au point les contrats (propriété des résultats) • 2 ans de travaux • 6 à 9 mois de dissémination des résultats • sous-thème 3 permanent tout au long de l’action • sous-thèmes 1 et 2 • reposent sur le sous-thème 3 • sont relativement indépendants car ne sont reliés que par les ontologies

  12. Durée et phasage (2) • sous-thème 1 • Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens • En parallèle: identification précise des besoins des industriels (scénario d’expérimentation) • Mise en conformité (formats, API) des composants à intégrer • Intégration • sous-thème 2 • Chaîne d’extraction de termes • en parallèle, spécification précise de la plate-forme globale (identification des outils à intégrer) • Couplage à l’outil de gestion de la base de liens • Intégration (outil d’édition de terminologies) • sous-thème 3 • répertoire de catégories de données • API, de filtres, catalogue de méta-modèles et le

  13. Organisation • Principes • l'INRIA apportera des résultats de travaux de recherche et du personnel • les partenaires apporteront certains travaux antérieurs et du personnel • tous les développements réalisés seront réutilisables par tous les partenaires • chaque industriel adaptera à son contexte propre les résultats obtenus • pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés • ces équipes pourront être hébergées par l'INRIA • elles seront coordonnées par un comité scientifique réduit • des séminaires techniques à intervalle régulier • étroite collaboration avec le groupe miroir français du TC37/SC4

  14. Critères de réussite • transfert technologique  • utilisation opérationnelle des plates-formes par au moins 2 partenaires industriels • diffusion de composants par une ou des sociétés de technologie issues ou non de l’INRIA • impact sur le domaine : publication de normes pour l’ingénierie des langues et du document • création d’une dynamique dans la communauté française • une des retombées = mobilisation pour des réponses à des appels à propositions • meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels • relance des travaux de recherches • meilleur dialogue entre ces équipes

  15. Budget : charges • conduite de l’action : 1 personne sur  3 ans ………..…………. = 36 h x m • gestion d’informations entrantes …………………………… …… = 114 h x m • acquisition et gestion de terminologies/lexiques multilingues = 60 h x m • plate-forme de modélisation et de gestion de référentiels …… = 50 h x m total = 260 h x m

  16. Budget : financement • autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois • 6 partenaires industriels à 18 h x m chacun= 108 hommes x mois • DirDRI (action nationale de R&D) • 3 personnes sur 2 ans • l’équivalent d’1 personne à plein temps pour assurer la conduite de l’action sur 3 ans = 108 hommes x mois total = 260 h x m

  17. Autres projets • projets Technolangue • RNIL (accepté, démarrage prévu début novembre) • CODEX-termes (accepté, démarrage prévu début novembre) • projet ITEA • JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère de l’industrie) • rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA • projets RNTL • OUTILEX (accepté, démarrage prévu début octobre) • concerne la modélisation de données lexicales • XMINER (accepté, a démarré début juillet) • projet européen E-content • INTERA (accepté, démarrage prévu début octobre) • développe des outils de modélisation de données XML en lien avec la standardisation

  18. Technolangue : RNIL (1) • objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique • participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques • validation des propositions normatives • développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l’industrie • production de jeux de test • diffusion d’informations • production d’une lettre d’information électronique régulière • organisation de séminaires techniques

  19. Technolangue : RNIL (2) • Partenaires • académiques et labos de recherche • AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO) • gros industriels • CEA, XRCE, EDF R&D, Systran, EADS • (Dassault Aviation observateur) • PME • Softissimo, Sinequa, Lucid-ID, J-way • INRIA • Atoll, Langue & Dialogue, SYNTAX

  20. Technolangue : RNIL (3) • Coût • coût total = 700 000 euros (TTC) • aide accordée = 450 000 euros (TTC) • Durée • 36 mois

  21. Technolangue : CODEX-termes • objectif • élaboration d’un composant complet et performant d’extraction terminologique • production de données terminologiques dans le domaine du TALN et pour la CN 36 • partenaires • AILF (Association des Informaticiens de Langue Française), CNSX SA (PME de Carquefou),DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon) • coût total = 600 000 euros (TTC) • aide demandée = 350 000 euros (TTC) • durée prévue = 24 mois

  22. Recoupements et apports • gestion d’informations entrantes<---- XMINER • acquisition de textes <---- XMINER   • intégration dans base semi-structurée <---- XMINER • annotation par les utilisateurs <---- OPERA (Annotea) • classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR • acquisition/gestion de terminologies multilingues <---- CODEX-termes • extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR • bases de lien termes-textes <---- Dassault Aviation • import de bases lexicales existantes <---- OUTILEX • édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT • modélisation et gestion de référentiels XML<---- JULES VERNE, INTERA

  23. Priorités immédiates • Validation d’une convention de participation • Engagement des partenaires • Mise en place du comité de pilotage • Stabilisation de l’annexe technique • Base: priorités définies aujourd’hui • Mise en place d’un groupe de travail (comité scientifique?) • Responsables de sous-thème • Localisation des forces de travail • Lancement du travail technique • Rodage: cf. Projets technolangues • Activation effective dès signature des conventions par une masse critique de partenaires

More Related